AI 뉴스

알리바바 Qwen image 랜더링 AI 발표

페이지 정보

작성자 JeromePark
작성일 2025.08.05 09:05
770 조회
0 추천
0 비추천

본문

알리바바가 텍스트 렌더링 및 정밀 이미지 편집에 특화된 20B MMDiT 이미지 기반 생성 모델 Qwen-Image를 발표했다. 

이 모델은 영어 등 알파벳 언어와 중국어 등 표의문자를 모두 고해상도, 높은 정확도로 이미지 내에 렌더링할 수 있는 강점을 보이며. 다중 행, 문단 레이아웃, 정교한 디테일까지 충실히 재현한다고.

또한 GenEval, DPG, OneIG-Bench 등 이미지 생성 벤치마크와 GEdit, ImgEdit, GSO 등 편집 벤치마크에서 모두 최고 성능을 기록했다. 특히 LongText-Bench, ChineseWord, TextCraft 등 텍스트 렌더링 관련 벤치마크에서 현존 최고 모델들을 크게 앞질렀다고 발표했다.

8ec6d5daac2f013186665fa5f09a3b735sm9.jpg

실제 사례로, 미야자키 애니메이션 스타일의 중국어 간판, 고전 한자 대련(對聯), 서양 언어 기반 서점 포스터, 복잡한 영어 인포그래픽 슬라이드 등 다양한 언어와 스타일의 복합 텍스트 생성에 모두 성공했다.  이미지 내에서 아주 작은 영역이나 복잡한 손글씨, 장문의 텍스트 번역/편집 등도 높은 충실도로 수행하며, 단일 언어뿐 아니라 중국어·영어 혼합 텍스트도 자유롭게 렌더링이 가능하다.

포스터, PPT, 기업용 광고 이미지 등 실무에서 활용이 가능한 수준의 자동 레이아웃, 폰트, 그래픽 효과를 적용하는 고품질 시각작업을 지원한다.

일반 생성형 모델로서의 성능도 뛰어나, 포토리얼, 인상주의, 애니메이션, 미니멀리즘 등 다양한 미술 스타일의 이미지도 유연하게 생성 가능하다고 강조한다. 이미지 편집 면에선 스타일 전환, 오브젝트 증감, 디테일 보강, 인물 자세 변경, 텍스트 편집까지 지원해 전문적인 작업을 평범한 이용자도 쉽게 수행할 수 있게 했다고 설명한다.

Qwen-Image의 궁극적인 목표는 시각 컨텐츠 제작 기술 장벽을 낮추고, 커뮤니티와의 열린 협업을 통해 지속 가능하고 혁신적인 생성형 AI 생태계 구축에 기여하는 것이라고 밝히고 있다.

다양한 이미지 사례는 링크에서 확인할 수 있다.

오픈소스여서 설치형으로도 테스트 가능.

d9d062f9f00c5563c8cfcaf2ba5d94dawjS4.png3d8c040ba4f086ff260a4fe6381323c4sqdS.pngd7fad7538d7d125377a3a97671cf7a335RMv.png
댓글 0
전체 345 / 79 페이지
웨이모와 테슬라 자율주행 로봇택시의 비교에 대해 영상이 올라온 것이 있는데요. 이 영상을 ChatGPT 에게 한국어로 요약해 달라고 했습니다. 요약 이 영상은 로보택시(무인 자율주행 택시) 분야에서 Waymo와 Tesla의 현재 상황과 향후 전망을 비교하며, 누가 승자가 될 수 있을지 분석합니다. 1. 현재 상황 비교 Tesla는 지금의 자율주행 역량이, 약 5년 전에 Waymo가 가진 수준과 유사하다고 평가됩니다. 하지만 Tesla가 단시간(하루나 1년) 안에 그 간격을 줄이기엔 현실적으로 어렵다는 점도 지적됩니다 2. 테슬라가 더 발전하려면 안전관리자 제거 현재 테슬라의 테스트 차량에는 운전 담당 인력이 탑승해 있는데, 이들을 완전 배제하고 완전 자율주행 수준의 테스트로 전환해야 함 운영 규모 확장 Waymo 수준의 운행 대수와 지역(예: 오스틴) 커버리지를 갖춰야 함 서비스 오픈 제한된 테스트가 아닌, 일반 승객을 대상으로 한 상용 서비스로서 개방해야 함 데이터 투명성 운행 및 안전 관련 모든 데이터를 투명하게 공개해야 신뢰도와 평가가 가능해짐 Templeton은 “오스틴에서 Tesla의 운행 규모와 안전 수준이 Waymo와 비슷해지기를 기대하며, 올해 말(12월)까지 그 단계에 도달하길 바란다”고 언급했습니다
757 조회
0 추천
2025.07.11 등록
두바이에서 AI 셰프가 운영하는 세계 최초의 레스토랑이 오는 2025년 9월 버즈 칼리파 인근에 문을 연다. 이 레스토랑의 이름은 'WOOHOO'이며, 메뉴 기획부터 식당 서비스 방식, 전체적인 분위기까지 AI 셰프인 'Chef Aiman'이 담당할 예정. Chef Aiman은 대형 언어모델(LLM) 기반의 인공지능으로, 흔히 버려지는 육류 트리밍과 같은 재료를 창의적으로 활용하는 등 지속 가능한 메뉴 구성을 목표로 하고 있다. AI가 제안한 레시피는 유명 셰프인 레이프 오트만(Reif Othman)을 포함한 인간 셰프들이 최종적으로 맛을 보고 보완한 뒤 완성된다. 이 식당의 운영진은 이 AI 시스템을 앞으로 전 세계 다른 레스토랑에도 라이선스 형태로 제공할 계획을 세우고 있다. 맛은 있을지, 가격은 또 얼마나 비쌀지...기대됩니다.
807 조회
0 추천
2025.07.11 등록
Perplexity에서 최근 공개한 금융 특화 기능을 소개한 영상이 하나 올라왔는데요, 자연어 기반 질문만으로 SEC(미국 증권거래위원회) API를 연동해 기업 공시 내용을 바로 조회하고, 실시간 주가와 재무 데이터를 확인할 수 있는 기능을 선보였습니다. 복잡한 재무제표나 공시문을 일일이 읽지 않아도, “애플의 최근 분기 손익 요약해줘” 같은 질문 하나로 핵심 데이터를 정리해주는 구조예요. 특히 인상적이었던 부분은, 과거와 현재 주가를 그래프 형태로 바로 불러오거나, 여러 기업의 주요 지표를 비교 분석하는 것도 자연어로 처리된다는 점이었습니다. 여기에 더해, 관련 내용을 뉴스레터 형태로도 받아볼 수 있어서 텍스트 기반으로 보고 싶은 사람들에겐 또 다른 옵션이 되겠더라고요. 금융 리서치에 관심 있는 분이나, IR 분석 자동화 툴에 관심 있는 팀에서는 한 번쯤 테스트해볼 만한 기능 같습니다. 저도 영상 보면서 “이제는 공시도 요약해서 보여주는 시대구나” 싶더라고요. 관심 있으시면 한 번 보시는 것도 추천드립니다.
779 조회
3 추천
2025.07.09 등록
중국 개발자가 공개한 AI 기반 레이저 모기 제거 장치가 화제입니다. 일명 ‘모기 방공 시스템’으로 불리는 이 장치는 라이다(LiDAR)로 모기를 실시간 추적하고, 레이저로 초당 최대 30마리까지 제거할 수 있다고 합니다. 주요 기능 모기 비행 궤적, 속도, 날개 주파수 등을 분석해 탐지 인체나 반려동물은 감지 시 즉시 멈춤 눈에 안전한 수준의 레이저 사용 실내외 모두 사용 가능 사양 및 가격 사거리: 일반형 3미터, 프로형 6미터 가격: 일반형 약 61만원, 프로형 약 85만원 (크라우드펀딩 기준) 첫 출시는 2025년 10월 예정 레이저로 모기를 잡는 시대가 머지않아 올 듯합니다. 살충제 없는 물리적 방식이라 친환경 방역에도 주목받고 있습니다.
843 조회
1 추천
2025.07.09 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입