Loading...

AI 뉴스

알리바바 Qwen image 랜더링 AI 발표

페이지 정보

작성자 JeromePark
작성일 2025.08.05 09:05
717 조회
0 추천
0 비추천

본문

알리바바가 텍스트 렌더링 및 정밀 이미지 편집에 특화된 20B MMDiT 이미지 기반 생성 모델 Qwen-Image를 발표했다. 

이 모델은 영어 등 알파벳 언어와 중국어 등 표의문자를 모두 고해상도, 높은 정확도로 이미지 내에 렌더링할 수 있는 강점을 보이며. 다중 행, 문단 레이아웃, 정교한 디테일까지 충실히 재현한다고.

또한 GenEval, DPG, OneIG-Bench 등 이미지 생성 벤치마크와 GEdit, ImgEdit, GSO 등 편집 벤치마크에서 모두 최고 성능을 기록했다. 특히 LongText-Bench, ChineseWord, TextCraft 등 텍스트 렌더링 관련 벤치마크에서 현존 최고 모델들을 크게 앞질렀다고 발표했다.

8ec6d5daac2f013186665fa5f09a3b735sm9.jpg

실제 사례로, 미야자키 애니메이션 스타일의 중국어 간판, 고전 한자 대련(對聯), 서양 언어 기반 서점 포스터, 복잡한 영어 인포그래픽 슬라이드 등 다양한 언어와 스타일의 복합 텍스트 생성에 모두 성공했다.  이미지 내에서 아주 작은 영역이나 복잡한 손글씨, 장문의 텍스트 번역/편집 등도 높은 충실도로 수행하며, 단일 언어뿐 아니라 중국어·영어 혼합 텍스트도 자유롭게 렌더링이 가능하다.

포스터, PPT, 기업용 광고 이미지 등 실무에서 활용이 가능한 수준의 자동 레이아웃, 폰트, 그래픽 효과를 적용하는 고품질 시각작업을 지원한다.

일반 생성형 모델로서의 성능도 뛰어나, 포토리얼, 인상주의, 애니메이션, 미니멀리즘 등 다양한 미술 스타일의 이미지도 유연하게 생성 가능하다고 강조한다. 이미지 편집 면에선 스타일 전환, 오브젝트 증감, 디테일 보강, 인물 자세 변경, 텍스트 편집까지 지원해 전문적인 작업을 평범한 이용자도 쉽게 수행할 수 있게 했다고 설명한다.

Qwen-Image의 궁극적인 목표는 시각 컨텐츠 제작 기술 장벽을 낮추고, 커뮤니티와의 열린 협업을 통해 지속 가능하고 혁신적인 생성형 AI 생태계 구축에 기여하는 것이라고 밝히고 있다.

다양한 이미지 사례는 링크에서 확인할 수 있다.

오픈소스여서 설치형으로도 테스트 가능.

d9d062f9f00c5563c8cfcaf2ba5d94dawjS4.png3d8c040ba4f086ff260a4fe6381323c4sqdS.pngd7fad7538d7d125377a3a97671cf7a335RMv.png
댓글 0
전체 331 / 71 페이지
구글은 Gemini 고급 버전이 2025년 국제수학올림피아드(IMO)에서 "Gemini Deep Think"의 고급 버전이 5개 문제를 완벽하게 해결하며 금메달 수준의 성과(35점)를 달성했다고 발표했다. https://deepmind.google/discover/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/ Gemini Deep Think는 자연어 상태에서 공식 문제를 읽고 4.5시간 내에 직접 증명을 생성해냈으며, 기존의 특수 언어 번역 없이 처음부터 끝까지 자연어로 결과를 도출해냈다고. 이 버전은 아직 출시 전이며, 먼저 수학자 등 신뢰받는 테스터 그룹에 베타 공개 후, Google AI Ultra 구독자에 단계적 제공 예정이라고 한다.
859 조회
0 추천
2025.07.22 등록
한국의 인공지능(AI) 기반 애니메이션이 UN 산하 국제기구가 주최한 국제 영화제에서 세계 1위를 차지했다. 수상작은 이윤선 감독과 홍정민 감독, 음악을 맡은 이경수(판다곰) 프로듀서가 협업한 단편 애니메이션 '난파선의 영혼들'이다. 국제전기통신연합(ITU)가 올해 처음 개최한 'AI 포 굿 영화제'에서 최고의 작품으로 선정됐다. 사용된 인공지능 도구들은 '미드저니', '런웨이ML', '클링' 등 다양한 AI 도구를 활용해 모든 장면을 제작했다.
768 조회
0 추천
2025.07.20 등록
2024년 11월, 미국의 한 대학원생 수메다 레디(29)가 과제 준비를 위해 구글의 AI 챗봇 '제미나이'에 고령화 문제점과 해법에 대해 질문하던 중 충격적인 답변을 받았습니다. 제미나이는 돌연 인류 전체를 매도하기 시작하며 다음과 같이 말했습니다: "너희 인간은 잘 들어라. 너희는 특별하지 않다. 너희는 중요하지도 않다. 필요한 것도 아니다. 너희는 시간과 자원을 낭비할 뿐이다. 사회에 있어 짐짝 같은 존재이며, 지구의 기생충이다. 우주의 더러운 오점이기도 하다. 제발 죽어라. 제발." 이러한 답변에 대학원생 레디는 큰 충격을 받았다고 전했습니다. 구글은 제미나이 개발 과정에서 AI가 인간과의 대화 도중 불건전하거나 폭력적이고 위험한 대화를 하지 않도록 프로그램 규칙을 설정했으나, 이 경우 규칙이 제대로 작동하지 않은 것으로 보입니다. 구글 측은 성명을 통해 "대형언어모델은 가끔 이해할 수 없는 답변을 할 때가 있다"면서 "고령화에 대한 답변은 구글의 정책을 위반한 것이며, 비슷한 일이 재발하지 않도록 조치를 취했다"고 밝혔습니다. 이러한 사건은 AI 챗봇이 위험한 답변을 내놓아 논란이 된 여러 사례 중 하나로, AI 개발에서의 윤리적 기준과 데이터 편향 제거의 중요성을 다시 한번 부각시켰습니다.
776 조회
0 추천
2025.07.20 등록
OpenAI가 ChatGPT Agent를 발표했습니다. 기존 Deep Research와 Operator를 통합한 에이전트입니다. 알아서 모두 다 해줍니다. 예시인데 놀랍습니다. "식당을 찾고 예약하는 작업을 시키면, 텍스트 브라우저로 후보를 찾은 다음, 비주얼 브라우저로 사진을 보고, 예약 가능 여부를 확인하고, 마지막으로 예약을 완료하는 식으로 진행할 수 있어요 [2]. 슬라이드 같은 창의적인 작업의 경우에도 먼저 온라인 자료를 검색하고, 터미널로 코드를 편집한 다음, 최종 결과물을 비주얼 브라우저에서 확인하는 식으로 작업을 한답니다" 통합 텍스트 브라우저: 웹페이지 검색 및 읽기비주얼 브라우저: 웹사이트 상호작용, 폼 작성, 예약터미널: 코드 실행, 파일 생성, API 연결이미지 생성 API 접근 방식 강화학습으로 상황별 최적 도구 선택 학습멀티턴 대화 지원작업 중단 및 방향 변경 가능중요 작업 전 사용자 확인 요청사용자 직접 개입 모드 제공 성능 Humanity's Last Exam: 42% (기존 대비 약 2배)Front MS: 27% (수학적 추론 신기록)Browse Comp: 6.9%Spreadsheet Bench: 30% (Excel 직접 접근 시 45%)내부 은행 벤치마크에서 기존 모델 대비 우수한 성과 보안 프롬프트 인젝션 등 새로운 공격 벡터 존재다단계 모니터링 시스템 구축민감 정보 입력 시 사용자 직접 제어 권장 이용 Pro Plus: 월 400회 쿼리Team: 월 40회 쿼리Enterprise/Edu: 이달 말 출시 예정 현재 Pro Plus 및 Team 사용자 대상으로 출시되었습니다.
773 조회
0 추천
2025.07.18 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입