Loading...

AI 뉴스

알리바바 Qwen image 랜더링 AI 발표

페이지 정보

작성자 JeromePark
작성일 08.05 09:05
92 조회
0 추천
0 비추천

본문

알리바바가 텍스트 렌더링 및 정밀 이미지 편집에 특화된 20B MMDiT 이미지 기반 생성 모델 Qwen-Image를 발표했다. 

이 모델은 영어 등 알파벳 언어와 중국어 등 표의문자를 모두 고해상도, 높은 정확도로 이미지 내에 렌더링할 수 있는 강점을 보이며. 다중 행, 문단 레이아웃, 정교한 디테일까지 충실히 재현한다고.

또한 GenEval, DPG, OneIG-Bench 등 이미지 생성 벤치마크와 GEdit, ImgEdit, GSO 등 편집 벤치마크에서 모두 최고 성능을 기록했다. 특히 LongText-Bench, ChineseWord, TextCraft 등 텍스트 렌더링 관련 벤치마크에서 현존 최고 모델들을 크게 앞질렀다고 발표했다.

8ec6d5daac2f013186665fa5f09a3b735sm9.jpg

실제 사례로, 미야자키 애니메이션 스타일의 중국어 간판, 고전 한자 대련(對聯), 서양 언어 기반 서점 포스터, 복잡한 영어 인포그래픽 슬라이드 등 다양한 언어와 스타일의 복합 텍스트 생성에 모두 성공했다.  이미지 내에서 아주 작은 영역이나 복잡한 손글씨, 장문의 텍스트 번역/편집 등도 높은 충실도로 수행하며, 단일 언어뿐 아니라 중국어·영어 혼합 텍스트도 자유롭게 렌더링이 가능하다.

포스터, PPT, 기업용 광고 이미지 등 실무에서 활용이 가능한 수준의 자동 레이아웃, 폰트, 그래픽 효과를 적용하는 고품질 시각작업을 지원한다.

일반 생성형 모델로서의 성능도 뛰어나, 포토리얼, 인상주의, 애니메이션, 미니멀리즘 등 다양한 미술 스타일의 이미지도 유연하게 생성 가능하다고 강조한다. 이미지 편집 면에선 스타일 전환, 오브젝트 증감, 디테일 보강, 인물 자세 변경, 텍스트 편집까지 지원해 전문적인 작업을 평범한 이용자도 쉽게 수행할 수 있게 했다고 설명한다.

Qwen-Image의 궁극적인 목표는 시각 컨텐츠 제작 기술 장벽을 낮추고, 커뮤니티와의 열린 협업을 통해 지속 가능하고 혁신적인 생성형 AI 생태계 구축에 기여하는 것이라고 밝히고 있다.

다양한 이미지 사례는 링크에서 확인할 수 있다.

오픈소스여서 설치형으로도 테스트 가능.

d9d062f9f00c5563c8cfcaf2ba5d94dawjS4.png3d8c040ba4f086ff260a4fe6381323c4sqdS.pngd7fad7538d7d125377a3a97671cf7a335RMv.png
댓글 0
전체 111 / 1 페이지
AI의 진화: 수동적 도구에서 자율적 에이전트로2023년까지 AI는 주로 문서 작성, 정보 조사 등의 보조 업무에 활용되는 수동적 도구였습니다. 하지만 2025년 현재 AI 에이전트는 기억하고 계획하며 독립적으로 행동할 수 있는 자율적 시스템으로 발전했습니다.실제 기업 도입 사례서비스나우(ServiceNow): IT 요청 처리를 완전 자동화하여 직원이 소프트웨어 설치나 라이선스 갱신을 요청하면 에이전트가 전 과정을 처리깃허브 코파일럿(GitHub Copilot): 개발자의 의도를 이해하고 반복적인 코딩 작업을 자동 수행하는 에이전트 모드 도입시스코 웹엑스(Webex): 고객 상담, 실시간 통화 지원, 대화 요약 및 감정 분석까지 여러 AI 에이전트가 협업하여 고객 지원 업무 처리성공 요인과 한계AI 에이전트는 명확하고 표준화된 절차를 따르는 작업에서 뛰어난 성과를 보입니다. 최근에는 복잡한 비즈니스 분석까지 수행할 수 있도록 발전하고 있지만, 여전히 작업 완료 시점을 정확히 판단하지 못하는 문제가 있습니다.도입 시 고려사항업무 프로세스 재설계: 기존 업무 방식에 AI를 단순히 추가하는 것이 아닌, 에이전트 중심의 업무 프로세스로 근본적 재설계 필요신뢰성 확보: 안전 규칙, 테스트 시스템, 명확한 기록 체계 구축이 필수새로운 역할 창출: 에이전트 관리, 모니터링, 컴플라이언스 점검을 담당하는 새로운 직무 등장 예상향후 전망앞으로 2년 내에 AI 에이전트는 고객 지원과 소프트웨어 개발 영역에서 일상적인 도구가 될 것으로 예상됩니다. 클라우드 플랫폼들도 에이전트 개발부터 운영까지 통합 솔루션을 제공할 가능성이 높습니다.
12 조회
0 추천
08.21 등록
애플의 인공지능 기능에 대해 부정적인 뉴스가 나오면서 시리의 활용에 대해 조사한 결과가 나오고 있다.https://9to5mac.com/2025/08/20/seven-years-later-people-still-havent-changed-how-they-use-siri/YouGov 설문조사에 따르면, 사용자의 대다수는 2018년 이후로도 Siri와 다른 음성 비서를 여전히 다섯 가지 기본 용도로 사용하고 있다. 가장 많이 사용하는 기능은 날씨 확인(59%), 음악 재생(51%), 웹 검색(47%), 타이머/알람 설정(40%), 핸즈프리 전화 걸기(39%)이다사용자들은 Siri가 기본적인 명령만 이해하도록 적응했으며, 새로운 AI 음성 모드가 나오더라도 기존 사용자들이 이를 익히는 데는 시간이 걸릴 것으로 보고 있다. 또한 새로운 Siri가 나와도 2027년쯤에는 사용자 경험이 크게 개선되길 기대하고 있다.원래부터 거의 모든 사용자가 지금 하는 행동을 7년 전에도 할 수 있었을 정도로 Siri 사용은 정체되어 있다.일부 사용자들은 음성 비서가 기대만큼 똑똑하지 않고, 정확한 답변을 제공하지 못해 답답함을 느끼고 있다.전반적으로 사용자들은 Siri의 기본 기능에는 만족하지만, 더 복잡한 작업을 수행하거나 자연스러운 대화를 기대하는 데는 한계가 있으며 이는 앞으로 개선이 필요한 점으로 남아 있다
14 조회
0 추천
08.21 등록
20일 구글은 Made by google 행사를 열었다. 이 자리에서 주로 Pixel 폰과 관련된 내용이 발표되었지만,인공지능 Gemini 의 픽셀 연결 버전 "제미나이 라이브" 와 관련된 업데이트가 있었다..https://blog.google/products/gemini/gemini-live-updates-august-2025/주요 동영상은 위 주소에서 확인이 가능하다.이번 업데이트로 Gemini Live는 더욱 시각적으로 인지력이 높아졌고, 화면에서 실시간으로 사용자에게 시각적 가이드(예: 화면에 중요한 부분 하이라이트)를 제공한다.예를 들어 신발 두 켤레 중 어느 것이 더 잘 어울리는지, 또는 적절한 공구가 무엇인지 Gemini가 화면을 보며 직접 알려줄 수 있다 이 시각적 가이드 기능은 8월 28일 출시되는 Pixel 10 시리즈에 먼저 적용되며, 이후 안드로이드 및 iOS 기기로 확장될 예정이다.Gemini Live는 구글 캘린더, 킵, 테스크 등 기존 앱뿐 아니라 곧 메시지, 전화, 시계, 지도 앱과도 더 깊게 통합되어 스케줄 관리, 메시지 전송 등의 실생활 업무를 돕는다.예를 들어 생일 선물을 찾다가 바로 가족에게 전화를 걸거나, 지하철 경로를 찾으면서 메시지를 바로 보내는 등 대화하면서 여러 앱을 넘나드는 지원이 가능해진다.음성 대화 품질도 크게 개선되어 어조, 리듬, 음높이 등을 자연스럽게 사용해 스트레스 상황에도 차분한 반응을 하는 등 보다 인간다운 대화가 가능해진다.사용자 요청에 따라 말하는 속도를 조절하거나, 재미있는 악센트로 이야기해주는 기능과, 인물 시점의 생생한 스토리텔링 기능도 곧 선보인다.이번 업데이트는 Gemini를 더 자연스럽고 도움이 되는 AI 비서로 만들기 위한 구글의 지속적인 노력의 일환이며, 앞으로도 사용자와 함께 발전시켜 나가겠다는 계획이다.
8 조회
0 추천
08.21 등록
구름 측은 “‘Stack Overflow Developer Survey 2025’의 리서치에 따르면 개발자는 10명중 8명이 이미 업무에 AI 도구를 활용하고 있다”며 “AI 코드 어시스턴트를 사용하는 기업 소프트웨어 엔지니어가 2023년 초에는 10% 미만에 불과했지만, 2028년에는 75%까지 증가할 전망이며, 이는 곧 AI 활용 능력이 개발자의 필수 역량으로 자리잡고 있음을 보여준다”고 설명했다.개발자가 코딩에 가장 많이 활용하는 LLM은 Claude(42%), ChatGPT(21%), Gemini(16%) 순으로 Claude가 코딩분야에서는 ChatGPT를 제치고 1위로 부상했다. LLM에 가장 많이 활용되는 개발언어는 Python이다.https://www.tech42.co.kr/%ea%b5%ac%eb%a6%84-%ea%b8%80%eb%a1%9c%eb%b2%8c-%ea%b0%9c%eb%b0%9c%ec%9e%90-ai-%ed%99%9c%ec%9a%a9-%ed%8a%b8%eb%a0%8c%eb%93%9c-%eb%b6%84%ec%84%9d-%ec%9d%b8%ec%82%ac%ec%9d%b4%ed%8a%b8%eb%a5%bc-%eb%b3%b4/
12 조회
0 추천
08.21 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입