Loading...

AI 뉴스

애플, AI 편집 개선을 위해 40만 장의 이미지 데이터셋 공개

페이지 정보

작성자 xtalfi
작성일 2025.10.30 01:40
1,695 조회
0 추천
0 비추천

본문

apple_reuters_1754290388226.jpg

(퍼플렉시티가 정리한 기사)


Apple 연구진이 텍스트 프롬프트를 기반으로 인공지능 시스템이 사진을 편집하는 방식을 개선하기 위해 설계된 400,000개의 선별된 이미지를 포함하는 포괄적인 데이터셋인 Pico-Banana-400K를 공개했다고 이번 주 발표된 연구 논문에서 밝혔습니다.​

이 대규모 데이터셋은 Apple이 현재 AI 이미지 편집 훈련에서 중요한 격차로 설명하는 문제를 해결하는 것을 목표로 하며, 실제 사진으로 구축된 부적절한 데이터셋으로 인해 발전이 제약받아 왔습니다. GPT-4o와 같은 시스템이 인상적인 편집을 수행할 수 있지만, 연구진은 대규모의 고품질 훈련 데이터 부족이 이 분야의 발전을 제한해왔다고 말합니다.​


품질과 다양성에 대한 체계적 접근

Pico-Banana-400K를 이전 데이터셋과 구별하는 것은 Apple의 체계적인 품질 관리 접근 방식과 포괄적인 범위입니다. 이미지는 색상 변경과 같은 기본 조정부터 사람을 픽사 스타일 캐릭터나 레고 피겨로 변환하는 것과 같은 복잡한 변형에 이르기까지 8개 카테고리에 걸쳐 35가지 편집 유형으로 구성되어 있습니다.​

Apple은 Google의 Gemini-2.5-Flash-Image 모델(Nano-Banana로도 알려짐)을 사용하여 편집을 생성하고, Gemini-2.5-Pro를 자동화된 품질 관리 시스템으로 활용하여 지시 준수 및 기술적 품질을 기반으로 결과를 평가했습니다. 데이터셋의 각 이미지는 포함되기 전에 이러한 엄격한 AI 기반 검수 프로세스를 거쳤습니다.​

데이터셋에는 세 가지 특화된 하위 집합이 포함되어 있습니다: 기본 훈련을 위한 258,000개의 단일 편집 예제, 성공한 편집과 실패한 편집을 비교하는 56,000개의 선호도 쌍, 그리고 여러 연속 편집을 통해 이미지가 어떻게 진화하는지 보여주는 72,000개의 다중 턴 시퀀스.​


현재 AI의 한계 드러내기

애플의 연구는 현재 이미지 편집 모델의 중요한 한계를 드러냈습니다. 전역 스타일 변경은 93%의 성공률을 보인 반면, 객체 재배치나 텍스트 편집과 같은 정밀한 작업은 60% 미만의 성공률로 어려움을 겪었습니다. 이러한 발견은 AI 이미지 편집이 여전히 사용자 기대에 미치지 못하는 부분에 대한 귀중한 통찰을 제공합니다.​

전체 Pico-Banana-400K 데이터셋은 GitHub에서 비상업적 연구 목적으로 무료로 제공되며, 개발자와 연구자들이 더 유능한 이미지 편집 AI 시스템을 훈련시키는 데 사용할 수 있습니다. 연구자들에 따르면, 이 데이터셋은 "차세대 텍스트 기반 이미지 편집 모델을 훈련하고 벤치마킹하기 위한 견고한 기반"을 확립합니다.

댓글 0
전체 1,366 / 101 페이지
(퍼플렉시티가정리한기사)Google는월요일에GenerativeUI를공개했습니다.이는AI모델이정적인텍스트응답을제공하는대신완전히맞춤화된인터랙티브인터페이스를즉석에서생성할수있게하는기술입니다.Gemini앱과GoogleSearch의AIMode에출시되는이기능은개별프롬프트에맞춤화된전체사용자경험을생성함으로써전통적인챗봇경험에서벗어나는변화를의미합니다.​Gemini3Pro로구동되는이기술은모든질문이나지시에대한응답으로웹페이지,인터랙티브도구,게임및시뮬레이션을생성할수있습니다.발표와함께게시된연구논문"GenerativeUI:LLMsareEffectiveUIGenerators"에따르면,인간평가자들은생성속도를고려하지않았을때표준대규모언어모델출력보다이러한AI생성인터페이스를강력하게선호했습니다.​동적인터페이스에대한두가지접근방식Google은Gemini앱에서두가지구현방식을테스트하고있습니다.동적뷰(Dynamicview)는Gemini3의코딩기능을사용하여각프롬프트에맞는맞춤형인터페이스를설계하고코딩하며,컨텍스트에따라콘텐츠와기능을조정합니다.시각적레이아웃(Visuallayout)은사용자가추가로커스터마이징할수있는인터랙티브모듈이포함된매거진스타일의뷰를생성합니다.​회사는연구블로그에서"5세아동에게미생물군집을설명하는것과성인에게설명하는것은서로다른콘텐츠와다른기능세트가필요하다는점을이해하여경험을맞춤화합니다"라고밝혔습니다.​Google검색에서생성형UI기능은미국내GoogleAIPro및Ultra구독자를대상으로AI모드를통해제공됩니다.사용자는모델드롭다운메뉴에서"Thinking"을선택하여특정쿼리에맞춤화된인터랙티브도구와시뮬레이션을생성할수있습니다.​기술적기반및한계이구현은Gemini3Pro를세가지핵심구성요소와결합합니다:이미지생성및웹검색을위한도구액세스,신중하게작성된시스템지침,그리고일반적인오류를해결하기위한후처리.연구를촉진하기위해Google은전문가가설계한웹사이트데이터셋인PAGEN을만들었으며,이는연구커뮤니티에공개될예정입니다.​그러나이기술은한계에직면해있습니다.현재구현은결과를생성하는데1분이상걸릴수있으며,출력물에서때때로부정확성이나타납니다.GoogleFellow인YanivLeviathan과연구논문을공동집필한동료들에따르면,이러한부분은여전히진행중인연구영역으로남아있습니다.​이발표는Google이가장지능적인모델로설명한Gemini3의광범위한출시와동시에이루어졌습니다.Gemini3Pro는LMArena리더보드에서1,501점을기록하며이전버전을능가했습니다.또한이모델은박사수준추론을위한GPQADiamond에서91.9%,도구없이Humanity'sLastExam에서37.5%를달성하는등벤치마크에서강력한성능을보였습니다.
1076 조회
0 추천
2025.11.19 등록
(퍼플렉시티가정리한기사)Alphabet소유의Waymo는화요일에5개의새로운도시에완전자율주행로보택시를배치할것이라고발표했으며,이는자율주행기술회사로서가장광범위한출시를의미합니다.이서비스는마이애미에서즉시시작되며,댈러스,휴스턴,샌안토니오,올랜도가향후몇주내에뒤따를예정이지만,대중을위한운행은2026년까지이용할수없습니다.​이번확장은자율주행차량기술의중요한전환점을나타내며,Waymo가주요대도시지역에배치를가속화하는동시에최근마이애미,댈러스,휴스턴에서자체로보택시서비스를시작할계획을발표한Tesla로부터증가하는경쟁에직면하고있습니다.​테스트완료,내년공공서비스예정Waymo는5월부터이들도시에서인간운전자가탑승한차량을테스트해왔으며,이를통해자사의자율주행시스템이현지도로상황과교통패턴에관한데이터를수집할수있도록했습니다.11월18일부터는마이애미의차량에서안전운전자를제거하기시작했으며,나머지네도시에서도앞으로몇주안에완전무인운행으로전환할예정입니다.​하지만이초기단계에서는Waymo직원들만이승객으로탑승하게됩니다.회사는피닉스,샌프란시스코,로스앤젤레스,오스틴,애틀랜타등기존서비스지역에서사용했던것과동일한방식을따라2026년쯤이들시장에서일반대중에게도서비스를개방할계획입니다.​샌안토니오의응급구조대원들은이미무인차량과관련된비상상황을처리하기위한전문교육을시작했습니다.샌안토니오소방서의JoeArrington은“어릴때젯슨가족을보며자랐죠.이제쯤이면하늘을나는자동차가나올줄알았는데,”라며농담을했습니다.“아마이것이그다음단계일지도모르겠네요”.​안전기록과증가하는경쟁Waymo는2020년상용서비스를시작한이후1,000만건이상의유료탑승을완료했습니다.이회사는기존시장전역에서매주250,000건이상의이동서비스를제공하고있습니다.​2,530만마일의자율주행을분석한SwissRe연구에따르면,Waymo는인간운전자와비교하여재산피해청구는88%,신체상해청구는92%감소한것으로나타났습니다.별도의회사데이터에따르면Waymo차량은9,600만마일의완전자율주행동안인간운전자보다심각한부상사고가91%적게발생했습니다.​Waymo가자율주행차량시장을선도하고있는가운데,Tesla는같은도시들에서로보택시서비스를출시할계획을발표하여여러시장에서직접적인경쟁구도가형성되었습니다.Tesla는6월에오스틴에서,그직후샌프란시스코에서로보택시운영을시작했지만,일부관할구역에서는현재운전석에안전모니터요원이필요합니다.
1116 조회
0 추천
2025.11.19 등록
(퍼플렉시티가정리한기사)TaiwanSemiconductorManufacturingCompany는월요일발표한재무자료에따르면,지난2년간미국,일본,독일,중국으로부터약NT$1,470억달러(US$47억1천만달러)의정부보조금을수령했습니다.​세계최대파운드리반도체제조업체는2025년3분기에NT$47억7천만달러를받아올해첫9개월동안총NT$719억달러를수령했습니다.2024년에확보한NT$751억6천만달러와합쳐,TSMC는이제야심찬글로벌제조거점을뒷받침할상당한재정지원을확보했습니다.​보조금이다대륙건설확장을촉진하다보조금은TSMC의해외자회사에배분되었으며주로부동산취득,장비구매,공장건설및운영비용에사용되었습니다.수혜자로는TSMCArizonaCorp.,독일드레스덴의EuropeanSemiconductorManufacturingCo.,구마모토의JapanAdvancedSemiconductorManufacturingInc.,중국의TSMCNanjingCo.가포함됩니다.​애리조나에서TSMC는3개의첨단제조공장건설에650억달러를투자하고있으며,첫번째공장은2024년4분기에4나노미터기술을사용하여양산을달성했습니다.이회사는애리조나주에3개의추가팹,2개의조립공장및연구개발센터를건설하기위해1,000억달러를추가로약속했습니다.CHIPSandScienceAct에따라미국정부는2024년11월에66억달러의직접자금지원을최종확정했으며,TSMC는4분기에15억달러를받았습니다.​구마모토에서TSMC의첫번째팹은2024년말에상업생산을시작했으며,6나노미터생산을목표로하는두번째시설의건설은2027년말까지완료될예정입니다.일본정부는두공장에최대1.2조엔(78억달러)의보조금을제공하고있습니다.드레스덴에서는2024년8월에유럽의자동차및산업부문에공급하기위해2027년완공예정인시설의건설이시작되었습니다.​지정학적압력속에서의전략적다각화이보조금은TSMC가지정학적긴장고조와공급망회복력에대한고객수요속에서대만을넘어생산을다각화하는가운데제공됩니다.회사의자회사들은건설일정및기타투자조건준수를요구하는지방정부와의협정에서명했습니다.​그러나미국상무부가난징시설에대한회사의특별수출허가를철회한후TSMC의중국내사업은불확실성에직면해있으며,이는2025년말까지발효될예정입니다.28나노미터및16/12나노미터공정으로칩을생산하는난징팹은TSMC전체생산능력의약3%를차지합니다.
1076 조회
0 추천
2025.11.19 등록
(퍼플렉시티가정리한기사)Google는11월18일Gemini3를공개하며,향상된추론능력과복잡한다단계작업을관리할수있는자율에이전트기능을갖춘현재까지가장진보된인공지능모델이라고회사가설명하는제품을소개했습니다.​새로운모델은Gemini앱을통해모든사용자에게즉시제공되며,이는Google이출시일에프리미어AI시스템에대한보편적접근을제공한최초의사례입니다.Gemini3Pro는현재AI모델평가에널리사용되는플랫폼인LMSYS리더보드에서1위를차지하고있습니다.​에이전트역량과생성형인터페이스Gemini3는Google이"생성형인터페이스"라고부르는기능을도입하여,모델이텍스트를기본값으로사용하는대신쿼리에가장적합한출력형식을자율적으로결정할수있도록합니다.예를들어,사용자가여행제안을요청하면모델은이미지,모듈및대화형후속질문이포함된웹사이트와유사한인터페이스를생성할수있습니다.​미국의GoogleAIPro및Ultra구독자에게제공되는실험적GeminiAgent기능은Calendar,Gmail,Reminders와같은서비스에연결하여받은편지함정리또는일정조율과같은작업을수행할수있습니다.GoogleDeepMind의수석이사이자제품책임자인TulseeDoshi에따르면,이모델은"상투적인표현과아첨대신진정성있는통찰력으로지능적이고간결하며직접적인답변을제공합니다".​새로운개발플랫폼및쇼핑통합Gemini3와함께Google은여러에이전트가편집기,터미널및브라우저에동시에액세스할수있는에이전트우선개발플랫폼인Antigravity를출시했습니다.이플랫폼은수행된작업을검증하기위해작업목록,전략및스크린샷을포함하는자동문서화"Artifacts"를생성합니다.​Google은또한Gemini3를매시간업데이트되는500억개이상의제품목록을포함하는ShoppingGraph와통합하여사용자가앱내에서직접대화형제품추천을받을수있도록했습니다.향상된추론모드인Gemini3DeepThink는현재Ultra구독자에게광범위하게출시되기전에안전테스터에게제공되고있습니다.
1170 조회
0 추천
2025.11.19 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입