Loading...

AI 뉴스

애플, AI 편집 개선을 위해 40만 장의 이미지 데이터셋 공개

페이지 정보

작성자 xtalfi
작성일 2025.10.30 01:40
1,791 조회
0 추천
0 비추천

본문

apple_reuters_1754290388226.jpg

(퍼플렉시티가 정리한 기사)


Apple 연구진이 텍스트 프롬프트를 기반으로 인공지능 시스템이 사진을 편집하는 방식을 개선하기 위해 설계된 400,000개의 선별된 이미지를 포함하는 포괄적인 데이터셋인 Pico-Banana-400K를 공개했다고 이번 주 발표된 연구 논문에서 밝혔습니다.​

이 대규모 데이터셋은 Apple이 현재 AI 이미지 편집 훈련에서 중요한 격차로 설명하는 문제를 해결하는 것을 목표로 하며, 실제 사진으로 구축된 부적절한 데이터셋으로 인해 발전이 제약받아 왔습니다. GPT-4o와 같은 시스템이 인상적인 편집을 수행할 수 있지만, 연구진은 대규모의 고품질 훈련 데이터 부족이 이 분야의 발전을 제한해왔다고 말합니다.​


품질과 다양성에 대한 체계적 접근

Pico-Banana-400K를 이전 데이터셋과 구별하는 것은 Apple의 체계적인 품질 관리 접근 방식과 포괄적인 범위입니다. 이미지는 색상 변경과 같은 기본 조정부터 사람을 픽사 스타일 캐릭터나 레고 피겨로 변환하는 것과 같은 복잡한 변형에 이르기까지 8개 카테고리에 걸쳐 35가지 편집 유형으로 구성되어 있습니다.​

Apple은 Google의 Gemini-2.5-Flash-Image 모델(Nano-Banana로도 알려짐)을 사용하여 편집을 생성하고, Gemini-2.5-Pro를 자동화된 품질 관리 시스템으로 활용하여 지시 준수 및 기술적 품질을 기반으로 결과를 평가했습니다. 데이터셋의 각 이미지는 포함되기 전에 이러한 엄격한 AI 기반 검수 프로세스를 거쳤습니다.​

데이터셋에는 세 가지 특화된 하위 집합이 포함되어 있습니다: 기본 훈련을 위한 258,000개의 단일 편집 예제, 성공한 편집과 실패한 편집을 비교하는 56,000개의 선호도 쌍, 그리고 여러 연속 편집을 통해 이미지가 어떻게 진화하는지 보여주는 72,000개의 다중 턴 시퀀스.​


현재 AI의 한계 드러내기

애플의 연구는 현재 이미지 편집 모델의 중요한 한계를 드러냈습니다. 전역 스타일 변경은 93%의 성공률을 보인 반면, 객체 재배치나 텍스트 편집과 같은 정밀한 작업은 60% 미만의 성공률로 어려움을 겪었습니다. 이러한 발견은 AI 이미지 편집이 여전히 사용자 기대에 미치지 못하는 부분에 대한 귀중한 통찰을 제공합니다.​

전체 Pico-Banana-400K 데이터셋은 GitHub에서 비상업적 연구 목적으로 무료로 제공되며, 개발자와 연구자들이 더 유능한 이미지 편집 AI 시스템을 훈련시키는 데 사용할 수 있습니다. 연구자들에 따르면, 이 데이터셋은 "차세대 텍스트 기반 이미지 편집 모델을 훈련하고 벤치마킹하기 위한 견고한 기반"을 확립합니다.

댓글 0
전체 1,366 / 72 페이지
OpenAI와전설적인디자이너조니아이브(JonyIve)는그들의비밀스러운AI하드웨어장치의작동가능한프로토타입이존재한다는사실을처음으로공개적으로확인했으며,새로운애플엔지니어링인재들의대거이탈이프로젝트개발일정을가속화시키고있다.2023년11월23일,EmersonCollective의DemoDay에서로렌파월잡스(LaurenePowellJobs)와의무대대화중,OpenAICEO샘알트먼(SamAltman)과아이브(Ive)는"우아하게단순하면서도약간장난기있는"이장치가2년이내에출시될수있다고밝혔다.이러한사실은OpenAI가불과지난한달동안40명이상의애플하드웨어엔지니어들을채용했다고블룸버그가보도한가운데나오게되었으며,이는최근실리콘밸리역사상가장공격적인인재영입사례중하나로평가되고있다.​"드디어첫프로토타입이나왔습니다,"라고인터뷰중알트먼은밝히며,디자인이"엄청나게멋지다"고극찬했다.아이브는이기기를덜위협적이고더직관적으로느껴지는기술을원하는사용자들에게매력적이라고설명하며,"거의생각할필요가없다"고말해,오늘날알림이넘치는스마트폰에서의도적으로벗어났음을시사했다.​인재유출이애플을좌절시키다이번대규모채용은OpenAI가지난해전애플임원에반스행키,탕탄,스콧캐넌과함께Ive가설립한AI하드웨어스타트업ioProducts를65억달러에인수한데에따른것입니다.이번거래는2025년7월에마무리됐으며약55명의엔지니어와디자이너가OpenAI로합류했습니다.Ive가이끄는디자인업체LoveFrom은독립성을유지하지만,회사전반에걸쳐"심층디자인및창의적책임"을맡게됩니다.​블룸버그의마크거먼에따르면,최근채용된40명은카메라엔지니어링,실리콘설계,기기테스트,제조,오디오,그리고VisionPro개발등애플의거의모든주요하드웨어부서를아우릅니다.이들이직자에는시니어디렉터와매니저도포함되어있으며,애플경영진은이번상황을중대한문제로인식하고있는것으로전해집니다.​이러한인재유출은애플이하드웨어수장존터너스(JohnTernus)의지휘아래스마트홈기기,로보틱스프로젝트,그리고잠재적으로카메라가탑재된에어팟등자사의AI기반하드웨어이니셔티브를추진하는도전적인시점에일어났습니다.또한애플은혁신된시리를2026년봄에출시하며이를구동할목적으로구글(알파벳)에게연간약10억달러를지불해제미니(Gemini)AI모델을라이선스하기로합의했으며,이모델은1.2조개의파라미터로구성되어애플이현재보유한1,500억파라미터모델을크게능가합니다.​AI하드웨어의새로운시대OpenAI와Ive의협업은인공지능이스마트폰과컴퓨터를넘어서완전히새로운물리적인터페이스를필요로한다는전략적선택을보여줍니다.기기의정확한형태는아직공개되지않았지만,이전보도에따르면화면이없고주머니에들어갈수있으며사용자의주변환경에맥락적으로반응한다는점이시사되고있습니다.알트만은사용자가기술과상호작용하고싶도록만드는것을목표라고밝혔으며,Ive는"마치한입베어물고싶을만큼매력적인"디자인테스트를적용했다고언급했습니다.​이파트너십은사용자가AI를경험하는데있어OpenAI가AI모델뿐만아니라하드웨어까지통제하겠다는의지를보여주는것으로,이는애플의수직통합이라는역사적전략을따르는셈입니다.Ive의팀이완전히합류했고애플출신인재가점점더늘어나면서,이프로젝트는원래의2026년목표에서더욱가속화되어2026년말이나2027년초에첫선을보일가능성이커지고있습니다.
1109 조회
0 추천
2025.11.25 등록
OpenAI의개발자경험팀은AI를사용하여캐주얼한자연어프롬프트를통해코드를생성하는인기있는트렌드인"바이브코딩"에반대하고있으며,이러한접근방식이기업조직에심각한보안위험을초래한다고경고하고있습니다.OpenAI개발자경험팀의창립멤버인KatiaGilGuzman은최근CtrlAltLead팟캐스트에피소드에서이러한관행에반대의견을밝히며,빠르고느슨한프롬프팅이취미프로젝트에서는효과적일수있지만,기업팀은예측불가능한블랙박스가아닌구조화된팀원처럼행동하는AI시스템이필요하다고강조했습니다.​"기업팀은블랙박스가아닌팀원처럼행동하는AI시스템이필요합니다"라고Guzman은말하며,현대의AI코딩도구는구조화된풀리퀘스트를생성하고,프로젝트규칙을따르며,문서를사용하여제약을받아야한다고강조했습니다.이는규제환경에서운영되는조직에중요한기능입니다.​보안취약점이우려를증가시키다이러한거부는AI생성코드의보안위험에대한증거가증가하는가운데나온것입니다.2025년11월Veracode의연구에따르면AI생성코드의거의45%가크로스사이트스크립팅,SQL인젝션,인증취약점과같은치명적인결함을포함한보안취약점을포함하고있는것으로나타났습니다.보안회사Kaspersky는2025년10월에유사한패턴을확인했으며,AI생성애플리케이션에하드코딩된API키,클라이언트측인증로직,누락된입력검증이자주포함되어있음을발견했습니다.​2025년2월전OpenAI공동창립자AndrejKarpathy가만든용어인바이브코딩(vibecoding)은개발자가AI생성코드를완전히검토하거나이해하지않고받아들이는접근방식을설명합니다.이용어는11월에CollinsDictionary의2025년올해의단어가되었습니다.​다중에이전트복잡성보다단일에이전트Guzman은또한다중에이전트오케스트레이션에대한업계의현재집착에이의를제기하며,대부분의조직은단순히추가적인복잡성이필요하지않다고주장했습니다."적절한도구,가드레일및컨텍스트를갖춘단일에이전트는이미대부분의실용적인워크로드를처리할수있습니다"라고그녀는말했습니다.​다중에이전트아키텍처는복잡한워크플로우에서그자리가있다고Guzman은인정했지만,종종개발을가속화하기보다는오히려늦추는불필요한복잡성을도입한다고했습니다.이러한입장은여러기술제공업체들이엔터프라이즈AI도입에필수적이라고홍보해온다중에이전트시스템에대한광범위한업계의과대광고와대조를이룹니다.​앞을내다보며Guzman은사용자가시스템에적응하도록강요하는대신사용자에게맞춰적응하는보다개인화된생성형인터페이스로의전환을예측했습니다.떠오르는소프트웨어개발키트생태계와결합하여,그녀는직원들이단일지능형인터페이스를통해여러서비스와상호작용하는통합되고맥락이풍부한경험을기대하고있습니다.​2025년9월에출시된OpenAI의GPT-5-Codex는샌드박스환경,기본적으로비활성화된네트워크액세스,그리고기업배포를위해설계된내장보안제어기능을통해이러한구조화된접근방식을구현하고있습니다.
1070 조회
0 추천
2025.11.25 등록
WeRide는월요일3분기매출이전년대비144%증가했다고보고했으며,이는로보택시사업의폭발적인성장과8개국에걸친글로벌확장에힘입은것으로,시간외거래에서주가가거의10%상승했다.​이자율주행회사는3분기매출2,400만달러를기록했으며,이는작년같은기간의985만달러에서증가한수치로,로보택시매출이761%급증하여500만달러를달성했다.로보택시사업은현재전체매출의21%를차지하며,이는1년전단6%에서급격히증가한것이다.매출총이익률은전년분기7%에서33%로확대되었으며,회사는순손실을71%줄여4,330만달러로축소했다.​글로벌확장이중요한이정표에도달하다WeRide는10월아부다비에서완전무인상업허가를획득하여안전운전자없이운영할수있게되었으며,UAE수도에서단위경제성손익분기점달성을위한입지를확보했습니다.현재이회사는스위스,중국,UAE,사우디아라비아,싱가포르,프랑스,벨기에,미국등8개국에서허가를받아자율주행차량을운영하고있으며,이러한글로벌규제승인을받은유일한기술기업입니다.​11월에WeRide는스위스최초의무인로보택시허가를받아460개정거장이있는110킬로미터지역에서운영할수있는권한을부여받았으며,2026년상반기를목표로완전무인공공서비스를시작할예정입니다.또한이회사는아부다비와사우디아라비아모두에서플랫폼을통해운영을시작했습니다.​함대확장및시장지위10월31일기준,WeRide는약750대의로보택시를포함하여1,600대가넘는자율주행차량을운영했으며,2030년까지중동에서수만대규모로확대할계획입니다.이회사는11월홍콩이중1차상장을완료하여약23억9천만홍콩달러를조달했으며,9월30일기준6억3,160만달러의현금을보유하고있습니다.​WeRide의창립자겸CEO인TonyHan은"우리는여러중요한이정표를달성했으며,특히아부다비에서완전무인상업용로보택시허가를확보한것이가장주목할만합니다.그곳에서의운영은곧단위경제성손익분기점에도달할예정이며,이는대규모수익성으로가는우리의길을검증하는중요한이정표입니다"라고말했습니다.
1086 조회
0 추천
2025.11.25 등록
조지타운 대학교의 컴퓨터 과학자 칼 뉴포트는 2025년 11월 24일자 팟캐스트에서, 생물학자 브렛 와인스타인이 조 로건 팟캐스트에서 언급한 것과 같은 AI 의식에 대한 대중적 주장들이 대형 언어 모델의 작동 방식을 근본적으로 오해하고 있으며, 인상적인 언어 처리 능력을 의식, 의도, 조작과 같은 이 시스템들이 가질 수 없는 특성과 혼동하고 있다고 주장합니다.뉴포트는 대형 언어 모델(LLM)이 훈련이 끝나면 분산된 GPU에서 순차적인 행렬 곱셈을 통해 처리되는 고정된 숫자표로 작동한다고 설명합니다. 이들은 학습하거나, 의도를 형성하거나, 실험을 수행하거나, 이해를 갱신하지 못하며, 인간의 의식에 필요한 역동적이고 다중 시스템적 구조와는 다르다고 말합니다.“AI의 대부”로 불리는 제프리 힌턴도 와인스타인과 비슷하게 들리는 경고를 한 적이 있지만, 뉴포트는 힌턴이 아직 개발되지 않은 가상의 미래 AI 시스템에 대해 우려하고 있는 반면, 2025년이 “AI 에이전트의 해”가 될 것이라는 예상이 실패한 주요 원인은 언어 모델이 신뢰할 만한 자율적 운영에 필요한 세계 모델링, 계획, 추론 능력이 부족하기 때문이라고 명확하게 설명합니다.
1106 조회
0 추천
2025.11.24 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입