Loading...

AI 뉴스

애플, AI 편집 개선을 위해 40만 장의 이미지 데이터셋 공개

페이지 정보

작성자 xtalfi
작성일 2025.10.30 01:40
1,723 조회
0 추천
0 비추천

본문

apple_reuters_1754290388226.jpg

(퍼플렉시티가 정리한 기사)


Apple 연구진이 텍스트 프롬프트를 기반으로 인공지능 시스템이 사진을 편집하는 방식을 개선하기 위해 설계된 400,000개의 선별된 이미지를 포함하는 포괄적인 데이터셋인 Pico-Banana-400K를 공개했다고 이번 주 발표된 연구 논문에서 밝혔습니다.​

이 대규모 데이터셋은 Apple이 현재 AI 이미지 편집 훈련에서 중요한 격차로 설명하는 문제를 해결하는 것을 목표로 하며, 실제 사진으로 구축된 부적절한 데이터셋으로 인해 발전이 제약받아 왔습니다. GPT-4o와 같은 시스템이 인상적인 편집을 수행할 수 있지만, 연구진은 대규모의 고품질 훈련 데이터 부족이 이 분야의 발전을 제한해왔다고 말합니다.​


품질과 다양성에 대한 체계적 접근

Pico-Banana-400K를 이전 데이터셋과 구별하는 것은 Apple의 체계적인 품질 관리 접근 방식과 포괄적인 범위입니다. 이미지는 색상 변경과 같은 기본 조정부터 사람을 픽사 스타일 캐릭터나 레고 피겨로 변환하는 것과 같은 복잡한 변형에 이르기까지 8개 카테고리에 걸쳐 35가지 편집 유형으로 구성되어 있습니다.​

Apple은 Google의 Gemini-2.5-Flash-Image 모델(Nano-Banana로도 알려짐)을 사용하여 편집을 생성하고, Gemini-2.5-Pro를 자동화된 품질 관리 시스템으로 활용하여 지시 준수 및 기술적 품질을 기반으로 결과를 평가했습니다. 데이터셋의 각 이미지는 포함되기 전에 이러한 엄격한 AI 기반 검수 프로세스를 거쳤습니다.​

데이터셋에는 세 가지 특화된 하위 집합이 포함되어 있습니다: 기본 훈련을 위한 258,000개의 단일 편집 예제, 성공한 편집과 실패한 편집을 비교하는 56,000개의 선호도 쌍, 그리고 여러 연속 편집을 통해 이미지가 어떻게 진화하는지 보여주는 72,000개의 다중 턴 시퀀스.​


현재 AI의 한계 드러내기

애플의 연구는 현재 이미지 편집 모델의 중요한 한계를 드러냈습니다. 전역 스타일 변경은 93%의 성공률을 보인 반면, 객체 재배치나 텍스트 편집과 같은 정밀한 작업은 60% 미만의 성공률로 어려움을 겪었습니다. 이러한 발견은 AI 이미지 편집이 여전히 사용자 기대에 미치지 못하는 부분에 대한 귀중한 통찰을 제공합니다.​

전체 Pico-Banana-400K 데이터셋은 GitHub에서 비상업적 연구 목적으로 무료로 제공되며, 개발자와 연구자들이 더 유능한 이미지 편집 AI 시스템을 훈련시키는 데 사용할 수 있습니다. 연구자들에 따르면, 이 데이터셋은 "차세대 텍스트 기반 이미지 편집 모델을 훈련하고 벤치마킹하기 위한 견고한 기반"을 확립합니다.

댓글 0
전체 1,366 / 122 페이지
(퍼플렉시티가 정리한 기사)월트 디즈니 컴퍼니는 디즈니+를 구독자들이 AI로 생성한 숏폼 비디오를 제작하고 공유할 수 있는 인터랙티브 플랫폼으로 탈바꿈할 계획을 발표했다. 이 소식은 CEO 밥 아이거가 2025년 4분기 실적 발표 콜에서 11월 13일에 공개했다.이번 조치는 디즈니가 기존의 스트리밍 모델에서 벗어나 유튜브와 같은 사용자 생성 콘텐츠 플랫폼과 경쟁하고, 최근 인공지능의 발전을 활용하려는 전략의 일환이다. 아이거는 이 기능 개발과 디즈니 지적 재산권 보호를 위해 이름이 공개되지 않은 AI 기업들과 “생산적인 협의”를 진행 중임을 밝혔다.아이거는 콜에서 “특히 AI의 도입과 함께, 디즈니+를 디즈니 관련 모든 것의 포털로 사용할 수 있는 기회를 보고 있다”고 말했다. 그는 디즈니+ 이용자들에게 훨씬 더 몰입감 있는 경험을 제공하고자, 그들이 사용자 생성 콘텐츠를 직접 만들고, 다른 사람들이 만든 주로 숏폼 콘텐츠를 소비할 수 있도록 할 계획을 설명했다.에픽 게임즈 파트너십 및 게임 기능이번 발표는 디즈니가 포트나이트의 제작사인 에픽 게임즈에 15억 달러를 투자한 데에 기반을 두고 있으며, 이거(Iger)는 이를 통해 Disney+에 ‘게임과 유사한 기능’을 통합할 수 있는 기회가 생긴다고 밝혔다. 양사의 첫 번째 주요 협업으로는 11월 초에 공개된 디즈니랜드 게임 러시(Disneyland Game Rush)로, 이는 포트나이트 내부에 테마파크에서 영감을 받은 미니게임 모음집이다.디즈니는 4분기에 Disney+ 가입자가 380만 명 늘어나 총 1억 3,200만 명에 이르렀으며, D2C(Direct-to-Consumer) 영업이익도 3억 5,200만 달러로 증가했다고 보고했다. 디즈니의 스트리밍 사업에는 Hulu와 ESPN+도 포함되어 있는데, 이들 서비스를 모두 합치면 총 1억 9,600만 명의 가입자를 확보했다.혁신과 지식재산권 보호의 균형디즈니는 AI 역량을 수용하는 동시에, 자사의 캐릭터와 콘텐츠를 무단 AI 사용으로부터 보호하기 위해 법적 조치도 취하고 있다. 이 회사는 2025년 6월 AI 이미지 생성 플랫폼인 미드저니(Midjourney)를 상대로 소송을 제기했으며, 9월에는 캐릭터.AI(Character.AI)에 대해 중지 및 금지 요청 서한을 보냈다.디즈니의 발표 시기는 2025년 9월 오픈AI(OpenAI)가 텍스트 프롬프트만으로 짧은 비디오 클립을 생성할 수 있는 고급 비디오 생성 모델 소라 2(Sora 2)를 출시한 직후와 맞물린다. 디즈니는 이미 9월부터 YouTube 크리에이터 영상 유통사 포켓.워치(Pocket.watch)와 파트너십을 맺어 디즈니+에서 사용자 제작 콘텐츠 실험을 시작했다.아이거(Iger)는 AI 기업들과의 합의가 “IP를 보호할 필요성을 반영”하는 동시에, “그들의 기술을 활용해 소비자와 더 많은 교류의 기회를 창출”하는 것이 디즈니의 목표임을 강조했다.
1362 조회
0 추천
2025.11.15 등록
(퍼플렉시티가 정리한 기사)바이두는 목요일 베이징에서 열린 Baidu World 2025 컨퍼런스에서 네이티브 옴니모달 인공지능 기초 모델인 ERNIE 5.0을 공개했다. 중국의 기술 대기업은 점점 더 경쟁이 치열해지는 국내 AI 시장에서 주도권을 되찾기 위해 힘쓰고 있다.이 모델은 2.4조개의 파라미터를 특징으로 하며, 텍스트, 이미지, 오디오, 비디오 데이터를 동시에 처리해 멀티모달 이해 및 생성 기능을 제공한다. ERNIE 5.0은 현재 ERNIE Bot에서 공개 프리뷰로 제공되며, 기업 고객은 바이두 AI 클라우드의 첸판(Qianfan) 플랫폼을 통해 이용 가능하다. 벤치마크 테스트에서, 회사 측은 이 모델이 Gemini 2.5 Pro와 GPT-5 등 글로벌 선도 모델들과 비슷한 성능을 보인다고 밝혔다.로빈 리 CEO는 “기술적 혁신의 속도가 유일한 경쟁력의 해자”라고 강조하며, AI 애플리케이션이 기초 모델 자체의 가치를 100배로 창출하는 바이두의 비전을 제시했다. 회사는 또한 대규모 추론 시나리오를 위한 M100(2026년 초 출시 예정)과 초대형 모델 훈련을 위한 M300(2027년 초 출시 예정) 등 2종의 새로운 쿤룬 AI 칩도 공개했다.제품 생태계 및 글로벌 확장플래그십 모델 외에도 바이두는 AI 제품군 전반에 걸친 업그레이드를 발표했습니다. 범용 AI 에이전트인 GenFlow 3.0은 2천만 사용자에 도달하여 회사가 “세계 최대 범용 에이전트”라고 부르는 제품이 되었습니다. 또한 회사는 세계 최초의 상용 자체 진화 에이전트로 설명되는 Famou를 공개했으며, 이는 초대 코드를 통해 이용 가능하고 운송, 에너지, 금융 및 물류 분야의 복잡한 시나리오를 위해 설계되었습니다.노코드 애플리케이션 빌더인 Miaoda는 버전 2.0으로 업그레이드되어 40만 개 이상의 애플리케이션을 생성했습니다. 국제 버전인 MeDo는 이번 행사에서 전 세계적으로 출시되었으며 현재 medo.dev에서 개발자들이 이용할 수 있습니다. 바이두의 AI 워크스페이스인 Oreate는 글로벌 시장에서 120만 명의 사용자를 확보했습니다. 회사의 디지털 휴먼 기술은 브라질에서 데뷔했으며 미국과 동남아시아로의 확장을 모색하고 있으며, 중국의 “광군제” 쇼핑 페스티벌 기간 동안 라이브 스트리머의 83%가 이 기술을 사용하여 참여 라이브 스트림이 전년 대비 119% 증가했습니다.자율주행의 이정표바이두의 자율주행 호출 서비스인 아폴로 고(Apollo Go)는 10월 31일 기준 전 세계적으로 누적 1,700만 건 이상의 탑승 횟수를 돌파했으며, 22개 도시에서 주간 25만 건 이상의 완전 무인 운행을 진행하고 있습니다. 이 서비스는 자율주행 누적 거리 2억 4천만 킬로미터 이상을 기록했으며, 이 중 1억 4천만 킬로미터는 완전 무인 모드로 운행되었습니다. 최근 아폴로 고는 아부다비에서 최초의 상업용 무인 운행 허가 중 하나를 획득했으며, 2026년까지 아랍에미리트 내 차량 규모를 수백 대로 확장할 계획을 세우고 있습니다.이러한 발표에도 불구하고, 바이두는 광고 수익이 9월 분기에 약 8% 감소할 것으로 예상되어 거의 10년 만에 가장 큰 하락세에 직면해 있습니다. 업계 관계자들에 따르면, 바이두는 AI 기반 애플리케이션과 오픈소스 모델 개발 부문에서 국내 경쟁사인 바이트댄스, 알리바바에 뒤처지고 있습니다.
1391 조회
0 추천
2025.11.15 등록
(퍼플렉시티가정리한기사)일론머스크의AI기반백과사전Grokipedia가전문가들이신뢰할수없다고판단한수천개의출처를인용하고있어,정보출처로서의플랫폼신뢰성에대한우려가제기되고있다고코넬테크연구진이금요일발표한연구결과가밝혔다.arXiv에게재된종합분석에따르면,Grokipedia는위키백과편집자들이"일반적으로신뢰할수없음","블랙리스트"또는"사용중단"으로분류한출처에대한260만개의인용을포함하고있으며,이는전체인용의6%를차지하여위키백과에서발견되는비율의두배에달한다.이연구는코넬테크의개인정보보호및보안연구원인HaroldTriedman과대학의보안,신뢰및안전이니셔티브책임자인AlexiosMantzarlis가수행했다.​주변부사이트가광범위하게인용됨가장우려스러운발견중하나는연구자들이위키피디아가결코참조하지않는웹사이트에대한180개의인용을발견했다는것입니다.여기에는백인민족주의포럼인Stormfront에대한42개의인용,음모론웹사이트InfoWars에대한34개의인용,그리고백신반대사이트NaturalNews에대한수십개이상의인용이포함되어있습니다."그로키피디아는이러한출처들의신뢰성을검증하지않고인용하고있습니다"라고연구자들은지적했습니다.​연구에따르면"일반적으로신뢰할수없는"것으로간주되는출처가그로키피디아인용의5.4%를차지하는데,이는위키피디아와비교하여86%상대적증가를나타내며,"블랙리스트에등재된"출처는인용의0.1%를차지하여275%의상대적증가를나타냅니다.반대로,"일반적으로신뢰할수있는"출처는인용의7.7%만을차지하여위키피디아보다39%감소했습니다.​연구자들은플랫폼의10월27일출시며칠후인10월28일부터30일사이에그로키피디아말뭉치의99.8%인883,858개의기사를스크래핑했습니다.이데이터는추가분석을위해GitHub와HuggingFace에공개적으로공개되었습니다.​플랫폼이비판을받다머스크의xAI회사가출시한Grokipedia는머스크가"선전물"이라고반복적으로비판해온위키백과에대한덜편향된대안으로자리매김하고있습니다.그러나위키미디어재단은"Grokipedia조차도위키백과가존재해야한다"고강조하며,AI백과사전콘텐츠의상당부분이위키백과문서에서파생된것으로보인다고지적했습니다.​논평을요청받은xAI는"레거시미디어는거짓말을한다"라는자동메시지로응답했습니다.
1332 조회
0 추천
2025.11.15 등록
(퍼플렉시티가정리한기사)MelisaTokmakCEO가이끄는인공지능스타트업Netic이PeterThiel의FoundersFund가주도한2,300만달러규모의시리즈B펀딩라운드를마감하여회사가치가4억5천만달러로평가되었습니다.샌프란시스코에본사를둔이회사는계약업체,배관공,지붕공을위한비즈니스운영자동화AI도구를제공하며,여성주도스타트업이벤처캐피털펀딩의3%미만을차지하는AI부문에서여성창업자들에게드문밝은사례가되고있습니다.​드문신임투표이번펀딩라운드는FoundersFund가Netic을지원한세번째연속투자를의미합니다.이는벤처캐피탈회사가단두개의다른회사,즉AI코딩스타트업CognitionAI와국방기술기업Anduril에만제공한특별한지원입니다.FoundersFund의파트너AminMirzadegan은Bloomberg에회사가이러한반복적인지원을거의제공하지않는다고말하며,중소기업들사이의AI기회가"실리콘밸리에의해간과되었다"고언급했습니다.​Netic의SeriesB는빠른자금조달궤적을따릅니다.이회사는2024년9월GreylockPartners가주도한시드라운드를유치한후,불과4개월후인2025년6월FoundersFund가주도한2천만달러규모의SeriesA를확보했습니다.다른투자자로는HanabiCapital,DayOneVentures,SVAngel,그리고ScaleAI의AlexWang와Figma의DylanField를포함한엔젤투자자들이있습니다.​필수서비스를위한AI지식근로자를대상으로하는AI도구와달리,Netic은Tokmak이"미국경제의중추를이루는산업"이라고부르는분야에집중합니다.이플랫폼은전화,문자,웹채팅및제3자플랫폼을통해고객상호작용을자율적으로처리하며,HVAC,배관,전기및지붕공사부문의비즈니스를위해예약을잡고완전한고객생애주기를관리합니다.​Tokmak의LinkedIn게시물에따르면,지난1년동안Netic은북미전역의서비스산업에서고객들이수십만건의작업을예약하도록도왔습니다.이플랫폼을사용하는한HVAC기업은콜센터직원을두배로늘리지않으면서도90%이상의예약률을유지하고티켓가치를1.6배증가시켰습니다.​ScaleAI에서정부및기업사업부를이끌었으며StanfordUniversity컴퓨터과학졸업생인Tokmak은목요일BloombergTechnology에필수서비스산업이전문화된AI솔루션을필요로하는"심층적인워크플로"에직면해있다고말했습니다.그녀는숙련된기술직을언급하며"이것들은앞으로백년동안대체되지않을일자리입니다"라고말했습니다.​​회사는신규자본을활용하여추가가정서비스부문으로확장하고현재22명으로구성된팀을넘어성장할계획입니다.
1373 조회
0 추천
2025.11.15 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입