AI 뉴스

마이크로소프트의 Fara-7B는 GPT-4o와 경쟁하는 컴퓨터 사용 AI 에이전트로, PC에서 직접 작동

페이지 정보

작성자 xtalfi
작성일 11.25 16:10
54 조회
0 추천
0 비추천

본문

f43ee9a7735c9322763d602776200742_1764054591_041.jpg
 

Microsoft는 사용자의 PC에서 직접 시각적 스크린샷을 해석하고 마우스 및 키보드 동작을 제어하여 작업을 수행하는 70억 개의 매개변수를 가진 AI 에이전트 Fara-7B를 공개했으며, 이는 데이터 처리를 로컬에 유지하여 개인정보 보호를 강화하고 HIPAA 및 GLBA와 같은 규정을 준수할 수 있는 클라우드 기반 모델의 대안을 제공합니다.​

WebVoyager 웹 탐색 벤치마크에서 Fara-7B는 69.5%의 작업 성공률을 달성하여 GPT-4o의 65.1% 성능을 능가했으며, 유사한 크기의 모델이 필요로 하는 41단계에 비해 약 16단계 만에 작업을 완료했습니다.​

이 모델은 Microsoft의 Magentic-One 다중 에이전트 프레임워크에 의해 생성된 145,000개의 합성 작업 궤적을 사용하여 훈련되었으며, 현재 MIT 라이선스 하에 Hugging Face에서 사용할 수 있습니다. 다만 Microsoft는 이 모델이 여전히 실험적이며 프로덕션 배포보다는 파일럿 프로젝트에 가장 적합하다고 주의를 당부하고 있습니다.

댓글 0
전체 1,238 / 35 페이지
Google은사용자가"이것이AI로생성된것인가요?"라고질문하여이미지가GoogleAI도구에의해생성되었거나수정되었는지확인할수있는기능을Gemini앱에추가하고있으며,향후에는이검증기능을동영상,오디오,그리고Google검색으로확대할계획입니다.​이기능은현재Google의독점적인보이지않는워터마킹기술인SynthID에기반하고있지만,앞으로는업계표준인C2PA(콘텐츠출처및진위연합)자격증명을지원하게되어,OpenAI의Sora를포함한더다양한AI도구에서생성된콘텐츠도탐지할수있습니다.​TikTok도이번주에AI생성콘텐츠에C2PA워터마킹을도입하겠다고발표했으나,이러한탐지시스템의보다광범위한활용은소셜미디어플랫폼이수동사용자검증이아니라자동플래그기능을개발하는데달려있습니다.
126 조회
0 추천
11.21 등록
음성AI스타트업Wispr은3천만달러규모의시리즈A투자를확보한지불과5개월만에NotableCapital이주도한2,500만달러를추가로유치하여총투자금을8,100만달러로늘렸으며,이는받아쓰기앱WisprFlow가전월대비40%의성장을경험하고있다고TechCrunch가보도했다.​회사는사용자들이3개월사용후앱을통해자신의문자의50%이상을작성한다고보고하며,WisprFlow는270개의Fortune500기업에도달했고125개기업이엔터프라이즈고객으로계약했으며,OpenAI의Whisper의27%및Apple의네이티브전사기능의47%와비교하여10%의오류율을달성했다.​Wispr은투자자HansTung이"워크플로우자동화를시작할수있는음성주도운영체제"라고부르는것으로받아쓰기를넘어진화하는것을목표로하며,YC지원Willow와Aqua,Superwhisper등을포함한경쟁이치열한시장에서경쟁하고있으며,음성인식기술시장은2034년까지500억달러를초과할것으로예상된다.
124 조회
0 추천
11.21 등록
Google은목요일새로운Gemini3Pro모델을기반으로구축된업그레이드된AI이미지생성도구인NanoBananaPro를출시하여,전문편집소프트웨어의경쟁자로자리매김할수있는향상된기능을제공합니다.​이번출시는화요일에공개된Gemini3Pro에이어나온것으로,8월에단4일만에1,300만명의신규사용자를유치하며입소문을탄원래NanoBanana모델의주요한계점을해결했습니다.업데이트된도구는이제2K및4K이미지해상도,16:9를포함한다양한화면비율을지원하며,최대5명의인물에대한캐릭터일관성을유지하거나14개의서로다른이미지를혼합할수있습니다.​추론능력이사용자경험을변화시킵니다Gemini2.5Flash로구동되었던이전버전과달리,NanoBananaPro는이미지를생성하기전에복잡한데이터를해석하기위해Gemini3Pro의추론능력을활용합니다."인포그래픽제작에탁월합니다.슬라이드프레젠테이션을생성할수있으며,캐릭터일관성을유지하면서최대14개의서로다른이미지또는5개의다른캐릭터를관리할수있습니다"라고GoogleLabs및Gemini의부사장인JoshWoodward가CNBC에말했습니다.​이모델은운동루틴,코드스니펫,데이터세트를분석하여시각화를생성할수있으며,단순한텍스트-이미지생성을넘어섭니다.AndroidAuthority의테스트에따르면,이도구는이제후속편집요청을효과적으로처리하는반면,원래버전은"마치디지털머리를벽에부딪히는것처럼동일한편집을반복했습니다".​OpenAI에대한전략적압박이번출시는11월12일GPT-5.1을발표한OpenAI와의경쟁이심화되는가운데이루어졌습니다.Google의Gemini앱은현재월활성사용자6억5천만명을보유하고있어,ChatGPT의주간사용자7억~8억명과의격차를좁히고있습니다.​NanoBananaPro는Gemini앱에서제한된무료할당량으로제공되며,사용자가할당량을모두소진하면원래모델로되돌아갑니다.유료구독자인GoogleAIPlus,Pro,Ultra사용자는더높은할당량을받으며,Ultra구독자는Flow비디오도구에서도액세스할수있고가시적워터마크가면제됩니다.이도구는NotebookLM,GoogleSlides,GoogleVids및GeminiAPI에도배포되고있습니다.​모든이미지에는검증목적으로Google의비가시적SynthID워터마크가포함되며,무료및Pro등급사용자에게는가시적인Gemini스파클워터마크가표시됩니다.
129 조회
0 추천
11.21 등록
바이두CEO로빈리는화요일로보택시가"중국과미국모두에서전환점에도달했다"고선언하며,자율주행차량이주류채택에근접하고있다는신호를보내는기술경영진들의대열에합류했다.이발언은미국과중국기업들이글로벌로보택시시장을장악하기위한경쟁이심화되는가운데바이두의3분기실적발표에서나왔다.​리는변곡점의증거로대중의수용도증가를언급하며,현재충분한수의사람들이무인주행을경험하고소셜미디어에호의적인인상을공유함으로써규제승인을가속화할가능성이있다고지적했다.그의발언은엔비디아CEO젠슨황의최근성명과일치하는데,황은10월우버와의파트너십을발표하며2027년부터전세계적으로10만대의자율주행차량을배치할계획이며,이러한변화가"빠르게일상적인현실이되고있다"고언급했다.​중국기업들이국제확장을주도하다중국의로보택시기업들이글로벌확장에서미국경쟁사들을앞서고있으며,Baidu의ApolloGo,Pony.ai,WeRide가중동,동남아시아,유럽전역에서상업운영을시작했습니다.ApolloGo는현재두바이,아부다비,베이징,상하이,우한을포함한전세계22개도시에서매주25만건이상의완전무인주행서비스를제공하고있습니다.이회사는아부다비에서완전자율주행서비스에대해승객에게요금을부과할수있는승인을받았습니다.​Baidu는ApolloGo가총1,700만건의주행을달성하여5월에1,000만건의주행을발표한Alphabet의Waymo에필적한다고주장합니다.11월회사컨퍼런스에서Li는ApolloGo의차량이에어백전개전까지평균1,014만킬로미터를주행하여"인간운전자의성능을크게능가"하며Waymo의안전지표를초과한다고밝혔습니다.​GoldmanSachs는글로벌로보택시시장이2030년까지250억달러를초과할수있으며,중국시장만으로도2035년까지470억달러에달할것으로예측합니다.이투자은행은2025년부터2030년까지약90%의연평균성장률을전망합니다.​미국기업들의배치가속화Waymo는이번주미니애폴리스,탬파,뉴올리언스로확장할계획을발표했으며,최근마이애미및기타도시에서의출시에이어추가됩니다.1,500대이상의차량을운영하는이회사는화요일마이애미에서완전자율주행운영을시작했으며2026년대중서비스를계획하고있습니다.Tesla는이번주애리조나에서차량호출허가를받아미국내세번째시장에서운영을가능하게했습니다.​XPeng은내년광저우에서세가지로보택시모델을출시할계획을발표했으며,Alibaba의지도서비스Amap과파트너십을맺었습니다.이차량들은라이다나고해상도지도에의존하지않고3,000TOPS의컴퓨팅성능을특징으로합니다.
97 조회
0 추천
11.21 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입