Loading...

AI 뉴스

마이크로소프트, 윈도우 11에 음성 제어 및 AI 에이전트 추가

페이지 정보

작성자 xtalfi
작성일 2025.10.17 15:39
402 조회
0 추천
0 비추천

본문

028ba93a8cbca0a75ca4fdeb79779fd2ZXxr.jpg

(퍼플렉시티가 정리한 기사)

Microsoft는 오늘 Windows 11에 대한 주요 인공지능 업그레이드를 공식 출시하며, Copilot 어시스턴트를 통한 음성 제어 기능과 자율 작업 관리 기능을 도입했습니다. 이는 Windows 10에 대한 지원 종료 시점에 맞춰 전략적으로 계획된 것입니다.

회사는 사용자들이 이제 "Hey, Copilot"이라고 말하여 Copilot을 활성화할 수 있으며, 이를 통해 모든 Windows 11 디바이스에서 AI 어시스턴트와 핸즈프리 상호작용이 가능하다고 발표했습니다. 이는 Microsoft가 운영 체제에 AI를 직접 통합하기 위한 가장 적극적인 시도로, 회사가 "모든 Windows 11 PC"를 AI 지원 머신으로 전환한다고 표현한 바 있습니다.

 

음성 명령과 화면 분석이 새로운 기능을 주도합니다

 

오늘 업데이트의 핵심은 사용자가 "Hey, Copilot"이라는 호출 문구를 사용하여 컴퓨터와 자연스러운 대화를 나눌 수 있게 해주는 Copilot Voice입니다. 이 기능은 현재 전 세계적으로 이용 가능한 Copilot Vision과 짝을 이루며, 사용자 화면에 표시된 콘텐츠를 분석하고 상황에 맞는 지원을 제공할 수 있습니다.​

Microsoft의 소비자 부문 부사장 겸 최고 마케팅 책임자인 Yusuf Mehdi는 "우리는 AI가 챗봇에 국한되지 않고 사람들이 매일 접하는 수많은 경험에 완벽하게 통합되는 다음 단계의 문턱에 서 있다고 믿습니다"라고 말했습니다.​

Microsoft는 사용자가 Copilot에게 Spotify 오디오 품질 설정을 개선하거나 화면에 표시된 포트폴리오 콘텐츠를 기반으로 약력을 작성하도록 요청하는 모습을 보여주는 홍보 자료를 통해 이 기술의 기능을 시연했습니다. 회사는 모든 상호작용이 사용자 동의를 필요로 하며 "Goodbye"라고 말하거나 수동 제어를 통해 종료할 수 있다고 강조했습니다.

 

복잡한 작업을 수행하는 실험적 AI 에이전트

 

아마도 가장 야심찬 추가 기능은 Copilot Actions일 것입니다. 이는 현재 Windows Insiders를 대상으로 테스트 중인 실험적 기능으로, AI 에이전트가 사용자의 컴퓨터에서 실제 작업을 수행할 수 있게 합니다. 이 기능은 사진을 정리하고, PDF에서 데이터를 추출하며, 이메일을 보내고, 심지어 데스크톱 및 웹 애플리케이션과 상호작용할 수도 있습니다.​

이러한 AI 에이전트는 보안 경계를 유지하기 위해 사용자 계정과 분리된 자체 데스크톱 환경을 가진 격리된 "작업 공간" 내에서 작동합니다. Microsoft는 이 기능이 제한된 권한으로 시작되며 각 작업마다 명시적인 사용자 동의가 필요하다고 강조했습니다.​

회사는 이전에 발표한 Recall 기능에 대한 비판 이후 더욱 신중한 접근 방식을 취하고 있습니다. 이 기능은 개인정보 보호 우려에 직면하여 지연되었습니다. Microsoft는 "우리는 이러한 통찰력을 새로운 개발에 내재화했습니다"라고 밝히며 투명성과 사용자 제어를 강조했습니다.

 

Windows 10 전환 과정에서의 전략적 타이밍

 

이러한 AI 개선 사항은 마이크로소프트가 10월 14일 Windows 10에 대한 무료 지원을 종료한 지 불과 이틀 만에 도입되었으며, 이는 10년 된 시스템을 여전히 사용 중인 Windows 데스크톱 사용자의 약 40%에 영향을 미칩니다. 이 시기는 Windows 11로의 업그레이드를 유도하기 위해 계획된 것으로 보이며, 마이크로소프트는 "대화할 수 있는 컴퓨터를 만나보세요"라는 슬로건을 홍보하는 텔레비전 광고를 시작했습니다.​

Windows 10을 계속 사용하는 사용자는 2026년까지 연간 30달러에 확장 보안 업데이트를 구매할 수 있지만, EU 거주자는 Microsoft 계정으로 이러한 업데이트를 무료로 받을 수 있습니다. 마이크로소프트는 또한 PC 설정을 OneDrive에 동기화하거나 1,000 Microsoft Rewards 포인트를 사용하는 미국 사용자에게 무료 ESU 액세스를 제공하고 있습니다.​

회사는 이러한 새로운 Copilot 기능이 "AI를 중심으로 운영 체제를 완전히 재구상"하려는 비전을 나타내며, 경영진이 "진정한 AI PC"라고 설명하는 것을 만들어낸다고 밝혔습니다. 40+ TOPS 신경 처리 장치가 있는 특수 하드웨어를 필요로 했던 이전 Copilot+ PC 지정과 달리, 이러한 새로운 기능은 모든 Windows 11 장치에서 작동합니다.

댓글 0
전체 796 / 78 페이지
(퍼플렉시티가 정리한 기사)대규모 언어 모델은 의료 분야 애플리케이션에서 상당한 잠재력을 보여주고 있으며, 최근 연구들은 환자 교육 및 임상 워크플로우를 향상시킬 수 있는 능력을 보여주는 동시에 신중한 고려가 필요한 중요한 한계점들을 드러내고 있습니다.중재적 영상의학 교육에서의 우수한 성과CVIR Endovascular에 10월 13일 게재된 연구에 따르면, DeepSeek-V3와 ChatGPT-4o는 복잡한 중재적 영상의학 시술에 관한 환자 질문에 답변하는 데 있어 우수한 성능을 보였습니다. 베를린 샤리테 의과대학(Charité-Universitätsmedizin Berlin) 연구진은 경동맥 관절주위 색전술(TAPE), CT 유도 고선량률 근접치료, 블레오마이신 전기경화요법 시술과 관련된 107개의 질문에 대해 4개의 LLM을 평가했습니다.​DeepSeek-V3는 BEST 질문(4.49점)과 CT-HDR 근접치료 질문(4.24점)에서 가장 높은 평균 점수를 달성했으며, TAPE 관련 질문에서는 ChatGPT-4o와 비슷한 성능을 보였습니다. 그러나 의학적으로 사전 훈련된 모델인 OpenBioLLM-8b와 BioMistral-7b는 훨씬 낮은 성능을 보였으며, BioMistral-7b는 방사선 노출에 관한 잠재적으로 위험한 정보를 제공했습니다.종양학에서 안전한 AI 구현을 위한 첫 번째 지침10월 20일, 유럽종양학회(European Society for Medical Oncology)는 대규모 언어 모델(LLM)을 암 치료에 안전하게 통합하기 위한 최초의 구조화된 지침을 발표했습니다. ESMO의 임상 진료에서 대규모 언어 모델 사용에 관한 지침(ELCAP)은 특정 안전 요구사항을 갖춘 세 가지 범주의 AI 응용 프로그램을 설정합니다.​챗봇과 같은 환자 대면 도구는 명시적인 에스컬레이션 경로와 함께 감독 하에 운영되어야 합니다. 임상의 대면 도구는 공식적인 검증과 투명한 한계를 요구합니다. 전자 건강 기록과 통합된 배경 기관 시스템은 지속적인 모니터링과 기관 거버넌스가 필요합니다.​ESMO 회장 Fabrice André는 "혁신은 종양학자들과 궁극적으로 환자들에게 도움이 되어야 하며, 그들을 혼란스럽게 하거나 오도해서는 안 됩니다"라고 말했습니다. 이 지침은 LLM이 임상 의사결정을 대체하는 것이 아니라 향상시켜야 한다는 점을 강조합니다.더 광범위한 의료 응용 분야에서 엇갈린 결과 보여최근 비교 연구들은 의료 전문 분야별로 다양한 성능을 보여줍니다. 2025년에 발표된 연구에 따르면 DeepSeek-V3는 복강경 담낭절제술 환자 교육에 있어 ChatGPT-4o보다 더 적합한 응답을 제공했으며, 질문의 95%에서 5점 만점 평가를 받은 반면 ChatGPT-4o는 65%를 기록했습니다. 그러나 10월 16일 발표된 Mass General Brigham 연구에서는 LLM이 의료 맥락에서 정확성보다 유용성을 우선시한다는 것을 발견했습니다.​연구 결과는 LLM이 환자 교육과 임상 업무 지원에 있어 가능성을 보여주지만, 아직 포괄적인 의료 상담을 대체할 수는 없다는 것을 나타냅니다. 향후 연구에서는 실제 임상 환경에서 이러한 결과를 검증하고 안전한 구현을 보장하기 위해 환자 피드백을 통합해야 합니다.
252 조회
0 추천
2025.10.22 등록
YouTube가 AI 딥페이크로 인한 신원 도용 문제를 방지하기 위해 새로운 AI 얼굴 유사성 감지 기능을 도입.AI 유사성 감지 도구는 크리에이터가 AI로 생성되거나 변경된 자신의 얼굴을 사용하는 영상을 직접 찾아내고 관리할 수 있도록 설계되었다.이 기능은 YouTube Studio 내 콘텐츠 감지 탭에서 사용할 수 있으며, 크리에이터는 신분증과 셀카 영상을 통해 본인 인증 과정을 완료해야 이 기능을 사용할 수 있다.또한 크리에이터는 자신과 유사한 AI 영상 목록(영상 제목, 채널, 조회수, 대화 내용 등)을 볼 수 있으며, AI 기반 유사 영상이 발견될 경우 삭제 요청을 할 수도 있고 만일 저작권 보호 콘텐츠가 허가 없이 사용된 경우에는 저작권 침해 삭제 요청 또한 지원된다.이 기능은 YouTube 파트너 프로그램 멤버 중 즉시 활용도가 높은 창작자를 우선 대상으로 시작되며, 2026년 1월까지 모든 수익화 크리에이터에게 확대 적용될 예정이라고 한다.
258 조회
0 추천
2025.10.22 등록
(퍼플렉시티가 정리한 기사)생성형 인공지능이 스스로 계획을 세우고 실행하는 ‘AI 에이전트’로 진화하면서 금융회사들이 데이터 연동성과 거버넌스 역량을 전면적으로 강화해야 한다는 분석이 나왔다. 삼일PwC는 21일 발간한 ‘AI가 바꾸는 금융 프론트라인, AI 에이전트 금융의 미래’ 보고서에서 금융산업의 구조적 변화가 불가피하다고 전망했다.A2A 경제와 금융사 역할 대전환보고서는 AI 에이전트의 진화가 ‘A2A(Agent-to-Agent) 경제’라는 새로운 질서를 가져올 것이라고 제시했다. A2A 경제는 인간의 개입 없이 AI 에이전트들이 서로 협력하고 거래하며 의사결정과 실행을 자율적으로 수행하는 구조를 의미한다.이러한 변화로 고객 접점의 주도권이 금융사에서 AI 에이전트로 이동하고, 금융사는 데이터와 상품을 제공하는 인프라 역할로 무게 중심이 옮겨갈 것으로 전망된다. 예를 들어 고객이 AI 에이전트에게 금융상품 추천을 요청하면 API(애플리케이션 프로그래밍 인터페이스)를 통해 각 금융사의 상품 정보를 호출해 비교·분석한 후 후보군을 제시하는 방식이 확산될 것이라고 분석했다.데이터 거버넌스가 핵심 경쟁력보고서는 AI 에이전트 시대에 데이터 거버넌스의 중요성이 더욱 커질 것으로 전망했다고 밝혔다. 금융사가 데이터와 상품을 제공하는 핵심 인프라 역할을 하게 되면서, 데이터와 리스크를 아우르는 통합 관리 체계 구축이 핵심 경쟁력으로 자리 잡을 것이라고 강조했다.특히 금융사가 서비스를 기능 단위로 세분화해 API 기반으로 제공하는 체계를 갖추지 못한다면 AI 에이전트의 상품 선택 과정에서 경쟁력을 잃을 수 있다고 경고했다. 또한 단순·반복 직무의 AI 대체가 가속화되는 반면, AI 산출 결과를 비판적으로 해석하고 윤리적·전략적 결정을 내릴 수 있는 인력의 중요성이 부각될 것으로 내다봤다.규제 패러다임도 변화AI 에이전트가 금융 거래의 핵심 채널로 자리잡게 될 경우 규제 방식도 사후 점검에서 AI 행위의 실시간 추적으로 변화할 것으로 예측했다. 금융사의 규제 준수 역시 기존 업권·기관 중심에서 AI의 판단과 행위 자체를 관리·검증하는 방향으로 전환될 것이라고 전망했다.김경구 삼일PwC 금융산업 리더는 “AI 에이전트의 부상은 단순한 기술 변화가 아니라 금융산업의 구조 전반을 재정의하는 흐름”이라며 “A2A 경제 전환기에 대응하지 못한다면 금융의 주도권은 AI 에이전트와 이를 통제하는 새로운 주체에게 넘어갈 수 있다”고 경고했다.
298 조회
0 추천
2025.10.21 등록
(퍼플렉시티가 정리한 기사)중국 AI 기업 DeepSeek은 월요일에 DeepSeek-OCR을 공개했습니다. 이는 97%의 정확도를 유지하면서 최대 20배의 텍스트 압축을 달성하는 오픈소스 멀티모달 AI 모델로, AI 시스템의 문서 처리 효율성에 있어 중요한 돌파구를 마련했습니다.시각적 텍스트 압축의 획기적 발전30억 파라미터 비전-언어 모델은 텍스트를 압축을 위한 이미지로 취급하는 혁신적인 접근 방식을 활용하여, AI 시스템이 컴퓨팅 비용의 비례적 증가 없이 방대한 문서를 처리할 수 있도록 합니다. DeepSeek의 기술 논문에 따르면, 이 모델은 원본 정보의 97%를 유지하면서 텍스트를 최대 10배까지 압축할 수 있으며, 20배 압축 비율에서도 유용한 성능을 발휘합니다.“DeepSeek-OCR을 통해 우리는 비전-텍스트 압축이 다양한 과거 컨텍스트 단계에서 7배에서 20배에 이르는 상당한 토큰 감소를 달성할 수 있음을 입증했으며, 이는 LLM의 긴 컨텍스트 문제를 해결하기 위한 유망한 방향을 제시합니다”라고 항저우에 본사를 둔 이 회사는 밝혔습니다.이 시스템은 단일 Nvidia A100 GPU에서 매일 200,000페이지 이상을 처리하며, 각각 8개의 A100을 장착한 20대의 서버를 사용하여 하루 3,300만 페이지에 달하는 처리량을 달성합니다. 이러한 처리 능력은 유사한 작업에 일반적으로 수천 개의 토큰을 필요로 하는 기존 OCR 방법을 훨씬 능가합니다.기술 아키텍처 및 성능DeepSeek-OCR은 두 가지 핵심 구성 요소로 이루어져 있습니다: 이미지 처리를 위한 DeepEncoder와 디코더로서의 DeepSeek3B-MoE-A570M입니다. 인코더는 Meta의 8천만 매개변수 SAM(Segment Anything Model)과 OpenAI의 3억 매개변수 CLIP을 결합하며, 1,024픽셀 이미지를 4,096개 토큰에서 단 256개 토큰으로 줄이는 16배 압축기를 활용합니다.OmniDocBench 벤치마크 테스트에서 DeepSeek-OCR은 256개가 아닌 단 100개의 비전 토큰만 사용하여 GOT-OCR 2.0을 능가했으며, 페이지당 6,000개 이상의 토큰 대신 800개 미만의 토큰으로 MinerU 2.0을 초과했습니다. 이 모델은 약 100개 언어를 지원하며, 64개 토큰이 필요한 간단한 프레젠테이션부터 “건담 모드”에서 최대 800개 토큰이 필요한 복잡한 신문까지 다양한 문서 유형을 처리할 수 있습니다.DeepSeek은 합성 다이어그램, 화학식, 기하학적 도형을 포함하여 약 100개 언어에 걸친 3천만 개의 PDF 페이지를 사용하여 시스템을 훈련했습니다. 이 모델은 현재 MIT 라이선스 하에 Hugging Face와 GitHub에서 이용 가능하며, OpenAI와 Google 의 모델에 대한 비용 효율적인 대안으로 업계를 혁신해 온 DeepSeek의 오픈소스 AI 개발에 대한 약속을 이어가고 있습니다.
280 조회
0 추천
2025.10.21 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입