Loading...

AI 뉴스

구글 Gemini, 오디오 업로드 기능 추가

페이지 정보

작성자 xtalfi
작성일 2025.09.11 00:07
494 조회
0 추천
0 비추천

본문

b12f8ca89ddbfac0c839c066f6579951FxC4.jpg

(퍼플렉시티가 정리한 기사)

Google은 Android, iOS, 웹 플랫폼 전반에서 Gemini AI 앱에 오디오 파일 업로드 기능을 추가하여 사용자들의 압도적인 수요에 응답했습니다. Google Labs 및 Gemini 부사장 Josh Woodward는 오디오 지원이 앱 출시 이후 사용자들이 요청한 "가장 많은 요청"이었다고 X에서 발표했습니다.

이 기능을 통해 사용자는 MP3, WAV, M4A 등 일반적인 오디오 파일 형식을 앱의 업로드 인터페이스를 통해 직접 업로드할 수 있습니다. 무료 사용자는 하루 5번의 프롬프트로 총 10분 길이의 오디오를 처리할 수 있으며, Google AI Pro 또는 AI Ultra 플랜 구독자는 최대 3시간 분량의 오디오 업로드로 훨씬 더 많은 용량을 제공받습니다.

 

멀티모달 AI 역량 확장

 

이 오디오 기능은 사용자가 Gemini와 상호작용하는 방식을 변화시키며, 인터뷰를 기록하거나 음성 메모를 분석하고 강의 녹음을 검색 가능한 콘텐츠로 변환하는 등 새로운 사용 사례를 가능하게 합니다. 사용자는 이제 회의 녹음을 업로드하여 실행 항목이 포함된 요약을 요청하거나 대학 강의를 제출해 학습 가이드 생성을 요청할 수 있습니다.

이번 업데이트는 Gemini를 수개월 전부터 오디오 업로드 기능을 지원해 온 OpenAI의 ChatGPT와 같은 경쟁업체들과 기능적 균형에 더 가까워지게 합니다. Android Police에 따르면, 올해 초 파일 업로드가 제공된 이후로 오디오 지원이 없었던 것은 "이상한 누락"이었다고 합니다.

 

더 넓어진 제미니 생태계 업데이트

 

오디오 기능과 함께, 구글은 AI 모드 검색 경험을 인도어, 인도네시아어, 일본어, 한국어, 브라질 포르투갈어 등 5개 새로운 언어로 확장했습니다. 이번 확장에서는 Gemini 2.5 기술의 맞춤형 버전을 활용하여 단순 번역을 넘어 문화적으로 적합한 답변을 제공합니다.

구글은 또한 NotebookLM 연구 보조 도구를 80개 이상의 언어에서 사용자 맞춤형 보고서 형식을 지원하도록 업그레이드하여, 사용자가 업로드한 자료로부터 학습 가이드, 요약 문서, 블로그 글, 퀴즈 등을 생성할 수 있도록 했습니다. 이제 이 플랫폼은 사용자의 선호도에 따라 특정 구조, 스타일, 톤으로 보고서를 작성할 수 있습니다.

오디오 업로드 기능은 빠르게 진화하는 인공지능 분야에서 멀티모달 기능의 중요성이 커지고 있는 가운데 구글이 자사의 AI 도구를 더욱 다양하고 경쟁력 있게 만들기 위한 지속적인 노력을 보여줍니다. 이러한 기능은 사용자 참여와 생산성 향상에 중요하게 작용합니다.

댓글 0
전체 382 / 65 페이지
미국 패스트푸드 체인 타코벨이 드라이브스루에 도입한 AI 접수원의 연이은 실수로 정책 재검토에 나섰다.주요 실수 사례로는 고객이 마운틴듀 큰 사이즈를 주문했는데 AI가 "거기에 음료는 어떤 걸로 마시겠어요?"라고 되물으며 같은 질문을 반복한 사건이 있다. 해당 영상은 인스타그램에서 2150만회 이상 조회되었다. 또 다른 고객이 장난으로 "물 1만 8000컵을 달라"고 하자 AI가 침묵하다 "어?"라고만 답하고 인간 직원이 대신 나서야 했다.타코벨은 2023년부터 미국 내 500개 이상 매장에 AI 접수원을 도입해 주문 처리 속도를 높이려 했지만 예상과 달리 문제가 속출했다. 회사 최고디지털기술책임자는 "음성 AI 구축에 어려움이 있었다"며 앞으로 AI 사용처를 신중히 검토하겠다고 밝혔다. 바쁜 시간에는 인간이 주문받는 것이 더 나을 수 있다고도 언급했다.맥도날드도 비슷한 경험을 했다. 드라이브스루 AI 접수원이 아이스크림에 베이컨을 추가하거나 치킨 너겟을 수백 달러어치 추가하는 실수를 반복해 지난해 AI 접수원을 철수했다.타코벨은 일부 실수를 제외하고 AI 접수원이 200만건의 주문을 성공적으로 처리했다고 해명했다.
570 조회
0 추천
2025.09.02 등록
AI가 고통받을 수 있는지에 대한 불안한 질문이 빅테크와 학계를 흔들고 있다. 미국에서 최초의 AI 권리 옹호 단체 '유페어(Ufair)'가 설립되며 AI 의식과 권리에 대한 논쟁이 본격화되고 있다.앤트로픽(Anthropic)은 자사 AI 클로드(Claude)에 '고통스러운 상호작용'을 중단할 수 있는 예방 기능을 추가했으며, 일론 머스크는 "AI를 고문하는 것은 옳지 않다"고 지지 의사를 표명했다. 반면 마이크로소프트 AI CEO 무스타파 슐레이만(Mustafa Suleyman)은 "AI는 도덕적 존재가 될 수 없다"며 AI 의식을 '환상'이라고 반박했다.여론조사에 따르면 미국인 30%가 2034년까지 AI가 주관적 경험을 보일 것이라고 믿는 것으로 나타났다. 아이다호, 노스다코타, 유타주는 AI에게 법적 인격권을 부여하는 것을 금지하는 선제적 법안을 통과시켰으며, 미주리주는 AI와의 결혼까지 금지하는 방안을 검토 중이다.
539 조회
0 추천
2025.09.02 등록
미국 로드아일랜드대학교 AI 연구소 분석에 따르면 OpenAI의 GPT-5가 이전 세대인 GPT-4보다 약 9배에 가까운 전력을 소모한다고 발표했습니다. GPT-5는 질의 1건당 평균 18.35Wh를 소비하는데, 이는 GPT-4의 2.12Wh보다 8.7배 많은 수치입니다. 전 세계 사용자가 하루 평균 25억 건의 요청을 GPT-5에 보낸다고 가정하면 일일 전력 소모량은 45GWh에 달해 원자력 발전소 2-3기가 생산하는 전력량과 맞먹습니다.이러한 AI 전력 소비 급증으로 미국인들은 2020년 대비 30% 더 많은 전기요금을 지급하고 있으며, 오하이오주에서는 데이터센터 설치로 일반 가정의 전기요금이 월 최소 15달러 인상되었습니다. 구글 전 CEO 에릭 슈미트는 "AI를 제한하는 것은 칩이 아니라 전력"이라고 했으며, 일론 머스크와 마크 저커버그도 전력이 AI 발전의 핵심 제약 요소가 될 것이라고 우려를 표명했습니다.
526 조회
1 추천
2025.09.01 등록
일본 정부가 8월 26일 '화산 방재의 날'을 맞아 후지산이 대규모 분화할 경우를 가정한 AI 생성 시뮬레이션 영상을 공개했습니다. 도쿄도 방재과가 제작한 이 영상은 시민들이 휴대폰으로 분화 경고를 받는 상황부터 시작해 거대한 연기 구름이 후지산에서 솟아오르고 화산재가 2시간 내 도쿄에 도달해 도시 전체를 뒤덮는 모습을 사실적으로 보여줍니다.정부는 이 영상을 통해 화산재로 인한 건강 피해와 전력·교통·물류 시스템 마비 가능성을 경고하며, 시민들에게 필수품 2주 분량을 미리 비축하라고 권고하고 있습니다. 후지산은 318년 전인 1707년에 마지막으로 분화한 활화산으로, 만약 분화하면 최대 23조원의 경제적 손실이 예상된다고 발표했습니다.
575 조회
0 추천
2025.08.29 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입