AI 뉴스

구글 Gemini, 오디오 업로드 기능 추가

페이지 정보

작성자 xtalfi
작성일 2025.09.11 00:07
3,392 조회
0 추천
0 비추천

본문

b12f8ca89ddbfac0c839c066f6579951FxC4.jpg

(퍼플렉시티가 정리한 기사)

Google은 Android, iOS, 웹 플랫폼 전반에서 Gemini AI 앱에 오디오 파일 업로드 기능을 추가하여 사용자들의 압도적인 수요에 응답했습니다. Google Labs 및 Gemini 부사장 Josh Woodward는 오디오 지원이 앱 출시 이후 사용자들이 요청한 "가장 많은 요청"이었다고 X에서 발표했습니다.

이 기능을 통해 사용자는 MP3, WAV, M4A 등 일반적인 오디오 파일 형식을 앱의 업로드 인터페이스를 통해 직접 업로드할 수 있습니다. 무료 사용자는 하루 5번의 프롬프트로 총 10분 길이의 오디오를 처리할 수 있으며, Google AI Pro 또는 AI Ultra 플랜 구독자는 최대 3시간 분량의 오디오 업로드로 훨씬 더 많은 용량을 제공받습니다.

 

멀티모달 AI 역량 확장

 

이 오디오 기능은 사용자가 Gemini와 상호작용하는 방식을 변화시키며, 인터뷰를 기록하거나 음성 메모를 분석하고 강의 녹음을 검색 가능한 콘텐츠로 변환하는 등 새로운 사용 사례를 가능하게 합니다. 사용자는 이제 회의 녹음을 업로드하여 실행 항목이 포함된 요약을 요청하거나 대학 강의를 제출해 학습 가이드 생성을 요청할 수 있습니다.

이번 업데이트는 Gemini를 수개월 전부터 오디오 업로드 기능을 지원해 온 OpenAI의 ChatGPT와 같은 경쟁업체들과 기능적 균형에 더 가까워지게 합니다. Android Police에 따르면, 올해 초 파일 업로드가 제공된 이후로 오디오 지원이 없었던 것은 "이상한 누락"이었다고 합니다.

 

더 넓어진 제미니 생태계 업데이트

 

오디오 기능과 함께, 구글은 AI 모드 검색 경험을 인도어, 인도네시아어, 일본어, 한국어, 브라질 포르투갈어 등 5개 새로운 언어로 확장했습니다. 이번 확장에서는 Gemini 2.5 기술의 맞춤형 버전을 활용하여 단순 번역을 넘어 문화적으로 적합한 답변을 제공합니다.

구글은 또한 NotebookLM 연구 보조 도구를 80개 이상의 언어에서 사용자 맞춤형 보고서 형식을 지원하도록 업그레이드하여, 사용자가 업로드한 자료로부터 학습 가이드, 요약 문서, 블로그 글, 퀴즈 등을 생성할 수 있도록 했습니다. 이제 이 플랫폼은 사용자의 선호도에 따라 특정 구조, 스타일, 톤으로 보고서를 작성할 수 있습니다.

오디오 업로드 기능은 빠르게 진화하는 인공지능 분야에서 멀티모달 기능의 중요성이 커지고 있는 가운데 구글이 자사의 AI 도구를 더욱 다양하고 경쟁력 있게 만들기 위한 지속적인 노력을 보여줍니다. 이러한 기능은 사용자 참여와 생산성 향상에 중요하게 작용합니다.

댓글 0
전체 1,366 / 338 페이지
구글 포토에 드디어 음성으로 사진집이 가능해졌습니다. AI 편집기능이 추가된 것입니다."이 사진을 더 좋게 만들어줘"라고 말하면 자동으로 편집해준다고 합니다. 편집 스킬이 부족한 사람들한테 정말 유용한 기능일 것 같습니다.특히 C2PA 표준 도입으로 AI로 편집했는지 원본인지 구분할 수 있게 된 점이 인상적입니다. 딥페이크나 가짜 이미지를 걸러낼 수 있는 기능입니다.구글 픽셀 10(Pixel 10)부터 시작해서 iOS와 안드로이드 구글포토로 점진적을 확대될 예정이라고 합니다.
3532 조회
0 추천
2025.08.21 등록
- 최근 월 약 28만 원(200달러) 구독료로 800만 원 상당의 토큰을 사용하는 '추론 고래'(Inference whales) 개발자들이 다수 등장.- 일부 헤비유저 때문에 앤트로픽, 바이브 코딩 등 AI 스타트업의 수익성 악화 논란.- 대표적으로 한 사용자는 한 달간 51억 토큰(806만 원치 API 비용)에 달하는 클로드 코드 사용. 상위 169명은 한 달간 2777억 토큰 소비.- 서비스 업체들은 남용 방지 위해 무제한 요금제에 주간 사용량 제한 등 도입, 별도 초과 요금 부과 시작(8/28부터).- 비용 하락에도 최고 모델 수요는 여전히 높으며, AI 활용 워크플로우 확대에 따라 실제 토큰 사용량은 증가.- 전문가들은 "AI 추론 비용 감소가 현실적으로 어렵고, 무제한 요금제는 지속 불가능"이라는 의견 제시
3616 조회
0 추천
2025.08.20 등록
이 사업은 공무원이 보안 걱정 없이 다양한 생성형 AI 서비스를 활용하도록 관련 플랫폼과 거대언어모델(LLM), 컴퓨팅 자원(GPU 등) 등을 제공하는 게 목적이다. 행안부는 오는 11월 일부 서비스를 시범 제공할 계획이다. 삼성SDS 컨소시엄에 포함된 AI 플랫폼 2종(삼성SDS 패브릭스, 네이버 하이퍼스튜디오)과 LLM 모델 6개를 선정해 우선 서비스한다. 공무원은 이들 가운데 원하는 플랫폼과 LLM을 활용, AI를 업무에 적용해볼 수 있다.-> 우리가 아는 흔한 LLM모델을 쓸 수 있다는 말인가?
3582 조회
0 추천
2025.08.20 등록
오픈AI는 2025년 8월 17일부터 챗GPT의 응답 톤을 보다 따뜻하고 친근하게 조정하는 업데이트를 적용했습니다. 이로 인해 대화가 더 자연스럽고 사용자 친화적으로 느껴집니다. 기존에는 정보 위주의 다소 딱딱한 응답이 주를 이뤘다면, 이제는 감정 표현이 더 풍부해졌습니다. 예를 들어, 이전에는 "오늘 서울 날씨는 맑음, 기온 25도입니다"라는 응답이었다면, 이제는 "서울 오늘 날씨가 정말 좋아요! 맑고 기온 25도라 나들이 가기 딱 좋겠네요!"처럼 보다 생동감 있는 답변을 제공합니다. 사용자 피드백에 따르면 대화의 자연스러움이 약 20% 향상되었습니다.PS. 그래서 그런지 자꾸 반말을 하네요...
3441 조회
0 추천
2025.08.20 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입