Loading...

AI 뉴스

OpenAI, ChatGPT Agent 발표

페이지 정보

작성자 aIer
작성일 2025.07.18 13:01
796 조회
1 댓글
0 추천
0 비추천

본문

OpenAI가 ChatGPT Agent를 발표했습니다. 
기존 Deep Research와 Operator를 통합한 에이전트입니다.

알아서 모두 다 해줍니다. 예시인데 놀랍습니다.

"식당을 찾고 예약하는 작업을 시키면, 텍스트 브라우저로 후보를 찾은 다음, 비주얼 브라우저로 사진을 보고, 예약 가능 여부를 확인하고, 마지막으로 예약을 완료하는 식으로 진행할 수 있어요 [2]. 슬라이드 같은 창의적인 작업의 경우에도 먼저 온라인 자료를 검색하고, 터미널로 코드를 편집한 다음, 최종 결과물을 비주얼 브라우저에서 확인하는 식으로 작업을 한답니다"

통합

  • 텍스트 브라우저: 웹페이지 검색 및 읽기
  • 비주얼 브라우저: 웹사이트 상호작용, 폼 작성, 예약
  • 터미널: 코드 실행, 파일 생성, API 연결
  • 이미지 생성 API 접근
     

방식

  • 강화학습으로 상황별 최적 도구 선택 학습
  • 멀티턴 대화 지원
  • 작업 중단 및 방향 변경 가능
  • 중요 작업 전 사용자 확인 요청
  • 사용자 직접 개입 모드 제공
     

성능

  • Humanity's Last Exam: 42% (기존 대비 약 2배)
  • Front MS: 27% (수학적 추론 신기록)
  • Browse Comp: 6.9%
  • Spreadsheet Bench: 30% (Excel 직접 접근 시 45%)
  • 내부 은행 벤치마크에서 기존 모델 대비 우수한 성과
     

보안

  • 프롬프트 인젝션 등 새로운 공격 벡터 존재
  • 다단계 모니터링 시스템 구축
  • 민감 정보 입력 시 사용자 직접 제어 권장
     

이용

  • Pro Plus: 월 400회 쿼리
  • Team: 월 40회 쿼리
  • Enterprise/Edu: 이달 말 출시 예정
     

현재 Pro Plus 및 Team 사용자 대상으로 출시되었습니다.

댓글 1

윤호초이님의 댓글

작성자 윤호초이
작성일 2025.07.22 15:59
아거 비밀번호를 등록하는건가요?? 좀 찜찜한데...
전체 343 / 58 페이지
구글은 기존 스피커 모델을 업그레이드한 Gemini for Home을 10월 중 출시할 예정이다.지난 주 Made in Google 행사를 통해 구글은 차세대 음성 어시스턴트로 'Gemini for Home'을 공개했다. 이 모델은 모든 가족 구성원과 방문객이 여러 기기를 제어하고 복잡한 집안 업무도 음성으로 간편하게 처리할 수 있도록 설계됐다그리고 최근 한 유튜브 미디어가 이 기기로 추정되는 기기의 모습을 유출했다.이 어시스턴트는 음악 검색 및 재생, 조명·온도 제어 등 스마트홈 관리, 가족 일정 조율, 할 일 생성, 맞춤 정보 질의 등 다양한 작업을 한 번에 지원한다. 예를 들어 복수명령이나 긴 문장으로 집안 기기를 동시 제어할 수 있다또한 ‘Gemini Live’를 통해 사용자는 자연스러운 대화 방식으로 요리법, 생활 팁, 일정 상담, 창작 협업 등 맞춤형 조언 및 창의적인 지원을 받을 수 있다. 대화 도중 추가 질문이나 방향 전환도 자유롭게 할 수 있다Gemini for Home은 앞으로 기존의 Google Assistant를 스마트 스피커와 디스플레이 기기에서 대체할 예정이다. 무료와 유료 버전으로 제공되며, 10월부터 초기 액세스가 시행될 예정이다
498 조회
0 추천
2025.08.25 등록
애플 연구진은 기존보다 더 효율적으로 롱폼 비디오를 분석할 수 있는 대형 언어모델(LLM)인 SlowFast-LLaVA-1.5를 개발했다고 발표했다.애플은 'SlowFast' 구조(고해상도 소수 프레임+저해상도 다수 프레임)를 사용해 이미지와 영상 public 데이터셋을 모두 활용해 학습, 이미지만큼 영상 내 시간적 구조 이해도 가능하도록 했다. SF-LLaVA-1.5는 1B, 3B, 7B 파라미터 규모로 공개됐으며, LongVideoBench와 MLVU 같은 벤치마크에서 기존 더 큰 모델 대비 뛰어난 성능을 보였다. 특히 지식, 수학 추론, OCR 등 이미지 작업에서도 강점을 보였다.하지만 이 모델은 한 번에 최대 128프레임(빠름: 96, 느림: 32)만 입력받는다. 이 방식은 일부 중요한 프레임을 놓칠 수 있다는 한계가 있으며, 전체 매개변수와 비주얼 인코더까지 튜닝하려면 GPU 자원 소모가 크다. 연구진은 향후 메모리 절약, 성능 개선 기술의 적용 가능성을 언급했다.
468 조회
0 추천
2025.08.25 등록
올해 1월 AI 업계에 충격을 안겨준 중국 AI 스타트업 DeepSeek 는 기존 V3 모델의 업그레이드 버전인 V3.1을 공개했다.V3.1은 OpenAI의 최신 모델 GPT-5와 여러 벤치마크에서 견줄 만한 성능을 보이며, 가격경쟁력까지 갖추었다.DeepSeek V3.1은 중국에서 자체 개발된 AI 칩에 맞춰 최적화된 것이 특징이다. 이는 미국의 Nvidia 등 외국 기술 의존도를 낮추고, 미국의 수출 규제에 대응하려는 전략의 일환이다.DeepSeek는 WeChat과 Hugging Face에 모델을 공개하며, 중국 정부의 AI 자립 정책에 부응하고 있다.V3.1은 6850억 파라미터의 초대형 모델로, '미시처-오브-엑스퍼트(mixture-of-experts)' 구조를 통해 쿼리마다 일부만 활성화되어 연산 효율성과 비용 절감을 동시에 잡았다. 또한, 기존 모델이 '즉답형'과 '추론형'으로 분리됐던 것과 달리, 두 가지를 결합해 신속성과 논리적 추론을 함께 제공한다는 점이 돋보인다.
609 조회
0 추천
2025.08.22 등록
구글이 사진 앱에 수정사항을 텍스트로 바로 수정요청하는 기능을 적용.이 기능은 곧 런칭할 픽셀10에서부터 적용이 될 예정.또한 사진이 어떻게 편집되었는지 C2PA 인증 기술로 추적이 가능하다고.아래는 구글 블로그의 소개 내용.Google Photos에서는 이제 사진을 편집할 때 원하는 내용을 텍스트나 음성으로 직접 요청할 수 있습니다. 사용자는 어떤 편집 효과를 적용할지 직접 고르지 않아도 되고, 그저 "차를 배경에서 제거해줘"처럼 자연스럽게 말을 하면 AI가 알아서 반영해 줍니다. 이 기능은 미국의 Pixel 10 기기에서 우선 제공됩니다.새롭게 디자인된 사진 편집기는 직관적 UI와 AI 기반 제안으로 일반 사용자도 쉽게 다양한 효과를 활용할 수 있습니다. 이번에 도입된 대화형 편집 기능으로, 구체적인 요청뿐 아니라 "사진 복원해줘", "색감 보정해줘" 등 복합적인 요구도 한 번에 처리할 수 있습니다. 여러 번 연속해서 추가 요청을 하며 세부 조정도 가능합니다.밝기 조절, 배경 제거 같은 기본 편집뿐 아니라 배경 교체, 파티 모자 추가 등 창의적인 효과 요청도 대화로 손쉽게 처리할 수 있습니다. 사용자가 별도의 편집툴을 배우지 않아도 다양한 AI 편집을 자유롭게 즐길 수 있게 되었습니다.Pixel 10 기기에서는 C2PA(디지털 콘텐츠 인증) 기술이 적용되어, AI가 사진 수정에 개입한 흔적·정보를 확인할 수 있습니다. Google Photos에도 점진적으로 이 기능이 적용되며, 사진이 어떻게 만들어지고 어디에 AI 편집이 사용됐는지 투명하게 확인할 수 있습니다.
538 조회
0 추천
2025.08.22 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입