Loading...

AI 뉴스

삼성전자, 실무 기반 AI 생산성 측정 지표 '트루벤치' 공개

페이지 정보

작성자 xtalfi
작성일 2025.09.25 17:45
160 조회
0 추천
0 비추천

본문

c115623b933cf034627ceb2f03e9b7d8npzD.png

(퍼플렉시티가 정리한 기사)

삼성전자 가 자체 개발한 AI 업무 생산성 측정 지표 ’트루벤치(TRUEBench)’를 25일 공개하며, 기존 영어 중심 벤치마크의 한계를 극복한 실무 환경 기반 평가 도구를 선보였다.


실무 환경 반영한 차별화된 평가 지표


트루벤치는 삼성전자 DX부문 선행 연구개발조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 바탕으로 개발한 벤치마크다. 기존 AI 벤치마크 대부분이 영어 중심이고 한 번 또는 제한된 횟수의 대화만을 평가해 실제 업무 생산성 성능을 정확히 측정하기 어렵다는 문제를 해결하기 위해 만들어졌다.


실제 평가 항목은 10개 카테고리, 46개 업무, 2,485개의 세분화된 항목으로 구성됐다. 콘텐츠 생성, 데이터 분석, 문서 요약 및 번역, 연속 대화 등 기업에서 자주 사용하는 실제 오피스 업무 체크리스트를 기반으로 완성됐다. 사용자의 짧은 요청부터 최대 2만자의 긴 문서 요약까지 실제 업무 상황을 폭넓게 평가한다.

 

다국어 지원과 글로벌 접근성


트루벤치는 영어, 한국어, 일본어, 중국어, 스페인어 등 총 12개 언어를 지원한다. 특히 글로벌 비즈니스 환경을 고려해 영어와 한국어 등 여러 언어가 혼합된 교차 언어의 번역 기능 평가도 가능하다. 사용자는 한 번에 최대 5개 모델을 선택해 비교할 수 있어 다양한 AI 모델의 성능을 한눈에 파악할 수 있으며, 응답 결과에 대한 평균 길이 등도 공개해 성능과 효율성 지표를 동시에 비교할 수 있다.


삼성전자는 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 트루벤치의 데이터 샘플과 AI 모델들의 평가 결과가 표시된 리더보드를 공개했다.

 

AI 교차 검증으로 객관성 확보


트루벤치는 답변의 정확성뿐만 아니라, 겉으로 드러나지 않는 사용자의 의도나 맥락까지 평가가 가능하도록 설계됐다. 평가 항목 검증에는 AI가 활용되는데, 사람이 구축한 평가 기준을 AI가 검토해 오류나 모순, 불필요한 제약이 없는지 확인하며 지속적인 교차 검증의 반복을 통해 더욱 정교한 평가 기준을 완성한다. 이러한 기준으로 완성된 AI 모델 자동 평가는 주관적 편향을 최소화하고 일관성 있는 결과를 제공한다.


전경훈 DX부문 최고기술책임자(CTO) 겸 삼성리서치장 사장은 “삼성 리서치는 다양한 실제 적용 사례를 바탕으로 차별화된 생산성 AI 기술 경쟁력과 노하우를 보유하고 있다”며 “트루벤치 공개를 통해 생산성 성능 평가 기준을 정립하고 삼성전자의 기술 리더십을 더욱 공고히 할 것”이라고 말했다.

댓글 0
전체 350 / 2 페이지
(퍼플렉시티가 정리한 기사)구글는 월요일에 노코드 AI 미니앱 빌더 오팔(Opal)을 15개의 추가 국가로 확대하며, 사용자가 정교한 애플리케이션으로 회사의 기대를 뛰어넘은 미국에서의 성공적인 채택 이후 중요한 글로벌 롤아웃을 진행했습니다.이번 확장으로 오팔은 캐나다, 인도, 일본, 대한민국, 베트남, 인도네시아, 브라질, 싱가포르, 콜롬비아, 엘살바도르, 코스타리카, 파나마, 온두라스, 아르헨티나, 파키스탄에 제공됩니다. 7월에 구글 랩스의 일환으로 미국에서 출시된 이 도구는 코딩 전문 지식 없이 자연어 프롬프트만으로 기능성 웹 애플리케이션을 만들 수 있게 해줍니다.예상치 못한 사용자 숙련도가 확장을 이끈다"우리가 미국의 사용자들에게 Opal을 공개했을 때, 그들이 간단하고 재미있는 도구를 만들 것으로 예상했습니다."라고 Google Labs의 수석 제품 관리자 메간 리가 블로그 게시물에서 말했습니다. "하지만 대신에 우리가 받은 것은 정교하고 실용적이며 매우 창의적인 Opal 앱들의 급증이었습니다. 초기 사용자들의 창의성은 한 가지를 분명히 했습니다: 우리는 Opal을 전 세계 더 많은 창작자들의 손에 전달할 필요가 있습니다."이 플랫폼은 사용자 설명을 AI 모델, 프롬프트, 도구들을 연결하는 시각적 워크플로우로 변환하여 작동합니다. 사용자는 시각적 편집기를 통해 워크플로우를 맞춤화할 수 있으며, 개별 단계들을 클릭하여 프롬프트를 수정하거나 새로운 기능을 추가할 수 있습니다. 완성된 애플리케이션은 웹에 게시할 수 있고 링크를 통해 다른 사람들이 자신의 Google 계정으로 테스트하도록 공유할 수 있습니다.성능 향상 및 고급 디버깅지리적 확장과 함께, Google은 사용자 피드백을 반영한 중요한 기술적 개선사항을 도입했습니다. 회사는 코드 작성이 필요 없는 방식을 유지하면서도 고급 디버깅 기능을 구현하여, 사용자가 시각적 편집기에서 워크플로우를 단계별로 실행하거나 콘솔 패널에서 특정 단계를 반복적으로 수정할 수 있도록 했습니다. 오류는 이제 실패 지점에서 실시간으로 표시되어 즉각적인 맥락을 제공하고 추측을 없앴습니다.Google은 또한 Opal의 핵심 성능을 크게 향상시켜 앱 생성 시간을 5초 이상에서 훨씬 빠른 시작 시간으로 단축시켰습니다. 이 플랫폼은 이제 워크플로우 단계의 병렬 실행을 지원하여 복잡한 다단계 애플리케이션을 동시에 실행할 수 있게 하며 전체 대기 시간을 줄였습니다.이번 확장은 Google이 Canva, Figma, Replit과 같은 다른 노코드 플랫폼과 경쟁할 수 있게 하며, 비기술 사용자도 앱 프로토타입을 제작할 수 있도록 하는 도구 시장의 성장에 대응합니다. 이 출시와 함께 AI 산업 전반에서는 더 접근하기 쉬운 개발 도구가 계속 개발되고 있으며, Opal은 자연어 인터페이스를 활용해 소프트웨어를 생성하는 ‘바이브 코딩(vibe-coding)’ 트렌드에 Google이 진입했음을 나타냅니다.
1 조회
0 추천
00:38 등록
(퍼플렉시티가 정리한 기사)OneMedNet Corporation은 월요일에 Palantir Technologies와의 획기적인 다년간 파트너십을 발표했으며, 이 소식에 힘입어 OneMedNet 주가는 장 초반 130% 이상 급등했고, Palantir도 프리마켓 거래에서 2.9% 상승했습니다. 이번 협업을 통해 Palantir의 인공지능 플랫폼이 OneMedNet의 헬스케어 데이터 네트워크와 통합되어, 양사는 2030년까지 약 8,680억 달러에 달할 것으로 예상되는 AI 기반 헬스케어 시장에서 상당한 점유율을 확보할 수 있게 되었습니다.방대한 헬스케어 데이터 인프라가 파트너십을 강화하다다년간에 걸친 이번 계약에 따라, Palantir의 AI 플랫폼은 OneMedNet의 iRWD™ 거의 실시간 제공자 네트워크에 기술적 기반을 제공합니다. 이 네트워크는 1,750개 이상의 의료 기관 사이트에서 50억 건이 넘는 행정 청구 및 1억 3,100만 건의 임상 검사 데이터를 포함하고 있습니다. 네트워크는 종양학, 심장학, 희귀 질환 등 중요한 치료 영역을 포괄하며, 생명 과학, 의료기기, 연구 기관에 익명화된, 규제 등급의 임상 데이터와 고도화된 분석 기능을 제공합니다.“OneMedNet은 Palantir의 AIP 덕분에 고품질의 규제 준수 데이터 제공 역량을 획기적으로 혁신할 수 있게 되었습니다. 이를 통해 임상 연구와 AI 기반 의료 솔루션에서의 획기적인 발전을 선도할 수 있게 되었습니다.”라고 OneMedNet의 사장이자 CEO인 Aaron Green이 밝혔습니다. 한편 Palantir의 의료 사업 공동대표인 Drew Goldstein은 “Palantir는 OneMedNet이 혁신적인 의료 솔루션을 더욱 빠르게 제공하고 궁극적으로 환자 치료 결과를 개선할 수 있도록 AI 인프라를 지원하게 되어 자랑스럽게 생각합니다.”라고 말했습니다.기술 향상이 시장 기회를 견인하다이번 파트너십은 운영 효율성을 크게 개선할 것으로 기대되며, 데이터 조회가 수 일 대신 몇 분 만에 완료되고, 방대한 데이터셋에 걸친 대화형 AI 기반 검색 기능 및 자동화된 프로세스를 통해 비용을 절감하면서 확장 가능한 성장을 가능하게 합니다. 팔란티어의 플랫폼은 SNOMED, HCPCS, ICD-10, CPT 코드를 포함한 의료 표준을 통합하여 상호운용 가능한 데이터 접근을 보장하고, OneMedNet의 독점 AI 알고리즘은 임상 데이터를 안전하게 비식별화하여 환자의 프라이버시를 보호합니다.PricewaterhouseCoopers의 연구에 따르면 종합적인 의료 데이터에 대한 접근성은 2030년까지 AI 기반 의료에서 예상되는 8,680억 달러의 시장 기회를 열기 위한 핵심 장벽으로 남아 있습니다. OneMedNet의 광범위한 공급자 네트워크와 팔란티어의 고급 분석 능력이 결합되어, 규제 준수 및 보안 플랫폼에서 확장 가능하고 반복적인 수익 창출 기회를 제공합니다.
18 조회
0 추천
10.07 등록
(퍼플렉시티가 정리한 기사)컨설팅 대기업 딜로이트는 월요일에 Anthropic의 Claude AI 어시스턴트를 전 세계 47만 명 이상의 임직원에게 도입한다고 발표했으며, 이는 해당 인공지능 스타트업의 현재까지 최대 규모의 기업 배포이다. 이번 파트너십 확장은 동시에 딜로이트가 AI로 생성된 오류가 포함된 호주 정부 보고서에 대해 일부 환불을 동의한 사실과 맞물려, 기업용 AI 채택의 가능성과 위험성을 동시에 보여준다.이러한 시점은 AI 기술을 도입하는 전문 서비스 기업들에게 중요한 순간임을 강조한다. 딜로이트는 AI 혁신의 선두주자임을 내세우며, 동시에 이전에 마이크로소프트의 GPT-4o를 사용하면서 발생한 품질 관리 문제를 해결해야만 한다. 호주 고용 및 직장관계부는 딜로이트의 보고서가 조작된 인용과 존재하지 않는 학술 자료를 포함한 사실을 확인한 이후, 딜로이트가 44만 달러 계약의 마지막 분할 금액을 환불하기로 했다고 밝혔다.대규모 글로벌 출시딜로이트의 클로드(Claude) 도입은 150개국 이상에 걸친 직원들에게 적용될 예정이며, 이는 양사가 2024년에 처음 발표한 파트너십의 상당한 확장임을 의미합니다. 이 컨설팅 회사는 직원의 역할에 맞춘 맞춤형 클로드 “페르소나”를 만들 계획으로, 회계사에게는 재무 분석에 특화된 AI 도구를 제공하고, 소프트웨어 개발자에게는 코딩에 집중한 버전을 제공할 예정입니다.딜로이트 미국 전략 및 기술 책임자인 란짓 바와(Ranjit Bawa)는 “고객들은 당연히 ’여러분도 이를 사용하고 있나요?’라고 묻습니다. 그래서 저희가 더 나은 자문을 제공하고, 더 신뢰를 얻을 수 있습니다.“라고 설명했습니다. 이 회사는 훈련된 전문가들과 함께 클로드 센터 오브 엑설런스(Claude Center of Excellence)를 설립하고, 15,000명의 전문가에게 해당 플랫폼에 대한 자격증을 부여할 계획입니다.앤트로픽(Anthropic)의 최고 상업 책임자인 폴 스미스(Paul Smith)는 CNBC에 양사가 이 파트너십에 상당한 재정 및 엔지니어링 투자를 하고 있지만 구체적인 조건은 공개하지 않았다고 밝혔습니다.앤트로픽의 모멘텀딜로이트와의 계약은 앤트로픽에게 뜻깊은 한 해를 마무리하는 계기가 되었습니다. 앤트로픽은 9월에 1,830억 달러의 가치로 130억 달러의 자금 조달을 완료했습니다. 회사의 연간 수익은 2025년 초 약 10억 달러에서 8월 기준 50억 달러 이상으로 급등했습니다. 현재 앤트로픽은 30만 개 이상의 비즈니스 고객을 보유하고 있으며, 연 매출 10만 달러 이상의 대형 계정은 지난 1년 동안 거의 7배 성장했습니다.파트너십 발표는 앤트로픽이 9월 말에 공개한 Claude Sonnet 4.5 출시 직후에 이루어졌으며, 이 모델은 “세계 최고의 코딩 모델”로 평가받고 있습니다. 이 스타트업은 국제 인력을 세 배로 확장했으며, 크리스 챠우리(Chris Ciauri)를 글로벌 확장 책임자로 임명했습니다.
19 조회
0 추천
10.07 등록
(퍼플렉시티가 정리한 기사)OpenAI CEO 샘 알트먼은 샌프란시스코에서 열린 회사의 DevDay 2025 컨퍼런스에서 AI 에이전트를 구축하기 위한 종합 툴킷인 AgentKit을 공개하며, 빠르게 확장되는 자율 에이전트 시장에 본격적으로 진출할 것을 알렸다.혁신적인 AgentKit 툴킷, 개발자 생태계 겨냥AgentKit은 ChatGPT 이후 OpenAI가 선보인 가장 야심찬 개발자 대상 제품 출시에 해당하며, Altman이 “프로토타입에서 실제 제품까지 에이전트를 개발할 수 있도록 설계된 OpenAI 플랫폼의 완성된 빌딩 블록 세트”라고 설명한 바 있습니다. 이 툴킷은 단순한 프롬프트 응답을 넘어서 복잡한 작업을 수행할 수 있는 자율 AI 시스템에 대한 수요 증가에 대응하기 위해 개발되었습니다.플랫폼은 네 가지 핵심 구성요소를 포함합니다: Agent Builder는 Altman이 “에이전트 제작을 위한 Canva”라고 비유한 시각적 드래그 앤 드롭 인터페이스이며, ChatKit은 맞춤형 애플리케이션에 삽입할 수 있는 채팅 인터페이스, Evals for Agents는 성능 측정 툴을 제공하며, OpenAI의 커넥터 레지스트리에 대한 접근을 통해 안전하게 서드파티 통합이 가능합니다.툴킷의 접근성을 시연하기 위해, OpenAI 엔지니어 Christina Huang은 8분 이내에 무대에서 전체 AI 워크플로우와 두 명의 에이전트를 직접 구축해 보여주었습니다. Altman은 “우리가 처음 에이전트를 만들려고 했을 때 바랐던 모든 것들이 이 안에 있습니다”라고 설명하며, 에이전트 개발을 간소화하는 것에 대한 회사의 의지를 강조했습니다.ChatGPT, 플랫폼 확장 속 주간 사용자 8억 명 돌파앨트먼은 또한 ChatGPT의 주간 활성 이용자 수가 8억 명에 도달했으며, 이는 불과 두 달 전 7억 명에서 증가한 수치라고 발표했다. 이 이정표는 OpenAI가 동시에 Apps SDK를 출시해 개발자들이 ChatGPT 대화 내에서 직접 상호작용하는 애플리케이션을 만들 수 있도록 하면서 플랫폼의 폭발적인 성장을 강조한다.새로운 앱 기능으로 사용자는 채팅 인터페이스를 벗어나지 않고도 Spotify , Figma, Coursera , Zillow , Canva 등의 서비스를 원활하게 이용할 수 있게 되었다. “우리는 ChatGPT가 사람들이 발전하고 더 생산적이고 창의적으로 될 수 있도록 돕는 훌륭한 방법이 되기를 바랍니다.”라고 앨트먼은 설명했다.ChatGPT, 플랫폼 확장 속 주간 사용자 8억 명 돌파앨트먼은 또한 ChatGPT의 주간 활성 이용자 수가 8억 명에 도달했으며, 이는 불과 두 달 전 7억 명에서 증가한 수치라고 발표했다. 이 이정표는 OpenAI가 동시에 Apps SDK를 출시해 개발자들이 ChatGPT 대화 내에서 직접 상호작용하는 애플리케이션을 만들 수 있도록 하면서 플랫폼의 폭발적인 성장을 강조한다.새로운 앱 기능으로 사용자는 채팅 인터페이스를 벗어나지 않고도 Spotify , Figma, Coursera , Zillow , Canva 등의 서비스를 원활하게 이용할 수 있게 되었다. “우리는 ChatGPT가 사람들이 발전하고 더 생산적이고 창의적으로 될 수 있도록 돕는 훌륭한 방법이 되기를 바랍니다.”라고 앨트먼은 설명했다.
30 조회
0 추천
10.07 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입