[뉴스레터] 세일즈포스가 HyperClassifier로 실시간 AI 분류 속도 30배 높인 방법

바이브입니다만

12:25

SalesForece가 AiAgent 의 응답을 단일 토큰 예측과, KV 캐싱 혁신으로 30배 높인 방법 사례를 공유합니다.

요즘 실시간 AI 에이전트, 특히 음성 상호작용은 '응답 속도'와의 싸움이나 다름없습니다. 사용자들은 즉각적인 반응을 기대하는데, AI 에이전트가 한참을 망설이거나 엉뚱한 답을 내놓으면 답답함을 느끼곤 하죠.

기존의 일반 목적 대규모 언어 모델(LLM)은 뛰어난 능력을 가졌지만, 단순 분류 작업에서도 복잡한 추론 과정을 거치느라 불필요하게 느려지거나, 예측할 수 없는 답변을 내놓을 때가 많습니다. 그렇다고 과거 인코더 기반 모델을 쓰자니 긴 문맥 이해에 한계가 있고요. 왜 이런 상황이 반복될까요?

이 글에서는 세일즈포스(Salesforce)가 어떻게 이 난제를 해결하고 Agentforce를 위한 초고속 AI 분류 모델 HyperClassifier를 개발했는지 정리해 봅니다. 특히 다음 내용을 중심으로 살펴볼 거예요.

실시간 AI 에이전트 분류의 3가지 병목 현상과 일반 LLM의 한계
기존 분류 모델이 1,000토큰 이상 프롬프트를 처리하지 못한 이유와 의도 이해의 중요성
단일 토큰 예측과 KV 캐싱 혁신으로 30배 빠른 LLM 수준 정확도를 달성한 방법
코드 동결 기간 중 2개월 만에 프로덕션 배포를 성공시킨 비결
인간 라벨링 없이도 1-2% 더 높은 정확도를 검증한 AI 합의 기반 접근법

⏱️AI 에이전트, 왜 실시간 응답이 어려울까요?

외부의 일반 목적 LLM을 에이전트 분류에 활용할 때 가장 큰 문제는 예측 불가능한 지연 시간(Latency)입니다. 이 모델들은 여러 토큰으로 이루어진 가변 길이 출력을 생성하기 때문에, 분류 결과를 얻기까지 시간이 오래 걸리고 들쭉날쭉할 수밖에 없죠.

특히 Agentforce Voice와 같은 실시간 음성 애플리케이션에서는 긴 토픽 이름 하나 때문에 응답 시간이 길어져 사용자 경험을 해치는 주요 원인이 되곤 합니다. 게다가 때로는 LLM이 없는 라벨을 '환각(Hallucination)'처럼 만들어내, 시스템 오류를 유발하기도 하고요. 이런 병목 현상 때문에 저희 팀은 HyperClassifier를 개발하게 되었습니다.

HyperClassifier의 핵심 목표

단일의 예측 가능한 출력 토큰으로 의사결정을 내리도록 설계하여, 토픽 분류 시간을 1초 단축하고 최종 에이전트 응답의 TTFT(Time to First Token)를 획기적으로 줄이는 것이었습니다.

기존 분류 모델이 해결하지 못했던 2가지 한계

그렇다면 기존에 빠르다고 알려진 인코더 기반 분류 모델을 쓰면 되지 않을까요? 안타깝게도 이 모델들 또한 Agentforce의 복잡한 요구사항을 만족시키기 어려웠습니다. 크게 두 가지 한계점 때문인데요.

1. 제한적인 컨텍스트 윈도우

수백 토큰을 넘어서는 긴 프롬프트를 처리하지 못해 중요한 문맥 정보를 잃어버리는 경우가 많습니다. Agentforce는 사용자 지침이 상세하고 길기 때문에, 이러한 컨텍스트 손실은 치명적일 수 있습니다.

2. 미흡한 추론 능력

최신 디코더 아키텍처와 달리, 인코더 모델은 의도를 깊이 이해하기보다는 단순한 키워드 매칭에 의존하는 경향이 있습니다. 예를 들어, 'CEO 생일'에 대한 질문에 관련 없는 '인물 정보' 옵션을 선택할 가능성이 높습니다. 질문의 의도 자체가 '생일'을 찾는 것이지, 일반적인 '정보'를 찾는 것이 아님을 파악하지 못하는 거죠.

HyperClassifier는 LLM의 심층적인 이해 능력과 인코더 모델의 속도를 모두 갖추도록 설계되어, 복잡한 지시를 정확하게 이해하면서도 효율적인 분류를 가능하게 합니다.

그림 1. 반복적인 모델 개선을 위한 LLM 파인튜닝 파이프라인

30배 빠른 분류? HyperClassifier의 2가지 핵심 비밀

HyperClassifier가 LLM 수준의 정확도를 유지하면서도 30배 빠른 속도를 달성할 수 있었던 비결은 두 가지 혁신적인 아키텍처에 있습니다.

1. 싱글 토큰 예측 (Single-Token Prediction)

기존 LLM이 클래스 이름을 자유 형식 텍스트로 생성하는 것과 달리, HyperClassifier는 분류 작업을 고유한 특수 토큰 하나를 예측하는 작업으로 재정의했습니다. 모델은 클래스 이름 자체가 아닌, 해당 클래스를 대표하는 미리 정의된 단일 토큰을 출력합니다. 이것이 속도 향상의 핵심입니다.

2. KV 캐싱 (Cached Augmented Generation)

반복적인 요청에서 모델이 동일한 초기 프롬프트 계산을 다시 처리하지 않도록, 고급 KV 캐싱(Key-Value Caching) 기술을 적극적으로 활용합니다. 이는 실시간 성능에 결정적인 역할을 하며, 모델이 불필요한 연산을 줄여줍니다.

이러한 혁신 덕분에 HyperClassifier는 다음 세 가지 주요 이점을 제공합니다.

상수 시간 O(1) 추론: 클래스 이름 길이에 관계없이 고정된 단계에서 의사결정을 출력합니다.
제로 추론 오버헤드: 분류에만 최적화된 모델이므로, 느린 자유 형식 텍스트 생성 기능이 불필요합니다.
복잡한 지시 이해: 속도에 특화되었음에도 불구하고, 최신 디코더 기반 LLM의 강력한 문맥 처리 능력을 유지합니다.

Speedup

30x

일반 목적 LLM 대비 분류 속도 향상

Latency Reduction

1초 단축

토픽 분류 시간 단축

그림 2. 단일 출력 토큰 예측을 위한 LLM 학습 데이터 스키마 예시

2개월 만에 프로덕션 배포, 어떻게 가능했을까?

야심 찬 2개월 내 배포 목표는 쉽지 않았습니다. 특히 코드 동결 기간 중에 프로덕션 배포를 해야 했고, 전통적인 A/B 테스트 인프라 없이 모델 품질을 검증해야 하는 난관에 부딪혔죠. 저희 팀은 몇 가지 실용적인 해결책을 통해 이 장애물들을 극복했습니다.

배포 최적화: 조직 수준의 기능 플래그(Feature Flag)를 활용하여 코드 동결을 우회했습니다. 또한, 특히 음성 애플리케이션의 경우 네트워크 홉을 최소화하여 추론 스택을 최적화했습니다.
수동 검증 및 폴백: 완전한 A/B 테스트 대신, 핵심 내부 에이전트들을 대상으로 수동 승인 프로세스를 거쳐 성능을 검증했습니다. 또한, 견고한 지역별 및 프론티어 모델 폴백(Fallback) 시스템을 구현하여 탄력성을 확보했죠.
실시간 모니터링: 모델 성능 추적을 위해 필수적인 대시보드를 처음부터 빠르게 구축했습니다. 이를 통해 토픽 드리프트와 품질 변화를 실시간으로 모니터링하고, 필요시 즉시 롤백할 수 있는 절차를 마련했습니다.
규제 준수: 모델 아키텍처와 하위 호환성을 법적 및 규제 요구 사항에 맞게 조정했습니다.

이러한 노력 덕분에, 2개월이라는 짧은 기간 안에 HyperClassifier를 성공적으로 프로덕션에 배포할 수 있었습니다.

✅인간 라벨링 없이, 정확도까지 높인 비결은?

마지막 과제는 엔터프라이즈 규모에서 베이스라인 모델과 동등하거나 그 이상의 정확도를 인간 라벨링 데이터셋 없이 검증하는 것이었습니다. 이 과정에서 '프롬프트 편향'과 '확장 가능한 데이터 라벨링'이라는 문제가 가장 어려웠습니다.

프롬프트 편향 극복: 많은 고객 프롬프트가 기존의 일반 목적 모델 동작에 암묵적으로 맞춰져 있었습니다. 그래서 고객이 기존 프롬프트를 수정할 필요 없이 HyperClassifier가 뛰어난 성능을 발휘하도록, 대규모 드리프트 분석을 수행하여 모델을 적응시켰습니다.
AI 합의 기반 데이터셋 구축: 엔터프라이즈 규모에서 인간 라벨링 '골든 데이터셋'을 확보하는 것은 현실적으로 불가능합니다. 그래서 저희 팀은 여러 고급 AI 모델의 '합의(Consensus)'를 활용하여 강력한 유효성 검사 시스템을 개발했습니다.

이 독특한 접근 방식 덕분에, 프로덕션 배포에 필요한 규모의 검증을 달성하면서도 내부 평가 벤치마크에서 베이스라인 모델보다 1-2% 더 높은 정확도를 기록했습니다. 이는 HyperClassifier가 단순히 대기 시간을 크게 줄였을 뿐만 아니라, 품질까지 향상시켰음을 입증하는 결과입니다.

HyperClassifier의 실전 적용 인사이트

세일즈포스의 HyperClassifier는 단순한 분류 모델이 아닙니다. 일반 LLM과 기존 인코더 모델의 한계를 극복하기 위해 단일 토큰 예측과 KV 캐싱이라는 혁신적인 아키텍처로 설계된 특화 SLM이죠. 이를 통해 Agentforce는 실시간 AI 상호작용에서 30배 빠른 응답 속도와 1-2% 높은 정확도를 달성했습니다. 이는 실제 서비스 환경에서 AI 에이전트가 고객에게 더욱 신뢰할 수 있는 경험을 제공하는 핵심 기반이 됩니다.

원문 읽기 →

링크

https://ghostflare76.github.io/engineering-rss/newsletters/Solving-Real-Time-AI-Classification-for-Agentforce.html

0 회 연결

기타

[뉴스레터] 세일즈포스가 HyperClassifier로 실시간 AI 분류 속도 30배 높인 방법

⏱️AI 에이전트, 왜 실시간 응답이 어려울까요?

기존 분류 모델이 해결하지 못했던 2가지 한계

30배 빠른 분류? HyperClassifier의 2가지 핵심 비밀

2개월 만에 프로덕션 배포, 어떻게 가능했을까?

✅인간 라벨링 없이, 정확도까지 높인 비결은?

HyperClassifier의 실전 적용 인사이트

전체 검색

홈으로 전체메뉴 마이메뉴 새글/새댓글

홈으로 전체메뉴 마이메뉴 새글/새댓글

홈으로 전체메뉴 마이메뉴 새글/새댓글

홈으로 전체메뉴 마이메뉴 새글/새댓글

홈으로 전체메뉴 마이메뉴 새글/새댓글

홈으로 전체메뉴 마이메뉴 새글/새댓글

홈으로 전체메뉴 마이메뉴 새글/새댓글

홈으로 전체메뉴 마이메뉴 새글/새댓글

홈으로 전체메뉴 마이메뉴 새글/새댓글

홈으로 전체메뉴 마이메뉴 새글/새댓글

홈으로 전체메뉴 마이메뉴 새글/새댓글

기타

페이지 정보

본문

⏱️AI 에이전트, 왜 실시간 응답이 어려울까요?

기존 분류 모델이 해결하지 못했던 2가지 한계

30배 빠른 분류? HyperClassifier의 2가지 핵심 비밀

2개월 만에 프로덕션 배포, 어떻게 가능했을까?

✅인간 라벨링 없이, 정확도까지 높인 비결은?

HyperClassifier의 실전 적용 인사이트

전체 검색

소셜계정으로 로그인