ED's Development: 2월 2024

20240224

Claude 3 Sonnet 실사용 벤치

Claude 3 패밀리(Haiku/Sonnet/Opus)가 지난주(3월 4일) 공개됐다. 2월 말부터 얼리액세스로 Sonnet beta를 만지고 있었고 GA 나온 김에 gpt-4-turbo 대비 우리 실제 워크로드에 재본 기록.

테스트셋 (실제 운영 트래픽 샘플)

사내 FAQ 답변 — 한글, 평균 input 3K tok, 컨텍스트 2~3문서 첨부 RAG
로그 요약 — input 8~20K, 긴 JSON + 자유 텍스트 혼합
SQL 생성 — 자연어 → Postgres 쿼리 (스키마 주입 1.5K)
코드 리뷰 — PR diff → 개선 제안 (파일 3~7개)
한-영 번역 + 톤 조정 — 내부 마케팅 문구

각 태스크당 50 샘플. 사람이 3점 척도로 블라인드 평가 + 몇 가지 자동 지표(JSON 파싱 성공률, 코드 컴파일/AST 파싱 성공률, SQL 실행 정합성).

결과 (체감 + 자동 지표)

	Haiku	Sonnet	Opus	gpt-4-turbo
FAQ 한글	괜찮음	아주 좋음	차이 미묘	비슷
장문 요약	짧게 잘림	구조 잘 잡음	세부까지 살림	빠뜨림 있음
SQL 생성	JOIN 실수	거의 맞음(47/50)	제일 안정(49/50)	44/50
코드 리뷰	피상적	좋음	근거 제시	비슷
번역/톤	직역 많음	한글 어감 좋음	Sonnet과 유사	살짝 딱딱

한글 체감

Sonnet의 한글 품질이 인상적이다. 어순/호응/존댓말 톤 조절이 gpt-4-turbo 대비 자연스럽다. 특히 FAQ 답변에서 "정중하면서도 불필요한 수식 없이"라는 고객사 스타일 가이드에 Sonnet 쪽이 더 근접. 사소하지만 "고객님께서는"을 남발하지 않는다던가.

가격 + 사용 전략

공식가 기준.

Haiku: input $0.25/M, output $1.25/M
Sonnet: input $3/M, output $15/M
Opus: input $15/M, output $75/M
gpt-4-turbo: input $10/M, output $30/M

Sonnet은 gpt-4-turbo 대비 input 1/3, output 1/2. 품질이 비슷하거나 한글에선 더 나은 자리가 있어 기본 워크로드 절반을 Sonnet으로 라우팅. Opus는 비싸지만(5배) 기획 초안, 복잡한 multi-hop reasoning에선 확실히 차이. 단순 RAG에서 Opus는 과투자. Haiku는 단순 분류, 초벌 요약, 태깅에 적합하고 Sonnet보다 10배 저렴. 가격 민감한 고빈도 파이프라인에서 Haiku가 진짜 무기.

시스템 프롬프트 톤

Claude는 gpt 계열 대비 약간 더 "지시적 태도"가 필요하다. gpt-4에서는 암묵 관례로 되던 것들이 Claude에선 명시해야 한다. 예를 들어 "JSON만 출력하고 다른 설명 금지"를 명확히 박아두는 편이 안전. 대신 XML 스타일 구조(<instruction>...</instruction>, <example>...</example>)로 감싸면 아주 정확하게 따른다. Anthropic 공식 가이드도 XML 권장.

<task>
   주문 요약을 한 문장으로 생성
</task>
<constraints>
   - 30자 이내
   - 이모지 금지
   - 출력은 JSON: {"summary": "..."}만
</constraints>
<context>
  {order_json}
</context>

환각/groundedness

RAG 세팅에서 "모르면 모른다고 말하기"가 Sonnet이 gpt-4-turbo보다 솔직하다. 샘플 50건 중 "문서에 근거 없음" 명시 비율이 Sonnet 38% vs gpt-4-turbo 19%. 부작용으로 보이지만 실제 운영에선 환각 줄어서 downstream 자동 처리 신뢰도가 오른다. RAG의 Groundedness 스코어 자동 평가도 약간 상승.

지연/처리량

Sonnet streaming 기준 first-token 평균 420ms, 토큰당 28ms 정도(서비스 지역 us-east). gpt-4-turbo 520ms, 23ms. 처리량은 비슷하고 first-token이 Claude가 조금 빠름. Opus는 first-token 800ms+로 느린 편이라 즉응성 필요한 엔드포인트엔 안 맞음.

도입 결정

FAQ/번역/마케팅 카피: Sonnet으로 전환. 비용 절감 + 한글 품질 개선 동시
분류/태깅/간단 요약: Haiku. 일간 호출량 1M+ 인 파이프라인 이득 큼
SQL 생성/복잡 추론/내부 "탐색형" 챗: Opus 선택적 fallback
코드 생성 주력: 아직 gpt-4-turbo 병행. 모델 전환은 팀 평가 한번 더 후 결정

일주일쯤 그림자 배포로 A/B 받아보고 전환 확정 예정. 올 하반기 GPT-5 얘기 돌 테니 수시로 갱신.