Claude 3 패밀리(Haiku/Sonnet/Opus)가 지난주(3월 4일) 공개됐다. 2월 말부터 얼리액세스로 Sonnet beta를 만지고 있었고 GA 나온 김에 gpt-4-turbo 대비 우리 실제 워크로드에 재본 기록.
테스트셋 (실제 운영 트래픽 샘플)
- 사내 FAQ 답변 — 한글, 평균 input 3K tok, 컨텍스트 2~3문서 첨부 RAG
- 로그 요약 — input 8~20K, 긴 JSON + 자유 텍스트 혼합
- SQL 생성 — 자연어 → Postgres 쿼리 (스키마 주입 1.5K)
- 코드 리뷰 — PR diff → 개선 제안 (파일 3~7개)
- 한-영 번역 + 톤 조정 — 내부 마케팅 문구
각 태스크당 50 샘플. 사람이 3점 척도로 블라인드 평가 + 몇 가지 자동 지표(JSON 파싱 성공률, 코드 컴파일/AST 파싱 성공률, SQL 실행 정합성).
결과 (체감 + 자동 지표)
| Haiku | Sonnet | Opus | gpt-4-turbo | |
|---|---|---|---|---|
| FAQ 한글 | 괜찮음 | 아주 좋음 | 차이 미묘 | 비슷 |
| 장문 요약 | 짧게 잘림 | 구조 잘 잡음 | 세부까지 살림 | 빠뜨림 있음 |
| SQL 생성 | JOIN 실수 | 거의 맞음(47/50) | 제일 안정(49/50) | 44/50 |
| 코드 리뷰 | 피상적 | 좋음 | 근거 제시 | 비슷 |
| 번역/톤 | 직역 많음 | 한글 어감 좋음 | Sonnet과 유사 | 살짝 딱딱 |
한글 체감
Sonnet의 한글 품질이 인상적이다. 어순/호응/존댓말 톤 조절이 gpt-4-turbo 대비 자연스럽다. 특히 FAQ 답변에서 "정중하면서도 불필요한 수식 없이"라는 고객사 스타일 가이드에 Sonnet 쪽이 더 근접. 사소하지만 "고객님께서는"을 남발하지 않는다던가.
가격 + 사용 전략
공식가 기준.
- Haiku: input $0.25/M, output $1.25/M
- Sonnet: input $3/M, output $15/M
- Opus: input $15/M, output $75/M
- gpt-4-turbo: input $10/M, output $30/M
Sonnet은 gpt-4-turbo 대비 input 1/3, output 1/2. 품질이 비슷하거나 한글에선 더 나은 자리가 있어 기본 워크로드 절반을 Sonnet으로 라우팅. Opus는 비싸지만(5배) 기획 초안, 복잡한 multi-hop reasoning에선 확실히 차이. 단순 RAG에서 Opus는 과투자. Haiku는 단순 분류, 초벌 요약, 태깅에 적합하고 Sonnet보다 10배 저렴. 가격 민감한 고빈도 파이프라인에서 Haiku가 진짜 무기.
시스템 프롬프트 톤
Claude는 gpt 계열 대비 약간 더 "지시적 태도"가 필요하다. gpt-4에서는 암묵 관례로 되던 것들이 Claude에선 명시해야 한다. 예를 들어 "JSON만 출력하고 다른 설명 금지"를 명확히 박아두는 편이 안전. 대신 XML 스타일 구조(<instruction>...</instruction>, <example>...</example>)로 감싸면 아주 정확하게 따른다. Anthropic 공식 가이드도 XML 권장.
<task>
주문 요약을 한 문장으로 생성
</task>
<constraints>
- 30자 이내
- 이모지 금지
- 출력은 JSON: {"summary": "..."}만
</constraints>
<context>
{order_json}
</context>
환각/groundedness
RAG 세팅에서 "모르면 모른다고 말하기"가 Sonnet이 gpt-4-turbo보다 솔직하다. 샘플 50건 중 "문서에 근거 없음" 명시 비율이 Sonnet 38% vs gpt-4-turbo 19%. 부작용으로 보이지만 실제 운영에선 환각 줄어서 downstream 자동 처리 신뢰도가 오른다. RAG의 Groundedness 스코어 자동 평가도 약간 상승.
지연/처리량
Sonnet streaming 기준 first-token 평균 420ms, 토큰당 28ms 정도(서비스 지역 us-east). gpt-4-turbo 520ms, 23ms. 처리량은 비슷하고 first-token이 Claude가 조금 빠름. Opus는 first-token 800ms+로 느린 편이라 즉응성 필요한 엔드포인트엔 안 맞음.
도입 결정
- FAQ/번역/마케팅 카피: Sonnet으로 전환. 비용 절감 + 한글 품질 개선 동시
- 분류/태깅/간단 요약: Haiku. 일간 호출량 1M+ 인 파이프라인 이득 큼
- SQL 생성/복잡 추론/내부 "탐색형" 챗: Opus 선택적 fallback
- 코드 생성 주력: 아직 gpt-4-turbo 병행. 모델 전환은 팀 평가 한번 더 후 결정
일주일쯤 그림자 배포로 A/B 받아보고 전환 확정 예정. 올 하반기 GPT-5 얘기 돌 테니 수시로 갱신.