ED's Development: OpenAI API 운영 비용 최적화

20230208

OpenAI API 운영 비용 최적화

한 달 OpenAI 청구서가 $1,200 나왔다. 개인 토이 프로젝트 수준인데 이정도면 사이드로 돌릴 수가 없다. 이틀 동안 파보면서 정리한 것.

어디서 돈이 새는가

usage export 뽑아보면 대부분 gpt-3.5-turbo 호출에서 나온다. 문제는 입력 토큰이 생각보다 길다는 것. 시스템 프롬프트 + few-shot 예제 + retrieved context를 매 요청마다 보내니 초기엔 평균 input이 2,800 토큰.

input  : $0.0015 / 1K  →  월 $840
output : $0.002  / 1K  →  월 $360

한 것들

Few-shot 예제 압축 — 5개 × 평균 400토큰 = 2K. 이걸 문체와 포맷 규칙만 남기고 120토큰으로 축소. 품질은 거의 안 떨어짐.
System prompt 단축 — "친절하고 정확하게..." 같은 말 다 걷어냄. 모델 성능에 영향 없음.
Function calling 스타일로 출력 강제 — JSON 파싱 재시도 루프 없어짐. 실패율 17% → 0.3%.
Semantic cache — 같은 질문에 가까운 거 들어오면 embedding 유사도 0.95 이상이면 캐시 결과 반환. 히트율 22%.

결과

평균 input 토큰 2,800 → 640. 전체 비용 $1,200 → $310. 품질은 유저 5명한테 blind test 시켰는데 구분 못함.

한 가지 교훈: LLM 비용은 token 길이의 문제가 아니라 "왜 그 토큰이 거기 있는지"의 문제다. 매 요청에 쓰레기가 섞여 나가고 있는지 먼저 봐야 한다. 프롬프트를 한번 찍어놓고 "이 중 뭐가 진짜 필요한가" 줄 단위로 점검하는 게 제일 빨랐다.

다음 달은 gpt-3.5-turbo-0301이 나온다고 하는데 pricing이 또 달라지지 않을까 싶다.

댓글 없음:

댓글 쓰기