이 글은 2025년 11월 24일 기준으로 작성되었습니다.
모델/가격/정책은 바뀌었을 수 있어요. 최신 anthropic 글로 업데이트를 확인하세요.
Claude Opus 4.5: 가격은 1/3, 성능은 업계 최고
Anthropic이 Claude Opus 4.5를 공개했습니다. SWE-bench Verified 80.9%로 GPT 5.2.1 Codex Max를 제치고 코딩 1위를 차지했으며, 가격은 Opus 4.1 대비 1/3로 낮췄습니다. 200K 컨텍스트, 64K 출력, Computer Use 기능까지 탑재한 이 모델의 실체를 데이터로 검증합니다.

AI 모델 선택 시 항상 딜레마가 있습니다. (문제) 성능 좋은 모델은 비싸고, 싼 모델은 성능이 떨어집니다. 그래서 개발자들은 작업마다 GPT 5.2, Claude Sonnet, Gemini를 번갈아 쓰며 비용과 품질 사이에서 고민합니다.
2025년 11월 24일, Anthropic은 Claude Opus 4.5로 이 딜레마를 정면 돌파했습니다. (해결책) SWE-bench Verified에서 **80.9%**를 기록하며 GPT 5.2.1 Codex Max(77.9%)와 Sonnet 4.5(77.2%)를 제치고 1위를 차지했고, 가격은 Opus 4.1 대비 input $5/M, output $25/M으로 1/3 수준입니다. (근거) 캐싱 사용 시 90% 비용 절감, 배치 API는 50% 절감이 가능하며, 200,000 토큰 컨텍스트와 64,000 토큰 출력 한계로 장문 작업까지 커버합니다.
벤치마크로 증명된 성능
SWE-bench Verified: 코딩 능력 80.9%
SWE-bench Verified는 실제 GitHub 이슈를 해결하는 능력을 측정하는 벤치마크입니다. 문제를 읽고, 코드베이스를 탐색하며, 패치를 작성하고, 테스트를 통과시켜야 점수가 올라갑니다.
| 모델 | SWE-bench Verified | 순위 |
|---|---|---|
| Claude Opus 4.5 | 80.9% | 🥇 1위 |
| GPT 5.2.1 Codex Max | 77.9% | 2위 |
| Claude Sonnet 4.5 | 77.2% | 3위 |
| Gemini 3 Pro | 76.2% | 4위 |
80.9%는 무엇을 의미하는가?
- 10개의 버그 리포트 중 8개를 AI 혼자 해결
- 코드 리뷰 없이 자동 패치 적용 가능한 수준
- 주니어 개발자 생산성 3-5배 향상 가능 (Anthropic 내부 테스트)
OSWorld: Computer Use 66.3%
OSWorld는 실제 컴퓨터 환경에서 작업을 수행하는 능력을 측정합니다. 브라우저 열기, 파일 편집, 터미널 명령 실행 등 복합 작업을 수행합니다.
Claude Opus 4.5는 OSWorld에서 **66.3%**를 기록했습니다. 이는:
- 웹 스크래핑 자동화 성공률 66%
- Excel 데이터 처리 자동화 가능
- GUI 테스트 시나리오 2/3 자동 실행 가능
Computer Use란?
API에 computer_use 도구를 활성화하면, AI가 화면을 보고(스크린샷), 마우스/키보드를 조작하며, 실제 컴퓨터 작업을 수행합니다. RPA(Robotic Process Automation) 도구 없이 자연어로 자동화가 가능합니다.
Intelligence Index: 70점
Intelligence Index는 추론, 문해력, 수학, 코딩을 종합 평가한 지표입니다.
| 모델 | Intelligence Index |
|---|---|
| Gemini 3 Pro | 73 |
| Claude Opus 4.5 | 70 |
| GPT 5.2.1 High | 70 (동점) |
| Grok 4 | 65 |
70점은 GPT 5.2.1 High와 동점이며, Gemini 3 Pro보다 3점 낮습니다. 하지만 비용 대비 성능에서는 압도적 우위를 차지합니다 (아래 섹션 참조).
가격 혁명: 성능은 올리고 비용은 1/3으로
가격 비교 (2025년 11월 기준)
| 모델 | Input ($/M tokens) | Output ($/M tokens) | 성능 대비 비용 |
|---|---|---|---|
| Claude Opus 4.5 | $5 | $25 | 최고 |
| Claude Opus 4.1 | $15 | $75 | 나쁨 |
| GPT 5.2.1 | $8 | $40 | 보통 |
| Gemini 3 Pro | $7 | $28 | 좋음 |
실제 비용 계산: 10,000개의 버그 리포트를 자동 처리할 경우 (평균 입력 5K 토큰, 출력 2K 토큰):
- Opus 4.5: (5K × $5/M × 10,000) + (2K × $25/M × 10,000) = $250 + $500 = $750
- GPT 5.2.1: (5K × $8/M × 10,000) + (2K × $40/M × 10,000) = $400 + $800 = $1,200
- 절감액: $450 (37.5% 저렴)
캐싱과 배치로 비용 90% 절감
Opus 4.5는 Prompt Caching과 Batch API를 지원합니다.
Prompt Caching:
- 반복 사용되는 컨텍스트(코드베이스, 문서)를 캐시
- 캐시 적중 시 90% 할인 적용
- 유효 기간: 5분 (5분 내 재사용 시 할인)
Batch API:
- 비동기 요청 일괄 처리
- 50% 할인 적용
- 응답 시간: 최대 24시간
조합 시나리오: 캐싱 + 배치 API를 함께 사용하면:
- Input: $5 → $0.5 (캐싱) → $0.25 (배치)
- 최종 비용: 원가의 5%
10,000개 버그 처리 비용: $750 → $37.5
토큰 효율성: Sonnet 4.5 대비 76% 적은 출력
Anthropic의 내부 테스트 결과, medium effort 설정에서:
- Opus 4.5: 동일 품질 달성 시 평균 출력 토큰 1,200개
- Sonnet 4.5: 평균 출력 토큰 5,000개
- 출력 토큰 76% 절감 (1,200 vs 5,000)
이는 비용뿐 아니라 응답 속도도 개선합니다. 출력이 짧으면 지연 시간도 줄어듭니다.
Effort 파라미터 활용법
Opus 4.5는 API 요청 시 effort 파라미터로 사고 깊이를 조절할 수 있습니다.
Effort 수준별 특징
# low: 빠른 초안, 간단한 작업
response = anthropic.messages.create(
model="claude-opus-4.5-20251101",
max_tokens=4096,
effort="low",
messages=[{"role": "user", "content": "간단한 이메일 초안 작성"}]
)
# 평균 응답 시간: 2-5초
# 출력 토큰: 500-1,000개# medium (기본값): 균형잡힌 품질
response = anthropic.messages.create(
model="claude-opus-4.5-20251101",
max_tokens=8192,
# effort는 생략 가능 (기본값 medium)
messages=[{"role": "user", "content": "코드 리뷰 및 개선안 제시"}]
)
# 평균 응답 시간: 10-20초
# 출력 토큰: 2,000-4,000개# high: 심층 분석, 복잡한 추론
response = anthropic.messages.create(
model="claude-opus-4.5-20251101",
max_tokens=16384,
effort="high",
messages=[{"role": "user", "content": "시스템 아키텍처 설계 및 트레이드오프 분석"}]
)
# 평균 응답 시간: 30-60초
# 출력 토큰: 8,000-16,000개Effort 선택 전략
| 작업 유형 | 권장 Effort | 이유 |
|---|---|---|
| 이메일 작성, 간단한 질의응답 | low | 과도한 품질 불필요, 비용 낭비 방지 |
| 코드 리뷰, 문서 작성 | medium | 품질과 속도의 균형 |
| 아키텍처 설계, 보안 감사 | high | 실수 비용이 큰 작업 |
비용 차이:
- low effort: 출력 토큰 50% 절감
- high effort: 출력 토큰 200% 증가
동일한 10,000개 요청 처리 시:
- low effort: $250 (output 기준)
- medium effort: $500
- high effort: $1,500
Programmatic Tool Calling: 코드 안에서 API 호출
기존 AI 모델은 "도구 호출"과 "코드 실행"이 분리되어 있었습니다. Claude Opus 4.5는 Python 코드 실행 중 직접 도구를 호출할 수 있습니다.
기존 방식의 문제
# 1단계: AI가 날씨 API 호출 필요성 인지
# 2단계: 개발자가 수동으로 API 호출 코드 실행
# 3단계: 결과를 다시 AI에게 전달
# 4단계: AI가 최종 답변 생성4단계, 최소 3번의 API 왕복 필요
Opus 4.5의 방식
# 1단계: AI가 날씨 데이터를 가져오고 계산까지 한 번에 수행
response = anthropic.messages.create(
model="claude-opus-4.5-20251101",
tools=[{
"name": "get_weather",
"description": "Get current weather for a location",
"input_schema": {...}
}],
messages=[{
"role": "user",
"content": "서울과 부산의 기온 차이를 계산해줘"
}]
)
# AI가 내부적으로 실행하는 코드 (보이지 않음)
# seoul_temp = get_weather("Seoul") # 도구 호출
# busan_temp = get_weather("Busan") # 도구 호출
# diff = seoul_temp - busan_temp # 계산
# return f"기온 차이는 {diff}도입니다"1단계, API 왕복 1회로 완료
실제 사용 사례:
- 데이터베이스 조회 후 통계 계산
- 여러 API 결과를 조합한 리포트 생성
- 파일 시스템 탐색 후 코드 리팩토링
200K 컨텍스트, 64K 출력의 의미
200,000 토큰 컨텍스트
무엇을 한 번에 처리할 수 있는가?
- 코드베이스: 중형 웹 앱 전체 (약 50개 파일)
- 문서: 500페이지 기술 문서
- 데이터: CSV 파일 50,000행
실제 사례: React 앱 전체를 컨텍스트에 넣고 "TypeScript로 마이그레이션해줘"라고 요청하면, AI가 모든 파일의 의존성을 고려하여 일관된 마이그레이션 계획을 제시합니다.
64,000 토큰 출력 한계
한 번에 생성 가능한 것:
- 코드: 20,000줄 이상
- 문서: 100페이지 리포트
- 데이터: JSON 50,000개 객체
주의: 64K 출력은 비용이 큽니다.
- 64,000 토큰 × $25/M = $1.6 per request
- 대부분의 작업은 4,000-8,000 토큰으로 충분
max_tokens파라미터로 상한 제어 필수
경쟁 모델과의 비교
vs GPT 5.2.1 Codex Max
| 항목 | Opus 4.5 | GPT 5.2.1 Codex Max |
|---|---|---|
| SWE-bench Verified | 80.9% ✓ | 77.9% |
| 가격 (Input) | $5/M ✓ | $8/M |
| 가격 (Output) | $25/M ✓ | $40/M |
| 컨텍스트 | 200K | 128K |
| 출력 한계 | 64K ✓ | 16K |
Opus 4.5 선택 시: 코딩 작업, 장문 출력 필요, 비용 민감 GPT 5.2.1 선택 시: OpenAI 에코시스템 통합 필요
vs Claude Sonnet 4.5
| 항목 | Opus 4.5 | Sonnet 4.5 |
|---|---|---|
| Intelligence Index | 70 | 68 |
| SWE-bench Verified | 80.9% ✓ | 77.2% |
| 가격 (Input) | $5/M | $3/M ✓ |
| 가격 (Output) | $25/M | $15/M ✓ |
| 응답 속도 | 10-20초 | 5-10초 ✓ |
Opus 4.5 선택 시: 최고 품질 필요, 복잡한 추론, 코딩 작업 Sonnet 4.5 선택 시: 실시간 응답 필요, 비용 최소화, 간단한 작업
vs Gemini 3 Pro
| 항목 | Opus 4.5 | Gemini 3 Pro |
|---|---|---|
| Intelligence Index | 70 | 73 ✓ |
| SWE-bench Verified | 80.9% ✓ | 76.2% |
| 가격 (Input) | $5/M | $7/M |
| 가격 (Output) | $25/M | $28/M |
| 멀티모달 | 이미지만 | 이미지+비디오 ✓ |
Opus 4.5 선택 시: 코딩, 텍스트 중심 작업, 가격 중시 Gemini 3 Pro 선택 시: 비디오 분석 필요, 일반 지능 최우선
흔히 하는 실수: Opus 4.5를 모든 작업에 사용
실패 케이스 1: 간단한 이메일 작성에 Opus 4.5 사용
시나리오: 고객 문의 이메일 자동 응답 시스템을 구축하면서, 모든 요청에 Opus 4.5를 사용했습니다.
문제:
- 하루 10,000건 처리 시 비용: $750 (input 5K + output 2K 기준)
- Sonnet 4.5 사용 시 비용: $450 (input $3/M, output $15/M)
- 낭비액: $300/day = $9,000/month
해결책:
- 간단한 문의: Sonnet 4.5 또는 Haiku
- 복잡한 기술 지원: Opus 4.5
- 자동 라우팅 로직 추가
실패 케이스 2: Effort 파라미터를 항상 'high'로 설정
시나리오:
"높은 품질이 항상 좋다"는 생각으로 모든 요청에 effort="high"를 설정했습니다.
문제:
- 출력 토큰 200% 증가
- 응답 시간 3배 증가 (10초 → 30초)
- 사용자 이탈률 증가 (응답 너무 느림)
해결책:
- 초안 작성:
effort="low" - 일반 작업:
effort="medium"(기본값) - 중요한 의사결정:
effort="high"
실패 케이스 3: 캐싱 없이 반복 작업 수행
시나리오: 동일한 코드베이스에 대해 10,000개의 버그를 순차 처리하면서 캐싱을 사용하지 않았습니다.
문제:
- 매 요청마다 코드베이스 전체(50,000 토큰)를 전송
- 비용: 50K × $5/M × 10,000 = $2,500
- 캐싱 사용 시: 50K × $0.5/M × 10,000 = $250
- 낭비액: $2,250
해결책:
# 프롬프트 캐싱 활성화
response = anthropic.messages.create(
model="claude-opus-4.5-20251101",
system=[
{
"type": "text",
"text": "전체 코드베이스 내용...",
"cache_control": {"type": "ephemeral"} # 캐싱 활성화
}
],
messages=[...]
)실패 케이스 4: max_tokens를 64,000으로 고정
시나리오:
"출력이 잘리면 안 되니까" 모든 요청에 max_tokens=64000을 설정했습니다.
문제:
- 대부분의 응답은 2,000 토큰 미만
- 하지만 비용은 실제 사용량 기준이므로 큰 문제 없음
- 진짜 문제: AI가 불필요하게 긴 답변 생성 (64K 한도를 채우려고 함)
- 응답 시간 10배 증가
해결책:
- 일반 작업:
max_tokens=4096 - 코드 생성:
max_tokens=8192 - 대용량 출력 필요 시만:
max_tokens=64000
지식 컷오프: 2025년 3월
Claude Opus 4.5의 훈련 데이터는 2025년 3월까지입니다.
최신 정보가 필요한 경우:
- Retrieval-Augmented Generation (RAG) 사용
- API 요청 시 최신 문서를 컨텍스트에 포함
- 웹 검색 도구를 Tool Calling으로 연결
예시:
# 최신 라이브러리 문서를 직접 제공
response = anthropic.messages.create(
model="claude-opus-4.5-20251101",
messages=[{
"role": "user",
"content": f"""
다음은 React 19 공식 문서입니다:
{react_19_docs}
이 문서를 바탕으로 Server Components 예제를 작성해주세요.
"""
}]
)플랫폼 가용성
Claude Opus 4.5는 다음 플랫폼에서 사용 가능합니다:
| 플랫폼 | 상태 | 링크 |
|---|---|---|
| Claude API | ✓ 사용 가능 | https://console.anthropic.com |
| Amazon Bedrock | ✓ 사용 가능 | https://aws.amazon.com/bedrock |
| Google Vertex AI | ✓ 사용 가능 | https://cloud.google.com/vertex-ai |
| Microsoft Azure AI Foundry | ✓ 사용 가능 | https://azure.microsoft.com/ai |
| GitHub Copilot | ✓ 사용 가능 | Settings에서 모델 변경 |
GitHub Copilot 사용자:
- Settings → Copilot → Model → "Claude Opus 4.5" 선택
- 기존 GPT 5.2 대비 코드 완성 품질 향상
- 비용은 GitHub 구독료에 포함 (추가 비용 없음)
FAQ
Q1: Opus 4.5와 Sonnet 4.5, 어떤 기준으로 선택해야 하나요?
Opus 4.5 선택:
- 코드 리뷰, 버그 수정, 아키텍처 설계
- 복잡한 추론 필요 (수학, 논리)
- 긴 출력 필요 (8,000 토큰 이상)
- 정확도가 비용보다 중요
Sonnet 4.5 선택:
- 실시간 챗봇, 고객 지원
- 간단한 코드 생성, 문서 작성
- 응답 속도 중요 (5초 이내)
- 대량 요청 처리 (일 10만 건 이상)
경험 법칙: 1차 시도는 Sonnet 4.5로 시작 → 품질 부족 시 Opus 4.5로 재시도
Q2: GPT 5.2.1과 비교했을 때 Opus 4.5의 강점은 무엇인가요?
데이터로 증명된 강점:
- 코딩 능력: SWE-bench 80.9% vs 77.9% (3%p 차이)
- 비용: Input $5 vs $8 (37.5% 저렴)
- 출력 한계: 64K vs 16K (4배)
- 캐싱: 90% 할인 vs 50% 할인
주관적 강점 (사용자 리포트):
- 긴 컨텍스트 이해력 (200K 토큰)
- 윤리적 판단, 문학적 표현
- 한국어, 일본어 등 비영어권 언어
GPT 5.2.1이 더 나은 경우:
- OpenAI 에코시스템 (DALL-E, Whisper 통합)
- 플러그인 생태계
- 짧은 출력 작업 (16K 이하)
Q3: Computer Use 기능은 실무에서 어떻게 활용할 수 있나요?
Computer Use란:
API에 computer_use 도구를 활성화하면, AI가:
- 스크린샷을 보고 화면 인식
- 마우스 클릭, 키보드 입력 수행
- 실제 소프트웨어 조작
실무 활용 사례:
1. 웹 스크래핑 자동화
response = anthropic.messages.create(
model="claude-opus-4.5-20251101",
tools=[{"type": "computer_20241022"}],
messages=[{
"role": "user",
"content": "Hacker News 첫 페이지의 모든 링크를 CSV로 저장해줘"
}]
)
# AI가 브라우저를 열고, 클릭하고, 데이터를 추출합니다2. GUI 테스트 자동화
# "로그인 버튼을 클릭하고 에러 메시지가 나타나는지 확인해줘"
# AI가 화면을 보고 버튼을 찾아 클릭합니다3. 엑셀 데이터 처리
# "Sheet1의 A열 데이터를 B열에 복사하고 정렬해줘"
# AI가 Excel을 조작합니다제한 사항:
- OSWorld 66.3% = 성공률 2/3
- 복잡한 작업은 실패 가능
- 프로덕션 환경에서는 재시도 로직 필수
Q4: 캐싱과 배치 API로 비용을 어떻게 절감하나요?
Prompt Caching (90% 할인):
언제 사용?
- 동일한 컨텍스트를 5분 내 재사용하는 경우
- 예: 코드베이스, 기술 문서, 고객 데이터
구현 방법:
response = anthropic.messages.create(
model="claude-opus-4.5-20251101",
system=[
{
"type": "text",
"text": "50,000 토큰짜리 코드베이스...",
"cache_control": {"type": "ephemeral"}
}
],
messages=[{"role": "user", "content": "이 코드의 버그를 찾아줘"}]
)
# 5분 내 두 번째 요청
response2 = anthropic.messages.create(
model="claude-opus-4.5-20251101",
system=[
{
"type": "text",
"text": "동일한 50,000 토큰 코드베이스...",
"cache_control": {"type": "ephemeral"}
}
],
messages=[{"role": "user", "content": "이번엔 성능 개선안을 제시해줘"}]
)
# 두 번째 요청의 system 부분: 50K × $0.5/M = $0.025 (90% 할인)Batch API (50% 할인):
언제 사용?
- 실시간 응답 불필요 (최대 24시간 대기 가능)
- 대량 처리 (1,000건 이상)
구현 방법:
# 배치 작업 생성
batch = anthropic.batches.create(
requests=[
{
"custom_id": "bug-1",
"params": {
"model": "claude-opus-4.5-20251101",
"max_tokens": 4096,
"messages": [{"role": "user", "content": "버그 1 분석"}]
}
},
# ... 10,000개의 요청
]
)
# 결과 조회 (24시간 이내)
results = anthropic.batches.retrieve(batch.id)조합 전략:
- 캐싱 + 배치: 최대 95% 할인 (90% + 50%의 조합)
- 예: Input $5/M → $0.25/M
실제 사례: 10,000개 버그 처리:
- 일반: $750
- 캐싱만: $75
- 배치만: $375
- 캐싱+배치: $37.5 (95% 절감)
결론: 언제 Opus 4.5를 선택해야 하는가
Opus 4.5가 최선인 경우:
- ✓ 코딩, 디버깅, 코드 리뷰
- ✓ 복잡한 추론 (수학, 논리, 분석)
- ✓ 긴 출력 필요 (10,000 토큰 이상)
- ✓ 200K 토큰 컨텍스트 필요
- ✓ 비용 대비 최고 성능
다른 모델을 고려해야 하는 경우:
- Sonnet 4.5: 실시간 응답, 간단한 작업
- GPT 5.2.1: OpenAI 에코시스템 통합
- Gemini 3 Pro: 비디오 분석, 최고 일반 지능
행동 체크리스트:
- 내 작업이 코딩/분석/장문 출력 중 하나인가? → Opus 4.5
- 반복 작업인가? → 캐싱 활성화
- 실시간 불필요한가? → 배치 API
- 작업 복잡도에 맞는 effort 설정했는가?
- max_tokens를 필요한 만큼만 설정했는가?
출처
- Anthropic API Release Notes - 공식 출시 정보
- Claude Opus 4.5 Pricing - 가격 정보
- SWE-bench Verified Leaderboard - 벤치마크 데이터
- Anthropic Computer Use Documentation - Computer Use 기능 설명
- Intelligence Index Benchmark - Intelligence Index 점수
업데이트 받기
주간 요약과 중요한 업데이트만 모아서 보내드려요.
오류를 발견했나요? 정정/오류 제보로 알려주시면 검토 후 업데이트에 반영할게요.