Claude Opus 4.5 → 4.6 전환기 - 게임 개발자가 체감한 성능, 토큰, 워크플로우의 변화

게시 2026/02/20

중급

By Sehyup

23 분읽는 시간

Claude Opus 4.5 → 4.6 전환기 - 게임 개발자가 체감한 성능, 토큰, 워크플로우의 변화

실전 데이터로 보는 게임 개발자의 AI 활용법 - 2,16... AGENTS.md는 정말 도움이 될까? - 코딩 에이전트의...

TL;DR — 핵심 요약

Opus 4.6은 컨텍스트 윈도우가 200K→1M 토큰으로 5배 확장되고, ARC AGI 2 추론 점수가 37.6%→68.8%로 도약했다
Adaptive Thinking 도입으로 작업 복잡도에 따라 사고 깊이를 자동 조절하지만, 토큰 소비는 약 2배 증가한다
Opus 4.6은 설계·분석, Sonnet 4.6은 구현·수정으로 역할을 분리하면 비용 대비 최적의 효율을 얻을 수 있다

들어가며

2026년 2월 5일, Anthropic이 Claude Opus 4.6을 출시했다. 이전 포스트(실전 데이터로 보는 게임 개발자의 AI 활용법)에서 47일간의 사용 데이터를 공유했는데, 그 기간 중 전반부는 Opus 4.5, 후반부는 Opus 4.6으로 작업한 셈이다.

이 글에서는 벤치마크 숫자와 실제 게임 개발 현장에서의 체감 차이를 함께 다룬다. 마케팅 자료의 “획기적 성능 향상”이 내 Unity 프로젝트에서 실제로 어떤 차이로 나타났는지 솔직하게 정리한다.

1. 숫자로 보는 Opus 4.5 vs 4.6

주요 벤치마크 비교

벤치마크	Opus 4.5	Opus 4.6	변화
ARC AGI 2 (새로운 유형의 추론)	37.6%	68.8%	+31.2pp
OSWorld (에이전틱 컴퓨터 사용)	66.3%	72.7%	+6.4pp
Terminal-Bench 2.0 (터미널 작업)	59.8%	65.4%	+5.6pp
SWE-bench Verified (실제 코딩)	80.9%	80.8%	-0.1pp
Long-Context Retrieval (MRCR v2)	18.5%	76.0%	+57.5pp

아키텍처 변화

스펙	Opus 4.5	Opus 4.6
컨텍스트 윈도우	200K 토큰	1M 토큰
최대 출력	8K 토큰	128K 토큰
Adaptive Thinking	없음	있음
Agent Teams	없음	있음
가격 (입력/출력)	$5 / $25 per M	$5 / $25 per M

두 가지가 눈에 띈다:

SWE-bench(실제 코딩)에서는 차이가 거의 없다 — 코드 작성 능력 자체는 4.5와 4.6이 사실상 동급이다
추론(ARC AGI 2)과 장문 컨텍스트에서는 압도적 향상 — 복잡한 분석과 대규모 코드베이스 탐색에서 진가를 발휘한다

2. 실제 체감 차이: Insights 데이터가 말해주는 것

내 Claude Code Insights 데이터에서 두 시점을 비교하면 흥미로운 패턴이 보인다.

구간별 사용량 비교

지표	전반기 (1/5-2/12)	후반기 델타 (2/12-2/20)
기간	38일	8일
메시지	1,246	919
세션	172	133
일 평균 메시지	47.9	114.9
일 평균 세션	4.5	16.6
코드 라인 추가	+28,556	+27,767
수정 파일 수	188	208

8일 동안의 일 평균 메시지가 전반기 대비 2.4배로 폭증했다. 물론 이게 전적으로 모델 업그레이드 때문은 아니다. 프로젝트가 구현 단계에 돌입한 시점이기도 하고, 도구 숙련도가 올라간 효과도 있다. 하지만 체감상 가장 큰 차이를 만든 건 1M 컨텍스트 윈도우다.

체감 차이 1: 장문 컨텍스트의 압도적 개선

Opus 4.5의 200K 컨텍스트에서는 긴 세션 후반부에서 Claude가 앞에서 논의한 내용을 잊는 현상이 빈번했다. 특히 메모리 누수 조사처럼 수십 개 파일을 순차적으로 읽는 작업에서, 세션 중반 이후 초반에 읽은 파일의 내용을 부정확하게 참조하는 경우가 있었다.

Opus 4.6의 1M 컨텍스트로 전환한 후, 같은 유형의 대규모 코드베이스 조사에서 맥락 유실이 체감할 수 있을 정도로 줄었다. MRCR v2(장문 컨텍스트 검색) 점수가 18.5% → 76.0%로 뛴 건 과장이 아니다.

Opus 4.5 시절:
  "앞서 분석한 GameResultLayer.cs에서..." → (이미 맥락에서 사라짐)
  → 재요청 필요 → 시간 낭비

Opus 4.6:
  30개 파일 분석 후에도 첫 번째 파일의 구체적 라인 참조 가능
  → 하나의 세션에서 전체 조사를 완결

체감 차이 2: Adaptive Thinking의 양면

Adaptive Thinking은 Opus 4.6의 핵심 신기능이다. 프롬프트 복잡도에 따라 사고 깊이를 자동 조절한다:

Effort 레벨	동작	적합한 작업
`low`	간단한 쿼리에서 사고 건너뜀	빠른 확인, 간단한 수정
`medium`	적절한 수준으로 사고	일반적인 코딩 작업
`high` (기본)	항상 깊은 사고	복잡한 분석, 설계
`max`	무제한 깊이의 사고	극도로 복잡한 추론

실무에서의 체감:

긍정적 측면 — 메모리 누수 분석이나 아키텍처 설계 같은 복잡한 작업에서 출력 품질이 올라갔다. 특히 “왜 이 접근이 문제인지” 설명하는 능력이 향상되었다. ARC AGI 2 점수가 37.6% → 68.8%로 뛴 추론 능력 향상이 실제로 느껴진다.

부정적 측면 — 토큰 소비가 눈에 띄게 증가했다. Artificial Analysis에 따르면 Opus 4.6은 표준 벤치마크에서 약 5,800만 출력 토큰을 생성하는데, Opus 4.5는 2,900만이었다. 2배 차이다. Claude Code는 무제한 사용이지만, API를 직접 호출하는 경우 비용에 직접적인 영향을 준다.

체감 차이 3: Agent Teams

Opus 4.6에서 공식 도입된 Agent Teams는 병렬 에이전트 작업을 지원한다. 이전 포스트에서 언급했듯 내 멀티 에이전트 세션은 92회의 병렬 오버랩 이벤트, 111개 세션에 달한다.

솔직한 평가: 개념은 혁신적이지만, 안정성은 아직 실험적 수준이다.

✅ 잘 되는 경우:
   4개 영역의 파일을 동시에 수정 (22개 파일 한 세션에서 완료)
   독립적인 조사 태스크를 병렬 실행

❌ 문제가 있는 경우:
   에이전트가 idle 루프에 빠져 무응답
   팀 리드의 상태 요청에 에이전트가 응답 안 함
   에이전트 간 파일 충돌 (동시 수정 시 namespace import 누락)

싱글 에이전트 세션의 완전 달성률이 ~80%인 반면, 멀티 에이전트 세션은 체감상 50-60% 수준이다. Anthropic의 Insights 리포트도 “멀티 에이전트보다 순차적 서브태스크 분할이 현재로서는 더 안정적”이라고 조언한다.

3. Opus 4.6 vs Sonnet 4.6: 역할 분담 전략

2월 17일에 Sonnet 4.6도 출시되었다. 현재 나는 두 모델을 역할에 따라 분리해서 쓴다.

벤치마크 비교

벤치마크	Opus 4.6	Sonnet 4.6	차이
SWE-bench Verified	80.8%	79.6%	1.2pp
OSWorld	72.7%	72.5%	0.2pp
GDPval-AA (지식 업무)	1606 Elo	1633 Elo	Sonnet 우세
에이전틱 금융 분석	60.1%	63.3%	Sonnet 우세

충격적인 사실: 코딩 벤치마크에서 Sonnet 4.6은 Opus 4.6의 97-99% 수준에 도달했다. 심지어 일부 실무 벤치마크에서는 Sonnet이 Opus를 앞선다.

내 역할 분담 전략

┌─────────────────────────────────────────────────┐
│            Plan / Design 단계 (Opus 4.6)           │
│  • 아키텍처 설계 및 기술 의사결정                      │
│  • 대규모 코드베이스 분석 (1M 컨텍스트 활용)            │
│  • Gap Analysis 및 품질 검증                        │
│  • 메모리 누수 조사 (수십 파일 순회)                   │
│  • 복잡한 멀티 파일 리팩토링 설계                      │
└─────────────────┬───────────────────────────────┘
                  │ 분석 결과/설계 문서 전달
                  ▼
┌─────────────────────────────────────────────────┐
│            Do 단계 (Sonnet 4.6)                    │
│  • 구체적인 코드 구현                                │
│  • 버그 수정 (명확한 스코프)                          │
│  • 단일/소수 파일 수정                               │
│  • 반복적 코드 작업 (로컬라이제이션 등)                 │
│  • 빠른 이터레이션이 필요한 디버깅                     │
└─────────────────────────────────────────────────┘

이 전략이 효과적인 이유

1. 비용 효율

Opus 4.6: $5 / $25 (입력/출력 per M tokens) Sonnet 4.6: $3 / $15 (입력/출력 per M tokens)

Sonnet은 Opus의 60% 비용으로 97-99% 코딩 성능을 제공한다. 코드 구현 단계에서 Opus를 쓰는 건 돈을 태우는 것에 가깝다.

2. 속도 차이

Sonnet의 레이턴시가 Opus보다 현저히 빠르다. 에이전틱 워크플로우에서 세션당 수십 번의 API 호출이 발생하는데, 매 호출마다의 속도 차이가 누적되면 체감 생산성에 큰 차이를 만든다.

3. Opus의 진짜 강점은 “사고”에 있다

SWE-bench 같은 코딩 벤치마크에서는 비등하지만, ARC AGI 2(추론)에서 Opus 4.6이 68.8%로 압도적이다. 복잡한 아키텍처 결정, 전체 코드베이스를 파악한 후의 설계 판단에서는 Opus가 확실히 우위다.

4. 토큰 경제학: 알아야 할 것들

Opus 4.6의 토큰 소비 증가

가장 중요한 변화 중 하나다. Adaptive Thinking이 기본적으로 high 레벨로 동작하면서, 출력 토큰이 Opus 4.5 대비 약 2배 증가했다.

모델	표준 벤치마크 출력 토큰	상대 비용
Opus 4.5	~29M	1x
Opus 4.6 (high)	~58M	~2x

Claude Code 사용자에게 직접적인 영향:

Pro/Max 구독: 토큰 쿼터가 더 빨리 소진된다. 이전에 하루 종일 쓸 수 있었다면, Opus 4.6에서는 동일 작업에 쿼터가 더 빨리 닳는다.
API 사용자: 같은 작업에 2배의 출력 토큰 비용이 발생한다.
대응 전략: /effort 명령으로 effort 레벨을 조절할 수 있다. 간단한 작업에서는 medium이나 low로 낮추는 습관이 필요하다.

실용 토큰 절약 가이드

  
# Claude Code에서 effort 레벨 조절
/effort low     # 간단한 수정, 확인 작업
/effort medium  # 일반적인 코딩
/effort high    # 복잡한 분석 (기본값)
/effort max     # 극도로 어려운 추론

내 사용 패턴 기준 권장:

작업 유형	권장 모델	Effort
아키텍처 설계	Opus 4.6	high/max
메모리 누수 조사	Opus 4.6	high
Gap Analysis	Opus 4.6	high
일반 코드 구현	Sonnet 4.6	-
단순 버그 수정	Sonnet 4.6	-
파일 검색/확인	Sonnet 4.6	-
로컬라이제이션 작업	Sonnet 4.6	-

5. 1M 컨텍스트 윈도우의 실무 영향

이전 vs 이후

200K에서 1M으로의 확장은 단순히 “더 긴 대화가 가능하다”가 아니다. 작업 방식 자체가 바뀐다.

Opus 4.5 (200K) 시절의 워크플로우:

세션 1: GameResultLayer.cs 분석 → 리포트 A 출력
세션 2: 관련 파일 5개 추가 분석 → 리포트 B 출력
세션 3: 리포트 A+B 종합 → 최종 분석

3개 세션에 걸쳐야 했다. 컨텍스트가 부족해서 한 세션에서 모든 파일을 분석할 수 없었고, 세션 간 핸드오프 시 정보 손실이 발생했다.

Opus 4.6 (1M) 현재의 워크플로우:

단일 세션: 관련 파일 30개 전체 분석 → 종합 리포트 출력

MRCR v2 점수가 18.5% → 76.0%로 뛴 건 이 차이다. 컨텍스트 윈도우 안에 있는 정보를 실제로 활용할 수 있는 능력이 극적으로 개선되었다.

128K 출력의 의미

이전에는 최대 8K 토큰 출력 제한 때문에, 대규모 리포트를 한 번에 생성할 수 없었다. “계속해줘”를 반복하거나, 섹션별로 나눠서 요청해야 했다.

128K 출력으로 확장된 후에는 수십 개 파일의 메모리 누수 분석 리포트를 한 번의 응답으로 완성할 수 있다. 파일별 이슈 목록, 우선순위 분류, 수정 권장사항까지 하나의 응답에 담긴다.

6. 게임 개발에서 Opus 4.6이 빛나는 순간

사례 1: DOTween 시퀀스 누수 전수조사

요청: "프로젝트 전체에서 DOTween 시퀀스를 생성하지만 Kill()을
      호출하지 않는 패턴을 찾아서 P0/P1/P2로 분류해줘"

Opus 4.5: 파일 15개까지 읽은 후 컨텍스트 한계 → 세션 분할 필요
Opus 4.6: 관련 파일 전체 순회 후 단일 리포트로 출력

1M 컨텍스트 + 향상된 추론 능력의 시너지가 가장 잘 드러나는 사례다.

사례 2: 노드 조합 시스템 리디자인

Skill Studio의 노드 조합 시스템을 리디자인할 때, 기존 코드 전체를 읽고 새 아키텍처를 제안받았다. Opus 4.6의 Adaptive Thinking이 high로 동작하면서, 단순히 “이렇게 바꾸세요”가 아닌 “왜 현재 구조가 문제인지, 어떤 트레이드오프가 있는지”까지 포함된 분석을 제공했다.

사례 3: 22개 파일 동시 수정

Agent Teams를 활용해 4개 태스크 영역에서 22개 파일을 동시에 수정한 세션이 있었다. 이런 규모의 병렬 작업은 Opus 4.5에서는 사실상 불가능했다. 결과가 완벽하지는 않았지만(namespace import 누락 등), 한 세션에서 이 규모의 작업을 시도할 수 있다는 것 자체가 패러다임 변화다.

7. 솔직한 평가: 업그레이드할 가치가 있나?

Opus 4.5 → 4.6

관점	평가
코드 작성 능력	거의 동일 (SWE-bench 0.1pp 차이)
분석/추론 능력	대폭 향상 (ARC AGI +31pp)
장문 처리	혁신적 개선 (MRCR +57.5pp)
토큰 효율	악화 (출력 ~2배)
멀티 에이전트	신기능, 하지만 불안정
종합	분석 중심 워크플로우라면 필수 업그레이드

단순히 코드를 짜는 용도라면 체감 차이가 크지 않다. 하지만 대규모 코드베이스를 분석하고, 구조화된 리포트를 생성하고, 복잡한 아키텍처 결정을 내리는 나 같은 사용 패턴에서는 확실한 업그레이드다.

누구에게 추천하나

✅ Opus 4.6이 효과적인 경우:
   - 대규모 코드베이스 (수만 줄) 분석이 잦은 개발자
   - 메모리 누수, 크래시 같은 복잡한 조사 작업
   - 아키텍처 설계 및 기술 의사결정에 AI를 활용하는 경우
   - Gap Analysis, 코드 리뷰 등 체계적 검증 워크플로우

⚠️ Sonnet 4.6이 더 나은 경우:
   - 일상적인 코드 구현과 버그 수정
   - 빠른 이터레이션이 중요한 디버깅
   - 비용 제약이 있는 환경
   - 단일/소수 파일 작업

8. 앞으로의 전망

Opus 4.5에서 4.6까지 불과 2개월이었다. 이 속도라면 4.7이나 다음 세대 모델도 머지않았을 것이다. 현재의 한계점을 기준으로 기대하는 것들:

1. 멀티 에이전트 안정성 개선 현재 가장 큰 pain point다. 에이전트 무응답, idle 루프, import 누락 문제가 해결되면 병렬 작업의 생산성이 극적으로 올라갈 것이다.

2. 토큰 효율 최적화 Adaptive Thinking의 사고 깊이가 더 정교해지면, 간단한 작업에서의 불필요한 토큰 소비가 줄어들 수 있다. 현재는 high가 기본값이라 단순 작업에서도 과도한 사고를 하는 경우가 있다.

3. 첫 번째 시도의 정확도 향상 내 Insights 데이터에서 “Wrong Approach”가 21건으로 최다 마찰 원인이었다. 추론 능력(ARC AGI 68.8%)은 이미 크게 올랐지만, 개발자의 의도를 파악하는 능력은 아직 개선 여지가 크다.

마치며

Opus 4.5에서 4.6으로의 전환은 “더 똑똑한 AI”가 아니라 “더 넓게 보는 AI”로의 변화다. 코드를 짜는 능력은 거의 같지만, 대규모 코드베이스를 이해하고 구조화된 분석을 제공하는 능력이 확연히 달라졌다.

게임 개발자로서 가장 가치 있는 변화는 하나의 세션에서 프로젝트 전체를 조망할 수 있게 된 것이다. 메모리 누수 조사, 리팩토링 설계, Gap Analysis 같은 작업이 세션 분할 없이 완결되면서, 작업 흐름이 훨씬 매끄러워졌다.

다만, 토큰 소비 2배 증가는 무시할 수 없는 변화다. Opus는 설계와 분석에, Sonnet은 구현에 — 이 역할 분담이 현재로서는 가장 합리적인 전략이다.

참고 자료
Anthropic 공식 - Introducing Claude Opus 4.6
Anthropic 공식 - Introducing Claude Sonnet 4.6
What’s new in Claude 4.6 - Claude API Docs
Claude Opus 4.6 벤치마크 분석 - Vellum
Claude Opus 4.6 성능 분석 - Artificial Analysis
Sonnet 4.6 vs Opus 4.6 비교 - NxCode

AI, Claude