하네스 워 — OpenAI vs Anthropic, 그리고 우리가 준비해야 할 것

🌐

이 글은

Harness Wars — OpenAI vs Anthropic, and What We Need to Prepare For 의 한국어 발행본이다. 영문 원작에서 표기·인용은 그대로 두고, 한국 독자가 자연스럽게 읽을 수 있도록 톤·리듬·문장 호흡만 다듬었다.

🎯

30초 요약

2026년 3~4월, Anthropic과 OpenAI가 3주 간격으로 하네스(harness) 를 공식 토픽으로 끌어올렸다.

MCP, 스킬, CLI는 표준화/오픈 방향인데, 하네스 계층 만은 양사 모두 "우리 SDK 안에서 설계하라"는 신호를 보낸다.

동시에 PC와 로컬 추론 인프라 비용도 폭증한다. Google의 TurboQuant(2026.3.25)가 메모리를 약 6× 줄여줘도, 제번스 역설(Jevons Paradox) 때문에 총 수요는 줄지 않고 오히려 늘어난다.

우리는 둘 중 하나를 골라야 한다 — 벤더가 잠근 하네스 위에서 놀 것인가, 직접 하이브리드 네이티브 하네스를 설계할 것인가.

1. 왜 갑자기 "하네스(harness)" 가 화두인가

원래 하네스(harness) 는 마구(馬具) — 말의 원시적인 힘을 통제 가능한 방향으로 바꿔주는 장비를 가리킨다. AI에서 이 용어는 이제 LLM(말)을 통제 가능한 일꾼 으로 만드는 바깥 계층 전체 를 의미한다.

"Claude Code serves as the agentic harness around Claude: it provides the tools, context management, and execution environment that turn a language model into a capable coding agent."

— Anthropic 공식 문서 (메모라이저: How Claude Code Works — Harness, AI Agent, Agentic Loop)

하네스의 6대 구성요소를 그림으로 풀면 다음과 같다.


flowchart LR
    Model["LLM<br/>(말 = 추론 엔진)"]
    subgraph Harness["Harness (마구)"]
        Tools["도구<br/>Bash / Read / Write"]
        Perm["권한 &<br/>승인 게이트"]
        Sandbox["샌드박스"]
        Session["세션 &<br/>메모리"]
        Context["컨텍스트<br/>관리"]
        Ext["확장:<br/>MCP / Skills / Hooks"]
    end
    Model --> Harness
    Harness --> Agent["AI 에이전트<br/>(스스로 판단·행동)"]

지난 2년의 표준화 흐름을 보면 모델 → 도구 → MCP → 스킬 → CLI 순으로 개방·표준화 파도가 지나갔다. 그런데 2026년 봄, 두 벤더가 동시에 다시 고삐를 잡으려 한 계층이 하나 있다 — 바로 하네스다.

2. Anthropic의 하네스 — "단순하게 시작하고, 필요할 때만 복잡성을 더하라"

원문: <https://www.anthropic.com/engineering/harness-design-long-running-apps> (2026.3.24)

Anthropic은 장기 실행 앱 (수 시간 ~ 수 일에 걸친 작업)을 위한 하네스 설계 원칙을 공식 발표했다.

2.1 설계 철학

"Find the simplest solution possible, and only increase complexity when needed."

— Prithvi Rajasekaran, Anthropic Labs

"Every component in a harness encodes an assumption about what the model can't do on its own."

즉, 하네스는 모델의 약점을 보완하기 위해 짠 코드 이며, 모델이 강해질수록 하네스의 일부는 삭제 후보 가 된다. 버리는 것이 설계의 일부다. 이 한 줄이 이 글의 가장 무거운 명제다.

2.2 핵심 패턴 — Generator / Evaluator / Planner (GAN 영감)


flowchart LR
    User["사용자<br/>(한 줄 프롬프트)"] --> Planner["Planner<br/>(상세 PRD로 확장)"]
    Planner --> Generator["Generator<br/>(실제 작업자)"]
    Generator -->|"Sprint Contract<br/>(완료 정의 합의)"| Evaluator["Evaluator<br/>(Playwright MCP로 QA)"]
    Evaluator -->|"FAIL"| Generator
    Evaluator -->|"PASS"| Done["완료"]

"The generator and evaluator negotiated a sprint contract: agreeing on what 'done' looked like for that chunk of work before any code was written."

GAN의 생성자/판별자 구조에서 영감을 받은 서브에이전트 분업 패턴 이다. Planner가 한 줄 요구사항을 상세 PRD로 부풀리고, Generator는 그대로 만들고, Evaluator는 합의된 완료 기준 으로 검수한다. 통과 안 하면 Generator로 되돌려보낸다.

2.3 Anthropic이 강조한 두 가지 발견

첫째, 도메인이 다른 서브에이전트들이 서로 다른 시스템 프롬프트 를 갖고 협업할 때 단일 큰 프롬프트보다 결과가 안정적이다.

둘째, Evaluator가 코드 작성 전 에 "완료 정의(Sprint Contract)"를 Generator와 합의하면, 평가-수정 루프 횟수가 유의미하게 줄어든다.

2.4 비용 데이터 (실제 수치)

Anthropic은 이 패턴으로 수 시간짜리 빌드 작업 한 건당 평균 $7~12 토큰 비용을 보고했다. 단일 거대 프롬프트 방식보다 토큰을 30~50% 절감했다고 한다.

3. OpenAI의 하네스 — "long-horizon harness × 샌드박스 × 100+ LLM"

원문:

<https://openai.com/index/the-next-evolution-of-the-agents-sdk/> (2026.4.15)

TechCrunch, "OpenAI updates its Agents SDK..." (2026.4.15)

OpenAI는 Agents SDK 2.0에서 다음을 출시했다.

3.1 핵심 개념

"The harness refers to the other components of an agent besides the model it's running on, and an in-distribution harness allows companies to both deploy and test agents running on frontier models."

— TechCrunch (2026.4.15)

핵심 용어는 in-distribution harness — 모델 학습 분포 안에 들어간 하네스. 모델이 행동 복제(behavior cloning)와 RLHF 단계에서 이미 이 하네스의 형태를 학습 했기 때문에, 같은 모델을 다른 하네스에 얹으면 성능을 100% 다 못 끌어낸다는 주장이다.

3.2 OpenAI의 메시지

OpenAI는 AgentKit + Agent Builder + Apps SDK + Agents SDK 2.0을 묶어 설계 → 빌드 → 배포 → 수익화 의 전체 스택을 자기 플랫폼 안에서 돌게 만들고 있다 (메모라이저: OpenAI DevDay 2025 — ChatGPT의 슈퍼앱 전략).

피치는 단순하다.

MCP는 열려 있다 — 그러나 하네스는 OpenAI 워크벤치 안에서 시각적으로 조립 하는 방향.

그 대신 ChatKit / Widget Builder / Connector Registry 가 한 번에 묶여서 따라온다.

4. OpenAI vs Anthropic — 하네스 비교


flowchart TB
    subgraph Anthropic["Anthropic Harness — 코드 우선의 미니멀리즘"]
        A1["Claude Agent SDK"]
        A2["Skills + Hooks"]
        A3["Sub-agent 패턴<br/>Planner → Generator → Evaluator"]
        A1 --> A2 --> A3
    end
    subgraph OpenAI["OpenAI Harness — 풀스택 워크벤치"]
        O1["Agents SDK 2.0<br/>(long-horizon harness)"]
        O2["AgentKit / Agent Builder<br/>(시각적 캔버스)"]
        O3["샌드박스 + 서브에이전트<br/>+ Code Mode"]
        O4["ChatKit / Widget Builder<br/>(배포 채널)"]
        O1 --> O2 --> O3 --> O4
    end

축	Anthropic	OpenAI
톤	코드 우선 미니멀리즘 ("필요할 때만 복잡성 추가")	풀스택 워크벤치 ("전체 사이클을 우리 안에서")
진입 방식	SDK + 스킬/훅으로 조립	시각적 캔버스로 배치
주력 사용자	엔지니어 (Claude Code)	비-엔지니어 + 엔지니어 (Agent Builder)
차별화	서브에이전트 분업, Sprint Contract	in-distribution harness, 100+ LLM 지원
잠금 지점	Claude 모델 + Claude Code	Agents SDK 2.0 + AgentKit

두 사용자 타깃이 동일 하지 않다는 점도 중요하다. Anthropic은 코드 작성하는 엔지니어 를, OpenAI는 비엔지니어 + 엔지니어 양쪽 을 노린다. 이 차이가 가격 책정과 라이선스 전략에도 영향을 미친다.

5. 왜 하필 하네스 계층이 벤더 록인되는가

스킬, MCP, CLI는 어느 정도 표준화되거나 개방되었다. 하네스만 다르다. 구조적 이유가 두 가지 있다.

5.1 "결국 엔터프라이즈가 돈 낸다"는 학습된 행동


flowchart LR
    GH["GitHub<br/>(Enterprise)"] -->|"ACL/SAML/Audit"| ENT1["엔터프라이즈 ISMS 요구사항"]
    Slack["Slack<br/>(Enterprise Grid)"] -->|"DLP/eDiscovery"| ENT1
    Notion["Notion<br/>(Enterprise)"] -->|"SCIM/audit logs"| ENT1
    Claude["Claude Team/Enterprise"] -->|"RBAC/SSO"| ENT1
    OpenAI["ChatGPT Business/Enterprise"] -->|"audit logs/usage analytics"| ENT1

SaaS 역사에서 반복되는 패턴 — 기본 ACL, audit, SSO는 항상 가장 비싼 플랜 뒤에 잠긴다. 하네스도 같은 길을 간다.

Free / MAX = 개인 코딩 어시스턴트

Team / Enterprise = 하네스 거버넌스 (audit, tracing, multi-seat, 정책 게이트)

한국에서 보였던 ChatGPT Pro 90% 할인 (메모라이저: ChatGPT Pro 90% Discount Promotion in South Korea) 이 이를 적나라하게 보여준다. Sam Altman이 $200/월 Pro 플랜이 적자 라고 공개 인정했음에도, OpenAI는 한국에서 90% 보조금까지 깔며 한 가지 지표 — 전환율(conversion rate) — 를 IPO 전에 사들였다. 하네스 라이선스 전쟁의 서곡 이라고 부를 수 있다.

5.2 OpenAI의 "하네스 = 모델 학습 분포의 일부" 주장

OpenAI가 던진 in-distribution harness 라는 표현이 결정적이다. 함의는 이렇다 — 모델의 학습 분포(behavior cloning, RLHF, RLAIF)에 이미 자기 하네스의 형태 가 인코딩되어 있고, 그 하네스 없이는 모델 성능의 100%를 끌어낼 수 없다.

이게 사실이라면, MCP가 아무리 표준화되어도 하네스는 모델 제공자가 가장 효율적으로 만들 수 있는 계층 — 즉 가장 강한 록인 지점 이다.

6. 인프라 비용 폭증 — 클라우드도 로컬도 같이 비싸진다

6.1 LLM은 공기처럼 싸지는데, "그 주변" 은 비싸진다

"AI의 적은 시간이다. 오늘의 Pro급 추론이 6개월 뒤면 Free급이 된다."

— 메모라이저: ChatGPT Pro 90% Discount Promotion in South Korea

토큰 단가는 떨어진다. 그런데 에이전트가 부상하면서 주변 인프라 가 비싸진다.

GPU: LLM 추론용

메모리 / SSD / NAND: 로컬 PC 부품 가격 급등 (사용자들이 체감)

컴퓨트(BYOC): OpenAI는 long-horizon harness 에 직접 컴퓨트를 가져오라 고 명시적으로 요구

6.2 Google의 반격 — TurboQuant와 제번스 역설

원문: <https://v.daum.net/v/20260329050205578> (2026.3.29)

2026.3.25, Google이 TurboQuant (KV-cache 압축 + 양자화 추론)를 발표했다.

표면적으론 메모리 제조사에게 악재로 읽힌다 — 수요가 줄 거니까. 발표 직후 삼성전자에 외국인 순매도 2.94조 원 이 들어왔고 SK하이닉스도 시장 충격을 받았다.

그러나 KB증권 김동원 애널리스트와 성균관대 권석준 교수는 제번스 역설(Jevons Paradox) 을 들며 다른 해석을 내놓았다.

"추론이 진짜 싸지면, 그 동안 가격 때문에 못 쓰던 응용에 자유로워진 메모리가 다 흡수된다. 총 메모리 수요는 줄지 않고 오히려 폭발한다."


flowchart LR
    A["효율 6×↑<br/>(TurboQuant)"] --> B["단가 ↓"]
    B --> C["에이전트 워크로드<br/>폭발"]
    C --> D["총 메모리·GPU·전력<br/>수요 ↑↑"]
    D --> E["로컬 PC 부품<br/>+ 클라우드 청구서<br/>동시에 상승"]

요컨대 — 하네스 시대가 본격화될수록, LLM은 싸지는데 에이전트 풀스택 청구서는 더 커진다.

6.3 클라우드 vs 로컬 — 둘 다 동시에 비싸진다

전통적으로는 클라우드가 비싸지면 로컬로 가라, 로컬이 비싸지면 클라우드로 가라 의 시소가 작동했다. 지금은 양쪽이 동시에 비싸진다.

클라우드 — 토큰은 싸지나, BYOC + 샌드박스 + 트레이싱 + 거버넌스 묶음이 Enterprise 플랜으로 강제됨.

로컬 — Gemma 3/4, Llama 3, Phi-3 같은 온디바이스 모델이 살아남지만, 그걸 돌릴 메모리/SSD/GPU 가격이 오른다.

피할 곳이 없다. 그래서 하이브리드 하네스 라는 옵션이 정답에 가까워진다.

7. 그래서 우리는 무엇을 준비해야 하는가

7.1 세 가지 시나리오


flowchart TD
    Choice["우리의 선택"]
    Choice --> S1["시나리오 A<br/>벤더 락 하네스 위에서 논다"]
    Choice --> S2["시나리오 B<br/>네이티브 하네스를 직접 설계한다"]
    Choice --> S3["시나리오 C<br/>하이브리드 — 온디바이스 + 프론티어 모델 혼용"]

    S1 -->|"장점"| S1P["빠른 시작, 풀스택 도구 제공"]
    S1 -->|"단점"| S1C["라이선스·가격 인질, 모델 락인"]

    S2 -->|"장점"| S2P["완전 통제, 멀티벤더 가능"]
    S2 -->|"단점"| S2C["엔지니어링 비용, 러닝커브"]

    S3 -->|"장점"| S3P["비용 최적, 위험 분산"]
    S3 -->|"단점"| S3C["벤더 하네스가 이 브릿지를 허용 안 할 수도"]

7.2 함정 — "Team/Enterprise로 강제 이전"

Claude의 MAX 플랜은 개인 용도 다. N대 이상에서 인증 막는 건 Netflix가 가구 공유를 막던 그 플레이북 — 처음엔 묵인하다가, IPO와 매출 압박이 커지면 차단한다. 회사 안에서 본격적으로 쓰기 시작하면 Claude Team / OpenAI Business 로 이전을 강요받을 가능성이 높다.

7.3 사내에서 권장하는 실천

#	액션	이유
1	MCP 서버를 사내 자체 호스팅	어느 벤더든 MCP 끊으면 즉시 끊긴다. 자체 호스팅으로 데이터 통제권 확보
2	하네스 트레이싱을 OpenTelemetry로	벤더가 트레이싱 데이터를 안 주거나 비싸게 줄 때 자체 라인 확보
3	5축 평가 등 도메인 특화 Evaluator 자체 구축	벤더 Evaluator는 일반화 — 도메인 평가는 직접
4	온디바이스 모델 1개는 항상 대안으로	Gemma 4, Llama 3 등. 벤더 가격 협상 카드
5	하네스를 언제든 버릴 수 있도록 추상화	비즈니스 로직과 하네스 결합을 느슨하게 유지

핵심은 대체 옵션을 항상 1개 이상 살려 두는 것 이다. 가격 협상에서 "우리는 떠날 수 있다" 가 가장 강한 카드다.

8. 마치며 — 어느 쪽에 베팅할 것인가

"Every component in a harness encodes an assumption about what the model can't do on its own."

이 한 문장이 글의 전부다. 하네스는 사라지지 않는다. 모델이 강해질수록 형태 만 바뀐다. 어제 필요했던 가드레일이 내일 사라지고, 어제 없던 거버넌스가 내일 코어가 된다.

남은 질문은 두 개다.

"우리도 네이티브 하네스 엔지니어가 되어야 하는가?" — 그렇다. 단, 모든 계층에서가 아니라 도메인 특화 계층(우리 도메인의 Evaluator, 우리 5축 평가, 우리 거버넌스 정책)에서만.

"벤더 하네스 위에서 노는 게 더 합리적인가?" — 부분적으로 그렇다. 단, 세 가지 탈출 통로 는 미리 잡아두자 — MCP, 하네스 트레이싱, 데이터 거버넌스.

벤더는 결국 우리를 더 비싼 티어로 밀어붙일 것이다. 그날 우리에게 협상력이 있으려면, 한 가지 선택지를 늘 살려둬야 한다 — "우리는 하네스를 버릴 수 있다."

참고 자료

자매 글 / 원작

🐎
Harness Wars — OpenAI vs Anthropic, and What We Need to Prepare For

에이전틱에 액터모델, 놀랍지 않다

Akka.NET으로 AgentAI 오케스트레이션 만들기 — 클러스터 확장편 (Part 2)

외부 1차 자료

Anthropic, Harness Design for Long-Running Apps (2026.3.24) — https://www.anthropic.com/engineering/harness-design-long-running-apps

OpenAI, The Next Evolution of the Agents SDK (2026.4.15) — https://openai.com/index/the-next-evolution-of-the-agents-sdk/

TechCrunch, OpenAI updates its Agents SDK... (2026.4.15)

Google, TurboQuant 발표 (2026.3.25) — https://v.daum.net/v/20260329050205578

메모라이저

Agentic AI: 경험이 과대광고보다 중요한 이유 (Akka CEO 관점)

OpenAI Agents SDK 차세대 진화 정리 (2026-04-15)

OpenAI Agents SDK 진화 발표의 실무 해석

Claude Code Routines vs OpenAI Agents SDK 비교