Harness Engineering 도구 비교 분석#
하네스 엔지니어링 도구들은 개발 프로세스의 어디를 다루고, 얼마나 체계적인가.
이 글은 1편에서 소개한 하네스 엔지니어링의 도구들을 심층 분석한다. GitHub에서 관련 저장소를 검색해 수집하고 검토한 뒤, 대중화된 도구 5개와 주시할 도구 3개를 선별했다.
"하네스 엔지니어링 전용 도구"는 아직 초기 단계(대부분 2026년 1분기에 등장, Stars 100 미만)다. 반면, 하네스의 핵심 역할(스펙 관리, 제약 주입, 피드백 루프)을 실질적으로 수행하는 도구들은 이미 대규모 커뮤니티를 형성하고 있다. 이 글에서는 두 종류를 모두 다룬다.
전체 수집 목록은 별도 문서에 정리했다.
도구 상세 분석#
1. Spec Kit (GitHub)#
| 항목 | 내용 |
|---|---|
| 저장소 | github/spec-kit |
| Stars | 83,000+ |
| 핵심 개념 | 스펙 주도 개발(SDD) CLI 툴킷 |
| 지원 에이전트 | Copilot, Claude Code, Gemini CLI, Cursor, Windsurf 등 20개+ |
작동 방식
GitHub가 만든 스펙 주도 개발 도구다. Phase gate 방식으로 개발 과정을 단계별로 나눈다.
/speckit.constitution— 프로젝트 거버닝 원칙을 생성한다. 에이전트의 행동 범위를 제약하는 최상위 규칙이다./speckit.specify— what/why 중심으로 스펙을 작성한다. how는 에이전트에 위임한다./speckit.plan— 기술 스택과 아키텍처를 선택하고 구현 계획을 생성한다./speckit.build— 태스크를 분해하고 에이전트가 순차 구현한다.
constitution이 모든 후속 단계의 제약으로 작동한다는 점에서, 하네스의 "제약 주입" 역할을 수행한다.
하네스 관점 강점 - 명확한 phase 분리로 에이전트의 scope creep(범위 확대)을 방지 - 에코시스템 최대: 커뮤니티 확장, 프리셋 풍부 - 20개 이상의 에이전트 지원으로 도구 독립성 높음
하네스 관점 한계 - 검증과 피드백 루프는 에이전트 내부 판단에 의존한다. 기계적 강제가 없다. - phase gate가 슬래시 커맨드 기반이라 CI/CD 자동화 통합이 약하다. - brownfield 프로젝트 적용 가이드가 부족하다.
2. BMAD-METHOD#
| 항목 | 내용 |
|---|---|
| 저장소 | bmad-code-org/BMAD-METHOD |
| Stars | 42,600+ |
| 핵심 개념 | AI 에이전트 기반 애자일 개발 프레임워크 |
| 지원 에이전트 | Claude Code, Cursor, 기타 IDE |
작동 방식
12개 이상의 전문 에이전트 페르소나(PM, Architect, Developer, UX, Scrum Master 등)를 정의하고, 각 페르소나가 역할에 맞는 작업을 수행한다. "Party Mode"로 다중 페르소나를 한 세션에서 협업시킬 수 있다.
Scale-Domain-Adaptive 설계로 프로젝트 복잡도에 따라 계획 깊이를 자동 조정한다. 워크플로우가 34개 이상으로 가장 포괄적이다.
하네스 관점 강점 - 관심사 분리(SoC)를 에이전트 레벨에서 실현. 구현자와 검증자가 분리되어 있다. - 테스트 아키텍트 모듈(TEA)이 독립적인 검증 계층을 제공한다. - Edge Case Hunter가 코드 리뷰 시 경계 조건을 탐지한다.
하네스 관점 한계 - 복잡도가 높다. 소규모 프로젝트에는 과잉이다. - 기계적 검증보다 에이전트 간 대화 기반 검증에 의존한다. - 페르소나 전환에 컨텍스트 비용이 발생한다.
3. OpenSpec (Fission-AI)#
| 항목 | 내용 |
|---|---|
| 저장소 | Fission-AI/OpenSpec |
| Stars | 35,000+ |
| 핵심 개념 | 경량 스펙 프레임워크. "유연하되 엄격하지 않게" |
| 지원 에이전트 | 20개+ AI 코딩 어시스턴트 |
작동 방식
변경(change) 단위로 독립된 작업 폴더를 생성하고, 각 폴더에 proposal, specs, design, tasks를 구조화한다.
/opsx:propose— 변경 제안. 독립 폴더 생성./opsx:apply— 태스크를 순차 구현./opsx:verify— 구현 결과를 스펙 대비 검증./opsx:archive— 완료 후 아카이브, 스펙 갱신.
"fluid not rigid" 철학으로, 엄격한 phase gate 없이 자유 반복을 허용한다.
하네스 관점 강점 - change 단위 격리가 에이전트의 컨텍스트 오염을 효과적으로 방지한다. - brownfield 프로젝트에 강하다. 기존 코드베이스를 분석해서 스펙을 생성할 수 있다. - verify 단계가 스펙 대비 검증을 명시적으로 수행한다.
하네스 관점 한계 - 검증이 에이전트의 자기 판단(semantic level)에 의존한다. - 기계적 강제 메커니즘이 없다. - 다중 에이전트 협업 시나리오를 지원하지 않는다.
4. Hive (Aden)#
| 항목 | 내용 |
|---|---|
| 저장소 | aden-hive/hive |
| Stars | 9,900+ |
| 핵심 개념 | 목표 주도 에이전트 개발 프레임워크 + 런타임 하네스 |
| 투자 | Y Combinator |
작동 방식
자연어로 목표를 말하면, Queen Agent가 에이전트 그래프와 연결 코드를 자동 생성한다. 실행 결과를 기반으로 자기 개선(self-improving)하는 루프가 내장되어 있다.
MCP 102개 도구를 통합하고, Human-in-the-Loop으로 필요 시 인간이 개입할 수 있다.
하네스 관점 강점 - "목표를 말하면 에이전트 시스템을 만들어주는" 메타 하네스 - 자기 개선 루프로 피드백을 자동 처리 - 프로덕션 런타임으로 사용 가능
하네스 관점 한계 - 스펙 주도 개발보다 목표 주도(outcome-driven)에 가깝다. 스펙 정합성 검증이 약하다. - 프레임워크 종속도가 높다. Hive 밖에서 사용하기 어렵다. - 복잡도가 높다.
5. Kiro (AWS)#
| 항목 | 내용 |
|---|---|
| 저장소 | kirodotdev/Kiro |
| Stars | 3,300+ |
| 핵심 개념 | 스펙 주도 에이전틱 IDE (VSCode 기반) |
| 제공사 | AWS/Amazon |
작동 방식
IDE 안에서 스펙 → 코드 → 검증의 전체 루프가 완결된다.
- Specs: 프롬프트를 구조화된 스펙(요구사항 → 설계 → 태스크)으로 자동 변환.
- Steering:
.kiro/steering/마크다운 파일로 에이전트 행동 규칙을 주입. - Agent Hooks: 파일 변경, 이벤트에 반응하는 자동 트리거. 코드 변경 시 자동 테스트 실행, 문서 변경 시 자동 sync 등.
하네스 관점 강점 - Hooks가 현존하는 도구 중 가장 강력한 자동 피드백 루프 메커니즘이다. - Steering이 에이전트 행동의 기계적 제약으로 작동한다. - IDE 통합으로 개발자 경험이 매끄럽다.
하네스 관점 한계 - IDE 종속. Kiro 밖에서는 사용할 수 없다. - 독립 CLI나 CI 통합이 제한적이다. - 모델 선택이 제한적이다.
6. Entrix (주시)#
| 항목 | 내용 |
|---|---|
| 저장소 | phodal/entrix |
| Stars | 31 |
| 언어 | Python |
| 핵심 개념 | 품질 규칙과 아키텍처 제약을 실행 가능한 가드레일로 변환 |
작동 방식
규칙을 코드화하고, 변경사항에 대해 자동으로 실행한다. 세 단계의 검증 티어(fast/normal/deep)를 제공하며, 변경 인식(change-aware) 검증으로 diff에 대해서만 가중 점수를 매기고 하드 게이트를 적용한다.
review-trigger로 위험한 변경을 더 깊은 검증 단계로 자동 라우팅한다. 그래프 기반 영향도 분석, 테스트 반경 추정, 리뷰 컨텍스트 분석을 선택적으로 추가할 수 있다.
주시하는 이유
대형 도구들이 "에이전트에게 잘 전달하는 것"에 집중할 때, Entrix는 "규칙을 실행 가능한 가드레일로 변환하는 것"에 집중한다. 기계적 강제를 가장 직접적으로 구현하는 도구다.
7. AI Harness Scorecard (주시)#
| 항목 | 내용 |
|---|---|
| 저장소 | markmishaev76/ai-harness-scorecard |
| Stars | 14 |
| 언어 | Python |
| 핵심 개념 | 리포지토리의 에이전트 코드 신뢰도를 정량 평가 |
작동 방식
ai-harness-scorecard assess . 하나로 현재 리포의 하네스 수준을 A~F 등급으로 평가한다. 5개 카테고리, 31개 체크를 수행한다.
- 아키텍처 문서화 (20%)
- 기계적 제약 (25%)
- 테스트와 안정성 (25%)
- 리뷰와 드리프트 (15%)
- AI 특화 세이프가드 (15%)
DORA 2025 보고서, OpenAI Harness Engineering, SlopCodeBench, Kent Beck의 테스트 원칙을 근거로 한다.
주시하는 이유
기존 도구들이 "하네스를 만드는 것"에 집중할 때, 유일하게 "하네스를 측정하는 것"에 집중한다.
8. Reins (주시)#
| 항목 | 내용 |
|---|---|
| 저장소 | WellDunDun/reins |
| Stars | 6 |
| 언어 | TypeScript |
| 핵심 개념 | OpenAI 방법론의 CLI 도구화 |
작동 방식
4단계 CLI로 리포의 하네스 성숙도를 점진적으로 높인다.
reins scaffold— 하네스 구조 초기 생성reins audit— 현재 리포의 하네스 수준 진단reins evolve— 진단 결과를 기반으로 개선reins doctor— 하네스 건강 상태 확인
주시하는 이유
의존성 0개. 하네스 엔지니어링을 "도입하는 과정"을 단계적으로 안내한다.
비교 분석#
비교를 위한 두 가지 참조 프레임#
하네스 엔지니어링 도구를 평가할 확립된 기준은 아직 없다. 다만, 하네스 엔지니어링은 완전히 새로운 분야가 아니다. 소프트웨어 엔지니어링에서 프로세스 관리와 품질 보증을 다루던 영역이 AI 에이전트 환경에 맞게 형태가 바뀐 것에 가깝다. 그렇다면 기존 소프트웨어 공학 표준을 참조 프레임으로 활용하는 것은 자연스러운 접근이라고 생각한다.
이 글에서는 두 가지 표준을 참고한다. 하네스 엔지니어링을 위해 만들어진 표준이 아니므로 직접 적용은 아니다.
ISO/IEC 12207 — 소프트웨어 생명주기 프로세스
소프트웨어 개발과 유지보수에 필요한 전체 프로세스를 정의한 국제 표준이다. 요구사항 정의, 설계, 구현, 검증(Verification), 확인(Validation), 유지보수, 품질 보증 등 30개 프로세스를 체계화한다. 하네스 도구가 이 프로세스 중 어디를 지원하는지를 매핑하면, 각 도구가 개발 과정의 어느 영역을 커버하는지 파악할 수 있다.
CMMI — 프로세스 성숙도 모델
Carnegie Mellon 대학에서 개발한 프로세스 수준 개선 프레임워크다. 프로세스의 성숙도를 5단계로 평가한다.
- Initial: 프로세스가 정의되지 않은 상태. 결과가 개인의 역량에 의존한다.
- Managed: 기본적인 프로젝트 관리가 존재한다. 요구사항이 관리되고 프로세스가 계획된다.
- Defined: 프로세스가 조직 차원에서 정의되고 문서화된다. 프로젝트 간 일관성이 있다.
- Quantitatively Managed: 프로세스가 정량적으로 측정되고 관리된다.
- Optimizing: 측정 결과를 기반으로 프로세스가 지속적으로 개선된다.
ISO 12207 프로세스 커버리지#
| 도구 | 요구사항 정의 | 설계 | 구현 | 검증(V&V) | 품질 보증 | 측정/분석 | 구성 관리 |
|---|---|---|---|---|---|---|---|
| Spec Kit (83K) | O | O | O | ||||
| BMAD (43K) | O | O | O | △ | |||
| OpenSpec (35K) | O | O | O | △ | |||
| Hive (10K) | O | ||||||
| Kiro (3K) | O | O | O | △ | △ | ||
| Entrix (31) | O | O | |||||
| Scorecard (14) | △ | O | |||||
| Reins (6) | △ | △ | O |
O = 해당 프로세스를 명시적으로 지원 / △ = 부분 지원 또는 에이전트 판단에 의존
대부분의 도구가 요구사항 정의, 설계, 구현에 집중하고 있다. 반면 검증, 품질 보증, 측정은 상대적으로 비어 있다. 특히 구성 관리(변경 이력 추적, 베이스라인 관리)를 체계적으로 다루는 도구는 거의 없다.
CMMI 성숙도 관점#
정식 CMMI 평가가 아니다. 각 도구를 사용했을 때 에이전트의 개발 프로세스가 도달할 수 있는 성숙도 수준을 기능 기반으로 가늠한 것이며, 도구를 도입한다고 해당 레벨이 보장되는 것은 아니다.
| 도구 | 성숙도 수준 | 근거 |
|---|---|---|
| Spec Kit (83K) | Level 2 (Managed) | 요구사항이 관리되고 프로세스가 계획되지만, 검증과 품질 보증이 에이전트 자기 판단에 의존 |
| BMAD (43K) | Level 2~3 | 프로세스가 페르소나 단위로 정의되고 역할이 분리되지만, 기계적 강제가 약함 |
| OpenSpec (35K) | Level 2 (Managed) | change 단위 관리가 체계적이지만, 검증이 기계적이지 않음 |
| Hive (10K) | Level 2 (Managed) | 런타임 관리가 있고 자기 개선 루프가 있지만, 프로세스 정의가 느슨함 |
| Kiro (3K) | Level 3 (Defined) | Steering으로 프로세스가 조직 차원에서 정의되고, Hooks로 일부 자동 강제 |
| Entrix (31) | Level 3~4 | 규칙이 코드로 정의되고 기계적으로 강제되며, tier별 측정이 존재 |
| Scorecard (14) | Level 4 (Quantitatively Managed) | 정량적 측정과 등급화가 핵심 기능 |
| Reins (6) | Level 2~3 | 프로세스 정의(scaffold)와 진단(audit)을 지원하지만, 정량 측정은 제한적 |
Level 5(Optimizing) — 측정 결과를 기반으로 프로세스가 지속 개선되는 단계 — 에 도달한 도구는 없다. 측정(Scorecard)과 개선(Reins의 evolve)을 각각 다루는 도구는 있지만, 이 둘이 자동으로 연결되어 지속적 개선 루프를 형성하는 도구는 아직 존재하지 않는다.
현재 한계#
하네스 엔지니어링은 아직 초기 단계다.
- 도구 간 파편화: 도구마다 다루는 영역이 다르고, 통합 표준이 없다.
- 검증의 한계: 대부분의 검증이 정적 분석에 머물러 있다. 스펙과 구현의 의미적 정합성을 기계적으로 검증하는 도구는 아직 없다.
- 규칙 형식 파편화: CLAUDE.md, .cursor/rules, AGENTS.md, .kiro/steering 등 에이전트마다 형식이 다르다.
- 현실적 복잡도 미반영: 대부분의 도구가 단일 저장소, 단일 프로젝트를 전제한다. FE/BE 분리, 마이크로서비스, 스펙 비대화, 테스트 전략 정의, 모노레포/멀티레포 같은 현실적 문제를 다루는 도구는 아직 없다.
마무리#
다만, 이 한계들이 영구적인 문제인지는 생각해볼 여지가 있다.
FE/BE나 BE 내 서비스를 분리하는 이유는 담당자가 다르고 배포/개발 사이클이 다르기 때문이다. 에이전트 중심 환경에서는 이런 구분이 의미를 잃고, 하나의 프로젝트에서 통합 관리하는 것이 자연스러워질 수 있다. 코드가 매번 다르게 생성되는 문제도, 정적 분석 기준을 통과하고 full coverage 테스트를 통과하는 코드라면 일관성보다 정확성이 더 중요한 기준이 될 수 있다.
더 근본적으로, 하네스 엔지니어링이 성숙해질수록 "무엇을 관리해야 하는가"의 대상 자체가 달라질 수 있다. 스펙과 설계가 관리 대상이고 코드는 빌드 단계의 산출물이라면, git에서 추적해야 할 것은 코드가 아니라 스펙이 된다. 컴파일된 바이너리를 버전 관리하지 않듯이, 에이전트가 스펙으로부터 생성한 코드도 같은 위상이 될 수 있다.
이 패러다임에서는 코드 일관성, 프로젝트 분리, 스펙 비대화 같은 현재의 문제는 질문 자체가 달라진다. 현재의 한계에 매몰되기보다, 이런 방향성의 변화에 관심을 두는 것이 더 유의미하다.
하네스 엔지니어링은 "에이전트가 더 똑똑해지면 필요 없어지는 것"이 아니라고 생각한다. 에이전트의 능력이 커질수록, 그 능력을 올바른 방향으로 쓰게 하는 환경 설계의 중요성도 함께 커질 것이다.