Claude Code의 Skill Creator: AI가 AI 스킬을 만드는 시대

개요

Anthropic이 공식 skills 레포지토리에 Skill Creator라는 메타 스킬을 공개했다.
이름 그대로 "스킬을 만드는 스킬"로, Claude Code 사용자가 자신만의 커스텀 스킬을 설계하고, 테스트하고, 반복 개선하는 전체 워크플로우를 AI가 가이드해준다.

Skill이란?

Claude Code에서 Skill은 특정 작업에 대한 재사용 가능한 지침서다. SKILL.md라는 마크다운 파일에 작성되며, Claude가 사용자의 요청을 인식하면 자동으로 해당 스킬을 불러와 따른다.

skill-name/
├── SKILL.md          # 핵심 지침 (필수)
├── scripts/          # 반복 작업용 실행 스크립트 (선택)
├── references/       # 참조 문서 (선택)
└── assets/           # 템플릿, 아이콘 등 (선택)

SKILL.md 구조

---
name: my-skill
description: 이 스킬이 무엇을 하고, 언제 트리거되어야 하는지 설명
---

# 스킬 본문
구체적인 지침, 예시, 출력 형식 등을 마크다운으로 작성

name + description: 항상 컨텍스트에 로드됨 (~100단어)
SKILL.md 본문: 스킬이 트리거될 때 로드됨 (500줄 이내 권장)
번들 리소스: 필요할 때만 로드 (용량 제한 없음)

Skill Creator의 워크플로우

Skill Creator는 다음과 같은 반복 루프를 안내한다.

1단계: 의도 파악 (Capture Intent)

사용자에게 4가지 핵심 질문을 던진다:

이 스킬이 Claude에게 무엇을 하게 할 것인가?
언제 트리거되어야 하는가? (어떤 문맥, 어떤 표현?)
출력 형식은 무엇인가?
테스트 케이스를 설정할 것인가?

2단계: 인터뷰 & 리서치

엣지 케이스, 입출력 형식, 성공 기준 등을 사전에 조사한다. MCP 도구가 있으면 병렬로 리서치를 수행한다.

3단계: SKILL.md 작성

초안을 작성한다. 핵심 작성 원칙:

"왜"를 설명하라 — ALWAYS, NEVER 같은 강압적 지시 대신, 이유를 설명하면 LLM이 더 잘 따른다
간결하게 유지 — 효과 없는 지침은 제거
예시를 포함 — Input/Output 형식으로 기대 결과를 보여줌
일반화 — 특정 예시에만 맞추지 말고 범용적으로 작성

4단계: 테스트 실행 & 평가

여기가 Skill Creator의 진짜 핵심이다.

evals/evals.json에 테스트 프롬프트 저장
  ↓
서브에이전트로 병렬 실행 (스킬 적용 vs 베이스라인)
  ↓
정량 평가 (assertions) + 정성 평가 (사람 리뷰)
  ↓
eval-viewer로 결과를 브라우저에서 확인
  ↓
피드백 수집 → 스킬 개선 → 반복

with-skill run과 baseline run을 동시에 실행해서 비교한다:

새 스킬 생성 시: 스킬 없이 실행한 결과와 비교
기존 스킬 개선 시: 이전 버전과 비교

5단계: 반복 개선

피드백을 기반으로 스킬을 수정하고 다시 테스트한다. 종료 조건:

사용자가 만족
피드백이 모두 비어있음 (문제 없음)
더 이상 의미 있는 개선이 없음

Description 최적화

스킬이 완성되면 트리거 정확도를 높이기 위한 별도의 최적화 과정이 있다.

트리거 평가 쿼리 20개 생성 — should-trigger 10개 + should-not-trigger 10개
사용자 리뷰 — HTML 뷰어로 평가 세트 확인/수정
자동 최적화 루프 실행 — 60% 학습 / 40% 테스트로 분할, 최대 5회 반복
최적 description 적용 — 테스트 점수 기준으로 선정 (오버피팅 방지)

핵심 인사이트: Claude는 간단한 1단계 작업은 스킬 없이도 처리하므로, 평가 쿼리는 충분히 복잡하고 구체적이어야 한다.

다양한 환경 지원

환경서브에이전트브라우저비고

Claude Code	O	O	풀 기능
Cowork	O	X	--static 옵션으로 HTML 파일 생성
Claude.ai	X	X	순차 실행, 인라인 피드백

이 스킬이 의미하는 것

Skill Creator는 단순한 도구가 아니라 AI 에이전트의 자기 개선 루프를 보여주는 사례다.

재현 가능한 워크플로우: 한 번 잘 만든 스킬은 수백만 번 재사용된다
데이터 기반 개선: 정량 벤치마크 + 정성 피드백의 조합
프로그래밍 민주화: Anthropic은 명시적으로 "배관공이 터미널을 열고, 부모 세대가 npm 설치법을 검색하는 시대"를 언급하며, 비개발자도 스킬을 만들 수 있도록 설계했다

CLAUDE.md가 프로젝트에 규칙을 알려주는 파일이라면, SKILL.md는 Claude에게 새로운 능력을 가르치는 파일이다. 그리고 이제 그 능력을 가르치는 일조차 AI가 도와준다.

저작자표시 (새창열림)

'AI' 카테고리의 다른 글

AI 코딩 에이전트의 기억력: memory.md 패턴 (0)	2026.03.26
MCP(Model Context Protocol)란? (0)	2025.08.20
Llama index Agents (1)	2025.05.28
RAG를 활용한 챗봇 개발 - RAG(Retrieval Augmented Generation) (0)	2025.05.27
RAG를 활용한 챗봇 개발 - Agentic Prompt (1)	2025.05.26

개요