SWE-bench 점수의 올바른 읽기법——’몇 점 나왔나’보다 먼저 확인해야 할 7가지 축

SWE-bench 점수의 올바른 읽기법 아이캐치

SWE-bench 점수는 코딩 AI의 수능 점수가 아니다. “특정 문제 세트 + 특정 테스트 설계 + 특정 실행 환경 + 특정 scaffold” 조건에서의 해결률이다. 이 글에서는 그 조건을 읽는 7가지 축을 정리한다. 새로운 코딩 AI가 등장할 때마다 “SWE-bench에서 ○○% 달성”이라는 헤드라인이 쏟아진다. 그런데 그 숫자 하나로 “이 AI가 코딩을 잘한다”고 판단하는 건, 시험 종류도 채점 방식도 … Read more

AI 위키 만드는 법——리서치를 반복할수록 판단이 흐려지는 메모장을 ‘AI가 읽는 운영체제’로 바꾼 7단계

AI 위키 만드는 법 아이캐치

AI 위키 만드는 법을 검색하는 사람의 대부분은 같은 벽에 부딪힌다. AI에게 조사를 시킬 때마다 성과가 리셋되고, 이전과 비슷한 검색을 반복하며, 판단 기준이 어디에도 남지 않는다. 요리에 비유하면, 매번 레시피를 검색하지만 지난번 잘됐던 불 조절 메모가 어디에도 없는 상태다. 조미료는 계속 늘어나는데 맛이 안정되지 않는다. 이 글에서는 그 메모장 수준의 AI 위키를 ‘AI가 반복해서 읽는 운영 … Read more

OpenAI Codex use cases를 읽어도 팀 도입이 안 되는 이유——AGENTS.md부터 시작하는 3단계

OpenAI Codex use cases 팀 도입 AGENTS.md와 검증 루프로 시작하는 실무 가이드 아이캐치

OpenAI Codex use cases 팀 도입을 고려하고 있다면, 공식 카탈로그를 그대로 따라 하기 전에 알아야 할 것이 있다. use cases를 읽어도 “우리 팀에서는 어떻게 써야 하지?”에서 막히는 건 카탈로그의 구조 때문이다. 이 글에서는 공식 use cases를 그대로 따라 하는 게 아니라, 팀 업무로 번역하는 방법을 정리한다. 포인트는 3가지다. 작업 단위 정리, 저장소 규칙(AGENTS.md) 정비, 검증 … Read more

Claude Code에 이렇게 시키면 됩니다 — 복붙 가능한 자동화 프롬프트 10선

“Claude Code”라는 이름 때문에 Lovable 같은 바이브코딩 툴이라 생각할 수 있다. 아니다. Claude Code는 에이전트 툴이다. 웹페이지를 만드는 기술이 아니라 AI 직원을 만드는 기술이다. 아래 프롬프트를 복사해서 터미널에 붙여넣으면, 진짜로 실행된다. Table of Contents Toggle 시작하기 전에 1. 블로그 → Threads 자동 크로스포스팅 2. 경쟁사 블로그 모니터링 → Slack 알림 3. X(Twitter) 트렌드 수집 → … Read more

같은 AI인데 성능이 6배 차이 난다 — 하네스가 뭔지 이제 제대로 이해해보자

같은 AI 모델을 써도, 그 주변 시스템을 어떻게 설계하느냐에 따라 성능이 최대 6배 달라진다. 그 시스템을 (harness)라고 부른다. 2026년 3월 30일 Stanford·MIT·UW-Madison 연구팀이 발표한 논문(arXiv: 2603.28052)은 이를 수치로 증명했다. Table of Contents Toggle 이런 경험 있지 않나 하네스(harness)란 무엇인가 같은 모델로 6배 차이가 실제로 났다 실험 1: 텍스트 분류 (GPT-OSS-120B 모델 사용) 실험 2: IMO … Read more

AI 에이전트 로그 기록 방법Simon Willison식 5단계 실전 가이드

Table of Contents Toggle AI 에이전트 로그 기록 방법【2026년 최신】Simon Willison식 5단계 완전 가이드 AI 에이전트 로그 기록 방법——지금 왜 필요한가 AI 에이전트 로그 기록 방법——기록해야 할 5가지 요소 1. 프롬프트——지시의 기록 2. 응답——AI의 판단 기록 3. 툴 사용——중간 행동의 기록 4. 실행자(actor)——책임의 기록 5. 사용 모델——비용·품질의 기록 Simon Willison이 2026년 4월에 구현한 로그 시스템 … Read more

하네스 엔지니어링AI 에이전트 개발의 새로운 상식

하네스 엔지니어링 완전 가이드 아이캐치 이미지

하네스 엔지니어링이란 AI 코딩 에이전트의 성능을 극대화하는 환경 설계 기술 체계. 명명자 Hashimoto의 정의부터 OpenAI·Anthropic·LangChain 실전 사례, Claude Code·Cursor·Devin 구현 비교까지 40+ 소스로 철저 해설.

Claude Code만으로 픽셀 오피스를 만든 전과정【바이브코딩 실전】

pixel-office

게임 개발이 이렇게 쉬울 줄 몰랐다. Claude Code에 “회사 만들어줘”라고 했더니, 폴더가 방이 되고, 파일을 저장할 때마다 도트 캐릭터 직원들이 돌아다니는 오피스 시뮬레이션이 완성됐다. 개발 기간 3일. 작성한 코드 0줄. 전부 Claude Code와의 대화만으로 완성했다. 이 글에서는 가상 조직 플러그인 구축부터 Pixel Office 완성까지 전 공정을 시간 순서로 해설한다. 완성된 것 — Claude Code만으로 만든 … Read more

JAKO