AI에 UI를 맡기면 왜 전부 같은 화면이 나올까——DESIGN.md와 Google Stitch로 결과 편차 줄이기

DESIGN.md와 Google Stitch를 조합하면 AI가 생성하는 화면의 편차를 크게 줄일 수 있습니다. “더 좋은 생성 툴로 바꾸면 결과도 좋아질 거야”——그렇게 생각해서 여러 번 툴을 갈아탄 경험이 있지 않나요? 결과의 흔들림을 줄이는 건 툴 성능보다, 에이전트가 반복해서 읽을 수 있는 설계 계약과 검수 루프입니다. 이 글에서는 AI가 만든 화면이 왜 비슷해지는지 정리하고, DESIGN.md라는 설계 계약 파일과 … Read more

SWE-bench 점수의 올바른 읽기법——’몇 점 나왔나’보다 먼저 확인해야 할 7가지 축

SWE-bench 점수의 올바른 읽기법 아이캐치

SWE-bench 점수는 코딩 AI의 수능 점수가 아니다. “특정 문제 세트 + 특정 테스트 설계 + 특정 실행 환경 + 특정 scaffold” 조건에서의 해결률이다. 이 글에서는 그 조건을 읽는 7가지 축을 정리한다. 새로운 코딩 AI가 등장할 때마다 “SWE-bench에서 ○○% 달성”이라는 헤드라인이 쏟아진다. 그런데 그 숫자 하나로 “이 AI가 코딩을 잘한다”고 판단하는 건, 시험 종류도 채점 방식도 … Read more

AI 위키 만드는 법——리서치를 반복할수록 판단이 흐려지는 메모장을 ‘AI가 읽는 운영체제’로 바꾼 7단계

AI 위키 만드는 법 아이캐치

AI 위키 만드는 법을 검색하는 사람의 대부분은 같은 벽에 부딪힌다. AI에게 조사를 시킬 때마다 성과가 리셋되고, 이전과 비슷한 검색을 반복하며, 판단 기준이 어디에도 남지 않는다. 요리에 비유하면, 매번 레시피를 검색하지만 지난번 잘됐던 불 조절 메모가 어디에도 없는 상태다. 조미료는 계속 늘어나는데 맛이 안정되지 않는다. 이 글에서는 그 메모장 수준의 AI 위키를 ‘AI가 반복해서 읽는 운영 … Read more

OpenAI Codex use cases를 읽어도 팀 도입이 안 되는 이유——AGENTS.md부터 시작하는 3단계

OpenAI Codex use cases 팀 도입 AGENTS.md와 검증 루프로 시작하는 실무 가이드 아이캐치

OpenAI Codex use cases 팀 도입을 고려하고 있다면, 공식 카탈로그를 그대로 따라 하기 전에 알아야 할 것이 있다. use cases를 읽어도 “우리 팀에서는 어떻게 써야 하지?”에서 막히는 건 카탈로그의 구조 때문이다. 이 글에서는 Codex 공식 use cases를 그대로 따라 하는 게 아니라, 팀 업무로 번역하는 방법을 정리한다. 포인트는 3가지다. 작업 단위 정리, 저장소 규칙(AGENTS.md) 정비, … Read more

Feynman AI 리서치 에이전트논문 검증부터 실험 재현까지

Feynman AI 리서치 에이전트를 알고 있는가? ChatGPT의 ‘Deep Research’나 Perplexity를 써서 조사하는 사람은 많다. 그런데 나온 답변의 인용 출처를 하나하나 열어서 확인해 본 적이 있다면, 이런 생각을 한 적이 있을 것이다. “이 인용, 진짜 맞는 거야?” Feynman AI 리서치 에이전트는 그 의문 자체를 자동화하는 오픈소스 AI 리서치 도구다. 논문을 읽고, 웹을 검색하고, 초안을 쓰고, 실험을 … Read more

같은 AI인데 성능이 6배 차이 난다 — 하네스가 뭔지 이제 제대로 이해해보자

같은 AI 모델을 써도, 그 주변 시스템을 어떻게 설계하느냐에 따라 성능이 최대 6배 달라진다. 그 시스템을 하네스(harness)라고 부른다. 2026년 3월 30일 Stanford·MIT·UW-Madison 연구팀이 발표한 논문(arXiv: 2603.28052)은 이를 수치로 증명했다. 이런 경험 있지 않나 AI 도구를 열심히 쓰는 동료가 있다. 나도 똑같은 Claude를 쓰는데 결과물이 다르다. 사용법 차이인가? 프롬프트를 더 잘 쓰는 건가? 어느 정도는 그렇다. … Read more

AI 에이전트 로그 기록 방법Simon Willison식 5단계 실전 가이드

AI 에이전트 로그 기록 방법【2026년 최신】Simon Willison식 5단계 완전 가이드 AI 에이전트 로그 기록 방법이란, AI에 작업을 맡긴 후 「무엇을 지시했는지」「AI가 어떻게 움직였는지」「어떤 툴을 사용했는지」를 추적할 수 있도록, 프롬프트·응답·툴 사용·실행자·사용 모델의 5요소를 구조화해서 보존하는 워크플로우다. 2026년 4월, Simon Willison이 공개한 LLM 툴 릴리즈를 보면, 그가 이 워크플로우를 「채팅하고 끝」이 아니라 「SQLite에 기록하고 Datasette로 다시 볼 … Read more

하네스 엔지니어링AI 에이전트 개발의 새로운 상식

하네스 엔지니어링 완전 가이드 아이캐치 이미지

하네스 엔지니어링이란 AI 코딩 에이전트의 성능을 극대화하는 환경 설계 기술 체계. 명명자 Hashimoto의 정의부터 OpenAI·Anthropic·LangChain 실전 사례, Claude Code·Cursor·Devin 구현 비교까지 40+ 소스로 철저 해설.

LeanstralMistral AI의 형식 검증 에이전트로 바이브코딩 버그를 수학적으로 제거

2026년 3월 16일, Mistral AI가 “Leanstral”을 공개했다. Lean 4용 형식 검증 AI 에이전트로 오픈소스(Apache 2.0). AI가 생성한 코드의 정확성을 “수학적으로 증명”한다. 119B 파라미터(액티브 6.5B)의 Mixture-of-Experts 모델로, Claude Sonnet을 2.6포인트 앞서면서 비용은 93% 저렴하다. Hacker News에서 775포인트·188코멘트의 반향을 일으켰다. 이 글에서는 기술 사양·벤치마크·도입 방법·바이브코딩과의 관계를 전부 다룬다. Leanstral이란 무엇인가 Leanstral은 코드를 생성하는 것에 그치지 않고, 그 … Read more

JAKO