추론 (인퍼런스)
학습된 모델이 실제 입력을 받아 결과를 내는 단계. 산업에서는 1회당 비용이 곧 수익 구조가 된다.
1줄 정의
학습된 모델이 실제 입력을 받아 결과를 내는 단계. 산업에서는 1회당 비용이 곧 수익 구조가 된다.
전체 시스템에서 맡는 역할
AI 모델에는 크게 2개의 시기가 있다. 학습 (training) 과 추론 (inference) 이다.
학습은 방대한 데이터를 몇 주에 걸쳐 흘려 넣어 모델 가중치를 정하는 공정. 한 번만 돌리고 끝난다 (다음 세대에서 다시 학습된다). 추론은 그렇게 만들어진 모델에 사용자의 실제 입력을 흘려 넣고 답을 1개 돌려주는 공정. 이쪽은 제품이 돌아가는 내내 계속 반복된다.
전체 그림에서 추론의 자리를 역할 기준으로 말하면 이렇다.
- 학습은 “공장을 세우는” 공정 — 큰 고정비, 빈도는 낮음
- 추론은 “공장을 돌리는” 공정 — 1회당 비용, 빈도는 사실상 무한
ChatGPT 로 1번 질문할 때, Claude 로 코드를 1번 생성시킬 때, 거기서 돌아가는 게 추론이다. LLM 을 제품으로 팔 때 이익률을 결정하는 건 “1회당 얼마에 추론할 수 있는가” 이지, 학습에 얼마가 들었느냐는 이미 끝난 고정비일 뿐이다.
이 지점이 산업 측의 급소다.
- 추론 단가가 2배 내려가면 같은 요금제에서 마진이 2배 나온다
- 추론 단가가 2배 올라가면 에이전트처럼 “1 태스크에 추론을 20번 호출” 하는 제품은 적자가 된다
- GPT-3.5 급 추론 단가는 2022년 말부터 2024년 10월까지 280배 이상 떨어졌다. 이 하락이 그 사이 나온 AI 제품 거의 전부의 전제가 됐다
그래서 AI 산업을 AI 산업 스택으로 볼 때 추론층은 한가운데에 온다. 연구개발층 (1층) 에서 똑똑해지고 인프라층 (2층) 에서 돌릴 수 있게 돼도, 추론 단가가 안 내려가면 배포층 (4층) 에서 적자가 난다.
흔한 오해
추론이라는 말은 기술 기사와 산업 기사에서 무게가 달라, 오해를 낳기 쉽다.
- 오해 1: 추론 비용은 어차피 0 에 수렴할 거다, 로 낙관되기 쉽다.
– 실제로 단가는 분명히 계속 떨어지지만, 동시에 1 리퀘스트당 추론 호출 횟수가 폭발적으로 늘어났다. 에이전트형 제품은 1 태스크에 추론을 10~50번 호출한다. reasoning 모델은 내부에서 긴 사고를 돌리므로, 1회 응답에 들어가는 추론량이 크다. 결과적으로 프로바이더 쪽 총 추론 비용은 안 내려간다. 단가 × 횟수를 같이 봐야 “0 에 수렴” 이라는 독해가 어긋난다.
- 오해 2: 추론은 학습보다 간단하다, 로 여겨지기 쉽다.
– 실제로 학습은 “한 번 성공하면 되는” 공정. 추론은 “매초 수만 번, 낮은 latency 로, 안정적으로 성공을 계속하는” 공정이다. 어려움의 종류가 다르다. 추론 쪽에는 KV 캐시 최적화, 배칭, 양자화, speculative decoding, 라우팅, fallback 설계 같은 고유의 기술 스택이 통째로 있다.
- 오해 3: 추론과 학습의 에너지 소비는 비슷하다, 로 취급되기 쉽다.
– 실제로 1회씩 비교하면 추론 쪽이 훨씬 가볍다. 하지만 빈도가 자릿수 단위로 많아서 데이터센터의 상시 전력 부하는 추론이 주연이 되고 있다. IEA 의 AI 와 전력 정리에서도 학습의 피크 부하보다 추론의 베이스 부하가 데이터센터 설계를 끌고 가는 쪽으로 움직이고 있다. 즉 전력 인프라 설계 사상을 정하는 건 학습이 아니라 추론 쪽이다.
이 용어가 중요한 이유
추론을 “학습의 반대편” 이 아니라 “산업의 수익 구조 자체” 로 볼 수 있게 되면, 독자의 판단 3가지가 바뀐다.
1. AI 제품 가격 뉴스를 읽는 속도가 바뀐다. API 단가 인하, 모델의 “mini”, “flash”, “haiku” 버전 투입은 모델 회사의 자선이 아니라, 추론 단가를 낮춰서 마진을 지키는 움직임으로 읽힌다.
2. 에이전트나 도구를 만질 때의 감각이 바뀐다. “1 태스크에 내부적으로 몇 번 추론이 호출되는지” 를 의식하게 되고, 왜 일부 에이전트가 느리고 비싼지 이해된다.
3. 데이터센터와 전력 뉴스가 연결된다. 추론의 베이스 부하라는 관점을 통해 AI 와 데이터센터와 전력이 같은 1 개 문제라는 게 보인다.
Claude Code 나 Codex 같은 도구를 일상적으로 쓰는 독자에게 추론이라는 용어는 “내 클릭이 물리 세계에서 얼마만큼의 전력과 비용을 움직이고 있는가” 를 언어화하는 입구가 된다. 이게 실무 가치다.
이 용어가 나오는 기사
- AI 산업은 왜 모델 랭킹표만으로는 읽을 수 없는가 (※ 발행 후 실제 URL 로 교체)
- AI 를 움직이는 건 GPU 가 아니라 전력이었다 (※ 발행 후 실제 URL 로 교체)