AI·ML·딥러닝·LLM이 자꾸 헷갈리는 분께

📍 AI 공부 지도 — 3/29편

이 글은 AI의 기초부터 Meta-Harness·응용 비교까지 순서대로 읽는 29편 시리즈의 3편입니다.
📚 전체 지도 보기

← 이전 편: 에세이 — 어떤 순서로 배울까 · 다음 편: F1. LLM이 뭔지 →

Table of Contents

0. 시리즈 안내 — “AI 공부 지도” 라는 긴 여행의 첫 발자국

이 글은 오늘부터 시작하는 20편짜리 시리즈 “AI 공부 지도” 의 0편 입니다. 0편이라고 이름 붙인 이유는, 본격적인 얘기를 시작하기 전에 지도 위에 있는 지명부터 외우고 가자 는 뜻이에요. 산을 오르기 전에 등산로 입구에 붙어 있는 안내판 같은 거죠.

시리즈 전체는 이렇게 짜여 있어요. F 구간은 기초 용어와 개념 (F0~F4), P 구간은 LLM 내부 구조 (P1~P5), M 구간은 실무에서 부딪히는 장치들 (M1~M6), H 구간은 Harness·Agent 계통 (H1~H4) 으로 이어집니다. 이번 F0 는 그중에서도 가장 바깥쪽 지도예요. “AI, ML, 딥러닝, 신경망, Transformer, LLM 이 이런 관계구나” 를 한 장 그림으로 머리에 넣는 게 목표입니다.

저도 처음 이 분야에 발을 들였을 때 가장 답답했던 게 이거였어요. 뉴스에서 “AI 스타트업” 이라는데 어떤 기사에서는 그게 머신러닝 얘기고, 어떤 기사에서는 딥러닝 얘기고, 또 어떤 기사에서는 ChatGPT 같은 LLM 얘기잖아요. 다 같은 걸 부르는 건지, 다른 걸 부르는 건지 감이 잘 안 왔어요. 이 글은 그때의 저에게 보여주고 싶은 글입니다.

앞으로 19편을 따라오시려면 이 0편만 제대로 잡혀 있으면 됩니다. 어려운 얘기는 없어요. 수식도 안 나와요. 비유 한 개만 머리에 그려두면 돼요.

1. 왜 이 용어들이 자꾸 헷갈리는가

혹시 이런 경험 있으신가요. 뉴스 한 줄에 AI 가 나오고, 다음 줄에 머신러닝이 나오고, 또 그다음 줄에 딥러닝이 나오는데, 기자가 세 단어를 마치 동의어처럼 바꿔 쓰는 경우요. 저는 정말 많이 봤어요. 사실 기자 분들만의 문제가 아니라 엔지니어들끼리도 일상 대화에서는 뒤섞어 쓰는 단어들이에요.

왜 그러냐. 이 용어들이 서로 다른 시대에 태어났기 때문이에요. AI 는 1956년에, 머신러닝은 1959년쯤에, 딥러닝은 2006년쯤에, LLM 은 2018년 이후에 각자 다른 맥락에서 생겼어요. 시대가 지나면서 의미가 조금씩 겹치고 좁아지고 넓어졌고요. 그래서 같은 단어인데도 말하는 사람에 따라 가리키는 게 달라요.

그리고 하나 더. 이 단어들은 크기가 다른 동심원 이에요. AI 라는 큰 원 안에 머신러닝이라는 작은 원이 있고, 그 안에 또 딥러닝이라는 더 작은 원이 있어요. 그런데 사람들이 이 포함 관계를 모르고 그냥 나란히 늘어놓고 말하니까, 읽는 쪽에서는 “그럼 머신러닝이랑 AI 는 서로 다른 두 가지 기술인가?” 라는 오해가 생기는 거예요.

이 글의 목적은 그 동심원을 머릿속에 그려드리는 거예요. 한 번만 그려두시면 앞으로 AI 관련 뉴스를 읽을 때 어느 구간 얘기를 하고 있는지 가 바로 보입니다.

2. 가장 큰 원: AI (Artificial Intelligence)

가장 바깥쪽 원이 AI 예요. 우리말로는 “인공지능” 이고요.

AI 라는 말은 1956년 여름, 미국 다트머스 대학에서 열린 한 워크숍에서 처음 공식적으로 쓰였어요. 존 매카시라는 수학자가 “사람이 하는 지적인 일을 기계가 흉내 내게 만들어보자” 는 아이디어로 다른 연구자들을 모아서 연 학회였는데, 여기서 Artificial Intelligence 라는 이름이 붙었습니다. 그래서 이 회의를 보통 “AI 의 공식 출생일” 이라고 불러요.

그럼 AI 가 뭐냐. 저는 이 한 문장으로 정리합니다.

사람이 하던 지적 작업을 기계가 흉내 내게 하는 모든 방식.

이 정의가 굉장히 넓다는 점이 중요해요. 학습이든 아니든 상관없어요. 사람이 규칙을 다 써 주든, 기계가 스스로 규칙을 찾아내든, 어느 쪽이든 “사람이 하던 일을 기계가 한다” 면 다 AI 예요.

구체적인 예를 들면 이런 것들이 다 AI 입니다.

1950년대에 만들어진 체스 프로그램. 사람이 모든 수를 손으로 코딩했는데도 AI 였어요.
미로에서 길을 찾는 단순한 알고리즘. 초등학교 교과서에 나오는 그 탐색 알고리즘도 넓은 의미로는 AI 예요.
1980년대에 유행했던 “전문가 시스템”. 의사가 쓰던 진단 규칙을 IF-THEN 규칙 수천 개로 옮겨놓은 거였죠.
음성 인식. 집에 있는 스마트 스피커가 “시리야” 를 알아듣는 거.
ChatGPT·Claude·Gemini 같은 지금의 챗봇.

하나씩 보시면 기술 방식이 다 다르죠. 손으로 규칙 짠 것도 있고, 통계로 돌리는 것도 있고, 신경망 쓰는 것도 있고요. 그런데 전부 “사람이 하던 지적 작업을 기계가 한다” 는 점에서는 같아서, 전부 AI 라는 큰 원 안에 들어갑니다.

그래서 “AI 스타트업” 이라는 말은 엄밀히 말하면 거의 아무 말도 안 하는 거 예요. 너무 범위가 넓어요. 진짜 궁금한 건 “그중에 뭐 하는 회사냐” 거든요.

3. 그 안의 작은 원: ML (Machine Learning)

AI 라는 큰 원 안에 한 단계 작은 원이 있어요. 그게 머신러닝 (Machine Learning, ML) 입니다.

머신러닝을 한 문장으로 잡으면 이래요.

규칙을 사람이 직접 써 주는 게 아니라, 데이터를 보여주면 기계가 스스로 규칙을 찾게 하는 방식.

예전 전문가 시스템은 사람이 규칙을 수천 개 써서 기계에 집어넣었잖아요. 이게 일정 선을 넘으면 유지가 안 돼요. 의사가 “이 증상이면 이 병” 이라는 규칙을 2만 개 넘게 쓰기 시작하면 서로 충돌하고, 빠뜨린 경우가 생기고, 엔지니어가 매번 고쳐야 하거든요.

머신러닝은 이 순서를 뒤집습니다. 사람은 규칙 대신 데이터와 답 을 줘요. “이 사진은 고양이, 이 사진은 강아지, 이 사진은 고양이…” 이런 식으로 수만 개를 보여주면, 기계가 안에서 “아, 고양이라는 건 이런 특징이 있구나” 라는 판단 기준을 스스로 잡아요. 그 잡아낸 기준을 “모델” 이라고 부릅니다.

이메일 스팸 분류가 교과서적인 예시예요. 예전에는 “제목에 ‘무료’ 가 들어가면 스팸” 같은 규칙을 사람이 썼어요. 그런데 스팸을 보내는 쪽도 머리가 있어서 자꾸 표현을 바꿔요. “무 료”, “F*REE”, “ㅁㅜ료” 이런 식으로요. 규칙을 사람이 쫓아다니며 업데이트하는 게 불가능해지죠.

머신러닝은 스팸 수만 통과 정상 메일 수만 통을 보여주면서 “이게 스팸이다, 이게 아니다” 를 알려줘요. 그러면 모델이 수백 개의 미세한 단서 (발신자 패턴, 본문 단어 분포, 링크 개수, 시간대 등등) 를 숫자로 가중치를 매겨서 스스로 판단 기준을 만들어요. 이 모델은 새 스팸이 나와도 어느 정도 알아서 적응하고요.

머신러닝도 AI 예요. 다만 “규칙을 기계가 스스로 데이터에서 찾는다” 는 특정한 방법론 이에요. AI 라는 큰 산 안에 있는 한 구역인 셈이죠. 체스 프로그램이나 옛날 전문가 시스템은 AI 지만 머신러닝은 아니에요. 사람이 규칙을 직접 썼으니까요.

여기서 중요한 감각이 하나 생겨요. 모든 AI 가 머신러닝은 아니다. 그리고 모든 머신러닝은 AI 다. 이 비대칭이 동심원의 포함 관계예요.

4. ML 안의 더 작은 원: Deep Learning (딥러닝)

머신러닝이라는 원 안에 더 작은 원이 있어요. 딥러닝 (Deep Learning) 입니다.

딥러닝은 머신러닝의 한 방법이에요. 머신러닝에는 여러 방법이 있어요. 의사결정 트리, 랜덤 포레스트, SVM (서포트 벡터 머신), 베이지안 분류기, 선형 회귀, 로지스틱 회귀… 이름은 안 외우셔도 됩니다. 요점은 “데이터에서 규칙을 찾는 방법이 수십 가지 있었다” 는 거예요. 딥러닝은 그중의 하나 일 뿐이에요. 다만 2012년 이후에 다른 방법들을 완전히 압도해서 지금은 거의 머신러닝의 대표 주자가 됐어요.

딥러닝의 정의는 이렇게 잡으시면 됩니다.

인공 신경망을 여러 층 깊게 쌓아서 학습시키는 방식.

“깊게 (deep)” 라는 말이 이름에 들어 있는 이유가 그거예요. 층이 두꺼워요. 옛날에는 신경망을 2~3층만 쌓아도 학습이 잘 안 됐어요. 컴퓨터 성능도 부족했고, 데이터도 부족했고, 학습 알고리즘도 덜 다듬어져 있었거든요. 그래서 딥러닝은 한동안 이론적으로는 멋진데 실용은 안 되는 아이디어로 남아 있었어요.

2012년에 상황이 바뀌었어요. ImageNet 이라는 이미지 인식 대회가 있는데, 그해에 AlexNet 이라는 딥러닝 모델이 압도적인 점수로 1등을 했어요. 기존 방법들 대비 오답률을 거의 절반으로 줄였거든요. 이 사건이 딥러닝 시대를 여는 신호탄이 됐습니다. 이후로 이미지 분류, 음성 인식, 번역, 게임 (AlphaGo), 그리고 지금의 LLM 까지 딥러닝이 밀고 들어가지 않은 분야가 거의 없어요.

왜 2012년에 갑자기 터졌냐. 세 가지가 동시에 맞춰졌어요. 첫째, GPU 라는 하드웨어가 저렴해졌어요. 원래 게임용이었는데, 신경망 학습에 필요한 행렬 계산을 엄청나게 빠르게 돌려주거든요. 둘째, 인터넷에 데이터가 넘쳤어요. 학습에 쓸 이미지·텍스트가 수백만 장씩 쌓여 있는 환경이 만들어졌습니다. 셋째, 학습 기술의 작은 개선들이 누적 됐어요. ReLU 활성화 함수, Dropout, Batch Normalization 같은 장치들이요.

이 세 가지가 맞아떨어져서 “이론적으로는 멋진데 돌리기 힘든” 이었던 딥러닝이 갑자기 “돌려봤더니 다른 기법을 다 이긴다” 로 바뀐 거예요.

그래서 지금은 뉴스에서 “AI 가 발전했다” 고 하면 거의 대부분 딥러닝 얘기예요. 특히 최근 몇 년은 딥러닝의 한 형태인 Transformer 얘기고요. 그 얘기는 조금 뒤에 할게요.

5. Deep Learning 안의 한 영역: Neural Network 기초

딥러닝을 얘기하려면 신경망 (Neural Network, NN) 을 짚고 가야 해요. 딥러닝 = 신경망을 여러 층 쌓은 거니까, 기본이 되는 “한 층” 이 뭔지부터 감을 잡아야 전체 그림이 들어와요.

신경망은 뇌의 뉴런에서 이름을 빌려왔어요. 실제 뇌 구조를 정확히 흉내 낸 건 아니에요. “여러 입력을 받아서, 가중치를 곱하고, 합치고, 출력한다” 는 아주 단순한 수학적 장치예요. 이름만 멋있지 원리는 초등학교 산수 수준이에요.

인공 뉴런 하나의 작동 방식

뉴런 하나가 하는 일은 이거 하나예요.

여러 숫자를 입력으로 받는다. (예: x1, x2, x3)
각 입력에 가중치 (weight) 를 곱한다. (예: w1·x1 + w2·x2 + w3·x3)
그 결과에 편향 (bias) 이라는 숫자를 더하고, 활성화 함수 를 한 번 통과시킨다.
최종 숫자 하나를 출력한다.

이게 전부예요. 이런 뉴런을 여러 개 나란히 놓으면 한 “층 (layer)” 이 되고, 층을 여러 개 쌓으면 신경망이 돼요. 층과 층 사이는 완전연결 (fully connected) 로 이어지는 경우가 기본이에요. 앞 층의 모든 뉴런이 뒷 층의 모든 뉴런에 연결된다는 뜻입니다.

가중치가 학습이다

여기서 “학습” 이라는 말의 정체가 드러나요. 신경망이 학습한다는 건 가중치 숫자들을 조금씩 조정하는 과정 을 말해요. 데이터를 집어넣고, 모델이 틀린 답을 냈으면 “조금 덜 틀리게” 가중치를 살짝 움직이고, 또 데이터를 집어넣고, 또 움직이고. 이걸 수십만 번, 수억 번 반복하면 가중치들이 데이터에 맞는 값으로 수렴해요. 이게 훈련 (training) 이에요.

요리로 비유하면 이래요. 국에 소금을 얼마나 넣을지, 설탕을 얼마나 넣을지, 고춧가루를 얼마나 넣을지가 가중치예요. 처음엔 아무렇게나 넣어요. 한 숟갈 먹어보고 “너무 짜네” 싶으면 소금 가중치를 낮추고, “좀 밍밍하네” 싶으면 설탕을 올리고요. 이걸 수없이 반복하면 어느 순간 간이 맞는 조합에 수렴해요. 신경망 학습이 이 과정의 수학 버전이에요.

왜 “깊어야” 좋은가

층 하나짜리 신경망으로는 간단한 문제밖에 못 풀어요. 직선으로 나뉘는 문제만 풀 수 있어요. 그런데 층을 여러 개 쌓으면 복잡한 경계 도 표현할 수 있어요. 수학적으로 증명돼 있는 내용이에요.

직관적으로 설명하면, 첫 번째 층은 입력의 아주 단순한 특징 을 찾아요. 이미지 인식에서는 “가로선”, “세로선”, “경사진 선” 같은 것. 두 번째 층은 첫 층의 결과를 조합해서 더 복잡한 특징 을 찾아요. “모서리”, “곡선” 같은 것. 세 번째 층은 “눈”, “귀”, “코” 수준을 잡고, 네 번째 층에서는 “고양이 얼굴” 수준이 되고요. 층이 깊어질수록 추상화 수준이 올라가요.

이 “층별 추상화” 가 딥러닝의 힘이에요. 그래서 “깊게 (deep)” 라는 단어가 들어가는 거예요. 이건 기계가 복잡한 개념을 이해하는 방식에 근본적으로 맞는 구조예요.

6. Neural Network의 한 형태: Transformer

신경망에는 종류가 여러 가지예요. 이미지에 특화된 CNN (합성곱 신경망), 순서 있는 데이터에 특화된 RNN·LSTM, 그리고 2017년에 나온 Transformer. 이 중 Transformer 가 지금 LLM 시대의 뼈대예요.

Transformer 가 어떻게 생겼고 왜 강력한지는 이 시리즈의 P4 (앞서 공개한 Attention Is All You Need 해설) 에서 깊게 파헤쳤어요. 여기서는 Transformer 가 신경망의 한 종류 라는 지도 위치만 잡고 갑니다.

요점은 이거예요. Transformer 는 “attention” 이라는 장치를 핵심 부품으로 쓰는 특별한 신경망 이에요. 2017년에 구글 브레인 팀이 번역 모델로 제안했고, 이후 8년 동안 언어 처리뿐 아니라 이미지·음성·영상까지 거의 모든 딥러닝 분야로 퍼졌어요. 지금 쓰시는 ChatGPT, Claude, Gemini 모두 이 Transformer 구조를 밑에 깔고 있어요.

Transformer 는 신경망의 한 종류 고, 신경망은 딥러닝의 도구 고, 딥러닝은 머신러닝의 한 방법 이고, 머신러닝은 AI 의 한 갈래 다. 이 네 단계가 동심원 안쪽으로 들어오는 순서예요.

7. Transformer를 초대형으로 만든 게: LLM

Transformer 를 아주 크게 만들면 어떻게 될까. 2018년 이후 연구자들이 이 실험을 계속했어요. 층을 늘리고, 데이터를 늘리고, 매개변수 (parameter, 가중치의 총 개수) 를 늘렸어요. 그랬더니 놀라운 일이 벌어졌어요. 일정 크기를 넘기면 모델이 이전에 못 하던 일을 하기 시작 했어요. 사람처럼 글을 쓰고, 질문에 대답하고, 번역하고, 요약하고, 코드도 짜고요.

이 초대형 Transformer 가 바로 LLM (Large Language Model, 대규모 언어 모델) 이에요.

“Large” 라는 말이 얼마나 크냐면, 요즘 상용 LLM 은 매개변수가 수천억 개예요. 신경망 하나가 “가중치 숫자 수천억 개를 들고 있다” 는 뜻이에요. 학습에 쓰이는 데이터도 인터넷 거의 전체예요. 수조 개의 단어를 읽으면서 가중치를 조정한 결과물이 지금 우리가 쓰는 챗봇이에요.

대표적인 LLM 들을 정리하면 이래요.

OpenAI 의 GPT 시리즈 — GPT-3.5, GPT-4, GPT-4o, GPT-5 계통. ChatGPT 가 이 가족이에요.
Anthropic 의 Claude 시리즈 — Claude 3, 3.5, Claude 4, Claude Opus 계통. 이 블로그를 쓰고 있는 제가 쓰는 도구기도 하고요.
Google 의 Gemini 시리즈 — Gemini 1.5, 2.0, 2.5 계통. 구글 검색·Workspace 에 붙어 있어요.
Meta 의 Llama 시리즈 — 오픈소스 LLM 의 대표 주자. 연구자·개발자 커뮤니티가 무료로 받아서 쓸 수 있어요.
중국·한국·일본의 자체 LLM — DeepSeek, Qwen, HyperCLOVA X, Kanana, PLaMo 같은 것들이 계속 나오고 있어요.

여기까지 정리하면, LLM 은 “Transformer 구조를 채택한 초대형 신경망으로, 언어 데이터로 학습한 것” 이에요. 하나하나가 다 큰 단어 조합이죠. 지도 위에서 가장 안쪽 원이 LLM 이에요.

8. 그래서 이들 관계를 한 그림으로 — 러시아 인형 비유

자, 지금까지 나온 여섯 단어 (AI, ML, DL, NN, Transformer, LLM) 의 관계를 한 장 그림 으로 잡아볼게요.

저는 러시아 인형 (마트료시카) 비유를 씁니다. 큰 인형을 열면 안에 작은 인형이 있고, 그걸 열면 더 작은 인형이 나오고, 또 열면… 하는 그 인형이요. 여섯 개 용어가 정확히 이 구조예요.

FIG. AI 용어의 러시아 인형 구조

AI · 인공지능 전체

체스·전문가 시스템·음성인식·챗봇 다 포함

ML · 머신러닝

데이터로부터 규칙을 찾는 방식

DL · 딥러닝

신경망을 여러 층 쌓은 ML

Neural Network · 신경망

한 층 또는 여러 층

Transformer

NN의 한 종류

LLM
(초대형 언어모델)

바깥부터 안쪽으로 좁아지는 포함 관계 — 안쪽일수록 좁고 구체

이게 전부예요. 이 그림 하나만 머리에 있으면 앞으로 어떤 기사를 읽으시든 “이 용어는 어느 원에 있는 얘긴가” 를 빠르게 짚으실 수 있어요.

크기 순서를 다시 한 번 정리하면:

AI ⊃ ML ⊃ DL ⊃ NN ⊃ Transformer ⊃ LLM

⊃ 기호는 “포함한다” 는 뜻입니다. AI 는 ML 을 포함하고, ML 은 DL 을 포함하고, DL 은 NN 을 포함하고… 이렇게 계속 안쪽으로 좁아져요. 반대로 읽으면, 모든 LLM 은 Transformer 이고, 모든 Transformer 는 신경망이고, 모든 신경망 기반 학습은 딥러닝이고, 모든 딥러닝은 머신러닝이고, 모든 머신러닝은 AI 예요.

9. 자주 헷갈리는 미세 구분

러시아 인형 구조를 잡고 나면 이제 세부적으로 자주 섞이는 짝 들만 따로 짚어볼게요. 실무나 뉴스에서 자주 헷갈리는 네 쌍이 있어요.

9-1. “AI” 와 “Generative AI” 차이

요즘 뉴스에서 가장 많이 나오는 단어가 Generative AI (생성형 AI) 예요. 이 단어가 일반 AI 와 뭐가 다르냐면, 결과물을 새로 만들어낸다 는 점이에요.

예전 AI 는 분류·판단·예측 에 강했어요. “이 사진이 고양이냐 강아지냐”, “이 메일이 스팸이냐 아니냐”, “내일 주가가 오를까 내릴까” 같은 것. 입력을 보고 라벨을 붙이는 일이에요.

Generative AI 는 거꾸로예요. 새로운 걸 만들어내요. 글, 그림, 음악, 영상, 코드를 생성해요. ChatGPT 가 답변을 쓰는 것, Midjourney 가 그림을 그리는 것, Suno 가 노래를 만드는 것, 전부 생성형 AI 예요.

그래서 “generative AI” 는 AI 의 부분 집합 이에요. 전체 AI 의 한 구역이지 AI 와 대립하는 개념이 아니에요. 뉴스에서 “AI 가 문제다 / generative AI 가 문제다” 처럼 나란히 놓는 경우가 있는데, 엄밀히 말하면 분류 층위가 달라요.

9-2. “ML” 과 “Deep Learning” 구분 — ML 전체가 DL 은 아니다

이 구분이 의외로 많이 틀려요. 머신러닝 = 딥러닝 이라고 생각하시는 분이 계세요. 그렇지 않아요.

머신러닝에는 딥러닝 말고도 의사결정 트리, 랜덤 포레스트, SVM, XGBoost, 로지스틱 회귀 같은 수많은 기법이 있어요. 이 중 어떤 건 지금도 실무에서 딥러닝보다 많이 쓰여요. 예를 들어 신용카드 사기 감지, 광고 클릭 예측, 보험료 계산 같은 영역은 XGBoost 같은 “트리 기반 알고리즘” 이 딥러닝보다 성능이 좋고 해석도 잘 돼요.

딥러닝이 강한 건 이미지·음성·언어 처럼 데이터가 복잡하고 추상적인 영역이에요. 표 형태의 숫자 데이터나, 데이터가 적은 경우에는 오히려 전통적인 ML 기법이 나아요.

그래서 실무에서 “AI 프로젝트 한다” 고 할 때도 딥러닝이 항상 답은 아니에요. 문제 성격 보고 골라야 해요. 이 구분이 중요한 이유는 뒤에서 “실무에서 왜 중요한가” 섹션에서 다시 다룰게요.

9-3. “NN” 과 “Transformer” 관계

신경망 (NN) 은 큰 범주예요. Transformer 는 그 범주 안의 한 종류 고요.

NN 에는 여러 종류가 있어요. Feed-Forward NN (기본형), CNN (Convolutional, 이미지 특화), RNN/LSTM (순서 데이터 특화), Transformer (현재 주류), GNN (Graph, 관계 데이터 특화). 이 중 어떤 형태를 쓰느냐가 데이터 성격에 따라 달라져요.

Transformer 가 튀어나오기 전까지는 이미지 쪽은 CNN, 언어 쪽은 RNN/LSTM 이 주류였어요. Transformer 는 원래 언어 번역용으로 나왔는데, 이게 너무 잘돼서 언어는 물론이고 이미지 (Vision Transformer), 음성, 영상까지 거의 모든 분야로 번졌어요. 그래도 Transformer 가 CNN·RNN 을 완전히 대체한 건 아니에요. 특정 영역에서는 여전히 CNN 이 주류고요.

요점은 NN 은 큰 그릇, Transformer 는 그 안의 한 레시피 라는 거예요.

9-4. “LLM” 과 “Foundation Model” 관계

최근에 나온 단어 중 Foundation Model (파운데이션 모델) 이라는 게 있어요. 스탠퍼드 대학에서 2021년에 제안한 개념이에요.

Foundation Model 은 “대규모 데이터로 사전학습해서, 다양한 후속 작업에 재활용할 수 있는 기반 모델” 이에요. LLM 도 여기 속하고, 이미지의 CLIP·DALL-E, 음성의 Whisper, 영상의 Sora 같은 것도 여기 속해요.

LLM 은 그중에서도 언어에 특화된 foundation model 이에요. LLM 은 foundation model 의 부분집합이고, foundation model 은 딥러닝의 부분집합이에요.

그래서 러시아 인형을 조금 더 정밀하게 그리면 이래요.

AI ⊃ ML ⊃ DL ⊃ Foundation Model ⊃ LLM
AI ⊃ ML ⊃ DL ⊃ NN ⊃ Transformer ⊃ LLM

두 경로가 LLM 에서 만나요. 요즘 대부분의 LLM 이 Transformer 기반이라서 이 두 경로가 사실상 같은 지점으로 수렴해요.

10. 실무에서 이 구분이 왜 중요한가

“용어 정리는 다 좋은데 이걸 알아서 뭐하냐” 싶으실 수 있어요. 그런데 실무에서 이 구분이 비용과 복잡도를 크게 바꾸는 결정 에 직결돼요. 몇 가지 장면을 보여드릴게요.

10-1. “회사에 AI 도입하자” 라는 말의 함정

한 회사가 “우리도 AI 도입해 보자” 라고 합니다. 이 문장 하나에 수십 가지 경로가 숨어 있어요. 선택지를 정리해 보면:

규칙 기반 자동화 — Excel 매크로, RPA (Robotic Process Automation) 같은 것. 엄밀히 말하면 이것도 “넓은 의미의 AI” 에 들어가요. 비용 싸고 빠르게 도입 가능. 대부분의 “단순 업무 자동화” 는 여기서 끝나요.
전통적 ML 모델 — XGBoost 같은 트리 기반으로 고객 이탈 예측, 매출 예측. 중간 규모 데이터로도 돌아가고, 설명력도 좋아요. 필요한 인력도 “데이터 사이언티스트 1~2명” 수준.
딥러닝 모델 자체 개발 — 자체 이미지 인식이나 자체 음성 인식. GPU 서버 필요하고, ML 엔지니어 팀 필요하고, 데이터 수만~수십만 장 필요.
LLM API 이용 — ChatGPT API, Claude API 써서 챗봇 만드는 것. 자체 학습 안 해도 되고, 프롬프트 짜고 RAG 붙이는 작업 위주.
LLM 자체 훈련 — Llama 같은 오픈소스를 사내 데이터로 추가 학습. GPU 수십~수백 장 필요. 보통 대기업 아니면 안 해요.

이 다섯 경로는 비용이 수백 배 차이 나요. 1번은 월 몇만 원 정도로 시작할 수 있고, 5번은 수억 원 단위로 들어가요.

“AI 도입” 이라는 말 뒤에 어떤 경로가 필요한지를 정확히 지목할 수 있으려면, 이 글의 러시아 인형이 머리에 있어야 해요. 안 그러면 “AI 한다 → 무조건 LLM → 수억 원 예산 필요” 같은 잘못된 연결이 생겨요. 실제로는 2번 정도로 충분한 경우가 아주 많거든요.

10-2. 엔지니어 채용과 팀 구성

“AI 엔지니어” 를 뽑는다고 할 때도 구분이 필요해요. ML 엔지니어 와 LLM/AI 엔지니어 는 하는 일이 달라요. 전자는 모델을 직접 학습시키는 사람, 후자는 기존 LLM 을 활용해서 제품을 만드는 사람이에요. 요구하는 기술 스택도, 연봉도, 커리어 경로도 달라요. 전자는 수학·통계·파이토치·GPU 튜닝 중심이고, 후자는 프롬프트·RAG·에이전트·API 통합 중심이에요.

회사가 “LLM 챗봇 만들 거니까 AI 엔지니어 뽑자” 라고 할 때, 실무에서 필요한 건 LLM 엔지니어예요. 그런데 잘못하면 ML 엔지니어를 뽑아서 “이 분은 LLM 제품 만들어본 적이 없네” 라는 미스매치가 생겨요. 용어 감각이 있으면 이런 실수가 줄어들어요.

10-3. 솔루션 구입 시 비교 기준

AI 솔루션을 사는 입장에서도 달라요. “이 제품이 딥러닝 기반입니다” 라는 말은 그 자체로는 아무 정보도 아니에요. 어떤 딥러닝인지, Transformer 인지 CNN 인지, 자체 모델인지 GPT API 래퍼인지, 훈련 데이터는 뭐였는지, 이런 걸 물어야 해요. 러시아 인형의 어느 구역 얘기인지 알면 질문이 나와요. 모르면 “딥러닝 쓰네요” 에서 대화가 끝나요.

11. 실수하기 쉬운 포인트 정리

지금까지 얘기한 걸 실수 관점에서 한 번 더 정리해볼게요. 이 다섯 가지만 피하시면 용어 때문에 민망해질 일은 거의 없어요.

실수 1. “AI 랑 머신러닝이 서로 다른 기술” 이라고 생각하는 것. 아니에요. 머신러닝은 AI 의 한 부분이에요. 포함 관계예요.

실수 2. “머신러닝 = 딥러닝” 이라고 생각하는 것. 딥러닝은 머신러닝의 한 방법일 뿐이에요. 트리 기반 기법 등 다른 ML 방법들도 여전히 현역이에요.

실수 3. “딥러닝 = LLM” 이라고 생각하는 것. LLM 은 딥러닝의 아주 특수한 한 형태예요. 이미지 인식 딥러닝, 음성 딥러닝, 추천 시스템 딥러닝 전부 LLM 은 아니에요.

실수 4. “Generative AI 가 AI 의 반대말” 이라고 쓰는 것. 생성형 AI 는 AI 의 부분 집합이에요. “분류형 AI vs 생성형 AI” 로 대비는 할 수 있어도, “AI vs Generative AI” 는 층위가 맞지 않아요.

실수 5. “모든 챗봇이 LLM” 이라고 생각하는 것. 예전의 규칙 기반 챗봇, 2015년대의 시나리오형 챗봇은 LLM 이 아니에요. “챗봇” 이라는 단어도 시대에 따라 기술 수준이 달라요. 2026년에 판매되는 챗봇 대부분이 LLM 기반이긴 하지만, 모두 그런 건 아니에요.

이 다섯 가지만 머리에 박혀 있으면 AI 뉴스를 보실 때 “이 사람이 층위를 섞어서 말하고 있다” 가 눈에 보이실 거예요. 한 번 보이기 시작하면 정보의 밀도가 확 달라져요.

닫는 한 문장

AI 는 “사람의 지적 작업을 기계가 흉내 내는 모든 것” 이라는 가장 큰 원이고, 그 안에 ML → DL → NN → Transformer → LLM 이라는 동심원이 차례로 들어 있다. 이 그림 하나만 머리에 있으면 앞으로 만날 20편의 얘기가 지도 위에서 움직인다.

🗺 지도 위 현재 위치

지금 편: F0. AI · ML · DL · LLM 용어 구분
▶ 다음 편: F1. LLM이 뭔지

📚 전체 20편 지도로 돌아가기 →

다음 읽기

F1 — LLM 이 뭔지 [준비 중]
F2 — Transformer 가 한 일 [준비 중]
P4 — Attention Is All You Need 해설 [공개 완료]

자주 묻는 질문 (FAQ)

Q1. AI, ML, 딥러닝, LLM 이 다 같은 뜻 아닌가요?

다 다릅니다. 동심원 관계예요. AI 는 가장 큰 원 (사람의 지적 작업을 기계가 흉내 내는 것 전체), 머신러닝은 그 안의 한 방법 (데이터로부터 스스로 규칙을 찾는 방식), 딥러닝은 머신러닝의 한 갈래 (신경망을 여러 층 쌓는 것), LLM 은 딥러닝의 아주 특수한 한 형태 (Transformer 기반 초대형 언어 모델) 예요. 크기가 다른 단어라서 뉴스에서 섞어 쓰면 의미가 이상해집니다. 이 글의 러시아 인형 그림을 한 번 머리에 그리시면 앞으로 헷갈리지 않으실 거예요.

Q2. 머신러닝을 쓰면 무조건 딥러닝인가요?

아니에요. 딥러닝은 머신러닝의 여러 방법 중 하나일 뿐이에요. 실무에서는 트리 기반 기법 (XGBoost, Random Forest) 이 딥러닝보다 많이 쓰이는 영역이 지금도 많아요. 특히 표 형태의 데이터나 데이터 규모가 작은 경우엔 전통적 ML 기법이 딥러닝보다 성능이 좋고 해석력도 높아요. “AI = 딥러닝 = LLM” 이라는 단순 등식은 실무 판단에서 큰 비용 실수로 이어질 수 있어요. 회사에서 AI 도입을 검토하신다면 문제 성격에 맞는 방법 을 먼저 따져봐야 합니다.

Q3. 이 시리즈를 꼭 순서대로 읽어야 하나요?

순서대로 읽으시는 걸 권합니다. 각 편이 앞선 편에서 쌓아둔 개념을 이어받는 구조거든요. 특히 F0 (이 글) → F1 (LLM) → F2 (Transformer) → P1~P5 (LLM 내부 구조) 는 한 흐름이라, 순서가 뒤집히면 후반부가 어려워져요. 시간이 많지 않으시면 F0~F4 (기초 용어) 는 꼭 순서대로, 그 이후 M·H 구간은 관심 있는 주제부터 골라 읽으셔도 됩니다. 전체 지도는 AI 공부 지도 엔트리 에서 확인하실 수 있어요.

뉴스레터 구독 안내

매주 월요일, AI·LLM·에이전트 관련 실무 정리를 한 통씩 보내드립니다. 이런 용어 지도·구조 해설을 차분히 쌓아가고 싶으시면 구독해 주세요. 광고는 없고, 제가 일주일 동안 직접 정리한 내용만 들어갑니다.

뉴스레터 구독하기

시리즈 안내 (AI 공부 지도 20편)

F0: AI · ML · DL · LLM 용어 구분 (현재 글)
F1: LLM 이 뭔지
F2: Transformer 가 한 일
F3: 신경망 학습이란 무엇인가
F4: 딥러닝이 2012년에 터진 이유
P1~P5: LLM 내부 구조 파고들기
M1~M6: 실무에서 부딪히는 장치들 (RAG, Fine-tuning, Agent 등)
H1~H4: Harness·Agent 계통 (Claude Code, Codex, Meta-Harness)

이 글은 shuntailor.net “AI 공부 지도” 시리즈의 0편입니다. 시리즈 전체를 한 번에 보시려면 엔트리맵 을 이용해 주세요.

📍 시리즈 위치

AI 공부 지도 · 1/20편

용어 구분 — 첫 발자국 위치에 있는 편입니다. 앞뒤 편 링크는 본문 하단 지도 위 현재 위치 박스에서 확인하세요.

💡 이 편의 한 줄 요약

AI·ML·딥러닝·신경망·Transformer·LLM이 뒤섞여 있는 머릿속에, 러시아 인형 비유 하나로 크기와 관계를 정리한다.

ソースリスト

태일러 지식백과사전 — AI 공부 지도 카테고리 (본 시리즈 20편 전체)
AI 공부 지도 엔트리맵 — 전체 구조 + 3가지 독법
“Attention Is All You Need” (Vaswani et al., 2017)
Anthropic · OpenAI · Google 공식 docs
mathbullet (YouTube) / Jay Alammar “Illustrated Transformer” / 3Blue1Brown 영상 — 쉬운 설명 레퍼런스

著者: 바이브코딩 태일러 (VibeCoding Tailor) — Lovable公式アンバサダー. AI·バイブコーディング専門メディアshuntailor.net運営.
本シリーズ “AI 공부 지도” 20편은 위키 자료와 공식 논문·공식 문서를 근거로 정리한 체계적 학습 커리큘럼입니다.

Post Views: 51

바이브코딩 태일러

AI의 작동 원리와 비즈니스 적용을 일본어·한국어로 기록합니다. 매주 월요일 뉴스레터 발행 중.

뉴스레터 구독하기 →