Transformer — Attention을 쌓으면 어떻게 ChatGPT가 되나

Transformer 아이캐치 — Transformer — Attention을 쌓으면 어떻게 ChatGPT가 되나

Attention 한 번을 멀티헤드·위치인코딩·FFN으로 묶고 층층이 쌓으면 ChatGPT가 된다. Encoder/Decoder·Masked·Cross-attention, GPT가 왜 Decoder만 쓰는지, 긴 컨텍스트(O(N²)·FlashAttention)까지 고양이 예시로 끝까지.

JAKO