Transformer — Attention을 쌓으면 어떻게 ChatGPT가 되나
Attention 한 번을 멀티헤드·위치인코딩·FFN으로 묶고 층층이 쌓으면 ChatGPT가 된다. Encoder/Decoder·Masked·Cross-attention, GPT가 왜 Decoder만 쓰는지, 긴 컨텍스트(O(N²)·FlashAttention)까지 고양이 예시로 끝까지.
자연어로 세계를 설계하다|Vibe Coding 미디어
Attention 한 번을 멀티헤드·위치인코딩·FFN으로 묶고 층층이 쌓으면 ChatGPT가 된다. Encoder/Decoder·Masked·Cross-attention, GPT가 왜 Decoder만 쓰는지, 긴 컨텍스트(O(N²)·FlashAttention)까지 고양이 예시로 끝까지.