-
Large Language Model에서 Transformer 란?AI ML 2025. 4. 4. 07:37728x90
Transformer는 문장에서 단어들 간의 관계(의미)를 한꺼번에 파악할 수 있게 해주는 딥러닝 모델 구조예요.
RNN이나 LSTM처럼 순차적으로 처리하지 않고, 모든 단어를 동시에(병렬로) 처리할 수 있어서 빠르고 정확합니다.Transformer는 Large Language Model(LLM)의 핵심이자, 지금의 ChatGPT나 GPT-4 같은 모델이 존재할 수 있게 해준 기초 기술이에요.
Transformer가 등장한 이유
기존에는 RNN, LSTM 같은 순환 신경망이 주로 사용됐어요.
이들은 단어를 순서대로 처리하면서 문맥을 이해하지만:- 너무 긴 문장은 앞뒤 연결이 약해짐 (long-term dependency 문제)
- 병렬 처리가 어려움 → 학습 속도 느림
그래서 나온 게 바로 "Attention is All You Need" (2017) 논문에서 발표된 Transformer입니다.
Transformer 구조 요약
Transformer는 크게 두 부분으로 나뉘어요:
- Encoder: 입력 문장을 인코딩 (문맥을 이해함)
- Decoder: 문장을 생성 (예: 번역, 답변 등)
GPT나 ChatGPT 같은 모델은 Decoder만 사용합니다.
핵심: Self-Attention
- 문장 내에서 모든 단어 간의 관계를 파악합니다.
- 예: “The animal didn’t cross the road because it was too tired.”
→ 여기서 “it”이 무엇을 가리키는지 Transformer가 파악 가능
[단어 벡터 입력] ↓ [Position Encoding] ← 단어 순서 정보 추가 ↓ [Self-Attention Layer] ← 모든 단어 관계 계산 ↓ [Feed Forward Layer] ← 의미 조정 ↓ (반복적으로 Layer 쌓음) ↓ [결과 출력]
GPT 같은 LLM에서는?
- GPT-3, GPT-4, Claude, LLaMA, Gemini 등은 모두 Transformer의 Decoder 구조 기반
- 학습 데이터: 웹, 책, 문서 등에서 엄청난 양의 문장 → 다음 단어 맞히기 방식으로 학습
- 이 구조 덕분에 LLM은 긴 문맥도 이해하고 문장을 자연스럽게 이어나갈 수 있어요.
쉽게 비유하면...
Transformer는 “눈치 100단 친구” 같은 모델이에요.
문장에서 누가 누구를 가리키는지, 왜 그런지 다 파악해서 의미 있게 반응하는 거죠.728x90'AI ML' 카테고리의 다른 글
AI 카테고리 개요 (2) 2025.08.01 Retrieval-Augmented Generation (RAG) (1) 2025.04.20 LLM 생태계 정리 (0) 2025.04.05 Claude vs ChatGPT (0) 2025.04.05 AI/ML에서 Vector DB 활용 (0) 2025.04.02