Large Language Model에서 Transformer 란?

AI ML 2025. 4. 4. 07:37

728x90

Transformer는 문장에서 단어들 간의 관계(의미)를 한꺼번에 파악할 수 있게 해주는 딥러닝 모델 구조예요.
RNN이나 LSTM처럼 순차적으로 처리하지 않고, 모든 단어를 동시에(병렬로) 처리할 수 있어서 빠르고 정확합니다.

Transformer는 Large Language Model(LLM)의 핵심이자, 지금의 ChatGPT나 GPT-4 같은 모델이 존재할 수 있게 해준 기초 기술이에요.

Transformer가 등장한 이유

기존에는 RNN, LSTM 같은 순환 신경망이 주로 사용됐어요.
이들은 단어를 순서대로 처리하면서 문맥을 이해하지만:

너무 긴 문장은 앞뒤 연결이 약해짐 (long-term dependency 문제)
병렬 처리가 어려움 → 학습 속도 느림

그래서 나온 게 바로 "Attention is All You Need" (2017) 논문에서 발표된 Transformer입니다.

Transformer 구조 요약

Transformer는 크게 두 부분으로 나뉘어요:

Encoder: 입력 문장을 인코딩 (문맥을 이해함)
Decoder: 문장을 생성 (예: 번역, 답변 등)

GPT나 ChatGPT 같은 모델은 Decoder만 사용합니다.

핵심: Self-Attention

문장 내에서 모든 단어 간의 관계를 파악합니다.
예: “The animal didn’t cross the road because it was too tired.”
→ 여기서 “it”이 무엇을 가리키는지 Transformer가 파악 가능

[단어 벡터 입력]
     ↓
[Position Encoding] ← 단어 순서 정보 추가
     ↓
[Self-Attention Layer] ← 모든 단어 관계 계산
     ↓
[Feed Forward Layer] ← 의미 조정
     ↓
(반복적으로 Layer 쌓음)
     ↓
[결과 출력]

GPT 같은 LLM에서는?

GPT-3, GPT-4, Claude, LLaMA, Gemini 등은 모두 Transformer의 Decoder 구조 기반
학습 데이터: 웹, 책, 문서 등에서 엄청난 양의 문장 → 다음 단어 맞히기 방식으로 학습
이 구조 덕분에 LLM은 긴 문맥도 이해하고 문장을 자연스럽게 이어나갈 수 있어요.

쉽게 비유하면...

Transformer는 “눈치 100단 친구” 같은 모델이에요.
문장에서 누가 누구를 가리키는지, 왜 그런지 다 파악해서 의미 있게 반응하는 거죠.

728x90

'AI ML' 카테고리의 다른 글

AI 카테고리 개요 (2)	2025.08.01
Retrieval-Augmented Generation (RAG) (1)	2025.04.20
LLM 생태계 정리 (0)	2025.04.05
Claude vs ChatGPT (0)	2025.04.05
AI/ML에서 Vector DB 활용 (0)	2025.04.02

ABOUT ME

DevOps Colleague

Transformer가 등장한 이유

Transformer 구조 요약

핵심: Self-Attention

GPT 같은 LLM에서는?

쉽게 비유하면...

'AI ML' 카테고리의 다른 글

티스토리툴바

ABOUT ME

Transformer가 등장한 이유

Transformer 구조 요약

핵심: Self-Attention

GPT 같은 LLM에서는?

쉽게 비유하면...

'AI ML' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바