ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Large Language Model에서 Transformer 란?
    AI ML 2025. 4. 4. 07:37
    728x90

     

    Transformer는 문장에서 단어들 간의 관계(의미)를 한꺼번에 파악할 수 있게 해주는 딥러닝 모델 구조예요.
    RNN이나 LSTM처럼 순차적으로 처리하지 않고, 모든 단어를 동시에(병렬로) 처리할 수 있어서 빠르고 정확합니다.

     

     

    Transformer는 Large Language Model(LLM)의 핵심이자, 지금의 ChatGPT나 GPT-4 같은 모델이 존재할 수 있게 해준 기초 기술이에요.

     

    Transformer가 등장한 이유

    기존에는 RNN, LSTM 같은 순환 신경망이 주로 사용됐어요.
    이들은 단어를 순서대로 처리하면서 문맥을 이해하지만:

    • 너무 긴 문장은 앞뒤 연결이 약해짐 (long-term dependency 문제)
    • 병렬 처리가 어려움 → 학습 속도 느림

    그래서 나온 게 바로 "Attention is All You Need" (2017) 논문에서 발표된 Transformer입니다.

     

    Transformer 구조 요약

    Transformer는 크게 두 부분으로 나뉘어요:

    1. Encoder: 입력 문장을 인코딩 (문맥을 이해함)
    2. Decoder: 문장을 생성 (예: 번역, 답변 등)

    GPT나 ChatGPT 같은 모델은 Decoder만 사용합니다.

    핵심: Self-Attention

    • 문장 내에서 모든 단어 간의 관계를 파악합니다.
    • 예: “The animal didn’t cross the road because it was too tired.”
      → 여기서 “it”이 무엇을 가리키는지 Transformer가 파악 가능
    [단어 벡터 입력]
         ↓
    [Position Encoding] ← 단어 순서 정보 추가
         ↓
    [Self-Attention Layer] ← 모든 단어 관계 계산
         ↓
    [Feed Forward Layer] ← 의미 조정
         ↓
    (반복적으로 Layer 쌓음)
         ↓
    [결과 출력]

     

    GPT 같은 LLM에서는?

    • GPT-3, GPT-4, Claude, LLaMA, Gemini 등은 모두 Transformer의 Decoder 구조 기반
    • 학습 데이터: 웹, 책, 문서 등에서 엄청난 양의 문장 → 다음 단어 맞히기 방식으로 학습
    • 이 구조 덕분에 LLM은 긴 문맥도 이해하고 문장을 자연스럽게 이어나갈 수 있어요.

    쉽게 비유하면...

    Transformer는 “눈치 100단 친구” 같은 모델이에요.
    문장에서 누가 누구를 가리키는지, 왜 그런지 다 파악해서 의미 있게 반응하는 거죠.

     

     

    728x90

    'AI ML' 카테고리의 다른 글

    AI 카테고리 개요  (2) 2025.08.01
    Retrieval-Augmented Generation (RAG)  (1) 2025.04.20
    LLM 생태계 정리  (0) 2025.04.05
    Claude vs ChatGPT  (0) 2025.04.05
    AI/ML에서 Vector DB 활용  (0) 2025.04.02
Designed by Tistory.