-
Retrieval-Augmented Generation (RAG)AI ML 2025. 4. 20. 18:00728x90
RAG는 LLM(예: GPT)이 외부 지식(문서, DB 등)을 검색해서, 그걸 바탕으로 답변을 생성하는 방식이에요.
Retrieval-Augmented Generation, 줄여서 RAG는 요즘 AI 기반 Q&A 시스템, 문서 요약, 챗봇 등에 가장 널리 쓰이는 핵심 기술입니다.
왜 필요한가?
일반 LLM (예: GPT, Claude)은 학습된 지식만 알고 있어요.
→ 최신 정보나 특정 기업 문서 같은 건 못 알아요.
해결책: RAG
외부 지식을 검색 + 요약해서 답변하도록 함
RAG 구조
[ 사용자 질문 ] ↓ [ 1. 검색기 (Retriever) ] ↓ ← 벡터 DB에서 관련 문서 검색 [ 관련 문서 ] ↓ [ 2. LLM ] ↓ ← 검색된 문서를 Prompt에 포함해 응답 생성 [ 정답 생성 ]
구성요소
구성 역할 예시 도구 벡터 DB 문서 임베딩 저장 & 검색 Qdrant, Weaviate, Pinecone 임베딩 모델 텍스트 → 벡터 변환 HuggingFace, OpenAI Retriever 질문에 유사한 문서 찾기 LangChain, LlamaIndex LLM 답변 생성 GPT, Claude, Mistral, LLaMA 장점
장점 설명 실시간 지식 반영 DB 업데이트만 하면 됨 (LLM 재학습 불필요) 프라이빗 데이터 반영 사내 문서, 매뉴얼, 고객 정보 등 저비용 학습 Fine-tuning 없이도 고품질 응답 가능 예시: Tesla 매뉴얼 RAG
- 사용자 질문: “How to reset TPMS?”
- 벡터 DB에서 매뉴얼 문서 chunk 검색
- 검색된 내용을 포함한 prompt 생성:
- GPT가 이 문맥을 읽고 자연어 답변 생성
Context: "To reset TPMS, go to Settings > Service > Reset TPMS" Q: How do I reset TPMS? A: ...
RAG 없으면?
LLM은 “몰라도 아는 척” 하면서 **헛소리(hallucination)**를 할 수 있어요.
→ RAG는 그런 헛소리를 줄이고, 정확한 정보에 기반한 응답을 생성해 줍니다.
RAG는 “검색(Search)” + “생성(Generate)”을 합친 방식
최신 AI 시스템(예: ChatGPT + 웹브라우저 플러그인, 기업 Q&A 봇 등)의 핵심입니다.
Q. LLM 추론에 필요한 토큰 소비??
왜 RAG는 토큰을 더 쓰게 될까?
RAG는 질문과 함께 검색된 문서(Context)도 LLM에 넣기 때문에,
→ 입력 토큰(Input tokens)이 훨씬 많아집니다.
방식 입력 길이 설명 일반 LLM 10~50 tokens 사용자 질문만 RAG LLM 1000~2000 tokens 질문 + 검색된 문서들 포함 GPT-3.5 기준 토큰 비용
구분 단가 (/1K token) 입력 $0.0015 출력 $0.0020 예시: RAG 응답 1회 비용
입력: 1200 tokens = $0.0018
출력: 300 tokens = $0.0006
합계 ≈ $0.0024 (기존 대비 2~5배)
그렇다고 꼭 손해일까?
항목 일반 LLM RAG 기반 LLM 질문 커버 범위 제한적 (사전 학습) 외부 지식 반영 가능 최신성 ❌ 불가 ✅ 실시간 가능 도메인 문서 반영 ❌ 불가 ✅ 가능 정답률 낮음 (헛소리 가능) 높음 (정확한 출처 기반) 실제 효과 예
예를 들어,
- GPT-4만 쓰면 응답 1회 $0.06
- GPT-3.5 + RAG 쓰면 $0.0024로 25배 절감 + 정확도↑
RAG 토큰 최적화 전략
전략 설명 chunk 크기 최적화 chunk_size=300~500, 너무 긴 문서 입력 방지 Top-K 제한 상위 2~3개 문서만 LLM에 전달 문서 길이 제한 문장 수 또는 토큰 수 기준 슬라이스 압축 Retriever 사용 검색된 문서를 요약한 뒤 전달 (e.g. MapReduce RAG) Prompt 압축 “Q: … A: …” 양식 등으로 간결화 질문 답 RAG가 토큰 더 쓰나요? Yes, 입력 토큰 증가함 그런데도 쓸 가치 있나요? Yes, 훨씬 정확하고 의미 있음 최적화 가능하나요? 충분히 가능, 비용 절감 전략도 다양함 728x90'AI ML' 카테고리의 다른 글
딥러닝 개요 (3) 2025.08.01 AI 카테고리 개요 (2) 2025.08.01 LLM 생태계 정리 (0) 2025.04.05 Claude vs ChatGPT (0) 2025.04.05 Large Language Model에서 Transformer 란? (1) 2025.04.04