지토의 개발일기/RAG

RAG(Retrieval-Augmented Generated) 기술이 주목 받는 이유

지아토 2025. 4. 24. 16:15

 

 최근 인공지능 기술이 다양하게 발전하고 산업에서의 디지털 전환을 이끌고 있습니다.  그 중에서도 텍스트를 바탕으로 진행되는 

생성형 AI가 주목을 받고 있습니다. Open AI의 GPT를 중심으로 업무의 디지털 전환이 빠르게 이루어져 많은 사람들에게 도움을 주고 있습니다. 하지만 이런 GPT기반의 생성형AI와 LLM이 지속적으로 노출되고 있는 문제로서 환각(Hallucination) : 존재하지 않은 정보를 마치 사실인 것처럼 그럴듯하게 만들어냄 , 지식의 한계 / 최신 정보 반영 불가 : 특정기간 훈련된 데이터 까지만 알고 있고 이후 정보는 모르거나 부정확함 , 출처없는 답변, 도메인 적합성 부족등과 같은 다양한 문제를 노출하고 있습니다.

 

 


 

✅ RAG의 등장 배경과 필요성

**Retrieval-Augmented Generation (RAG)**는 자연어 처리 기술의 발전과 사용자 요구의 다변화 속에서 등장한 지능형 질의응답 시스템입니다. 그 필요성과 등장은 다음과 같은 배경에서 비롯됩니다.

1. 지식 기반 QA 시스템의 한계
초기 질의응답 시스템은 구조화된 데이터에 의존하여, 도메인과 질문 유형이 제한적이었습니다.
그러나 사용자의 질문은 점차 복잡하고 다양화되었고, 이를 만족시키기 위해 광범위한 지식 활용이 요구되었습니다.


2. 비정형 텍스트 데이터의 폭증
웹, 뉴스, SNS 등에서 생성되는 비정형 텍스트 데이터가 기하급수적으로 증가하면서, 이들 데이터가 새로운 지식 자원으로 부상했습니다.


3. 사전 학습 언어 모델의 도약

BERT, GPT 등 **대규모 사전 학습 언어모델(PLM)**의 등장으로, 문맥 이해와 자연스러운 생성이 가능해졌습니다.
이들 모델은 질의응답 시스템에 적용되어 더 풍부하고 정확한 자연어 응답을 가능하게 했지만, 여전히 지식의 최신성 및 근거 제시에는 한계가 있었습니다.


4. 실시간 정보 제공에 대한 수요 증가
모바일과 인터넷 환경의 보편화로, 사용자는 즉각적인 정보 접근과 응답을 기대합니다.
기존 검색 기반 시스템은 단순 문서 제공에 그쳤지만, 사용자는 이제 대화형 인터페이스를 통한 직관적인 정보 제공을 원하고 있습니다.


5. 지식 검색과 생성의 통합 필요성
전통적 시스템은 **정보 검색(Retrieval)**과 **답변 생성(Generation)**을 별도로 처리하여 응답의 일관성과 정합성이 떨어지는 문제가 있었습니다.

 


이에 따라 두 과정을 통합한 구조, 즉 검색과 생성을 하나의 흐름으로 연결하는 RAG 아키텍처의 필요성이 대두되었습니다.


 

RAG의 기본 개념

 

RAG(Retrieval_Augmented Generation)는 대규모 언어 모델(LLM)의 한계를 극복하기 위해 제안된 새로운 자연어 처리 기술이다. LLM은 많은 텍스트 데이터를 학습하여 강력한 언어 이해와 생성능력을 갖추고 있지만 위의 언급한 내용과 같은 단점이 부각 되고 있습니다. 

 

RAG는 이러한 한계를 극복하기 위해 "검색 시스템(Retriever)" + "텍스트 생성 모델(Generator)"의 조합입니다.

 

1. Retriever(검색기)

 

- 질문을 받으면 관련 있는 문서(텍스트 조각)를 외부 데이터베이스에서 찾아준다. 

- 이때 사용되는 건 보통 벡터 검색 (문장 임베딩 -> 유사한 문장검섹)

 

 

2. Generator(생성기)

 

- 검색된 문서를 바탕으로, 자연어로 정리된 응답을 생성

- GPT 같은 모델이 여기에 해당

 


 

기존 LLM 문제점 | RAG로 해결되는 방식 설명


❌ 환각(hallucination) | ✅ 외부에서 실제 문서를 불러와서 사실 기반 답변 생성 → 환각 현상 크게 감소
❌ 지식의 한계/정보 최신성 부족 | ✅ 실시간 외부 지식 검색으로 최신 정보 반영 가능
❌ 출처 없음/설명 불가 | ✅ 검색된 문서나 문장 근거로 함께 제공 → 신뢰도 & 설명 가능성 증가
❌ 도메인 적합성 부족 | ✅ 회사 내부 문서, 논문, 매뉴얼 등 도메인 지식 기반 응답 가능
❌ 일관성/정확도 문제 | ✅ 검색 결과 기반 응답이므로 내용 일관성↑, 정답률↑
❌ 모델 재학습 비용 | ✅ 외부 문서를 바꾸는 것만으로 지식 업데이트 가능 → 재학습 불필요

 

 


 

✅ RAG의 핵심 가치 요약

 

1. 정확한 정보 제공(Hallucination 내려감)

2. 최신 정보 연동

3. 출처 명시 및 설명 가능성

4. 도메인 전문성 확보

5. 경제적이고 유연한 구조.