1. 서론
대규모 언어 모델(LLM)은 자연어 처리 분야에서 뛰어난 성능을 보이고 있지만, 최신 정보 부족 및 잘못된 정보 생성(환각) 등의 한계점도 존재한다. 이를 보완하기 위해 외부 지식을 활용하는 기법들이 등장했으며, 특히 검색 증강 생성(RAG)과 지식 증강 생성(KAG)이 주목받고 있다.
2. 검색 증강 생성(RAG)
2.1 정의 및 기본 원리
RAG는 LLM이 기존 학습 데이터 외부에서 권위 있는 정보를 검색하여 이를 참고하여 응답을 생성하는 방식으로, 동적이고 신뢰성 높은 결과를 제공한다.
2.2 구조
- 검색기(Retriever): 사용자의 질문을 벡터로 변환해 벡터 DB에서 의미적으로 유사한 정보를 검색.
- 생성기(Generator): 검색된 정보를 추가 문맥으로 활용해 GPT 등 LLM이 답변 생성.
- 프롬프트 엔지니어링: 검색된 정보를 LLM이 효과적으로 사용할 수 있도록 하는 기법.
2.3 지식 소스 및 검색 메커니즘
- 비구조적(텍스트, PDF, 웹) 및 반구조적 데이터를 벡터 DB로 변환하여 의미 검색 수행.
- 하이브리드 검색 기법을 활용해 의미 검색과 키워드 검색의 장점을 결합.
2.4 생성 과정
검색된 정보와 LLM의 내재적 지식을 결합해 정확하고 신뢰성 높은 응답을 생성하며, 출처를 명시하여 투명성 확보.
2.5 장점
- 최신 정보 반영 가능, 다양한 데이터 처리 용이
- 정확성 및 신뢰성 증대, 출처 제공
- 환각 현상 감소 및 비용 효율적
2.6 단점
- 검색 정확성 의존적, 정보 노이즈에 취약
- 복잡한 추론 및 긴 문맥 처리의 한계 존재
- 데이터 품질에 따른 편향 및 잘못된 정보 가능성
3. 지식 증강 생성(KAG)
3.1 정의 및 기본 원리
KAG는 구조화된 지식 그래프를 직접적으로 LLM에 통합해 논리적 추론과 높은 정확도의 도메인 특화 응답을 제공하는 방식이다.
3.2 구조
- KAG-Builder: 지식 그래프와 텍스트 데이터 간 양방향 색인 구축
- KAG-Solver: 논리적 추론을 수행하여 복잡한 질문을 해결
- KAG-Model: 검색과 생성 과정을 통합한 파이프라인 구축
3.3 지식 소스 및 검색 메커니즘
- 구조화된 도메인 특화 지식 그래프를 이용해 복잡한 다단계 추론 가능
- SPARQL 등 명시적 질의어 사용 가능
3.4 생성 과정
지식 그래프의 구조적 정보를 직접적으로 LLM 생성 과정에 반영해 높은 사실 정확도와 논리적 일관성 확보.
3.5 장점
- 논리적 추론 및 다단계 추론에 강점
- 높은 사실 정확도 및 일관성 유지
- 도메인 특화된 지식 처리 효율적
3.6 단점
- 고품질 지식 그래프 구축 및 유지의 어려움
- 구조적 데이터에 의존하여 개방형 도메인 질문에 한계
- 초기 구축 비용과 계산 자원 소모 높음
4. 비교 분석: RAG vs KAG
특징 RAG KAG
데이터 유형 | 비구조적·반구조적 데이터 | 구조화된 지식 그래프 |
지식 소스 | 외부 문서 및 웹 페이지 | 지식 그래프 및 데이터베이스 |
검색 메커니즘 | 벡터 및 키워드 기반 의미적 검색 | 그래프 기반 논리적 추론 |
추론 능력 | LLM의 내재적 능력에 제한적 | 구조적 데이터 기반 다단계 추론에 강력함 |
활용 분야 | 개방형 질의응답, 챗봇, 최신 정보 | 도메인 특화 사실 기반 질의응답, 전문 분야 |
5. 활용 사례
- RAG: 개방형 질의응답, 고객 지원, 법률·의료 정보 검색, 콘텐츠 생성 등 최신성 높은 정보 제공 분야
- KAG: 의료 진단, 금융 분석, 법률 자문, 행정 서비스, 제품 추천 등 구조적 지식 기반 정확한 정보 제공 분야
6. 최신 동향
- RAG: 적응형 검색, 멀티모달 데이터 통합, 실시간 데이터 통합, 개인화 RAG 등 발전
- KAG: 논리적 추론 강화, 다단계 추론 지원, 지식 충돌 문제 해결, 효율적인 그래프 통합 기술 발전
7. 결론
RAG와 KAG는 각각 비구조적 및 구조적 데이터를 활용하여 LLM의 응답 정확성과 신뢰성을 높이는 중요한 접근법이다. 응용 목적과 데이터 특성에 따라 적절한 방법을 선택하거나, 양자를 결합한 하이브리드 접근법이 향후 더욱 발전할 것으로 전망된다.