Google 연구진, 충분한 문맥 신호로 RAG 개선

AI 답변 신뢰도 향상, 불완전 정보 문제 해결

구글 연구진은 AI 검색 및 비서의 성능을 강화하기 위해 Retrieval-Augmented Generation (RAG) 모델의 문맥 인식 능력을 개선하는 방법을 발표했다. 이 접근법은 AI가 답변 생성 시 불완전한 정보에 의존하는 문제를 방지하고, 신뢰도를 높이는 데 초점을 맞췄다. 연구에 따르면, Gemini 및 GPT와 같은 모델은 검색된 데이터가 충분한 문맥을 제공하지 못할 때도 질문에 답변을 시도하며, 이로 인해 "환각(hallucination)" 문제가 발생할 수 있다.


답변 가능 조건, 정보의 충분성에 달렸다

구글의 연구진은 언어 모델(LLM)이 검색된 정보만으로 정확한 답변을 생성할 수 있는지를 판단하는 체계를 개발했다. 연구 결과, 독점적인 모델은 충분한 문맥을 제공받았을 때는 대체로 정확한 답변을 제공하는 반면, 문맥이 불충분하면 종종 환각이 일어난다. 그러나 흥미롭게도 문맥 부족 상황에서도 약 35~65%의 확률로 정확한 답변이 생성된다는 점은 모델의 개입 시점을 결정하는 데 난제를 제공한다.

문맥의 충분성은 정확한 답변을 도출하기 위해 필요한 모든 세부 정보가 검색된 정보에 포함된 상태를 의미한다. 이 평가는 답변의 정확도를 검증하지 않고, 충분한 기초 정보를 제공했는지를 평가하는 데 초점을 둔다. 반면 문맥 부족은 정보가 불완전하거나, 중요 세부사항이 생략되었거나, 심지어는 오해의 소지가 있을 때 발생한다.


높은 정확도의 문맥 평가 시스템 도입

연구진은 "Sufficient Context Autorater"라는 시스템을 만들었다. 이 시스템은 AI가 질문과 문맥을 평가해 충분한 문맥이 있는지 여부를 분류하며, 최고 성과를 보인 모델의 경우 93%의 정확도를 기록했다. 추가 연구에서 RAG 기반 LLM이 문맥이 불충분한 상황에서도 약 35~62%의 정확도로 답변을 생성할 수 있음을 보여줬다. 이를 해결하기 위해 연구진은 "선택적 생성(Selective Generation)" 메서드를 도입, AI가 신뢰 점수와 문맥 신호를 바탕으로 답변 생성 여부를 결정하도록 설계했다.


새로운 AI 답변 전략의 가능성

이 선택적 생성 메커니즘은 응용 프로그램의 필요에 따라 유연하게 조정 가능하며, 문맥의 충분성이 AI 답변 품질에 기여하는 중요한 요인이지만 유일한 기준은 아니라고 보고 있다. AI가 관련 정보를 얼마나 잘 선택하고, 모델 스스로가 어떻게 학습됐느냐도 중요한 변수로 작용한다.

문맥이 불충분한 데이터는 불완전하거나, 모순되거나, 오해를 초래할 여지가 있는 정보를 특징으로 한다. 구글 연구진은 이 발견을 "Google 품질 평가 가이드라인"과 연결 지으며, 불충분한 정보가 목표를 효과적으로 달성하지 못하는 낮은 품질의 내용을 초래한다고 설명했다. 이러한 개념은 SEO와 콘텐츠 제작 전략에도 중요한 시사점을 제공하며, 잘 구조화된 완전한 정보가 AI 성능 향상에 필수적임을 보여준다.

출처 : 원문 보러가기