AI 모델 오작동 문제 여전히 지속

주요 AI 모델들의 사실성 난제, 해결책은 요원

AI 연구진, 최신 AI 시스템 정확성 문제 지속적 지적… 대중 인식과 기술 현실 간 괴리 커져


주요 AI 모델, 사실성 테스트에서도 저조한 성과

최신 연구에 따르면 세계적인 선두 AI 모델이 여전히 사실성 테스트에서 낮은 정확도를 보이고 있다. 간단한 질문을 모아 놓은 벤치마크(SimpleQA)에서 OpenAI와 Anthropic의 최신 모델조차 질문의 절반도 제대로 답하지 못했다는 결과가 나왔다.

이는 수십억 달러 연구 투자에도 불구하고 AI가 사실성을 보장하는 데 어려움을 겪고 있다는 중요한 증거다. 현재까지 사실성을 개선하기 위해 세 가지 주요 기술이 도입되고 있지만 모두 한계점을 가진 것으로 나타났다.

  1. 정보 검색 기반 생성(Retrieval-Augmented Generation, RAG): 전통적인 정보 검색 기술을 바탕으로 답변을 생성
  2. 자동 추론 점검: 미리 설정된 규칙에 따라 출력 결과를 검증해 불일치한 응답 걸러내기
  3. 연쇄적 사고(Chain-of-Thought, CoT): 질문을 작은 단위로 나누어 단계적으로 답변 진행

하지만 AAAI 보고서에 따르면, 60%에 달하는 연구자들이 사실성 문제를 단기적으로 해결하기 어렵다고 전망하고 있다. 이는 AI 모델이 자율적으로 신뢰할 수 있는 정보를 제공하기까지는 지속적인 인간 감독이 필수적임을 시사한다.


AI 기술 능력과 대중 인식 사이의 현실 격차

보고서는 AI 기술에 대한 대중적 인식이 지나치게 낙관적이라고 분석했다. 79%의 연구자들이 "현재 대중의 AI 능력에 대한 인식이 기술의 현실과 일치한다"는 주장에 동의하지 않았다. 보고서는 대부분 사람들이 AI를 처음 접할 때, 각종 과장된 주장에 대한 검증 능력이 부족하다는 점을 우려했다.

2023년 11월 기준, 시장 분석 업체 Gartner에서는 생성형 AI를 '과도한 기대의 정점'을 지나 이제 '환멸의 고도'로 진입하고 있다고 분류했다. 이는 특히 SEO 및 디지털 마케팅 업계에서 투자 움직임의 큰 변동을 일으킬 가능성을 암시한다.

더욱 문제적인 점은 74%의 연구진이 연구 방향이 과학적 우선순위가 아닌 AI 관련 과장된 기대치에 의해 주도되고 있다고 판단한 것이다. 이는 산업 자원이 사실성과 같은 근본적인 문제를 다루는 데 제대로 투입되지 않는 원인으로 지목되었다.


SEO 및 마케팅 업계에 미치는 영향

새로운 도구의 신중한 채택
AI의 문제점을 간과하고 도구를 무조건적으로 채택하면 심각한 오류나 부정확성 문제를 초래할 수 있다. 특히 금융이나 건강 등 YMYL(Your Money, Your Life) 규제를 받는 중요 산업에서는 AI를 사용할 때 전문가의 정밀한 검토와 데이터 감사가 필요하다.

높은 품질의 콘텐츠 유지
AI 기반 콘텐츠 생성은 부정확한 정보를 퍼뜨려 사용자 신뢰와 브랜드의 평판을 손상시킬 수 있다. 검색 엔진은 신뢰할 수 없는 AI 생성 콘텐츠를 게시하는 사이트를 순위에서 낮추기도 하므로, 콘텐츠 검수가 필수이다.

과열된 기대 조율
디지털 마케팅 리더들은 생성형 AI가 초래한 과장된 논란과 현실 사이에서 균형을 잡고 미래 전략을 세워야 한다. 보고서는 과도한 기대치가 자원 분배를 왜곡시킬 수 있다는 것을 경고하며, 기술의 한계 및 가능성을 이해한 분야 전문가가 더 나은 결정을 내릴 수 있음을 시사했다.


이번 보고서는 AI 시스템의 발전이 아직 인간 감독의 필요성을 완전히 대체할 수준이 아니라는 점을 잘 보여준다. 기술이 가져오는 혁신적 가능성과 현실 사이의 간극을 정확히 인식하는 것이 중요하다.

출처 : 원문 보러가기