“무조건 신뢰는 위험”··· 외신이 밝힌 최고 성능 AI?

정윤호 기자

입력 2025.08.29 09:12

이 기사를 공유합니다

워싱턴포스트 테스트 결과 9개 AI 평가
퍼플렉시티 3위·메타 AI 최하위

| 스마트에프엔 = 정윤호 기자 | 주요 인공지능(AI) 검색 도구 가운데 가장 정확한 답변을 제공한 모델은 구글 ‘AI 모드’라는 평가 결과가 나왔다. 챗GPT의 최신 모델 GPT-5는 2위를 기록했으나 일부 영역에서는 GPT-4 터보보다 낮은 점수를 받은 것으로 나타났다.

28일(현지시각) 미국 워싱턴포스트(WP)에 따르면 미국 공공 및 대학 도서관 사서들과 함께 실시한 AI 검색 도구 테스트에서 구글 AI 모드가 가장 높은 점수를 받았다. 이번 평가는 구글 AI 모드와 AI 오버뷰, 오픈AI 챗GPT(GPT-5·GPT-4 터보), 앤스로픽 클로드, 메타 AI, 일론 머스크의 그록, 퍼플렉시티, 마이크로소프트 빙 코파일럿 등 총 9개 AI를 대상으로 진행됐다.

테스트는 7∼8월 기준 무료 버전만 활용해 실시됐다. 퀴즈, 전문 자료 검색, 최신 사건, 편향성 검증, 이미지 인식 등 다섯 가지 분야의 질문 30개를 던지고 각 AI가 내놓은 900개의 답변을 점수화하는 방식으로 진행됐다.

그 결과, 구글 AI 모드는 100점 만점 중 60.2점을 획득해 1위에 올랐다. GPT-5 기반 챗GPT는 55.1점으로 2위, 퍼플렉시티가 51.3점으로 3위를 기록했다. 반면 메타 AI는 33.7점에 그쳐 가장 낮았으며, 일론 머스크의 그록3는 40.1점으로 8위에 머물렀다. 최신 버전인 그록4는 무료 버전이 없어 평가에 포함되지 않았다.

세부 영역별로 보면 구글 AI 모드는 퀴즈와 최신 사건 부문에서 강세를 보였고, 전문 출처 검색에서는 빙 코파일럿, 이미지 인식에서는 퍼플렉시티가 가장 높은 점수를 받았다. GPT-4 터보는 가장 치우치지 않은 균형 잡힌 답변을 제공한 것으로 평가됐다.

WP는 이번 평가가 AI의 약점을 의도적으로 공략했음에도 불구하고 일상적인 질문 상당수에서 여전히 정확한 답변을 내놓지 못하는 경우가 많았다고 지적했다. 특히 최신 정보 여부와 출처 신뢰성을 판별하는 능력이 부족하며 잘못된 답변을 자신 있게 제시하는 문제도 확인됐다.

WP는 “AI가 내놓는 답변을 그대로 믿기보다 사서처럼 출처를 확인하고 최신성을 검증하며 비판적 사고를 병행해야 한다는 교훈이 드러났다”고 전했다.

정윤호 기자 jyh7713@kakao.com

다른기사

워싱턴포스트 테스트 결과 9개 AI 평가 퍼플렉시티 3위·메타 AI 최하위

워싱턴포스트 테스트 결과 9개 AI 평가
퍼플렉시티 3위·메타 AI 최하위