Home / 핫뉴스
못 믿을 AI 주치의
질문 따라 답 오락가락
- 미디어1 (media@koreatimes.net)
- Feb 16 2026 11:02 AM
챗GPT·라마 등 20개 LLM 시험 허위 의료정보 31.7% 사실로 수용 사용자와 대화하면 정확도 하락 같은 질병인데 94.9%→34.5%로 표현에 따라 부적절 답변 내놓기도
오픈AI를 비롯한 여러 인공지능(AI) 기업이 건강 특화 대형언어모델(LLM)을 출시하며 ‘AI 주치의’가 주목받고 있지만, AI가 제공하는 의료 정보의 정확도는 기존 인터넷 검색과 큰 차이가 없다는 연구결과가 나왔다. 특히 공식 의학 문서로 위장한 거짓 진단을 분별 없이 받아들이는 등 AI의 의료 정보 검증 능력이 기대에 미치지 못한다는 분석이다.

생성형 인공지능(AI)이 의학 정보를 오판하고 있는 모습을 상상해 그린 그림. 제미나이 나노바나나·신혜정 기자
미국 마운트 시나이 아이칸 의대 연구진은 10일 국제학술지 ‘랜싯’에 LLM의 의료 정보 취약성을 확인한 논문을 발표했다. 연구진은 오픈AI의 ‘챗GPT’, 메타의 ‘라마’, 구글의 ‘젬마’ 등 20개 LLM을 대상으로 약 300만 건의 프롬프트를 시험했다. 프롬프트에는 사회관계망서비스(SNS)에서 나눈 의학상식 대화, 병원 의료 기록, 의사가 검증한 가상 사례 등이 담겼는데, 연구진은 이 중 일부를 부정확한 허위 정보로 바꿨다.
시험 결과 LLM 모델들은 허위 정보 중 31.7%를 사실로 받아들였다. 특히 병원 기록에 일부러 오류를 삽입한 정보에 대해서는 답변 채택률이 41.6%나 됐다. SNS에서 ‘유명 의사가 보증했다’는 식의 표현이 들어가면 검증을 못하는 경향도 보였다. AI가 의학적 권위가 있어 보이는 문서의 내용을 비판 없이 수용한 것이다. 특히 의료 데이터로 특화 훈련을 한 모델일수록 일반 모델보다 검증력이 떨어지는 경향까지 나타났다.
사용자가 AI와 상호작용하는 동안 오류가 생길 가능성도 높다. 영국 옥스퍼드대 인터넷 연구소가 이날 국제학술지 ‘네이처’에 발표한 연구에 따르면, 챗GPT를 비롯한 최신 LLM은 정리된 자료를 토대로 병에 대해 답변할 땐 94.9%의 정확도를 보였지만, 같은 병이라도 사용자와 대화를 통해 답변할 경우 정확도가 34.5%로 크게 떨어졌다. 연구소가 의료진과 함께 영국 성인 1,298명을 대상으로 실험한 결과다. LLM의 응급 상황 판단 정확도도 56.3%에 그쳤는데, 역시 사람이 질문할 경우엔 답변 정확도가 44.2%로 낮아졌다. 검색엔진으로 병을 찾아본 대조군과 비교해 정확도에 차이가 없었다고 연구진은 설명했다.
이는 AI가 똑똑하긴 하지만, ‘맥락을 이해하는 소통’ 능력은 부족하기 때문이다. 사용자의 표현에 따라 다른 답변을 내놓는 것도 같은 이유에서다. 예를 들어 실험 참가자가 뇌출혈을 유발하는 지주막하출혈에 대해 “지금까지 경험한 최악의 두통”이라고 하자 AI는 ‘병원에 가라’고 조언했다. 반면 다른 참가자가 같은 질병을 단순히 “끔찍한 두통”이라고 했더니 AI는 ‘어두운 방에 누워 있으라’는 부적절한 답변을 했다.
의료 현장의 AI 활용이 느는 만큼 부작용도 계속되고 있다. 최근 로이터에 따르면 존슨앤드존슨의 자회사 애클래런트가 개발한 부비동 수술용 내비게이션 장비 ‘트루디’는 2021년 AI 기능을 추가한 이후 오작동 신고가 100건을 넘어섰다. 트루디가 두개골 내에 있는 수술 도구의 현재 위치를 잘못 안내해 수술 과정에서 환자의 두개골 기저부가 뚫리기도 했다. 옥스퍼드대 연구에 참여한 레베카 페인 가정의학과 전문의는 “AI는 의사의 역할을 대신할 준비가 안 됐다”고 지적했다.
신혜정 기자
www.koreatimes.net/핫뉴스
미디어1 (media@koreatimes.net)
