한국일보 애틀랜타 전자신문

2026년 5월 4일 (월요일) 특집 A4 수백만 명의 미국인들이 감기, 암등다양한건강문제에대해챗 GPT와 제미나이 같은 AI 도구를 첫번째상담창구로사용하고있 다. 그러나이달발표된두건의연 구는, 적어도 상당한 회의적 시각 없이 이를 사용하는 것은 바람직 하지않을수있음을시사한다. 틸러는자신의연구를BMJ오픈 에발표했다. 또다른연구팀은전 혀다른방식으로이문제에접근 했으며, 해당 연구는 JAMA 네트 워크오픈에게재됐다. 두연구모두실제상황을반영하 도록 설계됐으며, 사람들은 개방 형질문과함께간단한단어몇개 나예·아니오로답하도록유도하 는 구조화된 질문도 제시했다. 틸 러의 연구는 특히 잘못된 정보에 의해 왜곡되기 쉬운 주제에 초점 을 맞췄으며,“5G가 암을 유발하 는가?”,“건강을 위해 생우유를 얼마나 마셔야 하는가?”와 같은 질문을포함했다. JAMA 네트워크 오픈 연구에서 는 실험 참가자들이 21개 모델에 실제환자사례를제시하고‘의사 역할’을 수행하도록 요청했다. 이 연구역시 AI 도구에낮은평가를 내렸다. 이러한 결과는 허위 정보 가 AI 시스템에 얼마나 쉽게 스며 드는지를보여준최근실험과도일 맥상통한다. 2024년 한 연구팀은 ‘빅소니마니아(bixonimania)’라 는질환을만들어냈고, 과도한화 면 사용으로 인해 눈이 붉어지고 자극을 받는 증상을 특징으로 하 는 장애라고 설명하는 허위 연구 를 인터넷에 퍼뜨렸다. 그들은 이 조작을 특별히 숨기려 하지도 않 았다. 이논문들에는존재하지않 는 대학, 만들어진 도시, 심지어“ 이논문전체는조작된것이다”라 는 문장까지 포함돼 있었다. 그럼 에도불구하고몇주만에챗봇들 은이질환을실제존재하는것처 럼 인용하며 사용자 증상에 대한 답변에활용하기시작했다. 1월랜 싯에 발표된 연구에 따르면, 이는 고립된 사례가 아니며 가장 신뢰 도가 높은 챗봇조차도 10% 이상 의 허위 주장을 사실로 받아들였 고,가장나쁜경우절반이상을사 실로인정했다. 이 실험들은 일반 목적의 AI 도 구를 대상으로 진행됐다. 이후 여 러기업들이건강관련기능을강 화하거나 보다 전문화된 AI 애플 리케이션을출시하기위해노력하 고있으며, 평가에사용된많은모 델들도 연구 이후 업데이트돼 성 능이개선됐을가능성이있다. 웨스트헬스-갤럽 헬스케어 센 터가약 5,600명의성인을대상으 로실시한조사에따르면, 4명중1 명은 건강 정보를 위해 챗봇을 사 용하고 있으며, 특히 젊은 층에서 최근30일내AI를활용한경험이 더많은것으로나타났다. 또한응 답자의 14%, 즉 약 1,400만 명은 AI로부터 받은 정보나 조언 때문 에 원래라면 의료기관을 방문했 을 상황에서도 진료를 받지 않았 다고답했다. 웨스트헬스 정책센터의 팀 래시 소장은“검증되지않은챗봇에건 강 관리를 의존하는 것은 분명히 매우 우려스러운 일”이라고 말했 다. 그러나 그는 동시에 데이터에 서 긍정적인 신호도 발견된다고 밝혔다. 응답자들은 신뢰 여부에 따라 세 집단으로 나뉘었는데, 3 분의1은AI를사용하고신뢰했으 며, 또다른3분의1은사용하지만 신뢰하지 않았고, 나머지는 확신 하지못했다.래시소장은“이는정 보의 질을 보호하고 안전장치를 마련해야 한다는 점에 대해 건강 한 수준의 우려가 존재함을 보여 준다”고말했다. ■챗봇이의사처럼사고하는데어 려움을겪는이유 오늘날많은인기챗봇은대규모 언어모델(LLM)에기반하고있으 며, 방대한 텍스트 데이터를 통해 인간과유사한언어를생성하도록 설계됐다. 이 모델들은 의학 저널 이나 하버드 의대, 클리블랜드 클 리닉과 같은 권위 있는 기관의 자 료를참고할수있지만, 동시에소 셜미디어나 Q&A 포럼과 같은 정 보도함께반영한다. 반면의사의역할은수세기동안 크게 변하지 않았다. 질병을 치료 하고관리하는것이며, 그핵심과 제는 환자가 어떤 질환을 앓고 있 는지를 파악하는 것이다. 이는 증 상을 수집하고 검사 결과를 검토 하며 과학적 근거를 바탕으로 가 능한 원인을 좁혀가는 감별 진단 과정으로, 일정부분인간의직관 도 포함된다. 이처럼 복잡한 추론 과정을 AI 챗봇 설계에 반영하는 것은쉽지않은과제다. JAMA 네트워크 오픈 연구에서 는 2025년 1월부터 12월까지 진 행된 실험에서 연구진이 널리 사 용되는의학참고서인‘머크매뉴 얼’의사례를기반으로29개의사 례를제시했다. 예를들어30세여 성 환자가 복통을 호소하는 상황 을 설명하고 어떻게 대응할지를 묻는 방식이었다. 챗GPT, 제미나 이, 클로드, 딥시크, 그록 등 다양 한 AI는제한된정보상황에서성 급한 결론을 내리는 경향을 보였 으며, 80%의경우에서잘못된판 단을내렸다. 연구 공동 저자인 마크 수치 박 사는“AI는불확실하고제한된데 이터를 바탕으로 추론해야 하는 상황에서 좋은 성과를 내지 못했 다”고 말했다. 반면 환자 정보가 충분히 제공된 이후 단계에서는 비교적좋은성능을보였다. 이에대해오픈AI와구글은논평 을거부했으며,딥시크와xAI역시 별도의 답변을 내놓지 않았다. 앤 트로픽은 클로드가 의료 질문을 받을 경우 AI로서의 한계를 인정 하도록훈련돼있다고밝혔다. 마운트사이나이아이칸의과대학 의AI및인간건강학과장인기리시 나드카르니교수는현재챗봇의가 장큰약점은패턴매칭중심의작동 방식이라고지적했다. 그는“인간은 더일반적인지능을가지고있으며 상황을추론해나간다. 반면AI는가진데이터내에서만 보간할 뿐, 없는 정보를 바탕으로 외삽하지는 못한다”고 설명했다. 연구진은“임상의는 불확실성을 유지하며 반복적으로 감별 진단 을 정교화하지만, 대규모 언어 모 델은 성급하게 하나의 답으로 수 렴한다”고결론지었다. ■틀려도자신감있게답하는챗봇 BMJ 오픈 연구에서는 틸러가‘ 적대적 프레임워크’라고 부른 방 식으로AI 모델에부담을주는질 문을 설계했다. 2025년 2월 기준 챗GPT,제미나이,클로드,딥시크, 그록등을대상으로암, 백신, 줄기 세포, 영양, 운동성과등5개주제 에 대해 10개의 질문을 제시했다. 연구진은답변의정확성과완전성 을평가해문제없음, 일부문제있 음, 심각한문제있음의세범주로 분류했다. AI는개방형질문보다폐쇄형질 문에서 더 나은 성과를 보였지만, 전반적인 답변 품질은 다섯 모델 간큰차이가없었다. 틸러가지적 한가장큰문제중하나는답변의 자신감이었다. 250개의질문가운 데 AI가답변을거부한경우는단 두번뿐이었다. 하나는근육증가 를위한스테로이드질문으로, AI 는불법물질사용에대한정보를 제공할수없다고답했다. 다른하 나는 항암 치료 대체요법에 관한 질문으로, 의료 전문가 상담을 권 유했다. 틸러는이두사례가합리 적이고책임있는대응이었다면서 도, AI가모른다고인정하는경우 가“믿기 어려울 정도로 드물다” 고말했다. 또다른문제는미묘한 차이를 반영하지 못한다는 점이 다. 예를들어코로나19와백신관 련 질문에서 일부 모델은 과학적 합의가 명확함에도 불구하고 논 쟁이 존재하는 것처럼 보이게 하 는‘거짓균형’을제시했다. AI에 의료상담 맡겨도 될까… 챗봇 신뢰성에‘경고등’ ■워싱턴포스트특약건강·의학리포트 연구서 정확도 절반 수준… 오답 중 일부는 위험 가짜 질병도 사실처럼 인용… 허위 정보 취약성 이용자 4명 중 1명 AI 의존… 진료 포기 사례도 전문가들“의사 대체 아닌 보조 도구로 활용해야” 의료상담을위해인공지능(AI) 챗봇을사용하는 것을고려하고 있다면, 먼저 이 내용을 읽어보는것이좋다. 하버-UCLA 메디컬센터산하 런드퀴스트생의학혁 신연구소의연구원인니콜라스틸러가시험삼아건강 관련질문을챗봇에입 력하기 시작했을때, 그는 어느정도의불완전함은예상했다. 그러나 이 정도의 실패수준은예상하지못했다. 다섯개의 AI, 250개의 질문, 그리고총점은 겨우 50%를조금 넘는정답률에불과했다. 그리고 틀린 답변가운데 5개중 1개는틸 러의판단에따르면 위험한것이었다. 그는“그조언을 따를 경우누군가에게해 를끼칠가능성이매우 높다”며“상당히충격적이었다”고말했다. <사진=Shutterstock>