가짜 AI 잡는 Al 나왔다

챗GPT 할루시네이션(hallucination) 오류 지녀

AI가 각종 의학 학술지에 실린 논문을 참조해 만든 논문이 의학 연구자마저 속일 정도로 정교해졌다. 이에 따라 한 학회에서는 “대규모 인공지능 언어 모델(LLM)을 이용한 논문 작성을 금지한다”고 밝혔다.

미국 노스웨스턴대 캐서린 가오 박사 연구진은 “챗GPT로 작성한 의학 논문 초록 50편이 표절 검사 프로그램을 100% 통과했고, 전문가들마저 제출된 초록의 32%를 걸러내지 못했다”는 연구 결과를 발표한 바 있다. 챗GPT는 ‘진짜 같은 가짜 논문’을 만들어 낸다는 것이다. 챗GPT를 비롯한 언어모델은 자신이 잘 모르는 문제에도 그럴듯한 대답을 내놓는 오류, 즉 할루시네이션(hallucination)을 범하기 때문이라고 한다.

챗GPT 생성 가짜 의학논문 잡아내는 AI 개발

최근 챗GPT 등 생성형 인공지능(AI)을 이용해 만들어낸 가짜 의학논문을 최고 94%의 정확도로 판별할 수 있는 기계학습(machine learning) 알고리즘이 개발됐다.

뉴욕주립대 빙엄턴 캠퍼스 아메드 아브딘 하메드 박사팀은 지난 9월 4일 과학 저널 사이언티픽 리포트(Scientific Reports)에서 챗GPT가 의학 논문을 생성하는 방식의 특징을 분석, 가짜 논문을 판별하는 머신러닝 알고리즘 ‘엑스페이크사이’(xFakeSci)를 개발했다고 밝혔다.

하메드 박사는 코로나19 대유행 동안 생의학 관련 가짜 논문이 확산해 큰 타격을 줬다며 “의학 출판물, 임상시험, 소셜미디어 마이닝 등을 다루는 연구자로서 누군가 전파하는 지식의 진위에 대해 항상 우려하고 있다”고 연구 배경을 설명했다.

연구팀은 먼저 의학·생명과학 분야 논문 데이터베이스(PubMed)에서 논문을 추출할 때 사용하는 키워드를 이용해 챗GPT로 알츠하이머병과 암, 우울증에 대해 각각 50편의 가짜 논문을 생성하고 이를 같은 주제의 실제 연구 논문 50편과 비교했다.

그런 다음 논문에서 기후 변화(climate change), 임상 시험(clinical trial), 생의학 문헌(biomedical literature)처럼 두 단어가 함께 등장하는 바이그램(bigram) 사용 특징을 분석하도록 xFakeSci 알고리즘을 프로그래밍했다.

xFakeSci로 바이그램 수와 바이그램이 다른 단어 및 개념과 어떻게 연결되는지 비교한 결과 가짜 논문에는 진짜 논문보다 바이그림 수는 훨씬 적지만, 사용된 바이그램은 다른 모든 내용과 매우 밀접하게 연결된 것으로 나타났다.

AI의 글쓰기 방식, 연구자와 달라

하메드 박사는 연구자와 AI는 글쓰기 방식에 분명한 차이가 있다고 말했다. 챗GPT는 아직 지식이 제한돼 있어 가장 중요한 단어들을 사용해 사람들을 설득하려고 하지만, 과학자들은 설득력 있는 주장을 하는 게 아니라 실제 실험 중에 일어난 일과 사용된 방법을 정직하게 기술한다는 것이다.

학습 과정을 거친 xFakeSci는 적용 분야에 따라 80~94%의 정확도로 챗GPT가 생성한 연구논문을 판별할 수 있는 것으로 나타났다. 이는 일반적인 데이터 마이닝(datamining)의 정확도 38~52%보다 배 가까이 우수한 것이라고 연구팀은 밝혔다.

하메드 박사는 “AI가 더 정교해짐에 따라 진짜와 가짜를 판단하기가 점점 더 어려워질 것”이라며 “xFakeSci를 더 발전시키기 위해 의학 분야를 넘어 공학과 다른 과학 주제, 인문학 등에도 이런 단어 패턴이 적용되는지 연구할 계획”이라고 말했다.

[지방정부티비유=티비유 기자]

Search