본문 바로가기
인공지능/인공지능 뉴스

GPT-4, 대한민국 한의사 국가시험 합격! AI의 새로운 가능성 열다

by Maccrey 2024. 8. 18.
반응형

인공지능의 발전이 이제 의료 분야에서도 새로운 문을 열었습니다. 오픈AI의 생성형 인공지능 GPT-4가 대한민국 한의사 국가시험에서 놀라운 성과를 거둔 사실이 가천대학교 한의과대학 김창업 교수 연구팀의 연구를 통해 밝혀졌습니다. 이 연구는 GPT-4가 한의학 데이터에 대한 특별한 훈련 없이도 한의사 시험을 통과할 수 있는 능력을 보였다는 점에서 매우 중요한 의의를 가집니다.

 

인공지능이 한의사 국가시험을 통과했다고?

GPT-4는 전 세계적으로 인정받는 언어 모델로, 다양한 분야에서 활용되고 있는 인공지능입니다. 특히 이번 연구에서는 이 GPT-4가 대한민국 한의사 국가시험에 도전해 눈에 띄는 성과를 거두었습니다. 김창업 교수 연구팀은 2022년 한의사 국가시험에 포함된 340개의 문항을 GPT-4에게 제시하고 그 성과를 평가했습니다.

 

기존 연구에서 GPT-4는 아쉽게도 합격하지 못했지만, 이번 연구에서는 프롬프트 엔지니어링(prompt engineering) 기법을 적용해 모델의 성능을 극대화했습니다. 프롬프트 엔지니어링이란, 언어 모델에게 문제를 제시하는 방식을 최적화하여 인공지능의 응답 정확도를 높이는 기술입니다. 이를 통해 GPT-4는 한의사 국가시험에서 66.18%의 정답률을 기록하며 합격 수준에 도달했습니다.

 

세부 과목별 성과와 한국 특수성 반영의 한계

GPT-4는 과목별로도 과락 기준인 40%를 훌쩍 넘는 성과를 거두었습니다. 본초학, 소아과학, 부인과학 등의 과목에서는 각각 87.5%, 81.2%, 79.2%의 높은 정답률을 보였습니다. 그러나 한국 한의학의 특수성을 반영하는 과목인 보건의약관계법규와 상한론-사상의학에서는 각각 40.0%, 43.8%의 상대적으로 낮은 성과를 보였습니다. 이는 글로벌 AI 모델인 GPT-4가 지역적인 특수성을 반영하는 데는 한계가 있을 수 있음을 시사합니다.

 

프롬프트 엔지니어링의 중요성

이번 연구에서 가장 흥미로운 부분은 프롬프트 엔지니어링이 GPT-4의 성능에 큰 영향을 미쳤다는 점입니다. 한국어로 문제를 제시했을 때 GPT-4의 평균 정답률은 51.82%였으나, 한의학 용어를 한자로 병기하거나, 문제를 영어로 번역해 풀도록 했을 때는 각각 57.59%, 63.65%로 성과가 크게 상승했습니다. 또한, 동일한 문항에 대해 반복적으로 답변을 얻어 그 중 가장 빈도가 높은 답을 선택하는 자기일관성(Self-consistency) 기법을 사용했을 때, 정답률이 66.18%로 더 높아졌습니다.

 

미래의 의료 인공지능 방향성

김창업 교수는 이번 연구에 대해 “프롬프트 엔지니어링을 통해 GPT-4의 한의학 문제해결 능력을 강화할 수 있었다는 점에서 의미가 크다”라며, 언어와 사고 방식에 따라 인공지능의 성능 차이가 크다는 점을 강조했습니다. 연구원 장동엽 또한, 한국의 특수성을 반영하지 못하는 글로벌 AI의 한계를 지적하며, 향후 의료 인공지능 개발 시 각 지역의 특수성을 반영할 수 있는 노력이 필요하다고 말했습니다.

 

이 연구 결과는 국제적으로 권위 있는 학술지 PLOS Digital Health에 게재되었으며, AI가 한국의 한의사 국가시험을 통과할 수 있는 잠재력을 증명했습니다. 이는 앞으로 의료 AI의 발전 방향성에 있어 중요한 참고자료가 될 것입니다.

 

GPT-4가 보여준 성과는 단순한 기술적 진보를 넘어서, 인공지능이 의료 분야에서도 실질적인 도움을 줄 수 있는 가능성을 열어주고 있습니다. 물론, 지역적 특수성을 반영하는 문제는 여전히 해결해야 할 과제이지만, 이번 연구는 의료 AI의 미래에 대한 기대감을 한층 높였습니다.

당신을 위한 3줄 요약

  1. GPT-4가 대한민국 한의사 국가시험에서 66.18%의 정답률로 합격 수준에 도달했습니다.
  2. 프롬프트 엔지니어링을 통해 GPT-4의 성능을 극대화했으며, 한국 특수성을 반영하지 못하는 한계도 발견되었습니다.
  3. 이번 연구는 향후 의료 AI 개발에서 지역 특수성을 반영하는 노력이 필요함을 시사합니다.

3 line summary for you

  1. GPT-4 achieved a passing-level score in the Korean National Licensing Examination for Korean Medicine Doctors, with a 66.18% accuracy rate.
  2. Prompt engineering was key to maximizing GPT-4's performance, though limitations in reflecting Korea's specific context were noted.
  3. The study suggests that future AI development in medicine should incorporate regional specificities.

공감과 댓글은 저에게 큰 힘이 됩니다.

 

Tester Share [테스터쉐어] - Google Play 앱

Tester Share로 Google Play 앱 등록을 단순화하세요.

play.google.com

 

 

나비일기장 [수발일기장] - Google Play 앱

수형자 수발가족및 수발인을 위한 일기장으로 수형생활시기에 따른 정보를 얻을 수 있습니다.

play.google.com

 

 

반응형