고려대학교 컴퓨터학과 연구팀이 의학, 생물학 질문에 답하는 인공지능 모델을 경진하는 국제대회인 BioASQ 대회에서 Google팀과 전년도 우승팀 푸단대를 제치고 우승했다. 고려대학교 팀은 윤원진, 이진혁, 김동현, 정민별 등 대학원생과 지도교수인 강재우 교수로 구성된 5인 팀이다.
올해로 7번째를 맞는 BioASQ 대회는 가장 오래된 의생명 분야 질의응답 시스템 경진대회로 Google, 미국 국립보건원(NIH), 유럽연합 등이 후원한 바 있다. 이 연구팀이 참여한 BioASQ 7b Phase B챌린지는 주어진 논문에서 질문에 대한 답을 찾아내는 문제들로 구성되어 있다.
가령 대장암에 관련된 논문을 주고 ‘대장암의 재발에 관여하는 유전자변이는 무엇인가?’라는 질문을 하는 방식이다. 이 대회의 결과는 사전에 전문가가 만들어 놓은 정답을 이용하여 평가되고, 추후에 전문가의 검토를 거쳐서 발표된다.
이번 결과는 인공지능 모델 BioBERT를 이용하여 얻은 성과이다. BioBERT는 강재우 교수 연구팀(이진혁 박사와 윤원진 박사과정의 공동주도)과 네이버 Clova팀(김성동 연구원)의 협업으로 개발된 딥러닝 기반 ‘BERT (Bidirectional Encoder Representations from Transformers)’ 모델의 의생명 분야 확장판이다.
이 모델은 문장에서의 문맥을 통하여 단어의 의미를 이해하도록 설계됐다. 1800만 건의 의생명분야 학술논문을 학습하여 전문지식을 요하는 논문의 이해에 필요한 단어의 문맥적 정보를 습득한다. 모델은 이 정보를 바탕으로 의생명 분야 질문에 관한 답을 주어진 논문으로부터 찾는다.
BioBERT논문은 지난 1월말 인터넷에 처음 공개된 뒤 심사를 거쳐 지난 8월에 생명정보학 최고 권위지인 Bioinformatics에 최종게재 확정됐다. 1월말 인터넷 공개 이후 현재까지 8개월간 40회 이상의 피인용 횟수를 기록하고 있다. 이는 공식 게재 전 피인용 횟수로는 매우 이례적인 수치이다. 또한 Google, CMU(카네기 멜론대), AllenAI 등 해외 유수의 인공지능 연구기관들이 BioBERT논문을 인용하는 등 학계의 관심도 뜨겁다.
강재우 교수 연구팀(윤원진, 이진혁, 김동현, 정민별)은 이 모델을 BioASQ대회에 최적화하여 참가했고, 총 5회의 평가회차에서 Google과 전년도 우승자 푸단대를 큰 성능 폭으로 제치고 5회 모두 1등을 기록했다.
이번 연구는 의생명 도메인의 텍스트를 학습한 결과를 바탕으로 기존의 의생명 질의응답 시스템의 성능을 유의미한 수준까지 큰 폭으로 개선했다는 점에서 큰 의의가 있다. 앞으로 이 모델을 이용하여 임상적으로 유의미한 의사결정 지원도구를 개발할 수 있을지 기대가 모아진다.
이번 대회의 결과는 학계와 Google, 글로벌 제약회사 등 산업계의 많은 관심 속에서 독일 뷔르츠부르크에서 개최된 BioASQ워크숍에서 9월 20일 발표됐다.
이영수 기자 juny@kukinews.com