서울아산병원 아산생명과학연구원 한범 교수는 하버드 의대 연구진과 함께 유전자 발현량 조절 연구(eQTL)에서 다변량 정규분포를 활용, 기존 통계검정 방식보다 최대 630배 빠르면서도 98% 이상의 높은 정확도로 발현변화 유전자를 특정할 수 있는 알고리즘을 개발했다.
발현변화 유전자(eGene)란 유전변이에 의해 발현량이 변화하는 유전자를 말한다.
유전자 발현량이 변화할 경우 세포의 단백질 생산량이 변화해 여러 질병의 기저 원인이 될 수 있다. 따라서 어떤 유전자가 유전변이에 의해 발현량이 조절되는지를 찾아내 이를 겨냥한 치료방법을 개발해 내는 것이 가능한 것이다.
이를 위해 수많은 유전변이와 유전자 사이에 얽혀있는 연결고리 중 유의미한 인과관계를 찾아내야 하므로, 통계적 추측 방법의 하나인 통계검정을 활용, 연구 목적에 적합한 가설들을 세우고 이들의 합당성 여부를 판정하는 방식이 사용된다.
연구팀이 개발한 다변량 정규분포(Multivariate Normal Distribution)를 활용한 알고리즘을 활용할 경우 모집단의 크기에 상관없이 신속하고도 정확하게 통계검정 결과를 도출하여 문제가 될 수 있는 유전자를 특정할 수 있다.
개별 모집단 구성원들의 유전변이 분포도를 활용해 전체적인 그림을 그리고 이를 바탕으로 통계검정을 시행함으로써 복잡한 계산 없이도 정확한 결과 값을 도출해 낼 수 있게 된 것이다.
실제 적용 결과, 모집단의 숫자가 5배 증가하더라도 (N=2000, N=10,000) 다변량 정규분포를 활용한 알고리즘을 사용할 경우 각각 0.69시간, 0.77시간이 소요됐으나, 순열검정 방식을 사용한 경우 각각 약 95시간, 487시간이 걸려 새로운 알고리즘이 최대 630배 더 효율적인 것으로 나타났다.
또한 일반적인 다변량 정규분포 접근법의 취약성을 보완하여 기존 순열검정 방법과 대등한 98.44%의 정확도를 기록했다. 일반적인 다변량 정규분포의 경우 정확도가 70%까지 내려간다는 문제점이 있지만, 연구팀은 이를 보정한 새로운 모델을 만들어냄으로써 문제를 해결했다.
이번 연구를 주도한 서울아산병원 아산생명과학연구원 한범 교수는 “신약개발 분야에 새로운 알고리즘을 적용할 경우 어떤 유전자가 질병의 기저원인으로 작용하는지 밝혀내는데 걸리는 시간이 획기적으로 단축될 것으로 기대된다”며, “이번 연구결과가 신약개발 및 임상의학연구 전반에 기여해 궁극적으로는 난치병으로 고통 받는 환자들에게 도움이 되길 바란다”고 말했다.
이번 연구 성과는 인용지수(impact factor) 10.987의 美 유전학회지 (The American Journal of Human Genetics) 6월호에 최근 게재됐다. kubee08@kukimedia.co.kr