[피플] 바이오 석학 김성호 박사, 머신러닝으로 지놈 분석해 20가지 암 발병 예측
2018년 2월 13일 화요일 | 박꽃 기자 이메일

[무비스트=박꽃 기자]
인간은 지금, 무수히 제 생명력을 확장하는 암이라는 공포 앞에 맨몸으로 서 있다.

보건복지부 2015년 국가암등록통계에 따르면 2011년부터 2015년까지 5년간 암을 얻은 한국인은 111만여 명이 넘는다. 그 중 2016년 1월 1일까지 생존한 사람은 70.7%인 78만 5천여 명이다. 3명 중 2명은 최대 5년 이상 생존한 셈이지만, 그 전에 사망한 비율도 29.3%로 적지 않다. 매년 새롭게 암을 얻는 환자는 21만 명 이상이고 65세 이상 노인 10명 중 1명은 이미 암 유병자다.

암 치료 과정은 고통스럽다. 육체적 고통뿐 아니다. 한국 암 치료 보장성 확대 협력단(Korea Cancer Care Alliance, KCCA)이 2016년 암 환자 및 가족 185명을 대상으로 한 조사 결과에 따르면 암 치료에서 가장 힘든 점은 경제적 요인이다. 비급여 항암치료에 소요되는 비용이 상당한 부담으로 작용한 까닭이다. 조사에 따르면 암 환자에게 투입되는 평균 치료비는 연간 2877만원에 달한다. 응답 대상의 22.7%는 경제적 부담으로 비급여 항암 치료 중단을 경험했다고 답했다.

암 발병 가능성을 예측할 수 있다면, 이 같은 상황은 크게 달라진다. 사회와 개인이 감당해야 하는 비용과 고통을 최소화할 수 있다. 내 몸에서 어떤 암이 발병할 가능성이 높은지 미리 알 수만 있다면, 발병을 막기 위해 최대한의 노력을 기울일 테니까 말이다. 물론, 정확한 정보를 얻을 수 있다는 전제가 성립돼야 한다.

지놈(유전체)을 연구해온 세계적 바이오 석학 김성호 박사는 대중에 그 정보를 건넬 방법을 찾아낸 듯하다. 빅데이터 분석에 활용하던 IT업계의 머신러닝을 유전체 분석에 도입한 게 ‘신의 한 수’였다. 놀랍게도, 백인을 상대로 한 앞선 연구에서 암 발병 가능성을 예측할 수 있는 유의미한 결과물을 얻어냈다. 인천대학교와 동양인 대상 연구를 진행하고 EDGC와 기술 상용화를 예고한 김성호 박사, 암이라는 공포 앞에 맨몸으로 선 인간에게 최소한의 갑옷을 입혀줄 수 있을까.


머신러닝으로 지놈을 분석해 20가지 암의 발병 가능성을 예측할 수 있다고 하셨습니다. 세간을 크게 집중시킬 만한 연구 결과입니다.
암은 개인과 가족에게 큰 고통을 안깁니다. 병이 진행될수록 고치기는 점점 더 힘들고 경비도 많이 들지요. 하지만 지놈을 분석하면 개인이 암에 걸릴 가능성이 얼마나 되는지 예측할 수 있습니다. 타고난 유전체의 어떤 요소가 질병과 관련돼 있는지 파악할 수 있으니까요. 만약 개인이 그 정보를 미리 알 수 있다면 암으로부터 자신을 보호할 만한 결정을 가능한 한 빠르게 내릴 수 있겠지요.

지난 8일(목) 인천대학교에서 진행한 “기계학습 기반의 유전학적 및 환경, 생활방식에 따른 20가지 주요 암의 예측” 특별강연에서 백인 약 6,000명을 대상으로 이미 실험을 진행했다고 하셨지요.
백인 6,000명의 데이터로 20가지 종류의 암 발병 가능성을 이미 조사했습니다. 처음에는 데이터가 너무 적다고 생각했습니다. 유의미한 결과가 나오기 힘들다고 봤습니다. 하지만 머신러닝으로 그들의 지놈을 분석하니 완전히 정밀하지는 않지만 어느정도 암 발병 가능성을 예측할 수 있었습니다. 재래식 연구방법을 사용했을 때보다 훨씬 유의미한 결과가 나왔습니다. 우리 연구결과에 따르면 암 발병 원인은 최소 33%에서 최대 88%까지 지놈과 관련돼 있습니다.

그동안은 불가능했던 예측입니다. 빅데이터를 해석하는 방법으로 주로 사용하던 인공지능의 머신러닝 기술을 어떻게 유전체 분석에 접목할 수 있었는지요.
그동안은 유전체 서열을 파악만 했을 뿐, 그것을 어떻게 분석해야 하는지 다들 잘 알지 못했습니다. 재래식 방법이 잘못된 것이 아닌가 의심하던 중 머신러닝으로 지놈을 해석하면 조금 다른 결과가 나오지 않을까 하는 생각이 들더군요.

재래식 연구방법과 머싱러닝 방법의 차이를 설명해 주신다면요.
재래식 연구방법은 간소화가 핵심입니다. 연구자가 특정 데이터에서 발견한 하나의 원칙으로 또 다른 경우를 예측하는 겁니다. 예측이 틀릴 경우 최초의 원칙을 조금씩 개조해 나가는 식이지요. 간단한 문제는 이런 식으로 잘 풀어집니다. 하지만 지놈처럼 60억 개에 달하는 매우 방대하고 복잡한 데이터에서는 최초의 원칙을 찾을 수가 없습니다. 연구자가 연구의 출발점을 찾지 못하는 셈입니다.

그래서 유전체 분석에 머신러닝이라는 새로운 방식을 도입하신 거군요.
그렇습니다. 머신러닝을 적용하면 기존의 연구 순서가 완전히 뒤바뀝니다. 연구자가 어떤 간소화된 원칙(가설)을 세우기 전에, 인공지능을 통해 수도 없이 많은 지놈 데이터를 이리저리 조직화해보기 때문입니다. 그러면 역으로 어떤 원칙이 찾아집니다.

흥미롭습니다. 하지만 유전적으로 타고난 것만이 암 발병에 영향을 미치는 것은 아닐 텐데요. 예컨대 담배를 자주 피우는 후천적 선택으로 인해 폐암이 발병하기도 합니다.
잘 알려진 것처럼 환경과 생활요인도 암 발병에 큰 영향을 미칩니다.

독자를 위해 환경과 생활요인을 좀 더 정확하게 설명해주시면 좋을 것 같습니다.
환경은 내가 통제할 수 없지만 내 몸에 영향을 미치는 외부의 무언가를 의미합니다. 예를 들면 공기, 물, 음식, 바이러스 같은 것입니다. 생활요인은 반대로 외부의 영향 없이 온전히 내가 결정하는 것들을 뜻합니다. 술을 마시거나 담배를 피우는 게 여기에 해당합니다. 물론 스트레스처럼 환경과 생활요인 두 가지에 모두 해당하는 경우도 있습니다. 스트레스는 외부에서 가해지지만 내가 그것을 어떻게 받아들일지를 결정할 수 있으니까요.

그런 후천적인 요인들이 암 발병에 큰 영향을 주는 것 아닌지요.
당신이 든 예시처럼, 담배와 폐암은 완전히 연관되어 있습니다. 광부나 굴뚝 청소부가 암에 잘 걸리는 것도 직업환경과 연관성이 있습니다. 하지만 이런 경우는 어떤가요? 담배를 피우는 모든 이들이 폐암에 걸리지는 않습니다. 광부와 굴뚝 청소부가 모두 암에 걸리는 것도 아니지요.

그 점이 독특합니다. 제 할아버지도 평생 담배를 피우셨지만 폐암은 걸리지 않으셨습니다.
그래서 암 발병에는 어느 정도 지놈의 영향이 포함돼 있다고 볼 수밖에 없는 것입니다. 담배를 피우는 행위가 개인 지놈에 손상 혹은 변질을 가져올 때 암 발병의 가능성이 있는 것인데, 어떤 사람은 손상된 유전체를 회복하는 엔자임의 활성도가 높습니다. 그렇다면 담배를 아무리 자주 피워도 무탈하겠지요. 물론 20년 정도 건강히 더 살고 난 뒤에 폐암에 걸릴 수는 있겠지만요.


결국 암 발병에 환경과 생활요인이 어느 정도 영향을 미친다고 해도, 타고난 유전이 좌우하는 부분도 분명하다는 말씀이군요.
그렇습니다. 게다가 환경과 생활요인은 어느 종족이든 데이터가 턱없이 부족합니다. 한 인간이 태어난 순간부터 살아있는 지금까지 경험한 모든 정보를 기록하고 종합해 수치화해야 하기 때문입니다. 그 작업 자체도 어려울뿐더러 수치를 어떤 방식으로 정리하고 해석하느냐도 문제가 되겠지요. 환경과 생활요인을 연구한다고 하더라도 한동안은 잠정적인 결정밖에는 내릴 수 없을 겁니다. 물론 웨어러블 바이스가 많이 나와 각종 기록을 체크하고 있으니 언젠가는 데이터가 쌓일 테고, 그때가 되면 재미있는 정보를 많이 추출해낼 수 있다고 봅니다.

대중이 궁금한 건 무엇보다 기술 상용화일 텐데요. 지놈을 검사해 암 발병 가능성을 미리 알 수 있는 서비스가 이른 시일 안에 제공될 거라고 보시는지요.
물론입니다. 지금까지는 동양인 중에서 나와 동료 연구자인 EDGC 이민섭 대표 두 명의 지놈을 데이터로 테스트해본 상황입니다. 하지만 앞으로는 개인이 언제든 자기 지놈 정보를 분석해주는 서비스를 이용할 수 있을 겁니다. 어떤 과학이든 개인이 쓸 수 있을 때까지 충분히 개발해야 한다고 봅니다. 그 단계에 이르지 못한다면 쓸모 있는 과학이라고 할 수 없습니다. 과학의 가치는 어떻게 하면 개인의 고통을 줄이고 그들을 행복하게 만들 수 있는지에 달렸습니다.

지놈 연구를 진행하며 가장 어려운 점이 있다면요.
미국에서 연구하다가 한국에 돌아와 정말 놀랐습니다. 한국의 지놈 연구자들은 자기 연구 결과를 거의 공유하지 않더군요. 정보를 독점하는 폐쇄적인 문화가 심합니다. 그들이 수행한 연구 대다수가 국가 지원을 받았는데도 말입니다. 세금으로 연구를 했다면 그 결과물을 온전히 자기 소유로만 볼 수는 없습니다. 미국에서는 국가 지원을 받는 연구에 조건을 붙입니다. 일정 기간은 연구 결과를 독점적으로 활용하고 논문을 쓰되, 그 후에는 공개해야 한다는 것이지요.

의미 있는 지적입니다.
이런 분위기가 지속된다면 아주 위험합니다. 연구자가 연구할 수 있도록 돈을 낸 사람은 국민입니다. 그렇다면 국민에게 도움이 되어야 합니다. 연구 초기의 이점은 자신들이 누리되, 일정 기간이 지나면 다른 연구자들에게 자료를 공개해 더욱 쓸모 있는 결과를 끌어내야 합니다. 비즈니스 관점으로 봐도 잘못된 현상입니다.

앞으로 머신러닝을 활용한 지놈 연구가 어디까지 발전할까요.
앞으로는 어떤 치료를 할 경우 그 효과를 볼 사람인지 아닌지도 예측할 수 있을 거로 보입니다. 똑같은 약을 써도 지놈에 따라 어떤 사람은 좋은 효과를 보는 반면 어떤 사람은 죽어버릴 가능성도 있을 테니까요. 사실 머신러닝을 활용한 지놈 분야는 물리나 화학처럼 연구 역사가 긴 분야가 아닙니다. 때문에 일찍 연구를 시작한 나라와 늦게 시작한 나라의 차이가 별로 없고, 또 있다고 해도 그다지 중요하지 않은 수준입니다. 그러니 앞으로는 젊은 연구자들이 이 분야 연구에 활발히 진입하길 기대합니다.


아래는 김성호 박사 이력.
1937년 대구 출생.
서울대 화학과 및 동대학원 졸업.
1966년 미국 피츠버그대학 박사.
1973년 X선 결정구조 분석법을 이용해 전달된 RNA(t-RNA)의 3차원 구조를 세계 최초로 밝힘.
1990년대 초 암 발생 유전자인 라스(Ras)단백질 구조를 밝히고 세계 최초로 암호화된 지놈 정보 번역.
최근 미국국립과학원회보(PNAS)에 ’유전자 데이터 분석 기반 기계학습(머신러닝) 기술을 적용한 주요 암의 위험도 예측’ 논문 발표.
현 미국 캘리포니아 대학 버클리 분교 화학과 교수.
현 인천대 석좌교수 및 융합과학기술원장.
현 유전체 정보 기반회사 이원다이애그노믹스 기술고문.


2018년 2월 13일 화요일 | 글_박꽃 기자(got.park@movist.com 무비스트)
무비스트 페이스북(www.facebook.com/imovist)

사진 제공_EDGC

(총 0명 참여)
1