2020년 저는 미국 샌프란시스코 베이 지역에서 연수생활을 하고 있습니다. 제가 연수를 와있는 곳은 Google Health라는 기업체입니다. 최근 IT 기업들이 너나 할 것 없이 의료영역을 발을 내딛고 있습니다. 회사마다 사정은 다르지만, Google의 입장에서는 이상하지 않은 접근입니다. Google은 세상의 정보를 잘 조직해서, 사람들이 쉽게 접근하도록 하는 것을 목표목표 로 삼고 있습니다. 그런데 의료 영역이야 말로 정보로 가득 차 있으면서, 정보 소유의 불균형이 심하고, 그 많은 정보들이 효율적으로 활용되지 않는 분야입니다. Google이 잘 하는 일들이 의료 영역에서 도움을 줄 수 있다는 생각에 2019년 여름 즈음 Google Health가 탄생하게 되었습니다.
세상에 의미 있는 기여를 할 수 있는 연구에 대한 고민이 저를 이곳으로 이끌었습니다. 제 나름대로 의료데이터의 활용에 대해 고민을 가지고 있었고, 그런 고민 속에서 국가 데이터나 병원 데이터를 이용한 연구를 해왔었습니다. 기계학습/인공지능에 대해서도 어렴풋이 개념은 있지만, 실제로 어떻게 써야 쓸모가 있을지는 의문이었습니다. 논문 거리가 될 수 있다는 것과 실제 의료에 활용할 수 있다는 건 좀 차이가 있는 것 같았거든요. 그러던 중 2018년에서 2019년 사이 Google과 DeepMind에서 인공지능을 이용한 재미있는 의학 연구들이 몇 편 출판되었습니다. 논문들을 읽으면서 이게 의료를 어떻게 바꿀지 궁금해졌습니다. PARTNER trial이 발표되었을 때는 중재시술 분야가 어떻게 바뀔지 약간 상상이 가능했는데, 이런 일들은 제 상상력 밖에 있어 보였거든요.
신경망(neural network) 등 몇 가지 기술 혁신에 힘입어 최근 몇 년 사이 기계학습의 성능은 놀랍게 발전했습니다. 지금은 흔한 논문 구성이 되긴 했는데, 최근 인공지능/기계학습 논문들은 전문가(human expert)와 비교해서 더 좋은 성능을 발휘한다는 결론으로 끝나곤 합니다. 제 짧은 경험으로는 특정 분야의 특정 과제에 대해서는 (뒤에 이야기하겠지만 이런 조건이 꼭 필요합니다) 최고 전문가에 근사한 결과를 내놓습니다. 더 뛰어날 수는 없습니다. 최고 전문가의 소견을 가지고 학습 시킨 결과이니까요. 하지만 기계는 휴식이 필요 없고, 똑같은 일을 하루 종일 밤새 하면서도 지겨워하지 않고, 전날 과음을 하고 숙취에 절어 있는 일도 없고, 질 나쁜 환자를 만났다고 감정이 상해서 판단이 흐려지는 일이 없습니다. 인간보다 실수가 적기 때문에 여러 건을 모아 놓으면 더 높은 정확도를 보인다는 것이 제 해석입니다. 또 한번 잘 학습시키고 나면 전세계 모든 병원에 적용할 수 있는 무시무시한 확장 가능성이 있죠.
아직 모든 분야에서 좋은 성적을 보이는 것은 아닙니다. 병리나 영상 판독처럼 비교적 형태가 일정하고 정형화되어 있는 분야가 위에 해당합니다. 반면 의무기록(medical record)처럼 정형화되어 있지 않은 형태의 데이터 분야에서는 아직 만족할 만한 수준에 도달하지 못했습니다. 바로 제가 지금 이곳에서 연구하고 있는 영역입니다. 기계학습 중에서도 최근 2-3년 사이에는 자연어처리 (natural language processing, NLP) 분야의 발전은 특히 눈부십니다. 올해 발표된 GPT-3의 데모를 한번 보시기 바랍니다.
[사진 1] 오리엔테이션 후 구글 캠퍼스에서. Noogler=new googler
구글 안에서는 전산담당자를 찾으면 사람이 아니라 챗봇(chatbot)이 답을 합니다. 챗봇이 해결 못하면 사람에게 연결해준다고 하는데, 저는 지난 6개월 동안 재택근무 하면서 생긴 많은 문제들을 대부분 챗봇이 해결해 주었습니다. 재택근무 초기에 회사 컴퓨터의 네트워크 케이블이 잘못 꽂혀 있다는 것을 알았을 때에는 사람을 찾아야 했지만요. 지난 2-3년 사이 구글의 검색 성능이 확연히 좋아졌다고 느끼시는 분들이 계실 텐데요, 그런 것도 자연어처리 분야의 발전에 힘입은 결과라고 합니다 (단어 하나가 아니라 길고 복잡한 검색어 또는 문장을 입력하면 더 좋은 결과를 제공합니다). 구글 어시스턴스나 번역기도 그런 예 중 하나입니다.
저는 기계에게 의무기록을 이해하도록 잘 교육시키면 진료 과정에 드는 노력과 실수를 줄여줄 수 있다는 기대를 가지고 연구를 하고 있습니다. 실제 실험 결과는 아직 그다지 만족스럽지는 않습니다. 의무기록의 언어는 일상생활의 자연어보다 복잡합니다. 약어나 흔하지 않은 표현도 많고, 무엇보다 의학적인 배경지식이 필요합니다. 또 현실 세계의 의무기록에는 수많은 비문, 오타, 생략이 있는데, 그 의무기록을 읽는 인간의 뇌는 놀랍게도 그런 내용을 잘 조합해서 어떻게든지 이야기를 엮어간다는 것을 배우고 있습니다. 또 의무기록은 시간의 흐름에 따라 배치되는 내용이 등장하기도 하고, 인간의 실수로 완전히 잘못된 기록을 남기도 하고, 경우에 따라서는 그런 실수가 copy & paste 되면서 계속 이어지기도 합니다. 상당한 가능성이 있지만, 쉽지 않은 분야인 것 같습니다. 또 제 고민 중 하나는 이런 기술이 과연 한글에도 잘 적용될 수 있을지입니다.
인공지능 분야에는 오픈소스 문화가 깔려 있습니다. 연구자들이 논문과 함께 연구의 결과물만 공개하는 게 아니라, 연구를 하면서 작성한 코드도 올리고 친절하게 설명도 적어줍니다. 이해하고 적용할 수만 있으면 누구나 똑같은 위치에서 시작할 수 있는 셈이죠. 문제는 바로 그 “이해하면” 이라는 조건입니다. 저에게는 똑 같은 위치가 아니더라구요. 제 외래 환자 오더를 제가 내야 하는 것처럼, 이 회사에서는 자기 일은 자기가 직접 코딩을 하면서 풀어가야 합니다. 전문가로서 의학 견해만 제공하면 될 거라는 제 생각은 근무를 시작하고 며칠만에 무너졌습니다. 또 정작 같이 일을 해보니 제가 코딩을 이해하지 못하면 대화에 끼어들 수도 없었습니다. 6개월이 지났지만 아직도 저들이 하는 이야기의 절반도 채 이해하지 못하는 것 같습니다. 공학자들의 논문을 읽고 코드 한 줄을 가지고 씨름하면서 하루하루를 보내고 있습니다.
[사진 2] 안정민 교수님과 함께
이야기가 너무 길어졌네요. 마지막으로 미국연수 생활의 좋은 점과 나쁜 점을 짧게 정리하면서 글을 마칩니다. 남은 6개월 건강하고 행복하게 지내다 돌아가겠습니다.
좋은 점 | 나쁜 점 |
---|---|
· (캘리포니아라서) 과일이 너무 맛있다. | · 물가가 비싸다. 살인적인 월세 |
· (역시 캘리포니아라서) 맛있는 와인을 싸게 살 수 있다. | · 코로나 바이러스에 걸릴까 봐 무섭다. |
· 맛있는 식재료가 많다. | · 아이들이 학교를 가지 못한다. |
· 날씨가 좋다. | · 병원 가기 어렵다. |
· 아름다운 자연. 여행할 곳이 많다. | · 사람과의 접촉이 적다. |
· 가족과 함께 보낼 수 있는 여유로운 시간 | · 부모님, 처부모님을 뵙게 어렵다. |
· 다문화사회 (샌프란시스코 베이 지역은 동양인에 대한 인종 차별이 거의 없음) | · 행정 업무가 어렵다. |
· 아이들의 상상력을 자극하는 교육 |
[사진 3] 가족들과 타호 호수에서