메뉴바로가기본문바로가기

동아사이언스

코로나 바이러스 돌연변이, 문법 찾는 AI로 밝혀냈다

통합검색

코로나 바이러스 돌연변이, 문법 찾는 AI로 밝혀냈다

2021.01.15 04:00
영국에서 발생한 B117 사스코로나바이러스-2 변이체와 스파이크 돌연변이. 8개의 스파이크 돌연변이 중에서 기능적으로 중요할 것으로 예상되는 3개의 돌연변이(초록색)만 3차 구조 모식도에 표시하였다. 기존의 D614G 돌연변이(D614G) 위치도 참고로 표시하였다. IBS 제공
영국에서 발생한 B117 사스코로나바이러스-2 변이체와 스파이크 돌연변이를 염기서열에 표시했다. 염기서열에서 일어난 돌연변이는 바이러스 단백질의 모양을 바꾸며 백신의 효능을 떨어트릴 수 있다. 하지만 단백질 구조를 형성할 수 없는 돌연변이가 일어나면 돌연변이도 사라지게 된다. IBS 제공

감염력이 한층 강해진 것으로 추정되는 신종 코로나바이러스 감염증(COVID-19·코로나19) 바이러스 변이가 잇따라 등장하면서 힘들게 개발한 백신의 효과가 약해지는 것 아니냐는 우려가 나온다. 인간의 언어에서 문법을 이용해 오류를 찾아내듯 바이러스의 변이 지점을 바이러스의 문법에서 찾아내는 기술이 개발됐다.

 

보니 버거 미국 매사추세츠공대(MIT) 컴퓨터과학 및 인공지능연구소 교수와 브라이언 브리슨 교수 공동연구팀은 인간의 언어를 분석하는 인공지능(AI)으로 코로나19 바이러스의 변이를 예측하고 백신이 효과적인 부위를 찾아내는 데 성공했다고 이달 15일 국제학술지 ‘사이언스’에 발표했다.

 

독감을 일으키는 인플루엔자 바이러스나 후천성면역결핍증(AIDS·에이즈)을 일으키는 인간면역결핍바이러스(HIV)는 백신을 만들기 어렵다. 이 바이러스들은 빠르게 돌연변이를 일으키면서 백신의 면역력을 벗어나는 ‘백신 회피’를 일으킨다. 백신이 인간에게 만들어주는 항체로부터 공격받지 않도록 구조를 바꿔 계속해 살아남는 것이다. 최근 코로나19 바이러스도 변이가 잇따라 보고되며 백신 회피가 일어나는 것 아니냐는 우려가 커져 왔다. 

 

연구팀은 인간의 언어를 분석하는 자연어처리(NLP) 모델을 바이러스의 돌연변이에 적용했다. 이 모델은 언어를 분석해 문장의 패턴이나 특정 단어의 빈도를 분석한다. 예를 들어 ‘철수가 달걀을 언제 먹었다’라는 문장을 보면 철수의 과거 행동을 담은 문장 데이터에서 언제에 해당하는 아침이나 점심을 예측하는 식이다.

 

NLP를 바이러스에도 활용 가능한 이유는 바이러스도 문법이 있기 때문이다. 돌연변이는 바이러스의 유전자(RNA) 염기서열 중 일부가 바뀌는 현상이다. 이렇게 만들어진 돌연변이가 백신 회피를 일으키려면 바뀐 유전자가 만든 표면 단백질의 모양이 달라져 백신이 만든 항체를 피하는 돌연변이가 일어나야 한다. 하지만 단백질 자체가 성립되지 않는 구조로 돌연변이가 일어날 수는 없다. 바이러스는 특정한 염기서열 문법 내에서 조금씩 변이를 일으키는 것만 가능한 셈이다.

 

연구팀은 AI에게 HIV 서열 6만 개, 인플루엔자 바이러스 서열 4만 5000개, 코로나바이러스 서열 4000개를 학습시켜 바이러스의 문법을 익히도록 했다. 그 결과 코로나19 바이러스에서는 스파이크 단백질을 구성하는 세 조각 중 S2 단백질이 백신 회피를 만들 가능성이 가장 낮았다. 이는 S2 단백질을 항체의 목표로 삼으면 변이에 상대적으로 잘 견딜 수 있다는 의미다. 인플루엔자 바이러스는 적혈구를 응집하는 헤마글루니틴 단백질이 백신 회피와 연관이 있었다. HIV에서는 V1과 V2 단백질 중간 부위가 가장 위험한 위치로 나타났다.

 

브리슨 교수는 “돌연변이 가능성이 큰 곳을 예측해 변이에 대비하고 낮은 곳을 예측해 새로운 백신의 좋은 표적을 찾아낼 수 있다”며 “백신 회피를 감시하는 데 필요한 것은 만들기 쉬운 염기서열 데이터 뿐”이라고 말했다.

관련 태그 뉴스

이 기사가 괜찮으셨나요? 메일로 더 많은 기사를 받아보세요!

댓글 0

12 + 3 = 새로고침
###
    과학기술과 관련된 분야에서 소개할 만한 재미있는 이야기, 고발 소재 등이 있으면 주저하지 마시고, 알려주세요. 제보하기