10장. 신생 구조 변이의 발견

이 장부터 자폐스펙트럼장애에서 발견된 유전 변이를 본격적으로 다룬다. 그 전에 유전 변이가 무엇인지, 어떤 종류가 있는지 먼저 정리하고 가자. 유전학에서 쓰는 용어가 처음에는 복잡해 보이지만, 기본 원리만 잡고 가면 이후 내용이 한결 수월해진다.

유전 변이란 무엇인가

우리 몸의 모든 세포에는 유전체(genome)라는 설계도가 들어 있다. 이 설계도는 약 30억 개의 글자로 이루어져 있는데, 글자의 종류는 A, T, G, C 네 가지뿐이다. 30억 글자의 배열을 하나의 거대한 책이라고 생각해 보자. 이 책 안에는 약 2만 개의 유전자(gene)가 들어 있다. 유전자란 단백질을 만드는 설명서에 해당하는 구간이다. 뼈를 단단하게 하는 콜라겐, 산소를 운반하는 헤모글로빈, 뇌에서 신경 신호를 전달하는 나트륨 채널, 이 모든 단백질의 설계 정보가 유전자에 적혀 있다.

모든 사람의 유전체는 99.9% 이상 동일하지만, 나머지 0.1%에서 사람마다 차이가 난다. 이 차이를 유전 변이(genetic variant)라고 부른다. 한 사람의 유전체를 참조 유전체(reference genome)와 비교하면 약 400만에서 500만 개의 유전 변이가 나온다. 대부분의 유전 변이는 건강에 아무 영향을 주지 않는다. 혈액형이 A형인지 B형인지를 결정하는 것도 유전 변이이고, 눈동자 색깔이 다른 것도 유전 변이 때문이다. 다만 드물게, 유전 변이가 중요한 유전자의 기능을 교란하면 질환으로 이어진다.

참조 유전체라는 말도 오해하기 쉽다. 이것은 이상적인 사람의 유전체나 기준 유전체가 아니라, 비교를 위해 정해 둔 기준 서열이다. 지도에서 서울역을 기준점으로 삼는다고 해서 서울역이 모든 장소의 목표가 되는 것은 아니듯, 참조 유전체는 차이를 표시하기 위한 좌표에 가깝다. 따라서 어떤 사람에게 참조 유전체와 다른 서열이 있다는 말은 그 사람이 비기준과 다르다는 이유로 가치가 낮아진다는 뜻이 아니다. 유전 변이는 인간이 서로 다른 방식으로 존재하게 만드는 기본 조건이며, 그중 일부만 특정한 생물학적 효과를 가진다.

여기서 한국어 번역의 오래된 문제 하나를 짚고 가자. 한국의 과학 교과서에서는 영어 ‘allele’을 ‘대립유전자’로 번역해 왔다. 이 번역은 혼란을 일으킨다. ‘대립유전자’라는 말이 마치 유전자의 한 종류처럼 들리기 때문이다. 실제로 allele은 유전자가 아니라, 유전체의 특정 위치에 존재할 수 있는 서로 다른 버전의 서열, 즉 유전 변이를 가리킨다. 유전자가 책의 한 장(chapter)이라면, 유전 변이는 그 장의 특정 위치에 있는 글자가 어떤 판본에서는 A이고 다른 판본에서는 G인 것에 해당한다. 이 책에서는 allele을 ‘유전 변이’로 표기하며, 유전자(gene)와 구분해 쓴다.

유전 변이의 종류 — 크기에 따른 분류

유전 변이는 크기에 따라 크게 세 가지로 나뉜다.

첫 번째는 단일 염기 변이(single nucleotide variant, SNV)다. 30억 글자 중 딱 한 글자만 다른 경우다. 참조 유전체에서 G인 자리가 어떤 사람에서는 T로 바뀌어 있다. 한 사람의 유전체에는 이런 한 글자 차이가 약 400만 개쯤 있다. 대부분 무해하지만, 한 글자 변화가 단백질의 아미노산을 바꾸거나 단백질 합성을 중단시키면 큰 영향을 준다.

두 번째는 삽입결실(insertion/deletion, indel)이다. 짧은 서열, 보통 1개에서 50개 정도의 글자가 추가되거나 빠진다. 여기서 중요한 것은 빠지거나 추가되는 글자 수가 3의 배수인지 여부다. 유전자에서 단백질을 만들 때 DNA를 세 글자씩 끊어 읽는데, 이것을 코돈(codon)이라 한다. 세 글자가 하나의 아미노산을 지정한다. 만약 한 글자나 두 글자가 빠지면 이 세 글자 단위의 읽기 틀(reading frame)이 밀려 버린다. 원래 “나는 밥을 먹는다”라는 문장에서 ‘는’이라는 글자 하나가 빠지면 “나 밥을 먹는다”가 되는 것이 아니라, 세 글자씩 끊어 읽는 규칙 때문에 “나밥 을먹 는다”처럼 의미 없는 문장이 되어 버린다. 이것을 읽기 틀 이동(frameshift)이라 부른다. 읽기 틀이 밀리면 그 지점 이후의 모든 아미노산이 엉뚱하게 바뀌고, 대개 곧 종결 신호(stop codon)를 만나 단백질 합성이 일찍 끊긴다. 반면 세 글자나 여섯 글자가 빠지면 읽기 틀은 유지되면서 아미노산 한두 개만 빠지는데, 이것을 읽기 틀 유지(in-frame) 삽입결실이라 한다. 이 경우 단백질 기능이 크게 달라지지는 않지만, 빠진 아미노산이 기능에 중요한 부위에 있으면 문제가 된다.

세 번째가 이 장의 주제인 구조 변이(structural variant)다. 50 글자(염기쌍) 이상, 때로는 수천에서 수백만 글자에 이르는 큰 규모의 변화를 말한다. 유전체 책에서 한 글자가 바뀌는 것이 오탈자라면, 구조 변이는 한 장이 통째로 찢겨 나가거나(결실, deletion), 같은 장이 두 번 인쇄되어 들어가거나(중복, duplication), 한 장이 거꾸로 제본되거나(역위, inversion), 한 장이 다른 권의 중간에 끼어드는(전위, translocation) 일에 해당한다. 결실과 중복은 유전자의 복사본 수를 바꾸기 때문에 복사수 변이(copy number variation, CNV)라고도 부른다. 한 사람의 유전체에는 약 1,000~2,000개의 구조 변이가 있는데, 글자 수로 따지면 모든 단일 염기 변이를 합친 것보다 더 많은 영역이 구조 변이의 영향을 받는다. 그만큼 개별 구조 변이의 규모가 크다는 뜻이다.

유전 변이의 종류 — 단백질에 미치는 영향

유전 변이가 단백질을 만드는 유전자 안에 있을 때, 그 변이가 단백질에 어떤 영향을 주느냐로도 분류한다. 이 분류는 이후 장에서 반복적으로 등장하므로 여기서 정리해 둔다.

변이 유형 다른 이름 단백질 영향 비유 자폐 연구에서의 중요도
동의 변이 (synonymous) 침묵 변이 (silent variant) 아미노산 변화 없음 오탈자이지만 뜻은 같음 대부분 무해, 대조군 역할
미스센스 변이 (missense) 아미노산 하나가 다른 것으로 교체 한 글자가 바뀌어 뜻이 달라짐 효과 예측이 어려움, 해석 난도 최고
넌센스 변이 (nonsense) 조기 종결 변이 단백질 합성이 중간에 멈춤 문장 중간에 마침표가 찍힘 기능 상실, 자폐 위험 높음
읽기 틀 이동 (frameshift) 읽기 틀이 밀려 이후 전부 엉뚱해짐 한 글자 빠져 문장 전체가 의미 없어짐 기능 상실, 자폐 위험 높음
접합 부위 변이 (splice site) 스플라이싱 변이 인트론 제거 과정이 교란 책의 페이지가 잘못 편집됨 기능 상실 또는 기능 변형
구조 변이 (structural) CNV, 결실, 중복 등 큰 영역이 빠지거나 늘어남 한 장이 찢기거나 두 번 인쇄됨 개별 효과가 큼, 초기 발견의 주역

동의 변이(synonymous variant)는 DNA 글자가 바뀌었지만 지정하는 아미노산은 같은 경우다. 유전 코드에는 여분의 코드가 있어서, 서로 다른 코돈이 같은 아미노산을 지정하기도 한다. 가령 GAA와 GAG 모두 글루탐산이라는 아미노산을 지정한다. 그래서 세 번째 글자가 A에서 G로 바뀌어도 만들어지는 단백질은 같다. 동의 변이는 대부분 건강에 영향을 주지 않는다.

미스센스 변이(missense variant)는 DNA 글자가 바뀌면서 다른 아미노산이 지정되는 경우다. GAA가 GCA로 바뀌면 글루탐산 대신 알라닌이 들어간다. 단백질에서 아미노산 하나가 바뀌는 것이 얼마나 심각한지는 경우에 따라 다르다. 비슷한 성질의 아미노산으로 바뀌면 단백질 기능이 유지되기도 하지만, 성질이 매우 다른 아미노산으로 바뀌거나 단백질의 핵심 부위에서 변화가 일어나면 기능이 크게 달라지거나 낮아진다. 미스센스 변이는 해석이 가장 어려운 변이 유형이기도 하다. 단백질 기능을 멈추지는 않으면서 기능을 미묘하게 바꾸기 때문이다.

기능 상실 변이(loss-of-function variant, LoF variant)는 단백질 합성을 중단시키는 변이를 통틀어 이르는 말이다. 넌센스 변이(nonsense variant)는 아미노산을 지정하는 코돈이 종결 코돈으로 바뀌어 단백질 합성이 중간에 멈추는 것이고, 읽기 틀 이동 삽입결실(frameshift indel)은 앞서 설명한 대로 읽기 틀이 밀려서 단백질이 엉뚱하게 만들어지다가 곧 멈추는 것이며, 접합 부위 변이(splice site variant)는 유전자의 인트론(단백질을 만들지 않는 중간 구간)을 잘라내는 과정에 필요한 신호를 교란해 기능을 유지한 단백질이 만들어지지 못하게 한다. 기능 상실 변이가 발생하면 해당 유전자의 한 복사본에서 기능을 유지한 단백질이 전혀 만들어지지 않는다. 자폐 유전학에서는 이 기능 상실 변이가 가장 강력한 위험 인자로 작용한다.

유전 변이는 어디서 오는가 — 유전이 되는 것, 새롭게 생기는 것

모든 사람은 부모에게서 유전체의 한 복사본씩을 물려받는다. 아버지에게서 받은 복사본과 어머니에게서 받은 복사본, 합쳐서 두 복사본이 한 세트를 이룬다. 한 사람이 가진 400~500만 개의 유전 변이 가운데 대부분, 약 99.98%는 부모에게도 있던 것이 자녀에게 전달된 것이다. 이를 유전된 변이(inherited variant)라 부른다.

반면 나머지 약 0.02%, 숫자로는 약 60~80개의 유전 변이는 부모에게 없던 것이 자녀에게서 새로 생겨난다. 이것이 신생변이(de novo variant)다. ‘de novo’는 라틴어로 ‘새롭게’라는 뜻으로, 부모의 정자나 난자가 만들어지는 과정에서 DNA 복제 오류로 새로 생긴 변이를 가리킨다. 5장에서 다루었듯 이 오류는 아버지의 정자에서 훨씬 자주 발생하며, 아버지의 나이가 많을수록 신생변이의 수가 늘어난다. 우리가 가진 약 70개의 신생변이 중 약 80%가 아버지의 정자에서 유래한다.

여기서 한국어 “유전”이라는 말이 만들어내는 혼란을 짚고 가야 한다. 한국어에서 “유전”은 두 가지 뜻을 가진다. 하나는 “부모에게서 물려받는다”는 뜻이고, 다른 하나는 “DNA 서열의 변화”라는 뜻이다. 신생변이는 후자의 의미에서는 유전 변이(genetic variant)이지만, 전자의 의미에서는 유전되지 않는 변이다. 부모에게는 없고 자녀에게만 있으니 부모에게서 물려받은 것이 아니다. “유전 변이인데 유전되지 않는다”는 말이 모순처럼 들리지만, 이것은 한국어의 번역 문제이지 과학적 모순이 아니다. 영어에서는 ‘genetic’(DNA와 관련된)과 ‘inherited’(물려받은)를 따로 구분하는데, 한국어에서는 둘 다 “유전”으로 옮기다 보니 혼란이 생긴다. 이 책에서 “유전 변이”는 DNA 서열의 변화를 뜻하고, “유전된 변이”는 부모로부터 물려받은 변이를 뜻한다. 신생변이는 유전 변이이지만 유전된 변이는 아니다.

신생변이는 부모에게 없으므로 가족력으로 예측할 수 없고, 모든 사람에게 동등하게 일어나는 확률적 사건이다. 특정 가족에게만 나타나지 않으며, 누구의 자녀에게든 일어난다. 그래서 가족 안에서 자폐를 가진 사람이 본인뿐인 단발성 가족에서 신생변이가 특히 큰 역할을 한다.

산발적 자폐에서의 첫 번째 발견

이제 본론으로 들어가자. 2007년, 콜드 스프링 하버 연구소의 조너선 세밧(Jonathan Sebat)과 마이클 위글러(Michael Wigler)가 이끈 연구팀은 자폐 유전학에서 전환점이 되는 발견을 보고했다. Sebat et al. (2007) 연구는 자폐 진단군과 부모의 유전체를 비교하여, 부모에게는 없지만 자녀에게서 새로 나타난 구조 변이, 즉 신생 구조 변이(de novo CNV)를 찾았다. 여기에는 고해상도 어레이 비교 유전체 혼성화(array comparative genomic hybridization, aCGH)라는 기술이 쓰였다. 유리 칩 위에 유전체의 각 영역에 해당하는 DNA 조각들을 붙여 놓고 참여자의 DNA와 참조 DNA를 형광으로 표지해 함께 칩에 붙인 다음, 형광 신호의 차이로 어떤 영역이 결실되었거나 중복되었는지를 탐지하는 방법이다.

분석 결과, 가족 안에서 자폐를 가진 사람이 한 명뿐인 단발성 가족에서 신생 구조 변이의 빈도는 10.2%였다. 자폐 진단을 받지 않은 대조군에서는 1.0%였으니 열 배 차이다. 가족 안에 자폐스펙트럼장애 진단을 받은 사람이 두 명 이상 있는 다발성 가족에서는 2.6%로, 단발성과 대조군의 중간이었다. 이 발견은 부모에게 없던 유전 변이가 자녀에게서 새로 생기는 것이 자폐스펙트럼장애의 중요한 원인 중 하나이며, 이 기전이 가족력이 없는 산발적 자폐에서 특히 두드러진다는 점을 보여주었다. 다발성 가족에서 신생변이의 기여가 상대적으로 작은 것은, 이 가족에서는 부모로부터 유전되는 변이가 더 큰 역할을 하기 때문으로 해석되었다.

여기서 과학 연구를 읽는 방식에 대해 한 가지 짚고 가자. 단발성 가족에서의 10.2%라는 수치는 이후 더 큰 코호트에서 반복 검증되면서 실제보다 다소 높게 추정된 값으로 드러났다. 이것은 과학에서 흔히 관찰되는 현상으로, 승자의 저주(winner’s curse)라 불린다. 어떤 효과가 처음 발견될 때는 그 효과가 특별히 크게 나타난 표본에서 나오는 경향이 있다. 효과가 작은 표본에서는 통계적 유의성에 도달하지 못해 발견 자체가 일어나지 않기 때문이다. 이후 더 큰 표본에서 같은 현상을 다시 측정하면, 처음보다 효과 크기가 줄어드는 것이 일반적이다. 이것은 최초의 발견이 틀렸다는 뜻이 아니다. 신생 구조 변이가 단발성 자폐에서 과잉이라는 핵심 결론은 이후의 대규모 연구들에서 반복적으로 확인되었다. 다만 그 차이의 크기가 처음 보고보다 완만한 것이다. 과학 연구에서 최초의 발견이 전하는 메시지와, 그 이후 재현 연구들이 보여주는 정밀한 수치 사이에는 늘 이런 조정의 과정이 끼어든다.

반복되는 좌위들

세뱃의 연구가 신생 구조 변이의 전반적인 기여를 보여주었다면, 이어진 연구들은 유전체의 어느 위치에서 구조 변이가 반복적으로 발생하는지를 밝혀 나갔다. Marshall et al. (2008) 연구는 427명의 자폐 진단군에서 16p11.2라는 영역의 결실과 중복이 약 1%의 빈도로 관찰된다는 사실을 발견했다. 16p11.2는 인간 염색체 16번의 짧은 팔에 위치한 약 600킬로베이스(60만 글자) 크기의 영역이다. 이 영역의 양쪽에는 서로 매우 비슷한 DNA 서열(분절 중복, segmental duplication)이 자리 잡고 있어서, DNA가 복제될 때 이 비슷한 서열 사이에서 잘못된 재조합이 일어나기 쉽다. 책에서 비슷한 문장이 두 군데에 있을 때 복사기가 한 문장에서 다른 문장으로 건너뛰면서 그 사이 내용을 빼먹거나 두 번 복사하는 오류를 범하기 쉬운 것과 같은 원리다.

Sanders et al. (2011) 연구는 SSC의 1,124가족을 분석하여 여러 개의 반복 발생 좌위를 확인했다. 그중 7q11.23 영역의 중복이 눈에 띄었다. 이 영역의 결실은 윌리엄스 증후군(Williams syndrome)을 일으키는 것으로 알려져 있었는데, 윌리엄스 증후군은 자폐와 거의 정반대의 사회적 특성을 보인다. 윌리엄스 증후군을 가진 사람들은 낯선 사람에게도 거리낌 없이 다가가고, 사회적 상호작용에 강한 동기를 보이며, 얼굴 인식 능력이 상대적으로 잘 보존되어 있다. 그런데 같은 영역의 중복, 즉 이 영역의 유전자 복사본이 하나 더 늘어나는 변이는 오히려 자폐스펙트럼장애와 연관되어 있었다. 같은 유전자 영역이 결실되면 사회성이 과도해지고, 중복되면 사회성이 감소하는 이 거울상 현상(mirror phenotype)은 유전자 용량(dosage), 즉 유전자가 만들어내는 단백질의 양이 뇌의 사회적 기능에 직접 영향을 준다는 점을 보여주었다. 단백질이 너무 적어도 문제이고 너무 많아도 문제라는 뜻이다.

Pinto et al. (2010) 연구는 AGP 코호트의 996명 자폐 진단군에서 희귀 구조 변이의 전체적인 부담을 분석하여, 자폐 진단군에서 유전자를 포함하는 희귀 구조 변이의 빈도가 대조군보다 1.19배 높다는 점을 보여주었다. 이 연구에서 SHANK2, SYNGAP1, DLGAP2 같은 시냅스 관련 유전자들이 새로운 자폐 위험 유전자로 떠올랐다. 시냅스(synapse)란 뉴런과 뉴런이 만나 신호를 전달하는 접합부다. 뉴런 A가 뉴런 B에게 신호를 보낼 때, 그 신호는 시냅스라는 아주 좁은 틈을 건너 전달된다. 이 틈의 수신 측에는 신호를 받아들이는 수용체들이 촘촘히 모여 있는 구조가 있는데, 이를 시냅스 후 치밀질(postsynaptic density)이라 부른다. SHANK2는 이 시냅스 후 치밀질에서 뼈대 역할을 하는 단백질을 만드는 유전자로, 수용체들을 적절한 위치에 고정시키고 세포 내부의 신호 전달 경로와 연결하는 역할을 한다. SHANK2가 결실되면 이 뼈대가 무너져 시냅스의 신호 전달이 교란된다. 이후 Pinto et al. (2014) 연구는 더 큰 코호트(2,446명 참여자, 2,640명 대조군)에서 이 결과를 재현하면서, 구조 변이에 의해 교란되는 유전자들이 시냅스 기능, 신경 발달, 크로마틴 리모델링이라는 세 가지 생물학적 경로로 수렴한다는 것을 보여주었다. 이 수렴 현상은 파트 5에서 자세히 다룰 핵심 주제다.

캐너가 자폐를 기술한 이후 60년 넘게 그 생물학적 원인이 잘 알려져 있지 않았던 상황에서, 유전체의 물리적 변화가 자폐와 직접 연관된다는 유전체 수준의 증거가 처음으로 제시된 것이다. 다만 구조 변이는 자폐 유전 변이의 한 종류에 불과했다. 구조 변이가 유전체 책에서 한 장이 통째로 찢기거나 두 번 인쇄되는 것이었다면, 그보다 훨씬 작은 규모에서, 글자 하나가 바뀌거나 한두 글자가 빠지는 수준에서도 자폐에 기여하는 변이들이 발견되기 시작했다.

이 장을 삶으로 옮길 때

신생 구조 변이는 부모에게 없던 변이가 자녀에게서 새로 확인되는 경우를 말하지만, 이것은 부모가 무엇을 잘못했다는 뜻이 아니다. 정자와 난자가 만들어지고 초기 배아가 나뉘는 과정에는 누구에게나 우연한 DNA 변화가 생길 수 있다. 어떤 구조 변이는 발달 경로에 큰 영향을 줄 수 있지만, 같은 변이를 가진 사람들도 언어, 인지, 감각, 건강 문제가 서로 다르게 나타난다. 따라서 검사 결과는 운명표가 아니라 추가 평가와 지원을 설계하기 위한 단서로 읽어야 한다. 형제자매와 예비 부모에게는 재발 가능성을 상담할 때 필요한 정보가 될 수 있지만, 그 숫자도 가족의 미래를 단정하지 않는다. 이 장의 과학은 불안을 키우기보다, 우연과 생물학과 지원 계획을 구분해서 보게 하는 데 쓰여야 한다.

참고문헌

Marshall, C. R., Noor, A., Vincent, J. B., Lionel, A. C., Feuk, L., Skaug, J., … & Scherer, S. W. (2008). Structural variation of chromosomes in autism spectrum disorder. American Journal of Human Genetics, 82(2), 477-488. doi:10.1016/j.ajhg.2007.12.009

Pinto, D., Pagnamenta, A. T., Klei, L., Anney, R., Merico, D., Regan, R., … & Betancur, C. (2010). Functional impact of global rare copy number variation in autism spectrum disorders. Nature, 466(7304), 368-372. doi:10.1038/nature09146

Pinto, D., Delaby, E., Merico, D., Barbosa, M., Merikangas, A., Klei, L., … & Scherer, S. W. (2014). Convergence of genes and cellular pathways dysregulated in autism spectrum disorders. American Journal of Human Genetics, 94(5), 677-694. doi:10.1016/j.ajhg.2014.03.018

Sanders, S. J., Ercan-Sencicek, A. G., Hus, V., Luo, R., Murtha, M. T., Moreno-De-Luca, D., … & State, M. W. (2011). Multiple recurrent de novo CNVs, including duplications of the 7q11.23 Williams syndrome region, are strongly associated with autism. Neuron, 70(5), 863-885. doi:10.1016/j.neuron.2011.05.002

Sebat, J., Lakshmi, B., Malhotra, D., Troge, J., Lese-Martin, C., Walsh, T., … & Wigler, M. (2007). Strong association of de novo copy number mutations with autism. Science, 316(5823), 445-449. doi:10.1126/science.1138659