이 장부터 자폐스펙트럼장애에서 발견된 유전 변이들을 본격적으로 다루기 시작한다. 그 전에 유전 변이가 무엇인지, 어떤 종류가 있는지를 먼저 정리하고 넘어가자. 유전학에서 사용하는 용어들이 처음에는 복잡하게 느껴질 수 있지만, 기본 원리를 이해하면 이후의 내용이 훨씬 수월해진다.
우리 몸의 모든 세포에는 유전체(genome)라는 설계도가 들어 있다. 이 설계도는 약 30억 개의 글자로 이루어져 있는데, 글자의 종류는 A, T, G, C 네 가지뿐이다. 이 30억 글자의 배열을 하나의 거대한 책이라고 생각해보자. 이 책 안에는 약 2만 개의 유전자(gene)가 들어 있다. 유전자란 단백질을 만드는 설명서에 해당하는 구간이다. 뼈를 단단하게 하는 콜라겐, 산소를 운반하는 헤모글로빈, 뇌에서 신경 신호를 전달하는 나트륨 채널, 이 모든 단백질의 설계 정보가 유전자에 적혀 있다.
모든 사람의 유전체는 99.9% 이상 동일하지만, 나머지 0.1%에 해당하는 부분에서 사람마다 차이가 있다. 이 차이를 유전 변이(genetic variant)라고 부른다. 한 사람의 유전체를 참조 유전체(reference genome)와 비교하면, 약 400만에서 500만 개의 유전 변이가 발견된다. 대부분의 유전 변이는 건강에 아무런 영향을 미치지 않는다. 혈액형이 A형인지 B형인지를 결정하는 것도 유전 변이이고, 눈동자 색깔이 다른 것도 유전 변이 때문이다. 하지만 드물게, 유전 변이가 중요한 유전자의 기능을 교란하면 질환으로 이어질 수 있다.
여기서 한국어 번역의 오래된 문제를 하나 짚고 넘어가자. 한국의 과학 교과서에서는 영어 ‘allele’을 ‘대립유전자’로 번역해왔다. 이 번역은 혼란을 일으킨다. ‘대립유전자’라는 말이 마치 유전자의 한 종류처럼 들리기 때문이다. 실제로 allele은 유전자가 아니라, 유전체의 특정 위치에 존재할 수 있는 서로 다른 버전의 서열, 즉 유전 변이를 가리킨다. 유전자가 책의 한 장(chapter)이라면, 유전 변이는 그 장의 특정 위치에 있는 글자가 어떤 판본에서는 A이고 다른 판본에서는 G인 것에 해당한다. 이 책에서는 allele을 ‘유전 변이’로 표기하며, 유전자(gene)와 명확히 구분한다.
유전 변이는 크기에 따라 크게 세 가지로 나눌 수 있다.
첫 번째는 단일 염기 변이(single nucleotide variant, SNV)다. 30억 글자 중 딱 한 글자만 다른 경우다. 참조 유전체에서 G인 자리가 어떤 사람에서는 T로 바뀌어 있는 것이다. 한 사람의 유전체에는 이런 한 글자 차이가 약 400만 개 정도 있다. 대부분은 무해하지만, 한 글자 변화가 단백질의 아미노산을 바꾸거나 단백질 합성을 중단시키면 큰 영향을 미칠 수 있다.
두 번째는 삽입결실(insertion/deletion, indel)이다. 짧은 서열, 보통 1개에서 50개 정도의 글자가 추가되거나 빠지는 것이다. 여기서 중요한 것은 빠지거나 추가되는 글자 수가 3의 배수인지 여부다. 유전자에서 단백질을 만들 때 DNA를 세 글자씩 끊어 읽는데, 이것을 코돈(codon)이라 한다. 세 글자가 하나의 아미노산을 지정한다. 만약 한 글자나 두 글자가 빠지면 이 세 글자 단위의 읽기 틀(reading frame)이 밀려버린다. 원래 “나는 밥을 먹는다”라는 문장에서 ‘는’이라는 글자 하나가 빠지면 “나 밥을 먹는다”가 되는 것이 아니라, 세 글자씩 끊어 읽는 규칙 때문에 “나밥 을먹 는다”처럼 의미 없는 문장이 되어버린다. 이것을 읽기 틀 이동(frameshift)이라 부른다. 읽기 틀이 밀리면 그 지점 이후의 모든 아미노산이 엉뚱한 것으로 바뀌고, 대개 곧 종결 신호(stop codon)를 만나 단백질 합성이 조기에 중단된다. 반면 세 글자나 여섯 글자가 빠지면 읽기 틀은 유지되면서 아미노산 한두 개만 빠지게 되는데, 이것을 읽기 틀 유지(in-frame) 삽입결실이라 한다. 이 경우 단백질이 완전히 망가지지는 않지만, 빠진 아미노산이 기능에 중요한 부위에 있으면 문제가 될 수 있다.
세 번째가 이 장의 주제인 구조 변이(structural variant)다. 50 글자(염기쌍) 이상, 때로는 수천에서 수백만 글자에 이르는 큰 규모의 변화를 말한다. 유전체 책에서 한 글자가 바뀌는 것이 오탈자라면, 구조 변이는 한 장이 통째로 찢겨 나가거나(결실, deletion), 같은 장이 두 번 인쇄되어 들어가거나(중복, duplication), 한 장이 거꾸로 제본되거나(역위, inversion), 한 장이 다른 권의 중간에 끼어드는(전위, translocation) 것에 해당한다. 결실과 중복은 유전자의 복사본 수를 바꾸기 때문에 복사수 변이(copy number variation, CNV)라고도 부른다. 한 사람의 유전체에는 약 1,000~2,000개의 구조 변이가 있는데, 글자 수로 따지면 모든 단일 염기 변이를 합친 것보다 더 많은 영역이 구조 변이에 의해 영향을 받는다. 그만큼 개별 구조 변이의 규모가 크다는 뜻이다.
유전 변이가 단백질을 만드는 유전자 안에 있을 때, 그 변이가 단백질에 어떤 영향을 미치느냐에 따라 분류할 수도 있다. 이 분류는 이후 장들에서 반복적으로 등장하므로 여기서 정리해둔다.
동의 변이(synonymous variant)는 DNA 글자가 바뀌었지만 지정하는 아미노산은 같은 경우다. 유전 코드에는 여분의 코드가 있어서, 서로 다른 코돈이 같은 아미노산을 지정할 수 있기 때문이다. 예를 들어 GAA와 GAG 모두 글루탐산이라는 아미노산을 지정한다. 그래서 세 번째 글자가 A에서 G로 바뀌어도 만들어지는 단백질은 같다. 동의 변이는 대부분 건강에 영향을 미치지 않는다.
미스센스 변이(missense variant)는 DNA 글자가 바뀌면서 다른 아미노산이 지정되는 경우다. GAA가 GCA로 바뀌면 글루탐산 대신 알라닌이 들어간다. 단백질에서 아미노산 하나가 바뀌는 것이 얼마나 심각한지는 경우에 따라 다르다. 비슷한 성질의 아미노산으로 바뀌면 단백질 기능이 유지될 수 있지만, 성질이 완전히 다른 아미노산으로 바뀌거나 단백질의 핵심 부위에서 변화가 일어나면 기능이 크게 손상될 수 있다. 미스센스 변이는 해석이 가장 어려운 변이 유형이기도 하다. 단백질을 완전히 망가뜨리지는 않지만 기능을 미묘하게 바꿀 수 있기 때문이다.
기능 상실 변이(loss-of-function variant, LoF variant)는 단백질 합성을 완전히 중단시키는 변이를 총칭한다. 넌센스 변이(nonsense variant)는 아미노산을 지정하는 코돈이 종결 코돈으로 바뀌어 단백질 합성이 중간에 멈추는 것이고, 읽기 틀 이동 삽입결실(frameshift indel)은 앞서 설명한 대로 읽기 틀이 밀려서 단백질이 엉뚱하게 만들어지다가 곧 멈추는 것이며, 접합 부위 변이(splice site variant)는 유전자의 인트론(단백질을 만들지 않는 중간 구간)을 잘라내는 과정에 필요한 신호를 망가뜨려서 정상적인 단백질이 만들어지지 않게 하는 것이다. 기능 상실 변이가 발생하면 해당 유전자의 한 복사본에서 정상 단백질이 전혀 만들어지지 않는다. 자폐 유전학에서는 이 기능 상실 변이가 가장 강력한 위험 인자로 작용한다.
모든 사람은 부모에게서 유전체의 한 복사본씩을 물려받는다. 아버지에게서 받은 복사본과 어머니에게서 받은 복사본, 합쳐서 두 복사본이 한 세트를 이룬다. 한 사람이 가진 400~500만 개의 유전 변이 대부분, 약 99.98%는 부모에게도 있던 것이 자녀에게 전달된 것이다. 이것을 유전된 변이(inherited variant)라 부른다.
하지만 나머지 약 0.02%, 숫자로는 약 60~80개의 유전 변이는 부모에게 없던 것이 자녀에게서 새로 생겨난 것이다. 이것을 신생변이(de novo variant)라 부른다. ‘de novo’는 라틴어로 ‘새롭게’라는 뜻으로, 부모의 정자나 난자가 만들어지는 과정에서 DNA 복제 오류에 의해 완전히 새로 발생한 변이를 가리킨다. Chapter 5에서 다루었듯이 이 오류는 아버지의 정자에서 훨씬 더 자주 발생하며, 아버지의 나이가 많을수록 신생변이의 수가 늘어난다. 우리가 가진 약 70개의 신생변이 중 약 80%는 아버지의 정자에서 유래한 것이다.
여기서 한국어의 “유전”이라는 말이 만들어내는 혼란을 짚고 넘어가야 한다. 한국어에서 “유전”은 두 가지 의미를 가진다. 하나는 “부모에게서 물려받는다”는 뜻이고, 다른 하나는 “DNA 서열의 변화”라는 뜻이다. 신생변이는 후자의 의미에서는 유전 변이(genetic variant)이지만, 전자의 의미에서는 유전되지 않는 변이다. 부모에게는 없고 자녀에게만 있으므로, 부모에게서 물려받은 것이 아니다. “유전 변이인데 유전되지 않는다”는 말이 모순처럼 들리지만, 이것은 한국어의 번역 문제이지 과학적 모순이 아니다. 영어에서는 ‘genetic’(DNA와 관련된)과 ‘inherited’(물려받은)를 명확히 구분하는데, 한국어에서는 둘 다 “유전”으로 번역되기 때문에 혼란이 생긴다. 이 책에서 “유전 변이”는 DNA 서열의 변화를 뜻하고, “유전된 변이”는 부모로부터 물려받은 변이를 뜻한다. 신생변이는 유전 변이이지만 유전된 변이가 아니다.
신생변이는 부모에게는 없으므로 가족력으로 예측할 수 없고, 모든 인간에게 동등하게 일어날 수 있는 확률적 사건이다. 특정 가족에게만 나타나는 것이 아니라, 누구의 자녀에게든 발생할 수 있다. 그래서 가족 안에서 자폐를 가진 사람이 본인뿐인 심플렉스 가족에서 신생변이가 특히 중요한 역할을 한다.
이제 본론으로 들어가자. 2007년, 콜드 스프링 하버 연구소의 조너선 세뱃(Jonathan Sebat)과 마이클 위글러(Michael Wigler)가 이끈 연구팀은 자폐 유전학에서 전환점이 되는 발견을 보고했다. Sebat et al. (2007) 연구는 자폐 환자와 부모의 유전체를 비교하여, 부모에게는 없지만 자녀에게서 새로 나타난 구조 변이, 즉 신생 구조 변이(de novo CNV)를 찾았다. 이를 위해 고해상도 어레이 비교 유전체 혼성화(array comparative genomic hybridization, aCGH)라는 기술을 사용했는데, 이 기술은 유리 칩 위에 유전체의 각 영역에 해당하는 DNA 조각들을 붙여놓고 환자의 DNA와 참조 DNA를 형광으로 표지하여 함께 칩에 붙인 다음, 형광 신호의 차이로 어떤 영역이 결실되었거나 중복되었는지를 탐지하는 방법이다.
결과는 명확했다. 가족 안에서 자폐를 가진 사람이 한 명뿐인 심플렉스 가족에서 신생 구조 변이의 빈도가 10.2%였다. 자폐가 없는 대조군에서는 1.0%였으니, 열 배 차이다. 가족 내에 두 명 이상의 자폐 환자가 있는 멀티플렉스 가족에서는 2.6%로, 심플렉스와 대조군의 중간이었다. 이 발견이 의미하는 바는 명확하다. 부모에게 없던 유전 변이가 자녀에게서 새로 발생하는 것이 자폐스펙트럼장애의 중요한 원인 중 하나이며, 이 기전은 가족력이 없는 산발적 자폐에서 특히 두드러진다. 멀티플렉스 가족에서 신생변이의 기여가 상대적으로 작은 것은, 이 가족에서는 부모로부터 유전되는 변이가 더 중요한 역할을 하기 때문으로 해석되었다.
세뱃의 연구가 신생 구조 변이의 전반적인 기여를 보여주었다면, 이어진 연구들은 유전체의 어떤 위치에서 구조 변이가 반복적으로 발생하는지를 밝혀나갔다. Marshall et al. (2008) 연구는 427명의 자폐 환자에서 16p11.2라는 영역의 결실과 중복이 약 1%의 빈도로 관찰된다는 것을 발견했다. 16p11.2는 인간 염색체 16번의 짧은 팔에 위치한 약 600킬로베이스(60만 글자) 크기의 영역이다. 이 영역의 양쪽에는 서로 매우 비슷한 DNA 서열(분절 중복, segmental duplication)이 자리잡고 있어서, DNA가 복제될 때 이 비슷한 서열 사이에서 잘못된 재조합이 일어나기 쉽다. 책에서 비슷한 문장이 두 군데에 있으면 복사기가 한 문장에서 다른 문장으로 건너뛰면서 그 사이 내용을 빼먹거나 두 번 복사하는 오류를 범하기 쉬운 것과 같은 원리다.
Sanders et al. (2011) 연구는 SSC의 1,124가족을 분석하여 여러 개의 반복 발생 좌위를 확인했다. 특히 주목할 만한 발견은 7q11.23 영역의 중복이었다. 이 영역의 결실은 윌리엄스 증후군(Williams syndrome)을 일으키는 것으로 알려져 있었는데, 윌리엄스 증후군은 자폐와 거의 정반대의 사회적 특성을 보인다. 윌리엄스 증후군을 가진 사람들은 낯선 사람에게도 거리낌 없이 다가가고, 사회적 상호작용에 대한 강한 동기를 보이며, 얼굴 인식 능력이 상대적으로 잘 보존되어 있다. 그런데 같은 영역의 중복, 즉 이 영역의 유전자 복사본이 하나 더 늘어나는 변이는 오히려 자폐스펙트럼장애와 연관되어 있었다. 같은 유전자 영역이 결실되면 사회성이 과도해지고, 중복되면 사회성이 감소한다는 이 거울상 현상(mirror phenotype)은 유전자 용량(dosage), 즉 유전자가 만들어내는 단백질의 양이 뇌의 사회적 기능에 직접적인 영향을 미친다는 것을 인상적으로 보여주었다. 단백질이 너무 적어도 문제이고 너무 많아도 문제라는 것이다.
Pinto et al. (2010) 연구는 AGP 코호트의 996명 자폐 환자에서 희귀 구조 변이의 전체적인 부담을 분석하여, 자폐 환자에서 유전자를 포함하는 희귀 구조 변이의 빈도가 대조군보다 1.19배 높다는 것을 보여주었다. 이 연구에서 SHANK2, SYNGAP1, DLGAP2 같은 시냅스 관련 유전자들이 새로운 자폐 위험 유전자로 부상했다. 시냅스(synapse)란 뉴런과 뉴런이 만나 신호를 전달하는 접합부다. 뉴런 A가 뉴런 B에게 신호를 보낼 때, 그 신호는 시냅스라는 아주 좁은 틈을 건너서 전달된다. 이 틈의 수신 측에는 신호를 받아들이는 수용체들이 촘촘하게 모여 있는 구조가 있는데, 이것을 시냅스 후 치밀질(postsynaptic density)이라 부른다. SHANK2는 이 시냅스 후 치밀질에서 뼈대 역할을 하는 단백질을 만드는 유전자로, 수용체들을 적절한 위치에 고정시키고 세포 내부의 신호 전달 경로와 연결하는 역할을 한다. SHANK2가 결실되면 이 뼈대가 무너져서 시냅스의 신호 전달이 교란된다. 이후 Pinto et al. (2014) 연구는 더 큰 코호트(2,446명 환자, 2,640명 대조군)에서 이 결과를 재현하면서, 구조 변이에 의해 교란되는 유전자들이 시냅스 기능, 신경 발달, 크로마틴 리모델링이라는 세 가지 생물학적 경로로 수렴한다는 것을 보여주었다. 이 수렴 현상은 Part 5에서 자세히 다루게 될 핵심 주제다.
캐너가 자폐를 기술한 이후 60년 넘게 그 생물학적 원인이 불분명했던 상황에서, 유전체의 물리적 변화가 자폐와 직접적으로 연관된다는 확고한 증거가 처음으로 제시된 것이다. 하지만 구조 변이는 자폐 유전 변이의 한 종류에 불과했다. 다음 장에서는 유전체 책의 글자 하나하나를 읽어내는 엑솜 시퀀싱이 어떻게 더 작은 규모의 유전 변이들, 특히 단백질에 직접 영향을 미치는 코딩 변이들을 밝혀냈는지를 살펴본다.
References
Marshall, C. R., Noor, A., Vincent, J. B., Lionel, A. C., Feuk, L., Skaug, J., … & Scherer, S. W. (2008). Structural variation of chromosomes in autism spectrum disorder. American Journal of Human Genetics, 82(2), 477-488. doi:10.1016/j.ajhg.2007.12.009
Pinto, D., Pagnamenta, A. T., Klei, L., Anney, R., Merico, D., Regan, R., … & Betancur, C. (2010). Functional impact of global rare copy number variation in autism spectrum disorders. Nature, 466(7304), 368-372. doi:10.1038/nature09146
Pinto, D., Delaby, E., Merico, D., Barbosa, M., Merikangas, A., Klei, L., … & Scherer, S. W. (2014). Convergence of genes and cellular pathways dysregulated in autism spectrum disorders. American Journal of Human Genetics, 94(5), 677-694. doi:10.1016/j.ajhg.2014.03.018
Sanders, S. J., Ercan-Sencicek, A. G., Hus, V., Luo, R., Murtha, M. T., Moreno-De-Luca, D., … & State, M. W. (2011). Multiple recurrent de novo CNVs, including duplications of the 7q11.23 Williams syndrome region, are strongly associated with autism. Neuron, 70(5), 863-885. doi:10.1016/j.neuron.2011.05.002
Sebat, J., Lakshmi, B., Malhotra, D., Troge, J., Lese-Martin, C., Walsh, T., … & Wigler, M. (2007). Strong association of de novo copy number mutations with autism. Science, 316(5823), 445-449. doi:10.1126/science.1138659