Chapter 11. 엑솜 시퀀싱과 신생 코딩 변이

앞 장에서 구조 변이가 유전체 책의 한 장이 통째로 찢기거나 두 번 인쇄되는 것이라고 설명했다. 이 장에서 다루는 코딩 변이는 규모가 훨씬 작다. 책의 글자 하나가 바뀌거나, 한두 글자가 빠지거나 끼어드는 수준이다. 글자 하나의 변화가 별것 아닌 것처럼 들릴 수 있지만, 그 한 글자가 단백질의 아미노산을 바꾸거나 단백질 합성을 중단시킨다면 그 영향은 결코 작지 않다.

인간 유전체 30억 글자 중에서 단백질을 만드는 유전자 영역은 약 1.5%에 해당한다. 이 부분을 엑솜(exome)이라 부른다. 엑솜 시퀀싱(whole-exome sequencing, WES)은 이 1.5%만을 집중적으로 읽는 기술이다. 전체 유전체를 읽는 것보다 비용이 낮으면서도 단백질에 직접 영향을 미치는 변이를 효율적으로 찾아낼 수 있다. 왜 1.5%만 읽어도 유용한 걸까? 앞 장에서 유전 변이의 종류를 설명할 때, 코딩 영역 안에서 일어나는 변이가 단백질의 아미노산 서열을 바꾸거나 단백질 합성을 중단시킬 수 있다고 했다. 이런 변이는 그 효과가 무엇인지를 비교적 명확하게 예측할 수 있다. 넌센스 변이라면 단백질이 중간에 잘리고, 읽기 틀 이동 변이라면 단백질이 엉뚱하게 만들어지다 멈춘다. 반면 비코딩 영역의 변이는 그것이 무엇을 하는지 해석하기가 훨씬 어렵다. 그래서 자폐 유전학의 초기 연구들은 해석이 가능한 엑솜에 먼저 집중했고, 이 전략은 대단히 성공적이었다.

반수 불충분이라는 개념

엑솜 시퀀싱에서 발견되는 자폐 관련 변이들을 이해하기 위해, 먼저 반수 불충분(haploinsufficiency)이라는 개념을 알아야 한다. 우리는 모든 유전자를 두 복사본씩 가지고 있다. 아버지에게서 하나, 어머니에게서 하나를 물려받았기 때문이다. 많은 유전자의 경우, 한쪽 복사본이 망가져도 나머지 한쪽이 충분한 양의 단백질을 만들어주기 때문에 문제가 없다. 케이크를 만드는 레시피에 설탕 두 컵이 필요한데, 한 컵만 있어도 어느 정도 괜찮은 케이크가 만들어지는 것과 비슷하다.

하지만 일부 유전자는 이렇게 관대하지 않다. 두 복사본이 모두 작동해야 충분한 양의 단백질이 만들어지고, 한쪽이 망가지면 나머지 한쪽만으로는 정상 기능을 유지하기에 단백질이 부족하다. 이런 유전자를 반수 불충분 유전자라 부르고, 이 상태를 반수 불충분이라 한다. 비유를 이어가면, 설탕이 정확히 두 컵이 아니면 케이크의 맛과 질감이 크게 달라지는, 까다로운 레시피에 해당한다. 자폐스펙트럼장애에서 발견되는 위험 유전자들 대부분이 바로 이 반수 불충분 유전자에 속한다. CHD8, SCN2A, ADNP, ARID1B 같은 유전자들에서 한쪽 복사본을 망가뜨리는 기능 상실 신생변이가 발견될 때, 그것이 자폐와 연관되는 이유는 남은 한 복사본만으로는 뇌 발달에 필요한 충분한 양의 단백질이 만들어지지 않기 때문이다.

건강한 사람의 유전체를 분석해보면, 한 사람당 약 100개의 기능 상실 변이를 가지고 있다. 그런데 이 변이들 대부분은 기능이 상실되어도 괜찮은, 즉 한 복사본으로 충분히 작동하는 유전자에 있다. 반수 불충분 유전자에서는 기능 상실 변이가 건강한 사람에서 극히 드물게 관찰된다. 자연 선택(natural selection)이 이런 해로운 변이를 인구에서 제거해왔기 때문이다. 유전학자들은 이 원리를 이용하여, 건강한 대규모 인구에서 기능 상실 변이가 기대치보다 현저히 적은 유전자를 반수 불충분 유전자로 판별한다. 이 판별에 사용되는 지표가 pLI(probability of being loss-of-function intolerant)인데, 0에서 1 사이의 값으로, 1에 가까울수록 그 유전자가 기능 상실에 민감하다는 뜻이다. 자폐 위험 유전자로 확인된 유전자들은 대부분 pLI가 0.9 이상으로 매우 높다.

2012년, 네 편의 동시 발표

2012년은 자폐 엑솜 유전학의 원년이라 할 만하다. 그해에 네 개의 독립적인 연구팀이 거의 동시에 SSC 가족들의 엑솜 시퀀싱 결과를 발표했다. 각 연구는 표본 크기와 분석 방법이 조금씩 달랐지만, 결론은 일관되었다. 뇌에서 발현되는 유전자의 기능 상실 신생변이가 자폐 환자에게서 형제에 비해 유의하게 많다는 것이었다.

네 연구 중 하나를 자세히 살펴보자. 238개 SSC 가족의 엑솜을 분석한 연구(Sanders et al. 2012)다. 이 연구 설계의 핵심은 같은 가족 안에서 자폐 환자와 영향받지 않은 형제의 엑솜을 직접 비교하는 것이었다. 형제는 같은 부모로부터 같은 유전적 배경을 물려받았으므로, 환자에게만 있고 형제에게는 없는 신생변이를 찾으면 그것이 자폐에 기여한 변이일 가능성이 높다. 이 연구에서 SCN2A라는 유전자가 처음으로 자폐 위험 유전자로 부상했다. 서로 관련 없는 두 명의 환자에게서 각각 독립적으로 SCN2A의 넌센스 신생변이가 발견된 것이다. 같은 유전자에서 서로 다른 환자에게 반복적으로 신생변이가 나타나는 것은 우연이라고 보기 어렵다. 유전자가 충분히 크다면 우연에 의해서도 변이가 생길 수 있지만, SCN2A에서 관찰된 빈도는 우연의 기대치를 통계적으로 유의하게 초과했다. SCN2A는 뉴런의 나트륨 채널을 만드는 유전자로, 이 채널이 정상적으로 작동하지 않으면 뉴런이 전기 신호를 제대로 발생시키지 못한다. SCN2A는 이후 자폐 유전학에서 가장 많이 연구되는 유전자 중 하나가 되었고, Part 7에서 별도의 장을 할애하여 다룬다.

같은 해에 Iossifov et al. (2012) 연구는 343개 SSC 4인 가족 가족을 분석하여, 유전자를 파괴하는 신생변이의 빈도가 자폐 환자에서 형제의 두 배라는 것을 보여주었다. 이 연구의 또 다른 중요한 발견은 변이가 발견된 유전자들의 특성이었다. 파괴된 유전자들이 FMRP(fragile X mental retardation protein)라는 단백질과 상호작용하는 유전자 세트에서 빈번하게 관찰된 것이다. FMRP는 뉴런의 시냅스에서 특정 RNA의 번역을 조절하는 단백질이다. 시냅스에서 신호가 전달되면 그에 반응하여 즉석에서 새로운 단백질이 만들어져야 하는데, FMRP는 이 과정을 미세하게 조율한다. FMRP를 만드는 FMR1 유전자에 변이가 생기면 취약X 증후군이라는, 자폐와 유사한 증상을 보이는 유전 질환이 발생한다. 자폐 환자에서 발견된 신생변이들이 FMRP와 관련된 유전자에 집중되어 있다는 것은, 시냅스에서의 단백질 합성 조절이 자폐의 핵심 기전 중 하나일 수 있음을 시사했다.

O’Roak et al. (2012) 연구는 209개 SSC 가족에서 신생 코딩 변이의 88%가 아버지의 염색체에서 유래한다는 것을 보여주었다. Chapter 5에서 다룬 부성 연령 효과의 직접적인 분자적 증거다. 정자를 만드는 세포는 평생 분열을 반복하면서 DNA 복제 오류를 축적하고, 그 결과 아버지의 나이가 많을수록 자녀에게 전달되는 신생변이의 수가 늘어난다. 또한 이 연구는 신생변이가 발견된 유전자들의 단백질이 베타-카테닌/크로마틴 리모델링이라는 단백질 상호작용 네트워크에 밀집되어 있음을 보여주었다. 크로마틴 리모델링이란, 앞 장에서 설명했듯이 DNA가 히스톤 단백질에 감겨 있는 구조(크로마틴)의 감김 정도를 조절하여 유전자의 발현을 켜고 끄는 과정이다. Neale et al. (2012) 연구는 175개 3인 가족에서 엑솜 전체의 신생변이 비율 자체는 환자와 대조군 사이에 큰 차이가 없지만, 변이가 발견된 유전자들의 단백질-단백질 상호작용 연결성이 유의하게 높다는 것을 보여주었다. 자폐에 관여하는 유전자들이 유전체 전체에 무작위로 흩어져 있는 것이 아니라, 특정 생물학적 네트워크 안에 모여 있다는 초기 증거였다.

유전자 발견의 역사 — 33개에서 185개로

2012년의 발견들은 신생 코딩 변이가 자폐의 중요한 원인이라는 원칙을 확립했지만, 개별 유전자를 통계적으로 확정하기에는 표본 크기가 아직 부족했다. 하나의 유전자를 자폐 위험 유전자로 확정하려면, 그 유전자에서 신생변이가 우연히 발생할 확률보다 관찰된 빈도가 유의하게 높아야 한다. 유전자는 크기가 서로 다르고, 큰 유전자는 작은 유전자보다 우연에 의한 변이가 더 많이 발생하므로, 유전자의 크기와 변이에 대한 민감도를 고려한 통계적 보정이 필요하다.

이 문제를 해결한 것이 자폐 시퀀싱 컨소시엄(ASC)의 TADA(Transmission and De novo Association) 프레임워크다. TADA는 한 종류의 증거만 보는 것이 아니라, 신생변이 데이터, 유전되는 변이 데이터, 사례-대조 빈도 비교를 하나의 통계 모형 안에서 통합하여 각 유전자가 자폐 위험 유전자일 확률을 계산한다. 이를 통해 ASC는 단계적으로 위험 유전자 목록을 확장해왔다.

De Rubeis et al. (2014) 연구는 3,871명의 자폐 환자와 9,937명의 대조군을 TADA로 분석하여, 22개의 위험 유전자를 높은 신뢰도로 확인했다. 여기서 신뢰도를 판단하는 기준이 FDR(false discovery rate, 거짓 발견율)이라는 것인데, 쉽게 말하면 “이 유전자가 위험 유전자라고 판정했을 때 그것이 틀릴 확률”을 뜻한다. FDR이 0.05보다 작다는 것은 거짓 판정 확률이 5% 미만이라는 뜻이다. 보다 넓은 기준을 적용하면 107개가 확인되었다. 이 유전자들은 세 가지 생물학적 경로로 수렴했다. 시냅스 형성에 관여하는 유전자(SHANK2, SYNGAP1, NRXN1), 전사 조절에 관여하는 유전자(TBR1, FOXP1, ADNP), 그리고 크로마틴 리모델링에 관여하는 유전자(CHD8, ARID1B, KDM5C)다. 수백 개의 서로 다른 유전자에서 변이가 발견되지만 그 유전자들이 하는 일을 추적해보면 소수의 생물학적 경로로 모인다는 이 수렴 현상은, 이후 자폐 유전학의 가장 중요한 발견 중 하나가 되었다. Part 5에서 이 수렴을 본격적으로 다룬다.

코호트가 커지면서 정량화가 가능해졌다. 2,517개 SSC 4인 가족 가족을 분석한 결과(Iossifov et al. 2014), 기능 상실 신생변이의 43%와 미스센스 신생변이의 13%가 자폐에 기여하며, 이것이 구조 변이와 합쳐지면 심플렉스 자폐의 약 30%, 여성 자폐의 약 45%를 설명한다고 추정했다. 여성 자폐에서 설명 비율이 더 높다는 것은, Chapter 4에서 다룬 여성 보호 효과와 관련이 있다. 여성이 자폐 표현형에 이르려면 남성보다 더 큰 유전적 부담이 필요하므로, 자폐로 진단된 여성은 신생변이처럼 큰 효과의 변이를 가지고 있을 확률이 남성보다 높은 것이다. 이 연구는 또한 전체 자폐 위험 유전자의 수를 약 400개로 추정했다.

이후 Satterstrom et al. (2020) 연구는 35,584명(자폐 환자 11,986명)이라는 최대 규모의 엑솜 분석에서 102개의 위험 유전자를 확인했고, Fu et al. (2022) 연구는 63,237명에서 185개를 보고했다. 현재 전체 자폐 위험 유전자의 수는 약 1,000개로 추정되며, 코호트 규모가 커질수록 더 많은 유전자가 확인될 것으로 예상된다.

여기서 주목할 점이 있다. 최대 규모의 엑솜 분석(Satterstrom et al. 2020)에서 102개의 위험 유전자가 두 그룹으로 나뉜다는 발견이다. 49개 유전자는 지적장애를 포함한 심각한 신경발달 장애에서 더 자주 변이가 관찰되었고, 53개 유전자는 자폐 코호트에서 더 자주 변이가 관찰되었다. 이것은 같은 102개의 위험 유전자 안에서도 임상적 표현형에 따른 구분이 존재함을 의미한다. 자폐스펙트럼장애라는 하나의 진단 안에 서로 다른 유전적 하위구조가 있다는 것이고, Chapter 4에서 다룬 이질성 문제가 유전자 수준에서도 확인되는 것이다.

한 가지 중요한 질문이 남아 있었다. 이 유전자들은 대부분 유럽계 인구에서 발견된 것인데, 다른 인종에서도 같은 결과가 나올까? GALA Consortium (2026) 연구는 라틴아메리카 인구 6,977명(자폐 환자 4,717명)을 대상으로 TADA 분석을 수행하여, 35개의 유전체 수준 유의 유전자를 확인했다. 이 중 19개는 유럽계 코호트에서도 유의했다. 신생 기능 상실 변이의 비율과 제한된 유전자에서의 과잉 분포 패턴이 유럽계 코호트와 일치했으며, 유전자 제약(constraint) 지표도 인종 간에 잘 보정되어 있었다. 이 결과의 핵심 결론은 자폐의 유전적 구조가 인종에 따라 달라지지 않는다는 것이다. 희귀 코딩 변이 수준에서 자폐의 생물학은 인종 간 차이 없이 공유되고 있었다.

유전자 발견의 역사는 표본 크기의 역사이기도 하다. 200가족에서는 SCN2A 하나를 겨우 확인할 수 있었지만, 6만 명을 모으니 185개의 유전자가 보이기 시작했다. 하지만 이 유전자들은 모두 단백질을 만드는 코딩 영역에서 발견된 것이다. 다음 장에서는 부모에게서 새로 생긴 것이 아니라, 부모로부터 물려받은 유전 변이의 역할을 살펴본다.

References

GALA Consortium. (2026). Deleterious coding variation associated with autism is shared across ancestries. Nature Medicine. doi:10.1038/s41591-026-04228-6

De Rubeis, S., He, X., Goldberg, A. P., Poultney, C. S., Samocha, K., Cicek, A. E., … & Buxbaum, J. D. (2014). Synaptic, transcriptional and chromatin genes disrupted in autism. Nature, 515(7526), 209-215. doi:10.1038/nature13772

Fu, J. M., Satterstrom, F. K., Peng, M., Brand, H., Collins, R. L., Dong, S., … & Talkowski, M. E. (2022). Rare coding variation provides insight into the genetic architecture and phenotypic context of autism. Nature Genetics, 54(9), 1320-1331. doi:10.1038/s41588-022-01104-0

Iossifov, I., Ronemus, M., Levy, D., Wang, Z., Hakker, I., Rosenbaum, J., … & Wigler, M. (2012). De novo gene disruptions in children on the autistic spectrum. Neuron, 74(2), 285-299. doi:10.1016/j.neuron.2012.04.009

Iossifov, I., O’Roak, B. J., Sanders, S. J., Ronemus, M., Krumm, N., Levy, D., … & Wigler, M. (2014). The contribution of de novo coding mutations to autism spectrum disorder. Nature, 515(7526), 216-221. doi:10.1038/nature13908

Neale, B. M., Kou, Y., Liu, L., Ma’ayan, A., Samocha, K. E., Sabo, A., … & Daly, M. J. (2012). Patterns and rates of exonic de novo mutations in autism spectrum disorders. Nature, 485(7397), 242-245. doi:10.1038/nature11011

O’Roak, B. J., Vives, L., Girirajan, S., Karakoc, E., Krumm, N., Coe, B. P., … & Eichler, E. E. (2012). Sporadic autism exomes reveal a highly interconnected protein network of de novo mutations. Nature, 485(7397), 246-250. doi:10.1038/nature10989

Sanders, S. J., Murtha, M. T., Gupta, A. R., Murdoch, J. D., Raubeson, M. J., Willsey, A. J., … & State, M. W. (2012). De novo mutations revealed by whole-exome sequencing are strongly associated with autism. Nature, 485(7397), 237-241. doi:10.1038/nature10945

Satterstrom, F. K., Kosmicki, J. A., Wang, J., Breen, M. S., De Rubeis, S., An, J.-Y., … & Buxbaum, J. D. (2020). Large-scale exome sequencing study implicates both developmental and functional changes in the neurobiology of autism. Cell, 180(3), 568-584. doi:10.1016/j.cell.2019.12.036