11장. 엑솜 시퀀싱과 신생 코딩 변이

앞 장에서 구조 변이가 유전체 책의 한 장이 통째로 찢기거나 두 번 인쇄되는 것이라고 설명했다. 이 장에서 다루는 코딩 변이는 규모가 훨씬 작다. 책의 글자 하나가 바뀌거나, 한두 글자가 빠지거나 끼어드는 수준이다. 글자 하나의 변화가 별것 아닌 것처럼 들릴 수 있지만, 그 한 글자가 단백질의 아미노산을 바꾸거나 단백질 합성을 중단시킨다면 그 영향은 작지 않다.

인간 유전체 30억 글자 중에서 단백질을 만드는 유전자 영역은 약 1.5%에 해당한다. 이 부분을 엑솜(exome)이라 부른다. 엑솜 시퀀싱(whole-exome sequencing, WES)은 이 1.5%만을 집중적으로 읽는 기술이다. 전체 유전체를 읽는 것보다 비용이 낮으면서도 단백질에 직접 영향을 미치는 변이를 효율적으로 찾는다. 왜 1.5%만 읽어도 유용한가? 앞 장에서 유전 변이의 종류를 설명할 때, 코딩 영역 안에서 일어나는 변이가 단백질의 아미노산 서열을 바꾸거나 단백질 합성을 중단시킨다고 했다. 이런 변이는 효과의 방향을 비교적 예측하기 쉽다. 넌센스 변이라면 단백질이 중간에 잘리고, 읽기 틀 이동 변이라면 단백질이 엉뚱하게 만들어지다 멈춘다. 비코딩 영역의 변이는 그것이 무엇을 하는지 해석하기가 훨씬 어렵다. 그래서 자폐 유전학의 초기 연구들은 해석 가능한 엑솜에 먼저 집중했고, 이 전략은 잘 통했다.

반수 불충분이라는 개념

엑솜 시퀀싱에서 발견되는 자폐 관련 변이들을 이해하려면, 먼저 반수 불충분(haploinsufficiency)이라는 개념을 알아야 한다. 우리는 모든 유전자를 두 복사본씩 가진다. 아버지에게서 하나, 어머니에게서 하나를 물려받았기 때문이다. 많은 유전자는 한쪽 복사본이 망가져도 나머지 한쪽이 충분한 양의 단백질을 만들어주기 때문에 문제가 없다. 케이크를 만드는 레시피에 설탕 두 컵이 필요한데, 한 컵만 있어도 어느 정도 괜찮은 케이크가 만들어지는 것과 비슷하다.

일부 유전자는 이렇게 관대하지 않다. 두 복사본이 모두 작동해야 충분한 양의 단백질이 만들어지고, 한쪽이 기능을 잃으면 나머지 한쪽만으로는 기준 기능을 유지할 만큼 단백질이 만들어지지 않는다. 이런 유전자를 반수 불충분 유전자라 부르고, 이 상태를 반수 불충분이라 한다. 비유를 이어가면, 설탕이 정확히 두 컵이 아니면 케이크의 맛과 질감이 크게 달라지는, 까다로운 레시피에 해당한다. 자폐스펙트럼장애에서 발견되는 위험 유전자들 대부분이 바로 이 반수 불충분 유전자에 속한다. CHD8, SCN2A, ADNP, ARID1B 같은 유전자에서 한쪽 복사본의 기능을 잃게 하는 신생변이가 발견될 때, 그것이 자폐와 연관되는 이유는 남은 한 복사본만으로는 뇌 발달에 필요한 양의 단백질이 만들어지지 않기 때문이다.

건강한 사람의 유전체를 분석해 보면, 한 사람당 약 100개의 기능 상실 변이가 들어 있다. 그런데 이 변이들 대부분은 기능이 상실되어도 괜찮은, 즉 한 복사본으로 충분히 작동하는 유전자에 있다. 반수 불충분 유전자에서는 기능 상실 변이가 건강한 사람에게서 극히 드물게 관찰된다. 자연 선택(natural selection)이 이런 해로운 변이를 인구에서 제거해왔기 때문이다. 유전학자들은 이 원리를 이용해, 건강한 대규모 인구에서 기능 상실 변이가 기대치보다 현저히 적은 유전자를 반수 불충분 유전자로 판별한다. 이 판별에 쓰이는 지표가 pLI(probability of being loss-of-function intolerant)이며, 0에서 1 사이의 값으로, 1에 가까울수록 그 유전자가 기능 상실에 민감하다는 뜻이다. 자폐 위험 유전자로 확인된 유전자들은 대부분 pLI가 0.9 이상으로 매우 높다.

2012년, 네 편의 동시 발표

2012년은 자폐 엑솜 유전학의 원년이라 할 만하다. 그해에 네 개의 독립적인 연구팀이 거의 동시에 SSC 가족들의 엑솜 시퀀싱 결과를 발표했다. 각 연구는 표본 크기와 분석 방법이 조금씩 달랐지만, 결론은 일관되었다. 뇌에서 발현되는 유전자의 기능 상실 신생변이가 자폐 진단군에서 형제에 비해 유의하게 많다는 것이었다.

네 연구 중 하나를 자세히 살펴보자. 238개 SSC 가족의 엑솜을 분석한 연구(Sanders et al. 2012)다. 이 연구 설계의 핵심은 같은 가족 안에서 자폐스펙트럼장애 진단을 받은 자녀와 자폐 진단을 받지 않은 형제의 엑솜을 직접 비교한 데 있다. 형제는 같은 부모로부터 같은 유전 배경을 물려받았으므로, 자폐 진단을 받은 자녀에게만 있고 형제에게는 없는 신생변이를 찾으면 그것이 자폐에 기여한 변이일 가능성이 높다. 이 연구에서 SCN2A라는 유전자가 처음으로 자폐 위험 유전자로 떠올랐다. 서로 관련 없는 두 참여자에게서 각각 독립적으로 SCN2A의 넌센스 신생변이가 발견된 것이다. 같은 유전자에서 서로 다른 참여자에게 반복적으로 신생변이가 나타나는 것은 우연이라고 보기 어렵다. 유전자가 충분히 크다면 우연으로도 변이가 생기지만, SCN2A에서 관찰된 빈도는 우연의 기대치를 통계적으로 유의하게 넘어섰다. SCN2A는 뉴런의 나트륨 채널을 만드는 유전자로, 이 채널이 기준대로 작동하지 않으면 뉴런이 전기 신호를 제대로 발생시키지 못한다. SCN2A는 이후 자폐 유전학에서 가장 많이 연구되는 유전자 중 하나가 되었고, 파트 7에서 별도의 장을 할애해 다룬다.

같은 해 Iossifov et al. (2012) 연구는 343개 SSC 4인 가족을 분석해, 유전자를 파괴하는 신생변이의 빈도가 자폐 진단군에서 형제의 두 배라는 것을 보여주었다. 이 연구의 또 다른 중요한 발견은 변이가 발견된 유전자들의 특성이었다. 파괴된 유전자들이 FMRP(fragile X mental retardation protein)라는 단백질과 상호작용하는 유전자 세트에 빈번하게 포함되어 있었다. FMRP는 뉴런의 시냅스에서 특정 RNA의 번역을 조절하는 단백질이다. 시냅스에서 신호가 전달되면 그에 반응해 즉석에서 새로운 단백질이 만들어져야 하는데, FMRP는 이 과정을 미세하게 조율한다. FMRP를 만드는 FMR1 유전자에 변이가 생기면 Fragile X 증후군이라는, 자폐와 유사한 증상을 보이는 유전 질환이 발생한다. 자폐 진단군에서 발견된 신생변이들이 FMRP와 관련된 유전자에 모여 있다는 것은, 시냅스에서의 단백질 합성 조절이 자폐의 핵심 기전 중 하나일 수 있음을 시사했다.

O’Roak et al. (2012) 연구는 209개 SSC 가족에서 신생 코딩 변이의 88%가 아버지의 염색체에서 유래한다는 것을 보여주었다. 5장에서 다룬 부성 연령 효과의 직접적인 분자적 증거다. 정자를 만드는 세포는 평생 분열을 반복하면서 DNA 복제 오류를 축적하고, 그 결과 아버지의 나이가 많을수록 자녀에게 전달되는 신생변이의 수가 늘어난다. 이 연구는 또 신생변이가 발견된 유전자들의 단백질이 베타-카테닌/크로마틴 리모델링이라는 단백질 상호작용 네트워크에 밀집되어 있음을 보여주었다. 크로마틴 리모델링이란, 앞 장에서 설명했듯이 DNA가 히스톤 단백질에 감겨 있는 구조(크로마틴)의 감김 정도를 조절해 유전자의 발현을 켜고 끄는 과정이다. Neale et al. (2012) 연구는 175개 3인 가족에서 엑솜 전체의 신생변이 비율 자체는 참여자와 대조군 사이에 큰 차이가 없지만, 변이가 발견된 유전자들의 단백질-단백질 상호작용 연결성이 유의하게 높다는 것을 보여주었다. 자폐에 관여하는 유전자들이 유전체 전체에 무작위로 흩어져 있지 않고, 특정 생물학적 네트워크 안에 모여 있다는 초기 증거였다.

유전자 발견의 역사 — 33개에서 185개로

2012년의 발견들은 신생 코딩 변이가 자폐의 중요한 원인이라는 원칙을 세웠지만, 개별 유전자를 통계적으로 확정하기에는 표본 크기가 아직 부족했다. 하나의 유전자를 자폐 위험 유전자로 확정하려면, 그 유전자에서 신생변이가 우연히 발생할 확률보다 관찰된 빈도가 유의하게 높아야 한다. 유전자는 크기가 서로 다르고, 큰 유전자는 작은 유전자보다 우연으로 생기는 변이가 더 많이 나타나므로, 유전자의 크기와 변이에 대한 민감도를 고려한 통계적 보정이 필요하다.

이 문제를 해결한 것이 자폐 시퀀싱 컨소시엄(ASC)의 TADA(Transmission and De novo Association) 프레임워크다. TADA는 한 종류의 증거만 보지 않고, 신생변이 데이터, 유전되는 변이 데이터, 사례-대조 빈도 비교를 하나의 통계 모형 안에서 통합해 각 유전자가 자폐 위험 유전자일 확률을 계산한다. ASC는 이 도구로 위험 유전자 목록을 단계적으로 늘려왔다. 그 궤적을 표로 정리하면 다음과 같다.

연도	연구	표본 크기	확인된 유전자 수	핵심 발견
2012	Sanders, Iossifov, O’Roak, Neale (4편 동시)	~1,000가족	SCN2A 등 소수	신생 코딩 변이가 자폐의 원인이라는 원칙 확립
2014	De Rubeis et al.	자폐 3,871명 + 대조군 9,937명	22개 (FDR<0.05)	시냅스·전사조절·크로마틴 세 경로 수렴
2014	Iossifov et al.	SSC 2,517가족	~400개 추정	단발성 자폐의 ~30%, 여성 자폐의 ~45% 설명
2015	Sanders et al.	통합 분석	65개	TADA 프레임워크 확립
2020	Satterstrom et al.	35,584명	102개	자폐 우세(53개) vs 발달지연 우세(49개) 구분
2022	Fu et al.	63,237명	185개	유전된 희귀 변이 기여 통합
2026	GALA Consortium	6,977명 (라틴아메리카)	35개	유전적 구조가 조상 집단에 걸쳐 공유됨

De Rubeis et al. (2014) 연구는 자폐 진단군 3,871명과 대조군 9,937명을 TADA로 분석해, 22개의 위험 유전자를 높은 신뢰도로 확인했다. 여기서 신뢰도를 판단하는 기준이 FDR(false discovery rate, 거짓 발견율)인데, 쉽게 말하면 “이 유전자가 위험 유전자라고 판정했을 때 그것이 틀릴 확률”을 뜻한다. FDR이 0.05보다 작다는 것은 거짓 판정 확률이 5% 미만이라는 뜻이다. 보다 넓은 기준을 적용하면 107개가 확인되었다. 이 유전자들은 세 가지 생물학적 경로로 수렴했다. 시냅스 형성에 관여하는 유전자(SHANK2, SYNGAP1, NRXN1), 전사 조절에 관여하는 유전자(TBR1, FOXP1, ADNP), 그리고 크로마틴 리모델링에 관여하는 유전자(CHD8, ARID1B, KDM5C)다. 수백 개의 서로 다른 유전자에서 변이가 발견되지만 그 유전자들이 하는 일을 추적해보면 소수의 생물학적 경로로 모인다는 이 수렴 현상은, 이후 자폐 유전학의 가장 중요한 발견 중 하나가 되었다. 파트 5에서 이 수렴을 본격적으로 다룬다.

코호트가 커지면서 정량화도 가능해졌다. 2,517개 SSC 4인 가족을 분석한 결과(Iossifov et al. 2014), 기능 상실 신생변이의 43%와 미스센스 신생변이의 13%가 자폐에 기여하며, 이것이 구조 변이와 합쳐지면 단발성 자폐의 약 30%, 여성 자폐의 약 45%를 설명한다고 추정했다. 여성 자폐에서 설명 비율이 더 높은 까닭은, 4장에서 다룬 여성 보호 효과와 관련이 있다. 여성이 자폐 표현형에 이르려면 남성보다 더 큰 유전적 부담이 필요하므로, 자폐로 진단된 여성은 신생변이처럼 큰 효과의 변이를 지닌 비율이 남성보다 높다. 이 연구는 또한 전체 자폐 위험 유전자의 수를 약 400개로 추정했다.

이후 Satterstrom et al. (2020) 연구는 35,584명(자폐 진단군 11,986명)이라는 최대 규모의 엑솜 분석에서 102개의 위험 유전자를 확인했고, Fu et al. (2022) 연구는 63,237명에서 185개를 보고했다. 현재 전체 자폐 위험 유전자의 수는 약 1,000개로 추정되며, 코호트 규모가 커질수록 더 많은 유전자가 확인될 것으로 본다.

여기서 한 가지 주목할 발견이 있다. Satterstrom et al. (2020) 연구의 102개 위험 유전자가 두 그룹으로 나뉜다는 점이다. 49개 유전자는 지적장애를 포함한 심각한 신경발달 장애에서 더 자주 변이가 관찰되었고, 53개 유전자는 자폐 코호트에서 더 자주 변이가 관찰되었다. 같은 102개의 위험 유전자 안에서도 임상적 표현형에 따른 구분이 있다는 뜻이다. 자폐스펙트럼장애라는 하나의 진단 안에 서로 다른 유전적 하위구조가 존재하며, 4장에서 다룬 이질성 문제가 유전자 수준에서도 확인된다.

한 가지 중요한 질문이 남아 있었다. 이 유전자들은 대부분 유럽계 인구에서 발견된 것인데, 다른 인종에서도 같은 결과가 나올까? GALA Consortium (2026) 연구는 라틴아메리카 인구 6,977명(자폐 진단군 4,717명)을 대상으로 TADA 분석을 수행해, 35개의 유전체 수준 유의 유전자를 확인했다. 이 중 19개는 유럽계 코호트에서도 유의했다. 신생 기능 상실 변이의 비율과 제한된 유전자에서의 과잉 분포 패턴이 유럽계 코호트와 일치했고, 유전자 제약(constraint) 지표도 인종 간에 잘 보정되어 있었다. 자폐의 유전적 구조는 인종에 따라 달라지지 않는다는 결론이다. 희귀 코딩 변이 수준에서 자폐의 생물학은 인종 간 차이 없이 공유되고 있었다.

유전자 발견의 역사는 표본 크기의 역사이기도 하다. 200가족에서는 SCN2A 하나를 겨우 확인했지만, 6만 명을 모으니 185개의 유전자가 보이기 시작했다. 다만 이 유전자들은 모두 단백질을 만드는 코딩 영역에서 발견된 것이고, 대부분 부모에게 없던 신생변이로 확인된 것이다. 한 사람이 지닌 400~500만 개의 유전 변이 중 신생변이는 60~80개에 불과하며, 나머지 99.98%는 부모에게서 물려받았다.

이 장을 삶으로 옮길 때

엑솜 시퀀싱이 많은 유전자를 찾아냈다는 말은 자폐를 유전자 이름 몇 개로 설명할 수 있게 되었다는 뜻이 아니다. 유전자 발견은 연구의 시작점이고, 한 사람의 생활을 이해하려면 표현형, 가족력, 동반 건강 문제, 학교와 직장의 환경을 함께 보아야 한다. 부모에게 진단 수율은 중요한 숫자이지만, 검사를 해도 상당수 가족은 명확한 단일 원인을 듣지 못한다. 불확실한 변이가 나왔을 때는 그 불확실성 자체가 결과의 일부이며, 시간이 지나 데이터가 쌓이면 해석이 바뀔 수 있다. 당사자에게는 유전자 이름이 자기 정체성을 대체하지 않는다는 점이 중요하다. 교사와 지원자는 유전적 원인을 알게 된 경우에도, 결국 지금 눈앞의 의사소통과 감각, 학습 요구를 기준으로 지원을 설계해야 한다.

참고문헌

GALA Consortium. (2026). Deleterious coding variation associated with autism is shared across ancestries. Nature Medicine. doi:10.1038/s41591-026-04228-6

De Rubeis, S., He, X., Goldberg, A. P., Poultney, C. S., Samocha, K., Cicek, A. E., … & Buxbaum, J. D. (2014). Synaptic, transcriptional and chromatin genes disrupted in autism. Nature, 515(7526), 209-215. doi:10.1038/nature13772

Fu, J. M., Satterstrom, F. K., Peng, M., Brand, H., Collins, R. L., Dong, S., … & Talkowski, M. E. (2022). Rare coding variation provides insight into the genetic architecture and phenotypic context of autism. Nature Genetics, 54(9), 1320-1331. doi:10.1038/s41588-022-01104-0

Iossifov, I., Ronemus, M., Levy, D., Wang, Z., Hakker, I., Rosenbaum, J., … & Wigler, M. (2012). De novo gene disruptions in children on the autistic spectrum. Neuron, 74(2), 285-299. doi:10.1016/j.neuron.2012.04.009

Iossifov, I., O’Roak, B. J., Sanders, S. J., Ronemus, M., Krumm, N., Levy, D., … & Wigler, M. (2014). The contribution of de novo coding mutations to autism spectrum disorder. Nature, 515(7526), 216-221. doi:10.1038/nature13908

Neale, B. M., Kou, Y., Liu, L., Ma’ayan, A., Samocha, K. E., Sabo, A., … & Daly, M. J. (2012). Patterns and rates of exonic de novo mutations in autism spectrum disorders. Nature, 485(7397), 242-245. doi:10.1038/nature11011

O’Roak, B. J., Vives, L., Girirajan, S., Karakoc, E., Krumm, N., Coe, B. P., … & Eichler, E. E. (2012). Sporadic autism exomes reveal a highly interconnected protein network of de novo mutations. Nature, 485(7397), 246-250. doi:10.1038/nature10989

Sanders, S. J., Murtha, M. T., Gupta, A. R., Murdoch, J. D., Raubeson, M. J., Willsey, A. J., … & State, M. W. (2012). De novo mutations revealed by whole-exome sequencing are strongly associated with autism. Nature, 485(7397), 237-241. doi:10.1038/nature10945

Satterstrom, F. K., Kosmicki, J. A., Wang, J., Breen, M. S., De Rubeis, S., An, J.-Y., … & Buxbaum, J. D. (2020). Large-scale exome sequencing study implicates both developmental and functional changes in the neurobiology of autism. Cell, 180(3), 568-584. doi:10.1016/j.cell.2019.12.036