유전체를 다시 한번 책에 비유해보자. 이 책에는 약 2만 개의 유전자가 들어 있는데, 이것은 전체 책 분량의 약 1.5%에 해당한다. 나머지 98.5%는 무엇인가? 한때 이 영역은 “정크 DNA(junk DNA)“라고 불렸다. 단백질을 만들지 않으니 쓸모없는 부분이라는 뜻이었다. 그러나 이 이름은 심각하게 틀렸다. 비코딩 영역에는 유전자의 발현을 조절하는 온갖 종류의 스위치와 조절판이 들어 있다. 프로모터(promoter)는 유전자 바로 앞에 위치한 시작 스위치로, 이 스위치가 켜져야 유전자가 읽히기 시작한다. 인핸서(enhancer)는 유전자에서 멀리 떨어져 있으면서도 유전자의 발현을 강화하는 원격 조절 장치다. 전사인자 결합 부위(transcription factor binding site)는 특정 단백질이 DNA에 달라붙어 유전자 발현을 조절하는 접착 지점이다. 이 조절 장치들이 없으면, 유전자는 있어도 언제, 어디서, 얼마나 발현할지를 결정할 수 없다. 뇌에서 한 유전자가 태아기에는 켜져 있다가 성인기에는 꺼지거나, 뉴런에서는 높이 발현되지만 글리아세포에서는 침묵하는 것, 이 모든 시공간적 조절이 비코딩 영역에 담긴 정보에 의해 이루어진다.
만약 자폐스펙트럼장애에 기여하는 유전 변이가 단백질 코딩 영역에만 있다면, 엑솜 시퀀싱만으로 충분할 것이다. 하지만 유전체의 98.5%를 차지하는 비코딩 영역에서 발생한 변이가 유전자 조절을 교란함으로써 자폐에 기여할 수 있다면, 엑솜 시퀀싱은 이야기의 절반만 읽고 있는 셈이다. 비코딩 유전 변이가 자폐에 기여하는지를 밝히는 것은 자폐 유전학의 가장 활발한 연구 전선 중 하나다.
비코딩 변이가 자폐에 기여할 수 있다는 아이디어 자체는 일찍부터 있었다. 전장 유전체 시퀀싱이 가능해지면서, 이미 알려진 자폐 유전자 근처의 조절 영역에서 신생변이가 빈번하다는 초기 보고도 나왔다(Turner et al. 2016). 하지만 비코딩 영역의 변이를 연구할 때 핵심적인 문제가 있다. 유전체의 98.5%가 비코딩이므로 분석해야 할 영역이 막대하고, 어떤 영역을 중요하다고 미리 가정하느냐에 따라 결과가 크게 달라질 수 있다는 것이다. 특정 유전자 근처만 보거나 특정 조절 요소만 선택하면, 사전 가정에 부합하는 결과만 찾아내는 편향에 빠질 위험이 있다. 이 때문에 비코딩 변이 연구에서는 비편향적(agnostic) 접근, 즉 유전체 전체를 사전 가정 없이 체계적으로 검정하는 방법이 중요하다.
Werling et al. (2018) 연구는 이 원칙에 기반한 가장 엄격한 분석 틀을 제시했다. 519개 SSC 가족의 전장 유전체 시퀀싱 데이터에서, 유전체를 다양한 기준으로 51,801개의 범주로 쪼갠 뒤 각 범주에서 자폐 환자의 신생변이가 형제에 비해 과잉인지를 하나하나 검정하는 범주 전체 연관 분석(category-wide association study, CWAS) 프레임워크를 도입했다. 도서관의 모든 책장을 뒤져 오탈자가 특별히 많은 구역을 찾는 것과 비슷하되, 모든 구역을 동등하게 검정한다는 점이 핵심이다. 결과적으로, 엄격한 다중 검정 보정을 적용한 후에는 어떤 비코딩 범주도 통계적으로 유의하지 않았다. 다중 검정 보정이란 수만 개의 범주를 동시에 검정할 때 우연에 의한 거짓 양성을 걸러내기 위한 통계적 절차다. 한 번만 검정하면 우연의 결과일 확률이 낮지만, 5만 번을 검정하면 그중 일부는 우연만으로도 유의하게 나올 수 있다. 이 우연의 효과를 보정하려면 각 개별 검정에 더 엄격한 기준을 적용해야 한다. 519가족이라는 표본에서 보이지 않았다고 해서 비코딩 변이의 기여가 존재하지 않는다는 결론을 내릴 수는 없다. 비코딩 변이의 개별 효과가 코딩 변이보다 작고, 검정해야 할 범주의 수가 훨씬 많기 때문에 같은 검정력을 확보하기 위해 더 많은 표본이 필요하기 때문이다. 이 연구의 가치는 발견 자체보다, 비코딩 변이 연구에서 비편향적이고 재현 가능한 방법론의 기준을 세운 것에 있다.
같은 CWAS 프레임워크를 거의 네 배 큰 표본에 적용하자 결과가 달라졌다. An et al. (2018) 연구는 SSC의 1,902개 4인 가족에 대한 전장 유전체 시퀀싱 데이터에서, Werling et al.이 도입한 CWAS를 55,143개의 범주로 확장 적용했다. 핵심 결과는 프로모터 영역, 특히 전사 시작 부위(TSS)에서 750~2,000 염기쌍 앞에 위치한 원위 프로모터(distal promoter)에서의 신생변이가 자폐 위험에 유의하게 기여한다는 것이었다. 이 프로모터 영역의 신생변이만으로 자폐 위험의 약 11%가 설명되었고, 이는 코딩 영역의 신생변이가 설명하는 비율에 맞먹는 수치였다. 519가족에서 보이지 않던 것이 1,902가족에서 보인 것은, 표본 크기의 증가가 검정력의 증가로 직결된다는 유전학의 기본 원리를 보여주는 사례다.
이 발견을 이해하는 방법은 이렇다. 코딩 영역의 변이가 단백질의 설계도 자체를 손상시키는 것이라면, 프로모터의 변이는 그 설계도를 언제 꺼내 읽을지를 결정하는 일정표를 바꾸는 것에 해당한다. 단백질 자체는 정상이지만, 그것이 만들어지는 시기나 양이 달라진다. 태아기 뇌 발달에서 특정 유전자가 특정 시점에 켜져야 하는데, 프로모터 변이로 인해 그 시점이 바뀌거나 발현량이 달라지면, 정상적인 발달 프로그램이 교란될 수 있다.
비코딩 변이를 해석할 때 가장 어려운 문제는, 그 변이가 어떤 유전자에 영향을 미치는지를 알기 어렵다는 것이다. 코딩 변이는 어떤 유전자 안에 있는지가 분명하다. 하지만 비코딩 변이, 특히 인핸서에 있는 변이는 반드시 가장 가까운 유전자를 조절하는 것이 아니다. 인핸서는 유전체의 선형 지도 위에서는 유전자로부터 수십만 글자나 떨어져 있을 수 있다. 그런데 DNA는 세포핵 안에서 단순히 일직선으로 뻗어 있지 않다. 마치 긴 실이 복잡하게 뭉쳐 있는 것처럼, DNA는 세포핵 안에서 접히고 고리를 만들며 3차원 구조를 형성한다. 그 결과, 선형 지도에서는 멀리 떨어진 인핸서와 프로모터가 3차원 공간에서는 바로 옆에 위치하여 물리적으로 접촉할 수 있다. 긴 전화선이 엉켜 있을 때, 선의 양 끝이 실제로는 바로 옆에 닿아 있을 수 있는 것과 같다. 이 3차원 접촉 정보를 활용하여 비코딩 변이를 해석한 것이 Kim et al. (2022) 연구다.
이 연구는 한국 K-ARC 코호트의 242개 심플렉스 가족에서 전장 유전체 시퀀싱을 수행하고, Hi-C 데이터(DNA의 3차원 접촉을 측정하는 기술)를 통합하여 비코딩 신생변이가 크로마틴 상호작용을 통해 어떤 유전자에 영향을 미치는지를 추적했다. 비유하자면, 편지(비코딩 변이)가 발신인(인핸서)에게서 수신인(유전자)에게 전달되는 경로를 추적한 것이다. 이 연구는 크로마틴 상호작용을 교란하는 비코딩 신생변이가 자폐 환자에서 유의하게 과잉이라는 것을 보여주었고, 특히 IQ가 낮은 환자에서 효과가 강했다. 이 결과는 SSC와 MSSNG에서 독립적으로 재현되었고, 환자 유래 유도만능줄기세포에서 기능적으로 검증되었다.
이후 Kim et al. (2024) 연구는 CWAS-Plus라는 개선된 분석 도구를 개발하여, 기존 CWAS보다 50배 빠른 속도로 비코딩 변이의 범주별 연관을 검정할 수 있게 했다. 단일 핵 ATAC-seq(single-nucleus ATAC-seq) 데이터를 통합하여 세포 유형 특이적 크로마틴 접근성 정보를 활용한 것이 핵심 혁신이었다. 비코딩 변이가 모든 세포에서 같은 효과를 가지는 것이 아니라, 특정 세포 유형에서 열려 있는(접근 가능한) 크로마틴 영역에서만 효과를 발휘한다는 것을 반영한 것이다. 이 도구를 7,280명의 자폐 표본에 적용한 결과, 전사인자 결합 부위에서의 자폐 신호와 미세아교세포에서 특이적인 알츠하이머 신호가 발견되었다.
비코딩 유전 변이 연구는 아직 초기 단계에 있다. 코딩 영역에서 185개의 위험 유전자가 확인된 것에 비하면, 비코딩 영역에서의 발견은 아직 개별 유전자 수준이 아니라 범주 수준(프로모터, 전사인자 결합 부위)에 머물러 있다. 하지만 유전체의 98.5%가 비코딩이라는 사실, 그리고 GWAS에서 발견되는 위험 좌위의 대부분이 비코딩 영역에 위치한다는 사실을 고려하면, 비코딩 변이의 기여는 현재 확인된 것보다 훨씬 클 가능성이 높다. 다음 장에서는 비코딩 영역의 또 다른 변이 유형인 반복 서열의 확장을 다룬다.
References
An, J.-Y., Lin, K., Zhu, L., Werling, D. M., Dong, S., Brand, H., … & Sanders, S. J. (2018). Genome-wide de novo risk score implicates promoter variation in autism spectrum disorder. Science, 362(6420), eaat6576. doi:10.1126/science.aat6576
Turner, T. N., Hormozdiari, F., Duyzend, M. H., McClymont, S. A., Hook, P. W., Iossifov, I., … & Eichler, E. E. (2016). Genome sequencing of autism-affected families reveals disruption of putative noncoding regulatory DNA. American Journal of Human Genetics, 98(1), 58-74. doi:10.1016/j.ajhg.2015.11.023
Kim, S., Trost, B., Engchuan, W., Nguyen, C. Q., Wilfert, A. B., Backstrom, I., … & An, J.-Y. (2022). Noncoding de novo mutations in chromatin interactions are implicated in autism spectrum disorder. Molecular Psychiatry, 27(11), 4680-4694. doi:10.1038/s41380-022-01697-2
Kim, Y., Park, J., & An, J.-Y. (2024). CWAS-Plus: An integrative framework for category-wide association study of noncoding variants. Briefings in Bioinformatics, 25(4), bbae358. doi:10.1093/bib/bbae358
Werling, D. M., Brand, H., An, J.-Y., Stone, M. R., Zhu, L., Glessner, J. T., … & Sanders, S. J. (2018). An analytical framework for whole genome sequence association studies and its implications for autism spectrum disorder. Nature Genetics, 50(5), 727-736. doi:10.1038/s41588-018-0107-y
Williams, S. M., An, J.-Y., Edber, J., Homber, M., Patel, H., Glessner, J. T., … & Bhatt, S. (2019). An integrative analysis of non-coding regulatory DNA variations associated with autism spectrum disorder. Molecular Psychiatry, 24(11), 1707-1719. doi:10.1038/s41380-018-0049-x