유전체를 다시 한번 책에 비유해보자. 이 책에는 약 2만 개의 유전자가 들어 있는데, 전체 분량의 약 1.5%에 해당한다. 나머지 98.5%는 무엇인가? 한때 이 영역은 “정크 DNA(junk DNA)“라고 불렸다. 단백질을 만들지 않으니 쓸모없는 부분이라는 뜻이었다. 이 이름은 잘못 붙은 이름이다. 비코딩 영역에는 유전자의 발현을 조절하는 여러 종류의 스위치와 조절판이 들어 있다. 프로모터(promoter)는 유전자 바로 앞에 위치한 시작 스위치로, 이 스위치가 켜져야 유전자가 읽히기 시작한다. 인핸서(enhancer)는 유전자에서 멀리 떨어져 있으면서도 유전자의 발현을 강화하는 원격 조절 장치다. 전사인자 결합 부위(transcription factor binding site)는 특정 단백질이 DNA에 달라붙어 유전자 발현을 조절하는 접착 지점이다. 이 조절 장치들이 없으면, 유전자가 있어도 언제, 어디서, 얼마나 발현할지를 결정할 수 없다. 뇌에서 한 유전자가 태아기에는 켜져 있다가 성인기에는 꺼지거나, 뉴런에서는 높이 발현되지만 글리아세포에서는 침묵하는 식의 시공간적 조절은 모두 비코딩 영역에 담긴 정보로 이루어진다.
자폐스펙트럼장애에 기여하는 유전변이가 단백질 코딩 영역에만 있다면, 엑솜 시퀀싱만으로 충분할 것이다. 하지만 유전체의 98.5%를 차지하는 비코딩 영역에서 발생한 변이가 유전자 조절을 교란해 자폐에 기여한다면, 엑솜 시퀀싱은 이야기의 절반만 읽는 셈이다. 비코딩 유전변이가 자폐에 기여하는지 밝히는 작업은 자폐 유전학에서 가장 활발한 연구 전선 가운데 하나다.
비코딩 변이가 자폐에 기여한다는 발상 자체는 일찍부터 있었다. 전장 유전체 시퀀싱이 가능해지면서, 이미 알려진 자폐 유전자 근처의 조절 영역에서 신생변이가 빈번하게 나타난다는 초기 보고도 나왔다(Turner et al. 2016). 비코딩 영역의 변이를 연구할 때 핵심 난관은 분석 영역의 크기다. 유전체의 98.5%가 비코딩이므로 분석할 영역이 막대하고, 어떤 영역을 중요하게 볼지 미리 가정하느냐에 따라 결과가 크게 달라진다. 특정 유전자 근처만 보거나 특정 조절 요소만 골라내면, 사전 가정에 부합하는 결과만 발견하는 편향에 빠지기 쉽다. 비코딩 변이 연구에서 비편향적(agnostic) 접근, 즉 유전체 전체를 사전 가정 없이 체계적으로 검정하는 방법이 필요한 까닭이 여기에 있다.
Werling et al. (2018) 연구는 이 원칙에 기반한 가장 엄격한 분석 틀을 제시했다. 519개 SSC 가족의 전장 유전체 시퀀싱 데이터에서, 유전체를 다양한 기준으로 51,801개의 범주로 쪼갠 뒤 각 범주에서 자폐 진단군의 신생변이가 형제에 비해 과잉인지 하나하나 검정하는 범주 전체 연관 분석(category-wide association study, CWAS) 프레임워크를 도입했다. 도서관의 모든 책장을 뒤져 오탈자가 유난히 많은 구역을 찾되, 모든 구역을 동등하게 검정한다는 점이 핵심이다. 결과적으로 엄격한 다중 검정 보정을 적용한 후에는 어떤 비코딩 범주도 통계적으로 유의하지 않았다. 다중 검정 보정이란 수만 개의 범주를 동시에 검정할 때 우연에 의한 거짓 양성을 걸러내는 통계 절차다. 한 번만 검정하면 우연의 결과일 확률이 낮지만, 5만 번을 검정하면 그중 일부는 우연만으로도 유의하게 나올 수 있다. 이 우연 효과를 보정하려면 각 개별 검정에 더 엄격한 기준을 적용해야 한다. 519가족이라는 표본에서 보이지 않았다고 해서 비코딩 변이의 기여가 없다고 결론 내리기는 어렵다. 비코딩 변이의 개별 효과가 코딩 변이보다 작고, 검정해야 할 범주의 수가 훨씬 많아 같은 검정력을 확보하려면 더 많은 표본이 필요하기 때문이다. 이 연구의 가치는 발견 자체보다, 비코딩 변이 연구에서 비편향적이고 재현 가능한 방법론의 기준을 세웠다는 데 있다.
같은 CWAS 프레임워크를 거의 네 배 큰 표본에 적용하자 결과가 달라졌다. An et al. (2018) 연구는 SSC의 1,902개 4인 가족 전장 유전체 시퀀싱 데이터에서, Werling et al.이 도입한 CWAS를 55,143개의 범주로 확장 적용했다. 핵심 결과는 프로모터 영역, 그중에서도 전사 시작 부위(TSS)에서 750~2,000 염기쌍 앞에 위치한 원위 프로모터(distal promoter)에서의 신생변이가 자폐 위험에 유의하게 기여한다는 것이었다. 이 프로모터 영역의 신생변이만으로 자폐 위험의 약 11%가 설명되었고, 코딩 영역의 신생변이가 설명하는 비율에 맞먹는 수치였다. 519가족에서 보이지 않던 신호가 1,902가족에서 보인 사실은, 표본 크기 증가가 검정력 증가로 직결된다는 유전학의 기본 원리를 잘 보여준다.
이 발견은 이렇게 이해할 수 있다. 코딩 영역의 변이가 단백질 설계도 자체를 바꾼다면, 프로모터 변이는 그 설계도를 언제 꺼내 읽을지 결정하는 일정표를 바꾼다. 단백질 자체는 기능을 유지하더라도, 만들어지는 시기나 양이 달라진다. 태아기 뇌 발달에서 특정 유전자가 특정 시점에 켜져야 하는데 프로모터 변이로 시점이 어긋나거나 발현량이 달라지면, 전형적인 발달 프로그램이 교란된다.
비코딩 변이를 해석할 때 가장 어려운 문제는 그 변이가 어떤 유전자에 영향을 미치는지 알기 어렵다는 점이다. 코딩 변이는 어떤 유전자 안에 있는지를 알 수 있다. 하지만 비코딩 변이, 그중에서도 인핸서에 있는 변이는 반드시 가장 가까운 유전자를 조절한다고 단정할 수 없다. 인핸서는 유전체의 선형 지도 위에서는 유전자로부터 수십만 글자 떨어져 있을 수도 있다. 그런데 DNA는 세포핵 안에서 단순히 일직선으로 뻗어 있지 않다. 마치 긴 실이 복잡하게 뭉쳐 있듯, DNA는 세포핵 안에서 접히고 고리를 만들며 3차원 구조를 이룬다. 그 결과 선형 지도에서는 멀리 떨어진 인핸서와 프로모터가 3차원 공간에서는 바로 옆에 자리 잡아 물리적으로 접촉하기도 한다. 긴 전화선이 엉켰을 때, 선의 양 끝이 실제로는 바로 옆에 닿아 있는 것과 같다. 이 3차원 접촉 정보를 활용해 비코딩 변이를 해석한 연구가 Kim et al. (2022) 연구다.
이 연구는 한국 K-ARC 코호트의 242개 단발성 가족에서 전장 유전체 시퀀싱을 수행하고, Hi-C 데이터(DNA의 3차원 접촉을 측정하는 기술)를 통합해 비코딩 신생변이가 크로마틴 상호작용을 거쳐 어떤 유전자에 영향을 미치는지 추적했다. 비유하자면 편지(비코딩 변이)가 발신인(인핸서)에게서 수신인(유전자)에게 전달되는 경로를 따라간 셈이다. 크로마틴 상호작용을 교란하는 비코딩 신생변이가 자폐 진단군에서 유의하게 과잉이라는 결과를 얻었고, IQ가 낮은 하위군에서 효과가 더 강했다. 이 결과는 SSC와 MSSNG에서 독립적으로 재현되었고, 참여자 유래 유도만능줄기세포에서 기능적으로도 검증되었다.
이후 Kim et al. (2024) 연구는 CWAS-Plus라는 개선된 분석 도구를 개발해, 기존 CWAS보다 50배 빠른 속도로 비코딩 변이의 범주별 연관을 검정할 수 있게 했다. 단일 핵 ATAC-seq(single-nucleus ATAC-seq) 데이터를 통합해 세포 유형 특이적 크로마틴 접근성 정보를 활용한 점이 핵심이었다. 비코딩 변이가 모든 세포에서 같은 효과를 내는 것이 아니라, 특정 세포 유형에서 열려 있는(접근 가능한) 크로마틴 영역에서만 효과를 발휘한다는 사실을 반영한 설계다. 이 도구를 7,280명의 자폐 표본에 적용한 결과, 전사인자 결합 부위에서의 자폐 신호와 미세아교세포에서 특이적인 알츠하이머 신호가 발견되었다.
비코딩 유전변이 연구는 아직 초기 단계다. 코딩 영역에서 185개의 위험 유전자가 확인된 것에 비하면, 비코딩 영역에서의 발견은 아직 개별 유전자 수준이 아니라 범주 수준(프로모터, 전사인자 결합 부위)에 머물러 있다. 다만 유전체의 98.5%가 비코딩이라는 사실, 그리고 GWAS에서 발견되는 위험 좌위의 대부분이 비코딩 영역에 있다는 사실을 함께 놓고 보면, 비코딩 변이의 기여는 지금까지 확인된 것보다 훨씬 클 가능성이 높다. 비코딩 영역에는 프로모터나 인핸서 외에도, 같은 짧은 서열이 여러 번 반복되는 구간이 곳곳에 자리한다. 이 반복 서열이 일반적 범위를 넘어 늘어나는 확장 현상이 자폐에 기여한다는 사실은 가장 최근에 더해진 발견이다.
비코딩 변이는 유전체의 여백처럼 보였던 곳에도 중요한 조절 정보가 있다는 사실을 보여준다. 엑솜 검사에서 명확한 답을 얻지 못한 가족에게는, 아직 읽지 못했거나 해석하지 못한 영역이 남아 있다는 설명이 위로가 될 수 있다. 그러나 이 위로가 곧바로 임상적 확신이나 치료 약속으로 이어지는 것은 아니다. 비코딩 영역의 변이를 해석하려면 큰 표본, 기능 실험, 세포 유형과 발달 시점에 대한 정보가 함께 필요하다. 당사자에게는 “원인을 아직 모른다”는 말이 “당신의 경험이 덜 실제적이다”라는 뜻이 아님을 분명히 해야 한다. 연구의 빈칸은 사람의 삶의 빈칸이 아니라, 과학이 아직 따라가고 있는 자리다.
An, J.-Y., Lin, K., Zhu, L., Werling, D. M., Dong, S., Brand, H., … & Sanders, S. J. (2018). Genome-wide de novo risk score implicates promoter variation in autism spectrum disorder. Science, 362(6420), eaat6576. doi:10.1126/science.aat6576
Turner, T. N., Hormozdiari, F., Duyzend, M. H., McClymont, S. A., Hook, P. W., Iossifov, I., … & Eichler, E. E. (2016). Genome sequencing of autism-affected families reveals disruption of putative noncoding regulatory DNA. American Journal of Human Genetics, 98(1), 58-74. doi:10.1016/j.ajhg.2015.11.023
Kim, S., Trost, B., Engchuan, W., Nguyen, C. Q., Wilfert, A. B., Backstrom, I., … & An, J.-Y. (2022). Noncoding de novo mutations in chromatin interactions are implicated in autism spectrum disorder. Molecular Psychiatry, 27(11), 4680-4694. doi:10.1038/s41380-022-01697-2
Kim, Y., Park, J., & An, J.-Y. (2024). CWAS-Plus: An integrative framework for category-wide association study of noncoding variants. Briefings in Bioinformatics, 25(4), bbae358. doi:10.1093/bib/bbae358
Werling, D. M., Brand, H., An, J.-Y., Stone, M. R., Zhu, L., Glessner, J. T., … & Sanders, S. J. (2018). An analytical framework for whole genome sequence association studies and its implications for autism spectrum disorder. Nature Genetics, 50(5), 727-736. doi:10.1038/s41588-018-0107-y
Williams, S. M., An, J.-Y., Edber, J., Homber, M., Patel, H., Glessner, J. T., … & Bhatt, S. (2019). An integrative analysis of non-coding regulatory DNA variations associated with autism spectrum disorder. Molecular Psychiatry, 24(11), 1707-1719. doi:10.1038/s41380-018-0049-x