Chapter 16. 반복 서열 — 단축 반복과 구조 변이

유전체에는 같은 짧은 서열이 여러 번 반복되는 구간이 곳곳에 있다. 예를 들어 CAG라는 세 글자가 10번, 20번, 때로는 100번 이상 연달아 반복되는 구간이 있다. 이것을 단축 반복(short tandem repeat, STR)이라 부른다. 마치 책에서 “다시, 다시, 다시, 다시…”라는 단어가 반복되는 것과 비슷한데, 보통은 반복 횟수가 적정 범위 안에 있으면 문제가 없다. 하지만 반복 횟수가 비정상적으로 늘어나면, 즉 반복 서열이 확장(expansion)되면 유전자의 기능이 교란될 수 있다. 이미 알려진 대표적인 예로, FMR1 유전자의 CGG 반복이 200회 이상으로 확장되면 취약X 증후군이 발생하고, HTT 유전자의 CAG 반복이 36회 이상으로 확장되면 헌팅턴병이 발생한다. 이 질환들은 반복 서열 확장이 뇌에 직접적인 영향을 미칠 수 있다는 것을 오래전부터 보여주었지만, 자폐스펙트럼장애에서 반복 서열 확장이 어떤 역할을 하는지는 최근에야 탐구가 시작되었다.

반복 서열 연구가 늦어진 이유는 기술적 한계 때문이었다. 엑솜 시퀀싱은 단백질 코딩 영역만 읽으므로 반복 서열 대부분을 놓치고, 표준적인 짧은길이 시퀀싱(short-read sequencing)으로도 반복 서열의 정확한 길이를 추정하기 어렵다. 현재 가장 널리 사용되는 Illumina 시퀀싱 장비는 DNA를 약 150 글자(염기쌍) 길이의 조각으로 읽는다. 그런데 반복 서열이 이 150 글자보다 길면, 읽은 조각이 반복 구간 안에 완전히 묻혀버려서 반복의 시작과 끝을 구분할 수 없다. 비유하자면, 똑같은 패턴이 반복되는 벽지의 사진을 찍었는데 사진 프레임 안에 패턴의 시작과 끝이 모두 담기지 않으면 패턴이 몇 번 반복되는지 세어볼 수가 없는 것과 같다. 이 문제를 해결하기 위해 ExpansionHunter Denovo 같은 특수한 알고리즘이 개발되었다. 이 도구는 읽기 조각들이 반복 서열 안에서 어떻게 정렬되는지의 패턴을 분석하여, 직접 끝까지 읽지 못하더라도 반복 횟수를 통계적으로 추정할 수 있게 해준다.

자폐에서의 반복 서열 확장

Trost et al. (2020) 연구는 MSSNG, SSC, 1000 Genomes Project의 17,231개 유전체 데이터에서 반복 서열 확장을 유전체 전체 수준으로 분석한 최초의 대규모 연구다. 이 연구는 2~20 염기쌍 단위의 37,865개 반복 서열 모티프를 탐지했고, 그중 약 42%는 이전에 보고된 적이 없는 것이었다. 전체적으로 희귀한 유전자 관련 반복 서열 확장이 자폐 환자의 23.3%에서 관찰된 반면, 영향받지 않은 형제에서는 20.7%로, 자폐 환자에서 유의하게 높았다. 이 차이는 반복 서열 확장이 집단적으로 자폐 위험의 약 2.6%에 기여한다는 추정으로 이어졌다. DMPK(근긴장성 이영양증의 원인 유전자), FXN(프리드라이히 운동실조증), FGF14(소뇌 운동실조증), CACNB1(칼슘 채널 서브유닛) 같은 좌위에서 확장이 관찰되었고, 확장을 가진 환자는 그렇지 않은 환자에 비해 IQ가 낮고 적응 행동 점수가 떨어지는 경향이 있었다.

Trost et al. 연구가 정상 범위를 크게 벗어난 반복 서열 확장에 초점을 맞추었다면, Mitra et al. (2021) 연구는 다른 각도에서 접근했다. 이 연구는 SSC의 1,637개 4인 가족에서, 부모에게는 없고 자녀에게서 새로 발생한 반복 서열 변이, 즉 반복 횟수가 한두 단위씩 늘거나 줄어드는 신생 단축 반복 변이를 유전체 전체 수준에서 분석했다. 이를 위해 MonSTR이라는 신생 반복 서열 변이 탐지 도구와 SISTR이라는 자연 선택 계수 추정 도구를 새로 개발했다. 유전체 전체로 보면 자폐 환자에서의 과잉은 작았지만(상대 위험도 1.03), 태아기 뇌의 프로모터와 인핸서에 위치한 변이만 보면 과잉이 1.67배로 뛰었고, 자연 선택에 의해 가장 강하게 제한되는 좌위에서 희귀한 반복 수를 만들어내는 변이로 한정하면 2.5배까지 증가했다. FOXP1, KCNB1, MED13L 같은 자폐 위험 유전자들이 이 분석에서 후보로 부상했다. Trost의 연구가 큰 확장을 찾았다면, Mitra의 연구는 작지만 반복적으로 일어나는 변이가 조절 영역에서 축적되어 자폐에 기여할 수 있다는 것을 보여준 셈이다.

Kim et al. (2024) 연구는 이 발견을 한국 K-ARC 코호트의 634가족(2,104명)에서 독립적으로 재현하면서, 반복 서열 확장이 뇌의 어떤 세포 유형과 관련되는지를 추가로 탐구했다. 이 연구는 인간 사후 뇌의 단일 핵 RNA 시퀀싱 데이터와 ATAC-seq(크로마틴 접근성 측정) 데이터를 통합하여, 자폐에서 과잉된 반복 서열 확장이 피질 2/3층의 CUX2 양성 흥분성 뉴런 유전자와 4층의 시스-조절 요소(cis-regulatory element)에서 빈번하게 관찰된다는 것을 보여주었다. 피질 2/3층은 대뇌 피질의 바깥쪽에 위치한 층으로, 다른 피질 영역과의 장거리 연결을 담당하는 뉴런이 밀집해 있다. 이 영역의 유전자에서 반복 서열이 확장되어 있다는 것은, 피질 간 연결에 관여하는 뉴런의 기능이 반복 서열 확장에 의해 영향받을 수 있음을 시사한다. 또한 이 연구는 반복 서열 확장을 가진 환자에서 사회적 반응성 척도(SRS) 점수가 유의하게 높고(사회적 어려움이 더 심하다는 뜻) 바인랜드 적응 행동 척도(VABS) 점수가 유의하게 낮다는 것을 보여주어, 반복 서열 확장이 자폐의 표현형 심각도와 연관됨을 확인했다.

이 연구가 중요한 이유는 두 가지다. 하나는 Trost et al. (2020) 연구가 유럽계 인구에서 보여준 반복 서열 확장의 기여를 한국 코호트에서 독립적으로 재현함으로써, 이것이 인구를 가리지 않는 교차 인종 위험 인자임을 보여준 것이다. 다른 하나는 반복 서열 확장을 단순히 유전체 수준의 통계로 보고하는 것을 넘어, 뇌의 특정 세포 유형과 피질 층에 대한 생물학적 맥락을 제공한 것이다. 유전 변이가 존재한다는 것과, 그 변이가 어디서 무엇에 영향을 미치는지를 아는 것은 완전히 다른 수준의 이해다.

반복 서열 확장이 자폐와 연관된다는 발견은 진화적 맥락에서도 흥미로운 의미를 가진다. Liu and Tian (2025) 연구는 148개의 인간 유전체와 26개의 비인간 영장류 유전체를 비교하여, 8,813개의 인간 특이적 확장 단축 반복(human-specific expanded STR, heSTR)을 발견했다. 이 heSTR들은 뇌에서 특이적으로 활성화되는 인핸서와 크로마틴 루프에 집중되어 있었고, 이들의 표적 유전자에는 자폐 위험 유전자(SFARI 유전자, 185개 위험 유전자)가 유의하게 많이 포함되어 있었다. 인간의 뇌가 다른 영장류보다 커지고 복잡해지는 진화적 과정에서 확장된 바로 그 반복 서열 좌위에서, 비정상적 확장이 일어나면 자폐와 조현병의 위험이 높아진다는 것이다. 인간 뇌의 진화적 혁신을 가능하게 한 유전체 영역이 동시에 신경발달 장애의 발생 원인과 연결되어 있다는, 진화와 질환의 동전의 양면 같은 관계를 보여주는 발견이다.

반복 서열 확장은 자폐 유전학에서 가장 최근에 추가된 변이 유형이며, 아직 탐구의 초기 단계에 있다. 개별 반복 서열 좌위와 자폐의 연관을 확정하기 위해서는 더 큰 코호트와 더 정밀한 반복 서열 측정 기술이 필요하다. 긴길이 시퀀싱(long-read sequencing)이 보급되면서 반복 서열의 정확한 길이 측정이 가능해지고 있으며, 이것은 향후 자폐 유전학에서 반복 서열 연구를 한 단계 발전시킬 것으로 기대된다. 다음 장에서는 자폐 유전학에서 아직 충분히 탐구되지 않은 또 다른 영역, 열성 변이와 동형접합 구간의 문제를 다룬다.

References

Liu, Q., & Tian, W. (2025). Association of human-specific expanded short tandem repeats with neuron-specific regulatory features. Science Advances, 11, eadp9707. doi:10.1126/sciadv.adp9707

Kim, J. H., Koh, I. G., Lee, H., & An, J.-Y. (2024). Short tandem repeat expansions in cortical layer-specific genes implicate in phenotypic severity and adaptability of autism spectrum disorder. Psychiatry and Clinical Neurosciences, 78(10), 598-607. doi:10.1111/pcn.13676

Mitra, I., Huang, B., Mousavi, N., Matt, N., Huang, S., Kumar, V., … & Gymrek, M. (2021). Patterns of de novo tandem repeat mutations and their role in autism. Nature, 589(7841), 246-250. doi:10.1038/s41586-020-03078-7

Trost, B., Engchuan, W., Nguyen, C. M., Thiruvahindrapuram, B., Dolzhenko, E., Backstrom, I., … & Scherer, S. W. (2020). Genome-wide detection of tandem DNA repeats that are expanded in autism. Nature, 586(7827), 80-86. doi:10.1038/s41586-020-2579-z