16장. 반복 서열 — 단축 반복과 구조 변이

유전체에는 같은 짧은 서열이 여러 번 반복되는 구간이 곳곳에 있다. 예를 들어 CAG라는 세 글자가 10번, 20번, 때로는 100번 이상 연달아 반복되는 구간이 있다. 이것을 단축 반복(short tandem repeat, STR)이라 부른다. 마치 책에서 “다시, 다시, 다시, 다시…”라는 단어가 반복되는 것과 비슷한데, 보통 반복 횟수가 적정 범위 안에 있으면 문제가 없다. 다만 반복 횟수가 일반적 범위를 넘어 늘어나면, 즉 반복 서열이 확장(expansion)되면 유전자의 기능이 흐트러진다. 이미 알려진 대표적인 예로, FMR1 유전자의 CGG 반복이 200회 이상으로 확장되면 Fragile X 증후군이 발생하고, HTT 유전자의 CAG 반복이 36회 이상으로 확장되면 헌팅턴병이 발생한다. 이 질환들은 반복 서열 확장이 뇌에 직접 영향을 미친다는 사실을 오래전부터 보여주었지만, 자폐스펙트럼장애에서 반복 서열 확장이 어떤 역할을 하는지는 최근에야 탐구가 시작되었다.

반복 서열 연구가 늦어진 이유는 기술적 한계 때문이었다. 엑솜 시퀀싱은 단백질 코딩 영역만 읽으므로 반복 서열 대부분을 놓치고, 표준적인 짧은길이 시퀀싱(short-read sequencing)으로도 반복 서열의 정확한 길이를 추정하기 어렵다. 현재 가장 널리 사용되는 Illumina 시퀀싱 장비는 DNA를 약 150 글자(염기쌍) 길이의 조각으로 읽는다. 그런데 반복 서열이 이 150 글자보다 길면, 읽은 조각이 반복 구간 안에 묻혀버려서 반복의 시작과 끝을 구분할 수 없다. 비유하자면, 똑같은 패턴이 반복되는 벽지의 사진을 찍었는데 사진 프레임 안에 패턴의 시작과 끝이 모두 담기지 않으면 패턴이 몇 번 반복되는지 셀 수 없는 것과 같다. 이 문제를 풀려고 ExpansionHunter Denovo 같은 특수 알고리즘이 개발되었다. 이 도구는 읽기 조각들이 반복 서열 안에서 어떻게 정렬되는지의 패턴을 분석해, 직접 끝까지 읽지 못하더라도 반복 횟수를 통계적으로 추정해낸다.

자폐에서의 반복 서열 확장

Trost et al. (2020) 연구는 MSSNG, SSC, 1000 Genomes Project의 17,231개 유전체 데이터에서 반복 서열 확장을 유전체 전체 수준으로 분석한 최초의 대규모 연구다. 이 연구는 2~20 염기쌍 단위의 37,865개 반복 서열 모티프를 탐지했고, 그중 약 42%는 이전에 보고된 적이 없는 것이었다. 전체적으로 희귀한 유전자 관련 반복 서열 확장이 자폐 진단군의 23.3%에서 관찰된 반면, 자폐 진단을 받지 않은 형제에서는 20.7%로, 자폐 진단군에서 유의하게 높았다. 이 차이는 반복 서열 확장이 집단적으로 자폐 위험의 약 2.6%에 기여한다는 추정으로 이어졌다. DMPK(근긴장성 이영양증의 원인 유전자), FXN(프리드라이히 운동실조증), FGF14(소뇌 운동실조증), CACNB1(칼슘 채널 서브유닛) 같은 좌위에서 확장이 관찰되었고, 확장을 가진 참여자는 그렇지 않은 참여자에 비해 IQ가 낮고 적응 행동 점수가 떨어지는 경향이 있었다.

Trost et al. 연구가 평균 범위를 크게 벗어난 반복 서열 확장에 초점을 맞추었다면, Mitra et al. (2021) 연구는 다른 각도에서 접근했다. 이 연구는 SSC의 1,637개 4인 가족에서, 부모에게는 없고 자녀에게서 새로 발생한 반복 서열 변이, 즉 반복 횟수가 한두 단위씩 늘거나 줄어드는 신생 단축 반복 변이를 유전체 전체 수준에서 분석했다. 이 분석을 위해 MonSTR이라는 신생 반복 서열 변이 탐지 도구와 SISTR이라는 자연 선택 계수 추정 도구를 새로 개발했다. 유전체 전체로 보면 자폐 진단군에서의 과잉은 작았지만(상대 위험도 1.03), 태아기 뇌의 프로모터와 인핸서에 위치한 변이만 보면 과잉이 1.67배로 뛰었고, 자연 선택이 가장 강하게 제한하는 좌위에서 희귀한 반복 수를 만들어내는 변이로 한정하면 2.5배까지 증가했다. FOXP1, KCNB1, MED13L 같은 자폐 위험 유전자들이 이 분석에서 후보로 부상했다. Trost의 연구가 큰 확장을 찾았다면, Mitra의 연구는 작지만 반복적으로 일어나는 변이가 조절 영역에 쌓여 자폐에 기여하는 양상을 보여준 셈이다.

Kim et al. (2024) 연구는 이 발견을 한국 K-ARC 코호트의 634가족(2,104명)에서 독립적으로 재현하면서, 반복 서열 확장이 뇌의 어떤 세포 유형과 연관되는지를 추가로 탐구했다. 이 연구는 인간 사후 뇌의 단일 핵 RNA 시퀀싱 데이터와 ATAC-seq(크로마틴 접근성 측정) 데이터를 통합해, 자폐에서 과잉된 반복 서열 확장이 피질 2/3층의 CUX2 양성 흥분성 뉴런 유전자와 4층의 시스-조절 요소(cis-regulatory element)에 빈번하다는 사실을 보여주었다. 피질 2/3층은 대뇌 피질의 바깥쪽에 위치한 층으로, 다른 피질 영역과의 장거리 연결을 담당하는 뉴런이 밀집해 있다. 이 영역의 유전자에서 반복 서열이 확장되어 있다는 사실은, 피질 간 연결에 관여하는 뉴런의 기능이 반복 서열 확장의 영향을 받음을 시사한다. 또 이 연구는 반복 서열 확장을 가진 참여자에게서 사회적 반응성 척도(SRS) 점수가 유의하게 높고(사회적 어려움이 더 심하다는 뜻) 바인랜드 적응 행동 척도(VABS) 점수가 유의하게 낮다는 결과로, 반복 서열 확장이 자폐의 표현형 심각도와 연관됨을 확인했다.

이 연구의 의미는 두 갈래다. 하나는 Trost et al. (2020) 연구가 유럽계 인구에서 보여준 반복 서열 확장의 기여를 한국 코호트에서 독립적으로 재현해, 인구 집단을 가리지 않는 요인임을 입증한 것이다. 다른 하나는 반복 서열 확장을 단순히 유전체 수준의 통계로 보고하는 데서 그치지 않고, 뇌의 특정 세포 유형과 피질 층이라는 생물학적 맥락을 제공한 점이다. 유전 변이가 존재한다는 사실과, 그 변이가 어디서 무엇에 영향을 미치는지를 아는 것은 다른 차원의 이해다.

반복 서열 확장이 자폐와 연관된다는 발견은 진화적 맥락에서도 흥미롭다. Liu and Tian (2025) 연구는 148개의 인간 유전체와 26개의 비인간 영장류 유전체를 비교해, 8,813개의 인간 특이적 확장 단축 반복(human-specific expanded STR, heSTR)을 발견했다. 이 heSTR들은 뇌에서 특이적으로 활성화되는 인핸서와 크로마틴 루프에 몰려 있었고, 이들의 표적 유전자에는 자폐 위험 유전자(SFARI 유전자, 185개 위험 유전자)가 유의하게 많이 포함되어 있었다. 인간의 뇌가 다른 영장류보다 커지고 복잡해지는 진화 과정에서 확장된 바로 그 반복 서열 좌위에서, 일반적 범위를 넘어선 확장이 일어나면 자폐와 조현병의 위험이 높아진다는 것이다. 인간 뇌의 진화적 혁신을 떠받친 유전체 영역이 동시에 신경발달 장애의 발생 원인과 연결되어 있다는, 진화와 질환의 동전의 양면 같은 관계를 보여주는 발견이다.

반복 서열 확장은 자폐 유전학에서 가장 최근에 추가된 변이 유형이며, 아직 탐구의 초기 단계에 있다. 개별 반복 서열 좌위와 자폐의 연관을 확정하려면 더 큰 코호트와 더 정밀한 반복 서열 측정 기술이 필요하다. 긴길이 시퀀싱(long-read sequencing)이 보급되면서 반복 서열의 정확한 길이 측정이 가능해지고 있으며, 이것은 향후 자폐 유전학에서 반복 서열 연구를 한 단계 더 끌어올리는 토대가 될 것이다. 지금까지 다룬 유전 변이들은 대부분 유전체의 두 복사본 중 한쪽에만 변이가 있어도 표현형이 나타나는 경우였다. 두 복사본 모두에 변이가 있어야 비로소 표현형이 드러나는 열성 변이도 자폐에 기여한다.

이 장을 삶으로 옮길 때

반복 서열은 유전체가 단순한 일직선 문장이 아니라 반복과 접힘, 길이 변화가 많은 구조라는 점을 보여준다. 이런 변이는 짧은길이 시퀀싱으로 잘 보이지 않을 수 있어, 기술의 한계가 곧 원인의 부재로 오해되면 안 된다. 가족은 검사에서 “없다”는 결과와 “현재 방법으로 확인되지 않았다”는 결과를 구분해서 들어야 한다. 반복 서열은 세대에 따라 길이가 달라질 수 있어 상담이 복잡하지만, 그 복잡성이 가족에게 책임을 돌리는 근거가 되지는 않는다. 당사자와 형제자매에게는 같은 가족 안에서도 유전체 구조와 삶의 모습이 다를 수 있다는 점이 중요하다. 이 장은 보이지 않던 변이를 찾는 기술의 발전과, 그 결과를 서두르지 않고 해석하는 태도를 함께 요구한다.

참고문헌

Liu, Q., & Tian, W. (2025). Association of human-specific expanded short tandem repeats with neuron-specific regulatory features. Science Advances, 11, eadp9707. doi:10.1126/sciadv.adp9707

Kim, J. H., Koh, I. G., Lee, H., & An, J.-Y. (2024). Short tandem repeat expansions in cortical layer-specific genes implicate in phenotypic severity and adaptability of autism spectrum disorder. Psychiatry and Clinical Neurosciences, 78(10), 598-607. doi:10.1111/pcn.13676

Mitra, I., Huang, B., Mousavi, N., Matt, N., Huang, S., Kumar, V., … & Gymrek, M. (2021). Patterns of de novo tandem repeat mutations and their role in autism. Nature, 589(7841), 246-250. doi:10.1038/s41586-020-03078-7

Trost, B., Engchuan, W., Nguyen, C. M., Thiruvahindrapuram, B., Dolzhenko, E., Backstrom, I., … & Scherer, S. W. (2020). Genome-wide detection of tandem DNA repeats that are expanded in autism. Nature, 586(7827), 80-86. doi:10.1038/s41586-020-2579-z