Chapter 29. 긴길이 시퀀싱과 이소체의 세계

지도는 그것이 표현하고자 하는 영역의 일부만 보여줄 수 있다. 지도의 해상도가 낮을수록, 실제 지형에 있는 세부적인 특징들이 지도 위에서 사라진다. 분자생물학에서 짧은길이(short-read) RNA 시퀀싱은 오랫동안 뇌 전사체를 이해하는 표준 지도였다. 150bp의 짧은 단편으로 수백만 개의 RNA 분자를 읽어내는 이 기술은 어떤 유전자가 발현되는지를 높은 민감도로 탐지할 수 있지만, 하나의 유전자에서 만들어지는 수십 가지의 서로 다른 전사체 이소체(transcript isoform) 중 어느 것이 실제로 발현되는지를 구분할 수 없다는 근본적인 한계를 안고 있다. 짧은 단편들은 전체 RNA 분자의 중간 어딘가에서 나온 것이어서, 그 RNA의 5’ 말단이 어디에서 시작하고 3’ 말단이 어디에서 끝나는지, 그리고 그 사이에 어떤 엑손들이 어떤 순서로 이어져 있는지를 보여주지 못한다. 마치 한 권의 책에서 임의로 뽑은 수백만 개의 짧은 문장 단편들로부터 그 책에 몇 가지 이야기가 들어 있는지, 그리고 각 이야기의 처음과 끝이 어디인지를 알아내려는 시도와 비슷하다. 예를 들어 “그는 문을 열었다”라는 구절만 봐서는 그것이 추리 소설인지 로맨스인지, 아니면 같은 단어를 쓰는 두 개의 다른 이야기인지 알 수 없다. 전체 맥락을 봐야 한다. 조각들은 있지만, 전체 그림이 없다.

전장(full-length) 전사체를 직접 읽어야만 비로소 보이기 시작하는 세계가 있다. 수십만 개의 이소체가 뇌 발달의 각 단계에서 켜지고 꺼지며, 어떤 세포 유형에서는 존재하고 다른 세포 유형에서는 존재하지 않으며, 그 차이가 시냅스 연결의 특이성을 결정하고 신경발달 질환의 위험과 직결된다는 세계다. 긴길이 시퀀싱(long-read sequencing)은 이 세계로 들어가는 문이다. 이 장에서는 긴길이 기술이 어떻게 작동하고, 뇌 전사체 연구에서 어떤 발견들이 이루어졌으며, RNA 결합 단백질들이 이 복잡한 스플라이싱 프로그램을 어떻게 조율하는지, 그리고 그 조절이 어긋날 때 어떤 신경발달 질환이 생기는지를 살펴본다.

앞선 장들에서 RNA-seq는 “어떤 유전자가 얼마나 켜졌는가”를 묻는 도구로 등장했다. 이 장의 질문은 조금 다르다. 같은 유전자가 켜졌더라도, 그 유전자가 어떤 버전의 RNA와 단백질을 만들고 있는가? 짧은길이 시퀀싱은 유전자의 발현량을 잘 재지만, 전체 전사체의 처음과 끝, 그리고 엑손의 조합을 한 번에 보기는 어렵다. 긴길이 시퀀싱은 발현량의 지도를 이소체 구조의 지도로 확장한다.

왜 긴길이인가: 짧은 리드의 구조적 한계

짧은길이 기반 RNA 시퀀싱의 핵심 과정은 RNA를 짧은 단편으로 분절한 뒤, 그 단편들을 참조 유전체에 매핑하여 발현량을 추정하는 것이다. 이 전략은 유전자 수준의 발현 분석에서는 잘 작동한다. 발현되는 유전자의 목록을 만들고, 각 유전자의 상대적 발현량을 비교하는 데 짧은길이 RNA-seq는 정밀하고 재현 가능하다. 그러나 이소체 수준에서는 “다중 매핑(multi-mapping)” 문제가 발생한다. 두 이소체가 동일한 엑손을 공유하는 경우, 그 공유 엑손 영역에서 읽힌 짧은 단편들이 어느 이소체에서 유래했는지를 결정할 수 없다. 컴퓨터 알고리즘이 통계적 추론으로 이 문제를 완화하려 하지만, 엑손 공유가 많고 대체 스플라이싱 부위가 복수로 존재하는 유전자일수록 추론의 불확실성이 누적된다. NRXN1, CNTN4, SHANK3와 같은 대형 신경발달 유전자들은 수십 개의 대체 엑손을 가져 수백 가지의 이론적 이소체를 만들 수 있는데, 이런 유전자들에서 짧은길이 기반 이소체 정량은 실질적으로 불가능에 가깝다. 뿐만 아니라, 기존에 주석화(annotation)되지 않은 신규 이소체는 애초에 탐지의 대상 자체가 되지 않는다. 지도에 없는 길은 발견할 수 없는 것과 같다.

긴길이 시퀀싱은 이 문제를 원천적으로 해결한다. 현재 두 가지 플랫폼이 주류를 이루고 있다. Pacific Biosciences(PacBio)의 HiFi Iso-Seq는 환형화된 단일 RNA 분자를 수십 번 반복 시퀀싱하는 Circular Consensus Sequencing(CCS) 방식으로 10~25kb의 읽기 길이에서 99.9% 이상의 정확도를 달성한다. RNA를 여러 번 반복해서 읽고 오류를 평균화함으로써 장거리 읽기와 높은 정확도를 동시에 구현하는 것이다. Oxford Nanopore Technologies(ONT)의 나노포어 시퀀싱은 단백질 채널 속으로 RNA 분자를 통과시킬 때 발생하는 전류 변화를 측정하여 염기 서열을 읽는 전혀 다른 원리를 사용하며, 100kb 이상의 초장거리 읽기도 가능하다. 나노포어 시퀀싱은 긴 줄에 꿴 구슬을 좁은 구멍에 통과시키는 과정에 비유할 수 있다. 구슬(DNA/RNA 염기) 하나하나가 구멍을 통과할 때마다 전류가 조금씩 다르게 바뀌는데, 이 전류 변화를 읽어서 어떤 염기인지 판독한다. 구슬이 아무리 긴 줄에 엮여 있어도 모두 한 번에 통과시킬 수 있다. 매우 긴 전사체나 반복 영역을 포함한 RNA도 하나의 연속된 읽기로 포착할 수 있다. 두 플랫폼 모두 핵심적인 이점을 공유한다. 하나의 RNA 분자를 처음부터 끝까지 하나의 연속된 읽기(read)로 포착할 수 있다는 것이다. 이소체의 5’ 말단과 3’ 말단이 동일한 읽기 안에 들어 있으므로, 어떤 엑손들이 어떤 순서로 연결되어 있는지를 직접 관찰할 수 있다. 이것이 짧은길이와의 근본적인 차이다. 추론이 아니라 관찰이다.

엑손 수준에서 이미 보이는 발달적 전환: SCN2A의 사례

긴길이 시퀀싱(long-read sequencing)이 없더라도, 엑손 수준의 발현 분석만으로 발달 과정에서 일어나는 극적인 이소체 전환을 포착할 수 있는 경우가 있다. Liang et al. (2021)은 전압개폐 나트륨 채널 유전자 네 개, SCN1A, SCN2A, SCN3A, SCN8A에서 상호배타적으로 사용되는 한 쌍의 엑손을 추적함으로써 이를 보여주었다. 이 네 유전자는 모두 다섯 번째 단백질 코딩 엑손의 두 가지 버전, 즉 신생아형 엑손 5N과 성체형 엑손 5A를 가지고 있다. 두 엑손은 상호배타적(mutually exclusive)이어서 하나의 전사체에는 둘 중 하나만 포함된다. 어떤 버전이 선택되느냐에 따라 만들어지는 나트륨 채널의 생물리학적 특성, 즉 활성화 역치, 불활성화 속도, 채널 회복 시간이 달라진다.

연구진은 BrainSpan 데이터베이스를 포함한 783개의 인간 뇌 RNA-seq 샘플에서 엑손 수준의 발현을 분석했다. 성숙한 인간 신피질에서는 네 유전자 모두 엑손 5A가 5N보다 최소 4배 이상 높게 발현되었다. 그런데 발달 초기로 거슬러 올라가면 상황이 뒤집힌다. SCN2A, SCN3A, SCN8A에서 5N에서 5A로의 전환이 수정 후 24주에서 생후 6세 사이에 뇌 전체에서 동기화되어 일어났다. 마우스에서 동일한 전환은 배아 15.5일에 이미 시작되므로, 인간의 전환은 마우스보다 상대적으로 훨씬 느리게 진행된다. 이것은 인간 뇌의 시냅스 네오테니, 즉 느린 성숙이라는 주제와도 맞닿아 있다.

이 발견이 특히 중요한 이유는 SCN2A의 임상적 맥락에 있다. SCN2A는 자폐스펙트럼장애와 간질의 주요 원인 유전자인데, 같은 유전자의 유전 변이가 기능 획득(gain-of-function)이면 신생아기 간질을, 기능 상실(loss-of-function)이면 자폐스펙트럼장애와 지적장애를 일으킨다. 왜 같은 유전자에서 반대 방향의 변이가 서로 다른 발달 시기에 서로 다른 질환으로 나타나는가? 엑손 5N에서 5A로의 전환이 그 해답의 일부를 제공한다. 발달 초기에 5N 이소체가 지배적인 시기에는 기능 획득 변이가 채널 활성을 과도하게 높여 발작을 일으키고, 전환이 완료된 후 5A 이소체가 지배적인 시기에는 기능 상실 변이가 성숙한 채널의 정상적 작동을 방해하여 시냅스 기능 장애로 이어진다.

그러나 이 연구는 동시에 짧은길이 기반 분석의 한계도 드러낸다. Liang et al. (2021)이 추적한 것은 상호배타적 엑손 한 쌍의 사용 비율이었다. 이것은 엑손 수준의 질문이지, 전체 이소체 수준의 질문이 아니다. SCN2A에는 엑손 5 이외에도 여러 대체 스플라이싱 부위가 존재하며, 엑손 5A를 포함하는 전사체가 실제로 어떤 전장 이소체인지, 즉 다른 대체 엑손들과 어떤 조합으로 연결되어 있는지는 짧은길이로는 알 수 없다. 개별 엑손의 발달적 전환은 보이지만, 그 엑손이 속한 전체 분자의 정체는 여전히 가려져 있는 것이다. 이 빈틈을 채우는 것이 바로 긴길이 시퀀싱이다.

발달하는 신피질의 이소체 다양성

2024년 Science에 발표된 Patowary et al.의 연구는 긴길이 기술이 뇌 발달 연구에 어떤 차원의 발견을 가능하게 하는지를 보여주는 이정표다. PsychENCODE Phase 2의 일환으로, 이 연구팀은 임신 15~17주에 해당하는 발달 중인 인간 신피질에서 뇌실대(germinal zone, GZ)와 피질판(cortical plate, CP)을 미세절제(microdissection)로 분리하고, 각각에서 PacBio HiFi Iso-Seq를 수행했다. 6명의 공여자로부터 3,300만 개 이상의 읽기를 생성하여 총 214,516개의 뚜렷한 이소체를 발견했는데, 이 중 72.6%인 약 15만 5천 개는 기존 Gencode v33 주석 데이터베이스에 등록되지 않은 신규 이소체였다. 7,000개 이상의 신규 엑손도 함께 발견되었다. 이 수치는 기존 전사체 지도의 빈틈이 얼마나 컸는지를 보여준다. 지난 수십 년간 유전체학 연구가 사용해 온 인간 전사체 지도에 실제 전사체의 70% 이상이 누락되어 있었다는 것이다.

이 214,516개의 이소체에서 예측되는 단백질 서열, 즉 프로테오폼(proteoform)은 92,422가지에 달했다. 단백질을 코딩하는 유전자가 약 2만 개라는 사실과 비교하면, 뇌 발달 과정에서 하나의 유전자가 평균 4~5가지의 서로 다른 단백질을 만들어낼 수 있다는 계산이 나온다. 실제로는 단순 대체 스플라이싱 사건의 조합으로 훨씬 더 많은 이론적 이소체가 존재할 수 있지만, 발달하는 피질에서 실제로 발현되는 것은 이 92,422가지다. 더 중요한 것은 GZ와 CP 사이에서 수천 개의 이소체 전환(isoform switch)이 관찰되었다는 것이다. 뇌실대는 증식 중인 방사 글리아(radial glia)와 중간 전구세포(intermediate progenitor cell)로 가득한 구역이고, 피질판은 분화가 완성된 뉴런들이 층을 이루며 자리 잡는 구역이다. 신경 전구세포가 분열을 멈추고 유사분열 후(postmitotic) 뉴런이 되는 이 전환 과정에서, 다수의 유전자들이 단순히 발현량을 올리거나 낮추는 것을 넘어, 완전히 다른 이소체로 바뀐다는 것이 Patowary et al. (2024)의 핵심 발견이다. 이 이소체 전환은 RNA 조절 도메인과 단백질 구조에 영향을 미치며, 따라서 단순한 발현량 변화와는 질적으로 다른 기능적 변화를 초래한다. 전구세포와 뉴런이 단순히 같은 단백질을 다른 양으로 갖는 것이 아니라, 근본적으로 다른 단백질 버전들을 사용하고 있다는 뜻이다.

단일 세포 수준의 분석에서 Patowary et al. (2024)은 초기 단계 흥분성 뉴런(early excitatory neurons)이 다른 세포 유형에 비해 가장 높은 이소체 다양성을 보인다는 것을 발견했다. 이 세포들은 방사 글리아에서 막 분화한 직후의 미성숙 뉴런들인데, 이 단계에서 이소체 수준의 분류를 수행하면 유전자 발현량 수준의 분류에서는 보이지 않는 새로운 세포 상태(cell state)들이 드러났다. 이소체 다양성이 세포 정체성의 더 정밀한 결정자라는 것이다. 이는 짧은길이 단일 세포 전사체학이 그려온 세포 유형 지도가 아직 완성되지 않았음을 보여준다. 우리가 분류하지 못한 세포 상태들이 존재하며, 그 상태들은 이소체 패턴의 차이에 의해 정의된다.

RNA 결합 단백질이 조율하는 스플라이싱 프로그램

이소체 전환은 저절로 일어나지 않는다. 전구세포에서 뉴런으로의 분화 과정에서 어떤 엑손이 포함되고 어떤 엑손이 제외될지를 결정하는 것은 RNA 결합 단백질(RNA-binding protein, RBP)들이다. 스플라이싱은 전사물(pre-mRNA)이 스플라이소솜(spliceosome)에 의해 처리되는 과정인데, 스플라이소솜이 어떤 스플라이싱 부위를 인식하고 사용할지는 그 주변 서열에 결합하는 RBP들의 조합에 의해 결정된다. 발달 중인 뇌에서 세포 유형에 따라 서로 다른 RBP들이 발현되고, 그 RBP들이 각 세포 유형에 특화된 스플라이싱 패턴을 만들어낸다. Patowary et al. (2024)은 GZ에서 CP로 전환되는 과정에서 이소체 스위치를 조율하는 핵심 RBP들로 ELAVL1, CELF4, RBFOX2를 발견했다. ELAVL1은 HuR로도 알려져 있으며 RNA 안정성 조절로 잘 알려져 있지만, 발달 중인 피질에서 스플라이싱 조절자로도 광범위하게 기능하며 AUUUA 모티프에 결합하여 신경 분화 과정에서의 스플라이싱 패턴 변화를 촉진한다. RBFOX2는 GCAUG 결합 모티프를 인식하여 신경 특이적 엑손의 포함 여부를 조절하는 대표적인 뉴런 특이적 RBP로, 전구세포에서 뉴런으로의 전환 과정에서 수십 개의 표적 엑손에 대한 조절을 전환한다. CELF4는 주로 뇌에서 높이 발현되며 UGUGU 모티프에 결합하여 신경 분화와 시냅스 성숙 과정에서 중요한 역할을 한다.

이 RBP들의 역할은 Jeong et al. (2025)이 제시한 더 넓은 그림 속에서 이해할 수 있다. 안준용 연구실을 포함한 연구자들의 이 리뷰 논문은 뇌 발달 과정에서 RBP들이 스플라이싱 코드를 어떻게 구축하고, 그 조절이 어긋날 때 자폐스펙트럼장애로 이어지는 경로를 체계적으로 정리했다. RBP들은 독립적으로 작동하는 것이 아니라 협력적 결합, 경쟁적 결합, 자기 조절, 상호 조절의 복잡한 네트워크를 이루며 스플라이싱 결과를 결정한다. PTBP1(polypyrimidine tract-binding protein 1)과 그 신경 특이적 동위체인 PTBP2는 전구세포에서 뉴런으로의 전환 과정에서 발현 패턴이 극적으로 변한다. 전구세포에서는 PTBP1이 높게 발현되어 신경 특이적 엑손들의 포함을 막지만, 분화가 진행되면서 PTBP1이 감소하고 PTBP2가 증가하면서 신경 특이적 스플라이싱 패턴이 열린다. 마치 야간 경비원이 퇴근하면 낮 경비원이 출근해서 완전히 다른 문들을 열고 잠그는 것처럼, 세포가 성숙하면서 스플라이싱의 문지기 자체가 교체된다. FMRP는 취약 X 증후군의 원인 유전자이자 842개의 시냅스 관련 mRNA를 표적으로 하는 RBP로 (Darnell et al. 2011), 스플라이싱뿐 아니라 번역 조절을 통해서도 시냅스 단백질 조성을 결정한다. 이 RBP들 중 다수가 자폐스펙트럼장애 드노보 유전 변이 목록에 포함되어 있다. RBP의 기능 이상이 단일 유전자가 아니라 수백 개의 이소체에 동시에 영향을 미치는 광범위한 전사체 교란을 초래할 수 있다는 점이 Jeong et al. (2025)의 핵심 메시지다. RBFOX1 유전자의 결실이 자폐스펙트럼장애와 연관된다는 것은 오래전부터 알려져 있었는데, RBFOX1 하나가 뇌 발달 과정에서 조절하는 스플라이싱 표적이 수천 개에 달하기 때문에 그 결실은 사실상 수천 개의 유전자에 대한 동시적 조절 장애를 초래하는 것이다.

NRXN1 이소체: 하나의 유전자, 50가지 얼굴

긴길이 시퀀싱이 신경발달 질환 연구에 가져온 구체적인 돌파구 중 하나는 NRXN1이라는 유전자를 통해 잘 드러난다. NRXN1은 시냅스 전(presynaptic) 세포 부착 분자로서 시냅스 후막의 뉴렉신 결합 파트너들(neurexin-binding partners), 특히 뉴로리긴(neuroligin)과 결합하여 시냅스 특이성과 적절한 시냅스 회로 형성을 결정하는 데 핵심적인 역할을 한다. NRXN1 유전자의 유전 변이는 자폐스펙트럼장애뿐 아니라 조현병, 지적장애와도 연관되어 있어 가장 강력한 신경발달 질환 위험 유전자 중 하나다. 그런데 NRXN1은 그 구조부터 특별하다. 이 유전자에는 6개의 주요 대체 스플라이싱 부위(SS1~SS6)가 있고, 각 부위에서 두 가지 이상의 선택이 가능하여 이론적으로는 수천 가지의 단백질을 만들어낼 수 있다. 그러나 실제로 인간 뇌에서 얼마나 많고 다양한 이소체가 존재하는지, 그리고 그 이소체들이 세포 유형에 따라 어떻게 다른지는 짧은길이 기술로는 파악이 불가능했다.

Cao et al. (2025)은 두 가지 기법을 조합한 장거리 시퀀싱 전략으로 이 문제에 정면으로 맞섰다. 문제는 NRXN1의 발현량이 매우 낮다는 것이었다. 세포 안에 있는 수만 종류의 RNA 중에서 NRXN1 RNA는 극소수에 불과하다. 바다에서 특정 물고기 한 종만 잡아야 하는 상황인 셈이다. 첫 번째 기법은 표적 포획(probe-based capture)이다. NRXN1 유전자의 모든 엑손에 상보적인 탐침(probe)을 설계하여, 마치 특정 물고기만 무는 미끼처럼 NRXN1 RNA만 골라서 낚아챈다. 여기서 상보적이란 자석처럼 정확히 들어맞는다는 뜻이다. A에는 T가, G에는 C가 달라붙듯이, NRXN1 서열에 딱 맞는 탐침이 수만 종의 RNA 혼합물 속에서 NRXN1만 선택적으로 끌어당긴다. 이렇게 하면 NRXN1 RNA가 36~96배 증가한다. 두 번째 기법은 RACE-seq(Rapid Amplification of cDNA Ends)이다. RNA 분자의 한쪽 끝 서열을 알고 있을 때, 그 지점을 닻으로 삼아 반대쪽 끝까지 쭉 읽어나가는 방법이다. 실 뭉치의 한쪽 끝을 잡고 당기면 전체 실이 풀려 나오는 것처럼, 알려진 서열 조각 하나에서 출발하여 전사체의 처음부터 끝까지를 완전하게 복원해내는 것이다. 이 방법은 특히 발현량이 극히 낮은 희귀 이소체나 유전 변이로 인해 생겨난 비정상적 이소체를 놓치지 않고 잡아내는 데 핵심적이었다. 두 기법을 결합한 뒤 PacBio 긴길이 시퀀싱으로 전장 전사체를 읽어냈다. 성인 전전두엽, 태아 피질, 자폐스펙트럼장애 환자의 소뇌, 그리고 조현병 환자 유래 피질 오가노이드를 포함한 여러 샘플에서 총 50개의 뚜렷한 NRXN1 이소체를 발견했는데, 이 중 23개는 기존에 보고된 적 없는 신규 이소체였다. 6개의 스플라이싱 부위를 모두 조합하면 이론적으로 수천 가지가 가능하지만, 실제 인간 뇌에서 관찰되는 것은 50가지로 좁혀진다. 이는 스플라이싱이 무작위로 일어나지 않고 엄격하게 조절됨을 뜻한다.

Cao et al. (2025)의 발견 중에서 가장 눈에 띄는 것은 세포 유형별 스플라이싱 특이성이다. 성인 전전두엽에서 억제성 뉴런(interneuron) 소집단들은 발달 기원이 같은 경우 서로 비슷한 NRXN1 스플라이싱 패턴을 공유하고, 다른 기원을 가진 억제성 뉴런 소집단과는 뚜렷하게 다른 패턴을 보였다. 즉, NRXN1의 이소체 선택이 세포의 계보적(lineage) 역사를 반영한다는 것이다. 세포의 발달 기원이 성체 뇌에서도 스플라이싱 선택에 기억으로 남아 있다. 태아기에 이미 형성된 NRXN1 스플라이싱 프로파일이 성체까지 안정적으로 유지된다는 점도 확인되었는데, 이는 스플라이싱 패턴이 조기에 결정되어 이후의 발달 과정을 거쳐 유지되는 에피제네틱적 기억과 유사한 현상임을 보여준다. 한편 자폐스펙트럼장애 환자의 소뇌에서는 NRXN1 결실 대립유전자에서 유래한 비정상적인 이소체들이 소뇌 분자층 억제성 뉴런(MLI1/2)과 성상 글리아(astroglia)에서 특이적으로 빈번하게 발견되었으며, 과립 뉴런(granule neuron)에서는 시냅스 특이성에 중요한 CBLN1 발현이 감소해 있었다. 하나의 유전 변이가 세포 유형별로 서로 다른 분자적 결과를 초래하며, 그 결과가 회로 수준의 기능 이상으로 이어진다는 것이다.

이소체 복잡성과 신경발달 질환의 접점

Patowary et al. (2024)의 연구에서 가장 임상적으로 중요한 발견 중 하나는 유전 변이 재주석(reannotation)의 결과다. 연구팀은 기존에 알려진 자폐스펙트럼장애, 지적장애, 신경발달 질환의 드노보 유전 변이들을 새롭게 발견된 214,516개의 이소체 카탈로그에 대입하여 재평가했다. 그 결과, 기존 Gencode 주석 데이터베이스를 기반으로 해석했을 때는 임상적 의미가 불분명했거나 경미하게 평가되었던 수천 개의 변이들이 더 심각한 결과, 즉 단백질 절단(truncation)이나 프레임시프트(frameshift)를 초래하는 것으로 재분류되었다. 특히 기존에는 인트론 깊은 곳에 위치한다고 여겨졌던 변이들 중 일부가 신규 이소체에서는 엑손 영역에 해당하는 것으로 밝혀졌다. 즉, 우리가 유전 변이를 임상적으로 해석하는 데 사용하는 지도가 불완전했다는 뜻이다. 기존 짧은길이 기술로 만들어진 전사체 지도에는 실제 전사체의 72.6%가 그려져 있지 않았고, 그 누락된 전사체들 위에 놓인 변이들은 그 임상적 의미가 과소평가되어 있었다.

이 발견의 의미를 한 걸음 더 확장한 것이 Jeong et al. (2025)의 통찰이다. 자폐스펙트럼장애와 연관된 유전 변이들의 상당수는 RBP의 기능 자체를 변형시키는 것이 아니라, RBP가 결합하는 스플라이싱 조절 서열에 위치함으로써 간접적으로 스플라이싱을 교란한다. 이런 변이들은 코딩 서열에 없고, 정규 스플라이싱 부위에도 없기 때문에, 현재의 변이 해석 파이프라인에서 대부분 의미 불명(variant of uncertain significance, VUS)으로 분류된다. VUS란 쉽게 말해 “이상한 것 같긴 한데 범인인지 확신할 수 없다”는 판정이다. 범행 현장 CCTV에 찍히지 않았고, 지문도 없지만, 사건 당일 근처에 있었던 사람 정도의 위치다. 그러나 해당 변이가 어떤 RBP의 결합 모티프를 파괴하는지, 그리고 그 RBP가 발달 중인 뇌에서 어떤 이소체 프로그램을 조율하는지가 긴길이 기술로 규명된다면, 이 VUS들을 질환 기여 변이로 재분류할 수 있는 근거가 마련된다. 전사체 이소체의 완전한 목록과 RBP 결합 지도의 조합이 변이 해석의 새로운 지평을 여는 것이다.

긴길이 시퀀싱이 열어준 세계는 단순히 더 많은 이소체의 목록이 아니다. 이는 하나의 유전자가 세포 유형별로, 발달 단계별로, 그리고 질환 상태별로 완전히 다른 분자적 정체성을 가질 수 있음을 보여주는 새로운 차원의 생물학이다. 214,516개의 이소체, 50가지 얼굴을 가진 NRXN1, 뇌실대와 피질판 사이에서 전환되는 스플라이싱 프로그램들, ELAVL1과 RBFOX2와 CELF4가 조율하는 분화의 분자 악보, 이것들은 인간 뇌가 단지 많은 세포로 이루어진 것이 아니라 각 세포 안에서 전사체 수준의 정밀한 다양성이 구축되어 있음을 말해준다. 그리고 그 다양성이 어긋날 때, 우리는 그것을 신경발달 질환이라고 부른다. 지금까지 우리가 보지 못했던 이유는 기술의 한계였다. 긴길이 시퀀싱은 그 한계를 이동시키고 있으며, 우리는 이제 더 정밀한 지도를 손에 들고 이 복잡한 지형을 탐색할 수 있게 되었다.

References

Patowary A, Zhang P, Jops C, Vuong CK, Ge X, Hou K, Kim M, Gong N, Margolis M, Vo D, Wang X, Liu C, Pasaniuc B, Li JJ, Gandal MJ, de la Torre-Ubieta L. (2024) Developmental isoform diversity in the human neocortex informs neuropsychiatric risk mechanisms. Science 384:eadh7688.

Liang L, Fazel Darbandi S, Pochareddy S, Gulden FO, Gilson MC, Sheppard BK, Sahagun A, An JY, Werling DM, Rubenstein JLR, Sestan N, Bender KJ, Sanders SJ. (2021) Developmental dynamics of voltage-gated sodium channel isoform expression in the human and mouse brain. Genome Medicine 13:135. doi:10.1186/s13073-021-00949-0

Cao L, Fan Y, Ghorbani S, Mariani J, Zhang Y, Fernando MB, Bendl J, Fullard J, Ramos SI, Mead EA, Deikus G, Beaumont KG, Sebra R, Tsankova N, Roussos P, Brennand KJ, Fang G. (2025) Cell-type-resolved NRXN1 isoforms across human brain tissues and hiPSC organoids. bioRxiv 2025.11.11.687875.

Jeong J, Yoo HJ, An JY, Jeong S. (2025) Dysregulated RNA-binding proteins and alternative splicing: Emerging roles in autism spectrum disorder. Molecules and Cells 48:100237.

Darnell JC, Van Driesche SJ, Zhang C, Hung KY, Mele A, Fraser CE, Stone EF, et al. (2011) FMRP stalls ribosomal translocation on mRNAs linked to synaptic function and autism. Cell 146:247–261.

Lee JA, Damianov A, Lin CH, Fontes M, Bhatt DL, Bhatt DL, Schuman EM, Black DL, et al. (2016) Cytoplasmic Rbfox1 regulates the expression of synaptic and autism-related genes. Neuron 89:113–128.

Voineagu I, Wang X, Johnston P, Lowe JK, Bhatt DL, Bhatt DL, Yue Y, et al. (2011) Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature 474:380–384.

Sanders SJ, Murtha MT, Gupta AR, Murdoch JD, Raubeson MJ, Willsey AJ, Bhatt DL, et al. (2020) De novo mutations revealed by whole-exome sequencing are strongly associated with autism. Nature 485:237–241.

Negi H, Bhatt DL, et al. (2025) Advancing long-read nanopore genome sequencing of human disease. American Journal of Human Genetics 112:334–350.

주요 용어 안내

긴길이 시퀀싱(long-read sequencing): PacBio HiFi나 Oxford Nanopore 기술을 이용하여 수천~수만 염기 길이의 DNA/RNA를 한 번에 읽는 방법. 기존 짧은길이 시퀀싱으로는 볼 수 없었던 이소체 다양성과 구조적 변이를 분석할 수 있다.

이소체(isoform): 같은 유전자에서 대체 스플라이싱에 의해 만들어지는 서로 다른 형태의 RNA/단백질. 인간 뇌에서 214,516개의 이소체가 확인되었으며, 이 중 72.6%는 이전에 알려지지 않았던 것이다.

목차