에필로그. 협업이 만든 과학

이 책을 통해 우리는 인간 뇌의 분자적 지형도가 지난 15년 동안 어떻게 그려져 왔는지를 따라왔다. 시공간 전사체에서 시작하여 단일 세포 아틀라스, 피질과 비-피질 영역의 세포 다양성, 시냅스 단백질체의 진화, 후성유전체, 오가노이드, 그리고 대규모 유전자 기능 스크리닝까지. 이 여정에서 빠뜨릴 수 없는 것이 하나 있다. 이 모든 발견이 한 명의 천재적인 과학자가 아니라, 수천 명의 연구자가 함께 만든 공동의 산물이라는 사실이다.

한 사람이 할 수 없는 일

인간 뇌에는 860억 개의 뉴런이 있고, 3,000가지 이상의 세포 유형이 존재하며, 유전체의 86%에 해당하는 유전자들이 시간과 공간에 따라 서로 다른 패턴으로 발현된다. 이 복잡성을 이해하기 위해 필요한 실험의 규모는 어떤 단일 연구실의 능력으로도 감당할 수 없다. 수백 명의 뇌 기증자로부터 조직을 수집하고, 수백만 개의 세포를 시퀀싱하고, 수십 개의 뇌 영역을 체계적으로 분석하고, 그 데이터를 표준화된 방법으로 처리하여 비교 가능한 형태로 만드는 작업은 처음부터 공동 연구로 설계되어야만 가능했다.

BICCN(Brain Initiative Cell Census Network)은 이 원칙을 가장 잘 보여주는 사례다. 미국 국립보건원(NIH)의 BRAIN Initiative 아래 조직된 이 컨소시엄은 30개 이상의 연구 기관이 참여하여, 인간과 영장류 뇌의 세포 유형을 체계적으로 분류하는 데 목표를 두었다. 핵심은 표준화였다. 각 연구실이 자체 방법으로 데이터를 생산하면 서로 비교할 수 없다. BICCN은 시료 준비부터 시퀀싱 프로토콜, 데이터 처리 파이프라인, 세포 유형 명명법까지 통일된 기준을 만들었다. 그 결과 2023년 Science에 동시 발표된 일련의 논문들은 하나의 일관된 좌표계 위에서 서로를 참조할 수 있었다. Siletti et al.의 전사체 아틀라스, Braun et al.의 발달 아틀라스, Tian et al.의 후성유전체 아틀라스, Jorstad et al.의 영장류 비교 연구가 모두 같은 기증자, 같은 뇌 영역, 같은 기준으로 만들어졌기 때문에, 전사체와 후성유전체를 직접 대조하고 종 간 비교를 수행할 수 있었다. 한 연구실이 혼자서 이 모든 것을 할 수는 없다.

조절 유전체의 10년: PsychENCODE

PsychENCODE 컨소시엄의 이야기는 또 다른 차원을 보여준다. 2015년 시작된 이 프로젝트는 인간 뇌의 유전자 조절 지도를 만들고, 그것을 정신 질환의 유전적 위험과 연결하는 것을 목표로 했다. 40개 이상의 연구실이 참여한 이 컨소시엄은 10년에 걸쳐 세 단계로 진화했다 (Roussos et al. 2025).

첫 번째 단계(2015~2018)에서는 1,866개의 사후 뇌 조직에서 벌크 전사체, 후성유전체, 유전체 데이터를 균일하게 생산하여, 유전 변이가 유전자 발현에 미치는 영향(eQTL)과 스플라이싱에 미치는 영향(sQTL)의 지도를 만들었다. 두 번째 단계에서는 단일 세포 혁명을 수용했다. 388명의 개인에서 280만 개 이상의 핵을 프로파일링하여, 28개의 주요 뇌 세포 유형에서 유전 변이의 효과를 세포 유형별로 분해하기 시작했다. 세 번째 단계에서는 상관관계에서 인과관계로 이동하기 위해, iPSC 유래 뉴런과 오가노이드에서 CRISPR 기반 교란 실험을 수행했다.

이 10년의 여정이 말해주는 바는 기술 발전만이 아니다. 과학의 질문 자체가 진화한다는 것이다. “어떤 유전자가 위험한가”에서 “그 유전자가 어떤 세포에서 어떻게 조절되는가”로, 그리고 “그 조절의 교란이 실제로 질환을 일으키는가”로. 이 질문의 진화는 단일 연구실의 관점 전환이 아니라, 수십 개 연구실이 서로 다른 전문성을 가지고 같은 질문의 서로 다른 면을 공략했기 때문에 가능했다.

이 책에서 여러 차례 등장한 BrainVar 데이터베이스도 PsychENCODE의 일환이었다. BrainVar가 발달 중인 뇌에서 유전체와 전사체를 동시에 측정하여 발달 시점에 따라 달라지는 eQTL을 발견할 수 있었던 이유는 PsychENCODE의 표준화된 인프라와 대규모 시료 네트워크가 있었기 때문이다. 하나의 데이터베이스가 수백 편의 후속 연구를 낳는 것, 이것이 컨소시엄 과학의 힘이다.

분야의 경계를 넘는 협업

BICCN과 PsychENCODE가 보여주는 또 하나의 교훈은 학제 간 협업의 중요성이다. 인간 뇌의 분자적 이해는 어떤 한 분야만으로는 도달할 수 없다. 신경해부학자가 뇌 영역의 경계를 정의하고, 분자생물학자가 시퀀싱 기술을 개발하고, 생물정보학자가 수백만 개의 세포 데이터를 처리하는 알고리즘을 만들고, 유전학자가 유전 변이와 질환의 연관성을 분석하고, 발달생물학자가 세포 분화의 궤적을 추적하고, 임상의학자가 환자의 표현형을 정밀하게 기술하고, 윤리학자가 뇌 조직 기증과 데이터 공유의 윤리적 틀을 정립한다. 이 모든 전문성이 하나의 질문을 향해 수렴할 때, 비로소 “인간 뇌는 어떻게 만들어지고, 그 다양성은 어디에서 비롯되는가”라는 질문에 답할 수 있게 된다.

이 책에서 다룬 연구들의 저자 목록을 보면 이 점을 확인할 수 있다. Siletti et al. (2023)의 인간 뇌 전사체 아틀라스 논문에는 수십 명의 저자가 있고, Satterstrom et al. (2020)의 자폐스펙트럼장애 엑솜 시퀀싱 연구에는 수백 명의 연구자가 참여했다. 이런 대규모 협업을 가능하게 한 것이 질환별, 분야별 컨소시엄들이다.

Autism Sequencing Consortium(ASC)은 자폐스펙트럼장애 유전자 발견의 핵심 엔진이었다. 2012년 마운트 시나이 의과대학의 조셉 벅스바움(Joseph Buxbaum), 브로드 연구소의 마크 달리(Mark Daly), 예일 대학교의 매튜 스테이트(Matthew State) 등이 주도하여 설립한 이 국제 컨소시엄은, 전 세계의 유전학 연구실들이 자폐스펙트럼장애 가족의 엑솜 시퀀싱 데이터를 한곳에 모으는 구조를 만들었다 (Buxbaum et al. 2012). 개별 연구실이 수백 명 규모의 데이터를 가지고 있다면, 컨소시엄은 그것을 수천, 수만 명 규모로 통합하여 개별 유전자 수준에서 통계적으로 유의미한 신호를 잡아낼 수 있는 검정력을 확보한다. 이 전략이 실현된 것이 De Rubeis et al. (2014)의 3,871명 엑솜 연구(22개 유전자 발견)였고, Satterstrom et al. (2020)의 11,986명 엑솜 연구(102개 유전자 발견)였다. 한 연구실이 혼자서 만 명의 환자를 모으는 것은 불가능하다. 하지만 수십 개의 연구실이 각각 수백 명씩 기여하면, 불가능했던 규모가 현실이 된다. ASC는 또한 데이터 분석의 표준화에도 기여했다. 유전 변이의 기대 빈도를 모델링하는 통계적 프레임워크, 유전자 길이와 서열 맥락에 따른 보정 방법 등이 ASC를 통해 정립되었고, 이것이 이후 모든 대규모 엑솜 연구의 표준이 되었다.

Psychiatric Genomics Consortium(PGC)은 정신 질환 유전학에서 비슷한 역할을 더 넓은 범위로 수행했다. 조현병, 양극성 장애, 주요 우울장애, 자폐스펙트럼장애, ADHD 등 다양한 정신 질환에 걸쳐, 전 세계 수백 개 연구실의 전장 유전체 연관 연구(GWAS) 데이터를 통합하는 메가 컨소시엄이다. PGC의 조현병 연구 그룹이 2014년 Nature에 발표한 연구는 36,989명의 환자와 113,075명의 대조군 데이터를 합쳐 108개의 유전체 위험 유전좌를 발견했다. 이 연구 이전에 알려진 조현병 위험 유전좌는 약 30개에 불과했다. 표본 크기를 3배로 늘렸을 때 발견되는 유전좌가 3배가 아니라 10배 가까이 늘어난 것은, 흔한 유전 변이의 효과가 개별적으로는 매우 작아서 큰 표본에서만 통계적 잡음 위로 올라오기 때문이다. PGC는 이 원리를 실증했다. 더 많은 사람의 데이터를 모을수록, 더 많은 유전적 신호를 잡을 수 있다. 2009년 International Schizophrenia Consortium이 3,322명의 환자를 분석하여 다유전자 위험 점수(polygenic risk score) 방법론을 처음 제시한 이래, PGC는 표본 크기를 꾸준히 늘려가며 정신 질환의 유전적 구조를 점점 더 높은 해상도로 그려내고 있다.

한국에서도 이런 국제적 흐름에 합류하는 노력이 진행되고 있다. K-ARC(Korean Autism Research Consortium)는 한국인 자폐스펙트럼장애 코호트를 체계적으로 구축하여, 한국인 특이적인 유전적 구조를 밝히는 동시에 국제 컨소시엄과의 데이터 통합을 추진하고 있다. Kim et al. (2025)의 연구는 K-ARC 코호트를 포함한 78,685명의 데이터에서, 가족 내 표현형 편차(within-family standardized deviation, WFSD)라는 새로운 분석 방법을 적용하여 18개의 새로운 자폐스펙트럼장애 관련 유전자를 발견했다. 이 연구가 보여주는 것은 두 가지다. 하나는 한국인 코호트가 국제 데이터와 통합될 때 새로운 발견이 가능해진다는 것이고, 다른 하나는 다양한 인구 집단의 참여가 유전학 연구의 보편성을 높인다는 것이다. 유전적 위험의 구조는 인구 집단에 따라 부분적으로 다를 수 있기 때문에, 특정 인구 집단에서만 연구하면 그 집단에 특이적인 발견을 놓칠 수 있다. K-ARC와 같은 지역 컨소시엄의 존재는 글로벌 신경유전체학 연구의 다양성과 포괄성을 높이는 데 필수적이다.

이 숫자들은 단순히 규모의 문제가 아니다. 과학의 작동 방식 자체가 바뀌었음을 말해준다.

공개 데이터의 힘

컨소시엄 과학의 가장 중요한 유산은 아마도 데이터 공개일 것이다. BrainSpan, BICCN, PsychENCODE가 생산한 데이터는 모두 공개적으로 접근 가능하다. 이것은 관대한 선택이 아니라 전략적 결정이다. 하나의 연구팀이 데이터를 생산할 때, 그 팀이 물을 수 있는 질문의 수는 제한되어 있다. 하지만 그 데이터가 공개되면, 전 세계의 연구자들이 원래 생산자가 상상하지 못한 질문을 던질 수 있다. Kang et al. (2011)의 시공간 전사체 데이터가 이후 수십 편의 시공간적 수렴 연구의 기반이 된 것처럼, 하나의 잘 만들어진 공개 데이터셋은 그 데이터를 만든 원래 논문보다 훨씬 더 많은 과학적 가치를 생산한다.

이 원칙은 인간 유전체 프로젝트(Human Genome Project)의 버뮤다 원칙(Bermuda Principles)에서 비롯되었다. 1996년 버뮤다에서 열린 회의에서 유전체 연구자들은 시퀀싱 데이터를 24시간 이내에 공개한다는 합의에 도달했다. 이 급진적인 결정은 유전체학의 발전 속도를 극적으로 가속시켰다. 뇌 과학도 같은 길을 걸었다. BICCN의 데이터 포털, PsychENCODE의 지식 포털, 앨런 뇌과학연구소의 공개 데이터베이스가 모두 이 철학을 따른다. 데이터를 공개하면 경쟁자에게 이점을 줄 수 있다는 두려움보다, 데이터를 공유하면 과학 전체가 더 빨리 나아간다는 믿음이 앞선 것이다.

공개 데이터는 특히 자원이 제한된 연구 환경에서 큰 의미를 가진다. 대규모 시퀀싱 시설이 없는 연구실도, 공개된 단일 세포 아틀라스 데이터를 다운로드받아 자신만의 질문을 탐구할 수 있다. 계산 자원과 분석 능력만 있으면, 세계 최고 수준의 데이터에 접근할 수 있는 것이다. 이는 과학의 민주화이기도 하다. 좋은 질문을 가진 사람이라면 누구나 답을 찾을 수 있는 기반이 마련된 것이다.

대규모 데이터 리소스에 대한 투자

이 모든 것의 출발점에는 대규모 데이터 리소스를 만드는 기초과학에 대한 투자가 있다. BRAIN Initiative는 2013년 오바마 행정부에서 시작되어 10년 이상 지속적인 연방 예산을 지원받았고, PsychENCODE는 미국 국립정신건강연구소(NIMH)의 장기적 지원으로 운영되었다. 이 투자의 공통점은 특정 질환의 치료법을 찾는 것이 아니라, 수많은 연구자가 각자의 질문에 활용할 수 있는 공유 자원을 만드는 데 초점을 두었다는 것이다. 이런 투자가 없었다면 BrainSpan도, BICCN도, PsychENCODE도 존재하지 않았을 것이고, 이 책에서 다룬 발견들의 대부분은 이루어지지 않았을 것이다.

대규모 데이터 리소스 투자의 특성은, 그 데이터가 어디에 쓰일지를 생산 시점에 완전히 예측할 수 없다는 것이다. 2011년 Kang et al.이 시공간 전사체를 발표했을 때, 이 데이터가 2013년에 자폐스펙트럼장애의 시공간적 수렴을 발견하는 데 쓰일 것을 아무도 예측하지 못했다. 단일 세포 시퀀싱 기술이 개발되었을 때, 그것이 인간 뇌에 3,000가지 이상의 세포 유형이 있다는 사실을 밝히리라고 예측한 사람은 거의 없었다. 하나의 잘 만들어진 데이터 리소스는 원래 논문보다 훨씬 더 많은 과학적 가치를 생산한다. BrainSpan 데이터를 인용한 논문이 수백 편에 달하고, BICCN 아틀라스를 활용한 연구가 전 세계에서 진행되고 있다는 것이 이를 보여준다. 뇌의 세포 지도를 만드는 것 자체가 즉각적인 임상적 효용을 가지는 것은 아니지만, 그 지도가 있어야 어떤 유전자가 어떤 세포에서 작동하는지를 물을 수 있고, 궁극적으로 개인별 신경 발달의 다양성을 이해할 수 있다. 지도가 없으면 여행을 시작할 수도 없다.

당신이 탐험할 미지의 영역

이 책에서 다룬 15년의 발견은 인상적이지만, 솔직히 말하면 우리가 이해한 바는 빙산의 일각에 불과하다. 인간 뇌의 세포 유형 분류는 아직 완성되지 않았다. 현재의 아틀라스는 대부분 성인 뇌나 태아 초중기에 집중되어 있고, 출생 후 발달, 청소년기, 노화 과정의 세포 수준 변화는 아직 체계적으로 매핑되지 않았다. 유전 변이가 세포 수준에서 어떻게 표현형으로 이어지는 경로는 소수의 유전자에 대해서만 부분적으로 이해되어 있다. 오가노이드는 태아 중기 이상의 발달 상태를 재현하지 못하며, 인 실리코 모델은 훈련 데이터의 범위를 벗어난 예측에서 아직 검증이 부족하다. 모르는 것의 목록이 아는 것의 목록보다 훨씬 길다.

그런데 이것은 절망이 아니라 초대장이다. 15년 전에는 이 질문들 자체를 물을 수 없었다. “뇌에 몇 가지 세포 유형이 있는가”는 단일 세포 기술이 등장하기 전에는 답할 수 없는 질문이었고, “유전 변이가 어떤 세포에서 어떤 영향을 미치는가”는 세포 유형 지도가 없으면 물을 수조차 없는 질문이었다. 이 책에서 소개한 연구자들이 한 일은 결국 더 좋은 질문을 물을 수 있는 토대를 놓은 것이다. BrainSpan이 있어야 시공간적 수렴을 물을 수 있었고, BICCN의 세포 아틀라스가 있어야 세포 유형 특이적 취약성을 물을 수 있었다. 그리고 아직 물어보지 못한 질문들이 훨씬 더 많이 남아 있다.

그 질문들을 물을 사람은 바로 이 책을 읽고 있는 당신일 수 있다. 뇌 유전체학은 시작된 지 불과 15년밖에 되지 않은 젊은 분야다. 이 분야를 만들어온 연구자들 중 상당수가 대학원생 시절에 핵심적인 기여를 했다. Willsey가 태아 중기 전두엽의 시공간적 수렴을 발견한 것은 박사과정 연구였고, Parikshak이 WGCNA로 자폐스펙트럼장애 모듈을 발견한 것도 마찬가지였다. 대규모 컨소시엄의 데이터가 공개되어 있고, 분석 도구가 오픈소스로 제공되고 있으며, 인공지능이 데이터 해석의 새로운 가능성을 열고 있는 지금, 다음 발견을 위한 조건은 어느 때보다 잘 갖추어져 있다. 필요한 것은 좋은 질문이다.

그 출발점이 반드시 실험실일 필요는 없다. 공개 데이터 포털에서 한 유전자가 어떤 세포 유형에서 발현되는지 찾아보는 일, 논문 한 편의 그림을 천천히 해석해 보는 일, 서로 다른 연구가 같은 질문에 어떻게 다르게 답하는지 비교해 보는 일도 모두 이 분야에 들어서는 방법이다. 고등학생이나 대학 신입생이라면 지금 당장 거대한 발견을 해야 한다고 느낄 필요는 없다. 먼저 데이터를 읽는 눈을 기르고, 좋은 질문과 성급한 결론을 구분하는 감각을 키우는 것만으로도 충분히 중요한 시작이다.

이 책이 시작된 곳으로 돌아가자. 860억 개의 뉴런, 100조 개의 시냅스, 3,000가지 이상의 세포 유형. 유전체의 86%가 뇌에서 발현되고, 수천 개의 유전 변이가 뇌의 발달과 기능에 영향을 미친다. 이 복잡성을 이해하려는 시도는, 본질적으로 한 사람이나 한 연구실의 프로젝트가 아니다. 그것은 세대에 걸쳐 이어지는, 분야의 경계를 넘는, 데이터를 공유하는 공동체의 사업이다. 그리고 그 공동체에는 언제나 새로운 자리가 있다. 다음 15년의 발견은, 지금 이 페이지를 넘기는 사람의 손에서 시작될지 모른다.

References

BRAIN Initiative Cell Census Network (BICCN). (2021). A multimodal cell census and atlas of the mammalian primary motor cortex. Nature, 598, 86-102. doi:10.1038/s41586-021-03950-0

Roussos, P., Vaccarino, F. M., Weng, Z., Sestan, N., Gerstein, M., & Geschwind, D. H. (2025). PsychENCODE at 10: From genomic maps to mechanistic insights in mental illness. Neuron, 113, 4099. doi:10.1016/j.neuron.2025.11.027

Buxbaum, J. D., Daly, M. J., Devlin, B., Lehner, T., Roeder, K., State, M. W., & The Autism Sequencing Consortium. (2012). The Autism Sequencing Consortium: Large-scale, high-throughput sequencing in autism spectrum disorders. Neuron, 76(6), 1052-1056. doi:10.1016/j.neuron.2012.12.008

Schizophrenia Working Group of the Psychiatric Genomics Consortium. (2014). Biological insights from 108 schizophrenia-associated genetic loci. Nature, 511(7510), 421-427. doi:10.1038/nature13595

Kang, H. J., Kawasawa, Y. I., Cheng, F., Zhu, Y., Xu, X., Li, M., … & Sestan, N. (2011). Spatio-temporal transcriptome of the human brain. Nature, 478(7370), 483-489. doi:10.1038/nature10523

The International Schizophrenia Consortium. (2009). Common polygenic variation contributes to risk of schizophrenia and bipolar disorder. Nature, 460(7256), 748-752. doi:10.1038/nature08185

Kim, S. W., Lee, H., Song, D. Y., Lee, G. H., Han, J. H., Lee, J. W., … & An, J.-Y. (2025). Evaluation of familial phenotype deviation to measure the impact of de novo mutations in autism. Genome Medicine, 17, 32. doi:10.1186/s13073-025-01532-7