Chapter 4. 유전자 공발현 네트워크와 뇌 발달

앞 두 장에서 우리는 뇌 발달의 전사체를 지도로 그리는 두 가지 방식을 살펴보았다. Kang et al. 연구는 시간 축을 따라 수십 개 뇌 영역의 유전자 발현 변화를 추적했고, Miller et al. 연구는 특정 시점의 피질을 층별로 해부하여 각 층의 분자적 정체성을 규명했다. 하지만 두 연구 모두, 수만 개의 유전자를 하나하나 따로따로 기술하는 방식으로는 뇌 발달의 전체 그림을 이해하기 어렵다는 한계를 공유했다. 인간 유전체에 약 20,000개의 단백질 코딩 유전자가 있고 그 대부분이 뇌에서 발현된다면, 이것들을 20,000개의 개별적인 이야기로 다루는 것은 너무 단편적이다. 음악을 이해하려면 개별 음표보다 화음과 멜로디의 구조를 봐야 하는 것처럼, 뇌 발달을 이해하려면 유전자들이 어떻게 함께 조율되어 작동하는지를 봐야 한다. 그 도구가 바로 가중 유전자 공발현 네트워크 분석(weighted gene co-expression network analysis, WGCNA)이다.

WGCNA는 스티브 호바스(Steve Horvath)와 준 동(Jun Dong)이 2005년에 처음 제안한 방법론으로, 기본 아이디어는 직관적이다. 만약 두 유전자가 여러 표본에 걸쳐 항상 함께 올라가고 함께 내려간다면, 즉 발현 패턴이 강한 상관관계(correlation)를 보인다면, 이 두 유전자는 아마도 같은 생물학적 과정에 참여하거나, 같은 조절 메커니즘에 의해 제어되고 있을 가능성이 높다. 상관관계란 두 값이 함께 올라가고 함께 내려가는 경향을 수치로 나타낸 것인데, 키가 크면 발도 큰 경향이 있는 것처럼 두 변수가 함께 움직이는 패턴을 포착한다. 비유하자면, 매일 같은 시간에 함께 출근하고 같은 시간에 함께 퇴근하는 두 사람은 아마도 같은 직장에 다니고 있을 것이라는 추론과 비슷하다. 물론 우연의 일치일 수도 있지만, 이런 패턴이 수백, 수천 개의 유전자에서 체계적으로 나타난다면 그것은 우연이 아니다. 이 원리를 수만 개의 유전자 쌍에 체계적으로 적용하여 유전자들을 기능적 그룹으로 묶는 것이 WGCNA의 핵심이다.

상관에서 네트워크로, 네트워크에서 모듈로

WGCNA의 작동 방식을 조금 더 구체적으로 살펴보면, 이 방법이 왜 강력한지가 드러난다. 분석은 여러 단계를 거쳐 진행된다. 먼저 모든 유전자 쌍 사이의 피어슨 상관계수(Pearson correlation)를 계산하여 거대한 상관행렬(correlation matrix)을 만든다. 20,000개의 유전자가 있다면 이 행렬의 크기는 20,000×20,000이 되고, 각 칸에는 두 유전자의 발현 패턴이 얼마나 유사한지를 나타내는 숫자가 들어간다. 다음으로 이 상관행렬을 거듭제곱하여 인접행렬(adjacency matrix)로 변환한다. 이 거듭제곱 변환이 WGCNA를 단순 상관 분석과 구분짓는 핵심 단계인데, 강한 상관관계는 더욱 강조되고 약한 상관관계는 급격히 약해지는 효과가 있다. 마치 밝은 불빛은 더 밝아지고 희미한 불빛은 거의 꺼지는 것처럼, 진짜 신호는 강조하고 노이즈는 걸러내는 것이다. 이 변환을 통해 노이즈에 의한 약한 상관관계들이 걸러지고, 진정으로 의미 있는 강한 상관관계들이 부각된다.

인접행렬에서는 한 걸음 더 나아가 위상학적 중첩(topological overlap) 행렬을 계산한다. 이것이 WGCNA의 또 다른 영리한 장치다. 두 유전자의 위상학적 중첩이란, 두 유전자가 얼마나 많은 공통 이웃(neighbor)을 네트워크상에서 공유하는지를 측정하는 것이다. 직접적인 상관관계만 보는 것이 아니라, 공통적으로 관련된 유전자들의 집합을 함께 고려함으로써 관계의 강도를 더 안정적으로 추정할 수 있다. 두 유전자가 서로 직접 강하게 연관되지 않더라도, 둘 다 제3의 유전자 그룹과 함께 발현된다면 같은 모듈에 묶일 수 있다는 뜻이다. 이것은 마치 두 사람을 직접 연결해주는 것이 아니라, 그들이 얼마나 많은 공통 친구를 가지고 있는지를 기준으로 친밀도를 측정하는 것과 비슷하다. 공통 친구가 많으면 설령 두 사람이 처음 만났더라도 금방 친해지는 것처럼, 공통 이웃이 많은 유전자들은 같은 기능 모듈에 속할 가능성이 높다. 위상학적 중첩 행렬에 계층적 군집화(hierarchical clustering)를 적용하면, 서로 강하게 연결된 유전자들이 덩어리를 이루어 군집된다. 이 덩어리들을 동적 트리 절단(dynamic tree cut) 알고리즘으로 구분하여 최종적인 공발현 모듈(co-expression module)을 발견하게 된다.

각 모듈에서 가장 많은 연결을 가진 중심 유전자들을 허브 유전자(hub genes)라고 부른다. 허브 유전자는 모듈 내에서 가장 중심적인 역할을 하는 유전자들로, 모듈의 생물학적 기능을 이해하는 데 특히 중요하다. 공항 허브처럼, 허브 유전자들은 다른 많은 유전자들과 연결되어 있고 모듈의 발현 패턴을 주도한다. 허브 유전자를 실험적으로 억제하거나 과발현시키면 모듈 전체의 활성이 변하는 경향이 있기 때문에, 이 유전자들은 기능 연구의 우선 표적이 된다. 허브 유전자가 전사 인자(transcription factor)인 경우가 많다는 점도 시사적이다. 하나의 전사 인자가 수백 개의 다운스트림 유전자의 발현을 조절할 수 있고, 그래서 그 전사 인자는 네트워크에서 허브 위치를 차지하게 된다. 뇌 발달의 공발현 네트워크에서 허브 위치에 있는 전사 인자들은 발달 과정의 마스터 조절자일 가능성이 높다.

뇌 발달의 전사체적 타임라인

이 도구를 Kang et al. 연구(Chapter 2)나 BrainSpan(Chapter 3) 같은 데이터에 적용하면, 뇌 발달의 전사체적 타임라인이 모듈 단위로 선명하게 그려진다. 태아 초기, 즉 임신 8주에서 12주 사이에는 신경 생성(neurogenesis)이 한창이다. 이 시기에 강하게 활성화되는 모듈들은 세포 주기(cell cycle) 조절, DNA 복제, 유사분열(mitosis)과 관련된 유전자들로 가득하다. 세포들이 분열하고, 신경 전구세포(neural progenitor cells)가 자신을 복제하거나 뉴런으로 분화하는 운명을 결정하는 시기다. 임신 13주에서 20주 사이인 중기 태아기로 넘어가면 무게중심이 이동한다. 신경 이주(neuronal migration) 관련 모듈이 활성화되기 시작한다. 새로 태어난 뉴런들이 방사 글리아의 가이드를 따라 뇌실 표면에서 피질 표면 쪽으로 이동하고, 제자리를 찾아가는 여정이 시작된다. 이 시기의 허브 유전자들 중에는 이주 과정을 조율하는 DCX(더블코르틴, doublecortin)나 LIS1 같은 유전자들이 있는데, 이 유전자들에 유전 변이가 생기면 뉴런이 제대로 이주하지 못해 피질 발달 장애가 생긴다는 사실이 이미 알려져 있었다.

임신 21주에서 37주 사이인 후기 태아기는 시냅스 형성(synaptogenesis) 모듈이 활성화되는 시기다. 제자리를 찾아간 뉴런들이 축삭(axon)을 뻗고, 수상돌기(dendrite)를 펼치며, 이웃 세포들과 시냅스를 형성하기 시작한다. 시냅스란 두 뉴런 사이의 연결 지점으로, 전기 신호가 화학적 신호로 바뀌어 다음 세포로 전달되는 관문이다. 이 시기의 모듈에는 글루탐산(glutamate) 수용체, GABAergic 수용체, 세포 접착 분자(cell adhesion molecules), 시냅스 발판 단백질(scaffolding proteins) 관련 유전자들이 풍부하다. 출생 후 초기에도 시냅스 형성은 계속되지만, 점차 다른 주제들이 부상한다. 시냅스 가지치기(synaptic pruning) 관련 모듈이 활성화되기 시작하는 것이다. 태어날 때 우리의 뇌는 성인보다 더 많은 시냅스를 가지고 있고, 그 과잉 형성된 시냅스들이 사용 빈도에 따라 선택적으로 제거되면서 뇌 회로의 세밀한 조각이 이루어진다. 마치 조각가가 커다란 돌덩이를 깎아가며 섬세한 작품을 만드는 것처럼, 뇌도 과잉 연결을 제거하면서 더 정교한 회로를 만들어나간다. 이 과정에 미세아교세포(microglia)가 보체 단백질(complement proteins)을 표지로 삼아 약한 시냅스를 탐식하는 방식으로 관여한다는 것이 2012년 이후의 연구들에서 밝혀졌다.

청소년기(adolescence)에는 또 다른 전사체적 전환이 일어난다. 수초화(myelination) 관련 모듈이 특히 전전두엽 피질에서 뒤늦게 활성화되고, 시냅스 재편 관련 유전자들이 다시 한번 높아진다. 수초화란 신경 섬유를 수초라는 지방질 막으로 감싸는 과정인데, 수초가 형성되면 전기 신호의 전달 속도가 크게 빨라지고 안정성이 높아진다. 수초 없는 신경섬유와 있는 신경섬유의 신호 전달 속도 차이는 수십 배에 달한다. 인간의 전전두엽 피질은 20대 중반까지도 수초화가 완성되지 않는데, 이것이 청소년기에 충동 조절과 계획 능력이 아직 덜 발달되어 있는 이유 중 하나로 여겨진다. 발달 심리학자들이 이미 수십 년 전에 행동적 측면에서 관찰해온 것들이, 전사체 수준에서도 유전자 모듈의 늦은 활성화로 확인되는 셈이다. 성인기에 이르면 유지 관련 모듈들이 주도권을 잡는다. 신경 전달, 미토콘드리아 기능, 단백질 항상성(protein homeostasis)과 관련된 유전자들이 안정적으로 높은 수준을 유지하면서 뇌의 항상성을 담당한다.

BrainVar 데이터베이스: 유전체와 전사체의 만남

2020년에 이 이야기에 새로운 층을 추가하는 데이터셋이 발표되었다. PsychENCODE 컨소시엄의 일환으로 구축된 BrainVar 데이터베이스는 발달 중인 배외측 전두엽 피질(dorsolateral prefrontal cortex)에서 채취한 176명의 개인 조직으로부터 전장 유전체 시퀀싱(whole-genome sequencing)과 벌크 RNA-seq를 동시에 수행한 결과물이었다. 전장 유전체 시퀀싱이란 각 개인의 DNA 전체를 처음부터 끝까지 읽어내는 것이고, RNA-seq는 그 조직에서 발현되는 모든 RNA를 시퀀싱하는 것이다. 이 두 가지 데이터를 같은 개인에서 동시에 얻었다는 것이 BrainVar의 핵심적인 강점이었다. 이전 연구들이 전사체 데이터만 가지고 있거나, 유전체 데이터만 가지고 있었다면, BrainVar는 한 개인 안에서 유전적 변이가 유전자 발현에 어떻게 영향을 미치는지를 직접 분석할 수 있게 해주었다. 마치 한 사람의 타고난 설계도(유전체)와 그것이 실제로 어떻게 읽혔는지(전사체)를 동시에 비교하는 것이다.

176명의 표본은 임신 초기부터 청소년기까지의 발달 범위를 포괄했는데, 이 광범위한 발달 기간의 포함이 BrainVar를 특별하게 만들었다. 이 데이터를 이용하여 연구진은 발현 양적 형질 유전좌(expression quantitative trait loci, eQTL)를 발견했는데, 특히 발달 시점에 따라 효과가 다른 시간 의존적 eQTL(temporal eQTLs)을 발견한 것이 핵심 기여였다. eQTL 분석이란 176명의 유전체 데이터와 전사체 데이터를 동시에 가지고 있으니, “A라는 DNA 변이를 가진 사람들은 B 유전자가 다른 사람들보다 높게(또는 낮게) 발현된다”는 통계적 연관성을 찾는 것이다. 어떤 유전적 변이는 태아기에는 근처 유전자의 발현에 강한 영향을 미치지만 출생 후에는 그 영향이 사라졌고, 반대로 출생 후에만 효과가 나타나는 변이들도 있었다. 또 발달 전 기간에 걸쳐 일정하게 영향을 미치는 항상적 eQTL(constant eQTLs)도 발견되었다. 이 두 종류의 eQTL 사이의 구분이 처음에는 기술적인 분류처럼 보일 수 있지만, 실제로는 깊은 생물학적 함의를 가진다. 어떤 유전적 변이가 태아기에만 유전자 발현에 영향을 미친다는 것은, 그 변이가 태아 뇌에서 특이적으로 활성화되는 조절 요소(regulatory element)에 위치한다는 것을 의미한다. 달리 말하면, 태아 뇌만의 독특한 유전자 조절 구조가 존재하고, 유전체의 특정 영역들은 오직 태아 뇌에서만 기능한다는 것이다.

BrainVar에서 발견된 또 하나의 중요한 결과는 1만 2천 개 이상의 유전자가 후기 태아 전환(late-fetal transition) 시점에 조율된 방식으로 발현 변화를 겪는다는 것이었다. 이 시기는 대략 임신 후기에서 신생아기로 넘어가는 전환점에 해당하며, 그 무렵 뇌 전사체가 대규모로 재편된다. 1만 2천 개라는 숫자를 잠깐 생각해보자. 인간 유전체의 단백질 코딩 유전자가 약 20,000개라는 것을 감안하면, 이 전환 시점에 전체 유전체의 절반 이상이 동시에 발현 방향을 바꾼다는 것이다. 마치 오케스트라가 1부 공연을 마치고 휴식 후 완전히 다른 프로그램을 연주하기 시작하는 것처럼, 뇌의 유전자 발현 프로그램이 출생을 전후하여 대규모로 전환된다. 이 전환기 유전자들의 기능을 분석하면 세포 유형 특이적 프로그램들로 연결되었는데, 이것은 이 대규모 전사체 재편이 발달하는 뇌에서 특정 세포 유형들이 성숙하거나 등장하는 것과 연동되어 있음을 시사한다. 출생을 전후한 이 결정적 전환기가 분자 수준에서 어떻게 조율되는지에 대한 이해는, BrainVar 이전에는 거의 없었다.

기능 미상 유전자에게 이름을 붙이는 법

공발현 네트워크 분석의 가장 실용적인 가치 중 하나는, 기능이 알려지지 않은 유전자의 기능을 추론할 수 있다는 것이다. 이것을 “좋은 동행 원리(guilt by association)“라고도 부른다. 기능이 잘 알려진 유전자들과 함께 공발현 모듈을 이루는 기능 미상의 유전자라면, 그 모듈의 기능에 관여할 가능성이 높다는 논리다. 예를 들어 시냅스 형성 관련 유전자들로 구성된 모듈에서 함께 발현되는 기능 미상 유전자가 있다면, 그 유전자 역시 시냅스 형성 과정에서 역할을 할 가능성이 있다. 이것은 마치 어떤 사람이 항상 목수들과 어울려 다니고 목공소에서 시간을 보낸다면 그 사람도 목수일 가능성이 높다고 추론하는 것과 같다. 물론 이것은 가설이고 실험적 검증이 필요하지만, 수만 개의 유전자 중 어디서부터 실험을 시작해야 할지를 결정하는 데 있어서 공발현 네트워크는 강력한 우선순위 도구가 된다. 뇌 발달의 맥락에서는 특히 중요하다. 뇌 발달에 관여하는 유전자들 중 상당수는 다른 계에서는 기능이 알려지지 않은 뇌 특이적 유전자들이기 때문이다.

공발현 네트워크는 또한 이전에는 관련이 없다고 생각되었던 유전자들 사이의 연결 고리를 드러내기도 한다. 전통적인 생화학에서는 단백질들이 직접 결합하거나 신호 전달 경로를 통해 연결되어야 기능적 연관성이 있다고 본다. 하지만 공발현 분석은 그보다 훨씬 넓은 의미의 기능적 연관성을 포착한다. 같은 세포 유형에서 발현되기 때문에 함께 올라가거나, 같은 전사 인자에 의해 조절되기 때문에 함께 반응하거나, 같은 발달 과정에서 필요하기 때문에 함께 켜지는 유전자들이 모두 같은 모듈에 모이게 된다. 이러한 방식으로, 공발현 네트워크는 직접적인 분자적 상호작용 수준을 넘어 세포 수준, 조직 수준의 조절 구조를 반영하는 지도가 된다. 모듈의 허브 위치에 전사 인자가 있다면, 그 전사 인자가 모듈에 포함된 다수의 유전자를 직접 조절하는 마스터 레귤레이터일 가능성이 있다. 이런 예측은 ChIP-seq(크로마틴 면역침전 시퀀싱, chromatin immunoprecipitation sequencing)나 CRISPR 스크리닝 같은 기술로 실험적으로 검증할 수 있는 구체적인 가설을 제공한다. ChIP-seq는 특정 단백질이 유전체의 어느 위치에 결합하는지를 전장 유전체 수준에서 밝히는 기술이고, CRISPR 스크리닝은 수천 개의 유전자를 한꺼번에 껐다 켜면서 어떤 유전자가 원하는 표현형에 영향을 미치는지를 대규모로 테스트하는 방법이다.

BrainVar의 데이터는 공개적으로 이용 가능하며, 이 자원은 연구자들이 자신이 관심을 가지는 유전적 변이가 뇌 발달 과정에서 언제, 어떤 유전자의 발현에 영향을 미치는지를 탐색할 수 있는 풍부한 도구가 되었다. 특정 유전자가 발달의 어느 시점에 어느 방향으로 발현이 변하는지, 그리고 그 발현 변화에 영향을 미치는 유전적 변이가 있는지를 176명의 개인 데이터에서 직접 확인할 수 있다. 이것은 단일 유전자 수준의 이야기가 아니라, 개인의 유전체와 그 개인의 뇌 발달 전사체가 어떻게 연결되어 있는지를 이해하는 데 도달하는 수단이다. 2011년 Kang et al. 연구가 인간 뇌 전사체를 처음 체계적으로 기술하면서 시작된 이야기가, 2020년 BrainVar에 이르러 유전체와 전사체를 동시에 고려하는 발달 유전체학(developmental genomics)의 영역으로 성숙해진 것이다. 뇌가 어떻게 만들어지는지를 이해하려면 결국 두 가지 물음에 동시에 답해야 한다. 어떤 유전자들이 언제, 어디서, 얼마나 발현되는가. 그리고 개인 간의 유전적 차이가 그 발현 프로그램에 어떻게 영향을 미치는가. 이 두 물음을 연결하는 다리가 바로 발달 eQTL이고, BrainVar는 그 다리를 처음으로 체계적으로 건축한 프로젝트였다.

References

Werling, D. M., Pochareddy, S., Choi, J., An, J. Y., Sheppard, B., Peng, M., … & Sestan, N. (2020). Whole-genome and RNA sequencing reveal variation and transcriptomic coordination in the developing human prefrontal cortex. Cell Reports, 30(13), 4203-4219. doi:10.1016/j.celrep.2020.03.053

Kang, H. J., Kawasawa, Y. I., Cheng, F., Zhu, Y., Xu, X., Li, M., … & Sestan, N. (2011). Spatio-temporal transcriptome of the human brain. Nature, 478(7370), 483-489. doi:10.1038/nature10523

Miller, J. A., Ding, S. L., Sunkin, S. M., Smith, K. A., Ng, L., Szafer, A., … & Lein, E. S. (2014). Transcriptional landscape of the prenatal human brain. Nature, 508(7495), 199-206. doi:10.1038/nature13185

Langfelder, P., & Horvath, S. (2008). WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics, 9(1), 559. doi:10.1186/1471-2105-9-559

Zhang, B., & Horvath, S. (2005). A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology, 4(1). doi:10.2202/1544-6115.1128


주요 용어 안내

WGCNA(가중 유전자 공발현 네트워크 분석): 여러 표본에서 유전자 발현 패턴이 유사한 유전자들을 그룹(모듈)으로 묶는 분석 방법. 함께 올라가고 함께 내려가는 유전자들이 같은 생물학적 과정에 참여하고 있을 가능성이 높다는 원리에 기반한다.

공발현 모듈(co-expression module): WGCNA로 발견된 유전자 그룹. 각 모듈은 특정 발달 시기나 뇌 영역에서 함께 활성화되며, 모듈에 포함된 유전자들의 기능을 분석하면 그 모듈이 어떤 생물학적 과정을 반영하는지 추론할 수 있다.

허브 유전자(hub gene): 공발현 모듈 안에서 가장 많은 유전자와 연결된 중심 유전자. 공항의 허브처럼 많은 노선이 모이는 곳으로, 모듈의 기능을 이해하는 핵심 단서가 된다.

eQTL(발현 양적 형질 유전좌): 특정 DNA 변이가 근처 유전자의 발현량에 영향을 미치는 현상. 유전적 변이가 뇌 기능에 영향을 주는 메커니즘을 추적하는 데 쓰인다.

후기 태아 전환(late-fetal transition): 임신 후기에서 신생아기로 넘어가는 시점에 뇌 전사체가 대규모로 재편되는 현상. 전체 유전자의 절반 이상이 동시에 발현 방향을 바꾼다.