Chapter 1. 왜 뇌 유전체를 연구하는가

860억. 성인 인간 뇌에 들어 있는 뉴런의 대략적인 개수다. 이 숫자를 실감하기 위해 비교를 하나 해보자면, 우리 은하계에 있는 별의 개수가 대략 1,000억에서 4,000억 개 사이라고 추정되니까, 한 사람의 두개골 안에 은하 하나가 들어 있는 셈이다. 물론 뉴런 자체가 전부는 아니다. 각 뉴런은 적게는 5,000개, 많게는 200,000개의 시냅스를 형성하고, 그 수를 곱하면 뇌 전체에 대략 100조 개의 시냅스 연결이 존재한다. 그리고 이것도 뉴런만의 이야기다. 뇌에는 뉴런 못지않게 많은 글리아세포가 있고, 성상세포(astrocytes)는 뉴런에 영양분을 공급하면서 시냅스 사이의 신경전달물질 농도를 미세하게 조절하고, 희소돌기세포(oligodendrocytes)는 축삭을 수초로 감싸 전기 신호의 전달 속도를 높이며, 미세아교세포(microglia)는 뇌의 면역 체계를 담당하면서 동시에 발달 과정에서 불필요한 시냅스를 잘라내는 가지치기(pruning)까지 수행한다. 이 모든 세포들이 수십 가지의 신경전달물질과 수천 가지의 단백질로 서로 소통하고, 그 결과로 학습, 기억, 감정, 운동, 그리고 의식이 생겨난다.

이 복잡성 앞에서 자연스럽게 떠오르는 질문이 있다. 뇌는 어떻게 이렇게 만들어지는가? 수정란 하나에서 시작하여, 860억 개의 뉴런이 정확한 위치에 자리잡고, 정확한 상대방과 연결을 형성하고, 정확한 시점에 정확한 유전자를 켜고 끄는 이 과정은 대체 어떻게 작동하는 것인가? 19세기 말 신경해부학의 아버지 산티아고 라몬 이 카할(Santiago Ramón y Cajal)이 뇌 조직을 골지 염색으로 들여다본 이래로, 과학자들은 뇌의 구조를 상당히 상세하게 기술해왔다. 브로드만(Brodmann)은 세포 형태만으로 대뇌 피질을 52개의 영역으로 나누었고, 20세기의 전기생리학자들은 각 영역이 어떤 기능을 담당하는지 밝혀냈다. 그런데 이 모든 구조적, 기능적 지식에도 불구하고, 한 가지 근본적인 질문에는 아직 충분히 답하지 못했다. 이 모든 것을 만들어내는 분자적 청사진은 무엇인가?

이 장에서 쓰는 말들을 먼저 간단히 맞춰두자. 유전체는 DNA 전체의 설계도이고, 유전자 발현은 그 설계도 중 특정 페이지가 실제로 읽히는 과정이다. 전사체는 한 세포나 조직에서 지금 읽히고 있는 RNA 전체의 목록이다. 단일 세포 기술은 이 목록을 조직 덩어리의 평균이 아니라 세포 하나하나에서 읽는 방법이다. 따라서 이 책의 핵심 질문은 이렇게 바꿔 말할 수 있다. 뇌를 이루는 수많은 세포는 같은 설계도를 가지고도 왜 서로 다른 페이지를 읽으며, 그 차이가 어떻게 인간 뇌의 구조와 기능을 만들어내는가?

유전체가 그리는 뇌의 설계도

뇌의 설계도가 유전체에 쓰여 있다는 것은 누구나 직감적으로 안다. 일란성 쌍둥이의 뇌 구조가 이란성 쌍둥이보다 훨씬 더 닮았다는 사실은, 유전자가 뇌의 형태와 기능에 깊이 관여한다는 것을 말해준다. 인간 유전체에는 대략 20,000개의 단백질 코딩 유전자가 있는데, 이 중 약 86%가 뇌의 어딘가에서 발현된다. 발현(expression)이란 유전자에 담긴 정보가 실제로 단백질 또는 RNA로 만들어진다는 뜻인데, 마치 설계도를 꺼내 실제로 건물을 짓기 시작하는 것에 비유할 수 있다. 유전자가 ‘발현된다’는 것이 곧 ‘사용된다’는 것이고, ‘발현되지 않는다’는 것은 그 설계도 페이지가 그 세포에서는 아예 꺼내지지 않는다는 뜻이다. 간이나 심장 같은 다른 장기와 비교하면 이것은 압도적으로 높은 비율이다. 게다가 뇌에서 발현되는 유전자들의 상당수는 다른 장기에서는 발현되지 않는 뇌 특이적 유전자(brain-specific genes)이거나, 뇌에서 유독 높은 수준으로 발현되는 유전자들이다. 이 사실은 유전체가 뇌를 만들 때 자신이 가진 자원의 상당 부분을 동원한다는 점을 보여준다.

그런데 여기서 이야기가 복잡해진다. 유전체가 뇌의 설계도라면, 이 설계도는 고정된 청사진이 아니라 시간과 공간에 따라 끊임없이 변하는 동적인 문서에 가깝다. 임신 8주차의 태아 뇌에서 발현되는 유전자 세트와 출생 직후의 뇌에서 발현되는 유전자 세트는 상당히 다르고, 청소년기의 뇌와 60세 성인의 뇌에서 발현되는 유전자 세트도 또 다르다. 모든 세포는 동일한 DNA를 갖고 있지만, 뇌의 어떤 세포인지, 발달의 어느 단계인지에 따라 그 DNA 중 어떤 부분을 ‘읽을지’가 달라진다. 그래서 똑같은 설계도를 가지고도 수천 가지 서로 다른 세포가 만들어지는 것이다. 뇌의 영역에 따라서도 마찬가지다. 전두엽에서 높이 발현되는 유전자가 소뇌에서는 거의 발현되지 않을 수 있고, 해마에서 특이적으로 발현되는 유전자가 시상에서는 완전히 침묵할 수 있다. 하나의 유전체가 시간과 공간의 두 축을 따라 서로 다른 프로그램을 실행하는 것이다. 이것을 시공간적 유전자 발현(spatio-temporal gene expression)이라 부른다. 같은 책이지만 어느 페이지를 펼치느냐에 따라, 그리고 누가 읽느냐에 따라 완전히 다른 내용이 펼쳐지는 것과 비슷하다. 뇌 발달의 분자적 이해는 바로 이 시공간적 패턴을 해독하는 것에서 시작된다.

마이크로어레이에서 단일 세포까지

이 설계도를 읽으려는 시도가 본격적으로 시작된 것은 2000년대 초반이다. 마이크로어레이(microarray) 기술이 등장하면서, 과학자들은 처음으로 한 번의 실험에서 수천 개의 유전자 발현을 동시에 측정할 수 있게 되었다. 마이크로어레이는 손바닥만 한 유리 칩 위에 수만 개의 DNA 탐침(probe)을 빽빽하게 붙여놓은 장치인데, 조직에서 꺼낸 RNA가 이 탐침에 달라붙으면 형광 신호가 켜지는 방식으로 발현량을 측정한다. 그 이전에는 한 번에 한두 개의 유전자만 들여다볼 수 있었으니, 돋보기로 글자를 하나하나 읽던 사람이 갑자기 한 페이지 전체를 볼 수 있게 된 것과 같았다. 마이크로어레이는 Affymetrix나 Agilent 같은 회사에서 만들었고, exon-level 프로브를 사용하면 대체 스플라이싱(alternative splicing)까지 관찰할 수 있었는데, 뇌는 인체에서 대체 스플라이싱이 가장 활발한 장기이기 때문에 이것은 중요한 장점이었다. 대체 스플라이싱이란 같은 유전자에서도 어떤 부분을 이어붙이느냐에 따라 서로 다른 단백질이 만들어지는 현상으로, 마치 같은 레고 부품 세트에서 설명서를 다르게 써서 전혀 다른 모양을 조립하는 것과 비슷하다.

2007년 이후에는 차세대 시퀀싱(next-generation sequencing) 기반의 RNA-seq가 등장하면서 상황이 또 한 번 변했다. 마이크로어레이는 칩 위에 이미 설계된 프로브에 해당하는 유전자만 측정할 수 있었지만, RNA-seq는 세포에서 발현되는 모든 RNA를 편향 없이 시퀀싱하여 기존에 알려지지 않았던 전사체(transcript)까지 발견할 수 있었다. 시퀀싱(sequencing)이란 DNA나 RNA의 염기 서열을 읽는 것을 말하는데, 마치 책의 내용을 한 글자 한 글자 받아쓰는 것과 같다. 정량의 정확도도 높아졌고, 동적 범위도 넓어져서 극히 낮은 수준으로 발현되는 유전자부터 높은 수준으로 발현되는 유전자까지 한 번에 잡아낼 수 있었다. 하지만 마이크로어레이든 RNA-seq든, 이 시기의 기술들은 근본적인 한계가 같았다. 조직 덩어리를 갈아서 RNA를 추출하기 때문에, 수백만 개의 서로 다른 세포들의 신호가 섞여 나온다는 점이다. 이것을 벌크(bulk) 시퀀싱이라 부른다.

벌크 시퀀싱의 한계를 비유하자면 이렇다. 서울의 인구 구성을 알고 싶어서 강남구와 종로구와 관악구의 주민들을 전부 한데 섞은 다음 평균 연령과 평균 소득을 구하는 것이다. 평균값 자체는 틀린 숫자가 아니지만, 실제로 각 구에 어떤 사람들이 사는지는 거의 알려주지 않는다. 뇌도 마찬가지다. 대뇌 피질의 한 조각을 갈아서 RNA-seq를 돌리면 흥분성 뉴런(excitatory neuron), 억제성 뉴런(inhibitory neuron), 성상세포, 희소돌기세포, 미세아교세포, 혈관 세포 등 온갖 세포 유형의 RNA가 뒤섞여 나온다. 특정 유전자의 발현이 높게 나왔다 해도, 그것이 모든 세포에서 골고루 발현되는 것인지, 아니면 극소수의 특정 세포 유형에서만 폭발적으로 발현되는 것인지 구분할 수 없다. 마치 교실 전체의 평균 시험 점수를 보면 반 전체가 공부를 열심히 했는지, 아니면 한 명의 천재가 평균을 끌어올린 것인지 알 수 없는 것과 같다.

이 문제를 근본적으로 해결한 것이 2010년대 중반에 등장한 단일 세포 RNA 시퀀싱(single-cell RNA sequencing, scRNA-seq)이다. Drop-seq, inDrop, 그리고 가장 널리 사용된 10x Genomics Chromium 플랫폼은 미세유체역학(microfluidics)을 이용하여 개별 세포를 각각의 기름방울(droplet) 안에 가두고, 각 세포의 RNA에 고유한 바코드를 붙인 후 한꺼번에 시퀀싱하는 방식이었다. 미세유체역학이란 머리카락 굵기보다 훨씬 가는 미세한 관(channel) 속에서 액체를 정밀하게 조작하는 기술인데, 이 기술 덕분에 세포 하나하나를 개별 기름방울 안에 담을 수 있게 되었다. 한 번의 실험으로 수천에서 수만 개의 개별 세포의 전사체를 얻었고, 그 결과 서로 다른 세포 유형들을 분자적으로 정의하고 분류할 수 있게 되었다. 뇌 연구에서는 사후 조직에서 온전한 세포를 분리하기 어렵기 때문에, 핵만 분리하여 시퀀싱하는 단일 핵 RNA 시퀀싱(single-nucleus RNA sequencing, snRNA-seq)이 더 많이 사용되었다. 이 기술은 냉동 보존된 사후 뇌 조직에서도 고품질의 데이터를 얻을 수 있어서, 인간 뇌 연구의 실질적인 표준이 되었다.

시기	기술	해상도	측정 범위	한계
2000년대 초	마이크로어레이	벌크 조직	칩에 설계된 유전자만 측정	알려지지 않은 전사체 발견 불가
2007년~	RNA-seq	벌크 조직	모든 RNA를 편향 없이 시퀀싱	세포 유형 구분 불가
2015년~	scRNA-seq / snRNA-seq	단일 세포 / 단일 핵	개별 세포의 전사체	공간 정보 소실
2020년~	공간 전사체학	조직 내 위치 보존	유전자 발현 + 공간 좌표	유전자 수 또는 해상도 제한

사후 조직이라는 숙명

여기서 뇌 연구의 고유한 어려움을 이야기하지 않을 수 없다. 뇌는 다른 장기와 달리 살아 있는 사람에게서 조직을 채취할 수 없다. 간 생검이나 피부 펀치 생검처럼 일상적으로 조직을 얻을 수 있는 장기가 아니다. 뇌전증 수술이나 뇌종양 제거 과정에서 간혹 생체 조직을 얻을 수 있지만, 이는 정상 뇌 조직이 아니며 채취 가능한 영역도 극히 제한적이다. 그래서 뇌 유전체 연구의 대부분은 사후 조직(postmortem tissue)에 의존한다. 사망한 뒤 부검 과정에서 기증받은 뇌 조직을 사용하는 것이다. 이것은 마치 건물이 이미 완공된 뒤에야 도면을 보게 되는 것과 비슷한 상황이다. 완공된 건물에서도 설계의 흔적을 읽어낼 수 있지만, 공사 중인 현장을 실시간으로 관찰하는 것에 비하면 정보가 제한적일 수밖에 없다.

사후 조직을 사용하는 것은 필연적으로 여러 가지 기술적 난제를 동반한다. 가장 큰 문제는 RNA의 분해다. 세포가 죽는 순간부터 세포 내의 RNase가 활성화되어 RNA를 분해하기 시작하고, 사망 후 뇌를 적출하여 냉동 보존하기까지의 시간, 즉 사후 간격(postmortem interval)이 길어질수록 RNA의 품질은 급격히 떨어진다. RNase는 세포 안에서 RNA를 잘라내는 효소인데, 살아 있을 때는 엄격히 통제되지만 세포가 죽으면 제어를 잃고 RNA를 마구 분해하기 시작한다. 그래서 기증자가 사망한 후 최대한 빠르게 뇌를 적출하고 냉동하는 것이 데이터 품질을 좌우한다. RNA의 무결성을 수치화한 것이 RIN(RNA Integrity Number)인데, 0에서 10 사이의 숫자로 표현하며, 10에 가까울수록 RNA가 잘 보존된 것이다. 이 값이 낮은 조직에서는 유전자 발현 데이터의 신뢰도가 크게 떨어진다. 또한 사후 조직은 기증자의 나이, 성별, 사인, 약물 복용력, 기저 질환 등 다양한 변수에 의해 영향을 받기 때문에, 연구에서 관찰되는 차이가 진정한 생물학적 신호인지 아니면 조직 품질이나 기증자 특성에 의한 교란인지를 구분하기 어렵다. 이것을 교란변수(confounding variable) 문제라고 하는데, 예를 들어 정신질환 사망자와 정상 대조군의 뇌 유전자 발현이 다르게 나왔을 때, 그 차이가 질환 때문인지 아니면 질환 치료를 위해 복용한 약물 때문인지를 통계적으로 분리해야 한다. 이것이 뇌 전사체 연구에서 표본 수를 늘리고, 엄격한 품질 관리 기준을 적용하며, 통계적 보정을 수행해야 하는 이유다.

그럼에도 불구하고, 사후 조직은 인간 뇌를 직접 연구할 수 있는 거의 유일한 수단이다. 마우스 뇌를 아무리 잘 연구해도 인간 뇌의 특성을 완전히 반영할 수는 없기 때문이다. 인간의 대뇌 피질은 마우스보다 약 1,000배 넓고, 발달 기간은 수십 배 길며, 인간에게만 존재하거나 인간에서 크게 확장된 세포 유형과 구조들이 있다. 예를 들어 인간 뇌의 외측 뇌실하대(outer subventricular zone, oSVZ)에는 외측 방사 글리아(outer radial glia, oRG)라는 전구세포가 대량으로 존재하는데, 이 세포는 마우스의 발달 중인 뇌에서는 극히 소수에 불과하다. 전구세포란 아직 최종 정체성이 결정되지 않은 미성숙 세포로, 분열을 거듭하면서 뉴런이나 글리아세포로 분화해나간다. 인간 피질의 엄청난 표면적은 상당 부분 이 oRG 세포들의 대량 증식에 기인하는 것으로 여겨진다. 이런 인간 특이적 특징은 인간 뇌 조직을 직접 분석하지 않으면 연구할 수 없다.

지난 15년 동안, 기술의 발전은 인간 뇌를 기술(記述)할 수 있는 범위를 단계적으로 넓혀왔다. 마이크로어레이는 수만 개 유전자의 발현을 동시에 측정하게 했고, RNA-seq는 알려지지 않은 전사체까지 포착했으며, 단일 세포 시퀀싱은 뇌 안에 숨어 있던 수천 가지 세포 유형을 개별적으로 드러냈다. 이 기술들이 중요한 이유는 단순히 더 많은 데이터를 생산하기 때문이 아니다. 기술의 해상도가 높아질수록, 이전에는 하나로 뭉뚱그려졌던 것들 속에서 개체 간 차이, 세포 유형 간 차이, 발달 시기 간 차이가 비로소 구분되기 시작한다. 집단 내에 존재하는 다양한 개체와 현상을 있는 그대로 기술할 기회가 열린 것이다. 동시에, 이 규모의 연구는 한 연구실이 혼자 해낼 수 있는 일이 아니었다. BICCN, PsychENCODE, BrainSpan 같은 대규모 컨소시엄은 수백 명의 연구자가 데이터를 생산하고, 공유하고, 함께 분석하는 협력의 틀을 만들었다. 이 협력으로 쌓인 데이터와 지식이 오늘날 우리가 인간 뇌를 이야기할 수 있는 토대를 이루고 있다. 다음 장에서는 이 여정의 첫 번째 이정표, 인간 뇌의 시공간 전사체를 처음으로 체계적으로 매핑한 연구로 들어간다.

주요 용어 안내

유전자 발현(gene expression): 유전자에 담긴 정보가 실제로 단백질이나 RNA로 만들어지는 과정. 유전자가 “발현된다”는 것은 그 유전자가 “사용되고 있다”는 뜻이다.

전사체(transcriptome): 특정 시점에 특정 세포나 조직에서 발현되고 있는 모든 RNA의 총합. 유전체가 “설계도 전체”라면, 전사체는 “지금 이 순간 펼쳐져 있는 페이지들”에 해당한다.

단일 세포 RNA 시퀀싱(scRNA-seq): 개별 세포 하나하나의 유전자 발현을 측정하는 기술. 세포를 미세한 기름방울 안에 각각 가두고, 각 세포의 RNA에 고유한 바코드를 붙여 구분한다.

벌크 시퀀싱(bulk sequencing): 조직 덩어리를 통째로 갈아서 RNA를 추출하는 방식. 수백만 개 세포의 신호가 평균으로 섞여 나오므로, 개별 세포 유형의 특성을 구분하기 어렵다.

사후 간격(postmortem interval): 사망 후 뇌 조직을 수집하여 보존하기까지의 시간. 이 간격이 길수록 RNA가 분해되어 데이터 품질이 떨어진다.

목차

Chapter 1. 왜 뇌 유전체를 연구하는가

유전체가 그리는 뇌의 설계도

마이크로어레이에서 단일 세포까지

사후 조직이라는 숙명