Chapter 5. 단일 세포 기술의 등장

2015년 어느 날, 하버드 의과대학의 에반 마코스코(Evan Macosko)는 뇌를 갈아 만든 세포 현탁액을 가느다란 관 속으로 흘려보내고 있었다. 이 행위는 신경과학자의 관점에서 보면 거의 만행에 가까웠다. 수십억 년의 진화가 빚어낸 정교한 세포들, 각자 고유한 형태와 기능을 가진 세포들을 블렌더에 갈아버리는 일이었기 때문이다. 하지만 마코스코와 그의 동료들은 이 ‘만행’이 곧 새 시대를 여는 일이 될 것임을 알고 있었다. 그들이 개발한 방법은 Drop-seq였고, 이것은 수천 개의 개별 세포를 한꺼번에 시퀀싱한다는 꿈을 처음으로 현실로 만들었다. Cell에 발표된 이 논문은 단일 세포 유전체학의 시대가 본격적으로 열렸음을 알리는 신호탄이었다. 사실 단일 세포 시퀀싱의 아이디어 자체는 훨씬 이전부터 있었지만, 마코스코의 Drop-seq는 그것을 수천 개의 세포 규모로 끌어올린 최초의 기술 중 하나였다.

Drop-seq 이전에도 개별 세포를 시퀀싱하려는 시도는 있었다. 2009년 Tang et al. 연구는 마우스 배아의 단일 세포 하나에서 전사체를 측정하는 데 성공했고, 이어진 몇 년 동안 Smart-seq, Smart-seq2 같은 플레이트 기반(plate-based) 방법들이 등장했다. Smart-seq2는 Picelli et al. 연구팀이 2013년에 발표한 방법으로, FACS(형광 활성화 세포 분류, fluorescence-activated cell sorting)를 이용해 세포 하나하나를 96공 혹은 384공 플레이트의 각 웰에 분리한 다음, 역전사효소를 이용하여 각 세포의 mRNA를 cDNA로 변환하고 증폭시킨 후 시퀀싱하는 방식이었다. 비유하자면 세포들을 알약 격자판에 하나씩 집어넣고 각각을 따로 분석하는 것이다. 이 방법은 각 세포에서 전체 전사체 길이에 걸쳐 정보를 얻을 수 있어서 스플라이싱 변이체(splicing variant)를 분석하는 데 유리했고, 감도도 높았다. 하지만 플레이트 기반 방법에는 치명적인 한계가 있었다. 한 번에 처리할 수 있는 세포의 수가 기껏해야 수백 개에서 수천 개에 불과했다. 뇌 한 조각에 들어 있는 수십만 개의 세포를 분류하기에는 턱없이 느리고 비쌌다.

기름방울 속의 혁명

Drop-seq의 핵심은 미세유체역학(microfluidics)이었다. 손톱만 한 작은 칩 위에 새겨진 수십 마이크로미터 폭의 미세 채널에서 세 가지 흐름이 만난다. 미세유체역학이란 머리카락 굵기보다 가는 관 안에서 액체의 흐름을 정밀하게 제어하는 기술로, 눈에 보이지 않는 작은 공간 안에서 화학적, 생물학적 반응을 빠르게 수행하게 한다. 첫 번째 흐름에는 세포 현탁액이 흐른다. 두 번째 흐름에는 바코드가 새겨진 마이크로비드(microbead)들이 담겨 있다. 세 번째 흐름은 오일(oil)이다. 이 세 흐름이 합류하는 접합점에서, 오일이 세포 하나와 마이크로비드 하나를 감싸 아주 작은 기름방울(droplet)을 만들어낸다. 각 기름방울의 지름은 약 100마이크로미터에 불과하고, 이런 기름방울이 1초에 수천 개씩 생성된다. 이 기름방울 안에서 세포가 용해되면 세포의 mRNA가 유리되고, 마이크로비드에 붙어 있는 역전사효소와 올리고(dT) 프라이머가 mRNA를 cDNA로 전환한다. 핵심은 마이크로비드마다 서로 다른 DNA 서열이 붙어 있다는 점이다. 이것이 바로 세포 바코드(cell barcode)로, 마치 각 학생의 시험지에 이름 대신 고유 번호가 적혀 있어서 채점 후에도 누구의 것인지 알 수 있는 것처럼, 나중에 시퀀싱 결과를 분석할 때 어떤 cDNA가 어떤 세포에서 유래했는지를 구분하는 역할을 한다. 또 같은 세포에서 나왔더라도 동일한 mRNA 분자를 여러 번 중복 세어서 발생하는 오류를 제거하기 위해, 각 mRNA 분자에는 고유 분자 식별자(unique molecular identifier, UMI)도 함께 붙인다.

Drop-seq 이후 거의 같은 시기에 inDrop(Klein et al., 2015)도 발표되었고, 두 방법 모두 비슷한 원리를 사용했지만 바코드 전달 방식에 차이가 있었다. 그러나 단일 세포 시퀀싱 분야에서 가장 광범위하게 채택된 플랫폼은 2016년 등장한 10x Genomics Chromium이었다. 10x Chromium은 기본적으로 Drop-seq과 같은 드롭렛 기반 원리를 따르지만, 겔 비드 에멀전(Gel Bead in Emulsion)이라는 독자적인 파티클 시스템을 사용하여 세포 포획 효율과 데이터 품질을 크게 개선했다. 상업적 키트와 자동화 장비로 제공되었기 때문에, 전문적인 미세유체역학 기술이 없는 일반 연구실에서도 쉽게 쓸 수 있었다. 마치 전문 사진작가만 쓰던 고급 카메라가 스마트폰으로 일반 대중에게 보급되듯, 10x Chromium은 단일 세포 시퀀싱을 소수 전문가의 기술에서 일반 연구자도 쓸 수 있는 도구로 바꿔놓았다. 오늘날 단일 세포 RNA 시퀀싱(single-cell RNA sequencing, scRNA-seq) 논문의 절대 다수가 10x Genomics 플랫폼으로 생성된 데이터를 사용한다는 사실은 이 플랫폼이 얼마나 철저히 시장을 장악했는지를 드러낸다. 이는 단순히 마케팅의 승리가 아니라, 실제로 더 많은 세포를 더 빠르고 안정적으로 처리할 수 있다는 기술적 우위의 결과였다.

플랫폼	원리	한 번에 처리 가능한 세포 수	전사체 커버리지	주요 장점
Smart-seq2	플레이트 기반 (FACS)	수백~수천	전장(full-length)	스플라이싱 분석 가능, 높은 감도
Drop-seq	드롭렛 기반	수천~수만	3’ 말단	대규모 처리 가능, 저비용
10x Genomics Chromium	드롭렛 기반 (겔 비드)	수천~수만	3’ 또는 5’ 말단	상업 키트, 높은 재현성, 가장 널리 사용

그런데 여기서 뇌 연구자들은 한 가지 근본적인 문제에 부딪힌다. Drop-seq든 10x Chromium이든, 이 기술들은 살아 있는 세포가 필요하다. 세포가 죽은 후 세포막이 파괴되어 mRNA가 모두 유출되면 데이터를 얻을 수 없다. 하지만 앞서 이야기했듯이, 인간 뇌의 거의 대부분은 사후 조직(postmortem tissue)에서만 얻을 수 있다. 살아있는 인간 뇌 조직을 뇌전증 수술 같은 특수한 경우를 제외하고 채취하기는 불가능하다. 더욱이 냉동 보존된 사후 뇌 조직에서 온전한 세포를 분리하는 것은 기술적으로 어렵다. 냉동과 해동 과정에서 세포막이 손상되어 세포가 파괴되기 때문이다. 뇌 연구에서 scRNA-seq 적용의 이 난관을 해결한 것이 바로 단일 핵 RNA 시퀀싱(single-nucleus RNA sequencing, snRNA-seq)이다.

핵 하나면 충분하다

세포가 아니라 핵을 쓴다는 아이디어는 단순하지만 그 파급력은 컸다. 세포막은 취약하지만 핵막(nuclear envelope)은 훨씬 견고하다. 조직을 분쇄하는 과정에서도 핵은 상당히 잘 보존된다. 냉동 조직에서 핵을 분리하면, 핵 안에는 mRNA가 포함된 RNA 전사체들이 어느 정도 보존되어 있다. 물론 세포질 RNA에 비해 핵 내 RNA의 양은 적고, 미성숙 전사체(pre-mRNA)가 많이 포함되어 있는 등 몇 가지 차이가 있다. 그러나 핵에 있는 RNA만으로도 세포 유형을 충분히 구분할 수 있다는 것이 여러 연구에서 검증되었다. snRNA-seq는 FANS(형광 활성화 핵 분류, fluorescence-activated nuclei sorting)나 단순한 원심분리로 조직에서 핵을 분리한 후 10x Chromium 같은 플랫폼에 투입하는 방식으로 수행된다. 비유하자면, 책 전체가 아니라 목차만 보고도 그 책이 어떤 종류의 책인지 구분할 수 있는 것처럼, 핵에 남아 있는 RNA 정보만으로도 세포 유형을 식별할 수 있는 셈이다. 이 기술은 수십 년 전에 냉동 보존된 뇌 은행(brain bank) 조직에도 적용할 수 있어서, 인간 뇌 유전체 연구의 실질적인 문을 열었다. BICCN(Brain Initiative Cell Census Network)이 생산한 주요 인간 뇌 아틀라스들이 모두 snRNA-seq를 사용한 것은 우연이 아니라 필연이었다.

드롭렛 기반이든 플레이트 기반이든, snRNA-seq든 scRNA-seq든, 시퀀서에서 나오는 것은 결국 수십억 개의 짧은 DNA 서열(read)이다. 이 서열들을 가지고 의미 있는 생물학적 정보를 끌어내려면 상당히 복잡한 데이터 분석 파이프라인이 필요하다. 먼저 각 read를 참조 유전체(reference genome)에 정렬(alignment)하여 어떤 유전자에서 왔는지 확인하고, 세포 바코드와 UMI를 이용하여 각 세포에서 각 유전자가 몇 번 검출되었는지를 나타내는 세포-유전자 행렬(cell-gene matrix)을 만든다. 이 행렬은 행(row)이 각 세포, 열(column)이 각 유전자인 거대한 표와 같아서, 예컨대 10만 개의 세포와 3만 개의 유전자를 분석하면 10만 곱하기 3만 크기의 표가 생성된다. 이 행렬이 단일 세포 분석의 출발점이다. 이 과정을 수행하는 대표적인 소프트웨어가 10x Genomics가 제공하는 Cell Ranger이고, 최근에는 STARsolo나 Alevin 같은 대안적인 도구들도 널리 사용된다. 이 단계까지는 비교적 표준화되어 있지만, 그다음부터는 선택지가 무수히 많아진다.

데이터를 읽어내는 기술

세포-유전자 행렬이 만들어지면 본격적인 분석이 시작된다. 첫 번째 단계는 품질 관리(quality control)다. 각 세포(또는 핵)에서 검출된 유전자의 수, 총 UMI의 수, 미토콘드리아 유전자의 비율 등을 살펴보고 죽은 세포나 파괴된 핵, 혹은 두 세포가 하나의 방울에 포획된 더블릿(doublet)을 제거한다. 미토콘드리아 유전자 비율이 높다는 것은 세포가 스트레스를 받았거나 세포질이 유출되었다는 신호로, 마치 혈액 검사에서 특정 효소 수치가 높으면 간세포가 손상되었음을 알 수 있는 것과 비슷한 원리다. 품질 관리 기준은 연구마다, 세포 유형마다 다르게 설정해야 한다는 점이 중요한데, 예를 들어 뉴런은 일반적으로 미토콘드리아 함량이 높기 때문에 같은 기준을 일률적으로 적용하면 실제 뉴런들이 대거 제거되는 일이 생긴다. 이 단계를 통과한 세포들의 데이터는 서로 다른 포획 효율로 인한 기술적 변이를 제거하기 위해 정규화(normalization)를 거친다. 가장 흔하게 사용되는 방법은 각 세포의 카운트를 총 카운트로 나눈 후 로그 변환하는 것이고, SCTransform 같은 보다 정교한 통계 모델 기반 방법도 사용된다.

정규화된 데이터는 수만 개의 유전자 축을 가진 고차원 공간에 존재한다. 이것을 시각화하고 분석하기 위해서는 차원 축소(dimensionality reduction)가 필요하다. 먼저 주성분 분석(principal component analysis, PCA)을 적용하여 데이터의 분산을 가장 잘 설명하는 주성분들을 추출하고, 보통 상위 20~50개의 주성분을 다음 단계에 사용한다. PCA를 직관적으로 이해하자면, 수만 개의 유전자 발현 값이 사실 몇 개의 주요 패턴으로 요약될 수 있다는 생각이다. 예를 들어 여러 유전자들이 동시에 올라가는 패턴이 하나의 주성분이 될 수 있고, 이 주성분들만으로 세포 간 차이의 대부분을 설명할 수 있다. PCA가 선형적 차원 축소라면, 그다음 단계인 UMAP(균일 다양체 근사 및 투영, Uniform Manifold Approximation and Projection)은 비선형적 차원 축소로, 고차원 공간에서의 데이터 구조를 2차원 또는 3차원 공간에 시각화해준다. 쉽게 말하면, 수만 개의 유전자 정보를 가진 세포를 2차원 지도 위의 점으로 표현하는 것이다. UMAP 플롯에서 서로 가까이 모여 있는 세포들은 유전자 발현 패턴이 유사한 세포들이고, 멀리 떨어진 세포들은 유전자 발현 패턴이 크게 다른 세포들이다. 오늘날 단일 세포 논문에 빠짐없이 등장하는 그 알록달록한 UMAP 그림이 바로 이 과정의 결과물이다. UMAP의 시각화는 직관적으로 납득이 가는 그림을 만들어주지만, 동시에 UMAP이 보여주는 거리 관계를 문자 그대로 해석하는 것은 위험하다는 점도 알아야 한다. UMAP은 원래 고차원 공간의 위상 구조를 보존하기 위해 설계되었지 클러스터 간의 절대적 거리를 보존하기 위해 설계된 것이 아니기 때문이다.

UMAP 시각화와 함께, 유사한 세포들을 그룹으로 묶는 군집화(clustering)가 수행된다. 현재 가장 널리 사용되는 방법은 그래프 기반 군집화 알고리즘인 레이든 알고리즘(Leiden algorithm)과 루방 알고리즘(Louvain algorithm)이다. 비유하자면, 수천 명의 학생들이 좋아하는 과목 목록을 제출했을 때, 비슷한 목록을 가진 학생들끼리 자연스럽게 그룹이 만들어지는 것과 같다. 이 방법들은 먼저 각 세포를 그래프의 노드로, 비슷한 세포들 사이를 엣지로 연결한 k-최근접 이웃(k-nearest neighbor, kNN) 그래프를 만든 다음, 이 그래프에서 엣지가 밀집된 커뮤니티를 찾아 클러스터로 정의한다. 레이든 알고리즘이 루방 알고리즘보다 수학적으로 더 견고한 클러스터를 보장한다고 알려져 있어 최근에는 레이든을 더 많이 사용하는 추세다. 각 클러스터는 그 클러스터에서 다른 클러스터보다 높이 발현되는 마커 유전자들을 찾아서 세포 유형 이름을 부여하는 방식으로 주석화(annotation)된다. 이 주석화 단계는 아직도 상당 부분 인간의 판단에 의존하는데, 컴퓨터가 만들어낸 클러스터가 실제로 어떤 생물학적 세포 유형에 해당하는지는 결국 연구자가 기존의 지식과 마커 유전자 정보를 종합하여 결정해야 하기 때문이다.

군집화가 세포들의 ‘정적인’ 상태를 분류한다면, 궤적 분석(trajectory analysis), 혹은 의사시간 분석(pseudotime analysis)은 세포들이 어떤 순서로 분화하는지를 추론한다. 발달 중인 조직에서 세포들을 채취하면, 어떤 세포는 미분화된 전구세포이고 어떤 세포는 부분적으로 분화된 중간 상태이며 어떤 세포는 완전히 분화된 성숙 세포일 것이다. ‘의사시간’이라는 이름이 붙은 이유는, 실제 시간의 흐름이 아니라 분화 진행 정도를 나타내는 가상의 시간 축을 만들기 때문이다. 단일 시점에 찍은 스냅샷에서 세포들을 분화 순서대로 나열함으로써, 마치 영화 필름처럼 발달 과정을 재구성하는 방법이다. 마치 씨앗, 새싹, 나무를 한자리에 모아 놓고 “이것이 성장 과정이다”라고 추론하는 것처럼, 단일 시점에 채취한 여러 세포들을 분화 정도에 따라 순서대로 배열하여 발달 과정을 재구성하는 것이다. 이 세포들을 유전자 발현 유사도에 기반하여 하나의 궤적 위에 배열하면, 분화의 순서와 각 분화 단계에서 어떤 유전자가 켜지고 꺼지는지를 추론할 수 있다. Monocle이 이 분야의 선구적인 도구였고, RNA 속도(RNA velocity)를 이용하는 scVelo, Cytotrace, Palantir 등 더 정교한 방법들이 계속 등장하고 있다. RNA 속도란 미성숙 mRNA(pre-mRNA)와 성숙 mRNA의 비율을 이용하여 각 세포가 미래에 어떤 방향으로 변할지를 예측하는 방법으로, 세포 분화의 방향성을 화살표처럼 시각화해준다. 미성숙 mRNA가 많다는 것은 그 유전자가 막 켜지기 시작했다는 신호이고, 반대로 성숙 mRNA만 남아 있다면 그 유전자가 꺼지는 중이라는 신호다. 이 비율로부터 세포가 어느 방향으로 변하고 있는지를 추론하는 것이다. 이 분야가 빠르게 발전하고 있다는 것은 좋은 일이지만, 동시에 이 방법들 중 어느 것도 완벽하지 않으며 서로 다른 방법을 적용했을 때 상충되는 결과가 나오는 경우도 드물지 않다는 것도 기억해야 한다.

단일 세포 기술이 성숙하면서 점점 더 많은 연구자들이 여러 실험실, 여러 플랫폼, 여러 기증자에서 얻은 데이터를 하나로 통합하고 싶어하게 되었다. 하지만 각 실험에서 생기는 기술적 변이(batch effect)가 심각한 문제였다. 배치 효과(batch effect)란 실험마다 생기는 기술적 잡음인데, 같은 세포라도 시약 로트(lot)가 다르거나, 세포를 잡는 효율이 조금 다르거나, 온도가 조금 다른 날 실험하면 데이터에 일정한 방향의 편향이 생긴다. 서로 다른 날 서로 다른 실험실에서 수행된 두 실험의 데이터를 단순히 합치면, 같은 세포 유형이더라도 기술적인 차이로 인해 마치 다른 집단처럼 분리되어 보이는 현상이 발생한다. 이것은 서울의 주민들을 찍은 사진과 부산의 주민들을 찍은 사진을 분석할 때, 카메라 필터 차이 때문에 서울 사람들이 모두 파랗게, 부산 사람들이 모두 노랗게 보이는 것과 비슷하다. 데이터 통합(data integration)은 이 배치 효과를 제거하면서 진정한 생물학적 변이는 보존하는 것을 목표로 한다. 현재 가장 널리 사용되는 통합 방법은 Harmony와 scVI(단일 세포 변분 추론, single-cell variational inference)다. Harmony는 PCA 공간에서 세포들의 임베딩을 반복적으로 수정하여 서로 다른 배치의 세포들이 같은 클러스터 안에 고르게 섞이도록 하고, scVI는 딥러닝 기반의 생성 모델을 이용하여 각 세포의 데이터를 배치 효과가 제거된 잠재 공간으로 변환한다. 이 외에도 Seurat의 앵커 기반 통합, BBKNN, Scanorama 등 다양한 방법들이 개발되어 있으며, BICCN 같은 컨소시엄이 여러 기관에서 생성한 데이터를 하나의 일관된 분류 체계로 합치는 데 이런 통합 방법들이 필수적이다.

BICCN: 뇌의 세포 인구조사

이 모든 기술적 발전을 배경으로, 2017년 미국 국립보건원(National Institutes of Health)은 뇌 이니셔티브 세포 인구조사 네트워크(Brain Initiative Cell Census Network, BICCN)를 출범시켰다. BICCN의 목표는 하나로 요약할 수 있었다. 인간, 마우스, 영장류의 뇌 전체에 걸쳐 모든 세포 유형을 체계적으로 분류하고, 각 세포 유형의 분자적 특성을 전사체, 후성유전체, 형태, 전기생리학적 특성 등 다양한 측면에서 기술하는 것이었다. 이것은 뇌의 세포 인구조사(cell census)로, 국가가 주기적으로 수행하는 인구조사처럼 뇌 안에 어떤 세포들이 얼마나 존재하는지를 체계적으로 파악하는 것이었다. BICCN 이전에는 서로 다른 연구실에서 서로 다른 기준으로 세포 유형을 명명하다 보니, 같은 세포가 연구실마다 다른 이름으로 불리는 혼란이 생겼다. 어떤 연구실에서 L5 IT 뉴런이라고 부르는 세포를 다른 연구실에서는 피라미드 뉴런 유형 C라고 부를 수 있었고, 이것은 뇌 연구의 발전을 심각하게 저해했다.

BICCN은 30개 이상의 연구 기관이 협력하여 표준화된 방법론으로 데이터를 생성하고, 이를 공개 저장소에 공유해 전 세계 연구자들이 이 데이터에 접근하게 했다. 2023년에 Science 저널에 동시 발표된 일련의 논문들은 BICCN의 첫 번째 대규모 성과였다. 성인 인간 뇌 전체의 전사체 아틀라스(Siletti et al.), 임신 초기 태아 뇌를 단일 세포 수준에서 분석한 아틀라스(Braun et al.), 크로마틴 접근성 아틀라스(Li et al.), DNA 메틸화 및 3D 유전체 아틀라스(Tian et al.), 개체 간 변이 연구(Johansen et al.), 그리고 영장류 비교 연구(Jorstad et al.)가 모두 같은 해에 발표되면서, 인간 뇌의 세포 다양성에 대한 방대한 자원이 만들어졌다. 이 논문들이 이 책 Part 2의 핵심을 이루는 연구들이다. BICCN의 공개 데이터 정책은 인간 유전체 프로젝트의 버뮤다 원칙(Bermuda Principles)을 계승하는 것으로, 데이터를 특정 연구 그룹이 독점하지 않고 생성 즉시 공개함으로써 전체 과학 공동체가 혜택을 누리게 한다. 단일 세포 기술이 뇌 연구에 가져다준 변화는 결국 이 문장으로 압축된다. 우리는 이제 뇌를 세포 하나하나의 언어로 읽을 수 있게 되었다.

References

Macosko, E. Z., Basu, A., Satija, R., Nemesh, J., Shekhar, K., Goldman, M., … & McCarroll, S. A. (2015). Highly parallel genome-wide expression profiling of individual cells using nanoliter droplets. Cell, 161(5), 1202-1214. doi:10.1016/j.cell.2015.05.002

Klein, A. M., Mazutis, L., Akartuna, I., Tallapragada, N., Veres, A., Li, V., … & Kirschner, M. W. (2015). Droplet barcoding for single-cell transcriptomics applied to embryonic stem cells. Cell, 161(5), 1187-1201. doi:10.1016/j.cell.2015.04.044

Picelli, S., Björklund, Å. K., Faridani, O. R., Sagasser, S., Winberg, G., & Sandberg, R. (2013). Smart-seq2 for sensitive full-length transcriptome profiling in single cells. Nature Methods, 10(11), 1096-1098. doi:10.1038/nmeth.2639

Zheng, G. X., Terry, J. M., Belgrader, P., Ryvkin, P., Bent, Z. W., Wilson, R., … & Bielas, J. H. (2017). Massively parallel digital transcriptional profiling of single cells. Nature Communications, 8(1), 14049. doi:10.1038/ncomms14049

Korsunsky, I., Millard, N., Fan, J., Slowikowski, K., Zhang, F., Wei, K., … & Raychaudhuri, S. (2019). Fast, sensitive and accurate integration of single-cell data with Harmony. Nature Methods, 16(12), 1289-1296. doi:10.1038/s41592-019-0619-0

Lopez, R., Regier, J., Cole, M. B., Jordan, M. I., & Yosef, N. (2018). Deep generative modeling for single-cell transcriptomics. Nature Methods, 15(12), 1053-1058. doi:10.1038/s41592-018-0229-2

BICCN (Brain Initiative Cell Census Network). (2021). A multimodal cell census and atlas of the mammalian primary motor cortex. Nature, 598(7879), 86-102. doi:10.1038/s41586-021-03950-0

주요 용어 안내

드롭렛(droplet): 미세유체역학 칩에서 오일로 감싸 만드는 지름 약 100 마이크로미터의 기름방울. 각 방울 안에 세포 하나와 바코드 비드 하나가 들어가 개별 세포의 RNA를 분리된 공간에서 처리할 수 있게 한다.

세포 바코드(cell barcode)와 UMI(unique molecular identifier): 세포 바코드는 각 세포를 구분하는 고유 서열이고, UMI는 같은 세포 안에서 동일한 mRNA 분자를 중복 측정하는 오류를 제거하기 위한 고유 서열이다.

UMAP: 수만 개의 유전자 발현 정보를 가진 세포를 2차원 지도 위의 점으로 표현하는 시각화 방법. 가까운 점들은 유전자 발현이 유사한 세포들이다. 단, 점 사이의 절대적 거리를 그대로 해석하면 안 된다.

배치 효과(batch effect): 서로 다른 날, 다른 실험실에서 수행된 실험 사이에 생기는 기술적 차이. 같은 세포 유형이 실험 조건 차이 때문에 다른 집단처럼 보이는 현상이다.

snRNA-seq(단일 핵 RNA 시퀀싱): 세포 전체가 아니라 핵만 분리하여 시퀀싱하는 방법. 냉동 보존된 사후 뇌 조직에서도 적용할 수 있어 인간 뇌 연구의 표준이 되었다.