AI가 많은 일을 도와줄 수 있다면, 우리는 무엇을 배워야 할까요. 이 질문은 대학에 막 들어온 학생에게 꽤 현실적으로 다가옵니다. 이미 ChatGPT는 생물학 개념을 설명하고, 영어 문단이나 강의자료의 어려운 문장을 풀어주고, Python 코드를 써주고, 수행평가 글이나 발표문 초안을 만들어줍니다. 그렇다면 세포생물학을 왜 배워야 할까요. 통계를 왜 배워야 할까요. 코딩은 정말 필요한 걸까요.
이 질문을 너무 쉽게 닫아버리면 안 됩니다. “그래도 기초는 중요하다”라는 말은 맞지만, 그것만으로는 충분하지 않습니다. 학생은 이미 AI가 답을 만들어주는 장면을 보았습니다. 예전과 똑같이 공부하라고 말하기 전에, 무엇이 정말 달라졌는지 정직하게 보아야 합니다. AI는 분명히 공부의 표면을 바꿉니다. 낯선 개념을 처음 만나는 순간의 두려움을 줄이고, 막힌 코드 앞에서 보내는 시간을 줄이며, 논문을 읽기 전 배경지식을 빠르게 잡아줄 수 있습니다.
하지만 바로 그 이유 때문에 기초가 더 중요해지는 순간이 옵니다. LLM의 답변은 매끄럽습니다. 틀린 설명도 매끄럽고, 존재하지 않는 논문 인용도 그럴듯합니다. 잘못된 유전자 기능 설명도 논문 초록처럼 보일 수 있습니다. 생명과 질병을 다루는 공부에서는 이 차이가 작지 않습니다. 틀린 철자 하나가 다른 유전자를 뜻할 수 있고, 부정확한 약물 설명이 위험한 오해로 이어질 수 있으며, 통계 결과를 잘못 읽으면 실험의 결론이 바뀔 수 있습니다.
앞에서 보았듯, 의생명과학에서 AI가 중요한 이유는 ChatGPT가 편리해서만은 아닙니다. 생명과학 자체가 점점 더 큰 데이터의 언어로 말해지고 있기 때문입니다. 여기서는 그 흐름을 한 걸음 더 깊게 들여다보겠습니다. 현미경으로 세포 모양을 보던 일은 이미지 파일이 되고, 실험실에서 얻은 측정값은 표가 되며, 논문 속 결론은 그래프와 통계와 데이터베이스 링크를 지나 우리에게 옵니다. 학생은 처음에 이 흐름을 모두 이해하지 못해도 괜찮습니다. 다만 앞으로 생명현상을 공부할 때 “세포 안에서 무슨 일이 일어났는가”라는 질문이 자주 “어떤 데이터가 그 일을 보여주는가”라는 질문과 함께 온다는 사실은 일찍 알아두는 편이 좋습니다. AI는 이 데이터들을 표현하고, 비교하고, 때로는 다음 실험을 예측하는 도구로 등장합니다.
단일세포 RNA-seq도 그 흐름 안에 있습니다. 이름은 길지만 출발점은 단순합니다. 예전의 유전자 발현 분석은 여러 세포가 섞인 조직을 한꺼번에 보고 평균적인 신호를 얻는 경우가 많았습니다. 반면 단일세포 RNA-seq은 세포 하나하나를 따로 떼어, 각 세포 안에서 어떤 유전자가 얼마나 읽혀 있었는지 살펴보려는 방법입니다. 여기서 “유전자가 발현된다”는 말은 유전자의 정보가 RNA로 읽혀 세포 안에서 실제 작업에 쓰이는 정도를 뜻합니다. 모든 유전자가 모든 세포에서 똑같이 켜져 있지는 않습니다. 간세포와 면역세포는 같은 DNA를 가지고 있어도 다른 유전자들을 더 많이 읽고, 같은 면역세포라도 감염이나 약물 처리 뒤에는 읽히는 유전자의 모습이 달라질 수 있습니다. 그래서 단일세포 데이터는 결국 큰 표가 됩니다. 행에는 세포가 놓이고, 열에는 유전자가 놓이며, 각 칸에는 “이 세포에서 이 유전자가 얼마나 읽혔는가”에 가까운 숫자가 들어갑니다.
| 단계 | 학생이 떠올리면 좋은 그림 |
|---|---|
| 조직이나 배양 세포를 준비한다 | 여러 종류의 세포가 섞인 교실을 떠올립니다. |
| 세포를 하나씩 나누어 본다 | 반 전체 평균만 보지 않고 학생 한 명씩 보는 일과 비슷합니다. |
| 각 세포의 RNA를 읽는다 | 각 학생이 지금 어떤 노트를 펼쳐 읽고 있는지 보는 일에 가깝습니다. |
| 세포 x 유전자 표를 만든다 | 행은 세포, 열은 유전자, 칸은 발현량인 큰 표가 됩니다. |
단일세포 RNA-seq: 세포를 한 덩어리로 평균 내지 않고, 세포 하나하나에서 RNA 정보를 읽는 방법입니다.
전사체: 한 세포나 조직에서 읽혀 나온 RNA들의 전체 모습입니다.
유전자 발현: 유전자의 정보가 RNA로 읽혀 세포 안에서 실제로 쓰이는 정도를 말합니다.
이런 표는 사람의 눈으로 직접 읽기 어렵습니다. 세포가 수만 개, 유전자가 수만 개라면 표의 칸은 너무 많아집니다. 연구자는 이 표를 더 보기 쉬운 그림으로 줄이고, 비슷한 세포끼리 묶고, 각 묶음이 어떤 세포인지 추정하고, 조건 사이의 차이를 봅니다. 여기까지도 이미 많은 계산이 필요합니다. 최근에는 한 걸음 더 나아가, 이런 대규모 생물학 데이터를 바탕으로 기반 모델(foundation model)을 만들려는 흐름도 커지고 있습니다. 이 이름은 지금 낯설어도 됩니다. 여기서는 “아주 많은 자료를 먼저 학습해 여러 과제의 출발점으로 쓰는 큰 모델” 정도로만 이해하면 충분합니다. 언어 모델이 많은 문장을 읽고 단어와 문맥의 반복을 배우듯, 생물학의 큰 모델도 많은 세포와 유전자 자료에서 반복되는 관계를 배우려 합니다.
기반 모델(foundation model): 아주 많은 자료를 먼저 학습해 여러 과제의 출발점으로 쓰는 큰 모델입니다.
이 분야의 규모는 빠르게 커지고 있습니다. 실제 논문을 읽다 보면 여러 모델 이름을 만나게 되겠지만, 1학년 학생이 지금 그 이름을 외울 필요는 없습니다. 모델 이름보다 중요한 것은 질문의 모양입니다. 연구자들은 “많은 세포 자료를 먼저 읽은 모델이 새로운 세포 상태를 더 잘 이해할 수 있을까”, “한 실험에서 배운 관계가 다른 조직이나 다른 질병에서도 통할까”를 묻고 있습니다. 어떤 모델은 세포를 하나의 문장처럼 보고 유전자를 토큰처럼 다루려 하고, 어떤 모델은 유전자 발현량과 유전자 정체성을 함께 넣으며, 어떤 모델은 유전자들 사이의 연결 구조를 활용합니다. 겉으로 보면 LLM과 비슷해 보입니다. 많은 데이터를 읽고, 그 안의 반복되는 관계를 압축해, 새로운 과제에 옮겨 쓰려는 시도이기 때문입니다.
그러나 생물학 데이터는 자연어와 다릅니다. 문장에는 단어 순서가 있습니다. “세포가 신호를 받았다”와 “신호가 세포를 받았다”는 다릅니다. 하지만 단일세포 발현 행렬에서 유전자들은 자연스러운 문장 순서로 놓여 있지 않습니다. 유전자 A가 먼저 오고 유전자 B가 뒤에 온다고 해서 생물학적 시간이 흐르는 것은 아닙니다. 그래서 단일세포 기반 모델에서는 토큰화와 입력 구조가 어렵습니다. 유전자를 어떤 순서로 넣을 것인지, 발현량을 어떻게 표현할 것인지, 세포 유형이나 배치 정보를 어떻게 다룰 것인지가 모델의 성격을 바꿉니다.
이 대목에서 1학년 학생이 모든 기술 세부사항을 이해할 필요는 없습니다. 중요한 것은 생물학 데이터도 모델이 배울 수 있는 패턴을 담고 있지만, 자연어 문장과 같은 방식으로 놓여 있지는 않다는 점입니다. 문장은 앞뒤 순서가 의미를 많이 정하지만, 세포 데이터에서는 실험 조건, 세포 상태, 측정 방법, 샘플의 출처가 함께 의미를 만듭니다. 그래서 모델을 크게 만들었다는 말만으로는 충분하지 않습니다. 어떤 자료를 배웠는지, 그 자료가 어떤 실험에서 왔는지, 모델이 새 조건에서도 잘 작동하는지 물어야 합니다. 의생명과학 학생은 AI 모델을 볼 때도 생물학자의 질문을 잃지 않아야 합니다. 이 모델은 무엇을 실제로 보았는가. 어떤 조건에서는 잘하고, 어떤 조건에서는 흔들리는가. 이 질문이 있어야 큰 숫자에 압도되지 않고 모델을 과학적으로 읽을 수 있습니다.
더 중요한 질문은 따로 있습니다. 모델이 크게 학습했다고 해서 정말 생물학을 이해한 것일까요. 최근 단일세포 기반 모델 분야에서는 스케일이 커지는 흐름과 동시에, 그 스케일이 실제로 가치를 만드는지를 묻는 회의적 평가도 함께 나오고 있습니다. 어떤 모델은 간단한 비교 기준보다 못한 결과를 보이기도 하고, 특정 과제에 맞춘 추가 훈련이 있어야 비로소 성능이 나아지는 경우도 있습니다. 여기서 비교 기준이나 추가 훈련의 세부 방법을 모두 알 필요는 없습니다. 1학년 학생에게 더 중요한 것은 큰 모델이라는 말 앞에서 한 번 멈추는 태도입니다. “얼마나 큰가”보다 “무엇을 잘 설명하고, 어디서 틀리는가”를 물어야 합니다.
비교 기준(baseline): 새 모델이 정말 나은지 비교하기 위해 두는 기본 방법입니다.
미세조정(fine-tuning): 이미 학습된 모델을 특정 과제나 데이터에 맞게 조금 더 훈련하는 일입니다.
AI를 배울 때 우리는 자주 크기와 성능에 압도됩니다. 모델 안의 숫자 몇 억 개, 세포 몇 억 개, 글자 조각 몇 조 개 같은 표현은 놀랍습니다. 그러나 과학에서 중요한 질문은 “큰가”에 머물지 않습니다. 크기가 커졌는데도 새로운 조건에서 일반화하지 못한다면, 우리는 그 모델을 조심스럽게 써야 합니다. 반대로 작아 보이는 모델이라도 특정 실험 조건에서 검증이 잘 되어 있다면 더 유용할 수 있습니다. 생명과학에서 좋은 모델은 숫자로 위압감을 주는 모델이 아니라, 낯선 조건 앞에서도 자신이 어디까지 맞고 어디서 흔들리는지 드러내는 모델입니다.
특히 의생명과학에서 중요한 시험대는 개입 실험(perturbation) 예측입니다. 이 단어는 책에서 여러 번 나오므로 처음에 조금 천천히 잡아두겠습니다. 개입 실험은 어떤 시스템에 일부러 변화를 주고, 그 뒤에 무엇이 달라지는지 보는 일입니다. 라디오에서 베이스 음만 낮추면 노래가 어떻게 달라지는지 듣는 장면을 떠올려도 좋습니다. 노래 전체를 듣는 것만으로는 베이스가 어떤 역할을 하는지 알기 어렵지만, 베이스만 줄여보면 그 빈자리가 드러납니다. 생물학에서는 유전자의 기능을 줄이거나, 약물을 처리하거나, 특정 신호를 막아 세포가 어떻게 반응하는지 봅니다. 유전자를 녹아웃(knock-out)한다는 말은 유전자가 물리적인 스위치처럼 딸깍 꺼진다는 뜻은 아닙니다. CRISPR, RNA 간섭, 약물 처리처럼 여러 방법으로 특정 유전자의 기능을 줄이거나 없애고, 그 결과를 관찰한다는 뜻에 가깝습니다. 방법의 자세한 차이는 뒤에 배워도 됩니다. 지금은 “일부러 한 가지를 바꾸어 반응을 본다”는 정도로 이해하면 충분합니다.
개입 실험(perturbation): 세포나 생물학적 시스템에 일부러 변화를 주어 반응을 보는 일입니다.
녹아웃(knock-out): 특정 유전자의 기능을 없애거나 크게 줄여 어떤 변화가 생기는지 보는 실험 방법입니다.
인과: 두 일이 함께 보이는 수준을 넘어, 한 일이 다른 일을 일으켰다는 관계입니다.
단순히 “이 세포는 어떤 세포 유형인가”를 맞히는 것과 “이 유전자의 기능을 줄이면 세포 상태가 어떻게 달라지는가”를 예측하는 것은 전혀 다릅니다. 앞의 질문은 분류에 가깝고, 뒤의 질문은 인과에 가까워집니다. 생물학이 의학과 치료로 이어지려면 결국 이런 질문을 피할 수 없습니다. 어떤 유전자가 질병과 함께 보인다는 사실만으로는 충분하지 않습니다. 그 유전자를 바꾸면 세포가 달라지는지, 어떤 경로가 움직이는지, 그 변화가 질병의 원인인지 결과인지 물어야 합니다. 상관관계는 출발점이지만, 치료는 개입의 언어를 요구합니다. 세상이 어떻게 생겼는가를 보는 것과, 세상에 손을 대면 무엇이 달라지는가를 묻는 것은 다릅니다.
이 차이를 조금 더 쉽게 말해보겠습니다. 어떤 질병 조직에서 유전자 A와 유전자 B가 함께 높게 발현된다고 합시다. 이것은 관찰입니다. 둘이 같은 세포 유형에서 높아서 그럴 수도 있고, A가 B를 조절해서 그럴 수도 있고, B가 A를 조절해서 그럴 수도 있고, 둘 다 다른 원인 C의 영향을 받았을 수도 있습니다. 공발현 분석은 이런 관계를 보여주는 데 유용하지만, 그 자체로 인과 방향을 말해주지는 않습니다. 반면 개입 실험은 “A를 일부러 바꾸면 B가 어떻게 되는가”를 묻습니다. 이 질문은 훨씬 어렵지만, 생물학적으로 더 결정적인 질문입니다. 그래서 개입 실험 예측은 생물학 모델의 좋은 시험대가 됩니다. 이미 보이는 세포를 분류하는 일은 사진 속 물체 이름을 맞히는 일에 가깝지만, 유전자의 기능을 바꾸었을 때 세포가 어떻게 달라질지 예측하는 일은 아직 찍지 않은 사진의 결과를 말하는 일에 가깝습니다. 모델이 진짜로 유용해지려면, 과거 데이터의 모양을 흉내 내는 데서 그치지 않고 “이 조건을 바꾸면 무엇이 달라질까”라는 질문에 조금씩 답할 수 있어야 합니다.
AI가 바이오 연구에 줄 수 있는 큰 가능성은 바로 여기 있습니다. 모델이 충분히 좋은 표현을 배우고, 충분히 좋은 개입 실험 데이터를 학습하고, 실험적 검증과 연결된다면, 우리는 실제로 모든 실험을 하기 전에 어떤 개입이 유망한지 좁혀볼 수 있습니다. 이것은 실험을 대체한다기보다, 실험의 방향을 정하는 데 도움을 주는 일입니다. 후보를 넓게 훑고, 가능성이 낮은 길을 줄이고, 더 결정적인 검증으로 나아가게 하는 일입니다.
하지만 이 가능성은 데이터 생산 방식과 붙어 있습니다. 모델만 커져서는 안 됩니다. 어떤 질문에 답하려면 그 질문에 맞는 데이터가 필요합니다. 약물 반응을 예측하려면 잘 설계된 약물 개입 실험 데이터가 필요하고, 발달 과정을 예측하려면 시간축과 공간축을 가진 데이터가 필요하며, 질병을 이해하려면 유전 정보와 임상 정보가 통제된 데이터가 필요합니다. 실패한 실험도 구조화된 데이터로 남아야 합니다. 그래야 모델이 성공의 모양만이 아니라 실패의 경계도 배울 수 있습니다.
이 점에서 앞으로의 바이오 연구는 “분석을 잘하는 연구실”을 넘어 “데이터를 잘 생산하는 연구실”의 문제로 이동합니다. 좋은 데이터 생산은 단순히 많이 측정하는 일이 아닙니다. 어떤 조건을 비교할지, 어떤 변수를 통제할지, 어떤 결과를 성공으로 볼지, 어떤 실패를 기록할지 설계하는 일입니다. AI가 더 강해질수록, 데이터는 그냥 모델에 넣는 재료가 아니라 연구 철학의 표현이 됩니다. 무엇을 측정할 것인가가 곧 무엇을 믿을 수 있는가를 결정합니다.
카파시는 교육에 대해서도 비슷한 긴장을 이야기합니다. AI tutor가 있다면 사람은 훨씬 멀리 갈 수 있지만, 좋은 tutor는 단지 답을 주는 존재가 아닙니다. 학생이 어디까지 알고 어디서 막히는지 알아보고, 너무 쉽지도 너무 어렵지도 않은 문제를 건네야 합니다 (링크). 카파시는 교육을 지식으로 올라가는 경사로를 만드는 일이라고도 말합니다 (링크). 지금의 LLM은 이미 훌륭한 학습 도구가 될 수 있지만, 완벽한 tutor라고 부르기에는 아직 부족합니다.
이 말은 오히려 우리에게 좋은 출발점을 줍니다. AI를 완벽한 선생님으로 믿지 말고, 함께 공부하는 보조자로 두는 것입니다. 모르는 개념을 여러 수준으로 설명하게 하고, 어려운 문단을 쉬운 말로 바꾸게 하고, 내 설명의 빈틈을 물어보게 할 수 있습니다. 하지만 마지막에는 내가 다시 읽고, 내가 다시 확인하고, 내가 내 말로 설명할 수 있어야 합니다. 설명하지 못하는 지식은 아직 내 것이 아닙니다.
의생명과학은 본래 여러 층위를 오가는 학문입니다. DNA 염기 하나에서 시작해 단백질, 세포, 조직, 환자, 인구집단, 보건의료 시스템으로 올라갑니다. 여기에 데이터 과학과 AI가 더해지면 층위는 더 많아집니다. 실험실의 관찰이 데이터 파일이 되고, 데이터 파일이 통계 모델을 지나 그림이 되고, 그 그림이 논문의 주장으로 바뀝니다. AI는 이 과정의 여러 지점에 들어올 수 있습니다. 그래서 학생은 생물학도 알아야 하고, 데이터도 알아야 하며, AI의 한계도 알아야 합니다.
우리 학부가 의생명과학을 가르치는 방식도 이 지점과 맞닿아 있습니다. 세포와 분자 수준의 생명현상을 배우는 일은 여전히 기초입니다. 그러나 그 지식은 질병의 예방과 진단, 치료 전략, 바이오헬스 산업, 데이터 기반 의과학으로 이어집니다. 단백질 하나의 기능을 아는 것과 환자군의 데이터를 해석하는 것은 다른 기술처럼 보이지만, 실제 연구에서는 둘이 계속 만납니다. 어떤 유전자가 세포 안에서 무엇을 하는지 이해하지 못하면 큰 데이터에서 나온 후보를 해석하기 어렵고, 데이터를 다룰 줄 모르면 현대 생명과학이 만들어내는 증거를 충분히 읽기 어렵습니다.
이 때문에 1학년 학생에게 필요한 공부는 둘 중 하나를 고르는 일이 아닙니다. “나는 생물학만 할래” 또는 “나는 데이터만 할래”로 나누기에는 연구의 현실이 이미 섞여 있습니다. 면역세포의 분화, 암세포의 약물 저항성, 신경발달의 시간표, 장내미생물과 숙주의 상호작용 같은 질문들은 모두 생물학적 직관과 데이터 해석을 함께 요구합니다. AI는 이 두 세계 사이에 놓이는 번역기처럼 보일 수 있지만, 번역기가 있다고 해서 두 언어를 몰라도 되는 것은 아닙니다. 오히려 번역이 맞는지 확인하려면 두 언어를 어느 정도 읽을 줄 알아야 합니다.
학생에게 남는 또 하나의 질문은 속도와 깊이의 균형입니다. AI는 공부의 속도를 올려줍니다. 모르는 개념을 빠르게 설명받고, 어려운 문단을 몇 단계 난이도로 풀어보고, 코드를 고치고, 발표문 초안을 만들 수 있습니다. 그러나 속도가 빨라질수록 놓치는 것도 생깁니다. 잘 모르는 문장을 대충 이해한 것처럼 지나가고, 모델이 만들어준 설명을 내 생각으로 착각하고, 내가 실제로 무엇을 모르는지 확인하지 않은 채 다음 단계로 넘어갈 수 있습니다. 빠르게 배우는 도구가 생겼기 때문에, 천천히 확인하는 습관도 함께 배워야 합니다.
저는 여기서 대학 교육의 의미가 새롭게 생긴다고 생각합니다. AI가 답을 많이 줄수록 대학은 단순히 정답을 전달하는 곳이기 어려워집니다. 학생이 자기 질문을 만들고, 그 질문을 자료와 연결하고, 자신의 언어로 설명하는 훈련이 더 중요해집니다. 어떤 학생은 암의 면역치료가 궁금할 수 있고, 어떤 학생은 뇌 발달이 궁금할 수 있으며, 어떤 학생은 희귀질환 데이터 분석이 궁금할 수 있습니다. AI는 각각의 길에서 도움을 줄 수 있지만, 어느 길을 걸을지 선택하는 욕구는 학생에게서 나와야 합니다.
이 책은 여러분을 LLM 전문가로 만들려는 책이 아닙니다. 대신 앞으로 계속 만나게 될 질문을 피하지 않게 하려는 책입니다. AI가 답을 잘 만들어줄 때 나는 무엇을 더 배워야 할까. AI가 코드를 대신 써줄 때 나는 코드를 어디까지 이해해야 할까. AI가 자료를 요약해줄 때 나는 원문을 어떻게 확인해야 할까. AI가 연구의 일부를 자동화할 때 사람 연구자의 책임은 어디에 남을까.
이 질문들에 답하려면 결국 원리를 조금 알아야 합니다. 그래서 이제 우리는 기술의 안쪽으로 천천히 들어갑니다. 다만 처음부터 수식과 구조의 이름을 외우기 위해서가 아닙니다. AI와 함께 공부하고 연구하는 사람이 어떤 판단을 해야 하는지 알기 위해서입니다. 원리는 책임 있는 사용을 위한 최소한의 지도입니다.
앞으로의 장들을 읽을 때도 같은 마음을 유지하면 좋겠습니다. 토큰, 매개변수(parameter), 문맥 창(context window), 강화학습(reinforcement learning) 같은 말은 처음에는 낯설고 딱딱하게 느껴질 수 있습니다. 그러나 이 단어들은 시험에 쓰기 위한 용어가 아니라, 모델의 답을 더 잘 읽기 위한 손잡이입니다. 토큰을 알면 왜 모델이 글자 세기에서 실수하는지 보이고, 문맥 창을 알면 왜 자료를 함께 주어야 하는지 보이며, 환각(hallucination)을 알면 왜 출처 확인이 필요한지 보입니다. 그러면 기술 설명은 더 이상 공학 전공자만의 이야기가 아닙니다. 의생명과학 학생이 논문을 읽고 데이터를 다루고 AI와 대화할 때 매일 만나는 판단의 언어가 됩니다. 이 책의 목표도 바로 그 정도의 이해입니다. 모든 수식을 증명하지 않아도 괜찮습니다. 대신 모델이 무엇을 잘하고, 무엇을 흐릿하게 말하며, 어느 지점에서 사람이 다시 확인해야 하는지를 알아차릴 수 있어야 합니다. 그 알아차림이 AI 시대의 첫 번째 연구 윤리입니다.
작은 실습
같은 주제를 세 가지 방식으로 물어보십시오. 첫째, “단일세포 RNA-seq을 설명해줘.” 둘째, “단일세포 RNA-seq을 고등학교 생명과학을 마친 학생에게, 조직 평균과 비교해서 설명해줘.” 셋째, “단일세포 RNA-seq이 질병 연구에서 왜 유용한지 설명하되, 아직 확실히 말할 수 없는 한계도 함께 적어줘.” 세 답변에서 설명의 범위, 조심스러움, 생물학적 예시가 어떻게 달라지는지 한 문단으로 적어보면, 프롬프트가 단순한 질문문이 아니라 생각의 틀이라는 사실이 보이기 시작합니다.