서문. 다른 공부의 입구에 서서

대학에 들어오기 전에도 여러분은 이미 ChatGPT를 써보았을지 모릅니다. 어려운 영어 문장을 풀어달라고 했거나, 수행평가 글을 어떻게 시작하면 좋을지 물어보았거나, 생물학 용어를 쉬운 말로 설명해달라고 했을 수 있습니다. 답변이 너무 빨리 나오면 마음이 놓이기도 하지만, 동시에 이상한 불안도 생깁니다. 이 설명을 어디까지 믿어도 될까요. 과제를 빨리 끝내는 데는 도움이 되는데, 정말 내가 이해한 것일까요. 이 책은 바로 그 불안에서 출발합니다. 의생명과학을 공부하다 보면 세포, 유전자, 단백질, 질병 기전처럼 오래전부터 생명과학을 이루어온 말들과 함께, 강의자료실에 올라온 슬라이드, 실습용 표, 낯선 그래프, 간단한 Python 예제 같은 새 물건도 만나게 됩니다. 지금 이 단어와 도구를 모두 알고 있어야 한다는 뜻은 아닙니다. Python은 과학 데이터와 표를 다룰 때 자주 쓰는 프로그래밍 언어이고, RNA-seq은 세포나 조직 안에서 어떤 유전자가 얼마나 읽히는지 살펴보는 실험 방법이며, single-cell atlas는 세포 하나하나의 정보를 모아 만든 큰 지도에 가깝다는 정도만 붙잡아도 충분합니다. 처음에는 생물학과 인공지능이 따로 있는 것처럼 보입니다. 그러나 수업 자료와 실습 파일을 따라가다 보면 둘은 이미 같은 화면에 놓입니다. 슬라이드에는 유전자 이름이 나오고, 엑셀 파일에는 측정값이 있고, 검색창에는 모르는 용어가 입력되며, 옆에는 ChatGPT의 대화창이 열립니다. 이 책은 바로 그 화면 앞에 처음 앉는 학생들을 위해 쓴 글입니다.

저는 이 책을 고려대학교 보건과학대학 바이오시스템의과학부 1학년 세미나에서 지도 학생들과 함께 읽기 위해 준비하고 있습니다. 그러니 이 책의 첫 독자는 의생명과학을 막 배우기 시작한 대학 1학년입니다. 옆 학과 자연계열 학생이나 의생명 분야를 꿈꾸는 고등학생도 많은 장을 따라올 수 있지만, 본문에는 앞으로 연구와 논문에서 실제로 만나게 될 전문 용어가 남아 있습니다. 낯선 단어가 나온다고 해서 그 자리에서 모두 외우려 하지 않아도 됩니다. 중요한 말은 처음 등장할 때 풀어 쓰고, 당장 몰라도 되는 이름은 그렇게 말해둘 것입니다. 우리 학부가 가르치는 의생명과학은 한 층위에 머물지 않습니다. 세포와 분자 수준에서 생명현상을 분석적으로 이해하는 일에서 출발하지만, 그 지식은 질병의 예방과 진단, 치료 전략, 바이오마커 발굴, 바이오헬스 산업으로 이어집니다. 유전학, 분자세포생물학, 면역학, 종양학, 신경과학, 마이크로바이옴, 줄기세포 같은 분야는 서로 떨어져 있지 않습니다. 현대의 의생명 연구에서는 이 분야들이 데이터와 모델을 사이에 두고 계속 만납니다. 그래서 이제 의생명과학 학생에게 데이터 과학과 인공지능은 부가적인 기술을 넘어, 생명현상을 읽는 또 하나의 언어가 되고 있습니다.

이 책을 꼭 한 가지 속도로만 읽을 필요는 없습니다. 고등학생 독자라면 1부와 8장, 12장을 먼저 읽어도 좋습니다. AI가 왜 단순한 검색창이 아닌지, 왜 매끄러운 답변을 그대로 믿으면 안 되는지, 수행평가와 탐구 활동에서 어떤 습관을 가져야 하는지 먼저 잡을 수 있기 때문입니다. 의생명과학을 전공하는 1학년이라면 3장, 9장, 12장에서 앞으로 논문과 데이터와 AI가 어떻게 연결되는지 조금 더 오래 머물러도 좋습니다. 비전공 1학년 독자라면 낯선 유전자 이름이나 실험 용어 앞에서 너무 오래 멈추지 않아도 됩니다. 그 이름들은 예시의 옷을 입고 있을 뿐이고, 더 중요한 질문은 “AI가 무엇을 보고 답했는가”, “이 답은 어디서 확인할 수 있는가”, “나는 이 설명을 내 말로 다시 할 수 있는가”입니다. 책을 읽다가 모르는 단어를 만났을 때 곧바로 포기하지 말고, 그 단어가 지금 반드시 필요한 개념인지, 아니면 뒤에서 다시 만나도 되는 이름인지 먼저 가늠해보십시오. 대학 공부는 모든 것을 한 번에 이해하는 일이 아니라, 여러 번 돌아오며 점점 더 선명하게 보는 일에 가깝습니다.

이 말이 곧 모든 학생이 컴퓨터공학자가 되어야 한다는 뜻은 아닙니다. 의생명과학 학생에게 더 중요한 것은 생물학의 질문과 데이터·AI의 절차를 번갈아 놓고 확인하는 일입니다. 수업에서 받은 작은 표 하나도 그냥 숫자의 모음이 아닙니다. 어떤 조건에서 측정했는지, 단위가 무엇인지, 빠진 값은 없는지, 서로 비교해도 되는 값인지 먼저 보아야 합니다. ChatGPT의 답변도 마찬가지입니다. 그것은 사람 연구자가 직접 근거를 확인해 쓴 문장이 아니라, 모델이 학습한 패턴과 현재 주어진 자료를 바탕으로 생성한 문장입니다. 데이터와 AI를 무조건 의심하자는 말이 아닙니다. 오히려 잘 쓰기 위해서입니다. 실험 결과를 해석하려면 실험의 조건을 알아야 하듯, LLM의 답변을 해석하려면 모델이 어떤 방식으로 배웠고 어떤 조건에서 답하고 있는지 알아야 합니다. 이 책에서 LLM의 원리를 배우려는 이유도 바로 여기에 있습니다. 원리는 시험을 위한 지식이 아니라, 강력한 도구를 책임 있게 쓰기 위한 최소한의 지도입니다.

이 책의 가장 중요한 출발점은 안드레이 카파시의 공개 강의 Deep Dive into LLMs like ChatGPT입니다 (링크). 카파시는 딥러닝과 컴퓨터 비전 분야에서 널리 알려진 연구자이자 교육자입니다. Stanford에서 박사과정 동안 CS231n, 곧 컴퓨터 비전을 위한 딥러닝 강의를 설계하고 가르쳤고, OpenAI의 창립 멤버로 연구했으며, Tesla에서는 Autopilot 컴퓨터 비전 팀을 이끌었습니다 (링크). 그러나 이 책에서 카파시가 중요한 이유는 단지 이력 때문만은 아닙니다. 그는 복잡한 AI 시스템을 설명할 때 독자를 수식의 숲으로 바로 밀어 넣지 않습니다. 먼저 무엇이 실제로 일어나고 있는지, 우리가 화면에서 보는 답변 뒤에 어떤 과정이 숨어 있는지, 왜 그 과정이 때로는 놀랍고 때로는 위험한지를 차례로 보여줍니다. LLM을 처음 배우는 학생에게는 바로 그런 설명의 태도가 필요합니다. 그래서 이 책은 카파시의 강의와 인터뷰를 중요한 자료로 삼되, 의생명과학 1학년 학생이 읽을 수 있는 한국어 산문으로 다시 옮겨오려 합니다.

이 책은 LLM을 처음부터 만드는 법을 가르치는 책도 아니고, 최신 모델의 성능표를 줄 세우는 책도 아니며, 특정 회사의 도구를 홍보하는 책도 아닙니다. 목표는 더 작고, 그래서 더 실제적입니다. ChatGPT를 이미 쓰고 있거나 곧 쓰게 될 의생명과학 학생이, 이 도구를 단순한 검색창이나 과제 지름길로 오해하지 않고 자신의 공부와 연구의 조건 안에서 읽을 수 있게 돕는 것입니다. 1부에서는 생명과학을 배우는 작업대가 데이터와 AI, 에이전트로 어떻게 바뀌는지에서 출발해, 코딩이 의도 표현과 감독의 문제로 넓어지는 변화를 봅니다. 2부에서는 텍스트가 토큰과 확률이 되어 모델 안으로 들어가는 과정을 천천히 따라갑니다. 3부에서는 왜 모델이 자연스럽게 틀릴 수 있는지, 왜 자료와 도구가 필요한지 살펴봅니다. 4부에서는 생각하는 모델과 에이전트를 실제 공부와 연구 보조에 쓸 때 어떤 기준을 가져야 하는지로 돌아옵니다. 길은 기술 안쪽으로 들어가지만, 목적지는 언제나 학생의 판단입니다.

카파시가 최근 인터뷰에서 말하는 변화 중 특히 중요한 것은, AI를 단순히 더 똑똑한 검색창으로 보지 않는다는 점입니다. 그는 이제 “code”라는 동사 자체가 예전만큼 정확하지 않을 수 있다고 말합니다. 사람이 하루 종일 코드를 직접 치기보다, 자신이 만들고 싶은 것을 자연어로 설명하고, 여러 에이전트(agent)가 그 의도를 받아 작업하며, 사람은 결과를 검토하고 방향을 다시 잡는 일이 커지고 있기 때문입니다 (링크). 어떤 사람들은 이 흐름을 vibe coding이라고 부릅니다. 직접 문법을 한 줄씩 치기보다 원하는 결과를 말하고, AI가 만든 코드나 화면의 초안을 보며 다시 지시하는 작업 방식이라는 뜻입니다. 카파시는 의도 구현(manifesting)이라는 표현도 씁니다. 유행어처럼 들릴 수 있지만, 이름보다 중요한 변화는 작업의 중심이 문법에서 의도로, 손끝의 구현에서 결과의 설계와 감독으로 조금씩 이동하고 있다는 사실입니다. 예전에는 파일을 읽는 첫 줄의 코드에서 막혀 질문까지 가지 못하는 학생이 많았습니다. 이제는 AI가 그 문턱의 일부를 낮춰줄 수 있습니다. 그러면 학생은 더 빨리 “나는 이 데이터에서 무엇을 보고 싶은가”라는 질문 앞에 서게 됩니다.

그렇다고 공부가 사라지는 것은 아닙니다. 오히려 공부의 책임이 다른 곳으로 이동합니다. AI가 논문을 요약해준다고 해서 논문 읽기가 끝나는 것은 아닙니다. AI가 코드를 만들어준다고 해서 분석을 이해한 것도 아닙니다. AI가 그럴듯한 질병 기전 설명을 써준다고 해서 그 설명이 실제 근거를 가진 것도 아닙니다. 도구가 강력해질수록, 사용자는 그 도구가 무엇을 잘하고 무엇을 못하는지 더 정확히 알아야 합니다. 의생명과학에서는 이 문제가 더 무겁습니다. 우리가 다루는 것은 단순한 문장이 아니라 유전자 이름, 변이 표기, 환자 정보, 질병 설명, 통계적 결론일 때가 많습니다. 자연스러운 문장과 믿을 만한 문장은 다릅니다. AI가 말을 잘할수록, 학생은 더 차분하게 확인하는 습관을 가져야 합니다.

이 책이 처음부터 Transformer 구조나 attention 수식으로 들어가지 않는 이유도 여기에 있습니다. 물론 그 원리들은 중요합니다. LLM은 문장을 통째로 읽는 것이 아니라 토큰(token)이라고 부르는 작은 글자 조각으로 나누어 읽고, 지금까지의 조각들을 바탕으로 다음 조각이 무엇일지 예측합니다. 그 예측이 반복되면서 우리가 보는 답변이 만들어집니다. Transformer는 요즘 LLM의 뼈대가 되는 신경망 구조이고, attention은 그 구조 안에서 문장의 어떤 부분을 더 참고할지 계산하는 장치입니다. 그러나 갓 고등학교를 졸업한 학생에게 처음 필요한 질문은 “attention의 수식은 무엇인가”보다 “앞으로 나는 AI와 어떤 방식으로 공부하고 연구하게 될 것인가”일 수 있습니다. 그래서 이 책은 먼저 패러다임의 변화를 붙잡습니다. 생명과학을 배우는 작업대가 강의자료와 실습 파일에서 데이터, 코드, 에이전트로 넓어지고, 그 안에서 코딩이 의도 표현과 감독의 문제로 바뀌는 흐름을 먼저 살펴봅니다. 여기서 에이전트는 단순히 답만 말하는 챗봇이 아니라, 파일을 읽고 코드를 실행하고 결과를 고치는 여러 단계를 이어가려는 AI 시스템을 뜻합니다. 그다음에야 기술의 안쪽으로 천천히 내려갑니다. 원리를 배우되, 원리를 외우기 위해서가 아니라 AI와 함께 공부하는 사람이 어떤 판단을 해야 하는지 알기 위해서입니다.

수학이 약하다고 느끼는 학생도 이 책을 읽을 수 있기를 바랍니다. 어려운 수식을 모두 피하겠다는 뜻은 아닙니다. 대신 수식이 나오기 전에 그 수식이 왜 필요한지 말과 비유로 먼저 설명하겠다는 뜻입니다. 토큰화는 문장을 모델이 읽을 수 있는 작은 조각으로 바꾸는 과정입니다. 처음에는 긴 문장을 여러 장의 낱말 카드로 나누어 책상 위에 놓는 장면을 떠올리면 됩니다. 사전학습(pre-training)은 모델이 많은 글을 먼저 읽으며 언어와 지식의 배경 패턴을 배우는 단계입니다. 사람이 여러 논문과 교과서를 읽으며 배경지식을 쌓는 일에 비유해볼 수 있습니다. 지도 미세조정(supervised fine-tuning)은 좋은 질문과 답변 예시를 보여주며 어시스턴트다운 말투와 행동을 가르치는 단계입니다. 실험실 선배가 후배에게 좋은 설명의 형식을 보여주는 일과 닮았습니다. 강화학습(reinforcement learning)은 여러 시도를 해본 뒤 좋은 결과로 이어진 행동을 더 자주 하도록 훈련하는 방법입니다. 학생이 연습문제를 풀고 채점하면서 풀이 습관을 조금씩 고치는 일과 비교할 수 있습니다. 이런 비유는 완벽하지 않습니다. 다만 처음 배우는 사람에게는 발판이 필요합니다. 발판 위에 올라선 뒤에야 그 비유가 어디까지 맞고 어디서부터 조심해야 하는지도 보이기 시작합니다.

이 책은 카파시의 설명을 숨은 참고자료로만 두지 않겠습니다. 강의의 흐름이나 특정 예시를 따라가는 곳에는 가능한 한 가까운 자리에 영상 링크를 남깁니다. 다만 본문 안에서 시간표와 인용표기를 길게 늘어놓지는 않겠습니다. 독자의 읽기 흐름을 해치지 않도록 본문에는 짧은 링크만 남기고, 자세한 자료 목록은 마지막 참고와 인용에 모아두었습니다. 이 책은 번역서가 아닙니다. 카파시의 강의와 인터뷰에서 출발하되, 문장과 예시는 우리 수업의 자리로 옮겨옵니다. 강의자료 끝의 참고문헌을 처음 따라가 보는 학생, 유전자 목록을 처음 만지는 학생, Python 오류 앞에서 멈춘 학생, ChatGPT의 매끄러운 답변을 보며 어디까지 믿어야 할지 고민하는 학생을 떠올리며 다시 쓴 글입니다.

저는 이 책의 목표를 LLM 전문가 양성에 두지 않습니다. 이 책을 읽은 학생이 곧바로 모델을 처음부터 훈련하거나 복잡한 논문을 모두 이해하게 되리라 기대하지도 않습니다. 목표는 더 소박하지만 더 중요합니다. AI 도구를 두려워하지 않되, 무작정 믿지도 않는 태도를 배우는 것. 논문 요약을 받을 수는 있지만 원문으로 돌아가 확인해야 한다는 것을 아는 것. 코드 초안을 만들 수는 있지만 실행 결과와 분석 가정을 검토해야 한다는 것을 아는 것. 모델이 그럴듯한 설명을 만들 수 있지만, 생명과 질병에 관한 주장은 반드시 근거와 연결되어야 한다는 것을 아는 것. 이런 기준을 갖춘 학생은 AI를 금지된 지름길이 아니라 공부의 동반자로 사용할 수 있습니다. 그리고 언젠가 연구자가 되었을 때, 더 빠른 도구 앞에서도 더 느리고 정확한 판단을 잃지 않을 수 있습니다.

카파시가 말하는 변화는 사람이 사라진다는 이야기로 좁혀지지 않습니다. 사람이 직접 손으로 하던 많은 일이 모델과 에이전트와 도구로 이동할 때, 사람은 무엇을 더 잘해야 하는가라는 질문이 남습니다. 의도를 분명히 말하는 능력, 좋은 경계를 세우는 능력, 결과를 의심하고 확인하는 능력, 그리고 끝내 자기 말로 설명하는 능력입니다. 앞으로 AI 모델의 이름과 성능은 계속 바뀔 것입니다. 오늘의 ChatGPT가 내일의 표준이 아닐 수 있고, 에이전트의 형태도 빠르게 달라질 것입니다. 그러나 좋은 질문을 세우고, 근거를 확인하며, 책임 있게 판단하는 태도는 쉽게 낡지 않습니다. 이 책은 그 태도를 배우기 위한 작은 입구입니다. 이제 그 입구를 지나, 먼저 무엇이 바뀌고 있는지부터 천천히 살펴보겠습니다.