이 책에는 영어 약어와 한국어 풀이가 함께 나옵니다. 의생명과학 학생은 앞으로 논문과 도구 설명에서 영어 용어를 계속 만나게 되므로 영어를 완전히 없애지는 않겠습니다. 대신 처음 등장할 때는 가능한 한 한국어 풀이와 영어를 함께 적고, 그 뒤에는 한국어 표기를 주로 쓰겠습니다. 예를 들어 에이전트(agent), 토큰(token), 사전학습(pre-training), 지도 미세조정(supervised fine-tuning)은 첫 등장 뒤에는 에이전트, 토큰, 사전학습, 지도 미세조정으로 씁니다. LLM, RAG, RLHF, SFT처럼 약어 자체로 널리 쓰이는 말은 영어 약어를 유지합니다. Transformer, Common Crawl, FineWeb 같은 고유명사도 영어로 남깁니다. BRCA1, TP53 같은 유전자와 단백질 이름은 표기 자체가 지식의 일부이므로 바꾸지 않습니다.
이 약속은 독자를 영어에서 떼어놓기 위한 것이 아니라, 처음 만나는 용어 앞에서 숨을 고르게 하기 위한 장치입니다. 영어 이름을 알아야 나중에 논문과 도구 문서를 찾을 수 있고, 한국어 풀이가 있어야 그 이름이 지금 무엇을 가리키는지 놓치지 않습니다. 한 용어가 여러 장에서 다시 나와도 매번 길게 정의하지는 않겠습니다. 대신 이 페이지를 돌아올 수 있는 작은 지도처럼 두겠습니다.
용어를 읽을 때도 힘을 나누어 쓰면 좋습니다. 토큰, 문맥 창, 프롬프트처럼 책 전체에서 자주 만나는 말은 처음에 짧은 풀이만 붙잡아도 됩니다. 신경망, attention, embedding, 강화학습처럼 나중에 전공 수업에서 깊게 배울 말은 여기서 완전히 익히려 하기보다 “대략 어떤 역할을 하는 장치인가”를 기억하면 됩니다. Transformer 같은 이름은 분야의 표지판에 가깝습니다. 표지판을 본다고 그 도시 전체를 알아야 하는 것은 아닙니다. 낯선 영어가 많이 보일 때는 지금 붙잡을 말, 나중에 깊게 배울 말, 이름만 알고 지나가도 되는 말을 구분하는 것만으로도 읽기가 한결 가벼워집니다.
문장 안에서 모르는 말이 나오면 세 가지를 물어보십시오. 이 말이 지금 문장을 이해하는 데 꼭 필요한가. 한국어로 바꾸면 어떤 일인가. 나중에 원문이나 검색에서 다시 찾으려면 어떤 영어 이름을 알아두어야 하는가. 이 세 질문은 중학생을 가르치는 선생님에게도, 과학책을 읽는 일반 독자에게도, 다큐멘터리 원고를 쓰는 작가에게도 유용합니다. 모르는 말을 없애는 것이 목표가 아닙니다. 모르는 말 앞에서 멈추고, 뜻과 역할과 확인 방법을 나누어 보는 것이 목표입니다.
| 용어 | 이 책에서의 뜻 |
|---|---|
| LLM | 많은 글을 학습해 다음 토큰을 예측하고 문장을 생성하는 큰 언어 모델입니다. |
| ChatGPT | LLM을 대화창 형태로 만나는 대표적인 서비스입니다. |
| 토큰(token) | 모델이 글을 읽고 쓸 때 사용하는 작은 글자 조각입니다. 단어와 정확히 같지 않습니다. |
| 토큰화(tokenization) | 문장을 토큰의 줄로 바꾸는 과정입니다. |
| 매개변수(parameter) | 모델 안에 저장되어 학습 중 조정되는 수많은 숫자입니다. |
| 문맥(context) | 모델이 지금 답할 때 눈앞에 놓고 참고하는 입력 자료입니다. |
| 문맥 창(context window) | 모델이 한 번에 읽을 수 있는 문맥의 길이와 공간입니다. |
| 프롬프트(prompt) | 사용자가 모델에게 주는 질문, 자료, 지시문입니다. |
| 신경망(neural network) | 많은 작은 계산 단위가 층층이 연결되어 입력을 출력으로 바꾸는 수학적 구조입니다. 생물학적 신경세포와 같지는 않습니다. |
| Transformer | 토큰들 사이의 관계를 attention으로 계산하는 현대 LLM의 대표 구조입니다. |
| attention | 문장 안에서 어떤 토큰을 더 참고할지 계산하는 장치입니다. |
| embedding | 토큰을 여러 숫자의 묶음으로 바꾼 표현입니다. |
| 사전학습(pre-training) | 모델이 많은 글을 먼저 읽으며 언어와 지식의 배경 패턴을 배우는 단계입니다. |
| 베이스 모델(base model) | 질문에 친절히 답하기 전, 글의 흐름을 이어 쓰는 능력을 먼저 배운 모델입니다. |
| 어시스턴트(assistant) | 사용자의 질문에 도움이 되는 답을 하도록 추가 훈련된 모델의 사용 형태입니다. |
| 지도 미세조정(SFT) | 좋은 질문과 답변 예시를 보여주며 어시스턴트다운 행동을 배우게 하는 단계입니다. |
| 강화학습(RL) | 좋은 결과로 이어진 행동을 더 자주 하도록 훈련하는 방법입니다. |
| RLHF | 사람의 선호를 이용해 모델 답변을 더 낫게 조정하는 훈련 방식입니다. |
| 환각(hallucination) | 모델이 사실처럼 보이는 틀린 내용을 만들어내는 현상입니다. 이 책에서는 분야에서 널리 쓰이는 영어도 함께 남깁니다. |
| RAG | 관련 자료를 먼저 찾아 문맥에 넣고, 그 자료를 바탕으로 답하게 하는 방식입니다. |
| 에이전트(agent) | 목표를 받아 파일 읽기, 코드 실행, 수정, 보고 같은 여러 단계를 이어가려는 AI 시스템입니다. |
| 추론 모델(reasoning model) | 어려운 문제를 더 오래 붙잡고 단계적으로 풀도록 훈련된 모델입니다. |
| 도구 사용(tool use) | 검색, 코드 실행, 데이터베이스 조회 같은 외부 기능을 모델과 함께 쓰는 일입니다. |
| 출처 기록(provenance) | 결과가 어떤 자료와 절차에서 나왔는지 남기는 기록입니다. |
| 개입 실험(perturbation) | 세포나 시스템에 일부러 변화를 주어 반응을 보는 일입니다. |
| 비교 기준(baseline) | 새 방법이 정말 나은지 비교하기 위해 두는 기본 방법입니다. |