6장. 인터넷 문서에서 베이스 모델까지

웹의 문서가 훈련 데이터가 되기까지

LLM을 만든다는 말은 처음에는 거창하게 들립니다. 마치 연구자가 지식을 하나하나 입력하고, 규칙을 적고, 질문에 대한 답을 데이터베이스처럼 넣어두는 장면을 떠올리기 쉽습니다. 그러나 카파시가 보여주는 첫 단계는 훨씬 투박하고 거대합니다. 먼저 인터넷에서 공개적으로 접근 가능한 텍스트를 엄청나게 모읍니다. Common Crawl처럼 오랫동안 웹을 수집해 온 자료가 출발점이 될 수 있고, 그 원자료에서 광고, 메뉴, HTML 코드, 스팸, 중복 문서, 개인정보, 품질이 낮은 페이지를 걸러냅니다. 카파시는 FineWeb을 예로 들며, 거대한 인터넷이 실제 훈련 데이터가 되기까지 여러 단계의 필터링과 정제가 필요하다고 설명합니다 (링크). “많이 모으면 된다”가 아닙니다. 무엇을 남기고 무엇을 버리는지가 모델의 성격을 바꿉니다. 의생명과학에서도 원자료가 그대로 지식이 되지 않는 것처럼, LLM에서도 웹 전체가 그대로 모델의 배움이 되지는 않습니다.

용어 메모

Common Crawl: 웹페이지를 오랫동안 대규모로 모아 온 공개 웹 자료 모음입니다.

FineWeb: 웹 자료에서 중복과 낮은 품질의 글을 걸러 훈련에 쓰기 좋게 만든 데이터셋입니다.

HTML: 웹페이지의 구조를 표시하는 언어입니다. 메뉴와 광고 같은 표시도 함께 섞일 수 있습니다.

이 과정을 생물학 데이터로 비유하면 이해하기 쉽습니다. 수업 실험에서 나온 숫자도 바로 결론이 되지는 않습니다. 실험 기록을 다시 보고, 단위를 확인하고, 빈칸이나 이상한 값을 살피고, 같은 조건끼리 묶어보아야 비로소 해석할 수 있는 표가 됩니다. 현미경 사진도 마찬가지입니다. 초점이 맞았는지, 염색이 잘 되었는지, 어떤 조건의 세포를 찍었는지 확인하지 않으면 사진만 보고 결론을 내리기 어렵습니다. 인터넷 문서도 비슷합니다. 웹에는 좋은 설명, 논문 초록, 교과서적 글, 코드 예제가 있지만, 동시에 광고 문구, 복붙 문서, 오류가 많은 글, 악성 사이트, 개인정보가 섞여 있습니다. 모델은 자신이 먹은 데이터의 세계를 닮습니다. 그래서 사전학습 데이터 구축은 단순한 수집이 아니라, 모델이 어떤 문화를 배우고 어떤 문체를 따라 하며 어떤 지식을 자주 기억하게 될지를 정하는 일입니다.

용어 메모

사전학습(pre-training): 모델이 어시스턴트가 되기 전에 많은 글을 읽으며 언어와 지식의 패턴을 배우는 단계입니다.

훈련 데이터: 모델이 배우는 데 사용되는 글, 표, 이미지 같은 자료입니다.

다음 토큰을 맞히는 긴 훈련

텍스트가 정제되면 토큰화 도구를 통해 토큰의 긴 줄로 바뀝니다. 카파시는 FineWeb 같은 데이터가 저장 용량으로는 수십 테라바이트이고, 토큰으로는 수조에서 수십조 개 규모가 될 수 있음을 보여줍니다 (링크). 이 숫자들은 지금 외울 필요가 없습니다. 그냥 “한 학기 강의노트”가 아니라 “도서관 여러 층을 가득 채운 문서”에 가까운 규모라고 생각하면 됩니다. 그다음 모델은 이 긴 토큰열에서 작은 구간을 잘라 다음 토큰을 예측하는 훈련을 반복합니다. 서문에서 말한 비유로 돌아가면, 이것이 모델의 배경지식 쌓기에 해당합니다. 학생이 교과서와 논문을 많이 읽으며 생물학 문장의 흐름을 익히듯, 모델은 수많은 문서의 다음 토큰을 맞히며 언어와 지식의 패턴을 익힙니다. 물론 사람처럼 뜻을 곱씹는 것은 아니지만, 많은 예시를 통해 어떤 표현 뒤에 어떤 말이 이어지는지 배우는 셈입니다. 처음의 신경망은 거의 아무것도 모릅니다. 매개변수가 무작위로 놓여 있기 때문에 출력도 엉망입니다. 그러나 훈련 자료에서는 정답 토큰이 무엇인지 알고 있으므로, 모델의 예측이 그 토큰에 더 가까워지도록 매개변수를 조금씩 조정할 수 있습니다. 이 일이 수많은 토큰과 수많은 수정 단계에서 반복됩니다. 연구자는 loss라는 숫자를 보며 모델이 조금씩 더 나은 예측을 하게 되는지 확인합니다. loss가 내려간다는 것은 모델이 훈련 데이터의 통계적 패턴을 더 잘 맞추고 있다는 뜻입니다.

loss와 매개변수 조정의 연결이 처음에는 비어 있는 것처럼 느껴질 수 있습니다. 지금은 수식을 몰라도 됩니다. 시험에서 답을 맞힌 뒤 채점표를 보고 “어느 부분에서 많이 틀렸는지” 확인하는 장면을 떠올려봅시다. 채점표는 공부한 내용을 직접 고쳐주지는 않지만, 다음에 어디를 고쳐야 할지 방향을 줍니다. 모델의 loss도 그런 신호에 가깝습니다. 예측이 정답에서 많이 빗나가면 loss가 커지고, 훈련 알고리즘은 그 숫자가 조금이라도 작아지는 방향으로 매개변수를 조정합니다. 실제로는 미분과 최적화라는 수학이 들어가지만, 1학년 독자는 우선 “loss는 모델이 얼마나 틀렸는지 알려주는 점수이고, 훈련은 그 점수를 낮추는 방향으로 숫자들을 고치는 반복”이라고 이해해도 충분합니다.

용어 메모

토큰화 도구(tokenizer): 글을 모델이 읽을 수 있는 작은 조각으로 나누는 도구입니다.

테라바이트: 아주 큰 저장 용량 단위입니다. 보통 노트북 저장 공간보다 훨씬 큰 규모를 말할 때 씁니다.

매개변수: 모델 안에 저장되어 학습 중 조정되는 숫자들입니다.

수정 단계(update): 모델의 예측이 조금 더 나아지도록 매개변수를 한 번 고치는 단계입니다.

loss: 예측이 정답 토큰에서 얼마나 빗나갔는지 나타내는 숫자입니다.

여기서 Transformer가 등장합니다. Transformer는 토큰열을 입력으로 받아, 그 안의 토큰들이 서로 어떤 관계를 가지는지 계산하고, 다음 토큰의 확률을 내놓는 신경망 구조입니다. 카파시는 Transformer 내부를 거대한 수학식으로 보라고 설명합니다 (링크). 수많은 매개변수가 있고, 토큰은 embedding으로 바뀌고, attention block과 MLP block을 지나며 여러 중간값이 만들어집니다. block이라는 말은 여기서 복잡한 계산을 묶어 부르는 이름입니다. 지금은 내부 회로를 다 외우지 않아도 됩니다. 더 중요한 것은 오해를 피하는 일입니다. 이때 “neuron”이라는 말을 쓸 수는 있지만, 생물학적 neuron과 같은 것은 아닙니다. 우리 뇌의 neuron은 전기적, 화학적, 시간적 동역학을 가진 매우 복잡한 세포입니다. 축삭, 시냅스, 신경전달물질, 발화 시간 같은 생물학적 요소가 얽혀 있습니다. Transformer 안의 neuron은 그런 세포가 아니라 계산 중간에 생기는 수학적 값에 가깝습니다. 비유는 도움이 되지만, 비유를 그대로 믿으면 오해가 생깁니다. LLM은 생물학적 뇌를 복제한 것이 아니라, 토큰열에서 다음 토큰을 예측하도록 최적화된 거대한 함수에 가깝습니다.

용어 메모

Transformer: 토큰들 사이의 관계를 여러 층에서 계산하는 LLM의 대표 구조입니다.

embedding: 토큰을 계산 가능한 숫자 묶음으로 바꾼 표현입니다.

attention block: 어떤 토큰을 더 참고할지 계산하는 부분입니다.

MLP block: attention 뒤에서 숫자 표현을 한 번 더 바꾸는 계산 부분입니다.

베이스 모델이라는 첫 결과

사전학습이 끝나면 베이스 모델(base model)이 생깁니다. 베이스 모델은 질문에 친절하게 답하는 어시스턴트가 아닙니다. 카파시는 이것을 인터넷 텍스트의 토큰 시뮬레이터라고 부릅니다. 사용자가 어떤 문장을 앞부분(prefix)으로 넣으면, 베이스 모델은 그 뒤에 이어질 법한 인터넷 문서를 생성합니다. 그래서 “2 더하기 2는?”이라고 물었을 때도 반드시 선생님처럼 답하지 않습니다. 질문과 답변 형식의 웹페이지처럼 이어갈 수도 있고, 철학적 문장으로 흘러갈 수도 있으며, 같은 앞부분에서도 매번 다른 이어 쓰기(continuation)를 만들 수 있습니다. 하지만 이 베이스 모델은 이미 엄청난 것을 배웠습니다. 다음 토큰을 맞히는 과정에서 언어의 문법, 사실의 일부, 코드의 패턴, 논문의 문체, 세상의 상식, 사람들이 질문하고 답하는 방식을 매개변수 안에 압축해두었습니다. 카파시는 이 매개변수를 인터넷의 lossy compression, 곧 손실 압축처럼 생각할 수 있다고 말합니다 (링크). 처음 듣는 학생은 손실 압축이라는 말보다, 한 학기 강의를 자기 노트 한 권에 옮겨 적는 장면을 먼저 떠올려도 좋습니다. 노트에는 중요한 흐름과 자주 반복된 설명은 남지만, 교수자의 모든 말과 칠판의 모든 흔적이 그대로 들어가지는 않습니다.

용어 메모

베이스 모델(base model): 질문에 답하도록 길들여지기 전, 글을 이어 쓰는 능력을 먼저 배운 모델입니다.

앞부분(prefix): 모델에게 먼저 주어진 글의 앞부분입니다.

이어 쓰기(continuation): 앞부분 뒤에 모델이 이어 쓰는 글입니다.

손실 압축: 원본을 완벽히 보존하지 않고, 중요한 패턴만 남겨 줄여 담는 방식입니다.

학습 cutoff: 모델 훈련에 들어간 자료가 어느 시점까지였는지를 가리키는 경계입니다.

손실 압축이라는 말은 아주 중요합니다. 베이스 모델은 인터넷의 모든 문장을 정확히 저장한 데이터베이스가 아닙니다. 어떤 내용은 자주 보았기 때문에 꽤 잘 기억하고, 어떤 내용은 흐릿하게만 남아 있으며, 어떤 내용은 아예 모를 수 있습니다. 유명한 유전자나 질병 이름은 많이 등장했기 때문에 안정적으로 설명할 수 있지만, 희귀한 변이나 최근 논문 결과는 부정확할 수 있습니다. 많이 반복된 문서는 때때로 긴 구절을 거의 외워서 말할 수도 있지만, 그것이 모델이 지식을 올바르게 이해했다는 뜻은 아닙니다. 외운다는 것은 이해한다는 것과 다릅니다. 모델이 같은 문장을 정확히 반복할 수 있다고 해서, 그 문장 안의 개념을 새로운 실험 조건이나 낯선 데이터에 바르게 적용할 수 있다는 뜻은 아닙니다. 반대로 드문 사실에 대해서는 그럴듯한 평행우주를 만들어낼 수 있습니다. 카파시가 2024년 선거처럼 학습 cutoff 이후의 일을 베이스 모델에게 이어 쓰게 했을 때, 모델은 가능한 과거 패턴을 섞어 여러 가짜 이어 쓰기를 만들어냅니다 (링크). 이것이 베이스 모델을 이해할 때 가장 조심해야 할 점입니다.

의생명과학 학생에게 베이스 모델의 의미는 이렇게 정리할 수 있습니다. 모델은 많은 텍스트를 읽고, 그 텍스트의 패턴을 매개변수 안에 압축해두었습니다. 그래서 우리에게 배경 설명을 주고, 논문 문체를 흉내 내고, 코드 초안을 만들고, 낯선 개념을 여러 수준으로 풀어줄 수 있습니다. 그러나 그 지식은 도서관 서가의 책처럼 제목과 위치가 정확히 붙어 보관된 것이 아닙니다. 오래전에 읽은 논문을 흐릿하게 기억하는 사람의 머릿속에 더 가깝습니다. 그러므로 베이스 모델에서 어시스턴트(assistant)로 넘어가는 다음 단계가 필요합니다. 우리는 인터넷 문서를 이어 쓰는 모델이 아니라, 질문을 이해하고, 적절히 답하고, 모르면 조심하며, 필요한 경우 도구를 사용하는 어시스턴트를 원합니다. 그 전환이 바로 다음 장의 이야기입니다.

데이터의 그림자와 규모의 부담

데이터를 모으고 거르는 일에는 기술만이 아니라 판단도 들어갑니다. 어떤 언어의 문서가 많이 들어가는지, 어떤 분야의 글이 적게 들어가는지, 어떤 커뮤니티의 표현이 반복되는지에 따라 모델이 쉽게 말하는 세계가 달라집니다. 영어 논문과 개발자 문서는 인터넷에 풍부하므로 모델이 비교적 잘 다룹니다. 반대로 한국어 학부 강의노트, 지역 의료 현장의 기록, 공개되지 않은 실험실 프로토콜, 최신 프리프린트(preprint)의 세부 논쟁은 상대적으로 덜 들어갔을 수 있습니다. 생물학에서도 많이 연구된 유전자와 질병은 설명이 풍부하지만, 연구가 적은 현상은 문헌 자체가 빈약합니다. 모델은 세계를 직접 경험한 것이 아니라 텍스트를 통해 배웠으므로, 텍스트가 많은 곳과 적은 곳의 불균형을 그대로 안고 갑니다. 따라서 베이스 모델의 유창함을 볼 때 우리는 데이터의 그림자도 함께 보아야 합니다. 모델이 잘 말하는 영역은 실제로 더 참인 영역이 아니라, 더 많이 쓰이고 더 많이 반복된 영역일 수 있습니다. 많이 말해지는 것과 잘 검증된 것은 다를 수 있습니다.

사전학습의 규모는 개인이 쉽게 재현할 수 있는 수준을 넘어섭니다. 카파시는 GPT-2와 현대 모델의 차이를 설명하면서, 매개변수 수, 문맥 길이, 훈련 토큰 수, 계산 비용이 어떻게 커졌는지 보여줍니다 (링크). 이런 모델은 한 연구실의 노트북 몇 대로 처음부터 만들기 어렵습니다. 개인 노트북을 며칠 켜둔다고 끝나는 일이 아니라, 수많은 계산 장치를 오랫동안 안정적으로 돌리고, 중간에 장애가 나도 훈련이 이어지도록 관리해야 하는 일입니다. 대규모 그래픽 처리 장치 묶음(GPU cluster), 긴 시간, 잘 관리된 데이터 파이프라인, 훈련 중 장애를 견디는 시스템 운영(engineering)이 필요합니다. 이 단어들도 지금 모두 외우려 하지 않아도 됩니다. 학생이 LLM을 공부한다는 것은 거대한 모델을 직접 사전학습한다는 뜻이 아닙니다. 이미 만들어진 기반 모델(foundation model)의 작동 원리를 이해하고, 그 모델을 어떤 문제에 어떻게 안전하게 적용할지 배우는 것이 더 현실적입니다. 모든 학생이 현미경 렌즈를 직접 만들지는 않지만, 초점이 맞지 않은 사진을 조심해야 한다는 사실은 알아야 합니다. LLM도 마찬가지입니다. 모델을 직접 훈련하지 않더라도, 사전학습이 어떤 데이터를 어떤 목표로 압축하는 과정인지 알아야 답변을 제대로 해석할 수 있습니다.

작은 실습

온라인 tokenizer 도구에 세 문장을 넣어보십시오. “cell differentiation was inhibited”, “세포분화가 억제되었다”, “TP53 변이가 관찰되었다.” 공백 하나를 넣거나 빼고, 유전자 이름을 다른 이름으로 바꾸어보면 토큰 수와 조각이 달라질 수 있습니다. 결과를 보며 “사람이 보는 단어”와 “모델이 보는 조각”이 어디서 달라지는지 표시해보는 것만으로도, 토큰화가 추상적인 용어가 아니라 실제 사용의 조건이라는 점이 분명해집니다.

용어 메모

그래픽 처리 장치 묶음(GPU cluster): 큰 계산을 빠르게 하기 위해 여러 그래픽 처리 장치를 묶어 둔 컴퓨터 묶음입니다.

문맥 길이: 모델이 한 번에 읽을 수 있는 토큰의 길이입니다.

훈련 토큰: 훈련에 실제로 사용된 토큰입니다.

기반 모델(foundation model): 많은 자료를 먼저 학습해 여러 과제의 출발점으로 쓰는 큰 모델입니다.

sequencing: DNA나 RNA의 순서를 읽어 데이터로 만드는 실험 기술입니다.

시스템 운영(engineering): 큰 시스템이 오래 안정적으로 돌아가게 만드는 설계와 운영 작업입니다.

이 생각은 생물학의 AI 모델로도 자연스럽게 이어집니다. 언어 모델이 인터넷 텍스트에서 반복되는 패턴을 배운다면, 생물학 모델은 단백질 서열, 유전체 서열, 현미경 이미지, 여러 실험에서 나온 큰 표에서 반복되는 패턴을 배울 수 있습니다. 여기서도 원리는 비슷합니다. 많은 데이터를 모으고, 품질을 관리하고, 모델이 풀 수 있는 연습문제를 만들고, 그 연습을 반복하게 하며 표현을 학습합니다. 그러면 모델은 특정 실험 하나의 답만 배우는 것이 아니라, 여러 조건에서 자주 나타나는 일반적인 패턴을 포착할 수 있습니다. 물론 텍스트와 생물학 데이터는 같지 않습니다. 생물학 데이터는 실험 조건, 장비, 샘플 상태, 사람의 해석에 강하게 묶여 있습니다. 그래도 “많은 데이터를 보고 일반적인 표현을 배운다”는 흐름은 공통적입니다. 그래서 LLM을 이해하는 일은 앞으로 의생명 데이터 과학을 이해하는 데도 도움이 됩니다. 학생은 언어 모델을 배울 때, 동시에 현대 생명과학이 데이터 기반 모델로 이동하는 큰 흐름을 함께 보게 됩니다.

좋은 데이터에서 좋은 모델로

베이스 모델은 때때로 너무 사람처럼 보입니다. 시를 쓰고, 논문 문체를 흉내 내고, 코드 오류를 고치고, 어려운 개념을 초등학생에게 설명하듯 풀어냅니다. 그래서 우리는 모델 안에 지식의 도서관이 정리되어 있다고 상상하기 쉽습니다. 하지만 손실 압축이라는 관점은 이 상상을 바로잡아줍니다. 모델은 문장과 사실과 양식을 매개변수에 통째로 저장한 것이 아니라, 다음 토큰을 잘 예측하도록 수많은 수치를 조정한 결과입니다. 이 과정에서 어떤 능력은 놀랍게 나타납니다. 문법을 배운 적 없는 것처럼 보이지만 문법을 지키고, 코드를 직접 실행하지 않았어도 코드 패턴을 말하고, 낯선 질문에 대해 관련 개념을 연결합니다. 그러나 이것은 “이해”라는 말을 어디까지 쓸 수 있는지 조심스럽게 묻게 만듭니다. 모델이 어떤 문장을 이어갈 수 있다는 사실과, 그 문장이 가리키는 실험적 세계를 경험했다는 사실은 다릅니다. 생물학자는 이 차이에 민감해야 합니다. 텍스트로 배운 세계와 실험으로 확인한 세계 사이에는 늘 간격이 있습니다.

결국 사전학습은 LLM의 첫 번째 탄생이라고 할 수 있습니다. 인터넷의 거대한 말뭉치가 토큰으로 바뀌고, Transformer가 그 흐름을 예측하고, 매개변수가 조금씩 조정되며, 베이스 모델이라는 이상한 존재가 만들어집니다. 이 존재는 아직 우리에게 친절하지 않을 수 있지만, 이미 수많은 언어와 지식의 흔적을 품고 있습니다. 다음 단계의 후속훈련(post-training)은 이 존재를 대화 가능한 어시스턴트로 길들이는 과정입니다. 그러나 후속훈련을 이해하려면 먼저 베이스 모델의 성격을 알아야 합니다. 어시스턴트의 말투가 아무리 공손해도, 그 안쪽에는 인터넷 텍스트를 압축한 모델이 남아 있기 때문입니다. 그러므로 우리는 LLM을 볼 때 두 얼굴을 함께 보아야 합니다. 하나는 거대한 문서 세계의 시뮬레이터이고, 다른 하나는 사용자를 돕도록 훈련된 대화 상대입니다. 이 두 얼굴을 구분할 수 있을 때, 모델의 유용함과 위험을 함께 이해할 수 있습니다.

이 두 얼굴은 학생이 실제로 답변을 읽을 때 계속 나타납니다. 모델은 인터넷에서 본 생물학 설명의 문체를 잘 따라 하면서도, 어시스턴트로서 사용자의 질문에 맞추어 친절하게 정리합니다. 그래서 답변은 마치 전문가가 학생을 위해 직접 쓴 설명처럼 보입니다. 그러나 그 안에는 베이스 모델의 흔적이 남아 있습니다. 많이 반복된 지식은 안정적으로 나오고, 드문 지식은 흐릿해지며, 오래된 지식이 최신인 것처럼 나타날 수 있습니다. 후속훈련은 이 문제를 줄여주지만 없애지는 않습니다. 그러므로 좋은 사용자는 어시스턴트의 표면과 베이스 모델의 바닥을 함께 봅니다. 공손한 말투에 안심하지 않고, 그 말투 뒤에 어떤 데이터와 훈련 목표가 있는지 기억합니다. 의생명과학에서 이 태도는 특히 중요합니다. 질병, 변이, 약물, 유전자 기능을 다루는 문장은 자연스럽게 보이는 것만으로 충분하지 않습니다.

베이스 모델을 이해하는 일은 AI에 대한 윤리적 질문으로도 이어집니다. 인터넷 문서를 대규모로 모아 학습한다는 것은, 사람들이 쓴 수많은 글과 지식의 흔적이 모델 안에 들어간다는 뜻입니다. 공개 웹에 있었다고 해서 모든 문서가 같은 의미로 사용될 수 있는지, 저작권과 개인정보와 데이터 편향을 어떻게 다루어야 하는지, 특정 언어와 지역의 지식이 덜 반영되면 어떤 문제가 생기는지는 여전히 중요한 논쟁입니다. 이 책이 기술 교과서라고 해서 이런 질문을 완전히 피할 수는 없습니다. 의생명과학도 마찬가지입니다. 공개 데이터라고 해서 아무 맥락 없이 써도 되는 것은 아니고, 환자 데이터는 더 엄격한 보호가 필요합니다. AI 모델은 데이터로 만들어지기 때문에, 데이터의 출처와 사용 조건을 따지는 일이 필요합니다. 학생은 모델을 쓰는 소비자이면서 동시에 앞으로 데이터를 만들고 공유할 연구자가 될 수 있습니다. 그러므로 사전학습을 단순한 기술 단계로만 보지 말고, 어떤 지식이 어떤 방식으로 모델 안에 들어가는지 묻는 출발점으로 삼아야 합니다.

이 질문은 앞으로 학생이 만드는 작은 데이터셋에도 적용됩니다. 수업 과제로 정리한 논문 표, 연구실에서 만든 실험 노트, 공개 데이터에서 내려받은 메타데이터(metadata)도 언젠가는 다른 분석과 모델의 입력이 될 수 있습니다. 그때 데이터가 지저분하면 다음 사람은 잘못된 결론에 가까워집니다. 열 이름이 모호하고, 단위가 빠져 있고, 제외 기준이 기록되지 않고, 실패한 조건이 사라진 데이터는 겉으로는 표처럼 보이지만 지식으로 쓰기 어렵습니다. LLM의 사전학습을 배우는 일은 그래서 거대한 회사의 GPU 이야기에만 머물지 않습니다. 좋은 모델은 좋은 데이터에서 출발하고, 좋은 데이터는 작은 기록 습관에서 출발합니다. 학생이 오늘 파일 이름을 분명히 쓰고, 조건을 남기고, 원본을 보존하는 일도 같은 흐름 안에 있습니다. 거대한 베이스 모델과 작은 연구 노트는 멀어 보이지만, 둘 다 “무엇을 남기고 무엇을 버릴 것인가”라는 질문을 공유합니다. 데이터 과학의 윤리는 바로 그 질문에서 시작됩니다.

이 장을 읽은 뒤 학생이 기억할 것은 모델을 처음부터 만드는 기술적 세부사항이 전부가 아닙니다. 더 중요한 것은 LLM이 “어딘가에서 지식을 꺼내 말하는 상자”가 아니라, 많은 텍스트를 보고 다음 조각을 맞히도록 훈련된 압축 시스템이라는 점입니다. 이 점을 알면 모델의 답변을 더 현실적으로 읽게 됩니다. 유명한 사실을 잘 말한다고 해서 모든 드문 사실도 정확히 말할 것이라고 기대하지 않게 됩니다. 영어 웹에 많은 자료가 있다고 해서 한국어 수업 맥락까지 똑같이 잘 이해할 것이라고 생각하지 않게 됩니다. 생물학에서도 마찬가지입니다. 많이 측정된 현상과 아직 잘 측정되지 않은 현상 사이에는 모델의 언어가 다르게 흔들릴 수 있습니다. 결국 학생에게 필요한 태도는 크고 멋진 모델을 무조건 믿는 것이 아니라, 그 모델이 어떤 자료를 통해 어떤 목표로 배웠는지 묻는 것입니다. 그 질문이 있어야 다음 장에서 어시스턴트의 친절한 말투를 만날 때도, 그 말투 뒤에 있는 베이스 모델의 바닥을 잊지 않을 수 있습니다.

목차

6장. 인터넷 문서에서 베이스 모델까지

웹의 문서가 훈련 데이터가 되기까지

다음 토큰을 맞히는 긴 훈련

베이스 모델이라는 첫 결과

데이터의 그림자와 규모의 부담

좋은 데이터에서 좋은 모델로