11장. 강화학습과 추론 모델

예제를 따라 하는 공부 다음

공부에는 여러 종류가 있습니다. 설명을 읽는 공부가 있고, 잘 풀린 예제를 따라 하는 공부가 있습니다. 그러나 그것만으로는 충분하지 않을 때가 많습니다. 결국 스스로 문제를 풀어보아야 합니다. 틀려보고, 다시 풀어보고, 어떤 풀이가 맞는 답으로 이어졌는지 몸에 익혀야 합니다. 카파시는 LLM의 훈련 과정을 학교 공부에 비유합니다. 사전학습(pre-training)은 교과서와 인터넷 문서를 많이 읽으며 배경지식을 쌓는 과정에 가깝고, 지도 미세조정(supervised fine-tuning, SFT)은 잘 쓴 답변 예시를 보고 어시스턴트다운 말투와 행동을 배우는 과정에 가깝습니다. SFT가 모범답안을 베껴 쓰며 답변의 형식을 익히는 공부라면, 강화학습(reinforcement learning, RL)은 직접 문제를 풀어보고 채점 결과에 따라 풀이 습관을 고치는 공부에 가깝습니다. 이름은 어렵지만, 출발점은 익숙합니다. 어떤 시도가 좋은 결과로 이어졌는지 보고, 그런 방향의 행동을 더 자주 하도록 훈련하는 것입니다 (링크).

용어 메모

사전학습(pre-training): 모델이 많은 글을 먼저 읽으며 배경 패턴을 배우는 단계입니다.

지도 미세조정(SFT): 좋은 질문과 답변 예시를 보고 어시스턴트다운 답변 방식을 배우는 단계입니다.

강화학습(RL): 좋은 결과로 이어진 행동을 더 자주 하도록 훈련하는 방법입니다.

강화학습이 SFT와 다른 점은 “정답 풀이를 사람이 모두 써주지 않아도 된다”는 데 있습니다. SFT에서는 사람이 이상적인 답변을 써주고, 모델은 그것을 흉내 냅니다. 하지만 수학 문제나 코드 문제처럼 답이 맞았는지 비교적 명확하게 확인되는 영역에서는, 모델이 여러 풀이를 시도하고 정답에 도달한 경로를 강화할 수 있습니다. 사람 라벨러(labeler)가 모든 풀이를 미리 작성하지 않아도, 최종 답이 맞는지 확인하는 방식으로 학습 신호를 줄 수 있습니다. 이것이 추론 모델(reasoning model)의 중요한 배경입니다. 모델은 단순히 예쁜 답변을 흉내 내는 데서 조금 벗어나, 문제를 풀기 위한 중간 전략을 더 많이 탐색하게 됩니다. 카파시는 DeepSeek R1과 OpenAI의 추론 모델을 예로 들며, 이런 모델들이 더 긴 사고 과정을 사용하도록 훈련된다고 설명합니다 (링크). DeepSeek R1 같은 이름을 지금 외울 필요는 없습니다. 여기서는 2025년 무렵부터 추론과 강화학습을 강하게 내세운 모델들이 등장했고, 그 흐름이 LLM 사용법을 바꾸고 있다는 정도를 붙잡으면 됩니다. 물론 그 내부의 모든 사고 과정(chain of thought)이 사용자에게 그대로 보이는 것은 아닙니다. 우리가 보는 것은 요약된 답변일 수 있지만, 모델 안에서는 더 긴 탐색과 선택이 일어날 수 있습니다.

용어 메모

SFT: supervised fine-tuning의 줄임말입니다. 이 책에서는 지도 미세조정이라고도 부릅니다.

추론 모델(reasoning model): 문제를 바로 답하지 않고 더 긴 풀이와 검토를 사용하도록 훈련된 모델입니다.

사고 과정(chain of thought): 모델의 내부 풀이 과정을 가리키는 말입니다. 사용자가 항상 볼 수 있는 것은 아닙니다.

정답을 확인할 수 있는 문제

이 과정이 잘 작동하려면 평가가 가능해야 합니다. 수학 문제는 답이 맞는지 틀리는지 비교적 분명합니다. 코드도 테스트를 통과하는지 확인할 수 있습니다. 퍼즐이나 형식 논리 문제도 어느 정도 검증할 수 있습니다. 카파시는 이런 영역을 답을 확인할 수 있는 영역(verifiable domain)으로 설명합니다. 답을 확인할 수 있는 문제에서는 모델이 많은 시도를 해보고, 맞는 시도에서 배울 수 있습니다. 반대로 좋은 에세이, 좋은 농담, 좋은 연구 질문, 좋은 생물학적 해석처럼 평가가 애매한 문제는 훨씬 어렵습니다. 어떤 답이 더 좋은지 사람이 판단할 수는 있지만, 그 판단은 하나의 정답처럼 명확하지 않습니다.

RLHF는 이 애매한 영역을 다루기 위해 사람의 선호를 이용합니다. 여러 답변 중 사람이 더 낫다고 고른 쪽을 바탕으로, 어떤 답변이 좋아 보이는지 점수를 주는 점수표 모델(reward model)을 만듭니다. 여기에는 두 번의 간접화가 들어갑니다. 먼저 사람의 복잡한 판단을 “A가 B보다 낫다”는 선호 자료로 줄입니다. 그다음 그 선호를 다시 점수표 모델이 흉내 냅니다. 그래서 모델이 점수표 모델의 점수를 높이는 데만 지나치게 맞춰지면, 실제로 좋은 답이 아니라 점수표 모델이 좋아하는 모양의 답을 만들 수도 있습니다. 예를 들어 정답을 더 정확히 말하기보다, 점수표 모델이 좋아하는 길고 단정한 형식으로 답을 늘이는 식입니다. 이것을 점수 기준 속이기(reward hacking)라고 부르기도 합니다. 학생이 기억할 점은 간단합니다. 정답이 분명한 문제에서의 강화학습과, 사람이 “이 답이 더 좋아 보인다”고 평가하는 RLHF는 같은 이름 아래 있어도 신뢰의 성격이 다릅니다. 그래서 추론 모델의 힘을 보면서도, 그 힘이 어디에서 잘 발휘되고 어디서 흐려지는지 함께 보아야 합니다.

용어 메모

답을 확인할 수 있는 영역(verifiable domain): 답이 맞는지 비교적 분명하게 확인할 수 있는 문제 영역입니다.

RLHF: 사람의 선호를 이용해 모델 답변을 더 낫게 조정하는 훈련 방식입니다.

점수표 모델(reward model): 어떤 답변이 더 좋은지 점수로 흉내 내는 모델입니다.

점수 기준 속이기(reward hacking): 실제 목표보다 점수 기준의 허점을 맞추는 방향으로 행동이 바뀌는 현상입니다.

생물학의 느린 채점

이 구분은 의생명과학에서 매우 중요합니다. 생물학에는 답을 비교적 빨리 확인할 수 있는 부분과 그렇지 않은 부분이 섞여 있습니다. 유전자 리스트의 길이를 세는 일, 샘플 수를 확인하는 일, 코드가 실행되는지 보는 일은 비교적 검증 가능합니다. 시퀀싱 자료를 다룰 때 나오는 alignment rate도 계산 자체는 확인할 수 있는 숫자입니다. 아직 시퀀싱을 배우지 않은 학생은 “읽어낸 DNA나 RNA 조각이 기준 유전체에 얼마나 잘 맞았는지 보는 비율” 정도로만 알고 지나가도 됩니다. 그러나 어떤 pathway가 질병의 원인인지, 어떤 세포 상태 변화가 치료 반응을 설명하는지, 어떤 후보 유전자가 후속 실험의 우선순위가 되어야 하는지는 훨씬 어렵습니다. 최종 답이 바로 확인되지 않기 때문입니다. 실험을 해야 하고, 독립 데이터에서 봐야 하고, 때로는 몇 달 뒤에야 결과가 나옵니다. 그러므로 추론 모델이 생물학 연구에 도움이 되더라도, 수학 문제를 풀 때와 같은 방식으로 모든 것을 맡길 수는 없습니다. 모델은 후보를 만들고, 논리를 정리하고, 가능한 반례를 제안할 수 있습니다. 하지만 생물학적 주장은 실험과 데이터와 문헌 검증을 통과해야 합니다. 답을 확인할 수 있는 영역에서 배운 reasoning이 느리게 검증되는 영역으로 얼마나 잘 옮겨지는지는 아직 조심스럽게 보아야 합니다.

영역 답을 바로 채점할 수 있는가 추론 모델의 현재 강점 의생명과학에서의 사용 기준
수학 문제 네. 정답과 비교할 수 있습니다. 높음 통계 개념을 풀어보는 데 도움을 받되, 실제 계산은 코드로 확인합니다.
코드 작성 네. 테스트와 실행 결과를 볼 수 있습니다. 높음 분석 코드 초안, 오류 원인 탐색, 반복 작업 자동화에 유용합니다.
퍼즐과 형식 논리 대체로 가능합니다. 높음 가설의 논리 구조를 연습하는 데 쓸 수 있습니다.
논문 해석 부분적으로만 가능합니다. 중간 주장, 근거, 한계를 나누는 보조자로 쓰고 원문으로 확인합니다.
질병 기전 추론 느리거나 어렵습니다. 제한적 후보 설명을 넓히는 데 쓰되, 결론은 문헌과 실험으로 검증합니다.
약물 효과 예측 바로 채점하기 어렵습니다. 매우 제한적 임상적 판단이나 치료 결정에 직접 사용해서는 안 됩니다.
용어 메모

alignment rate: 시퀀싱에서 읽어낸 DNA나 RNA 조각이 기준 유전체에 얼마나 잘 맞았는지 나타내는 비율입니다.

pathway: 세포 안에서 여러 분자들이 이어져 신호나 반응을 만드는 길입니다.

강화학습을 학생 공부에 비유하면, 답안지가 있는 연습문제와 답안지가 없는 탐구 과제의 차이도 보입니다. 고등학교 수학 문제를 풀 때는 정답이 있습니다. 틀렸는지 바로 알 수 있고, 풀이를 고칠 수 있습니다. 그러나 “이 논문은 왜 중요한가” 또는 “이 데이터에서 가장 흥미로운 생물학적 질문은 무엇인가”라는 질문에는 하나의 정답지가 없습니다. 좋은 답이 있을 수는 있지만, 그것은 근거와 맥락과 목적에 따라 달라집니다. AI 시대의 공부가 어려운 이유도 여기에 있습니다. 모델은 정답이 있는 문제에서 점점 강해질 것입니다. 그러나 대학에서 중요한 많은 질문은 정답을 찾는 문제라기보다, 질문 자체를 만들고 근거를 세우는 문제입니다. 따라서 학생은 추론 모델을 쓰더라도, 그것을 “최종 판단 기계”가 아니라 “가능한 사고 경로를 넓혀주는 도구”로 보아야 합니다.

이 차이는 대학 공부의 성격을 잘 보여줍니다. 고등학교까지는 정해진 답을 빨리 찾는 훈련이 많았을 수 있습니다. 물론 대학에서도 정확한 지식과 계산은 필요합니다. 그러나 연구에 가까워질수록 더 중요한 질문은 “무엇이 답인가”만이 아니라 “이 질문을 어떻게 물어야 하는가”가 됩니다. 어떤 논문을 읽을지, 어떤 비교가 공정한지, 어떤 결과가 나오면 가설을 바꾸어야 하는지, 어떤 설명이 아직 근거가 부족한지 판단해야 합니다. 추론 모델은 이런 판단의 후보를 많이 만들어줄 수 있습니다. 하지만 후보가 많아질수록 고르는 힘이 더 필요합니다. 학생은 모델이 내놓은 사고 경로를 정답처럼 받아들이기보다, 그 경로가 어떤 근거와 어떤 검증 가능성 위에 있는지 살펴야 합니다. 이것이 추론 모델을 공부 도구로 사용할 때의 출발점입니다.

추론 모델을 어떻게 쓸까

카파시는 thinking model이 흥미로운 이유를, 단순히 인간 labeler를 흉내 내는 수준을 넘어 새로운 문제 풀이 전략이 강화학습 과정에서 생길 수 있기 때문이라고 설명합니다 (링크). 이 점은 정말 흥미롭습니다. 모델이 많은 문제를 풀며 자신만의 전략을 발견할 수 있다면, 어떤 영역에서는 사람이 바로 떠올리지 못한 풀이를 제안할 수도 있습니다. 바둑에서 AlphaGo의 move 37이 사람들에게 충격을 주었던 것처럼, 추론 모델도 언젠가 특정 문제에서 새로운 길을 보여줄 수 있습니다. 2016년 이세돌 9단과의 대국에서 AlphaGo가 둔 37번째 수는 당시 많은 인간 프로기사의 직관에서 벗어난 수였지만, 결과적으로 매우 강력한 수로 평가되었습니다. 그러나 카파시는 동시에 이것이 아직 초기 단계이며, 특히 수학과 코드처럼 검증 가능한 영역에서 먼저 빛난다고 조심스럽게 말합니다. 이 균형이 중요합니다. 새로운 가능성을 열어두되, 모든 분야에서 이미 같은 수준으로 작동한다고 믿지 않는 태도입니다. 과학에서 흥분과 검증은 함께 가야 합니다. AI가 새로운 가설을 만들 수 있다는 가능성은 매력적이지만, 그 가설이 실제 세계를 설명하는지는 따로 확인해야 합니다.

의생명과학 학생이 추론 모델을 사용할 때는 역할을 분명히 정하는 것이 좋습니다. 어려운 논문을 읽을 때 모델에게 “주장의 논리 구조를 단계별로 정리해줘”라고 물을 수 있습니다. 실험 계획을 세울 때 “이 설계에서 통제해야 할 변수를 찾아줘”라고 할 수 있습니다. 데이터 분석을 할 때 “이 결론을 약하게 만드는 대안 설명을 세 가지 제안해줘”라고 할 수 있습니다. 이런 요청은 추론 모델의 장점을 잘 살립니다. 모델은 중간 단계와 반례와 검토 기준을 만들어줄 수 있습니다. 그러나 p-value를 실제로 계산하는 일은 코드로 확인해야 하고, 논문의 핵심 문장은 원문으로 돌아가야 하며, 생물학적 결론은 실험과 독립 데이터로 닫아야 합니다. 추론 모델을 신뢰한다는 말은 아무 검토 없이 믿는다는 뜻이 아닙니다. 더 좋은 검토를 할 수 있도록 모델을 사용하는 것입니다.

결국 강화학습과 추론 모델은 AI가 “말 잘하는 모델”에서 “문제를 더 오래 붙잡는 모델”로 이동하고 있음을 보여줍니다. 이 변화는 앞으로 공부와 연구에 큰 영향을 줄 것입니다. 학생은 모델에게 단순한 요약뿐 아니라, 풀이 계획, 반례, 검증 기준, 코드 실행 전략을 요청하게 될 것입니다. 연구자는 모델에게 후보 가설을 만들게 하고, 가능한 실패 원인을 묻게 하고, 실험 설계의 빈틈을 찾게 할 수 있습니다. 그러나 이 모든 과정에서 사람의 역할은 사라지지 않습니다. 오히려 어떤 문제가 검증 가능한지, 어떤 부분은 아직 판단이 필요한지 구분하는 능력이 더 중요해집니다. 강화학습으로 훈련된 추론 모델은 강력한 도구입니다. 하지만 도구가 강해질수록, 그 도구가 무엇을 잘하고 무엇을 아직 못하는지 아는 사람이 더 필요합니다.

강화학습을 조금 더 직관적으로 느끼려면, 정답을 맞힌 경험이 행동을 바꾸는 장면을 떠올리면 됩니다. 학생이 문제집을 풀 때도 비슷합니다. 처음에는 풀이를 읽고 따라 합니다. 그다음에는 혼자 풀어보고 채점합니다. 틀렸으면 해설을 보고, 다음에는 비슷한 문제에서 다른 방법을 시도합니다. 시간이 지나면 어떤 풀이 습관이 자주 정답으로 이어지는지 몸에 남습니다. 모델의 RL도 물론 사람의 공부와 같지는 않지만, 좋은 결과를 낸 행동을 더 강화한다는 점은 비슷합니다. 중요한 것은 결과를 판단할 수 있는 기준입니다. 채점할 수 없는 문제집으로는 이런 연습을 하기가 어렵습니다. 그래서 추론 모델은 먼저 수학, 코드, 퍼즐처럼 평가가 비교적 명확한 영역에서 빠르게 발전합니다. 학생은 이 사실을 기억해야 합니다. 모델이 어떤 영역에서 강해졌다는 말이 곧 모든 지적 작업에서 같은 방식으로 강해졌다는 뜻은 아닙니다.

생물학의 많은 문제는 답이 늦게 옵니다. 어떤 유전자가 질병의 핵심 원인인지 판단하려면 문헌을 읽고, 데이터를 분석하고, 실험을 설계하고, 세포나 동물 모델에서 검증하고, 때로는 임상 자료까지 보아야 합니다. 모델이 오늘 그럴듯한 가설을 제안할 수는 있지만, 그 가설이 맞는지 확인하는 데는 시간이 걸립니다. 이 지연은 강화학습의 관점에서 큰 어려움입니다. 수학 문제는 바로 채점할 수 있지만, 생물학 가설은 바로 채점하기 어렵습니다. 따라서 AI가 생명과학 연구를 돕는 방식은, 정답을 즉시 내는 모델이라기보다 연구자의 탐색을 넓혀주는 모델에 가까울 가능성이 큽니다. 후보 설명을 만들고, 빠진 대조군을 찾고, 가능한 교란변수(confounder)를 지적하고, 문헌에서 서로 충돌하는 주장들을 모아주는 역할입니다. 이것만으로도 큰 변화입니다. 그러나 최종 판단은 여전히 데이터와 실험의 시간 속에서 이루어집니다. 학생은 AI의 빠른 언어와 생물학의 느린 검증 사이의 속도 차이를 이해해야 합니다.

더 똑똑하게 묻는 학생

추론 모델이 강력해질수록, 사용자에게 필요한 질문도 달라집니다. 예전에는 “이게 뭐야?”라고 물어도 충분히 놀라운 답을 얻을 수 있었습니다. 이제는 “이 주장에 반대되는 설명을 세 가지 만들어줘”, “각 설명을 검증하려면 어떤 데이터가 필요한지 말해줘”, “가장 먼저 실패할 가능성이 큰 가정을 찾아줘”처럼 더 높은 수준의 질문을 던질 수 있습니다. 모델이 더 오래 생각할 수 있다면, 우리는 더 어려운 역할을 맡길 수 있습니다. 하지만 어려운 역할을 맡길수록 평가 기준도 함께 세워야 합니다. 반례를 만들라고 했으면 그 반례가 실제로 가능한지 확인해야 하고, 실험 설계를 제안하게 했으면 비용과 시간과 윤리적 조건을 따져야 합니다. 모델이 만든 계획이 멋있어 보인다고 해서 좋은 계획은 아닙니다. 좋은 계획은 실행 가능하고, 검증 가능하고, 실패했을 때 무엇을 배울 수 있는지 분명해야 합니다. AI가 계획을 잘 만들수록, 사람은 계획을 평가하는 능력을 더 키워야 합니다. 이것이 추론 모델 시대의 역설입니다. 모델이 똑똑해질수록 학생도 더 똑똑하게 물어야 합니다.

카파시는 에이전트와 사람의 감독을 함께 이야기합니다. 모델이 한 번 답하고 끝나는 것이 아니라, 도구를 쓰고, 중간 결과를 보고, 다시 계획을 고치고, 사람에게 확인을 받는 흐름이 중요해집니다 (링크). 추론 모델은 이런 에이전트형 작업 흐름의 두뇌 역할을 일부 맡을 수 있습니다. 예를 들어 문헌 검색 에이전트가 관련 논문을 찾고, 코드 에이전트가 데이터를 정리하고, 추론 모델이 결과의 논리적 빈틈을 점검하고, 사람이 마지막 판단을 내리는 식입니다. 이 그림은 흥미롭지만, 동시에 위험도 있습니다. 여러 에이전트가 서로의 오류를 이어받으면, 겉으로는 정교해 보이는 잘못된 결론이 만들어질 수 있습니다. 그래서 사람의 감독은 형식적인 승인 버튼이 아니라 실제 검토여야 합니다. 어떤 자료를 읽었는지, 어떤 코드가 실행되었는지, 어떤 가정이 들어갔는지 볼 수 있어야 합니다. 에이전트형 작업 흐름은 사람을 빼는 기술이 아니라, 사람이 더 높은 수준에서 감독하도록 만드는 기술이어야 합니다. 그렇지 않으면 빠른 자동화는 빠른 오류 증폭이 될 수 있습니다.

여기서 말하는 강화학습과 추론 모델은 학생에게 겁을 주기 위한 이야기가 아닙니다. 오히려 앞으로 공부가 더 흥미로워질 수 있다는 신호입니다. 이제 학생은 혼자 막막하게 문제 앞에 앉아 있지 않아도 됩니다. 모델에게 풀이의 첫 발판을 요청하고, 다른 접근법을 비교하고, 자신의 설명을 비판하게 할 수 있습니다. 그러나 그 자유는 책임과 함께 옵니다. AI가 제안한 사고 경로를 그대로 따라가는 사람은 쉽게 끌려갑니다. 반대로 AI가 만든 여러 경로를 놓고, 근거와 검증 가능성과 목적에 따라 고르는 사람은 더 넓게 생각할 수 있습니다. 대학에서 배워야 할 능력은 바로 이것입니다. 정답을 빨리 받는 능력이 아니라, 좋은 질문을 만들고, 가능한 답을 비교하고, 확인 가능한 근거로 자기 판단을 세우는 능력입니다. 추론 모델은 그 능력을 대신하지 않습니다. 다만 그 능력을 연습할 수 있는 더 넓은 장을 열어줍니다.

앞으로 추론 모델은 더 강해질 것입니다. 더 긴 문제를 붙잡고, 더 많은 도구를 쓰고, 더 복잡한 계획을 세울 수 있게 될 것입니다. 그러나 그 발전이 우리에게 요구하는 것은 손을 놓는 태도가 아니라, 더 좋은 감독의 태도입니다. 모델이 제안한 풀이를 읽을 수 있어야 하고, 모델이 사용한 자료를 확인할 수 있어야 하며, 모델이 놓친 가정을 물을 수 있어야 합니다. 의생명과학에서는 이 감독이 특히 중요합니다. 잘못된 수학 풀이 하나는 점수를 잃게 할 수 있지만, 잘못된 질병 해석이나 약물 설명은 훨씬 더 큰 오해를 만들 수 있습니다. 그래서 추론 모델을 배우는 일은 기술 감탄으로 끝나지 않습니다. 어떤 질문이 검증 가능한지, 어떤 결론은 아직 기다려야 하는지, 어떤 답은 사람의 판단을 통과해야 하는지 구분하는 훈련으로 이어져야 합니다. AI가 더 오래 생각할수록, 사람도 더 깊게 읽어야 합니다. 그것이 추론 모델 시대의 공부입니다.

1학년 학생에게 이 장의 목표는 강화학습의 수식을 이해하는 것이 아닙니다. 더 중요한 것은 모델이 문제를 더 오래 붙잡을 수 있게 되었을 때, 사용자도 더 좋은 질문을 던질 수 있어야 한다는 점입니다. “답을 알려줘”에서 “이 답이 틀릴 수 있는 지점을 찾아줘”로, “요약해줘”에서 “이 주장을 지탱하는 근거와 약한 부분을 나눠줘”로 질문이 바뀌어야 합니다. 이런 질문을 던질 수 있으면 AI는 정답 자판기가 아니라 사고를 넓히는 도구가 됩니다. 그리고 그 넓어진 사고를 다시 좁혀 근거 있는 판단으로 만드는 일은 여전히 학생의 몫입니다.