ChatGPT를 처음 쓸 때 우리는 대개 질문과 답변의 형식으로 생각합니다. 내가 묻고, 모델이 답합니다. 이것만으로도 충분히 놀랍습니다. 낯선 개념을 설명해달라고 하면 곧바로 문단이 나오고, 영어 문단이나 짧은 초록을 붙여넣으면 한국어 요약이 만들어지고, 오류 메시지를 보여주면 가능한 원인을 짚어줍니다. 그러나 에이전트(agent)라는 말이 등장하면 장면이 조금 달라집니다. 에이전트는 단순히 답을 말하는 데서 멈추지 않고, 어떤 목표를 향해 여러 단계를 수행하려는 시스템을 가리킵니다. 파일을 읽고, 코드를 고치고, 실행하고, 오류를 보고, 다시 수정하고, 결과를 정리하는 식입니다.
에이전트: 사용자의 목표를 받아 여러 단계를 이어서 수행하려는 AI 시스템입니다.
코드 실행: 말로만 답하는 것이 아니라 실제 프로그램을 돌려 결과를 확인하는 일입니다.
오류 메시지: 컴퓨터가 "여기서 문제가 생겼다"고 알려주는 짧은 보고서입니다.
학생의 입장에서 이 차이는 처음에는 잘 보이지 않을 수 있습니다. 둘 다 화면 속에서 대화하니까요. 하지만 실제 작업을 맡겨보면 금방 다릅니다. 질문형 AI는 “이 오류는 아마 이런 이유일 수 있습니다”라고 말합니다. 에이전트는 저장소를 열고, 파일을 찾고, 코드를 고치고, 테스트를 돌리고, 실패하면 다시 수정합니다. 물론 항상 잘하는 것은 아닙니다. 대화에서 실행으로 넘어가는 순간, 우리는 AI를 단순한 설명자에서 작업자로 보기 시작합니다.
조금 더 구체적으로 말해봅시다. 일반 챗봇에게 “이 표를 분석하려면 어떻게 해야 해?”라고 물으면, 챗봇은 결측값을 확인하고, 그룹별 평균을 내고, 그래프를 그리라는 절차를 설명할 수 있습니다. 에이전트에게 같은 일을 맡기면, 한 번의 지시 안에서 파일을 열고, 열 이름을 확인하고, 결측값 개수를 계산하고, 그래프 코드를 만들고, 실행하다가 오류가 나면 다시 고치려 할 수 있습니다. 학생이 매번 직접 “파일 열기 → 코드 쓰기 → 오류 보기 → 수정하기 → 결과 정리하기”를 반복하던 일을, 에이전트는 하나의 작업 흐름으로 이어가려 합니다. 이 차이가 에이전트형 작업 흐름의 출발점입니다. 물론 이어간다는 말이 곧 믿어도 된다는 뜻은 아닙니다. 오히려 여러 단계를 이어가므로, 중간에 무엇을 잘못 읽었는지 사람이 더 잘 볼 수 있어야 합니다.
카파시는 에이전트를 아직 완성된 직원이라기보다, 함께 일할 수는 있지만 계속 감독해야 하는 초기 형태의 동료에 가깝게 설명합니다. 그는 “에이전트의 해”라는 표현보다 “에이전트의 10년”이라는 표현이 더 맞다고 말합니다 (링크). 이미 Claude Code나 Codex 같은 도구는 인상적입니다. 둘 다 프로그래머가 저장소 안에서 코드 작성과 수정, 실행을 맡길 수 있는 대표적인 코드 작성 보조 에이전트입니다. 하지만 사람을 그대로 대체하기에는 아직 부족한 것이 많습니다. 기억은 제한적이고, 멀티모달 이해는 완전하지 않으며, 긴 작업을 안정적으로 이어가는 능력도 아직 거칠습니다.
이 신중함은 중요합니다. AI를 둘러싼 말들은 자주 너무 빨리 달려갑니다. 곧 모든 연구자가 필요 없어질 것처럼 말하기도 하고, 반대로 아무것도 믿을 수 없는 장난감처럼 말하기도 합니다. 실제 경험은 그 사이에 있습니다. 에이전트는 놀라울 만큼 많은 일을 해낼 수 있지만, 동시에 아주 기본적인 지시를 오해할 수 있습니다. 긴 코드를 고치다가 핵심 가정을 바꾸어버릴 수도 있고, 멋진 분석을 만든 뒤 실제 파일 이름을 잘못 읽었을 수도 있습니다.
그렇다면 에이전트와 함께 일한다는 것은 어떤 모습일까요. 카파시는 한 줄의 코드나 함수 하나를 넘어서 더 큰 단위의 행동을 생각합니다. 이 기능을 구현해보라, 이 오류를 조사하라, 이 결과를 비교하라, 이 실험을 여러 조건으로 돌려보라 같은 식의 큰 작업 단위입니다 (링크). 사람은 모든 줄을 직접 쓰는 대신, 여러 에이전트에게 서로 다른 일을 맡기고, 각 결과를 검토하고, 충돌을 조정하고, 최종 판단을 내립니다.
의생명 연구에서도 비슷한 상상을 해볼 수 있습니다. 한 에이전트는 논문 목록을 정리하고, 다른 에이전트는 공개 데이터셋의 메타데이터를 읽고, 또 다른 에이전트는 분석 코드를 초안으로 만들 수 있습니다. 사람 연구자는 각 에이전트의 결과를 모아 질문을 다시 좁히고, 생물학적으로 말이 되는지 확인하고, 통계적으로 타당한지 검토합니다. 여기서 중요한 것은 에이전트가 연구자를 대신한다는 말이 아닙니다. 연구자의 일이 손작업에서 설계와 감독으로 조금씩 이동한다는 말입니다.
카파시가 AutoResearch를 이야기할 때도 같은 선이 보입니다. 목표와 지표와 경계를 정해두고, 에이전트가 여러 실험을 반복하며 개선을 찾도록 하는 흐름입니다 (링크). 연구자가 매번 다음 실험 버튼을 누르는 대신, 실험의 틀을 정하고 에이전트가 그 안에서 많은 시도를 하게 합니다. 이것은 연구를 완전히 자동화한다는 거창한 선언이라기보다, 반복 가능한 부분과 사람이 판단해야 하는 부분을 새로 나누는 일에 가깝습니다.
AutoResearch: 연구의 일부 과정을 에이전트가 반복적으로 시도하고 비교하게 만드는 흐름입니다.
지표: 결과가 좋아졌는지 나빠졌는지 판단하기 위해 미리 정해두는 숫자나 기준입니다.
경계: 에이전트가 해도 되는 일과 하면 안 되는 일을 나누어 둔 선입니다.
소프트웨어에서는 이 변화가 비교적 빨리 일어납니다. 이유는 단순합니다. 실행과 판정의 루프가 짧기 때문입니다. 코드를 고치면 곧바로 테스트를 돌릴 수 있습니다. 웹페이지가 깨졌는지 눈으로 볼 수 있습니다. 함수가 원하는 값을 반환하는지 확인할 수 있습니다. 틀리면 다시 고치면 됩니다. 물론 소프트웨어도 어렵지만, 적어도 많은 경우에는 성공과 실패를 빠르게 확인할 수 있습니다.
생물학 연구는 다릅니다. 실험은 느리고 비쌉니다. 세포를 키우는 데 시간이 걸리고, 샘플 준비에는 숙련된 손놀림이 필요하며, 실험이 실패해도 실패의 원인이 항상 명확하지 않습니다. 측정값은 잡음을 품고 있고, 판정 기준은 흐릴 때가 많습니다. 어떤 유전자를 건드렸을 때 세포 상태가 달라졌다고 해도, 그것이 진짜 인과적 변화인지, 배치 효과인지, 세포 조성의 변화인지, 분석 파이프라인의 산물인지 구분해야 합니다. 그래서 소프트웨어에서 가능한 에이전트 루프가 생물학에서는 쉽게 닫히지 않습니다.
배치 효과: 실제 생물학 차이가 아니라 실험 날짜, 장비, 시약 차이 때문에 생기는 차이입니다.
파이프라인: 데이터를 넣으면 여러 분석 단계를 지나 결과가 나오도록 이어 둔 절차입니다.
인과적 변화: 단순히 함께 보이는 것이 아니라, 한 변화가 다른 변화를 일으켰다는 뜻입니다.
이 차이를 이해하면 AI가 바이오 연구에 들어오는 방식도 더 차분하게 볼 수 있습니다. 에이전트가 논문을 찾고, 코드를 쓰고, 표를 만들고, 후보 유전자를 정리하는 일은 빠르게 좋아질 것입니다. 그러나 세포를 실제로 배양하고, 개입 실험(perturbation)을 하고, 표현형을 측정하고, 그 결과가 생물학적으로 무엇을 뜻하는지 판단하는 일은 훨씬 느리게 바뀝니다. 그러므로 생물학에서 에이전트의 능력을 이야기할 때는 항상 루프를 보아야 합니다. 어디까지는 디지털 루프 안에서 빠르게 반복할 수 있고, 어디서부터는 실험실의 시간과 몸을 통과해야 하는지 나누어 보아야 합니다.
개입 실험(perturbation): 세포나 시스템에 일부러 변화를 주어 반응을 보는 일입니다.
표현형: 유전자나 환경의 영향이 실제 세포, 조직, 몸의 모습이나 기능으로 드러난 결과입니다.
assay: 어떤 반응이나 상태를 측정하기 위해 정해 둔 실험 방법입니다.
디지털 루프: 컴퓨터 안에서 빠르게 반복할 수 있는 분석과 검토의 순환입니다.
학생에게는 이 구분이 아주 중요합니다. AI가 논문 열 편을 요약해주었다고 해서 문헌 조사가 끝난 것은 아닙니다. AI가 표를 정리하고 그래프를 만들어주었다고 해서 분석이 끝난 것도 아닙니다. AI가 그럴듯한 설명을 제안했다고 해서 생물학적 결론이 생긴 것도 아닙니다. 각각의 단계에는 확인해야 할 것이 있습니다. 논문 요약에는 원문 확인이 필요하고, 표와 그래프에는 입력 파일과 비교 기준 확인이 필요하며, 생물학적 설명에는 독립적인 근거와 반대 가능성에 대한 검토가 필요합니다.
여기서 에이전트와 함께 일하는 능력은 “많이 시키는 능력”과 다릅니다. 오히려 무엇을 시키지 말아야 하는지 아는 능력에 가깝습니다. 원본 데이터를 수정하지 말라고 잠그는 일, 환자 개인정보가 포함된 파일을 외부 도구에 넣지 않도록 막는 일, 발견용 분석과 확인용 분석을 분리하는 일, 여러 번 시도한 분석 경로를 출처와 절차 기록으로 남기는 일, 성공 기준과 실패 기준을 미리 정하는 일이 중요합니다. 빨리 돌리는 것보다 먼저 해야 할 일은 경계를 정하는 것입니다.
왜 이렇게 조심해야 할까요. 에이전트는 편향도 자동화할 수 있기 때문입니다. 예전에도 사람은 자신이 원하는 결과가 나올 때까지 비교 대상을 바꾸거나, 특정 값을 빼거나, 그래프 모양을 여러 번 바꿔볼 수 있었습니다. 문제는 에이전트가 이런 일을 훨씬 더 빠르게, 더 많이 해볼 수 있다는 데 있습니다. 잘못된 목표를 주면 에이전트는 그 목표를 향해 열심히 움직입니다. “진짜 차이가 있는지 확인해줘”가 아니라 “내가 기대한 결과가 잘 보이게 만들어줘”라는 식의 목표가 들어가면, AI는 확인편향을 생산성으로 포장할 수 있습니다.
그래서 에이전트 시대의 연구자에게 필요한 것은 분석 능력의 총량만이 아닙니다. 증거를 다루는 규율입니다. 질문을 미리 적어두는 습관, 어떤 비교를 할지 정하는 습관, 어떤 결과가 나오면 내 가설을 버릴지 생각하는 습관, 여러 분석 경로를 숨기지 않고 남기는 습관, 마지막에는 독립 데이터나 다른 실험으로 확인하는 습관이 필요합니다. AI가 많이 도와줄수록 이런 규율은 더 중요해집니다.
의생명과학에서 앞으로 먼저 달라질 연구는 아마 루프 안으로 잘 들어오는 연구일 것입니다. 표준화 가능한 개입 실험이 있고, 측정 가능한 표현형이 있고, 자동화 가능한 분석법(assay)이 있고, 결과를 비교할 수 있는 지표가 있는 분야는 에이전트와 모델의 도움을 빨리 받을 수 있습니다. 반대로 판정이 모호하고, 샘플 준비의 암묵지가 크고, 실패가 데이터로 남지 않는 분야는 훨씬 천천히 움직일 것입니다. 이 차이는 연구 주제의 중요성과 별개입니다. 중요한 문제라도 루프로 번역하기 어렵다면 AI의 도움을 받는 속도가 느릴 수 있습니다.
이때 “루프”라는 말은 단순한 자동화를 뜻하지 않습니다. 가설을 세우고, 실험이나 분석을 수행하고, 결과를 측정하고, 그 측정이 다음 가설로 돌아가는 구조를 뜻합니다. 좋은 에이전트형 작업 흐름(agentic workflow)은 이 순환을 분명하게 만듭니다. 어디서 시작했고, 무엇을 바꾸었고, 어떤 결과를 얻었고, 왜 다음 단계로 넘어갔는지 남깁니다. 연구 노트와 데이터 관리가 귀찮은 행정 업무가 아니라, 에이전트와 함께 일하기 위한 기반이 되는 이유도 여기에 있습니다.
에이전트형 작업 흐름(agentic workflow): 에이전트가 읽기, 실행, 수정, 보고 같은 단계를 이어가도록 짠 작업 흐름입니다.
연구 노트: 무엇을 했고 무엇을 보았는지 나중에 되짚을 수 있게 남기는 기록입니다.
이 점은 1학년 학생에게도 멀리 있는 이야기가 아닙니다. 여러분이 처음 쓰는 작은 분석 노트북도 하나의 루프가 될 수 있습니다. 데이터를 불러오고, 이상한 값을 발견하고, 왜 그런지 찾아보고, 결측값 처리 기준을 정하고, 다시 그림을 그리는 과정이 그렇습니다. 처음에는 단순한 과제처럼 보이지만, 사실은 연구의 축소판입니다. 에이전트가 옆에 있으면 이 루프는 더 빨리 돌 수 있습니다. 그러나 빨리 도는 루프가 좋은 루프라는 뜻은 아닙니다. 무엇을 바꾸었는지 기록하지 않으면, 좋은 결과가 나와도 왜 나왔는지 알 수 없습니다.
이런 기록 습관은 처음에는 지나치게 엄격해 보일 수 있습니다. 과제 하나 하는데 왜 원본 파일을 따로 두고, 어떤 명령을 했는지 적고, 결과가 어디에 저장되었는지 남겨야 할까요. 그러나 작은 과제에서 배운 습관은 나중에 큰 연구를 만났을 때 학생을 지켜줍니다. 파일 이름이 비슷한 두 표를 헷갈리지 않는 일, 어제 그린 그림과 오늘 그린 그림이 왜 다른지 설명할 수 있는 일, 에이전트가 어떤 중간 결과를 보고 다음 단계로 넘어갔는지 되짚을 수 있는 일은 모두 기록에서 나옵니다. 연구에서 좋은 기억력은 머릿속에만 있지 않습니다. 좋은 폴더 구조, 읽을 수 있는 노트, 되돌릴 수 있는 코드, 그리고 왜 그 선택을 했는지 적어둔 짧은 문장에서 생깁니다. AI와 함께 일할수록 이런 기록은 더 중요해집니다. 에이전트는 많은 일을 빠르게 만들어내지만, 사람이 그 흔적을 붙잡아두지 않으면 결과만 남고 과정은 사라집니다.
그래서 에이전트와 함께 일할 때는 부탁의 문장보다 기록의 구조가 더 중요해질 때가 많습니다. “다시 해봐”라는 말만 반복하면, 에이전트는 여러 시도를 하겠지만 나중에 어떤 시도가 왜 버려졌는지 알 수 없습니다. 반대로 “이번에는 빈칸 처리 기준만 바꾸고, 나머지는 그대로 둔 뒤 결과 차이를 표로 남겨줘”라고 말하면 작업의 흔적이 남습니다. “이전 결과와 다른 점을 세 문장으로 적어줘”라고 요구하면, 다음 판단을 위한 메모가 생깁니다. 이런 작은 습관이 쌓이면 에이전트는 단순한 작업자가 아니라 연구 노트의 일부가 됩니다.
생물학의 루프가 어려운 이유는 실패가 자주 말없이 사라지기 때문이기도 합니다. 배양이 잘 안 된 세포, 품질이 낮은 라이브러리, 기대한 marker가 보이지 않은 figure, 논문에는 들어가지 못한 조건들이 연구실 어딘가에서 흩어집니다. 그러나 AI가 학습하고 에이전트가 다음 실험을 제안하려면 실패도 데이터가 되어야 합니다. 무엇을 시도했고, 왜 안 되었고, 어느 지점까지는 괜찮았는지 남아야 다음 루프가 배울 수 있습니다. 성공한 그림만 남기는 연구 문화에서는 에이전트가 배울 수 있는 세계가 좁아집니다.
이 말은 연구가 기계처럼 차갑게 바뀐다는 뜻이 아닙니다. 오히려 반대입니다. 생물학 연구에는 여전히 사람의 판단이 깊게 들어갑니다. 세포 상태가 이상해 보이는지 알아차리는 눈, 논문 결과가 너무 깔끔할 때 드는 의심, 통계적으로는 작지만 생물학적으로 중요한 신호를 알아보는 눈은 쉽게 자동화되지 않습니다. 다만 그 판단이 혼자 머릿속에만 남아 있으면 에이전트와 나눌 수 없습니다. 앞으로의 연구자는 자신의 암묵지를 조금씩 말과 기록으로 바깥에 꺼내는 사람이어야 합니다.
카파시가 말하는 에이전트 시대는 결국 인간의 역할을 더 높은 곳으로 옮깁니다. 그러나 높은 곳으로 옮긴다는 말은 편한 자리로 간다는 뜻이 아닙니다. 더 많은 판단을 해야 한다는 뜻입니다. 에이전트가 작업의 속도를 높이면, 사람은 작업의 방향과 의미를 더 깊이 책임져야 합니다. 좋은 학생은 에이전트가 만들어준 결과를 그대로 제출하는 사람이 아니라, 에이전트가 어디까지 잘했고 어디서 위험해졌는지 설명할 수 있는 사람입니다.
그래서 에이전트를 공부한다는 것은 최신 유행을 따라가는 일이 아닙니다. 앞으로의 공부와 연구 환경에서 자신이 어떤 역할을 맡게 될지 미리 생각하는 일입니다. 사람은 더 이상 모든 일을 혼자 손으로 하는 존재가 아닐 수 있습니다. 그러나 무엇이 중요한지 알아보고, 무엇이 틀렸는지 감지하고, 왜 그 결과를 믿을 수 있는지 설명하는 책임은 여전히 사람에게 남습니다. 의생명과학 학생에게 이 책임은 작지 않습니다. 우리가 다루는 것은 코드의 성공 여부만이 아니라, 생명현상과 질병에 대한 주장일 때가 많기 때문입니다.
처음 에이전트를 쓰는 학생은 대개 두 가지 실수를 번갈아 합니다. 하나는 너무 적게 맡기는 것입니다. 모델에게 단어 뜻만 묻고, 실제로는 혼자 모든 일을 하다가 금세 지칩니다. 다른 하나는 너무 많이 맡기는 것입니다. 데이터 파일을 던져주고 “분석해줘”라고 말한 뒤, 결과가 그럴듯하면 그대로 믿습니다. 좋은 사용법은 그 사이에 있습니다. 에이전트에게 반복적이고 명시적인 작업은 맡기되, 질문의 방향과 검토 기준은 사람이 붙잡아야 합니다. 예를 들어 문헌 목록을 정리하게 할 수는 있지만, 어떤 논문을 정말 읽어야 하는지는 연구 질문에 비추어 판단해야 합니다. 코드를 작성하게 할 수는 있지만, 그 코드가 어떤 열을 읽고 어떤 행을 버렸는지는 확인해야 합니다. 그림을 만들게 할 수는 있지만, 그림이 보여주는 차이가 생물학적으로 의미 있는지는 따로 생각해야 합니다. 이 균형을 배우는 일이 앞으로의 연구 훈련에서 중요한 자리를 차지하게 될 것입니다.
에이전트와 함께 일하는 시대에는 실패를 다루는 방식도 달라집니다. 사람이 혼자 작업할 때는 실패가 자기 머릿속에 남는 경우가 많습니다. 어떤 분석을 해봤는데 잘 안 되었고, 어떤 조건을 바꿨더니 이상한 그림이 나왔고, 어떤 논문을 읽어보니 처음 생각이 틀렸다는 사실이 조용히 지나갑니다. 그러나 에이전트와 함께 일할 때는 이 실패들을 기록으로 남길 수 있습니다. “이 접근은 왜 버렸는가”, “이 결과가 왜 믿기 어려운가”, “다음 시도에서는 무엇을 바꿀 것인가”를 문장으로 남기면, 에이전트는 다음 작업에서 그 기록을 읽을 수 있습니다. 사람도 자신의 시행착오를 더 잘 돌아볼 수 있습니다. 연구의 속도는 성공한 작업만으로 빨라지지 않습니다. 실패가 다음 판단에 연결될 때 빨라집니다. AI는 그 연결을 돕는 도구가 될 수 있지만, 실패를 정직하게 기록하려는 태도는 사람에게서 시작됩니다.
1학년 학생에게 이 말은 아직 멀게 느껴질 수 있습니다. 하지만 작은 과제에서도 실패를 기록하는 습관은 바로 시작할 수 있습니다. 그래프가 이상하게 나왔을 때 그냥 지우고 새로 만들지 말고, 왜 이상했는지 한 줄로 남겨보십시오. 파일 이름을 잘못 골랐는지, 열 이름을 착각했는지, 비교할 두 그룹을 잘못 나누었는지 적어두면 다음번 실수가 줄어듭니다. AI가 도와주는 시대의 실력은 실패가 없는 사람이 되는 것이 아니라, 실패를 다음 질문으로 바꾸는 사람이 되는 데서 자랍니다.