안준용 (고려대학교 보건과학대학 바이오시스템의과학부)
초안 작성중 | 2026년 4월 17일
유전체 분석에 AWS 클라우드를 쓰기 시작한 것은 2015년이었다. 그때부터 지금까지 SFARI 재단의 수만 명 규모 유전체 데이터를 분석하는 데 AWS를 활용해 왔고, 최근에는 AI 모델 개발과 바이브 코딩에도 같은 플랫폼을 쓰고 있다. 이 책은 그 10년의 경험을 연구실 신입 대학원생과 학부 연구생에게 체계적으로 넘겨 주기 위해 쓴 교육 자료에서 출발했다. 동시에 임상유전학, 집단유전학, 단일세포 생물학, 공간 전사체학, 생물정보학 교육을 담당하는 유관 분야의 연구자들이 자신의 연구실로 같은 플랫폼을 도입하려 할 때 참고할 수 있는 지침서가 되었으면 하는 바람으로 쓴 책이기도 하다.
유전체 연구에서 클라우드가 필요해진 이유는 단순히 데이터가 커졌기 때문이 아니다. 한 사람의 전장유전체를 읽으면 수백 기가바이트가 쌓이고, 여기에 RNA-seq, single-cell, 공간 전사체, 이미징 오믹스까지 더해지면 연구실은 곧바로 저장 공간 부족이 아니라 데이터 이동, 환경 관리, 재현 가능한 분석 구조의 문제에 부딪힌다. gnomAD가 S3에 자원을 올려 두고, NCBI SRA가 클라우드 안에서 직접 접근을 열어 두는 시대에는 download → analyze가 아니라 bring compute to data가 기본 운영 방식이 되었다. 이 책은 그 전환을 어떻게 연구실의 일상 운영으로 가져올지를 다룬다.
이 책은 AWS 서비스 매뉴얼이 아니다. 유전체 분석을 처음 배우는 학부 고학년과 대학원 초급 연구자가 AWS의 어떤 층이 어떤 문제를 푸는지 구조적으로 이해할 수 있게 쓰려고 했다. 임상유전학이나 집단유전학, 단일세포 전사체학을 연구하지만 클라우드는 처음 접하는 연구자가 자기 연구실의 데이터 운영을 어디서부터 설계해야 할지 감을 잡을 수 있게 쓰려고 했다. 기존에 온프레미스 서버 중심으로 연구해 온 PI가 “우리 연구실도 클라우드로 옮겨야 하는가”라는 질문에 구체적인 선택지를 가지고 답할 수 있게 쓰려고 했다. 기술 용어가 처음 등장할 때마다 풀어서 설명했고, 왜 그 서비스가 그 자리에 있는지 이유를 함께 적었다. 쉽게 쓴다는 것이 부정확하게 쓴다는 뜻이어서는 안 되기 때문이다.
이 책은 4개의 파트로 구성되어 있다.
Part 1은 클라우드와 오믹스 데이터의 기본기를 다룬다. 왜 오믹스 연구가 클라우드를 필요로 하게 되었는지, EC2와 S3와 EBS와 IAM Role이 각각 어떤 문제를 푸는지, gnomAD와 SRA 같은 공용 자원을 어떻게 옮기지 않고 연결해서 쓸지를 설명한다.
Part 2는 AWS에서 오믹스 파이프라인을 운영하는 법을 다룬다. EC2에서 시작하는 실전 분석 환경부터 Ansible, AWS Batch, Lambda를 이용한 자동화, Spot과 Fleet를 이용한 대규모 병렬 작업, EMR과 Hail로 하는 코호트 규모 WGS 분석, 그리고 AWS HealthOmics와 Nextflow 파이프라인까지 이어진다.
Part 3은 데이터 접근과 분석 도구를 다룬다. htslib의 S3 스트리밍, goofys와 s3fs 같은 마운트 도구, SageMaker 기반 오믹스 머신러닝, Zarr와 AnnData와 OME-Zarr와 TileDB-SOMA로 대표되는 클라우드 네이티브 single-cell과 spatial omics, 그리고 AWS에서 Claude와 Kiro로 하는 바이브 코딩을 다룬다.
Part 4는 실제 연구 워크플로우를 다룬다. 시퀀싱 데이터에서 변이 해석까지의 통합 예제, 비용과 보안과 재현성을 함께 설계하는 방법, 한국 연구실을 위한 운영 체크리스트, Bedrock으로 하는 유전체 질의와 변이 해석, 산업계 사례와 데이터 브로커 운영, 그리고 1PB 규모 WGS 운영에서 배우는 비용 누수 지점과 해결 전략을 다룬다.
각 장의 끝에는 해당 장에서 인용한 공식 문서와 논문 목록을 실었다. 관심 있는 독자가 원문을 직접 찾아볼 수 있도록 하기 위함이다.