이 책은 “클라우드와 AI를 이용해 오믹스 연구를 실제로 어떻게 시작할 것인가”라는 질문에 답하기 위해 구성했다. 독자는 리눅스 명령어와 기본적인 생물정보학 분석 개념은 조금 알고 있지만, AWS는 처음 접하는 수준을 기본 가정으로 한다. 따라서 각 장에서는 서비스 이름을 소개하는 데 그치지 않고, 어떤 문제를 해결하기 위해 그 서비스가 등장했는지부터 설명한다. gnomAD의 공개 S3 데이터, SRA의 클라우드 전송, Hail과 EMR, AWS HealthOmics, SageMaker, 시퀀싱 센터 데이터 공유와 전처리, 대규모 작업 자동화, 재현성 검증, S3 직접 접근 도구, single-cell과 spatial omics의 chunk 기반 접근처럼 실제 오믹스 연구실에서 마주치는 사례를 중심으로 내용을 전개한다. 책의 후반부에서는 Claude와 Kiro를 이용한 코드 생성, 그리고 Bedrock 기반 변이 질의·해석 자동화처럼 AI가 오믹스 워크플로에 들어오는 최신 흐름도 함께 다룬다.
책 전체의 무게중심은 유전체 변이 분석이다. 데이터 크기와 운영 복잡성이 가장 먼저 드러나는 영역이고, 클라우드와 AI가 해결해 온 문제의 원형이 이곳에 있기 때문이다. Part 3 이후로는 single-cell, spatial omics, 이미징 오믹스로 시야를 넓히며, 데이터 모델이 파일에서 chunk 기반 원격 접근으로 바뀌는 흐름, 그리고 생성형 AI가 해석 계층으로 자리 잡는 흐름을 함께 설명한다.
| 독자 | 먼저 읽을 장 | 읽은 뒤 할 수 있어야 하는 일 |
|---|---|---|
| AWS를 처음 접하는 학생 | 1-4장, 5장 | EC2, S3, EBS, IAM Role의 역할을 구분하고 작은 분석 환경을 설명한다 |
| 파이프라인을 돌리는 대학원생·포닥 | 5-9장, 16장 | manifest와 parameter file을 남기고, 실패한 작업을 추적 가능한 단위로 다시 실행한다 |
| 공용 데이터를 쓰는 분석가 | 3-4장, 8장, 10장 | gnomAD, SRA, Hail, htslib 접근 방식을 데이터 이동 관점에서 비교한다 |
| single-cell·spatial 연구자 | 10-13장 | 파일 전체 다운로드 방식과 chunk 기반 원격 접근 방식의 차이를 설명한다 |
| AI 활용을 고민하는 연구자 | 12장, 14장, 18장 | AI를 코드 초안, 질의 인터페이스, 보고 보조 계층으로 구분해 배치한다 |
| PI·연구실 운영 담당자 | 15-20장 | 비용, 권한, 문서, 데이터 전달 규칙을 포함한 작은 운영 구조를 설계한다 |
이 책을 처음 읽는 독자는 모든 서비스를 한 번에 실습하려 하기보다, 아래 중 하나를 골라 끝까지 닫아 보는 편이 좋다.
| 프로젝트 | 최소 산출물 | 관련 장 |
|---|---|---|
| 공개 S3 데이터 읽기 | 데이터 위치, 접근 방법, 비용 주의점 메모 | 3-4장 |
| 작은 FASTQ QC 파이프라인 | sample manifest, 실행 로그, 결과 요약표 | 5-7장 |
| cohort variant query | annotation table, Athena query, 결과 TSV | 8장, 15장 |
| AI 코딩 보조 실습 | 요구사항 문서, 생성 코드, 검증 체크리스트 | 14장 |
| 연구실 운영 규칙 초안 | prefix 규칙, 태그 규칙, 예산 알림, runbook | 16-17장 |