서문

이 책은 “클라우드와 AI를 이용해 오믹스 연구를 실제로 어떻게 시작할 것인가”라는 질문에 답하기 위해 구성했다. 독자는 리눅스 명령어와 기본적인 생물정보학 분석 개념은 조금 알고 있지만, AWS는 처음 접하는 수준을 기본 가정으로 한다. 따라서 각 장에서는 서비스 이름을 소개하는 데 그치지 않고, 어떤 문제를 해결하기 위해 그 서비스가 등장했는지부터 설명한다. gnomAD의 공개 S3 데이터, SRA의 클라우드 전송, Hail과 EMR, AWS HealthOmics, SageMaker, 시퀀싱 센터 데이터 공유와 전처리, 대규모 작업 자동화, 재현성 검증, S3 직접 접근 도구, single-cell과 spatial omics의 chunk 기반 접근처럼 실제 오믹스 연구실에서 마주치는 사례를 중심으로 내용을 전개한다. 책의 후반부에서는 Claude와 Kiro를 이용한 코드 생성, 그리고 Bedrock 기반 변이 질의·해석 자동화처럼 AI가 오믹스 워크플로에 들어오는 최신 흐름도 함께 다룬다.

책 전체의 무게중심은 유전체 변이 분석이다. 데이터 크기와 운영 복잡성이 가장 먼저 드러나는 영역이고, 클라우드와 AI가 해결해 온 문제의 원형이 이곳에 있기 때문이다. Part 3 이후로는 single-cell, spatial omics, 이미징 오믹스로 시야를 넓히며, 데이터 모델이 파일에서 chunk 기반 원격 접근으로 바뀌는 흐름, 그리고 생성형 AI가 해석 계층으로 자리 잡는 흐름을 함께 설명한다.

이 책의 독자

  • 클라우드와 AI를 처음 배우는 생명과학, 의생명과학, 생물정보학 전공 학생
  • 로컬 서버 중심으로 분석해 왔지만 클라우드로 확장하고 싶은 오믹스 연구자
  • 공개 유전체·single-cell·spatial 데이터를 AWS에서 직접 다루는 법을 알고 싶은 초급 분석가
  • 연구실에 AI 기반 질의·해석 계층을 어떻게 도입할지 고민하는 PI와 대학원생

읽는 순서

  • 처음 읽는 경우에는 1장부터 4장까지 순서대로 읽으며 클라우드와 오믹스 데이터의 기본 사고방식을 익힌다.
  • 리눅스와 생물정보학 파이프라인에 익숙하다면 5장부터 실전 운영 파트로 넘어가도 된다.
  • single-cell과 spatial omics에 관심이 있다면 13장을 중심으로, AI 활용 흐름에 관심이 있다면 12장, 14, 18을 연달아 읽으면 좋다.
  • 특정 서비스가 필요하다면 EMR, HealthOmics, SageMaker, Bedrock 장을 개별적으로 참고할 수 있다.
  • 책 말미의 용어집(Glossary)은 언제든지 되돌아볼 수 있는 참고 자료로 활용한다.