11장. goofys, s3fs, s3fuse와 S3 마운트 도구

학습 목표

S3를 파일시스템처럼 보이게 하는 도구의 목적을 설명할 수 있다.
goofys, s3fs, s3fuse 계열 도구의 차이와 한계를 이해할 수 있다.
“마운트해서 쓰는 방식”과 “애플리케이션이 직접 S3를 읽는 방식”을 비교할 수 있다.
POSIX 파일시스템과 객체 스토리지의 차이가 왜 워크플로 동작에 영향을 주는지 설명할 수 있다.

핵심 질문

왜 연구자들은 S3를 로컬 디렉터리처럼 보이게 하려 하는가
어떤 상황에서는 편리하지만 어떤 상황에서는 위험한가
생물정보학 도구와 잘 맞는 경우와 잘 맞지 않는 경우는 무엇인가
직접 S3를 읽는 도구가 있는데도 마운트 도구가 계속 쓰이는 이유는 무엇인가

S3는 본질적으로 객체 스토리지다. 즉 전통적인 리눅스 파일시스템처럼 디렉터리, inode, 파일 잠금, 부분 수정, 원자적 rename을 기본 전제로 설계된 저장소가 아니다. 그럼에도 많은 연구자가 S3를 로컬 디렉터리처럼 마운트하고 싶어 하는 배경에는 분석 도구의 상당수가 여전히 POSIX 파일 경로를 중심으로 설계되어 있고, 스크립트와 워크플로도 open("/path/to/file") 패턴을 전제로 한다는 점이 있다. 학생이 처음 클라우드에 올라왔을 때 가장 먼저 느끼는 불편함도 바로 이것이다. “S3에 파일은 있는데, 내 도구는 왜 버킷 URI를 그대로 못 읽는가?”라는 질문은 매우 자연스럽다.

이때 등장하는 것이 FUSE 기반 마운트 도구다. FUSE는 사용자 공간에서 파일시스템 인터페이스를 구현하게 해 주는 계층이다. 다시 말해 커널과 애플리케이션 사이에 번역기를 하나 두고, 애플리케이션은 평범한 파일시스템처럼 보이는 경로를 사용하지만 실제 데이터는 S3 API를 통해 읽고 쓰게 만드는 방식이다. 따라서 마운트 도구의 핵심 가치는 성능보다 호환성에 있다. 애플리케이션을 크게 고치지 않고도 S3 객체를 파일처럼 취급할 수 있게 해 주기 때문이다.

그러나 이 편의성은 오해를 부르기 쉽다. S3를 마운트했다고 해서 S3가 갑자기 POSIX 파일시스템으로 변신하는 것은 아니다. 마운트 도구는 어디까지나 번역 계층이다. 이 번역이 잘 맞는 워크로드에서는 매우 유용하지만, 객체 스토리지와 파일시스템의 의미 차이가 크게 드러나는 워크로드에서는 쉽게 성능 저하나 예상 밖 동작이 발생한다. 따라서 이 장의 출발점은 “마운트는 마법이 아니라 적응 계층”이라는 사실을 이해하는 데 있다.

FUSE 기반 S3 마운트는 실제로 무엇을 번역하는가

전통적인 파일시스템에서 프로그램은 파일을 열고, 임의 위치로 이동하고, 일부 바이트를 덮어쓰고, 임시 파일을 만든 뒤 rename으로 교체하고, 파일 잠금으로 동시 접근을 조정한다. 객체 스토리지에서는 이 모델이 그대로 성립하지 않는다. S3의 기본 단위는 디렉터리가 아니라 객체이고, rename은 보통 “복사 후 삭제”로 흉내 내야 하며, 객체 일부를 수정하는 대신 새 객체를 다시 써야 하는 경우가 많다. 따라서 FUSE 기반 마운트 도구는 단순히 경로 표시만 바꾸는 것이 아니라, 파일시스템 호출을 객체 스토리지 호출로 계속 번역하는 부담을 떠안는다.

이 차이는 메타데이터와 일관성에서도 드러난다. 파일시스템에서는 디렉터리 listing, 파일 크기 확인, 권한 비트, 수정 시간 같은 정보가 운영체제 수준에서 매우 자연스럽게 다뤄진다. 반면 S3에서는 listing이 곧 API 호출이고, 디렉터리는 실제 객체가 아니라 prefix 개념이며, 파일 권한과 잠금 의미론도 그대로 같지 않다. AWS의 Mountpoint for Amazon S3 문서가 “이 도구는 클라우드 네이티브 워크로드를 위해 설계되었으며, 파일 시스템 전체 POSIX 의미론을 제공하지 않는다”고 명시하는 이유가 여기에 있다. 즉 마운트 도구를 쓰는 순간 사용자는 편의성을 얻는 대신, 일부 의미론을 포기하거나 우회하는 구조 위에 올라서게 된다 (AWS 2026a).

학생에게는 이 점을 “S3를 붙이는 일”보다 “호출을 번역하는 일”로 설명하는 편이 훨씬 효과적이다. 그래야 왜 작은 파일이 많은 워크로드에서 요청 수가 폭증할 수 있는지, 왜 rename-heavy 파이프라인이 비효율적일 수 있는지, 왜 SQLite나 lock 파일을 많이 쓰는 소프트웨어가 문제를 일으킬 수 있는지 자연스럽게 이해할 수 있다. 마운트 도구는 접근성을 높여 주지만, 객체 스토리지의 본질을 지워 주지는 않는다.

goofys, s3fs, s3fuse 계열, Mountpoint 비교

현장에서 자주 언급되는 도구는 크게 세 부류로 나눌 수 있다. 첫째, goofys는 높은 처리량과 단순성을 목표로 한 S3 중심 마운트 도구다. 공식 README는 goofys가 close-to-open consistency, 부분 읽기, multipart upload, 디렉터리 이름 rename을 지원하지만, 하드링크나 심볼릭 링크, 임의 위치 쓰기 같은 완전한 POSIX 기능은 지원하지 않는다고 설명한다. 즉 goofys는 S3를 최대한 빠르게 읽고 쓰는 데 초점을 맞춘 대신, 파일시스템 호환성을 일부 포기한 도구라고 이해하면 된다 (goofys 2025).

둘째, s3fs-fuse는 더 오래되고 널리 알려진 범용 계열이다. 커뮤니티에서는 s3fuse라는 표현을 넓게 써서 이런 S3 FUSE 마운터 전반을 가리키는 경우가 많다. 공식 저장소는 s3fs가 FUSE를 통해 S3 버킷을 로컬 파일시스템처럼 마운트하며, 대형 객체용 multipart upload, 서버 측 암호화, IAM Role, requester pays, 커스텀 endpoint 같은 폭넓은 옵션을 제공한다고 설명한다. 즉 호환성과 설정 유연성 면에서는 강점이 있지만, 그만큼 운영자가 이해해야 할 옵션과 성능 trade-off도 늘어난다 (s3fs-fuse 2026).

셋째, Mountpoint for Amazon S3는 AWS가 최근 제시하는 클라우드 네이티브 방향이다. 공식 문서는 Mountpoint가 S3 객체를 파일처럼 접근하게 해 주며, 높은 읽기 처리량과 예측 가능한 성능을 목표로 한다고 설명한다. 동시에 기존 객체는 읽기 전용이고, 새 파일 생성은 가능하지만 임의 수정, 디렉터리 rename, 심볼릭 링크, 파일 잠금 같은 완전한 POSIX 기능은 지원하지 않는다고 명시한다. 즉 Mountpoint는 “S3를 진짜 파일시스템으로 흉내 내는 범용 번역기”라기보다, 읽기 중심 대용량 워크로드에 최적화된 S3 전용 접근 계층에 가깝다 (AWS 2026a; AWS 2026b).

Table 1은 세 부류를 교육용으로 단순 비교한 것이다. 실제 선택에서는 운영체제, 커널 버전, 캐시 정책, 인증 방식, 작업 패턴까지 더 살펴야 하지만, 초급자 단계에서는 무엇을 최적화한 도구인지부터 먼저 읽는 것이 중요하다.

Table 1. 대표적인 S3 마운트 도구 비교

도구	주된 목표	장점	약점 또는 제약	잘 맞는 작업
`goofys`	속도와 단순성 중심 S3 마운트	부분 읽기와 비교적 가벼운 동작	완전한 POSIX 의미론을 제공하지 않음	대형 읽기 중심 데이터 접근, 간단한 파이프라인
`s3fs-fuse` / `s3fuse` 계열	범용 호환성과 옵션 유연성	다양한 인증·암호화·endpoint 지원	설정 복잡도와 성능 변동성이 큼	레거시 도구 연결, 범용 마운트 실험
`Mountpoint for Amazon S3`	고처리량 클라우드 네이티브 읽기	AWS 최적화, 대형 읽기 워크로드에 강함	기존 객체 수정, rename, 잠금 등 제약이 큼	읽기 중심 배치 분석, 공유 reference 자산 접근

편의성 뒤에 있는 성능과 의미론의 함정

마운트 도구가 실전에서 문제를 일으키는 이유는 대개 “느리다”라는 한마디로 설명되지만, 실제로는 더 구조적인 이유가 있다. 첫째, 작은 파일이 매우 많을 때 listing과 stat 호출이 폭증한다. 객체 스토리지에서는 디렉터리 내용을 확인하는 일 자체가 원격 API 요청이므로, 수만 개의 조각 파일을 순식간에 훑는 워크플로는 로컬 파일시스템보다 훨씬 큰 부담을 만들 수 있다. 둘째, rename과 임시 파일 교체가 많은 워크플로는 객체 복사와 삭제를 반복하게 되어 예상보다 느려질 수 있다. 셋째, random write, mmap, lock 파일 같은 동작은 마운트 계층이 가장 버거워하는 패턴이다.

이 문제는 생물정보학에서 특히 자주 드러난다. 많은 도구가 중간 파일을 만들고, 정렬 후 rename하고, 인덱스를 새로 쓰고, lock 파일이나 임시 디렉터리를 적극 사용하기 때문이다. 예를 들어 정렬 중간 파일과 sort shard가 대량으로 발생하는 워크플로는 S3 마운트보다 EBS나 로컬 NVMe scratch가 훨씬 낫다. 반대로 이미 완성된 대형 reference FASTA, annotation bundle, 결과 BAM을 읽기 전용으로 여러 노드가 공유하는 장면에서는 Mountpoint나 goofys가 꽤 실용적일 수 있다. 즉 마운트 도구의 적합성은 “S3를 쓸 수 있느냐”가 아니라 “워크로드가 파일시스템 의미론을 얼마나 강하게 요구하느냐”에 달려 있다.

AWS는 2020년 12월부터 S3의 strong read-after-write consistency를 제공하지만, 이것이 POSIX 파일시스템과 동일하다는 뜻은 아니다. 객체 수준 일관성이 좋아졌다고 해서 rename 비용이 사라지는 것도 아니고, 파일 잠금이 생기는 것도 아니다. 따라서 초보자는 “S3도 이제 강한 일관성이니까 파일시스템처럼 써도 된다”고 오해해서는 안 된다. 강한 일관성은 중요한 개선이지만, 객체 스토리지와 파일시스템의 의미 차이를 지워 주는 마법은 아니다.

htslib의 직접 접근과 비교하면 무엇이 다른가

10장에서 본 htslib의 S3 접근은 애플리케이션이 S3를 직접 이해하는 방식이었다. 이 방식에는 장점이 있다. 도구가 BAM, CRAM, VCF의 구조와 인덱스를 알고 있으므로, 필요한 바이트 범위만 요청하고 파일시스템 의미론을 억지로 흉내 낼 필요가 없다. 반대로 마운트 방식은 애플리케이션이 S3를 모를 때도 기존 경로 인터페이스를 유지할 수 있다는 장점이 있지만, 그 대가로 번역 비용과 의미론 차이를 떠안는다. 따라서 두 방식은 대체 관계가 아니라 서로 다른 문제를 푸는 선택지다.

Table 2는 이 차이를 단순화한 것이다. 학생이 가장 먼저 익혀야 할 원칙은 “S3를 직접 읽을 수 있는 도구라면 직접 읽는 편이 대체로 더 자연스럽다”는 점이다. 마운트는 주로 레거시 호환성과 전환기 편의성을 위해 쓰는 보조 수단으로 보는 편이 정확하다.

Table 2. 직접 S3 접근과 마운트 방식의 비교

질문	애플리케이션 직접 접근	S3 마운트 도구
누가 S3를 이해하는가	애플리케이션 또는 라이브러리	FUSE 번역 계층
부분 읽기 최적화	파일 형식과 인덱스를 알고 최적화하기 쉬움	파일시스템 호출을 S3 요청으로 바꾸므로 비효율 가능
레거시 도구 호환성	도구가 URI를 알아야 함	경로만 있으면 연결 가능
POSIX 기대와의 충돌	적음	높음
권장 장면	BAM/CRAM/VCF 직접 질의, object-native workflow	읽기 중심 reference 공유, 빠른 이식, 제한적 레거시 지원

연구 워크플로우에서의 현실적인 사용 지점

그렇다면 연구 현장에서는 언제 마운트 도구를 써야 할까. 가장 현실적인 답은 “완성된 읽기 중심 자산을 빠르게 연결할 때”다. 예를 들어 대형 reference genome, 알려진 variant resource, annotation bundle, 이미 끝난 결과 BAM과 CRAM을 여러 노드에서 읽기 전용으로 공유하는 장면에서는 마운트 도구가 꽤 유용할 수 있다. AWS HPC 블로그도 2026년 1월 Mountpoint가 Nextflow on AWS Batch 워크플로에서 입력 데이터를 stage하지 않고 바로 읽는 패턴을 소개한다. 즉 모든 입력을 로컬 scratch로 복사하는 오랜 관행을 줄이고 싶을 때, 특히 읽기 위주의 대형 객체에는 마운트 도구가 실용적일 수 있다 (AWS 2026c).

반면 쓰기 중심 작업, 빈번한 rename, 데이터베이스 파일, 임시 파일이 많은 정렬과 정리 단계, 혹은 수많은 작은 파일을 지속적으로 생성하는 파이프라인에는 마운트 도구를 기본 경로로 삼지 않는 편이 안전하다. 이 경우는 S3를 최종 저장소로 두되, 계산 중간 단계는 EBS, instance store, FSx for Lustre 같은 파일시스템 성격이 강한 계층으로 분리하는 편이 더 예측 가능하다. 결국 좋은 설계는 “편해서 마운트한다”가 아니라, 읽기 전용 공유 자산은 S3에 가깝게 두고, 파일시스템 의미론이 강한 중간 계산은 블록 또는 병렬 파일시스템에 둔다는 구분에서 나온다.

goofys, s3fs, s3fuse 계열, Mountpoint는 모두 S3와 기존 파일 중심 소프트웨어 사이의 간극을 메우는 도구다. 하지만 이 간극을 메운다고 해서 두 세계가 그대로 같아지는 것은 아니다. 클라우드 네이티브 분석으로 갈수록 애플리케이션 직접 접근 방식이 더 자연스러워지고, 마운트 도구는 전환기 호환성이나 읽기 중심 자산 공유에 더 적합한 위치로 정리된다. 이 경계를 잡아 두면 편의성과 안정성 사이에서 더 나은 선택을 할 수 있다.

핵심 개념 정리

S3 마운트 도구는 객체 스토리지를 POSIX 파일시스템처럼 그대로 바꾸는 것이 아니라, 호출을 번역하는 계층이다.
goofys는 단순성과 처리량에, s3fs-fuse 계열은 범용 호환성에, Mountpoint는 읽기 중심 클라우드 네이티브 성능에 상대적으로 초점을 둔다.
작은 파일이 많고 rename이나 random write가 많은 워크로드는 S3 마운트와 잘 맞지 않는다.
BAM, CRAM, VCF처럼 애플리케이션이 직접 S3를 이해할 수 있는 경우에는 마운트보다 직접 접근이 대체로 더 자연스럽다.
마운트 도구는 읽기 전용 공유 자산이나 레거시 소프트웨어 연결에 특히 유용하다.

복습 질문

FUSE 기반 S3 마운트 도구를 “번역 계층”이라고 부르는 이유는 무엇인가?
goofys, s3fs-fuse, Mountpoint for Amazon S3는 각각 무엇을 더 중요하게 최적화하는가?
왜 strong consistency가 도입되었다고 해서 S3를 POSIX 파일시스템처럼 다뤄도 된다는 뜻은 아닌가?
유전체 워크플로에서 어떤 단계는 S3 마운트에 적합하고, 어떤 단계는 EBS나 scratch 디스크가 더 적합한가?

References

AWS. 2026a. Mountpoint for Amazon S3.
AWS. 2026b. Mountpoint file system behavior and limitations.
AWS. 2026c. Optimize Nextflow workflows on AWS Batch with Mountpoint for Amazon S3.
goofys. 2025. goofys README.
s3fs-fuse. 2026. s3fs-fuse README.

목차