Chapter 43. 디지털 진단과 AI의 역할

이 책의 대부분은 자폐스펙트럼장애의 유전적 원인을 밝히는 연구에 초점을 맞추었다. 하지만 과학적 발견이 실제로 환자와 가족에게 도움이 되려면, 발견이 진단과 치료로 이어져야 한다. 수천 명의 환자 유전체를 분석하여 185개의 위험 유전자를 밝혀내는 것도, 이 지식이 실제 아이의 진단 과정에서 활용되지 않는다면 임상적 의미가 크게 줄어든다. 이 장에서는 인공지능(AI)이 자폐의 진단과 유전체 분석을 어떻게 변화시키고 있는지를 살펴본다. AI는 두 가지 서로 다른 방향에서 자폐 진단에 기여하고 있다. 하나는 행동 관찰을 통한 조기 선별이고, 다른 하나는 유전체 데이터를 해석하여 원인을 찾아내는 것이다.

자폐스펙트럼장애의 현재 진단 과정은 시간과 전문 인력이 많이 소요된다. ADOS(Autism Diagnostic Observation Schedule)와 ADI-R(Autism Diagnostic Interview-Revised)이라는 황금 표준 도구는 훈련받은 임상가가 직접 아이를 관찰하고 보호자를 면접하는 과정을 포함하며, 전체 평가에 수 시간이 걸린다. 전문가의 수가 제한적이어서 대기 시간이 수개월에서 수년에 달하는 경우도 흔하다. 이것은 조기 진단과 조기 개입이 중요하다는 합의에 비추어 심각한 문제다. 연구들은 일관되게 조기 행동 중재가 자폐 아동의 언어 발달, 사회적 기능, 적응 행동을 개선한다는 것을 보여주며, 중재가 빨리 시작될수록 효과가 크다는 것도 알려져 있다. 진단의 지연은 중재의 지연으로 이어지고, 그것은 아이에게 실질적인 불이익이 된다. 특히 저소득 지역이나 전문가 접근성이 낮은 지역에서는 이 불평등이 더욱 심각하게 나타난다.

자폐의 조기 징후가 언제부터 나타나는지에 대한 연구들은 중요한 사실을 보여준다. 나중에 자폐 진단을 받게 되는 아이들에게서 6개월 이전부터 관찰 가능한 미묘한 행동 차이가 있다는 것이다. 시선 고정 패턴, 타인의 얼굴에 대한 반응 속도, 자기 이름을 불렸을 때의 반응 등에서 차이가 나타난다. 자폐 형제자매를 가진 아이들(자폐가 발생할 위험이 높은 그룹)을 태어날 때부터 추적한 연구들에서 이런 초기 징후들이 확인되었다. 문제는 이 초기 징후들이 매우 미묘하여 부모나 소아과 의사가 일상적인 방문에서 포착하기 어렵다는 것이다. AI 기반 영상 분석이 이처럼 미묘한 신호들을 정량적으로 측정하고 종합하는 데 도움이 될 수 있다는 기대가 있다. 하지만 현재 시스템은 주로 18개월 이후의 아이들을 대상으로 검증되어 있어, 더 이른 시기로 적용 범위를 넓히기 위한 연구가 진행 중이다.

AI 기반 진단 보조 시스템이 포착하는 것은 무엇인가? 자폐스펙트럼장애의 조기 증상은 사회적 상호작용, 시선 접촉, 몸짓, 표정, 말소리에 대한 반응 등 다양한 행동 신호로 나타난다. 이 신호들은 훈련받은 임상가가 잘 포착할 수 있지만, 짧은 일차 진료 방문에서는 놓치기 쉽다. AI 영상 분석 시스템은 이 행동 신호들을 정량적으로 측정한다. 예를 들어 영상에서 아이의 시선 방향을 프레임별로 추적하여 공동 주의(joint attention, 다른 사람과 같은 대상에 함께 주목하는 능력) 비율을 계산하고, 얼굴 표정 변화의 빈도와 다양성을 분석하며, 사회적 자극(사람의 목소리나 얼굴)과 비사회적 자극(장난감)에 대한 주의 배분을 비교한다. 또한 손 움직임의 반복성, 몸의 흔들림, 특정 자세의 빈도 같은 반복 행동 지표도 측정한다. 이러한 정량적 측정들은 임상가의 주관적 판단을 보완하는 객관적 데이터를 제공한다.

Megerian et al. (2022) 연구는 FDA가 승인한 최초의 자폐 진단 보조 AI 소프트웨어 의료 기기를 평가했다. 이 시스템은 세 가지 구성 요소로 이루어진다. 보호자가 작성하는 설문, 보호자가 촬영한 가정 내 영상의 AI 분석, 그리고 일차 진료 의료인이 작성하는 설문이다. 세 가지 데이터를 통합하여 기계 학습 알고리즘이 자폐 위험을 판정한다. 이 알고리즘은 여러 개의 간단한 판단 규칙을 순차적으로 쌓아 올려 최종 판정을 내리는 방식(gradient boosted decision tree)으로 작동한다. 이 알고리즘은 기존 자폐 진단을 받은 수천 명의 아이 데이터로 훈련되었으며, 어떤 행동 패턴들의 조합이 자폐 진단과 연관되는지를 학습했다. 425명의 18~72개월 아동을 대상으로 한 평가에서, 명확한 판정을 받은 사례(전체의 약 32%)에 대해 민감도 98.4%, 음성 예측도 98.3%를 보였다. 이는 자폐가 있는 아이를 아니라고 판정하는 오류(위음성)가 매우 적다는 뜻으로, 선별 도구로서 특히 중요한 특성이다. 명확한 판정이 나오지 않은 사례(약 68%)는 추가 평가가 필요한 것으로 분류되었는데, 이 “불확정” 그룹의 91%가 실제로 복잡한 신경발달 조건을 가지고 있어서 추가 평가의 필요성이 임상적으로 의미 있었다. 성별, 인종, 소득, 교육 수준에 따른 차이가 관찰되지 않았다는 것도 중요한 결과로, 이 기술이 진단 격차를 줄이는 데 기여할 수 있음을 시사한다.

AI 진단 보조 시스템이 실제로 효과적이려면 다양한 형태의 자폐스펙트럼장애를 균일하게 탐지해야 한다. 자폐는 하나의 동질적인 조건이 아니며, 여성과 남성에서 나타나는 방식이 다를 수 있고, 문화에 따라 행동 표현 방식도 달라질 수 있다. 여성 자폐 아이들은 사회적 상황에서 자신의 어려움을 숨기거나 보완하는 “마스킹(masking)” 경향이 더 강하다는 연구 결과들이 있는데, 이러한 마스킹이 AI 영상 분석에서 어떻게 반영되는지는 아직 충분히 연구되지 않았다. 알고리즘이 남성 자폐 아이들의 행동 패턴에 더 많이 노출되어 훈련되었다면, 여성 자폐 아이들에 대한 민감도가 낮을 수 있다. 이 문제를 해결하기 위해서는 훈련 데이터의 다양성을 높이고, 성별, 연령, 문화적 배경에 따른 검증을 체계적으로 수행하는 것이 필요하다. AI 진단 도구가 격차를 줄이는 도구가 되려면, 먼저 그 도구 자체가 공정하게 작동하는지를 엄격하게 검증해야 한다.

이 기술의 의의는 전문가의 대면 평가를 대체하는 것이 아니라, 일차 의료 현장에서 선별(screening)의 정확도를 높이고 전문가 의뢰까지의 시간을 줄이는 데 있다. 아이를 데리고 전문 센터에 가서 수개월을 기다리는 대신, 동네 소아과에서 설문을 작성하고 가정에서 영상을 촬영하면 며칠 안에 위험 판정을 받을 수 있다면, 조기 진단과 조기 중재의 장벽이 크게 낮아진다. 특히 전문 기관으로의 이동이 어려운 농촌 지역이나, 장기 대기 목록이 존재하는 지역에서 이 기술의 혜택이 클 것으로 기대된다. 물론 AI 시스템이 틀릴 수 있다는 점, 영상의 품질이 판정에 영향을 미칠 수 있다는 점, 그리고 최종 진단은 반드시 훈련받은 전문가가 내려야 한다는 점은 명심해야 할 한계다.

AI 진단 시스템과 관련하여 제기되는 윤리적 질문들도 중요하게 다루어야 한다. 가정에서 촬영된 아이의 영상이 회사 서버에 업로드되어 분석되는 것에 대한 개인정보 보호 문제가 있다. 또한 AI 시스템이 훈련된 데이터가 특정 인종, 문화, 사회경제적 배경의 아이들에 편향되어 있다면, 다른 배경의 아이들에 대한 판정 정확도가 떨어질 수 있다. Megerian et al. (2022) 연구에서 성별과 인종에 따른 차이가 관찰되지 않았다는 것은 고무적인 결과이지만, 이 시스템이 다양한 문화적 맥락에서 어떻게 작동하는지를 더 광범위하게 검증하는 것이 필요하다. 나아가 AI가 “자폐 위험 있음”이라는 판정을 내렸을 때 부모가 받는 심리적 충격을 어떻게 관리하고, 이 정보를 전달하는 방식이 어떠해야 하는지도 기술의 배치와 함께 설계되어야 한다.

AI가 영상을 분석하는 것과는 다른 방향에서, 의사가 남긴 임상 기록의 텍스트를 분석하여 진단적 단서를 추출하는 연구도 진행되어 왔다. 의사가 환자를 진단하면서 남기는 임상 기록에는 진단 코드나 체크리스트에 담기지 않는 정보가 풍부하게 들어 있다. 아이의 시선이 어디를 향했는지, 이름을 불렀을 때 어떻게 반응했는지, 놀이 중에 어떤 말을 했는지와 같은 서술은 경험 있는 임상의에게 중요한 진단 단서가 되지만, 자유 텍스트 형태로 존재하여 대규모로 분석하기가 어렵다. 자연어 처리(NLP, natural language processing) 기술은 이 비정형 텍스트에서 체계적으로 정보를 추출하는 도구를 제공한다. Zhao et al. (2022) 연구는 8,499건의 전자 의무 기록에서 자연어 처리를 이용하여 자폐스펙트럼장애에 특화된 표현형 온톨로지(phenotype ontology, 표현형을 체계적으로 분류하는 어휘 체계)를 구축했다. 희귀 유전질환의 표현형을 기술하는 데 널리 사용되는 HPO(Human Phenotype Ontology)가 행동적, 정신과적 표현형을 충분히 담아내지 못한다는 한계를 해결하기 위한 시도였다. Chen et al. (2023) 연구는 이렇게 추출한 임상 서사(clinical narratives)를 구조화된 전자 의무 기록 데이터와 결합하면 조기 자폐 예측이 향상된다는 것을 보여주었다. 진단 코드와 처방 기록 같은 구조화된 데이터만으로도 어느 정도 예측이 가능하지만, 의사가 자유롭게 기술한 임상 기록을 함께 분석하면 구조화된 데이터에는 없는 예측 신호를 추가로 포착할 수 있다는 것이다. Leroy et al. (2024) 연구는 이 접근을 DSM-5 진단 기준과 직접 연결하는 방식으로 발전시켰다. 이 연구진은 임상 기록의 각 문장을 DSM-5의 개별 기준에 매핑하는 1단계(사회적 소통의 A1-A3, 반복 행동의 B1-B4)와, 이 중간 결과를 종합하여 최종 진단 판정을 내리는 2단계로 구성된 투명한 심층 학습 모형을 설계했다. 이 방식의 핵심 장점은 알고리즘의 판정 근거를 임상의가 DSM-5 기준 수준에서 직접 확인할 수 있다는 점에 있다. 미국 질병통제예방센터(CDC)의 ADDM 감시 프로그램 데이터를 사용한 평가에서 정밀도 100%, 재현율 83%, 정확도 91%를 달성했으며, 이는 ADOS-2, ADI-R 등 7개의 전통적 진단 도구보다 높은 전체 정확도였다.

기존에 작성된 임상 기록을 분석하는 것에서 한 걸음 더 나아가, 진단 과정에서 이루어지는 대화 자체를 대형 언어 모형으로 분석하는 시도도 있다. ADOS-2 모듈 4는 언어가 유창한 청소년과 성인을 대상으로 검사자와의 구조화된 대화를 통해 사회적 의사소통 능력을 평가하는 도구인데, 이 대화 녹음을 대형 언어 모형으로 직접 분석한 것이다. Hu et al. (2025) 연구는 35명의 자폐 성인이 참여한 44건의 ADOS-2 면담 녹음을 GPT-3.5와 GPT-4o로 분석했다. 이 연구의 특징은 모형을 자폐 데이터로 별도 훈련시키지 않는 제로샷(zero-shot) 접근을 사용했다는 점이다. 대신 ADOS-2 진단 영역에 대한 전문 지식을 프롬프트에 주입하여 모형이 대화를 분석하도록 했다. 분석에서 핵심적인 전처리 단계는 화자 분리(speaker diarization)였는데, 녹음에서 검사자의 발화와 피험자의 발화를 정확히 구분해야 피험자의 언어 특성만을 평가할 수 있기 때문이다. 사람이 직접 화자를 구분한 경우 정확도 82%, 양성 예측도 91%를 달성했으며, 이는 동일 데이터에서 BERT, RoBERTa 등 지도학습 기반 분류기를 능가하는 성능이었다. 연구진은 자폐에 특징적인 10가지 언어 양상도 정의했다. 반향어(상대방의 말을 그대로 되풀이하는 것), 대명사 전위(‘나’와 ‘너’를 뒤바꿔 쓰는 것), 형식적 언어 사용, 상투적 표현 대치 등이 포함되었고, 각 특성이 ADOS-2의 어떤 과제에서 두드러지는지를 분석한 결과 맥락에 따른 뚜렷한 차이가 나타났다. 예를 들어 감정을 다루는 과제에서는 과도한 사회적 표현이, 시각 자극을 설명하는 과제에서는 반향어와 부가적 표현이 더 빈번했다.

이처럼 임상 기록과 대화에서 진단적 정보를 추출하는 연구들이 축적되면서, 언어 모형이 임상의의 진단적 직관 자체를 역으로 분석하는 단계에 이른 연구도 나왔다. Stanley et al. (2025) 연구는 1,000명 이상의 아동에 대한 4,000건 이상의 프랑스어 임상 보고서를 학습한 언어 모형(RoBERTa, 1억 3,800만 매개변수)이 자폐 진단 여부를 79.4%의 정확도로 분류할 수 있음을 보여주었다. 이 연구의 가장 흥미로운 발견은 모형이 주목하는 문장을 분석한 결과에서 나왔다. DSM-5의 진단 기준 중 반복적/상동적 행동, 제한된 관심사, 감각 반응성(B 기준)이 사회적 소통의 어려움(A 기준)보다 훨씬 더 강한 진단적 변별력을 가진다는 것이 데이터에서 드러난 것이다. 임상의가 진단할 때 실제로 어떤 행동 특성에 주목하는지를 언어 모형이 역으로 밝혀낸 셈이다. 현재의 진단 도구들이 사회적 소통에 더 큰 비중을 두는 것과 대비되는 발견으로, AI가 임상적 직관의 구조를 해체하고 진단 기준 자체를 재검토하는 도구가 될 수 있음을 보여준다.

유전체 분석과 AI는 또 다른 방식으로도 결합되고 있다. 전장 유전체 시퀀싱은 이제 비교적 빠르고 저렴하게 할 수 있게 되었지만, 시퀀싱 결과에서 의미 있는 변이를 해석하는 것은 여전히 전문적인 작업이다. 한 사람의 전장 유전체에는 수백만 개의 변이가 있는데, 이 중 어떤 변이가 자폐스펙트럼장애를 일으키는 원인 변이인지를 구분하는 것은 쉽지 않다. AI 기반 변이 해석 알고리즘들은 변이의 위치, 자연 집단에서의 빈도, 단백질 기능에 미치는 예측 효과, 그리고 표현형 데이터를 통합하여 원인 변이의 가능성을 평가한다. 이 알고리즘들은 수백만 명의 유전체 데이터와 임상 데이터로 훈련되어, 전문 임상유전학자의 판단을 보조하는 도구로 사용되고 있다. “안티센스 올리고뉴클레오타이드와 정밀 의학” 장에서 다룬 스플라이싱 교란 변이를 발견하고 ASO 치료 가능성을 평가하는 과정에서도 AI 기반 도구가 핵심적인 역할을 한다.

AI가 자폐 연구에서 활용될 수 있는 또 다른 영역은 중재 치료의 효과 모니터링이다. 현재 행동 치료의 효과는 주로 표준화된 검사와 임상가의 관찰로 평가되는데, 이 평가는 시간이 많이 걸리고 비용이 높으며 측정자 간 신뢰도 문제도 있다. AI 기반 영상 분석을 사용하면 치료 과정에서 아이의 행동 변화를 더 자주, 더 객관적으로 추적할 수 있다. 예를 들어 사회적 의사소통 치료를 받는 아이의 시선 접촉 빈도, 공동 주의 행동, 발화 시도 횟수 등을 주간 단위로 추적하면, 치료가 효과적인지 아닌지를 더 빨리 파악하고 치료 방법을 조정할 수 있다. 이것은 치료를 받는 아이와 가족에게도, 치료 효과를 연구하는 임상가에게도 도움이 된다. 또한 유전형에 따라 치료 반응이 다를 수 있다는 가설을 검증하는 데도 이 데이터가 활용될 수 있다.

자폐 진단에서 AI가 성공하려면 또 다른 중요한 조건이 있다. 바로 실제 임상 환경에서의 통합이다. AI 시스템이 아무리 높은 민감도를 보이더라도, 그 결과를 어떻게 임상가와 부모에게 전달하고, 이후 평가 경로와 어떻게 연결되는지가 실질적인 활용도를 결정한다. FDA 승인을 받은 AI 의료기기라도 실제 의료 현장에서 채택되기까지는 여러 장벽이 있다. 보험 급여 여부, 전자 의무 기록 시스템과의 통합, 의료진 교육, 법적 책임 문제 등이 모두 고려되어야 한다. 또한 AI가 “위험 있음”으로 판정한 아이가 전문 평가를 받을 수 있는 실질적인 경로가 마련되어 있지 않다면, 조기 선별의 이점이 실현되지 않는다. 기술의 개발과 임상 시스템의 준비가 함께 이루어져야 한다는 것이다. 이것은 자폐 연구뿐 아니라 AI 의료 전반에 해당하는 과제이기도 하다.

유전체 분석과 AI 진단은 서로 다른 접근이지만, 미래에는 통합될 가능성이 있다. 유전체 시퀀싱으로 자폐 위험 변이가 확인된 아이를, AI 기반 행동 모니터링으로 초기 징후를 추적하여 최적의 중재 시점을 결정하는 것이 하나의 시나리오다. 예를 들어 SCN2A 기능 상실 변이를 가진 신생아가 태어나면, 출생 직후부터 정기적인 AI 영상 평가와 신경생리 검사를 통해 언제 행동 징후가 나타나기 시작하는지를 추적하고, 가장 효과적인 중재 시점을 결정하는 것이다. 유전자형(genotype)에서 시작하여 표현형(phenotype)의 추적을 거쳐 개인화된 중재(personalized intervention)에 도달하는 이 경로가, 자폐 연구의 궁극적 목표 중 하나일 것이다. 이 책 전체에서 살펴본 유전학, 신경생물학, 면역학, 그리고 기술의 발전이 이 경로를 현실로 만들기 위한 토대를 조금씩 쌓아가고 있다.

References

Chen, J., et al. (2023). Enhancing early autism prediction based on electronic records using clinical narratives. Journal of Biomedical Informatics, 142, 104390. doi:10.1016/j.jbi.2023.104390

Hu, C., Li, W., Ruan, M., Yu, X., Deshpande, S., Paul, L. K., Wang, S., & Li, X. (2025). Exploiting large language models for diagnosing autism associated language disorders and identifying distinct features. npj Digital Medicine, 8, 763. doi:10.1038/s41746-025-02133-9

Leroy, G., Andrews, J. G., KeAlohi-Preece, M., Jaswani, A., Song, H., Galindo, M. K., & Rice, S. A. (2024). Transparent deep learning to identify autism spectrum disorders in EHR using clinical notes. Journal of the American Medical Informatics Association, 31(6), 1348-1357. doi:10.1093/jamia/ocae080

Megerian, J. T., Dey, S., Melmed, R. D., et al. (2022). Evaluation of an artificial intelligence-based medical device for diagnosis of autism spectrum disorder. npj Digital Medicine, 5(1), 57. doi:10.1038/s41746-022-00598-6

Stanley, J., Rabot, E., Reddy, S., Belilovsky, E., Mottron, L., & Bzdok, D. (2025). Large language models deconstruct the clinical intuition behind diagnosing autism. Cell, 188(8), 2131-2148. doi:10.1016/j.cell.2025.02.025

Zhao, Y., et al. (2022). Development of a phenotype ontology for autism spectrum disorder by natural language processing on electronic health records. Journal of Neurodevelopmental Disorders, 14, 32. doi:10.1186/s11689-022-09442-0