병원 행정과 간호가 지금 AI를 공부해야 하는 이유 — 개발이 아니라 판단의 문제

“AI를 공부해야 한다는데, 코딩 배울 시간이 없습니다.” 병원에서 AI 공부 이야기가 나올 때 흔히 돌아오는 반응입니다. 이 문장에는 AI 공부가 곧 코딩 공부라는 전제가 숨어 있습니다. 저는 이 전제가 틀렸다고 생각합니다. 병원 행정과 간호 실무자에게 필요한 것은 AI를 만드는 능력이 아니라, 병원에 들어오는 AI를 평가하고 질문하는 판단력입니다. 도입 여부를 검토하는 제안서는 기획·구매 부서의 책상에 이미 올라와 있고, 도입된 도구의 알림은 병동에서 이미 울리고 있기 때문입니다.

AI는 이미 결재 라인과 병동에 들어와 있다

숫자부터 보겠습니다. 미국 FDA가 시판을 허가한 AI 의료기기는 2025년 말 기준 누적 1,451건이고, 그중 76%가 영상의학 분야입니다. 국내도 방향이 같습니다. 식약처의 AI 기반 의료기기 허가·인증은 2025년 한 해에만 153건으로 전년보다 41.6% 늘었습니다. 허가 건수가 늘어난다는 것은, 그만큼 많은 제안서와 견적서가 병원으로 들어온다는 뜻입니다.

의사들만의 이야기도 아닙니다. 미국의사협회(AMA) 설문에서 진료에 AI를 쓴다고 답한 의사는 2023년 38%에서 2024년 66%로 1년 만에 거의 두 배가 됐습니다. 의사의 일하는 방식이 이 속도로 바뀌면 그 주변이 함께 바뀝니다. 계약·예산·보안 검토는 행정의 서류가 되고, 새 알림과 달라진 기록 방식은 간호의 업무 흐름이 됩니다. “필요해지면 그때 배우겠다”는 전략이 통하려면 도입 속도가 학습 속도보다 느려야 하는데, 지금은 그 반대입니다.

제안서의 “정확도 95%“를 읽는 것은 행정과 간호의 일이다

업체 제안서에 “정확도 95%“라고 적혀 있을 때, 그 숫자가 무엇을 뜻하는지 물을 수 있어야 합니다. 다행히 이 언어는 진료실만의 것이 아닙니다. 민감도·특이도·양성예측도는 간호 실무자가 선별검사와 지표 관리에서, 행정 실무자가 평가·통계 업무에서 이미 접해 온 개념입니다. AUROC가 낯설다면 이렇게 이해해도 됩니다. 환자 한 명과 비환자 한 명을 무작위로 뽑았을 때 모델이 환자 쪽에 더 높은 점수를 줄 확률입니다. 0.5면 동전 던지기와 같고, 1.0이면 항상 환자 쪽에 더 높은 점수를 준다는 뜻입니다.

여기에 질문 하나만 더하면 됩니다. “그 성능이 개발사 데이터가 아니라 우리 병원 환자군에서도 나옵니까?” AI 성능은 검증된 환자군이 다르면 다시 확인해야 합니다. 이것이 외부 검증이라는 개념이고, 검토 문서에 이 항목이 있느냐 없느냐가 도입 논의의 수준을 바꿉니다.

검증 없이 도입되면 비용은 병동과 행정으로 온다

이 질문이 빠지면 어떤 일이 생기는지 보여주는 사례가 있습니다. 미국 수백 개 병원에 도입됐던 Epic의 패혈증 예측 모델을 미시간대학 연구진이 자기 병원 입원 38,455건으로 외부 검증했더니, AUROC는 개발사가 제시한 0.76~0.83이 아니라 0.63이었습니다. 패혈증 환자의 67%를 놓쳤고, 전체 입원의 18%에서 알림이 울렸으며, 실제 패혈증 환자 1명을 찾으려면 의료진이 8명을 평가해야 했습니다. 그렇게 울리는 알림은 결국 병동에서 누군가 확인하고 대응해야 하는 업무가 되고, 기대한 효과가 나오지 않는 도구의 비용 정산과 사후 수습은 행정의 숙제로 남습니다.

병원에서 기획 업무를 7년간 하며 느낀 것은, 도입 검토 회의의 질은 그 자리에서 나오는 질문의 질을 넘지 못한다는 점입니다. 성능 지표와 검증 방법을 물을 수 있는 사람이 기획이든 간호부든 한 명이라도 있으면 논의가 달라지고, 없으면 제안서의 숫자가 그대로 결론이 됩니다. 간호 현장은 이미 참여를 원하고 있습니다. 미국간호협회(ANA) 2025년 총회 자료가 인용한 미국간호재단·매킨지의 간호사 7,200명 설문에서, 응답자의 61%가 AI 정확도에 대한 신뢰 부족을 우려로 꼽았고 73%는 AI 도구 설계 과정에 참여하기를 원했습니다. 의지는 있습니다. 필요한 것은 회의 테이블에서 통하는 언어입니다.

그래서 무엇부터 — 자기 업무의 언어로 시작하기

시작점은 교과서가 아니라 자기 업무입니다. 세 가지를 권합니다.

첫째, 매일 겪는 업무 하나를 고르십시오. 간호라면 EMR 알림이나 인수인계 기록, 행정이라면 제안서 검토나 통계 보고처럼 이미 잘 아는 업무여야 AI가 잘하는지 못하는지 판단할 기준이 자기 안에 있습니다.

둘째, 성능 지표의 언어를 익히십시오. 민감도·특이도·양성예측도에 AUROC와 외부 검증만 더해도 제안서를 읽는 눈이 생깁니다.

셋째, 도입 논의에서 던질 질문 목록을 만들어 두십시오. 어떤 환자군 데이터로 학습했는가, 외부 검증 결과가 있는가, 우리 환자군과 얼마나 비슷한가, 알림은 하루에 몇 번 울리는가, 틀렸을 때 누가 무엇을 해야 하는가.

저는 개발자가 아닙니다. 통계학과 경제학을 공부하고 종합병원에서 17년을 일한 실무자이고, 그중 7년은 기획 부서에서 검토 문서를 읽고 쓰는 자리에 있었습니다. 코드는 지금도 AI의 도움을 받아 짜는 비개발자입니다. 그런데도 이 연구소를 운영할 수 있는 이유는, 필요한 것이 코딩 실력이 아니라 질문하는 능력이었기 때문입니다. 그 능력은 직종과 무관하게 기를 수 있고, 그 능력을 가진 사람이 도입 논의의 주도권을 가집니다.

핵심 요약

FDA 허가 AI 의료기기 누적 1,451건, 식약처도 2025년 한 해 153건. 도입 검토는 행정의, 알림 대응은 간호의 업무로 이미 와 있습니다.
민감도·특이도·AUROC·외부 검증은 진료실만의 언어가 아니라 제안서와 지표를 다루는 실무자의 언어입니다.
Epic 패혈증 모델 사례처럼, 검증 질문이 빠진 도입의 비용은 병동의 알림 피로와 행정의 사후 수습으로 돌아옵니다.
간호사 7,200명 설문에서 73%가 AI 도구 설계 참여를 원했습니다. 시작은 자기 업무 하나, 지표의 언어, 질문 목록입니다.