AI 성능과 생산성 시차 줄이기
모델 성능과 생산성의 시차 원인과 과업 점수·NIST RMF로 줄이는 방법

회의실 한쪽에서 누군가가 챗봇 창을 띄운다. 초안은 빨리 나온다. 그러나 결재 라인에 올리기까지 문서 형식, 보안, 책임소재, 예외 케이스가 걸린다. 그 과정에서 속도가 다시 느려진다. 모델이 좋아져도 생산성이 바로 오르지 않는 이유는 여기서 자주 나온다. 사람, 프로세스, 위험관리의 시간축이 서로 다르다.
이 글은 “AI 성능 상승 = 곧바로 생산성 점프”라는 기대가 왜 자주 빗나가는지 다룬다. 또한 조직이 그 시차를 줄이려면 무엇을 측정하고 무엇을 재설계해야 하는지 정리한 의사결정 메모다. 국제기구가 쓰는 자동화 가능성 측정법(직업 단위 vs 과업 단위)과, 도입 리스크를 운영 체계로 다루는 프레임(NIST AI RMF)의 언어를 한 장의 실행 프레임으로 묶는다.
업계 맥락은 단순하다. “가능해 보이는데 현장에서는 느리다”는 체감이 커지면 기대차가 벌어진다. 그 결과 AI 프로젝트가 ‘데모는 성공, 정착은 실패’로 끝날 가능성이 커진다.
세 줄 요약
- 무슨 변화/핵심이슈인가? 자동화·생산성 논쟁의 초점이 ‘모델 성능’에서 ‘과업(task) 구성, 사용자 숙련, 프로세스 재설계, 위험관리’로 옮겨간다.
- 왜 중요한가? 국제기구 방법론처럼 직업 전체가 아니라 과업 단위로 보면 노출(automation exposure)이 더 세분화된다. 이 간극을 무시하면 “대체된다/안 된다” 같은 단정이 투자·인력·규정 대응에서 리스크로 이어질 수 있다.
- 독자는 뭘 하면 되나? 다음 분기 의사결정을 “If/Then 규칙 + 과업 점수(0~1) + NIST Govern/Map/Measure/Manage”로 묶는다. **‘도입 속도’와 ‘품질/규정 준수 비용’**을 같은 대시보드에서 보고, 파일럿 범위를 다시 나눈다.
현황
국제기구·정책권에서 자동화 가능성을 재는 방식은 크게 둘로 나뉜다. OECD가 소개한 Frey & Osborne류 접근은 직업(occupation) 단위로 “직업 전체가 자동화되는가”를 묻는다. O*NET의 과업 설명을 바탕으로 기계학습 연구자 그룹이 70개 직업의 자동화 가능성을 평가하고, 이를 확률로 표현하려 한다. 이 프레임은 메시지가 명확하다. 대신 “같은 직업이라도 회사·개인마다 하는 일이 다르다”는 현실을 단순화하기 쉽다.
반대로 OECD가 소개하는 Arntz·Gregory·Zierahn(2016) 계열은 직업이 아니라 일자리(job) 단위로 자동화 노출을 추정한다. 핵심 가정은 하나다. 기술은 직업 전체를 한 번에 대체하기보다, 직업 안의 특정 과업 묶음을 먼저 대체·변형한다. 그래서 자동화 논쟁의 단위를 “직무명”이 아니라 “과업 구성(task content)”으로 내린다.
도입 리스크 관리 쪽에서는 NIST AI RMF 1.0이 조직이 무엇을 해야 하는지의 언어를 제공한다. NIST는 코어를 Govern/Map/Measure/Manage 4기능으로 정리하고, “Actions do not constitute a checklist”라고 적는다. 또한 신뢰가능 AI 특성으로 **유효성·신뢰성, 안전, 보안·복원력, 책임성·투명성, 설명가능성·해석가능성, 프라이버시, 공정성(유해 편향 관리)**를 제시한다. 그리고 이를 라이프사이클 전반에서 식별·측정·대응하라고 요구한다.
분석
의사결정 관점에서 핵심은 “성능”과 “성과”를 분리하는 일이다. 자동화 가능성은 ILO처럼 과업 0~1 점수로 말할 수도 있고, OECD처럼 직업·일자리 레벨로 말할 수도 있다. 문제는 많은 조직이 여전히 직무명 기반으로 “이 팀은 위험/안전”을 판정한다는 점이다. 이 방식은 설명은 쉽다. 그러나 실행 계획으로 옮기면 빈틈이 생기기 쉽다. 실제 생산성은 ‘직무’가 아니라 ‘프로세스 안의 과업 흐름’에서 나오기 때문이다.
또 하나는 도입 시차를 “교육을 더 하면 해결된다”로 정리하기 어렵다는 점이다. IT 가치 실현 연구에서는 기술 투자와 생산성 사이에 **time lags(시간 지연)**가 생길 수 있다고 논의한다. 그 이유로 측정 오류, 관리 관행, 조직 변화 같은 요인이 거론된다(생산성 역설 논의에서 반복되는 설명이다). 또 다른 연구에서는 IT가 **plant-level reorganization(현장 단위의 재조직)**을 요구한다고 말한다. 즉, 모델이 좋아지는 속도와 별개로, 조직이 바뀌는 속도가 병목이 될 수 있다.
리스크도 여기서 커진다. “이 과업은 자동화 가능”이라는 판단에는 숨은 비용이 붙는다. 품질 검증, 오작동 대응, 보안·프라이버시 통제, 책임소재 정리가 대표적이다. NIST AI RMF가 체크리스트 대신 운영 체계를 강조하는 이유도 여기에 맞닿아 있다. 도입이 늦어지는 조직은 기술 자체보다 Measure/Manage의 부재 때문에 지연되는 경우가 있다. 반대로 Measure/Manage를 과도하게 잡으면 파일럿이 제품화로 이어지기 어려워진다. 이 트레이드오프는 “속도 vs 통제”로만 보지 않는다. “측정 범위를 어디까지로 정의할 것인가”로 다시 정의할 필요가 있다.
실전 적용
의사결정은 If/Then으로 단순화해야 빨라진다.
- If 업무가 ‘문서 작성’처럼 보이지만 실제로는 승인·감사·대외 리스크가 핵심이라면, Then 자동화 목표를 “초안 생성”에만 두지 않는다. “검토 단계의 병목 제거(형식/근거/추적성)”로 목표를 옮긴다. ILO식으로 과업을 쪼개면, 자동화 점수가 높은 과업(0~1 중 상단)에 먼저 범위를 좁힐 수 있다.
- If 직무 단위로 ROI를 묶어 계산하고 있다면, Then Arntz류 관점처럼 ‘일자리/개인별 과업 구성’으로 측정 단위를 내린다. 팀별 예외·규정·품질 기준을 비용에 포함한다. 직업 기반 메시지는 임원 보고에 쓰기 쉽다. 배포 계획은 과업 기반이 더 직접적이다.
예: 고객 문의를 처리하는 팀이 있다. 답변 작성은 자동화가 쉬워 보일 수 있다. 그러나 실제 병목은 민감정보 제거, 규정 문구 삽입, 예외 케이스 라우팅일 수 있다. 이 팀의 과제는 “답변을 대신 쓰게 하기”보다 “답변이 나가기 전 통제 지점을 표준화”하는 일로 잡는 편이 맞을 때가 있다.
오늘 바로 할 일 체크리스트
- 과업 목록을 만들고 각 과업에 0~1 자동화 점수를 붙인다. 점수가 높은 과업부터 파일럿 범위를 자른다.
- NIST AI RMF의 Govern/Map/Measure/Manage를 한 장 운영표로 만든다. 최소한 Measure(시험/모니터링/문서화) 담당을 지정한다.
- “성공” 정의에 생산성만 넣지 않는다. 품질 저하·보안·프라이버시·공정성(유해 편향) 같은 신뢰 특성의 실패 비용을 함께 넣는다.
FAQ
Q1. ‘자동화 가능성’은 왜 직업이 아니라 과업으로 봐야 하나요?
A. OECD가 요약한 Arntz·Gregory·Zierahn(2016)처럼, 같은 직업이라도 사람·회사마다 하는 일이 다르기 때문이다. 직업 단위는 “전체가 자동화된다”는 가정이 섞이기 쉽다. 과업 단위는 “어떤 업무 조각이 먼저 바뀌는가”를 직접 다룬다. 현장 배포는 후자가 연결이 더 쉽다.
Q2. ILO의 0~1 점수는 무엇을 의미하나요?
A. ILO 방법론 요약 기준으로, 직업을 과업으로 분해한 뒤 각 과업에 0~1 잠재 자동화 점수를 준다. 0은 불가능, 1은 완전히 가능이라는 뜻이다. 그리고 과업 점수의 평균/분산 같은 값을 써서 직업의 노출(gradient)을 분류한다. (세부 산정 절차는 자료 본문 확인이 필요하다.)
Q3. 위험관리는 체크리스트로 끝내면 안 되나요?
A. NIST AI RMF는 “Actions do not constitute a checklist”라고 적는다. 정확성, 편향, 보안, 프라이버시 같은 이슈는 배포 후에도 변한다. 그래서 Govern/Map/Measure/Manage처럼 역할·측정·대응이 반복되는 운영 체계를 요구한다.
결론
AI 도입 시차를 줄이려면 “더 좋은 모델을 기다리기”에만 기대기 어렵다. 자동화 논쟁의 단위를 직업에서 과업으로 내리고, NIST식으로 측정과 운영을 붙이는 편이 실무에 가깝다. 다음으로 볼 포인트도 정리해 둘 필요가 있다. 조직이 AI를 ‘도구’로만 붙이는지, 아니면 프로세스를 다시 설계하는 계기로 쓰는지에 따라 생산성 개선의 경로가 달라진다.
다음으로 읽기
- AI 자동화, 고용·에너지·이전재정의 충돌
- 지도 입력 오인식, 전처리 리스크
- 외부 LLM 리셀러 서비스의 마진과 리스크
- AI 격차, 시간축 지표로 측정하기
- 미국 혁신 서사, 발명과 확산의 분리
참고 자료
- OECD Skills Outlook 2019 – Box 3.4. Estimating occupations’ risk of automation (Frey and Osborne methodology) - oecd.org
- OECD – The Risk of Automation for Jobs in OECD Countries: A Comparative Analysis (Arntz, Gregory, Zierahn, 2016) – Abstract - oecd.org
- ILO – How might generative AI impact different occupations? (methodology summary, 20 May 2025) - ilo.org
- ILO Working Paper 140 – Generative AI and Jobs: A Refined Global Index of Occupational Exposure - ilo.org
- AI RMF Core - AIRC (NIST AI Risk Management Framework 1.0 excerpt) - airc.nist.gov
- AI Risks and Trustworthiness - AIRC (NIST AI RMF 1.0 excerpt) - airc.nist.gov
- Trustworthy and Responsible AI | NIST - nist.gov
- Technology Acceptance Model - TheoryHub - open.ncl.ac.uk
- The transformational dimension in the realization of business value from information technology (Information and Organization) - sciencedirect.com
- Organizational capital, technology adoption and the productivity slowdown (Journal of Monetary Economics) - sciencedirect.com
업데이트 받기
주간 요약과 중요한 업데이트만 모아서 보내드려요.
오류를 발견했나요? 정정/오류 제보로 알려주시면 검토 후 업데이트에 반영할게요.