온디바이스 AI: 최적화와 트레이드오프
온디바이스 AI의 경계 재정의와 NPU, 양자화·증류의 정확도 손실, 하이브리드 PoC 가이드.

세 줄 요약
- 무슨 변화/핵심이슈인가? 온디바이스 AI는 추론을 기기에서 처리해 데이터가 기기 밖으로 나가는 경계를 다시 정의하며, 이를 가능하게 하는 축으로 NPU와 모델 최적화(예: INT8 양자화, teacher–student 증류)가 자주 언급된다.
- 왜 중요한가? TensorRT 10.12.0 문서가 말하는 반올림·클램핑 오류처럼 최적화에는 정확도 손실 요인이 있고, 증류 연구(예: arXiv:2510.07842, arXiv:2505.15442)는 학습-추론 불일치나 추론 충실도 저하 같은 트레이드오프 가능성을 제기한다.
- 독자는 뭘 하면 되나? “무엇을 기기 밖으로 내보내지 않을지”를 먼저 문장으로 고정한 뒤, 하이브리드 패턴(분할 추론·선별 오프로딩) 중 하나로 PoC를 만들고, 양자화·증류 전후를 같은 평가셋으로 비교해 배포 기준선을 만든다.
휴대폰에서 “지금 이 화면을 요약해줘”라고 말한 뒤, 요약 결과가 수 초 안에 뜨는 상황을 떠올릴 수 있다. 그 순간 사용자는 한 번 더 묻게 된다. 이 요청이 내 기기 안에서 끝났을까, 아니면 어딘가의 서버로 흘러갔을까? 온디바이스 AI(on-device AI)는 속도만의 문제가 아니라, 데이터가 이동하는 경계를 다시 그리려는 시도에 가깝다. 그리고 그 경계를 구현하는 하드웨어로 NPU(Neural Processing Unit)가 자주 거론된다.
예: 사용자는 메시지 앱에서 요약 기능을 켠다. 기기는 민감한 문장을 밖으로 보내지 않으려 한다. 대신 기기 안에서 가볍게 돌리는 모델로 먼저 처리하고, 어려운 요청만 네트워크가 되는 순간 서버로 넘긴다.
현황
온디바이스 AI는 “모델을 폰에 넣는다”에서 끝나지 않고, 배포 단계에서 모델 크기·메모리 대역폭·전력·발열·지연시간 같은 제약이 함께 작동한다. 그래서 업계에서는 모델을 그대로 싣기보다, 추론 최적화로 모델을 기기 친화적으로 바꾸는 접근이 반복된다.
대표적인 방법이 양자화(quantization) 다. NVIDIA TensorRT의 Accuracy Considerations 문서(버전 표기: 10.12.0)는 양자화가 정확도에 영향을 주는 주요 원인으로 반올림 오류(rounding errors) 와 클램핑 오류(clamping errors) 를 든다. FP16/FP32 같은 표현을 INT8 같은 낮은 정밀도로 바꾸면 메모리·연산 부담을 줄일 수 있다. 다만 입력의 동적 범위를 압축하는 과정에서 출력 품질이 흔들릴 수 있다.
또 다른 축은 지식 증류(distillation) 다. 큰 teacher 모델의 행동을 작은 student 모델에 옮겨 담아 경량화를 시도한다. 다만 최근 연구들은 증류를 “작아졌는데도 똑같이 동작한다”로 단정하기 어렵다고 말한다. 예를 들어 AdaSwitch(arXiv:2510.07842) 는 오프폴리시 distillation이 고품질 감독 신호를 줄 수 있는 한편, 학습-추론 불일치(training–inference mismatch) 같은 트레이드오프가 생길 수 있음을 논의한다. 또 On the Generalization vs Fidelity Paradox in Knowledge Distillation(arXiv:2505.15442) 는 성능이 좋아져도 teacher의 추론 과정 충실도(reasoning fidelity) 가 항상 보존되지는 않을 수 있다는 문제의식을 제시한다.
제품 설계에서는 “온디바이스 vs 클라우드”의 이분법보다 하이브리드 구성이 자주 등장한다. 문헌에서 반복적으로 보이는 패턴은 다음 3가지로 정리할 수 있다.
(1) 지연·연결성 요구가 높은 핵심 추론은 기기에서 처리하고, 동기화·업로드는 비동기로 클라우드가 맡는 엣지 하이브리드.
(2) 신경망을 앞·뒤로 쪼개 중간표현(activation/feature map)을 보내는 분할 추론(split inference).
(3) 기본은 온디바이스로 처리하되 어려운 요청만 서버로 넘기는 선별적 오프로딩(fan-out).
분석
온디바이스 AI의 의미는 “더 빠르다”로만 정리되기보다, 데이터 이동 자체를 설계 변수로 올려놓았다는 점에 있다. 예를 들어 “사용자 입력 원문은 기기 밖으로 보내지 않는다”는 요구를 두면, 모델 크기와 품질 목표가 곧바로 제한된다. 반대로 품질을 우선한다면, 오프로딩 기준(어떤 조건에서 클라우드로 보낼지)을 더 명확히 해야 한다. 이때 NPU는 단순 가속기라기보다, 배터리·발열·지연에 대한 예산을 맞추기 위한 현실적인 선택지로 다뤄진다.
동시에 함정도 있다.
- 첫째, 양자화는 “INT8로 바꾸면 끝”이 아니다. TensorRT가 지적하듯 정확도 손실은 반올림과 클램핑에서 나타날 수 있고, 데이터 분포와 레이어 특성에 따라 양상이 달라질 수 있다.
- 둘째, 증류는 지표가 개선돼도 teacher의 추론 과정 충실도가 유지되지 않을 수 있다는 문제가 제기돼 왔다(예: arXiv:2505.15442). 따라서 표준 평가에서 좋아 보여도, 제품 환경의 엣지 케이스나 안전 요구에서 다른 형태로 리스크가 드러날 수 있다.
- 셋째, 하이브리드는 비용이 있다. 분할 추론은 중간표현을 주고받는 구조이므로 통신 지연·보안·엔지니어링 복잡도가 함께 커질 수 있다. 또한 “기기에서 돌리니 프라이버시가 해결된다”는 식의 결론은 피하는 편이 낫다. 기기 내부에서도 로그·캐시·텔레메트리 설계에 따라 데이터가 새는 경로가 생길 수 있다.
실전 적용
온디바이스 AI/NPU를 제품에 넣을 때, 시작점은 “모델 선택”이 아니라 데이터 경계와 실패 허용치를 문장으로 고정하는 일이다. 예를 들어 “사용자 입력 원문은 기기 밖으로 나가지 않는다”, “네트워크가 없어도 기본 기능은 작동한다”, “일부 요청은 품질을 위해 서버로 보낼 수 있다”처럼 우선순위를 먼저 정한다. 그 다음에야 분할 추론, 선별 오프로딩 같은 패턴이 설계로 내려온다.
개발 관점의 시작점은 다음 흐름이 현실적일 수 있다. (1) 온디바이스에서 처리할 ‘최소 기능’을 정한다. (2) 나머지는 클라우드로 에스컬레이션하는 fan-out을 붙인다. (3) 온디바이스 모델에는 양자화 또는 증류를 적용해 성능 예산에 맞춘다. 이때 “빠르게 만드는 것”과 “품질을 유지하는 것”의 균형점은 팀이 정해야 한다. TensorRT가 말하는 반올림/클램핑 오류, 증류 연구가 논의하는 학습-추론 불일치·추론 충실도 저하 같은 리스크를 테스트 항목으로 명시하지 않으면, 출시 단계에서 체감 품질 문제로 뒤늦게 드러날 수 있다.
오늘 바로 할 일:
- 데이터 경계 문장을 팀 문서에 3개로 고정하고(원문 입력·중간표현·로그/캐시), 각 문장에 대한 예외 조건을 한 줄로 덧붙인다.
- 온디바이스/클라우드 동작을 fan-out 또는 split inference 중 하나로 정한 뒤, 오프라인·지연·오류 상황을 포함한 테스트 케이스를 만든다.
- 양자화·증류 적용 전후를 동일한 평가셋으로 비교하고, 반올림/클램핑 및 충실도 변화 가능성을 실패 유형으로 함께 기록한다.
FAQ
Q1. 온디바이스 AI는 프라이버시에 유리한가?
A. 유리해질 가능성은 있지만, 자동으로 해결된다고 보기 어렵다. 핵심은 데이터가 어디까지 이동하는지(원문, 중간표현, 로그/캐시)를 설계로 고정하는 일이다. 하이브리드(분할 추론, 선별 오프로딩)를 쓰면 네트워크로 나가는 데이터 형태가 생기므로 그 경계를 더 명확히 해야 한다.
Q2. 양자화는 왜 정확도를 떨어뜨리나?
A. NVIDIA TensorRT는 양자화가 정확도에 영향을 주는 원인으로 반올림 오류와 클램핑 오류를 설명한다. 정밀도를 낮추는 과정에서 값이 근사되고, 표현 가능한 범위를 넘어서는 값이 잘리면서 출력이 달라질 수 있다.
Q3. 증류로 작은 모델을 만들면 teacher 수준의 ‘사고 과정’도 따라오나?
A. 항상 그렇다고 말하기는 어렵다. 연구들은 student의 성능이 좋아져도 teacher의 추론 과정 충실도가 유지되지 않을 수 있다고 지적한다(예: arXiv:2505.15442). 또 오프폴리시 distillation은 감독 신호 품질이 높을 수 있지만 학습-추론 불일치라는 트레이드오프를 동반할 수 있다는 논의도 있다(예: arXiv:2510.07842). 제품에서 정답률 외에 일관된 추론 스타일이 중요하면 별도 검증이 필요하다.
결론
온디바이스 AI/NPU는 “더 빠른 AI”라기보다 데이터 경계와 비용 구조를 다시 그리는 제품 아키텍처 선택에 가깝다. 양자화의 반올림·클램핑 오류, 증류의 불일치·충실도 이슈를 기능 요구사항과 테스트 항목으로 문서화해 두면, 배포 단계에서의 품질 논의를 더 구체화할 수 있다.
다음으로 읽기
- 에이전트 성과를 가르는 하네스 설계
- AI 코딩 시대, CS의 중심이 바뀐다
- AI 자료 모음 (24h) - 2026-02-14
- 레이트리밋을 넘는 지속 접근 설계
- AI 리스크를 세 축으로 분해하기
참고 자료
- Accuracy Considerations — NVIDIA TensorRT - docs.nvidia.com
- Cloud–Edge–End Collaborative Federated Learning: Enhancing Model Accuracy and Privacy in Non-IID Environments - PMC - pmc.ncbi.nlm.nih.gov
- AdaSwitch: Adaptive Switching Generation for Knowledge Distillation - arxiv.org
- On the Generalization vs Fidelity Paradox in Knowledge Distillation - arxiv.org
- Efficient and privacy-preserving deep inference towards cloud–edge collaborative - Applied Soft Computing (ScienceDirect) - sciencedirect.com
- Privacy-preserving Security Inference Towards Cloud-Edge Collaborative Using Differential Privacy (arXiv) - arxiv.org
업데이트 받기
주간 요약과 중요한 업데이트만 모아서 보내드려요.
오류를 발견했나요? 정정/오류 제보로 알려주시면 검토 후 업데이트에 반영할게요.