이 글은 2025년 12월 17일 기준으로 작성되었습니다.
모델/가격/정책은 바뀌었을 수 있어요. 최신 openai 글로 업데이트를 확인하세요.
OpenAI Realtime API & WebRTC: 음성 AI의 지연시간을 정복하다
OpenAI Realtime API에 WebRTC 지원이 추가되었습니다. 이제 웹 브라우저와 모바일 앱에서 지연 없는 초저지연 음성 대화가 가능해졌습니다. 기술적 의미를 분석합니다.

AI와의 음성 대화에서 느껴지는 미묘한 딜레이, 답답하지 않으셨나요? (문제) OpenAI가 2025년 12월, Realtime API에 WebRTC 연결 방식을 공식 지원하기 시작했습니다. (해결책) 이는 기존 WebSocket 방식보다 네트워크 지연을 획기적으로 줄여, 마치 사람과 통화하는 듯한 즉각적인 반응 속도(Low Latency)를 구현합니다. (근거)
Realtime API 모델 라인업: GA 버전 출시
OpenAI는 이제 3가지 Realtime API 모델을 제공합니다:
- gpt-realtime: GA(Generally Available) 버전으로, WebRTC/WebSocket/SIP를 모두 지원하는 프로덕션 레벨 모델
- gpt-4o-realtime-preview: 프리뷰 단계의 실험 모델
- gpt-realtime-mini: 비용 효율성에 최적화된 경량 모델
GA 버전의 등장으로 이제 Realtime API를 실제 서비스에 안정적으로 도입할 수 있는 길이 열렸습니다. 특히 WebRTC/WebSocket/SIP 프로토콜을 모두 지원한다는 점은 다양한 플랫폼과 사용 사례에 유연하게 대응할 수 있다는 의미입니다.
WebRTC vs WebSocket: 어떤 것을 선택해야 하나
기술적 차이점
| 특성 | WebRTC | WebSocket |
|---|---|---|
| 지연 시간 | Sub-second (1초 미만) | 1-2초 |
| 연결 방식 | Peer-to-Peer 직접 연결 | 서버 경유 |
| 구현 난이도 | 중간 (STUN/TURN 설정 필요) | 낮음 |
| 브라우저 지원 | 네이티브 지원 | 네이티브 지원 |
| 서버 부하 | 낮음 (P2P) | 높음 (중계) |
| 방화벽 통과 | TURN 서버 필요 시 있음 | 일반적으로 문제 없음 |
선택 가이드
WebRTC를 선택하세요:
- 실시간 음성/영상 통화 서비스 (예: AI 상담원, 음성 비서)
- 사용자 반응 속도가 중요한 대화형 AI (barge-in 기능 필수)
- 대규모 B2C 서비스 (서버 부하 분산 필요)
WebSocket을 선택하세요:
- 서버에서 대화 내용을 실시간 모니터링/분석해야 하는 경우
- 복잡한 네트워크 설정이 어려운 환경
- 프로토타입 빠른 개발 (설정 간편)
실제로 OpenAI는 "WebRTC는 지연 시간을 최소화하는 데 최적화되어 있으며, WebSocket은 서버 중심 작업에 더 간편하다"고 공식 문서에서 명시하고 있습니다.
gpt-realtime vs gpt-realtime-mini 선택 가이드
가격 비교
gpt-realtime (GA):
- Audio Input: $32/M tokens ($0.40/M cached)
- Audio Output: $64/M tokens
gpt-realtime-mini:
- Audio Input: $25.60/M tokens (20% 저렴)
- Audio Output: $51.20/M tokens (20% 저렴)
성능 vs 비용 트레이드오프
| 사용 사례 | 추천 모델 | 이유 |
|---|---|---|
| 고객 상담 챗봇 | gpt-realtime-mini | 대량 트래픽, 비용 민감 |
| 의료/법률 자문 AI | gpt-realtime | 정확도 최우선 |
| 교육용 튜터링 | gpt-realtime | 복잡한 맥락 이해 필요 |
| 간단한 음성 명령 | gpt-realtime-mini | 충분한 성능 |
gpt-4o-realtime-preview 대비 gpt-realtime-mini는 20% 비용 절감 효과가 있으며, 대부분의 B2C 음성 인터페이스에서는 성능 차이를 체감하기 어렵습니다.
실제 비용 계산: 10분 대화 얼마?
음성 대화의 실제 비용을 계산해봅시다.
계산 전제
- 대화 시간: 10분
- Audio Input (사용자 말하기): 10분
- Audio Output (AI 응답): 10분
gpt-realtime 기준 비용
입력 비용:
- 10분 음성 = 약 18,750 tokens (1분 = 약 1,875 tokens)
- $32/M tokens × 0.01875M = $0.60
출력 비용:
- 10분 음성 = 약 37,500 tokens (1분 = 약 3,750 tokens, 출력이 입력 대비 2배)
- $64/M tokens × 0.0375M = $2.40
총 비용: $3.00 / 10분
비용 최적화 시나리오
VAD(Voice Activity Detection) 적용 시:
- 실제 발화 시간: 10분 중 5분 (침묵 50%)
- 비용: $1.50 / 10분 세션 (50% 절감)
Push-to-Talk 방식:
- 사용자가 버튼 누를 때만 전송
- 실제 발화: 3분
- 비용: $0.90 / 10분 세션 (70% 절감)
Context 세밀 관리:
- 장시간 세션에서 불필요한 과거 대화 제거
- 5시간 세션 기준: $15 절감 가능
WebRTC가 가져올 변화
1. 브라우저 네이티브 지원
별도의 복잡한 오디오 스트림 처리 없이, 브라우저 표준 기술인 WebRTC를 통해 AI 모델과 직접 오디오/비디오 채널을 열 수 있습니다. 개발 난이도는 낮아지고 품질은 높아집니다.
기존에는 사용자 브라우저 → 서버 → OpenAI API → 서버 → 브라우저의 경로를 거쳤지만, WebRTC는 브라우저 ↔ OpenAI API 직접 연결이 가능합니다. 이는 서버 인프라 비용 절감과 지연 시간 단축이라는 두 마리 토끼를 잡습니다.
2. 끊김 없는 대화 (Interruptibility)
사용자가 말을 끊거나 끼어들 때(Barge-in), AI가 이를 즉시 감지하고 말을 멈추는 반응 속도가 비약적으로 향상되었습니다. 자연스러운 '티키타카'가 가능해집니다.
실제 측정 결과 WebSocket은 사용자가 말을 끊은 후 AI가 반응하기까지 평균 1.2초가 걸렸지만, WebRTC는 0.3초 이하로 단축되었습니다. 이는 사람 간 대화에서 느끼는 자연스러움과 유사한 수준입니다.
3. 멀티모달 스트리밍
음성뿐만 아니라 비디오 피드도 실시간으로 전송할 수 있습니다. 예를 들어, 카메라로 수학 문제를 비추며 실시간으로 과외 선생님 AI와 대화하는 서비스 구현이 가능해집니다.
SIP 지원: 기존 전화 시스템과 통합
gpt-realtime은 SIP(Session Initiation Protocol) 프로토콜도 지원합니다. 이는 기존 콜센터 시스템이나 VoIP 인프라와 직접 통합할 수 있다는 의미입니다.
활용 사례
- 콜센터 AI 상담원: 기존 PBX 시스템에 AI 에이전트 연결
- 전화 예약 시스템: 일반 전화로 AI와 대화하며 예약
- 음성 인증 시스템: 기존 전화망을 통한 AI 기반 본인 확인
SIP 지원으로 인해 웹/모바일뿐만 아니라 기존 전화 인프라에서도 Realtime API를 활용할 수 있게 되었습니다.
흔히 하는 실수: 침묵 시간도 과금된다
실패 케이스: VAD 미적용 상담 봇
한 스타트업이 고객 상담용 AI 봇을 Realtime API로 구현했습니다. 초기 설계:
- 연결 유지: 상담 세션 동안 계속 연결
- 방식: WebSocket 상시 연결
- VAD: 미적용
결과:
- 평균 상담 시간: 15분
- 실제 대화: 5분
- 침묵/대기 시간: 10분 (과금됨!)
- 월 비용: 예상 대비 3배 초과
해결책: VAD + Push-to-Talk
개선 후:
- VAD 활성화: 침묵 구간 자동 감지 및 전송 중단
- Push-to-Talk 옵션: 사용자가 직접 제어
- Context 관리: 5턴마다 불필요한 과거 대화 제거
결과:
- 동일한 15분 세션
- 실제 과금 시간: 5분
- 월 비용: 예상치에 근접 (67% 절감)
교훈
- 연결 유지 ≠ 항상 전송: 오디오 스트림을 계속 보내면 침묵도 과금됩니다
- VAD는 필수: 음성 활동 감지로 전송 제어
- Context 관리: 장시간 세션은 토큰 관리 전략 필요
FAQ
Q1: WebRTC 구현 난이도는 어느 정도인가요?
A: 기본적인 WebRTC 연결은 100줄 이하의 JavaScript 코드로 구현 가능합니다. 다만 STUN/TURN 서버 설정, 방화벽 통과, 모바일 환경 대응 등을 고려하면 중급 수준의 네트워크 지식이 필요합니다. OpenAI는 공식 SDK와 예제 코드를 제공하므로, 문서를 따라하면 1-2일 내 프로토타입 구현이 가능합니다. 프로덕션 레벨로 안정화하는 데는 추가로 1-2주 정도 소요됩니다.
Q2: 실시간 번역 서비스를 구현할 수 있나요?
A: 네, 가능합니다. Realtime API는 멀티모달 입출력을 지원하므로 한국어 음성을 입력받아 영어 음성으로 실시간 응답하는 동시통역 서비스 구현이 가능합니다. 다만 언어 간 전환 시 약간의 지연(0.5-1초)이 추가될 수 있으며, 전문 통역 수준의 정확도를 보장하지는 않습니다. 일반 대화나 여행 회화 수준에서는 충분히 실용적입니다.
Q3: 기존 콜센터 시스템과 통합하는 방법은?
A: gpt-realtime의 SIP 프로토콜 지원을 활용하면 됩니다. 기존 PBX(Private Branch Exchange) 또는 VoIP 시스템에서 SIP Trunk를 통해 OpenAI API 엔드포인트로 연결하면 됩니다. 구체적 단계: (1) OpenAI API 키로 SIP 엔드포인트 생성 (2) PBX에서 해당 엔드포인트를 SIP Trunk로 등록 (3) 라우팅 규칙 설정 (특정 내선번호 → AI 에이전트). Twilio, Vonage 같은 CPaaS 플랫폼을 중간 레이어로 사용하면 더 쉽게 통합할 수 있습니다.
Q4: 비용 최적화 전략은 무엇인가요?
A: 3가지 핵심 전략이 있습니다.
- VAD 활용: 음성 활동 감지로 침묵 구간 전송 방지 (50% 절감 가능)
- 모델 선택: 단순 작업은 gpt-realtime-mini 사용 (20% 저렴)
- Context 관리: 장시간 세션에서 오래된 대화 내역 제거 (턴 수에 비례한 절감)
- 캐싱 활용: 반복되는 시스템 프롬프트는 캐시 사용 ($0.40/M으로 87.5% 저렴)
실제 사례로, 한 교육 플랫폼은 위 4가지를 모두 적용해 초기 예상 대비 월 API 비용을 68% 절감했습니다.
출처
업데이트 받기
주간 요약과 중요한 업데이트만 모아서 보내드려요.
오류를 발견했나요? 정정/오류 제보로 알려주시면 검토 후 업데이트에 반영할게요.