LLM 라우팅/캐스케이딩 운영 핵심
요청을 분류해 품질·비용·지연시간과 안전 기준을 함께 고려하는 LLM 라우팅 설계법.
요청을 분류해 품질·비용·지연시간과 안전 기준을 함께 고려하는 LLM 라우팅 설계법.
RAG top-K 뒤 reranking으로 상위 결과를 재정렬해 NDCG@10 개선과 비용·지연 트레이드오프를 평가한다.
무료·유료 체감 품질은 모델보다 레이트리밋, 우선처리, 컨텍스트, 기능 접근권에서 갈린다.
모델보다 툴·권한·세션 운영 등 하네스가 에이전트 완주율과 품질을 좌우한다.
AI 코딩 도구 확산으로 CS 학습이 작성에서 이해·검증·설계로 이동한다.
지난 수집 자료(공식/뉴스) 중 중요한 링크를 모아 정리했다.
레이트리밋·실시간 사용량·크레딧을 결합해 고비용 모델의 지속 접근과 SLO를 제어하는 설계 관점
AI 우려를 task 자동화, 고위험 투명성·감사, 안전 TEVV로 나눠 도입 요건을 정리한다.
비신뢰 입력이 툴콜 권한 경로로 이어지는 프롬프트 인젝션을 최소권한·격리·출력검증으로 막는 설계 체크리스트.
모델명 고정으로 생기는 출력 흔들림을 줄이려면 성공 기준·형식·실패 처리와 Evals로 회귀를 관리하자.
EU DSM 지침 TDM 예외와 미 저작권청 가이던스로 학습 적법성·옵트아웃·인간기여 점검.
OpenAI GABRIEL은 정성 텍스트·이미지를 정량화하고 재현·감사 추적 파이프라인을 지원한다.
Seedance 2.0 논란은 학습을 넘어 출력 유사성·딥페이크·배포 설계로 리스크가 이동한다.
코딩 에이전트 속도를 토큰/초 대신 duration(출력·프리필·도구·네트워크)로 분해해 병목을 찾는다.
Codex Spark 추론을 Cerebras WSE-3로 구동. 코딩 워크로드 병목과 PoC 측정 포인트 정리.
LLM 제공자 문서 변경을 감지해 429·헤더 신호로 대응하는 운영 루프 설계.
RAG 5단계에서 인용 환각·근거 불일치를 줄이는 분할·검색·거절 체크리스트.
샌드박스·로그·테스트로 검증되는 에이전트 코딩과 영상 생성의 반복 수정 비용 감소를 지표로 분석.
에이전트가 링크를 열 때 URL 유출·프롬프트 인젝션을 줄이는 지침 계층·URL 제약·샌드박스를 정리.
지난 수집 자료(공식/뉴스) 중 중요한 링크를 모아 정리했다.
LLM 선택은 구조화 출력, 캐시·배치, 레이트리밋, 데이터 통제 등 운영 기능 차이에서 갈린다.
Claude Code의 셸·파일 접근과 계획-실행-검증 루프로, 권한·검증·리뷰 중심 개발로 이동한다.
Cloudflare가 HTML을 Markdown으로 자동 변환. RAG 입력 단순화와 인용·통제·인젝션 리스크를 점검한다.
추론·즉시 모드 선택이 품질·비용·지연을 바꾼다. If/Then 자동선택과 진행 표시로 신뢰를 높이자.