에이전트 프롬프트 인젝션 방어
비신뢰 입력이 툴콜 권한 경로로 이어지는 프롬프트 인젝션을 최소권한·격리·출력검증으로 막는 설계 체크리스트.
876개 · 13 / 37페이지
비신뢰 입력이 툴콜 권한 경로로 이어지는 프롬프트 인젝션을 최소권한·격리·출력검증으로 막는 설계 체크리스트.
모델명 고정으로 생기는 출력 흔들림을 줄이려면 성공 기준·형식·실패 처리와 Evals로 회귀를 관리하자.
EU DSM 지침 TDM 예외와 미 저작권청 가이던스로 학습 적법성·옵트아웃·인간기여 점검.
OpenAI GABRIEL은 정성 텍스트·이미지를 정량화하고 재현·감사 추적 파이프라인을 지원한다.
Seedance 2.0 논란은 학습을 넘어 출력 유사성·딥페이크·배포 설계로 리스크가 이동한다.
코딩 에이전트 속도를 토큰/초 대신 duration(출력·프리필·도구·네트워크)로 분해해 병목을 찾는다.
Codex Spark 추론을 Cerebras WSE-3로 구동. 코딩 워크로드 병목과 PoC 측정 포인트 정리.
LLM 제공자 문서 변경을 감지해 429·헤더 신호로 대응하는 운영 루프 설계.
RAG 5단계에서 인용 환각·근거 불일치를 줄이는 분할·검색·거절 체크리스트.
샌드박스·로그·테스트로 검증되는 에이전트 코딩과 영상 생성의 반복 수정 비용 감소를 지표로 분석.
에이전트가 링크를 열 때 URL 유출·프롬프트 인젝션을 줄이는 지침 계층·URL 제약·샌드박스를 정리.
지난 수집 자료(공식/뉴스) 중 중요한 링크를 모아 정리했다.
Secure Lock Device·침입 로깅·Identity Check 확장으로 잠금이 OS 상태가 되는 흐름을 정리.
LLM 선택은 구조화 출력, 캐시·배치, 레이트리밋, 데이터 통제 등 운영 기능 차이에서 갈린다.
Claude Code의 셸·파일 접근과 계획-실행-검증 루프로, 권한·검증·리뷰 중심 개발로 이동한다.
Cloudflare가 HTML을 Markdown으로 자동 변환. RAG 입력 단순화와 인용·통제·인젝션 리스크를 점검한다.
추론·즉시 모드 선택이 품질·비용·지연을 바꾼다. If/Then 자동선택과 진행 표시로 신뢰를 높이자.
GPT-OSS에 에이전틱 RL 적용 시 GRPO·다중 보상 설계가 효율·성능과 보상 해킹 리스크를 좌우한다.
Mission Alignment 팀 해체로 안전 책임·조율 경로가 바뀔 수 있어, 다음 릴리즈의 평가·승인 흔적을 점검해야 한다.
Codex가 Cerebras WSE‑3에서 추론, TTFT·왕복 오버헤드 감소로 저지연 경쟁이 부상.
OpenAI의 PostgreSQL 수백만 QPS 확장 사례: 복제·캐시·레이트리밋·격리로 DB 병목을 줄인다.
Prism이 LaTeX에 GPT‑5.2를 내장해 작성·협업·추론을 한 화면에 묶고 검증 루프를 강조한다.
PersonaPlex는 텍스트·오디오 프롬프트를 결합해 저지연 음성대화에서 페르소나 일관성을 겨냥한다.
ZDNET의 6개 인기 AI 트릭 질문 실험이 환각 리스크를 보여준다. RAG·CoT 등으로 검증 규칙을 고정하라.