프롬프트 그룹으로 세그멘테이션 안정화
동일 의미 프롬프트의 마스크 변동을 줄이는 그룹 일관성 학습과 제로샷 Dice 개선을 정리.
동일 의미 프롬프트의 마스크 변동을 줄이는 그룹 일관성 학습과 제로샷 Dice 개선을 정리.
벤치 점수 0.1 논쟁의 함정을 짚고, 재현 가능한 다중지표·로드맵 기반 모델 선택법을 제시한다.
LLM은 설계·조정, 과학모델은 제약·평가를 맡아 재귀 최적화를 만든다.
4비트 양자화에서 PPL이 FP16보다 낮아질 수 있는 조건과 재현 검증 절차를 정리한다.
음주가 반응 억제를 낮춰 AI 설명이 길어질 때, 분위기를 지키는 대화 규칙을 제안한다.
Model Spec의 체인 오브 커맨드와 정책 충돌로 페르소나·사고 규칙이 흔들린다. 우선순위·예외·fallback으로 재현성을 높인다.
CAPTCHA는 맥락에 따라 마찰이 달라지고, ML 우회로 보안 대비 비용이 커진다.
MLLM 제로샷 VAD의 오탐·미탐, 프롬프트·클립 길이(1–3초) 영향과 점검법을 정리.
딥러닝 인지 불확실성을 자율성 게이팅 신호로 써 반자율·텔레옵을 전환하는 SPIRIT 접근.
신모델 과신·의인화·환각을 줄이기 위해 주장-근거-검증으로 업무를 쪼개는 방법.
LegalBench로 법률 LLM을 평가하고, 정당화·감사가능성을 논증 구조로 설계하는 방법을 정리한다.
Logi-PAR은 임상 PAR에 미분가능 논리 규칙을 넣어 규칙 추적과 반사실 개입으로 설명·감사를 강화한다.
장기 메모리 오염을 줄이고 감사성을 높이는 LLM 에이전트 메모리 입장제어 설계와 계측을 정리한다.
의료 멀티모달 추론은 평균 점수보다 grounding·실패 모드·감사 로그 중심 통제 평가가 핵심이다.
PDF 표 추출은 입력 방식·용량 제한·시각 분석 여부에 따라 결과가 달라져 구조 지표 기반 평가가 필요하다.
웹검색·추론 모드가 정확도·재현성·응답시간에 주는 트레이드오프와 검증 절차를 정리한다.
110k 토큰·30MB 제한 속 장문 보고서는 검색(근거)과 서술(논리)을 분리해 분할 루프로 품질·감사를 높인다.
폴란드어 11B 모델에서 2-bit PTQ 6종을 비교, 지표와 생성 붕괴 괴리를 분석.
에이전트 장기 실행에서 목표 드리프트를 측정하고 HAT 불확실성을 줄이는 운영 지표를 정리한다.
트리거 유무에 따라 EM이 0.0–1.0%에서 12.2–22.8%로 급변해 평가 사각지대가 생긴다.
연속학습 망각을 정확도뿐 아니라 구조적 붕괴·가소성 상실로 해석하고 eRank로 추적한다.
GPS·텔레메트리 없이 UAV 단안 영상에서 차량을 앵커로 GSD를 추정해 절대 스케일을 복원한다.
ChatGPT 기본 모델 교체로 톤·거절·창의성이 달라질 수 있다. 가드레일과 표현 균형을 점검하자.
LLM이 쉽게 푸는 과제가 만드는 난이도 착시와 다중지표·프로토콜 기반 평가/게이트 설계법