장문 보고서: 검색·서술 분리 워크플로우
110k 토큰·30MB 제한 속 장문 보고서는 검색(근거)과 서술(논리)을 분리해 분할 루프로 품질·감사를 높인다.
876개 · 8 / 37페이지
110k 토큰·30MB 제한 속 장문 보고서는 검색(근거)과 서술(논리)을 분리해 분할 루프로 품질·감사를 높인다.
IDE 플러그인에서 CLI 코딩 에이전트로 이동하며 AGENTS.md와 컨텍스트 파이프라인이 신뢰성을 좌우한다.
폴란드어 11B 모델에서 2-bit PTQ 6종을 비교, 지표와 생성 붕괴 괴리를 분석.
에이전트 장기 실행에서 목표 드리프트를 측정하고 HAT 불확실성을 줄이는 운영 지표를 정리한다.
트리거 유무에 따라 EM이 0.0–1.0%에서 12.2–22.8%로 급변해 평가 사각지대가 생긴다.
연속학습 망각을 정확도뿐 아니라 구조적 붕괴·가소성 상실로 해석하고 eRank로 추적한다.
GPS·텔레메트리 없이 UAV 단안 영상에서 차량을 앵커로 GSD를 추정해 절대 스케일을 복원한다.
서술형 질의에 맞는 엔드투엔드 에이전트 구성을 추천하는 AgentSelect 벤치마크를 소개한다.
지난 수집 자료(공식/뉴스) 중 중요한 링크를 모아 정리했다.
CoT 중간 교란은 정답률을 크게 낮춘다. 단위·수학은 별도 검증과 합의가 필요하다.
ChatGPT 기본 모델 교체로 톤·거절·창의성이 달라질 수 있다. 가드레일과 표현 균형을 점검하자.
3D 병변 분할에서 다중 정답·불확실성 평가와 VDD의 합의 prior 앵커링을 정리.
LLM이 쉽게 푸는 과제가 만드는 난이도 착시와 다중지표·프로토콜 기반 평가/게이트 설계법
희소·구식 상호작용 데이터에서, 하드 클리핑 대신 log-ratio 가우시안 신뢰가중으로 안정적 재사용을 제안.
에이전틱 AI 실패를 모델 한계가 아닌 외부화 거버넌스로 재정의하고 3-트랙을 제안한다.
부분관측 TAMP에서 과업 비관련 객체도 반영해 LLM로 belief를 보강하고, 캘리브레이션·안전필터로 신뢰성을 다룬다.
LLM 연구 에이전트 루프에서 정식화 병목을 줄이려면 로그·지속평가·도구정확도 지표가 핵심이다.
경영 조언에서 모호성 감지·명확화와 시코팬시 억제가 품질·책임에 미치는 영향과 평가 지표를 정리.
MASS는 추론 중 합성데이터로 self-update해 즉시 적응한다. 로그·감사·무결성 설계가 핵심.
AI 구독은 가격보다 한도·약관·업타임 공개를 점검해 업무 중단 위험을 줄이는 최소 조합이 핵심이다.
LLM 추천이 대화로 추론한 트라우마·자해 등 민감도를 무시하면 개인 맞춤형 안전 위반이 된다.
PlugMem은 에이전트 밖 플러그인형 장기 메모리로 컨텍스트 팽창·관련성 저하를 줄이고 지속 리스크를 점검한다.
도구 금지·확대 금지 같은 퍼즐평가 제약은 문장보다 API 설정과 로그로 고정해야 재현된다.
NVML/DCGM/nvidia-smi는 구간 평균·비율이다. 1Hz 로깅에서 LLM 추론 전력 변동을 해석한다.