EVMbench: 탐지·패치·공격까지 평가
EVMbench는 스마트컨트랙트 보안을 탐지뿐 아니라 패치와 익스플로잇까지 에이전트로 평가한다.
EVMbench는 스마트컨트랙트 보안을 탐지뿐 아니라 패치와 익스플로잇까지 에이전트로 평가한다.
딥러닝 인지 불확실성을 자율성 게이팅 신호로 써 반자율·텔레옵을 전환하는 SPIRIT 접근.
신모델 과신·의인화·환각을 줄이기 위해 주장-근거-검증으로 업무를 쪼개는 방법.
LegalBench로 법률 LLM을 평가하고, 정당화·감사가능성을 논증 구조로 설계하는 방법을 정리한다.
Logi-PAR은 임상 PAR에 미분가능 논리 규칙을 넣어 규칙 추적과 반사실 개입으로 설명·감사를 강화한다.
장기 메모리 오염을 줄이고 감사성을 높이는 LLM 에이전트 메모리 입장제어 설계와 계측을 정리한다.
의료 멀티모달 추론은 평균 점수보다 grounding·실패 모드·감사 로그 중심 통제 평가가 핵심이다.
PDF 표 추출은 입력 방식·용량 제한·시각 분석 여부에 따라 결과가 달라져 구조 지표 기반 평가가 필요하다.
조밀 GT 없이 희소·이동 센서로 물리장을 학습·평가하는 SOLID와 불확실성 보정을 정리.
웹검색·추론 모드가 정확도·재현성·응답시간에 주는 트레이드오프와 검증 절차를 정리한다.
LLM 자기보고는 내부 접근이 아니라 단서 기반 추론일 수 있음을 두 메커니즘으로 분해해 점검한다.
지난 수집 자료(공식/뉴스) 중 중요한 링크를 모아 정리했다.
Cryo-SWAN은 밀도맵(복셀) 중심 VAE로 3개 벤치마크에서 재구성 품질 개선을 보고한다.
AI 코딩 쿼터를 권한으로 볼 때 마켓 설계, 약관 위반·보안·검수 리스크를 If/Then으로 정리.
110k 토큰·30MB 제한 속 장문 보고서는 검색(근거)과 서술(논리)을 분리해 분할 루프로 품질·감사를 높인다.
IDE 플러그인에서 CLI 코딩 에이전트로 이동하며 AGENTS.md와 컨텍스트 파이프라인이 신뢰성을 좌우한다.
폴란드어 11B 모델에서 2-bit PTQ 6종을 비교, 지표와 생성 붕괴 괴리를 분석.
에이전트 장기 실행에서 목표 드리프트를 측정하고 HAT 불확실성을 줄이는 운영 지표를 정리한다.
트리거 유무에 따라 EM이 0.0–1.0%에서 12.2–22.8%로 급변해 평가 사각지대가 생긴다.
연속학습 망각을 정확도뿐 아니라 구조적 붕괴·가소성 상실로 해석하고 eRank로 추적한다.
GPS·텔레메트리 없이 UAV 단안 영상에서 차량을 앵커로 GSD를 추정해 절대 스케일을 복원한다.
서술형 질의에 맞는 엔드투엔드 에이전트 구성을 추천하는 AgentSelect 벤치마크를 소개한다.
CoT 중간 교란은 정답률을 크게 낮춘다. 단위·수학은 별도 검증과 합의가 필요하다.
ChatGPT 기본 모델 교체로 톤·거절·창의성이 달라질 수 있다. 가드레일과 표현 균형을 점검하자.