전자상거래 분쟁 AI 평가
CyberJurors는 전자상거래 분쟁에서 다회차·멀티모달 증거와 플랫폼 규칙 적응을 함께 평가한다.
CyberJurors는 전자상거래 분쟁에서 다회차·멀티모달 증거와 플랫폼 규칙 적응을 함께 평가한다.
MOV-Bench가 시간 분산 오디오·비주얼 단서 추론의 평가 공백과 에이전트형 개선 가능성을 짚는다.
불완전한 applied ML 논문을 에이전트형 절차와 슬롯 기반 표준으로 벤치마크화하는 쟁점을 다룬다.
MRI·CT 기반 신경영상 벤치마크로 VLM의 임상 추론, 오류, 안전 트레이드오프를 점검한다.
LLM 에이전트를 정적 워크플로가 아닌 실행 중 바뀌는 계산 그래프로 보고 비용·지연·통제를 함께 설계한다.
Wikidata·Wikipedia로 Latam 국가별 Q/A(2.6만+) 구축, MCQ로 LLM 격차를 계량한다.
처리량·정확도 수치를 연구 자동화로 단정하지 말고, 성공률·시간·검증 조건을 고정해 예측하자.
RM-R1은 보상모델이 추론 후 채점하도록 설계해 공개 벤치마크 성능을 최대 4.9% 개선한다.
벤치 점수 0.1 논쟁의 함정을 짚고, 재현 가능한 다중지표·로드맵 기반 모델 선택법을 제시한다.
4비트 양자화에서 PPL이 FP16보다 낮아질 수 있는 조건과 재현 검증 절차를 정리한다.
3.5B 토큰 연소 지식베이스와 CombustionQA로 지식 주입과 평가를 파이프라인으로 고정.
EVMbench는 스마트컨트랙트 보안을 탐지뿐 아니라 패치와 익스플로잇까지 에이전트로 평가한다.
서술형 질의에 맞는 엔드투엔드 에이전트 구성을 추천하는 AgentSelect 벤치마크를 소개한다.
LLM이 쉽게 푸는 과제가 만드는 난이도 착시와 다중지표·프로토콜 기반 평가/게이트 설계법
LLM의 모사와 자기 일관성을 분리해 장기 기억·페르소나 드리프트를 벤치마크로 평가하는 방법.
지도·지형 입력에서 리사이즈·타일링·토큰화 차이가 지리 오인식을 재현 가능한 제품 리스크로 만든다.
AGI 도래 연도 주장, 정의·지표·확률·사후채점을 갖춰 검증 가능한 예측으로 바꾸는 법.
MLX mxfp4 로컬 LLM을 같은 커맨드·프롬프트로 실행해 tokens-per-sec와 피크 메모리를 재현 비교한다.
추론·메모리·지속학습 용어 혼선을 KPI로 분리해 검증하는 의사결정 메모.
언어 지시의 미세 변화가 로봇 행동에 증폭돼 사고로 이어질 수 있음을 분석.
정적 벤치마크 상승이 체감 품질로 직결되지 않는 이유와 오염 리스크, 실무 평가 프레임을 정리.
리더보드 상위권 점수 차이가 작을수록 오차와 평가조건 변화가 커진다. 3~6개월 추세는 검증이 필요하다.
코딩 에이전트 속도를 토큰/초 대신 duration(출력·프리필·도구·네트워크)로 분해해 병목을 찾는다.
단순 벤치마크 점수를 넘어 자율적 문제 해결 능력을 측정하는 METR 지표의 중요성과 실질적 모델 검증 방안을 살펴봅니다.