"benchmark" 태그

50개 · 2 / 3페이지

CyberJurors는 전자상거래 분쟁에서 다회차·멀티모달 증거와 플랫폼 규칙 적응을 함께 평가한다.

llm

출처2026년 5월 28일2026-05-28

MOV-Bench로 보는 영상 추론

MOV-Bench가 시간 분산 오디오·비주얼 단서 추론의 평가 공백과 에이전트형 개선 가능성을 짚는다.

agi

출처2026년 5월 28일2026-05-28

논문을 벤치마크로 바꾸기

불완전한 applied ML 논문을 에이전트형 절차와 슬롯 기반 표준으로 벤치마크화하는 쟁점을 다룬다.

agi

출처2026년 3월 27일2026-03-27

NeuroVLM-Bench 핵심

MRI·CT 기반 신경영상 벤치마크로 VLM의 임상 추론, 오류, 안전 트레이드오프를 점검한다.

llm

출처2026년 3월 26일2026-03-26

LLM 에이전트 계산 그래프

LLM 에이전트를 정적 워크플로가 아닌 실행 중 바뀌는 계산 그래프로 보고 비용·지연·통제를 함께 설계한다.

llm

출처2026년 3월 12일2026-03-12

Latam 문화맥락 Q/A로 LLM 격차 측정

Wikidata·Wikipedia로 Latam 국가별 Q/A(2.6만+) 구축, MCQ로 LLM 격차를 계량한다.

llm

커뮤니티2026년 3월 12일2026-03-12

연구 자동화 예측, 지표부터 다시 묻기

처리량·정확도 수치를 연구 자동화로 단정하지 말고, 성공률·시간·검증 조건을 고정해 예측하자.

llm

출처2026년 3월 10일2026-03-10

RM-R1: 추론 후 채점 보상모델

RM-R1은 보상모델이 추론 후 채점하도록 설계해 공개 벤치마크 성능을 최대 4.9% 개선한다.

hardware

커뮤니티2026년 3월 8일2026-03-08

벤치 점수 집착을 넘는 평가 프레임

벤치 점수 0.1 논쟁의 함정을 짚고, 재현 가능한 다중지표·로드맵 기반 모델 선택법을 제시한다.

hardware

커뮤니티2026년 3월 8일2026-03-08

4비트 양자화 PPL 역전의 조건

4비트 양자화에서 PPL이 FP16보다 낮아질 수 있는 조건과 재현 검증 절차를 정리한다.

hardware

출처2026년 3월 7일2026-03-07

연소 LLM 지식주입+평가 파이프라인

3.5B 토큰 연소 지식베이스와 CombustionQA로 지식 주입과 평가를 파이프라인으로 고정.

llm

출처2026년 3월 7일2026-03-07

EVMbench: 탐지·패치·공격까지 평가

EVMbench는 스마트컨트랙트 보안을 탐지뿐 아니라 패치와 익스플로잇까지 에이전트로 평가한다.

llm

출처2026년 3월 5일2026-03-05

AgentSelect: 질의로 에이전트 구성 추천

서술형 질의에 맞는 엔드투엔드 에이전트 구성을 추천하는 AgentSelect 벤치마크를 소개한다.

agi

커뮤니티2026년 3월 5일2026-03-05

LLM 난이도 착시와 평가 설계

LLM이 쉽게 푸는 과제가 만드는 난이도 착시와 다중지표·프로토콜 기반 평가/게이트 설계법

agi

커뮤니티2026년 3월 4일2026-03-04

LLM 자아 일관성 평가 설계

LLM의 모사와 자기 일관성을 분리해 장기 기억·페르소나 드리프트를 벤치마크로 평가하는 방법.

agi

커뮤니티2026년 3월 4일2026-03-04

지도 입력 오인식, 전처리 리스크

지도·지형 입력에서 리사이즈·타일링·토큰화 차이가 지리 오인식을 재현 가능한 제품 리스크로 만든다.

agi

커뮤니티2026년 3월 4일2026-03-04

AGI 연도예측, 채점가능하게

AGI 도래 연도 주장, 정의·지표·확률·사후채점을 갖춰 검증 가능한 예측으로 바꾸는 법.

agi

커뮤니티2026년 3월 3일2026-03-03

MLX 4비트 로컬 LLM 성능 측정법

MLX mxfp4 로컬 LLM을 같은 커맨드·프롬프트로 실행해 tokens-per-sec와 피크 메모리를 재현 비교한다.

agi

커뮤니티2026년 3월 3일2026-03-03

AGI 논쟁, 정의·평가부터 정리

추론·메모리·지속학습 용어 혼선을 KPI로 분리해 검증하는 의사결정 메모.

agi

커뮤니티2026년 3월 1일2026-03-01

프롬프트 작은 변화가 로봇 안전을 흔드는 이유

언어 지시의 미세 변화가 로봇 행동에 증폭돼 사고로 이어질 수 있음을 분석.

agi

커뮤니티2026년 2월 17일2026-02-17

벤치마크 점수와 체감 성능의 간극

정적 벤치마크 상승이 체감 품질로 직결되지 않는 이유와 오염 리스크, 실무 평가 프레임을 정리.

hardware

커뮤니티2026년 2월 16일2026-02-16

리더보드 격차 축소, 착시와 검증

리더보드 상위권 점수 차이가 작을수록 오차와 평가조건 변화가 커진다. 3~6개월 추세는 검증이 필요하다.

hardware

뉴스2026년 2월 14일2026-02-14

코딩 에이전트 속도, duration으로 쪼개 보기

코딩 에이전트 속도를 토큰/초 대신 duration(출력·프리필·도구·네트워크)로 분해해 병목을 찾는다.

llm

뉴스2026년 2월 5일2026-02-05

AI 성능 그래프의 함정과 METR 자율성 지표

단순 벤치마크 점수를 넘어 자율적 문제 해결 능력을 측정하는 METR 지표의 중요성과 실질적 모델 검증 방안을 살펴봅니다.

Aionda

"benchmark" 태그

전자상거래 분쟁 AI 평가

MOV-Bench로 보는 영상 추론

논문을 벤치마크로 바꾸기

NeuroVLM-Bench 핵심

LLM 에이전트 계산 그래프

Latam 문화맥락 Q/A로 LLM 격차 측정

연구 자동화 예측, 지표부터 다시 묻기

RM-R1: 추론 후 채점 보상모델

벤치 점수 집착을 넘는 평가 프레임

4비트 양자화 PPL 역전의 조건

연소 LLM 지식주입+평가 파이프라인

EVMbench: 탐지·패치·공격까지 평가

AgentSelect: 질의로 에이전트 구성 추천

LLM 난이도 착시와 평가 설계

LLM 자아 일관성 평가 설계

지도 입력 오인식, 전처리 리스크

AGI 연도예측, 채점가능하게

MLX 4비트 로컬 LLM 성능 측정법

AGI 논쟁, 정의·평가부터 정리

프롬프트 작은 변화가 로봇 안전을 흔드는 이유

벤치마크 점수와 체감 성능의 간극

리더보드 격차 축소, 착시와 검증

코딩 에이전트 속도, duration으로 쪼개 보기

AI 성능 그래프의 함정과 METR 자율성 지표