Aionda

"benchmark" 태그

50개의 글이 있습니다

전체 태그 보기 전체 글 보기

의료 LLM 평가의 전환

출처2026년 7월 12일2026-07-12

의료 LLM 평가의 전환

의료 LLM을 정답률이 아닌 임상 추론 역량으로 재평가하자는 서베이의 핵심을 정리한다.

LLM 점수와 AGI의 거리

커뮤니티2026년 7월 11일2026-07-11

LLM 점수와 AGI의 거리

LLM 성능 향상이 AGI 전조인지, 외부 도구·기억·계획 결합의 결과인지 공개 자료로 짚는다.

LLM 합의는 정확한가

출처2026년 7월 11일2026-07-11

LLM 합의는 정확한가

LLM 합의율을 정확도의 대리 지표로 쓰는 관행에 상관 오류와 동시 오답 비율 관점에서 의문을 제기한다.

한국어 LLM 비교의 세 기준

커뮤니티2026년 7월 10일2026-07-10

한국어 LLM 비교의 세 기준

한국어 LLM은 한 줄 순위보다 자연스러움·화용론·지시 이행으로 나눠 비교해야 한다.

PCBWorld로 보는 자동배선 평가

출처2026년 7월 9일2026-07-09

PCBWorld로 보는 자동배선 평가

KiCad 엔진과 DRC 피드백으로 PCB 자동배선 AI를 실제 제약 중심으로 평가하는 PCBWorld를 소개한다.

질문형 AI의 정확도와 검증

커뮤니티2026년 7월 7일2026-07-07

질문형 AI의 정확도와 검증

질문형 AI는 검색을 바꾸지만, 정확한 답과 출처 검증이 실무 품질을 가른다.

왜 LLM은 코딩을 앞세우나

커뮤니티2026년 7월 6일2026-07-06

왜 LLM은 코딩을 앞세우나

LLM 기업이 코딩을 대표 성능 지표로 내세우는 이유와 비개발자에게 생기는 편중 효과를 짚는다.

의료 AI, 시험보다 임상 추론

출처2026년 7월 4일2026-07-04

의료 AI, 시험보다 임상 추론

객관식 의료 벤치마크 이후, 오픈엔디드 임상 추론과 안전성 평가가 더 중요해지고 있다.

PACE로 에이전트 평가 압축

출처2026년 7월 4일2026-07-04

PACE로 에이전트 평가 압축

PACE는 저비용 비에이전트 평가로 고비용 에이전트 성능 예측 가능성을 점검한다.

코드 모델 비교의 기준

커뮤니티2026년 7월 3일2026-07-03

코드 모델 비교의 기준

코드 모델 평가는 벤치마크 점수보다 이슈 해결, 재시도, 토큰 비용을 함께 봐야 한다.

언어모델은 세계를 아는가

커뮤니티2026년 6월 29일2026-06-29

언어모델은 세계를 아는가

언어 성능과 세계모델은 다를 수 있다. 시간·공간·물리 추론 실패 패턴으로 LLM 평가 기준을 다시 본다.

MMG-Pop으로 본 인기 예측

출처2026년 6월 29일2026-06-29

MMG-Pop으로 본 인기 예측

Bluesky·Reddit 기반 MMG-Pop이 멀티모달·시간 그래프로 소셜 인기 예측의 기준과 한계를 짚는다.

LLM 평가의 82% 맹점

출처2026년 6월 28일2026-06-28

LLM 평가의 82% 맹점

단일 점수 중심 LLM 벤치마크가 놓치는 성능과 비용 최적화의 핵심을 짚는다.

OpenFinGym, 금융 AI 평가 전환점

출처2026년 6월 27일2026-06-27

OpenFinGym, 금융 AI 평가 전환점

OpenFinGym은 금융 AI를 정확도보다 예측·거래·리스크를 잇는 워크플로로 검증하자는 제안이다.

RAG의 시간적 유효성 문제

출처2026년 6월 26일2026-06-26

RAG의 시간적 유효성 문제

RAG가 과거·현재 사실을 함께 검색해 생기는 stale-fact 오류와 시간적 유효성 대응을 다룬다.

관계 추론 벤치마크 자동화

출처2026년 6월 25일2026-06-25

관계 추론 벤치마크 자동화

LLM으로 관계 추론 벤치마크를 자동 생성할 때 난도 통제, 정답 품질, 오염과 편향 점검이 왜 중요한지 짚는다.

RAG를 넘는 도메인 판단

커뮤니티2026년 6월 25일2026-06-25

RAG를 넘는 도메인 판단

RAGBench와 LegalBench로 본 기업 LLM 과제: 검색 성능과 도메인 판단은 분리해 검증해야 한다.

HOLMES, 논리 추론의 시험대

출처2026년 6월 24일2026-06-24

HOLMES, 논리 추론의 시험대

HOLMES는 규칙·술어·제약 자체를 묻는 고차 논리 벤치마크로, LLM 추론의 한계를 드러낸다.

IV-CoT, 구조 준수 설계

출처2026년 6월 24일2026-06-24

IV-CoT, 구조 준수 설계

IV-CoT는 텍스트-이미지 생성에서 구조 계획과 외형 렌더링을 분리해 수량·위치·속성 조건 준수를 겨냥한다.

중국산 LLM, 어디까지 왔나

커뮤니티2026년 6월 19일2026-06-19

중국산 LLM, 어디까지 왔나

중국산 LLM의 경쟁력은 발언보다 벤치마크와 독립 평가, 비용 효율을 함께 봐야 드러난다.

LLM 추론, 정답보다 과정

커뮤니티2026년 6월 18일2026-06-18

LLM 추론, 정답보다 과정

LLM 평가는 정답률만으론 부족하다. 중간 추론의 일관성, 제약 유지, 자기검증까지 함께 봐야 한다.

단백질 AI 평가의 전환

출처2026년 6월 3일2026-06-03

단백질 AI 평가의 전환

TadA-Bench는 단백질 AI를 예측 점수보다 실험 선택과 순서 결정 능력으로 다시 평가하자고 제안한다.

코드골프 벤치의 함정

출처2026년 6월 1일2026-06-01

코드골프 벤치의 함정

CodeGolf Bench가 60개 언어에서 LLM의 간결한 코드 생성을 평가하지만 실무 생산성과는 구분해 봐야 한다.

SCALE, 웹 에이전트의 자가탐색

출처2026년 6월 1일2026-06-01

SCALE, 웹 에이전트의 자가탐색

SCALE은 웹 에이전트가 전문가 시연 의존을 줄이고 자기탐색·자기평가로 학습할 수 있는지 짚는다.