루브릭형 자동채점의 전환
오픈엔디드 자동채점을 루브릭·개념 단위로 분해해 검증 가능성과 수정 가능성을 높이는 접근을 다룬다.
874개 · 2 / 37페이지
오픈엔디드 자동채점을 루브릭·개념 단위로 분해해 검증 가능성과 수정 가능성을 높이는 접근을 다룬다.
CyberJurors는 전자상거래 분쟁에서 다회차·멀티모달 증거와 플랫폼 규칙 적응을 함께 평가한다.
멀티모달 AI의 차트·도표 해석 한계와 연구·검토 업무에서 필요한 교차검증 원칙을 짚는다.
재현성 예측에서 인간과 AI 협업의 가능성과 편향·책임·기밀 리스크를 짚는다.
MOV-Bench가 시간 분산 오디오·비주얼 단서 추론의 평가 공백과 에이전트형 개선 가능성을 짚는다.
이질적 시뮬레이터 환경의 FedRL에서 입력 분포 불일치를 줄이는 PON 논문 핵심과 실험 의미를 정리했다.
코드 생성 포스트트레이닝에서 오프라인 RL이 온라인 RL 비용을 줄일 실전 대안인지 짚는다.
불완전한 applied ML 논문을 에이전트형 절차와 슬롯 기반 표준으로 벤치마크화하는 쟁점을 다룬다.
AI 수직통합의 핵심은 칩보다 훈련 스택 통제다. 지연, 처리량, 활용률, 복구가 경쟁력을 가른다.
지난 수집 자료(공식/뉴스) 중 중요한 링크를 모아 정리했다.
범용 에이전트에 정책 계층을 두어 툴 호출, 승인, 정보 노출을 구조적으로 통제하는 접근을 다룬다.
표 질의응답에서 셀 탐색과 추론 단계를 구조화해 정답률뿐 아니라 근거 경로 검증까지 강화하는 접근을 다룬다.
지난 수집 자료(공식/뉴스) 중 중요한 링크를 모아 정리했다.
MOCHA는 에이전트 스킬을 다중 필드 아티팩트로 보고, 플랫폼 제약까지 함께 최적화해야 함을 보여준다.
GPU 메모리 제약에서 멀티모델 LLM의 오프로딩·선점 비용과 모델별 성능 차이를 짚는다.
지난 수집 자료(공식/뉴스) 중 중요한 링크를 모아 정리했다.
COBALT는 스마트폰·클라우드 텔레오퍼레이션으로 로봇 시연 데이터 수집 병목을 낮추는 접근을 제안한다.
손글씨 수학 자동 채점의 핵심은 OCR보다 과정 이해다. 배포 전 부분점수와 재검토 절차를 검증해야 한다.
다중 이미지 조합이 단일 이미지 필터를 우회해 멀티모달 LLM 안전 정렬의 구조적 취약점을 드러냈다.
의료·금융의 주장 검증에서 이진 판정 대신 삼진 분류와 설명 가능한 논증 구조를 제안한 연구.
지난 수집 자료(공식/뉴스) 중 중요한 링크를 모아 정리했다.
지난 수집 자료(공식/뉴스) 중 중요한 링크를 모아 정리했다.
사람 눈보다 질문 단서 보존에 맞춘 VLM 이미지 압축 흐름과 비트레이트 절감 의미를 짚는다.
Florence-2를 ROS 2 토픽·서비스·액션으로 감싸 로컬 추론과 재현 가능한 통합을 강조한 사례