규제 QA의 인용 폐쇄
규제 QA에서 답변 정확도보다 규칙별 출처 귀속과 인용 폐쇄의 중요성을 짚는다.
규제 QA에서 답변 정확도보다 규칙별 출처 귀속과 인용 폐쇄의 중요성을 짚는다.
외부 문서의 지시문형 잡음을 명령으로 오인하는 RAG 취약점과 대응 우선순위를 짚는다.
개인 구독과 API의 과금·계약 구조 차이와 AI 한도 재판매의 정책·보안 리스크를 짚는다.
DMC는 데이터 품질보다 학생 모델과의 난이도 정합성이 추론 증류 성능에 중요할 수 있음을 짚는다.
AI를 수학의 정답 생성기보다 장기 과제 수행자이자 전략 보조자로 보는 관점을 짚는다.
Claude Code와 Codex가 동일 인프라에서 중력파 분석 파이프라인을 자율 수행하는 실험을 다룬다.
K-12 글쓰기에서 LLM을 교사·학생·모델 협업과 통제 기준으로 설계하는 연구를 짚는다.
에이전트형 AI의 실패를 정확도가 아닌 거버넌스와 운영 통제 부담의 문제로 짚는다.
SCDBench는 스마트 컨트랙트 디컴파일을 그럴듯한 코드가 아닌 의미 일치 기준으로 평가하자고 제안한다.
합성 데이터 생성을 스트리밍 학습으로 재정의하고 전이·망각·피드백 루프를 점검하는 관점을 다룬다.
TaxDistill은 모델 크기보다 사전학습 데이터와 표현 증류가 메타게놈 분류에 더 중요하다고 본다.
시계열 LLM은 숫자를 읽어도 시간 구조를 놓칠 수 있다. COM 제약으로 연속성과 순서성 보존을 강화하는 연구를 정리했다.
최종 답 합의보다 추론 트레이스 집계가 멀티에이전트 정답 복구에 유리하다는 논문을 짚는다.
VitalAgent는 ECG·PPG 장기 스트림에서 추론·기억·선제 경보를 결합한 에이전트 구조를 제안한다.
재현성 예측에서 인간과 AI 협업의 가능성과 편향·책임·기밀 리스크를 짚는다.
MOV-Bench가 시간 분산 오디오·비주얼 단서 추론의 평가 공백과 에이전트형 개선 가능성을 짚는다.
코드 생성 포스트트레이닝에서 오프라인 RL이 온라인 RL 비용을 줄일 실전 대안인지 짚는다.
불완전한 applied ML 논문을 에이전트형 절차와 슬롯 기반 표준으로 벤치마크화하는 쟁점을 다룬다.
범용 에이전트에 정책 계층을 두어 툴 호출, 승인, 정보 노출을 구조적으로 통제하는 접근을 다룬다.
GPU 메모리 제약에서 멀티모델 LLM의 오프로딩·선점 비용과 모델별 성능 차이를 짚는다.
COBALT는 스마트폰·클라우드 텔레오퍼레이션으로 로봇 시연 데이터 수집 병목을 낮추는 접근을 제안한다.
손글씨 수학 자동 채점의 핵심은 OCR보다 과정 이해다. 배포 전 부분점수와 재검토 절차를 검증해야 한다.
다중 이미지 조합이 단일 이미지 필터를 우회해 멀티모달 LLM 안전 정렬의 구조적 취약점을 드러냈다.
Florence-2를 ROS 2 토픽·서비스·액션으로 감싸 로컬 추론과 재현 가능한 통합을 강조한 사례