Latam 문화맥락 Q/A로 LLM 격차 측정
Wikidata·Wikipedia로 Latam 국가별 Q/A(2.6만+) 구축, MCQ로 LLM 격차를 계량한다.
Wikidata·Wikipedia로 Latam 국가별 Q/A(2.6만+) 구축, MCQ로 LLM 격차를 계량한다.
처리량·정확도 수치를 연구 자동화로 단정하지 말고, 성공률·시간·검증 조건을 고정해 예측하자.
멀티플로우 PINN 확장 시 공유/개별 표현, 간섭, 손실 스케일 문제를 UniPINN으로 정리.
지난 수집 자료(공식/뉴스) 중 중요한 링크를 모아 정리했다.
스킬을 프롬프트가 아닌 실행 함수 코드로 정의해 생성·실행·업데이트·저장 루프로 축적한다.
FuzzingRL은 퍼징+강화 파인튜닝으로 VLM 오답 질문을 자동 생성해 실패 모드를 찾는다.
LLM이 초전도 큐비트 제어·측정을 도구 생성·호출로 자동화하는 프레임워크와 안전·로그 과제를 정리.
비정형 문서를 스키마화해 마코프 리스크 표면과 RL 수색정책을 만들고 LLM이 QA로 점검한다.
비결정적 인용 변동을 단일 KPI로 보지 말고 반복 샘플링 분포로 비교·감지하자.
실종아동 수사에서 멀티 LLM과 합의 엔진으로 불일치를 줄이고 TEVV 중심 운영을 제안.
의료 DC를 결정트리·Cox 회귀로 확장하고 DP+제로오더로 안전한 합성 데이터 공유를 논한다.
OCL 스트림에서 PEFT 한계를 점검하고 라우팅·게이팅으로 망각과 지연을 관리한다.
AI 자기증폭 R&D 루프가 커질수록 12% 얼라인먼트 페이킹 위험이 커져 TEVV·독립검토·모니터링이 핵심이다.
의료 LLM 권고는 성별·보험·주거 등 SDoH 교차성에 따라 달라질 수 있어 배포 전 시나리오 테스트와 거부율 측정이 필요하다.
멀티턴 툴-사용 에이전트 RL을 실행 가능한 체커 신호로 자동화하고, 비용·재현성과 리스크를 점검한다.
프롬프트가 줄수록 영상 제작은 생성에서 운영으로 이동한다. 레퍼런스·스토리보드·멀티모달 통제를 문서화하라.
ABRA로 셀 페인팅 배치 효과를 적대적으로 줄이고, 클래스 구분력 보존과 과보정 위험을 함께 본다.
지난 수집 자료(공식/뉴스) 중 중요한 링크를 모아 정리했다.
병리 AI의 벤치마크-현장 갭과 외부검증·드리프트 감시·감사로그 등 운영요건을 정리.
외부 검증기 없는 사실성 과제에서 다수결 컨센서스는 25배 비용에도 성능이 불안정하다.
logprobs와 자연어 확률은 다르다. 다중후보 프롬프트의 신뢰도 표기와 실험법을 정리한다.
RAG-Driver는 검색된 전문가 시연으로 주행 설명을 그라운딩하지만 평가는 BLEU·METEOR·CIDEr 중심이다.
LIM 학습 에너지 하한을 설계 KPI로 쓸지, ADC·보정 등 시스템 오버헤드와 함께 평가할지 정리.
컨텍스트·출력 한도 비교를 넘어, 과업 분해와 빌드·테스트로 재현 가능한 코드 통합 평가 설계.