Aionda

"multimodal" 태그

25개의 글이 있습니다

전체 태그 보기 전체 글 보기

음성감정, 오디오와 전사 결합

출처2026년 7월 10일2026-07-10

음성감정, 오디오와 전사 결합

오디오와 생성 전사를 함께 읽는 크로스모달 음성 감정분석의 가치와 한계를 짚는다.

방사선 보고서 AI의 현실

출처2026년 7월 8일2026-07-08

방사선 보고서 AI의 현실

Harrison.Rad 1.5의 방사선 보고서 초안 작성 가치와 규제·연동 리스크를 짚는다.

콜드스타트 PPI의 5개 모달리티

출처2026년 7월 4일2026-07-04

콜드스타트 PPI의 5개 모달리티

MKGR은 서열 1개와 지식그래프 4개를 결합해 콜드스타트 PPI에서 기존 베이스라인보다 전반적 우위를 보고했다.

OCB로 본 오피스 이해 한계

출처2026년 7월 3일2026-07-03

OCB로 본 오피스 이해 한계

OCB는 네이티브 오피스 파일 이해를 평가하며, PDF QA를 넘는 문서 AI 한계를 드러낸다.

MMG-Pop으로 본 인기 예측

출처2026년 6월 29일2026-06-29

MMG-Pop으로 본 인기 예측

Bluesky·Reddit 기반 MMG-Pop이 멀티모달·시간 그래프로 소셜 인기 예측의 기준과 한계를 짚는다.

비디오 추론의 맹신 문제

출처2026년 6월 26일2026-06-26

비디오 추론의 맹신 문제

비디오 추론 모델의 Blind Trust Problem과 프레임·도구 신뢰도 기반 대응 전략을 짚는다.

영화문법 비디오캡셔닝의 과제

출처2026년 6월 24일2026-06-24

영화문법 비디오캡셔닝의 과제

CineCap은 카메라 움직임·샷 크기·앵글 등 영화문법을 구조적으로 읽는 비디오캡셔닝 과제를 다룬다.

IV-CoT, 구조 준수 설계

출처2026년 6월 24일2026-06-24

IV-CoT, 구조 준수 설계

IV-CoT는 텍스트-이미지 생성에서 구조 계획과 외형 렌더링을 분리해 수량·위치·속성 조건 준수를 겨냥한다.

안전 중심 운전자 메시지 평가

출처2026년 6월 23일2026-06-23

안전 중심 운전자 메시지 평가

LLM 운전자 개입 메시지는 문장 유사도보다 위험·긴급성 정렬과 반응 유도가 더 중요하다는 평가 전환을 다룬다.

먼저 보고 답하는 멀티모달

출처2026년 6월 18일2026-06-18

먼저 보고 답하는 멀티모달

시각 근거 충분성을 먼저 학습시켜 멀티모달 응답의 이미지 일치와 신뢰성을 높이려는 논문 이슈.

CAPED와 모바일 화면 프라이버시

출처2026년 6월 12일2026-06-12

CAPED와 모바일 화면 프라이버시

CAPED는 모바일 GUI 에이전트가 스크린샷 전송 전 민감 정보를 가려 노출을 줄이는 접근을 제시한다.

유튜브 요약, 자막인가 비전인가

커뮤니티2026년 6월 12일2026-06-12

유튜브 요약, 자막인가 비전인가

유튜브 요약 앱을 자막 기반으로 시작할지, 프레임 분석 멀티모달로 확장할지의 제품·비용·평가 기준을 정리한다.

기업 문서 RAG, 구조가 답

출처2026년 6월 4일2026-06-04

기업 문서 RAG, 구조가 답

기업 문서 RAG에선 모델보다 검색 단위가 중요하다. 표·양식 구조를 살린 검색 전략을 짚는다.

MOV-Bench로 보는 영상 추론

출처2026년 5월 28일2026-05-28

MOV-Bench로 보는 영상 추론

MOV-Bench가 시간 분산 오디오·비주얼 단서 추론의 평가 공백과 에이전트형 개선 가능성을 짚는다.

다중 이미지 탈옥의 허점

출처2026년 5월 20일2026-05-20

다중 이미지 탈옥의 허점

다중 이미지 조합이 단일 이미지 필터를 우회해 멀티모달 LLM 안전 정렬의 구조적 취약점을 드러냈다.

영화·TV 화자 분할 확장

출처2026년 3월 20일2026-03-20

영화·TV 화자 분할 확장

회의실 중심 화자 분할이 영화·TV로 확장되며 오프스크린 발화와 자막 불일치 대응이 핵심 과제가 된다.

프롬프트 감소가 바꾸는 영상 운영

커뮤니티2026년 3월 11일2026-03-11

프롬프트 감소가 바꾸는 영상 운영

프롬프트가 줄수록 영상 제작은 생성에서 운영으로 이동한다. 레퍼런스·스토리보드·멀티모달 통제를 문서화하라.

의료 멀티모달 추론, 점수보다 실패 모드

출처2026년 3월 7일2026-03-07

의료 멀티모달 추론, 점수보다 실패 모드

의료 멀티모달 추론은 평균 점수보다 grounding·실패 모드·감사 로그 중심 통제 평가가 핵심이다.

지도 입력 오인식, 전처리 리스크

커뮤니티2026년 3월 4일2026-03-04

지도 입력 오인식, 전처리 리스크

지도·지형 입력에서 리사이즈·타일링·토큰화 차이가 지리 오인식을 재현 가능한 제품 리스크로 만든다.

유료 구독자의 멀티모달 기능 제한 원인과 해결 방법

커뮤니티2026년 2월 2일2026-02-02

유료 구독자의 멀티모달 기능 제한 원인과 해결 방법

유료 구독 계정에서 멀티모달 기능이 제한되는 권한 동기화 오류의 원인을 분석하고 세션 갱신 등 실질적인 해결 방법을 안내합니다.

ChitChats: 멀티모달 캐릭터 대화 지원

커뮤니티2026년 1월 22일2026-01-22

ChitChats: 멀티모달 캐릭터 대화 지원

ChitChats은 이미지 입력과 실시간 스트리밍을 결합해 멀티모달 캐릭터 대화 경험을 강화하려는 시도를 보여줍니다.

발표 자료와 팟캐스트로 변환되는 어도비 애크로뱃 AI

뉴스2026년 1월 21일2026-01-21

발표 자료와 팟캐스트로 변환되는 어도비 애크로뱃 AI

PDF를 발표 슬라이드와 팟캐스트로 변환하고 출처를 명확히 제시하는 어도비 애크로뱃 AI의 멀티모달 진화에 대해 알아봅니다.

구글 Gemma 3 공개: 온디바이스 멀티모달의 혁신

공식/신뢰2026년 1월 16일2026-01-16

구글 Gemma 3 공개: 온디바이스 멀티모달의 혁신

구글 Gemma 3는 128K 컨텍스트와 멀티모달 구조를 통해 스마트폰 등 로컬 환경에서 압도적인 효율성과 추론 성능을 제공합니다.

구글 MedGemma 공개: 데이터 주권 보장하는 의료 AI

공식/신뢰2026년 1월 16일2026-01-16

구글 MedGemma 공개: 데이터 주권 보장하는 의료 AI

구글이 의료 AI 모델 MedGemma를 공개했습니다. 높은 성능과 로컬 배포를 통한 데이터 주권 보장으로 의료 현장을 혁신합니다.