VLM 시각탐색 평가의 새 기준

2,061개 예제로 구성된 에이전트형 멀티모달 탐색 벤치마크가 별도로 제안된 한편, VLM의 “생각 토큰” 길이를 인간의 반응시간처럼 해석하려는 실험도 나왔다. 같은 시기 시각탐색 연구는 고전 심리학 과제를 VLM에 적용해, 모델이 실제로 화면을 “찾는지”, 아니면 언어 패턴에 기대는지 묻는다. 이 질문은 학술적 논의에 그치지 않는다. 멀티모달 모델을 평가할 때 정답률만 볼지, 답에 이르기까지의 탐색 비용도 함께 볼지 기준을 바꿀 수 있기 때문이다.

세 줄 요약

이 글의 핵심은 VLM의 시각탐색 능력을 인간 실험의 틀로 읽어보는 평가 프레임이다. 논문은 feature search와 conjunction search 같은 고전 과제를 적용하고, 추론 토큰 수를 반응시간의 대리 지표로 쓴다.
이 방식이 중요한 이유는 정답률만으로는 드러나지 않는 모델의 “탐색 방식”을 볼 수 있기 때문이다. 다만 토큰 수와 정확도의 관계는 과제와 모델에 따라 달랐고, 실제 로보틱스나 에이전트 탐색 성능을 곧바로 예측한다고 보긴 어렵다.
독자는 VLM 평가표에 정답률만 두지 말고, 과제 난이도·셋 크기·추론 토큰 길이를 함께 기록하라. 그다음 병렬 탐색처럼 비용이 평평한지, 순차 탐색처럼 비용이 증가하는지 직접 확인하라.

현황

이번 arXiv 논문의 제목은 “Do vision-language models search like humans? Reasoning tokens as a reaction-time analog in classic visual-search paradigms”다. 발췌에 따르면 저자는 시각주의 연구에서 오래 쓰인 네 가지 과제를 VLM에 맞게 바꿨다. feature versus conjunction search, spatial-configuration인 T-vs-L search, enumeration, tilted/vernier 과제가 포함된다. 핵심 아이디어는 단순하다. 단일 모델 호출에는 인간의 반응시간이 없으니, 모델이 한 문제를 풀 때 쓰는 reasoning tokens를 같은 모델 안에서 탐색 노력의 대리값으로 읽는 방식이다.

조사 결과에서 확인되는 내용도 있다. 이 논문은 서로 다른 VLM들에서 인간의 병렬 탐색 대 순차 탐색과 닮은 패턴이 일부 재현됐다고 적는다. snippet 기준으로 feature search의 노력 기울기는 평평했고, conjunction search의 노력은 set size와 함께 증가했다. 동시에 성능은 모델별로 갈렸다. 일부 상위권 모델은 정확도를 유지했지만, 중간권 모델은 기회수준까지 떨어졌다고 요약된다.

여기서 중요한 점은 “토큰이 길수록 더 똑똑하다”는 단순한 식이 성립하지 않는다는 것이다. 조사 결과는 난이도가 올라갈수록 어떤 모델은 추론 토큰이 늘면서도 정확도를 유지하지만, 다른 모델은 토큰을 더 써도 기회수준까지 붕괴한다고 정리한다. 즉 토큰-정답률 관계는 하나의 일관된 곡선으로 설명되지 않는다. 적게 생각해도 잘 맞히는 경우가 있고, 오래 생각해도 못 찾는 경우가 있다.

이 한계는 실제 탐색 과제로 가면 더 분명해진다. InterLV-Search는 2,061개 예제를 세 단계로 나눠 에이전트형 멀티모달 탐색을 본다. VisBrowse-Bench의 Hugging Face 논문 페이지 스니펫에 따르면, best-performing model로 언급된 Claude-4.6-Opus는 47.6% 정확도, o3-deep-research는 41.1% 정확도를 기록했다. 다시 말해, 생각 토큰으로 읽는 “탐색 노력”은 하나의 분석 축이 될 수 있지만, 현실 탐색 성공률을 대신하는 지표로 보긴 어렵다.

분석

이 연구가 던지는 메시지는 평가의 초점을 바꾸자는 데 있다. 지금까지 멀티모달 모델 평가는 맞혔는지 틀렸는지, 한 장의 리더보드로 끝나는 경우가 많았다. 그런데 시각탐색 관점은 다른 질문을 한다. 작은 셋 크기에서는 쉽게 찾다가 항목 수가 늘면 급격히 헤매는가. 아니면 항목 수가 늘어도 거의 같은 비용으로 처리하는가. 이 차이는 모델이 시각적 단서를 집는지, 아니면 언어적 힌트와 표면 패턴에 더 기대는지 살피는 단서가 된다.

동시에 이 프레임을 과대해석하면 곤란하다. reasoning tokens는 어디까지나 within-model analog다. 논문 발췌도 반응시간 그 자체가 아니라 반응시간의 유사물로 쓴다고 밝힌다. 더구나 실제 에이전트 탐색은 화면만 보고 답하는 문제가 아니다. 시각 증거를 더 모아야 하고, 도구를 불러야 하고, 경로를 바꿔야 하고, 때로는 웹이나 물리 환경에서 실패를 복구해야 한다. 그래서 토큰 수가 늘어난다는 사실만으로 “더 신중하다”거나 “실전에서도 더 잘 찾는다”고 읽으면 오판이 될 수 있다.

실전 적용

실무자는 이 논문을 모델 홍보 문구보다 평가 설계의 힌트로 읽는 편이 낫다. 이미지 QA나 멀티모달 에이전트를 테스트할 때 평균 정확도만 보지 말고, 셋 크기나 방해 자극 수를 단계적으로 올려라. 그리고 각 단계에서 추론 토큰 길이, 정답률, 실패 유형을 같이 남겨라. 그러면 어떤 모델은 항목이 늘어도 비교적 안정적이고, 어떤 모델은 갑자기 무너지는지 더 분명하게 드러난다.

예: 제품 검색 어시스턴트를 만든다면 “빨간 컵 찾기” 같은 단일 특징 과제와 “빨간 손잡이의 줄무늬 컵 찾기” 같은 결합 특징 과제를 분리해 테스트할 수 있다. 두 과제의 정답률이 비슷해 보여도, 후자에서만 토큰이 급증하거나 오답이 늘면 실제 서비스에서는 복잡한 화면에서 병목이 생길 가능성이 있다. 이때 필요한 것은 더 큰 선언이 아니라 더 세밀한 로그다.

오늘 바로 할 일

멀티모달 평가셋을 단일 정답률 표에서 꺼내 과제 난이도와 셋 크기별 표로 다시 나눠라.
각 실행 로그에 추론 토큰 수와 오답 유형을 함께 저장해 “많이 생각했는데도 틀린 문제”를 따로 보라.
실제 탐색 제품을 만든다면 토큰 지표를 성공률, 경로, 도구 사용 기록과 분리해서 해석하라.

FAQ

Q. 이 논문은 VLM이 인간처럼 본다고 결론내렸나?
아닙니다. 일부 고전 시각탐색 패턴이 재현됐다는 근거는 있지만, 모델별 차이와 인간과의 불일치도 함께 보고됐습니다. 따라서 인간과 동일한 시각 주의를 수행한다고 단정하기는 어렵습니다.

Q. 추론 토큰 수가 많으면 더 정확한 모델입니까?
그렇지 않습니다. 조사 결과에 따르면 과제와 모델에 따라 토큰 증가와 정확도의 관계가 다르게 나타났습니다. 어떤 경우에는 정확도를 유지하지만, 다른 경우에는 토큰이 늘어도 성능이 기회수준까지 떨어집니다.

Q. 이 평가법으로 로봇이나 에이전트의 실제 탐색 성능을 예측할 수 있습니까?
직접 검증된 근거는 확인되지 않았습니다. 실제 탐색 시스템은 시각 증거 수집, 도구 사용, 제어 전략, 성공률 같은 별도 지표가 중요하므로 보조 지표로 쓰는 편이 맞습니다.

결론

이 논문의 가치는 “맞혔나”에서 끝나지 않고 “어떻게 찾았나”를 묻는 데 있다. 앞으로 볼 포인트는 하나다. 추론 토큰 기반 탐색 비용이 실제 에이전트 로그, 도구 사용, 성공률과 어디까지 이어지는지다.

Aionda

VLM 시각탐색 평가의 새 기준

세 줄 요약

현황

분석

실전 적용

FAQ

결론

다음으로 읽기

참고 자료

업데이트 받기