GPT-5 обошел другие ИИ в пространственном мышлении. Но до людей еще далеко

от автора

Специалисты SenseTime Research и S‑Lab (NTU) в свежем исследовании проанализировали способности GPT-5 к пространственному мышлению, сравнив их с человеческим навыком и другими ИИ — Gemini 2.5 Pro, Qwen 2.5 и InternVL3. Тест проходил в шести основных категориях:

  • MM — измерения: прикидка размеров/длины/глубины по 2D‑кадрам.

  • MR — мысленная реконструкция: восстановление формы по виду/видам, «повороты в уме».

  • SR — отношения в пространстве: слева/справа, ближе/дальше, ориентации объектов.

  • PT — смена точки зрения: сопоставление разных ракурсов/камер.

  • DA — деформация и сборка: развертки кубов, узлы, составные детали.

  • CR — комплексное рассуждение: многошаговые задачи с памятью (навигация, скрытые объекты и т. п.).

Для теста использовались восемь бенчмарков, включавших разные категории: VSI (MM, SR, PT, CR), SITE (MM, SR, PT, CR), MMSI (MM, MR, PT, CR), OmniSpatial (MM, PT, CR), MindCube‑Tiny (PT), STARE (PT, DA, CR), CoreCognition (SR, PT), SpatialViz (MR, SR, DA, CR). Вот результаты:

По тестам видно, что GPT-5 обходит Gemini 2.5. Pro на 8-24% (провал в SpatialViz вызван неудачной настройкой модели, из‑за чего режим рассуждений пришлось переводить в minimal), но сильно уступает человеку. Модель уже хорошо справляется с оценкой размеров и дистанций, а также отношения объектов в пространстве. При этом GPT-5 все еще плохо справляется с сопоставлением разных ракурсов, сборкой и деформацией, обнаружением скрытых объектов и мысленной реконструкцией сцены. Все это — необходимые навыки для управления роботами и создания виртуальных миров.

P. S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.


ссылка на оригинал статьи https://habr.com/ru/articles/939196/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *