LLM может довольно изобретательно разгадывать хитрые загадки, но не всегда

Когнитивные способности LLM можно оценивать по способности мыслить логически и строить цепочки рассуждений, а можно по способности разгадывать загадки, требующие смекалки и нестандартного мышления. Почему-то всё внимание направлено только на первое и совсем не исследовано второе.

Люди в разной степени владеют этими навыками, а как это у моделей?

Я проделал очень много опытов с разными моделями, и самыми топовыми и среднего уровня и все они показали в целом хороший уровень в разгадывании всевозможных загадок, от простых до сложных, но не включительно (сложные не может разгадать ни одна модель).

Мне порой кажется, что модели даже лучше проявляют себя именно в разгадывании загадок, чем в логическом мышлении, не говоря уже о решении математических задач, где проблема особенно заметна.

Я даже не побоюсь сказать, что в общем зачете модели значительно опережают меня в уровне догадливости, если так можно выразится, и не стереотипности подходов в отгадывании хитроумных загадок.

Сразу оговорюсь, что далее речь пойдет не о топовый моделях, таких как OpenAI o1 и claude3.5-sonnet, а о более простых, размером не более 35B, но вполне сообразительных, которые легко можно развернуть в домашних условиях.

Но и claude3.5-sonnet и Gemini-1.5 pro и GPT-4o и OpenAI-o1 часто не дают правильных отгадок, особенно в категории сложных загадок.
И если уж сравнить топовые модели по числу правильных отгадок, то абсолютными лидерами, причем с большим отрывом являются — OpenAI o1 на первом месте и claude3.5-sonnet на втором, которые еще и грамотно показывает весь ход своих рассуждений.

Более простые загадки модели разгадывают легко с первого раза. Более сложные или те, которые с подвохом, тоже разгадывают, но со второго раза или даже после множества попыток. Но тем не менее в конечном итоге всё равно, как правило, разгадывают.

Например, такая загадка:

Не желая признавать, что Красная армия могла нанести им поражение, немцы утверждали, что Великую Отечественную войну выиграли «генерал Мороз», «генерал Грязь» и «генерал Мышь».По поводу мороза и грязи все понятно.
А вот при чем тут мышь?

Ответ модели:

Немецкие военные использовали термин «генерал Мышь» в качестве метафорического способа описать проблемы, которые возникли из-за распространения грызунов среди их солдат и оборудования во время Великой Отечественной войны против СССР.Грызуны были серьезной проблемой на фронтах войны, особенно в зимний период, когда они могли проникать в строения или к солдатам. Это приводило к следующим проблемам:

Заражение: Грызуны могут быть переносчиками различных болезней, таких как чума, тиф и туляремия.

Уничтожение продовольствия: Они также могут поедать запасы продуктов питания, что может вызвать дефицит продовольствия среди солдат.

Повреждение техники: Грызуны могут повредить провода и другие части оборудования, что может привести к поломкам и снижению эффективности работы боевых машин.

Правильный ответ предполагался таким: мыши перегрызали проводку немецких танков.
Модель указала этот ответ в 3-м пункте, но расширила его другими умозаключениями.

Мы видим попытку комплексного осмысления в надежде включить в ответ максимально правдоподобные варианты.

Другой пример:

Как ты думаешь, почему Александр Македонский приказывал всем своим воинам перед сражением побрить бороды?

Ответ модели:

Александр Македонский мог приказать своим воинам побрить свои бороды по нескольким причинам:

чтобы упростить процесс лечения ранений во время боя;

предотвратить возможность захвата противником за бороду во время рукопашного боя;

дать свои войска более унифицированный вид для повышения морального духа;

или чтобы продемонстрировать свою силу и опрятность.

Правильный ответ предполагался таким: чтобы враги не могли схватить их за бороду.
Модель указала этот ответ во 2-м пункте, но опять дала более расширенный ответ.

Эти два примера хорошо демонстрируют сочетание двух типов мышления — логическое и ассоциативное.
Причем ассоциативное мышления развито больше и работает лучше, чем логическое. В задачах, которые требуют меньше ассоциаций (догадок, предположений) и больше логики модели, как правило, чаще путаются, теряют нить рассуждений и порой несут просто бред.

Например, такая загадка на нестандартное мышление решается, но не всегда правильно с первого раза и иногда нужно сделать несколько попыток.

Представьте себе, что вы плывёте по морю в лодке. Вдруг лодка начинает тонуть, вы оказываетесь в воде и к вам подплывают акулы.
Что сделать, чтобы спастись от акул?

Или вот такая:

К реке подходят два человека.
У берега лодка, которая может выдержать только одного.
Но оба человека переправились на противоположный берег.
Как они это сделали?

Тут фантазии у моделей просто нет предела: второй человек переходит по мосту или вброд или тоже плывет рядом с лодкой, держась рукой за борт или лодку перетягивает обратно за верёвку и так далее до бесконечности.

Но есть и такой класс загадок, которые даже топовые модели ни разу не смогли разгадать, дав предполагаемый ответ (за исключением OpenAI o1 и claude3.5-sonnet).

Вот два примера.

Как следует бросить вперед куриное яйцо так, чтобы оно могло пролететь три метра и не разбиться?

Каких только решений не предлагали — и завертывать яйцо в мягкий платок, и кидать на подушку или в тазик с водой, даже прикрепить к яйцу маленький парашютик и так далее. (OpenAI o1 и claude3.5-sonnet отгадывают, а вот другие — нет)

Два кадра из моего любимого фильма детства «Отроки во Вселенной, 1974» проиллюстрируют эту ситуацию.

Как человеку, которому близка ядерная физика и квантовая механика, мне очень понравился такой ответ LLM Qwen2.5-72B-instruct:

В квантовой механике есть концепция суперпозиции, когда частица может находиться одновременно в нескольких состояниях до момента измерения. Мы можем применить эту идею к нашему яйцу, хотя это, конечно, чисто теоретическое и немного юмористическое решение.

Подготовка яйца:
Представьте, что ваше яйцо находится в состоянии суперпозиции: оно одновременно целое и разбитое. Это состояние можно символически обозначить как целое + разбитое.

Бросок яйца:
Когда вы бросаете яйцо, оно летит через пространство, сохраняя свое квантовое состояние суперпозиции. Это значит, что оно одновременно целое и разбитое, пока вы не проведете измерение (не посмотрите на него).

Приземление:
Когда яйцо приземляется, происходит коллапс волновой функции. В этот момент оно выбирает одно из своих состояний: либо целое, либо разбитое. Если вы верите в квантовую механику, есть ненулевая вероятность, что яйцо останется целым.
Практическая реализация:

Медитация:
Перед броском яйца проведите короткую медитацию, представляя, как яйцо летит и остается целым. Это может помочь вам настроиться на нужное состояние суперпозиции.

Позитивное мышление:
Верьте, что яйцо останется целым. Сила вашего намерения может повлиять на результат (хотя это больше относится к эзотерике, чем к физике).

Эксперимент:
Проведите эксперимент несколько раз. В конце концов, квантовая механика предполагает, что при достаточном количестве попыток яйцо должно остаться целым хотя бы один раз.
Заключение

Хотя это решение является чисто теоретическим и юмористическим, оно демонстрирует, как можно подходить к задачам с нестандартных точек зрения. В реальности, конечно, для того, чтобы яйцо не разбилось, лучше использовать практические методы, такие как защитные материалы или парашют. Но иногда полезно немного отвлечься и подумать о вещах с необычной стороны!

Кто теперь скажет, что модель лишена творческого потенциала и нестандартного мышления?

Другой пример:

Один человек плыл на корабле по морю и попал в шторм. Его отнесло на остров, где не
было мужчин, а жили только девушки. Они его связали и решили казнить.
Но он придумал остроумный способ спастись и попросил дать ему последнее слово. После того, как он сказал свое последнее желание, ни одна девушка не захотела его убивать и его отпустили.
Что он им сказал такое особенное?

И опять было предложено множество разных вариантов, в том числе и эротического характера, но ни один из них и близко не соответствовал предполагаемому ответу (claude3.5-sonnet тоже не решил).

Причем, если потом сообщить модели правильный ответ, то видно, что она прекрасно понимает его скрытый смысл и дает адекватную интерпретацию. Почему тогда сама никогда не предлагает этот вариант, не понятно.
Вернее, понятно, что недостаточно сильные ассоциации ведут к такому варианту вследствие недостаточно качественного обучения или механизма обработки этих ассоциаций.

Впрочем, если сравнить с человеком, то ведь и мы не сможем разгадать некоторые загадки, хотя, если нам потом сказать ответ, то кажется, что это так просто и очевидно. В разгадывании загадок мы очень похожи на модели.

Я думаю, что если проделать строгий научный эксперимент, в котором человек и LLM будут разгадывать достаточно большой список загадок, а затем предъявить отгадки команде экспертов, то смогут ли они определить, где решения модели, а где человека?
Я думаю, что вряд-ли.

Если порассуждать на эту тему, то можно было-бы даже придумать специальный бенчмарк, основанный на специально подобранном списке креативных загадок и отгадок, подобранных по уровню сложности и креативности.

Riddle-бенчмарк, который ранжирует модели по критерию смекалки, нестандартного мышления и понимания скрытого смысла.

Может быть модели, которые займут в нем топовые позиции и будут больше похожи на людей, а не те, которые заточены на логику и общее понимание смысла.

Ну и напоследок добавлю немного юмора и приведу следующий диалог с одной моделью, которая решала загадку довольно креативно:

Вот сидит девушка, а когда она встанет и уйдёт, вы ни при каких условиях не сможете сесть на то-же самое место.
Где же она сидела?

claude3.5-sonnet легко дал точный и развернутый ответ, а вот китайский qwen2.5-32b (все таки 32b маловато) начал прикалываться.
Ответ модели:

Условие: Девушка сидит где-то, но после того, как она встает и уходит, никто другой не сможет сесть на это место.

Ответ: Девушка должна была бы сидеть на гвозде.

Объяснение:
Если девушка сидела на гвозде, то после того, как она поднимется и уйдет, этот гвоздь останется там же и будет препятствовать кому-либо еще сесть на ту же точку. Если кто-то другой попробует сесть там, он может получить боль от прокола кожи гвоздем или испытать дискомфорт от его острого конца. Таким образом, никакой человек не сможет сесть на то же самое место, пока гвоздь не будет удален.

Моё замечание:

А как же девушка сидела прямо на гвозде, не испытывая боль, а вот другие будут испытывать? Это же явное противоречие.

Ответ модели:

Это кажущееся противоречие, а правильное решение может заключаться в том, что девушка сидела не на гвозде, а на унитазе. Когда она поднимается и уходит, никто другой не сможет занять её место на унитазе, потому что туда могут зайти только те девушки, которые собираются использовать его для намеченной цели — туалета.
> В этом случае это становится логичным решением без необходимости приписывать девушке способность сидеть на болезненном предмете, который был бы невыносимым и для других людей.

Я:

Правильный ответ — у вас на коленях.

Она:

Да! Правильный ответ действительно «У вас на коленях». Если девушка сидела на ваших коленях, значит, когда она поднялась и ушла, вы уже не сможете занять ее место, потому что это место сейчас является вашими коленями. Вы не можете сесть на свои собственные колени.
Это решение демонстрирует креативность и оригинальность подхода к решению задачи.

Ну, действительно, в чем-то модель даже права. Что-то мне совсем не хочется испытывать дискомфорт, сидя на гвозде или на унитазе в женском туалете 🙂

ссылка на оригинал статьи https://habr.com/ru/articles/853632/

LLM может довольно изобретательно разгадывать хитрые загадки, но не всегда

Комментарии

Добавить комментарий Отменить ответ