{"id":468351,"date":"2025-07-23T15:02:10","date_gmt":"2025-07-23T15:02:10","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=468351"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=468351","title":{"rendered":"<span>LiberalMind 1.5- LLM \u043d\u0430 \u0443\u0440\u043e\u0432\u043d\u0435 Gemini 2.5, \u0441\u043e\u0437\u0434\u0430\u043d\u043d\u0430\u044f \u0432 \u0420\u043e\u0441\u0441\u0438\u0438<\/span>"},"content":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/456\/c8f\/8fd\/456c8f8fde781f47cedd85a469b07c85.png\" width=\"837\" height=\"253\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/456\/c8f\/8fd\/456c8f8fde781f47cedd85a469b07c85.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/456\/c8f\/8fd\/456c8f8fde781f47cedd85a469b07c85.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<h2>\u0421 \u0447\u0435\u0433\u043e \u0432\u0441\u0435 \u043d\u0430\u0447\u0438\u043d\u0430\u043b\u043e\u0441\u044c?<\/h2>\n<p>\u0421\u0430\u043c\u0430 \u0438\u0434\u0435\u044f \u0432\u043e\u0437\u043d\u0438\u043a\u043b\u0430 \u0435\u0449\u0435 \u0433\u043e\u0434 \u043d\u0430\u0437\u0430\u0434.\u0425\u043e\u0442\u0435\u043b\u043e\u0441\u044c \u0441\u043e\u0437\u0434\u0430\u0442\u044c LLM, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0431\u0443\u0434\u0435\u0442 \u0431\u043e\u043b\u044c\u0448\u0435 \u0432\u0441\u0435\u0433\u043e \u043f\u0440\u0438\u0431\u043b\u0438\u0436\u0435\u043d\u0430 \u043a AGI.\u0412 \u043e\u043a\u0442\u044f\u0431\u0440\u0435 2024 \u0431\u044b\u043b\u043e \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u043d\u043e \u0438 \u043f\u0440\u043e\u0434\u0443\u043c\u0430\u043d\u043e \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u0438\u0441\u0442\u0435\u043c \u043f\u0440\u0435\u0442\u0440\u0435\u0439\u043d\u0430 \u043c\u043e\u0434\u0435\u043b\u0435\u0439,\u0430 \u0442\u0430\u043a\u0436\u0435 \u0438\u0445 \u0434\u043e\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0438 reinforcement learning \u0441\u0438\u0441\u0442\u0435\u043c\u044b.\u0422\u0430\u043a\u0436\u0435 \u0431\u044b\u043b\u0430 \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u043d\u0430 \u043d\u043e\u0432\u0430\u044f \u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u0434\u0435\u043a\u043e\u0434\u0435\u0440\u0430 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u0434\u0435\u043a\u043e\u0434\u0438\u0440\u043e\u0432\u0449\u0438\u043a\u0430 ROPE.\u041d\u043e \u043a \u0441\u043e\u0436\u0430\u043b\u0435\u043d\u0438\u044e \u0440\u0435\u0441\u0443\u0440\u0441\u043e\u0432 \u043d\u0430 \u0432\u043d\u0435\u0434\u0440\u0435\u043d\u0438\u0435 \u0442\u0430\u043a\u0438\u0445 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0439 \u0445\u0432\u0430\u0442\u0430\u043b\u043e \u043b\u0438\u0448\u044c \u043d\u0430 \u043c\u043e\u0434\u0435\u043b\u0438 \u0434\u043e 20M \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432,\u0447\u0442\u043e \u043e\u0437\u043d\u0430\u0447\u0430\u043b\u043e \u0438 \u043c\u0430\u043b\u0435\u043d\u044c\u043a\u0438\u0439 \u043d\u0430\u0431\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445 \u0434\u043b\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f,\u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0441\u043c\u044b\u0441\u043b\u0430 \u0432 \u044d\u0442\u043e\u043c \u0438\u043d\u0435 \u0431\u044b\u043b\u043e.<\/p>\n<p>\u0412 \u0430\u043f\u0440\u0435\u043b\u0435 \u0431\u044b\u043b \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u043d \u043e\u043f\u0435\u043d\u0441\u043e\u0440\u0441 \u0430\u0433\u0435\u043d\u0442 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u0433\u0435\u043c\u0438\u043d\u0438,\u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0438 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u0438\u0445 \u0432\u0430\u0440\u0438\u0430\u043d\u0442\u043e\u0432 \u043e\u0442\u0432\u0435\u0442\u0430 \u0438 \u0438\u0445 \u0430\u043d\u0430\u043b\u0438\u0437\u0430 \u0431\u044b\u043b \u043f\u043e \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0443 \u043d\u0430\u043c\u043d\u043e\u0433\u043e \u043b\u0443\u0447\u0448\u0435 grmini 2.5 pro, \u0445\u043e\u0442\u044f \u0430\u0433\u0435\u043d\u0442 \u0431\u044b\u043b \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u043d \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 gemini 2.0.\u0410\u0433\u0435\u043d\u0442 \u0431\u044b\u043b \u043d\u0430\u0437\u0432\u0430\u043d LiberalMind 1.0<\/p>\n<h2>\u041a\u0430\u043a \u044f \u043e\u0431\u0443\u0447\u0430\u043b LiberalMind 1.5?<\/h2>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043f\u0435\u0440\u0435\u0439\u0434\u0435\u043c \u0438\u043c\u0435\u043d\u043d\u043e \u043a \u044d\u0442\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438.\u041e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043f\u043e\u0441\u0442\u0440\u043e\u0435\u043d\u043e \u043d\u0430 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0438 GMPO-( Generative Model Policy Optimization ).\u041a\u0440\u0430\u0442\u043a\u043e \u043e\u043f\u0438\u0448\u0443 \u043a\u0430\u043a \u043e\u043d \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442.<\/p>\n<p>\u044d\u0442\u043e \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0439 \u043c\u0435\u0442\u043e\u0434 \u0432 Reinforcement Learning, \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u0430\u043a\u0442\u0443\u0430\u043b\u044c\u043d\u044b\u0439 \u0432 \u0437\u0430\u0434\u0430\u0447\u0430\u0445 <strong>offline RL<\/strong> \u0438 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0433\u0435\u043d\u0435\u0440\u0430\u0442\u0438\u0432\u043d\u044b\u0445 \u043f\u043e\u043b\u0438\u0442\u0438\u043a (\u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0434\u043b\u044f \u044f\u0437\u044b\u043a\u043e\u0432\u044b\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439).<\/p>\n<p>\u041e\u043d \u0431\u044b\u043b \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d \u043a\u0430\u043a \u0431\u043e\u043b\u0435\u0435 \u043f\u0440\u043e\u0441\u0442\u043e\u0439, \u0438\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0438\u0440\u0443\u0435\u043c\u044b\u0439 \u0438 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u044b\u0439 \u0441\u043f\u043e\u0441\u043e\u0431 RL-\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f <strong>\u0431\u0435\u0437 \u0441\u043b\u043e\u0436\u043d\u044b\u0445 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u043e\u0432 \u0438\u043b\u0438 value-\u0444\u0443\u043d\u043a\u0446\u0438\u0439<\/strong>.<\/p>\n<p>\u0412\u043c\u0435\u0441\u0442\u043e \u0442\u043e\u0433\u043e \u0447\u0442\u043e\u0431\u044b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u043c\u0435\u0442\u043e\u0434\u044b, \u0442\u0430\u043a\u0438\u0435 \u043a\u0430\u043a:<\/p>\n<ul>\n<li>\n<p><strong>PPO (Proximal Policy Optimization)<\/strong> \u2014 \u0441 \u043a\u0440\u0438\u0442\u0438\u043a\u043e\u043c \u0438 \u0430\u043a\u0442\u043e\u0440\u043e\u043c;<\/p>\n<\/li>\n<li>\n<p><strong>QLearning \/ SAC \/ DDPG<\/strong> \u2014 \u0441 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435\u043c \u0444\u0443\u043d\u043a\u0446\u0438\u0438 \u0446\u0435\u043d\u043d\u043e\u0441\u0442\u0438 (value),<\/p>\n<\/li>\n<\/ul>\n<p>GMPO \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442 <strong>advantage-weighted supervised learning<\/strong> \u2014 \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u044e \u043d\u0430 \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u044f, \u0432\u0437\u0432\u0435\u0448\u0435\u043d\u043d\u0443\u044e \u043f\u043e \u043f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u0443 (advantage), \u0431\u0435\u0437 value-\u0444\u0443\u043d\u043a\u0446\u0438\u0438.<\/p>\n<p>\u0424\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u043e:<\/p>\n<p><img decoding=\"async\" class=\"formula inline\" source=\"LGMPO(\u03b8)=E(s,a,A)[w(A)\u22c5log\u2061\u03c0\u03b8(a\u2223s)]\\mathcal{L}_{GMPO}(\\theta) = \\mathbb{E}_{(s, a, A)} \\left[ w(A) \\cdot \\log \\pi_\\theta(a|s) \\right]LGMPO\u200b(\u03b8)=E(s,a,A)\u200b[w(A)\u22c5log\u03c0\u03b8\u200b(a\u2223s)]\" alt=\"LGMPO(\u03b8)=E(s,a,A)[w(A)\u22c5log\u2061\u03c0\u03b8(a\u2223s)]\\mathcal{L}_{GMPO}(\\theta) = \\mathbb{E}_{(s, a, A)} \\left[ w(A) \\cdot \\log \\pi_\\theta(a|s) \\right]LGMPO\u200b(\u03b8)=E(s,a,A)\u200b[w(A)\u22c5log\u03c0\u03b8\u200b(a\u2223s)]\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/d0f\/3ea\/f9c\/d0f3eaf9c8dddd791974c34ed73ca1e7.svg\" width=\"1080\" height=\"25\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/d0f\/3ea\/f9c\/d0f3eaf9c8dddd791974c34ed73ca1e7.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/d0f\/3ea\/f9c\/d0f3eaf9c8dddd791974c34ed73ca1e7.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<p>\u0433\u0434\u0435:<\/p>\n<ul>\n<li>\n<p><img decoding=\"async\" class=\"formula inline\" source=\"AAA\" alt=\"AAA\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/a4d\/db3\/c3e\/a4ddb3c3ef6dc846b1981e8a5ef56bed.svg\" width=\"43\" height=\"17\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/a4d\/db3\/c3e\/a4ddb3c3ef6dc846b1981e8a5ef56bed.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/a4d\/db3\/c3e\/a4ddb3c3ef6dc846b1981e8a5ef56bed.svg 781w\" loading=\"lazy\" decode=\"async\"\/> \u2014 \u043f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u043e (advantage), \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u043f\u043e\u0441\u0447\u0438\u0442\u0430\u043d\u043e;<\/p>\n<\/li>\n<li>\n<p><img decoding=\"async\" class=\"formula inline\" source=\"w(A)w(A)w(A)\" alt=\"w(A)w(A)w(A)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/152\/69e\/816\/15269e81603f26a69898b0e837532df5.svg\" width=\"130\" height=\"22\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/152\/69e\/816\/15269e81603f26a69898b0e837532df5.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/152\/69e\/816\/15269e81603f26a69898b0e837532df5.svg 781w\" loading=\"lazy\" decode=\"async\"\/> \u2014 \u0432\u0435\u0441\u043e\u0432\u0430\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u044f, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440: <img decoding=\"async\" class=\"formula inline\" source=\"softmax(A\/\u03b2)\\text{softmax}(A \/ \\beta)softmax(A\/\u03b2);\" alt=\"softmax(A\/\u03b2)\\text{softmax}(A \/ \\beta)softmax(A\/\u03b2);\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/522\/fa7\/d37\/522fa7d37c940211aa62b67262774f58.svg\" width=\"370\" height=\"22\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/522\/fa7\/d37\/522fa7d37c940211aa62b67262774f58.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/522\/fa7\/d37\/522fa7d37c940211aa62b67262774f58.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<\/li>\n<li>\n<p><img decoding=\"async\" class=\"formula inline\" source=\"\u03c0\u03b8\\pi_\\theta\u03c0\u03b8\" alt=\"\u03c0\u03b8\\pi_\\theta\u03c0\u03b8\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/f28\/ded\/566\/f28ded566395bbaf56dccfabf0b0d777.svg\" width=\"59\" height=\"20\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/f28\/ded\/566\/f28ded566395bbaf56dccfabf0b0d777.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/f28\/ded\/566\/f28ded566395bbaf56dccfabf0b0d777.svg 781w\" loading=\"lazy\" decode=\"async\"\/>\u200b \u2014 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0438\u0437\u043e\u0432\u0430\u043d\u043d\u0430\u044f \u043f\u043e\u043b\u0438\u0442\u0438\u043a\u0430.<\/p>\n<\/li>\n<\/ul>\n<h3>\u2699\ufe0f \u041a\u0430\u043a \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 GMPO (\u043f\u043e \u0448\u0430\u0433\u0430\u043c)<\/h3>\n<ol>\n<li>\n<p><strong>\u0421\u0431\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445<\/strong> \u0438\u0437 offline \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430: (s,a,r)(s, a, r)(s,a,r).<\/p>\n<\/li>\n<li>\n<p><strong>\u041e\u0446\u0435\u043d\u043a\u0430 advantages<\/strong> \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u044f (\u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0441 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u0435\u043c reward \u0438\u043b\u0438 \u0434\u0440\u0443\u0433\u0438\u0445 \u0442\u0435\u0445\u043d\u0438\u043a).<\/p>\n<\/li>\n<li>\n<p><strong>\u041f\u0435\u0440\u0435\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043f\u043e\u043b\u0438\u0442\u0438\u043a\u0438<\/strong>: \u043f\u043e\u043b\u0438\u0442\u0438\u043a\u0430 \u043e\u0431\u0443\u0447\u0430\u0435\u0442\u0441\u044f \u0438\u043c\u0438\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u044f \u0438\u0437 \u043d\u0430\u0431\u043e\u0440\u0430, \u0432\u0437\u0432\u0435\u0448\u0438\u0432\u0430\u044f \u0438\u0445 \u043f\u043e \u043f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u0443.<\/p>\n<\/li>\n<li>\n<p><strong>\u0420\u0435\u0433\u0443\u043b\u044f\u0440\u0438\u0437\u0430\u0446\u0438\u044f<\/strong> \u2014 \u043c\u043e\u0436\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c KL-\u0434\u0438\u0432\u0435\u0440\u0433\u0435\u043d\u0446\u0438\u044e \u043a \u043d\u0430\u0447\u0430\u043b\u044c\u043d\u043e\u0439 \u043f\u043e\u043b\u0438\u0442\u0438\u043a\u0435.<\/p>\n<\/li>\n<\/ol>\n<h2>\u0412 \u0447\u0435\u043c \u0441\u0443\u0442\u044c \u043c\u043e\u0435\u0433\u043e \u043c\u0435\u0442\u043e\u0434\u0430 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f?<\/h2>\n<h4>1. \u0410\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u0438 \u0440\u043e\u043b\u0438 \u043c\u043e\u0434\u0435\u043b\u0435\u0439<\/h4>\n<ol>\n<li>\n<p><strong>\u041f\u043e\u043b\u0438\u0442\u0438\u043a\u0430 (Actor)<\/strong><\/p>\n<ul>\n<li>\n<p>\u0413\u0435\u043d\u0435\u0440\u0430\u0442\u0438\u0432\u043d\u044b\u0439 \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440 \u0441 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u043c\u0438 <img decoding=\"async\" class=\"formula inline\" source=\"\u03b8=\u03b80+\u0394\u03b8\\theta = \\theta_0 + \\Delta\\theta, \u0433\u0434\u0435 \u0394\u03b8\\Delta\\theta\" alt=\"\u03b8=\u03b80+\u0394\u03b8\\theta = \\theta_0 + \\Delta\\theta, \u0433\u0434\u0435 \u0394\u03b8\\Delta\\theta\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/8cc\/049\/79f\/8cc04979ff54c0d592d7af07c6193dbe.svg\" width=\"287\" height=\"21\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/8cc\/049\/79f\/8cc04979ff54c0d592d7af07c6193dbe.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/8cc\/049\/79f\/8cc04979ff54c0d592d7af07c6193dbe.svg 781w\" loading=\"lazy\" decode=\"async\"\/> \u0437\u0430\u0434\u0430\u0451\u0442\u0441\u044f \u043d\u0438\u0437\u043a\u043e\u0440\u0430\u043d\u0433\u043e\u0432\u044b\u043c\u0438 LoRA\u2011\u043c\u043e\u0434\u0443\u043b\u044f\u043c\u0438.<\/p>\n<\/li>\n<li>\n<p>\u041d\u0430 \u0432\u0445\u043e\u0434\u0435 \u0441\u043e\u0441\u0442\u043e\u044f\u043d\u0438\u0435 <img decoding=\"async\" class=\"formula inline\" source=\"ss\" alt=\"ss\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/418\/207\/a70\/418207a70859bdd598d3be4b99790671.svg\" width=\"18\" height=\"12\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/418\/207\/a70\/418207a70859bdd598d3be4b99790671.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/418\/207\/a70\/418207a70859bdd598d3be4b99790671.svg 781w\" loading=\"lazy\" decode=\"async\"\/>, \u043d\u0430 \u0432\u044b\u0445\u043e\u0434\u0435 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u0439 <img decoding=\"async\" class=\"formula inline\" source=\"\u03c0\u03b8(a\u2223s)\\pi_\\theta(a\\mid s)\" alt=\"\u03c0\u03b8(a\u2223s)\\pi_\\theta(a\\mid s)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/5e6\/2a4\/aac\/5e62a4aac5ad98884403075d6fd08a1a.svg\" width=\"140\" height=\"22\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/5e6\/2a4\/aac\/5e62a4aac5ad98884403075d6fd08a1a.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/5e6\/2a4\/aac\/5e62a4aac5ad98884403075d6fd08a1a.svg 781w\" loading=\"lazy\" decode=\"async\"\/>.<\/p>\n<\/li>\n<\/ul>\n<\/li>\n<li>\n<p><strong>\u0413\u0435\u043d\u0435\u0440\u0430\u0442\u0438\u0432\u043d\u044b\u0439 \u041a\u0440\u0438\u0442\u0438\u043a (Generative Critic)<\/strong><\/p>\n<ul>\n<li>\n<p>\u0422\u043e\u0442 \u0436\u0435 \u0442\u0438\u043f \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u044b (\u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440) \u0441 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u043c\u0438 <img decoding=\"async\" class=\"formula inline\" source=\"\u03d5=\u03d50+\u0394\u03d5\\phi = \\phi_0 + \\Delta\\phi, \u0433\u0434\u0435 \u0394\u03d5\\Delta\\phi\" alt=\"\u03d5=\u03d50+\u0394\u03d5\\phi = \\phi_0 + \\Delta\\phi, \u0433\u0434\u0435 \u0394\u03d5\\Delta\\phi\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/17a\/637\/ae3\/17a637ae3b21762274663da47e402c74.svg\" width=\"306\" height=\"21\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/17a\/637\/ae3\/17a637ae3b21762274663da47e402c74.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/17a\/637\/ae3\/17a637ae3b21762274663da47e402c74.svg 781w\" loading=\"lazy\" decode=\"async\"\/> \u2014 LoRA\u2011\u043c\u043e\u0434\u0443\u043b\u0438 \u043a\u0440\u0438\u0442\u0438\u043a\u0430.<\/p>\n<\/li>\n<li>\n<p>\u041f\u0440\u0438\u043d\u0438\u043c\u0430\u0435\u0442 \u043d\u0430 \u0432\u0445\u043e\u0434:<\/p>\n<ol>\n<li>\n<p>\u0421\u043e\u0441\u0442\u043e\u044f\u043d\u0438\u0435 <img decoding=\"async\" class=\"formula inline\" source=\"ss\" alt=\"ss\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/f93\/28f\/d1f\/f9328fd1f1db7d4e1ddb52700e83c15f.svg\" width=\"18\" height=\"12\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/f93\/28f\/d1f\/f9328fd1f1db7d4e1ddb52700e83c15f.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/f93\/28f\/d1f\/f9328fd1f1db7d4e1ddb52700e83c15f.svg 781w\" loading=\"lazy\" decode=\"async\"\/> (\u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 \u0438\u043b\u0438 \u043f\u0440\u0435\u0444\u0438\u043a\u0441).<\/p>\n<\/li>\n<li>\n<p>\u041f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u0438\u0435 \u0430\u043a\u0442\u0451\u0440\u0430 aa.<\/p>\n<\/li>\n<li>\n<p>\u0418\u0441\u0442\u0438\u043d\u043d\u044b\u0439 (&#171;\u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0439&#187;) \u043e\u0442\u0432\u0435\u0442 <img decoding=\"async\" class=\"formula inline\" source=\"a\u2217a^*.\" alt=\"a\u2217a^*.\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/7f9\/8a0\/256\/7f98a02564361df56f998769b0dacd66.svg\" width=\"53\" height=\"18\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/7f9\/8a0\/256\/7f98a02564361df56f998769b0dacd66.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/7f9\/8a0\/256\/7f98a02564361df56f998769b0dacd66.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<\/li>\n<\/ol>\n<\/li>\n<li>\n<p>\u0412\u044b\u0434\u0430\u0451\u0442 <strong>\u043e\u0431\u044a\u044f\u0441\u043d\u0435\u043d\u0438\u0435 \u043e\u0448\u0438\u0431\u043a\u0438<\/strong> \u0432 \u0432\u0438\u0434\u0435 \u0442\u0435\u043a\u0441\u0442\u0430 \u0438 <strong>\u0447\u0438\u0441\u043b\u043e\u0432\u0443\u044e \u043e\u0446\u0435\u043d\u043a\u0443<\/strong> <img decoding=\"async\" class=\"formula inline\" source=\"C\u03d5(s,a,a\u2217)C_\\phi(s,a,a^*)\" alt=\"C\u03d5(s,a,a\u2217)C_\\phi(s,a,a^*)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/cd9\/b1d\/6b6\/cd9b1d6b6b4e12d034b0cd6127bfb8d4.svg\" width=\"192\" height=\"23\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/cd9\/b1d\/6b6\/cd9b1d6b6b4e12d034b0cd6127bfb8d4.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/cd9\/b1d\/6b6\/cd9b1d6b6b4e12d034b0cd6127bfb8d4.svg 781w\" loading=\"lazy\" decode=\"async\"\/>. \u0418\u043c\u0435\u043d\u043d\u043e \u044d\u0442\u0430 \u043c\u043e\u0434\u0435\u043b\u044c \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u0443\u0435\u0442 <em>\u0447\u0438\u0441\u043b\u043e\u0432\u044b\u0435 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b<\/em>:<\/p>\n<ul>\n<li>\n<p>\u041d\u0430\u0433\u0440\u0430\u0434\u0443 <img decoding=\"async\" class=\"formula inline\" source=\"r=\u2212C\u03d5(s,a,a\u2217)r=-C_\\phi(s,a,a^*)\" alt=\"r=\u2212C\u03d5(s,a,a\u2217)r=-C_\\phi(s,a,a^*)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/147\/6ff\/b6b\/1476ffb6b6a76dae36e70e9e7e7a569a.svg\" width=\"290\" height=\"23\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/147\/6ff\/b6b\/1476ffb6b6a76dae36e70e9e7e7a569a.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/147\/6ff\/b6b\/1476ffb6b6a76dae36e70e9e7e7a569a.svg 781w\" loading=\"lazy\" decode=\"async\"\/>.<\/p>\n<\/li>\n<li>\n<p>\u0411\u0430\u0437\u043e\u0432\u0443\u044e \u043b\u0438\u043d\u0438\u044e <img decoding=\"async\" class=\"formula inline\" source=\"b(s)b(s)\" alt=\"b(s)b(s)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/0b0\/443\/66a\/0b044366a5be4b75834a6fd4be0e31b4.svg\" width=\"65\" height=\"22\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/0b0\/443\/66a\/0b044366a5be4b75834a6fd4be0e31b4.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/0b0\/443\/66a\/0b044366a5be4b75834a6fd4be0e31b4.svg 781w\" loading=\"lazy\" decode=\"async\"\/> (\u0441\u043a\u0430\u043b\u044f\u0440, \u0443\u0441\u0440\u0435\u0434\u043d\u0451\u043d\u043d\u043e\u0435 \u043f\u043e \u0431\u0430\u0442\u0447\u0443).<\/p>\n<\/li>\n<li>\n<p>\u041f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u043e <img decoding=\"async\" class=\"formula inline\" source=\"A(s,a)=r\u2212b(s)A(s,a)=r-b(s).\" alt=\"A(s,a)=r\u2212b(s)A(s,a)=r-b(s).\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/1df\/006\/90f\/1df00690f9fa5bbe9589070d4179b9b2.svg\" width=\"301\" height=\"22\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/1df\/006\/90f\/1df00690f9fa5bbe9589070d4179b9b2.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/1df\/006\/90f\/1df00690f9fa5bbe9589070d4179b9b2.svg 781w\" loading=\"lazy\" decode=\"async\"\/>\u041b\u043e\u043a\u0430\u043b\u044c\u043d\u0443\u044e \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u0443 <img decoding=\"async\" class=\"formula inline\" source=\"\u03b2\\beta\" alt=\"\u03b2\\beta\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/d18\/8a2\/054\/d188a2054bf9c536c7b347f8ad8e1120.svg\" width=\"22\" height=\"20\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/d18\/8a2\/054\/d188a2054bf9c536c7b347f8ad8e1120.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/d18\/8a2\/054\/d188a2054bf9c536c7b347f8ad8e1120.svg 781w\" loading=\"lazy\" decode=\"async\"\/> (\u043f\u0440\u0438 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e\u0441\u0442\u0438 \u0434\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u0438 \u0430\u0434\u0430\u043f\u0442\u0438\u0440\u0443\u0435\u043c\u0443\u044e).<\/p>\n<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<\/li>\n<\/ol>\n<hr\/>\n<h4>2. \u0412\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u0435 \u0438 \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u044f \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u043a\u0440\u0438\u0442\u0438\u043a\u043e\u043c<\/h4>\n<ol>\n<li>\n<p><strong>\u041d\u0430\u0433\u0440\u0430\u0434\u0430<\/strong> <img decoding=\"async\" class=\"formula inline\" source=\"r(s,a,a\u2217)=\u2212C\u03d5(s,a,a\u2217)r(s,a,a^*)=-C_\\phi(s,a,a^*)\" alt=\"r(s,a,a\u2217)=\u2212C\u03d5(s,a,a\u2217)r(s,a,a^*)=-C_\\phi(s,a,a^*)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/ad4\/fce\/be8\/ad4fcebe891fe15edfcdfbdb10258c76.svg\" width=\"432\" height=\"23\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/ad4\/fce\/be8\/ad4fcebe891fe15edfcdfbdb10258c76.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/ad4\/fce\/be8\/ad4fcebe891fe15edfcdfbdb10258c76.svg 781w\" loading=\"lazy\" decode=\"async\"\/>\u00a0\u2014 \u0441\u043a\u0430\u043b\u044f\u0440, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043a\u0440\u0438\u0442\u0438\u043a \u0432\u044b\u0432\u043e\u0434\u0438\u0442 \u043a\u0430\u043a \u0444\u0443\u043d\u043a\u0446\u0438\u044e \u043e\u0442 \u0442\u0435\u043a\u0441\u0442\u0430 \u043e\u0431\u044a\u044f\u0441\u043d\u0435\u043d\u0438\u044f.<\/p>\n<\/li>\n<li>\n<p><strong>\u0411\u0430\u0437\u043e\u0432\u0430\u044f \u043b\u0438\u043d\u0438\u044f<\/strong> <img decoding=\"async\" class=\"formula inline\" source=\"b(s)b(s)\" alt=\"b(s)b(s)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/1db\/b26\/b10\/1dbb26b10735bc958534d5bd58e5da1d.svg\" width=\"65\" height=\"22\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/1db\/b26\/b10\/1dbb26b10735bc958534d5bd58e5da1d.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/1db\/b26\/b10\/1dbb26b10735bc958534d5bd58e5da1d.svg 781w\" loading=\"lazy\" decode=\"async\"\/>\u00a0\u2014 \u0430\u0433\u0440\u0435\u0433\u0430\u0442\u043d\u0430\u044f \u0441\u0442\u0430\u0442\u0438\u0441\u0442\u0438\u043a\u0430 (mean), \u043a\u043e\u0442\u043e\u0440\u0443\u044e \u043a\u0440\u0438\u0442\u0438\u043a \u0441\u0443\u043c\u043c\u0438\u0440\u0443\u0435\u0442 \u043f\u043e \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u0438\u043c \u0441\u0433\u0435\u043d\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u043c \u043e\u0442\u0432\u0435\u0442\u0430\u043c \u043d\u0430 \u0442\u043e\u0442 \u0436\u0435 ss. \u0422\u0430\u043a\u0436\u0435 \u0440\u0430\u0441\u0441\u0447\u0438\u0442\u0430\u043d\u0430 \u0438 \u0432\u044b\u0432\u0435\u0434\u0435\u043d\u0430 \u043c\u043e\u0434\u0435\u043b\u044c\u044e.<\/p>\n<\/li>\n<li>\n<p><strong>\u041f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u043e<\/strong> <img decoding=\"async\" class=\"formula inline\" source=\"A(s,a)=r\u2212b(s)A(s,a)=r-b(s)\" alt=\"A(s,a)=r\u2212b(s)A(s,a)=r-b(s)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/098\/49e\/a27\/09849ea278016b5598d11a9f3d622476.svg\" width=\"295\" height=\"22\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/098\/49e\/a27\/09849ea278016b5598d11a9f3d622476.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/098\/49e\/a27\/09849ea278016b5598d11a9f3d622476.svg 781w\" loading=\"lazy\" decode=\"async\"\/>\u00a0\u2014 \u0440\u0430\u0437\u043d\u0438\u0446\u0430, \u0440\u0430\u0441\u0441\u0447\u0438\u0442\u0430\u043d\u043d\u0430\u044f \u0432\u043d\u0443\u0442\u0440\u0438 \u043a\u0440\u0438\u0442\u0438\u043a\u0430.<\/p>\n<\/li>\n<li>\n<p><strong>\u0412\u0435\u0441\u043e\u0432\u0430\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u044f<\/strong>:<\/p>\n<p><img decoding=\"async\" class=\"formula inline\" source=\"w(A)=exp\u2061(A\/\u03b2)\u2211iexp\u2061(Ai\/\u03b2),  w(A)=\\frac{\\exp(A\/\\beta)}{\\sum_{i}\\exp(A_i\/\\beta)}\" alt=\"w(A)=exp\u2061(A\/\u03b2)\u2211iexp\u2061(Ai\/\u03b2),  w(A)=\\frac{\\exp(A\/\\beta)}{\\sum_{i}\\exp(A_i\/\\beta)}\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/c9f\/f5c\/2d0\/c9ff5c2d085fda71204c4a1db913152e.svg\" width=\"477\" height=\"51\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/c9f\/f5c\/2d0\/c9ff5c2d085fda71204c4a1db913152e.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/c9f\/f5c\/2d0\/c9ff5c2d085fda71204c4a1db913152e.svg 781w\" loading=\"lazy\" decode=\"async\"\/>, <\/p>\n<p>\u0433\u0434\u0435 <img decoding=\"async\" class=\"formula inline\" source=\"\u03b2\\beta\" alt=\"\u03b2\\beta\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/e14\/df5\/a22\/e14df5a22027d21b6757c26c07a26d39.svg\" width=\"22\" height=\"20\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/e14\/df5\/a22\/e14df5a22027d21b6757c26c07a26d39.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/e14\/df5\/a22\/e14df5a22027d21b6757c26c07a26d39.svg 781w\" loading=\"lazy\" decode=\"async\"\/>\u00a0\u2014 \u043b\u0438\u0431\u043e \u0444\u0438\u043a\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u0430\u044f \u0433\u0438\u043f\u0435\u0440\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u0430, \u043b\u0438\u0431\u043e \u0434\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0432\u0435\u043b\u0438\u0447\u0438\u043d\u0430, \u0442\u043e\u0436\u0435 \u0441\u0433\u0435\u043d\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u0430\u044f \u043a\u0440\u0438\u0442\u0438\u043a\u043e\u043c \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u0446\u0435\u043d\u0442\u0440\u0430\u043b\u044c\u043d\u043e\u0439 \u0434\u0438\u0441\u043f\u0435\u0440\u0441\u0438\u0438 <img decoding=\"async\" class=\"formula inline\" source=\"{Ai}\\{A_i\\}\" alt=\"{Ai}\\{A_i\\}\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/092\/d3e\/d36\/092d3ed36039acdcc52b1c949892eb82.svg\" width=\"61\" height=\"22\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/092\/d3e\/d36\/092d3ed36039acdcc52b1c949892eb82.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/092\/d3e\/d36\/092d3ed36039acdcc52b1c949892eb82.svg 781w\" loading=\"lazy\" decode=\"async\"\/>.<\/p>\n<\/li>\n<\/ol>\n<blockquote>\n<p><strong>\u0412\u0430\u0436\u043d\u043e:<\/strong> \u0412\u0441\u0435 \u044d\u0442\u0438 \u0447\u0438\u0441\u043b\u043e\u0432\u044b\u0435 \u0432\u0435\u043b\u0438\u0447\u0438\u043d\u044b\u00a0\u2014 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0440\u0430\u0431\u043e\u0442\u044b \u0433\u0435\u043d\u0435\u0440\u0430\u0442\u0438\u0432\u043d\u043e\u0433\u043e \u043a\u0440\u0438\u0442\u0438\u043a\u0430. \u0418\u0445 \u043c\u043e\u0436\u043d\u043e \u043b\u043e\u0433\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0438 \u0430\u043d\u0430\u043b\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u043e.<\/p>\n<\/blockquote>\n<hr\/>\n<h4>3. LoRA\u2011fine\u2011tuning: \u0438\u043d\u0442\u0435\u0433\u0440\u0430\u0446\u0438\u044f \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u0432 \u0432\u0435\u0441\u0430<\/h4>\n<ol>\n<li>\n<p><strong>\u041d\u0438\u0437\u043a\u043e\u0440\u0430\u043d\u0433\u043e\u0432\u0430\u044f \u0430\u0434\u0430\u043f\u0442\u0430\u0446\u0438\u044f<\/strong><\/p>\n<ul>\n<li>\n<p>\u0412 \u043a\u0430\u0436\u0434\u043e\u043c \u0441\u043b\u043e\u0435 \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440\u0430 (\u043f\u043e\u043b\u0438\u0442\u0438\u043a\u0438 \u0438 \u043a\u0440\u0438\u0442\u0438\u043a\u0430) \u043f\u0440\u0438\u0441\u0443\u0442\u0441\u0442\u0432\u0443\u044e\u0442 \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0435 \u043c\u0430\u0442\u0440\u0438\u0446\u044b <img decoding=\"async\" class=\"formula inline\" source=\"WU(l)\u2208Rd\u00d7rW_U^{(l)}\\in\\mathbb{R}^{d\\times r} \u0438 WV(l)\u2208Rr\u00d7dW_V^{(l)}\\in\\mathbb{R}^{r\\times d} (\u0440\u0430\u043d\u0433 r\u226adr\\ll d).\" alt=\"WU(l)\u2208Rd\u00d7rW_U^{(l)}\\in\\mathbb{R}^{d\\times r} \u0438 WV(l)\u2208Rr\u00d7dW_V^{(l)}\\in\\mathbb{R}^{r\\times d} (\u0440\u0430\u043d\u0433 r\u226adr\\ll d).\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/a11\/692\/406\/a116924065266d1467de5709fac677bd.svg\" width=\"633\" height=\"30\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/a11\/692\/406\/a116924065266d1467de5709fac677bd.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/a11\/692\/406\/a116924065266d1467de5709fac677bd.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<\/li>\n<li>\n<p>\u041f\u043e\u043b\u043d\u044b\u0435 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b: <img decoding=\"async\" class=\"formula inline\" source=\"\u03b8=\u03b80+\u2211lWU(l)WV(l)\\theta=\\theta_0 + \\sum_l W_U^{(l)} W_V^{(l)}\" alt=\"\u03b8=\u03b80+\u2211lWU(l)WV(l)\\theta=\\theta_0 + \\sum_l W_U^{(l)} W_V^{(l)}\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/2f6\/c56\/07b\/2f6c5607b48e593035cfd49736c5cc22.svg\" width=\"407\" height=\"47\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/2f6\/c56\/07b\/2f6c5607b48e593035cfd49736c5cc22.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/2f6\/c56\/07b\/2f6c5607b48e593035cfd49736c5cc22.svg 781w\" loading=\"lazy\" decode=\"async\"\/>, \u0430\u043d\u0430\u043b\u043e\u0433\u0438\u0447\u043d\u043e \u0434\u043b\u044f <img decoding=\"async\" class=\"formula inline\" source=\"\u03d5\\phi.\" alt=\"\u03d5\\phi.\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/411\/b81\/307\/411b813075b43772865ffa65d4620348.svg\" width=\"28\" height=\"20\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/411\/b81\/307\/411b813075b43772865ffa65d4620348.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/411\/b81\/307\/411b813075b43772865ffa65d4620348.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<\/li>\n<\/ul>\n<\/li>\n<li>\n<p><strong>\u041e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 LoRA\u2011\u0432\u0435\u0441\u043e\u0432<\/strong><\/p>\n<ul>\n<li>\n<p>\u0413\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u044b <img decoding=\"async\" class=\"formula inline\" source=\"\u2207\u03b8L(\u03b8)\\nabla_\\theta \\mathcal{L}(\\theta) \u0438 \u2207\u03d5L(\u03d5)\\nabla_\\phi \\mathcal{L}(\\phi)\" alt=\"\u2207\u03b8L(\u03b8)\\nabla_\\theta \\mathcal{L}(\\theta) \u0438 \u2207\u03d5L(\u03d5)\\nabla_\\phi \\mathcal{L}(\\phi)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/f77\/954\/b0a\/f77954b0a41230e56764d20e50410abf.svg\" width=\"266\" height=\"23\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/f77\/954\/b0a\/f77954b0a41230e56764d20e50410abf.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/f77\/954\/b0a\/f77954b0a41230e56764d20e50410abf.svg 781w\" loading=\"lazy\" decode=\"async\"\/> \u043f\u043e\u0441\u0442\u0443\u043f\u0430\u044e\u0442 <em>\u0442\u043e\u043b\u044c\u043a\u043e<\/em> \u0432 LoRA\u2011\u043c\u043e\u0434\u0443\u043b\u0438. \u0411\u0430\u0437\u043e\u0432\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u03b80,\u03d50\\theta_0, \\phi_0 \u043e\u0441\u0442\u0430\u0451\u0442\u0441\u044f \u0437\u0430\u043c\u043e\u0440\u043e\u0436\u0435\u043d\u043d\u043e\u0439.<\/p>\n<\/li>\n<li>\n<p>LoRA\u2011\u043c\u043e\u0434\u0443\u043b\u0438 \u043e\u0431\u0443\u0447\u0430\u044e\u0442\u0441\u044f \u043c\u0435\u0442\u043e\u0434\u043e\u043c SGD\/Adam \u0441 \u043c\u0430\u043b\u044b\u043c\u0438 learning rate (\u043e\u0431\u044b\u0447\u043d\u043e <img decoding=\"async\" class=\"formula inline\" source=\"10\u2212510^{-5}\u201310\u2212410^{-4})\" alt=\"10\u2212510^{-5}\u201310\u2212410^{-4})\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/a23\/f90\/672\/a23f90672ab53f01973b98f4cfe24bd1.svg\" width=\"203\" height=\"25\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/a23\/f90\/672\/a23f90672ab53f01973b98f4cfe24bd1.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/a23\/f90\/672\/a23f90672ab53f01973b98f4cfe24bd1.svg 781w\" loading=\"lazy\" decode=\"async\"\/>, \u0447\u0442\u043e \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442:<\/p>\n<ul>\n<li>\n<p>\u0421\u043e\u0445\u0440\u0430\u043d\u044f\u0442\u044c \u044f\u0437\u044b\u043a\u043e\u0432\u044b\u0435 \u0438 \u0433\u0435\u043d\u0435\u0440\u0430\u0442\u0438\u0432\u043d\u044b\u0435 \u0441\u043f\u043e\u0441\u043e\u0431\u043d\u043e\u0441\u0442\u0438 \u0438\u0441\u0445\u043e\u0434\u043d\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438.<\/p>\n<\/li>\n<li>\n<p>\u0411\u044b\u0441\u0442\u0440\u043e \u0430\u0434\u0430\u043f\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c\u0441\u044f \u043f\u043e\u0434 \u0441\u043f\u0435\u0446\u0438\u0444\u0438\u0447\u0435\u0441\u043a\u0438\u0435 reward\u2011\u0441\u0438\u0433\u043d\u0430\u043b\u044b.<\/p>\n<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<\/li>\n<li>\n<p><strong>\u0412\u0441\u0442\u0440\u0430\u0438\u0432\u0430\u043d\u0438\u0435 critic\u2011\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432<\/strong><\/p>\n<ul>\n<li>\n<p>\u0417\u043d\u0430\u0447\u0435\u043d\u0438\u044f <img decoding=\"async\" class=\"formula inline\" source=\"w(A),\u03bbKL,\u03b2w(A), \\lambda_{\\text{KL}}, \\beta\" alt=\"w(A),\u03bbKL,\u03b2w(A), \\lambda_{\\text{KL}}, \\beta\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/ccd\/abf\/60a\/ccdabf60a73ec239320f5bedf30a7c8f.svg\" width=\"217\" height=\"22\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/ccd\/abf\/60a\/ccdabf60a73ec239320f5bedf30a7c8f.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/ccd\/abf\/60a\/ccdabf60a73ec239320f5bedf30a7c8f.svg 781w\" loading=\"lazy\" decode=\"async\"\/> \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442\u0441\u044f \u043a\u0430\u043a <em>\u043c\u0430\u0441\u0448\u0442\u0430\u0431\u043d\u044b\u0435 \u043a\u043e\u044d\u0444\u0444\u0438\u0446\u0438\u0435\u043d\u0442\u044b<\/em> \u0432 \u0442\u0435\u0440\u043c\u0438\u043d\u0430\u0445 \u043f\u043e\u0442\u0435\u0440\u044c:<\/p>\n<p><img decoding=\"async\" class=\"formula inline\" source=\"LGMPO(\u03b8)=\u2212\u2211iw(Ai)log\u2061\u03c0\u03b8(ai\u2223si)+\u03bbKL\u2009KL(\u03c0\u03b8\u2225\u03c0\u03b80).  \\mathcal{L}_\\text{GMPO}(\\theta)= -\\sum_i w(A_i)\\log\\pi_\\theta(a_i\\mid s_i) + \\lambda_{\\text{KL}}\\,\\mathrm{KL}(\\pi_\\theta\\|\\pi_{\\theta_0}). \" alt=\"LGMPO(\u03b8)=\u2212\u2211iw(Ai)log\u2061\u03c0\u03b8(ai\u2223si)+\u03bbKL\u2009KL(\u03c0\u03b8\u2225\u03c0\u03b80).  \\mathcal{L}_\\text{GMPO}(\\theta)= -\\sum_i w(A_i)\\log\\pi_\\theta(a_i\\mid s_i) + \\lambda_{\\text{KL}}\\,\\mathrm{KL}(\\pi_\\theta\\|\\pi_{\\theta_0}). \" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/b99\/6a7\/ed0\/b996a7ed06e58b4f5cd7f15d963edfc8.svg\" width=\"1019\" height=\"45\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/b99\/6a7\/ed0\/b996a7ed06e58b4f5cd7f15d963edfc8.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/b99\/6a7\/ed0\/b996a7ed06e58b4f5cd7f15d963edfc8.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<\/li>\n<li>\n<p>\u0413\u0440\u0430\u0434\u0438\u0435\u043d\u0442 \u044d\u0442\u043e\u0439 \u0444\u0443\u043d\u043a\u0446\u0438\u0438 \u043f\u043e\u0440\u043e\u0436\u0434\u0430\u0435\u0442 \u043e\u0431\u043d\u043e\u0432\u043b\u0435\u043d\u0438\u044f LoRA\u2011\u043c\u0430\u0442\u0440\u0438\u0446 \u043f\u0440\u043e\u043f\u043e\u0440\u0446\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u043e critic\u2011\u043e\u0446\u0435\u043d\u043a\u0430\u043c.<\/p>\n<\/li>\n<\/ul>\n<\/li>\n<li>\n<p><strong>\u041f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u0434\u0435\u0442\u0430\u043b\u0438<\/strong><\/p>\n<ul>\n<li>\n<p><strong>\u0420\u0430\u0437\u043c\u0435\u0440\u043d\u043e\u0441\u0442\u044c LoRA<\/strong>: \u043e\u0431\u044b\u0447\u043d\u043e r=4r=4\u20131616 \u0432 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438 \u043e\u0442 \u0431\u044e\u0434\u0436\u0435\u0442\u0430.<\/p>\n<\/li>\n<li>\n<p><strong>\u0427\u0430\u0441\u0442\u043e\u0442\u0430 \u043e\u0431\u043d\u043e\u0432\u043b\u0435\u043d\u0438\u0439<\/strong>: \u043a\u0430\u0436\u0434\u044b\u0435 N \u0448\u0430\u0433\u043e\u0432 \u0430\u043a\u0442\u0451\u0440-\u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u0438 (\u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, N=1\u20134).<\/p>\n<\/li>\n<li>\n<p><strong>\u041c\u0435\u0445\u0430\u043d\u0438\u0437\u043c \u043d\u0430\u043a\u043e\u043f\u043b\u0435\u043d\u0438\u044f<\/strong>: critic \u043c\u043e\u0436\u0435\u0442 \u0437\u0430\u043f\u043e\u043c\u0438\u043d\u0430\u0442\u044c \u0441\u0442\u0430\u0442\u0438\u0441\u0442\u0438\u043a\u0438 <img decoding=\"async\" class=\"formula inline\" source=\"b(s),Var(A)b(s)\" alt=\"b(s),Var(A)b(s)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/1fe\/db0\/57d\/1fedb057da7bdd16a1cf989018ba3216.svg\" width=\"136\" height=\"22\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/1fe\/db0\/57d\/1fedb057da7bdd16a1cf989018ba3216.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/1fe\/db0\/57d\/1fedb057da7bdd16a1cf989018ba3216.svg 781w\" loading=\"lazy\" decode=\"async\"\/>, <img decoding=\"async\" class=\"formula inline\" source=\"\\mathrm{Var}(A)\" alt=\"\\mathrm{Var}(A)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/575\/734\/34b\/57573434b7fd021416bf0277b34aa0dc.svg\" width=\"61\" height=\"22\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/575\/734\/34b\/57573434b7fd021416bf0277b34aa0dc.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/575\/734\/34b\/57573434b7fd021416bf0277b34aa0dc.svg 781w\" loading=\"lazy\" decode=\"async\"\/> \u0432 \u0431\u0443\u0444\u0435\u0440\u0435, \u0447\u0442\u043e\u0431\u044b \u0434\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u0438 \u0440\u0435\u0433\u0443\u043b\u0438\u0440\u043e\u0432\u0430\u0442\u044c <img decoding=\"async\" class=\"formula inline\" source=\"\u03b2\\beta\" alt=\"\u03b2\\beta\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/3de\/c89\/f6a\/3dec89f6af16b0df791b5451166efded.svg\" width=\"22\" height=\"20\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/3de\/c89\/f6a\/3dec89f6af16b0df791b5451166efded.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/3de\/c89\/f6a\/3dec89f6af16b0df791b5451166efded.svg 781w\" loading=\"lazy\" decode=\"async\"\/>.<\/p>\n<\/li>\n<\/ul>\n<\/li>\n<\/ol>\n<hr\/>\n<h4>4. \u041e\u0431\u043d\u043e\u0432\u043b\u0451\u043d\u043d\u044b\u0435 \u0444\u0443\u043d\u043a\u0446\u0438\u0438 \u043f\u043e\u0442\u0435\u0440\u044c \u0438 \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c<\/h4>\n<p><img decoding=\"async\" class=\"formula inline\" source=\"L(\u03b8)=\u2212\u2009Ei[\u2009w(Ai)\u2009log\u2061\u03c0\u03b8(ai\u2223si)]+\u03bbKL\u2009Ei[KL(\u03c0\u03b8(\u22c5\u2223si)\u2225\u03c0\u03b80(\u22c5\u2223si))],L(\u03d5)=Ei[(C\u03d5(si,ai,ai\u2217)\u2212C^(si,ai,ai\u2217))2].\\begin{aligned}   \\mathcal{L}(\\theta) &amp;= -\\,\\mathbb{E}_{i}\\bigl[\\,w(A_i)\\,\\log\\pi_\\theta(a_i\\mid s_i)\\bigr]     + \\lambda_{\\text{KL}}\\,\\mathbb{E}_i\\bigl[\\mathrm{KL}(\\pi_\\theta(\\cdot\\mid s_i)\\|\\pi_{\\theta_0}(\\cdot\\mid s_i))\\bigr], \\\\   \\mathcal{L}(\\phi)   &amp;= \\mathbb{E}_i\\bigl[\\bigl(C_\\phi(s_i,a_i,a^*_i) - \\hat C(s_i,a_i,a^*_i)\\bigr)^2\\bigr]. \\end{aligned}\" alt=\"L(\u03b8)=\u2212\u2009Ei[\u2009w(Ai)\u2009log\u2061\u03c0\u03b8(ai\u2223si)]+\u03bbKL\u2009Ei[KL(\u03c0\u03b8(\u22c5\u2223si)\u2225\u03c0\u03b80(\u22c5\u2223si))],L(\u03d5)=Ei[(C\u03d5(si,ai,ai\u2217)\u2212C^(si,ai,ai\u2217))2].\\begin{aligned}   \\mathcal{L}(\\theta) &amp;= -\\,\\mathbb{E}_{i}\\bigl[\\,w(A_i)\\,\\log\\pi_\\theta(a_i\\mid s_i)\\bigr]     + \\lambda_{\\text{KL}}\\,\\mathbb{E}_i\\bigl[\\mathrm{KL}(\\pi_\\theta(\\cdot\\mid s_i)\\|\\pi_{\\theta_0}(\\cdot\\mid s_i))\\bigr], \\\\   \\mathcal{L}(\\phi)   &amp;= \\mathbb{E}_i\\bigl[\\bigl(C_\\phi(s_i,a_i,a^*_i) - \\hat C(s_i,a_i,a^*_i)\\bigr)^2\\bigr]. \\end{aligned}\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/821\/2f8\/511\/8212f85115c00a5959b2bc46bd3c5750.svg\" width=\"1593\" height=\"59\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/821\/2f8\/511\/8212f85115c00a5959b2bc46bd3c5750.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/821\/2f8\/511\/8212f85115c00a5959b2bc46bd3c5750.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<p><strong>\u0410\u043b\u0433\u043e\u0440\u0438\u0442\u043c \u043d\u0430 \u043a\u0430\u0436\u0434\u043e\u0439 \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u0438<\/strong>:<\/p>\n<ol>\n<li>\n<p>\u0421\u044d\u043c\u043f\u043b\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0431\u0430\u0442\u0447 <img decoding=\"async\" class=\"formula inline\" source=\"{(si,ai\u2217)}\\{(s_i,a^*_i)\\}.\" alt=\"{(si,ai\u2217)}\\{(s_i,a^*_i)\\}.\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/9f2\/617\/14b\/9f261714b1d8bda4c018baa922778b5b.svg\" width=\"149\" height=\"24\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/9f2\/617\/14b\/9f261714b1d8bda4c018baa922778b5b.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/9f2\/617\/14b\/9f261714b1d8bda4c018baa922778b5b.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<\/li>\n<li>\n<p>\u0413\u0435\u043d\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c <img decoding=\"async\" class=\"formula inline\" source=\"ai\u223c\u03c0\u03b8(\u22c5\u2223si)a_i \\sim \\pi_{\\theta}(\\cdot\\mid s_i).\" alt=\"ai\u223c\u03c0\u03b8(\u22c5\u2223si)a_i \\sim \\pi_{\\theta}(\\cdot\\mid s_i).\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/fa7\/e57\/53f\/fa7e5753fde56b744d604a9619e46ebe.svg\" width=\"234\" height=\"22\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/fa7\/e57\/53f\/fa7e5753fde56b744d604a9619e46ebe.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/fa7\/e57\/53f\/fa7e5753fde56b744d604a9619e46ebe.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<\/li>\n<li>\n<p>\u041a\u0440\u0438\u0442\u0438\u043a \u0432\u044b\u0434\u0430\u0451\u0442 <img decoding=\"async\" class=\"formula inline\" source=\"C\u03d5,b,A,\u03b2C_\\phi, b, A, \\beta.\" alt=\"C\u03d5,b,A,\u03b2C_\\phi, b, A, \\beta.\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/638\/5a6\/72e\/6385a672efe3693c5de2dc72301728fc.svg\" width=\"174\" height=\"22\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/638\/5a6\/72e\/6385a672efe3693c5de2dc72301728fc.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/638\/5a6\/72e\/6385a672efe3693c5de2dc72301728fc.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<\/li>\n<li>\n<p>\u041e\u0431\u043d\u043e\u0432\u0438\u0442\u044c LoRA-\u043a\u0440\u0438\u0442\u0438\u043a\u0430 \u043f\u043e <img decoding=\"async\" class=\"formula inline\" source=\"\u2207\u03d5L(\u03d5)\\nabla_\\phi \\mathcal{L}(\\phi).\" alt=\"\u2207\u03d5L(\u03d5)\\nabla_\\phi \\mathcal{L}(\\phi).\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/79c\/6bc\/a43\/79c6bca4339c68c386666a5abc30b393.svg\" width=\"138\" height=\"23\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/79c\/6bc\/a43\/79c6bca4339c68c386666a5abc30b393.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/79c\/6bc\/a43\/79c6bca4339c68c386666a5abc30b393.svg 781w\" loading=\"lazy\" decode=\"async\"\/>\u041e\u0431\u043d\u043e\u0432\u0438\u0442\u044c LoRA-\u043f\u043e\u043b\u0438\u0442\u0438\u043a\u0443 \u043f\u043e <img decoding=\"async\" class=\"formula inline\" source=\"\u2207\u03b8L(\u03b8)\\nabla_\\theta \\mathcal{L}(\\theta).\" alt=\"\u2207\u03b8L(\u03b8)\\nabla_\\theta \\mathcal{L}(\\theta).\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/15e\/31b\/eb0\/15e31beb0483e1d7b2286d30aa6b8a78.svg\" width=\"129\" height=\"22\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/15e\/31b\/eb0\/15e31beb0483e1d7b2286d30aa6b8a78.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/15e\/31b\/eb0\/15e31beb0483e1d7b2286d30aa6b8a78.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<\/li>\n<\/ol>\n<hr\/>\n<h4><\/h4>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/c1d\/332\/7df\/c1d3327df325b83d8f7e54e25de26e69.png\" alt=\"\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u044f \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e\u0441\u0442\u0438 \u043e\u0442\u0432\u0435\u0442\u0430 \u043f\u043e KL \u0434\u0438\u0432\u0435\u0440\u0433\u0435\u043d\u0446\u0438\u0438 \u0438 \u0432\u0441\u0435\u0433\u043e \u043c\u0435\u0442\u043e\u0434\u0430 \u043e\u0431\u043d\u043e\u0432\u043b\u0435\u043d\u043d\u043e\u0433\u043e GMPO \" title=\"\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u044f \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e\u0441\u0442\u0438 \u043e\u0442\u0432\u0435\u0442\u0430 \u043f\u043e KL \u0434\u0438\u0432\u0435\u0440\u0433\u0435\u043d\u0446\u0438\u0438 \u0438 \u0432\u0441\u0435\u0433\u043e \u043c\u0435\u0442\u043e\u0434\u0430 \u043e\u0431\u043d\u043e\u0432\u043b\u0435\u043d\u043d\u043e\u0433\u043e GMPO \" width=\"3600\" height=\"1800\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/c1d\/332\/7df\/c1d3327df325b83d8f7e54e25de26e69.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/c1d\/332\/7df\/c1d3327df325b83d8f7e54e25de26e69.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u044f \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e\u0441\u0442\u0438 \u043e\u0442\u0432\u0435\u0442\u0430 \u043f\u043e KL \u0434\u0438\u0432\u0435\u0440\u0433\u0435\u043d\u0446\u0438\u0438 \u0438 \u0432\u0441\u0435\u0433\u043e \u043c\u0435\u0442\u043e\u0434\u0430 \u043e\u0431\u043d\u043e\u0432\u043b\u0435\u043d\u043d\u043e\u0433\u043e GMPO <\/figcaption><\/div>\n<\/figure>\n<h2>Deep Research \u0438 Multi-Agent system<\/h2>\n<p>\u041a\u0430\u043a \u0432\u044b \u043d\u0430\u0432\u0435\u0440\u043d\u043e\u0435 \u0441\u043b\u044b\u0448\u0430\u043b\u0438-Grok 4 \u043f\u0440\u043e\u0448\u0435\u043b \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a Humanity Last Exam \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u043c\u0443\u043b\u044c\u0442\u0438\u0430\u0433\u0435\u043d\u0442\u043d\u043e\u0439 \u0441\u0438\u0441\u0442\u0435\u043c\u044b.\u042f \u0440\u0435\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u043b \u0434\u043b\u044f \u043c\u043e\u0435\u0439 \u043c\u043e\u0434\u0435\u043b\u0438 \u0442\u043e\u0436\u0435 \u0441\u0430\u043c\u043e\u0435.\u0421\u043d\u0430\u0447\u0430\u043b\u0430 \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u0430\u0440\u0440\u0430\u043b\u0435\u043b\u044c\u043d\u043e \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u0443\u0435\u0442 4 \u0440\u0430\u0437\u043d\u044b\u0445 \u043e\u0442\u0432\u0435\u0442\u0430, \u043f\u043e\u0442\u043e\u043c \u0442\u0430\u043a\u0436\u0435 \u043c\u043e\u0434\u0435\u043b\u044c \u043a\u0440\u0438\u0442\u0438\u043a \u0441\u043e\u0432\u043c\u0435\u0449\u0430\u0435\u0442 \u043b\u0443\u0447\u0448\u0435\u0435 \u0438\u0437 \u0432\u0441\u0435\u0445 4 \u043e\u0442\u0432\u0435\u0442\u043e\u0432.\u0422\u0430\u043a\u0436\u0435 \u0431\u044b\u043b \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u043d Deep Research \u0434\u043b\u044f \u044d\u0442\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438.\u041a\u043e\u0434 \u044d\u0442\u0438\u0445 \u043c\u0435\u0442\u043e\u0434\u043e\u0432 \u0435\u0441\u0442\u044c \u043d\u0430 hf \u043a\u0430\u0440\u0442\u043e\u0447\u043a\u0438 \u043c\u043e\u0435\u0439 \u043c\u043e\u0434\u0435\u043b\u0438.<\/p>\n<h2>\u041d\u0430\u0431\u043e\u0440 \u043e\u0431\u0443\u0447\u0430\u044e\u0449\u0438\u0445 \u0434\u0430\u043d\u043d\u044b\u0445<\/h2>\n<p>\u042f \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043b \u043d\u0430\u0431\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445 \u0438\u0437 \u0442\u044b\u0441\u044f\u0447\u0438 \u0432\u043e\u043f\u0440\u043e\u0441\u043e\u0432 \u043f\u043e \u0440\u0430\u0437\u043d\u044b\u043c \u043d\u0430\u0443\u0447\u043d\u044b\u043c \u0441\u0444\u0435\u0440\u0430\u043c-\u0442\u0435\u0445\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u0435, \u0435\u0441\u0442\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e \u043d\u0430\u0443\u0447\u043d\u044b\u0435, \u0433\u0443\u043c\u0430\u043d\u0438\u0442\u0430\u0440\u043d\u044b\u0435.\u0414\u0430\u043b\u0435\u0435 \u044f \u0441\u043e\u0437\u0434\u0430\u043b \u043c\u0435\u0442\u0430 \u043f\u0440\u043e\u043c\u043f\u0442 \u043d\u0430 \u0442\u044b\u0441\u044f\u0447\u0438 \u0441\u0442\u0440\u043e\u043a \u0438 \u043f\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044e \u043c\u043e\u0434\u0435\u043b\u044c \u0441\u043d\u043e\u0432\u0430 \u043f\u0440\u043e\u0441\u043c\u0430\u0442\u0440\u0438\u0432\u0430\u043b\u0430 \u044d\u0442\u043e\u0442 \u043d\u0430\u0431\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445 \u0438\u0437 \u0432\u043e\u043f\u0440\u043e\u0441\u043e\u0432 \u0438 \u043f\u043e\u043d\u0438\u043c\u0430\u043b\u0430 \u043a\u0430\u043a \u043b\u0443\u0447\u0448\u0435 \u043e\u0442\u0432\u0435\u0447\u0430\u0442\u044c \u043d\u0430 \u043d\u0438\u0445.<\/p>\n<h2>\u0411\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0438<\/h2>\n<p>\u041a \u0441\u043e\u0436\u0430\u043b\u0435\u043d\u0438\u044e \u0440\u0435\u0441\u0443\u0440\u0441\u043e\u0432 \u0431\u044b\u043b\u043e \u043c\u0430\u043b\u043e,\u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u044f \u0443\u0441\u043f\u0435\u043b \u043f\u0440\u043e\u0439\u0442\u0438 \u0442\u043e\u043b\u044c\u043a\u043e \u043e\u0434\u0438\u043d \u0442\u0435\u0441\u0442- IMO 2025 \u0438 \u0441\u0440\u0430\u0432\u043d\u0438\u043b\u0438 \u0441 gemini 2.5 pro.\u042f \u043f\u043e\u043f\u0440\u043e\u0441\u0438\u043b \u0441\u0440\u0430\u0432\u043d\u0438\u0442\u044c \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0439 \u043e\u0442\u0432\u0435\u0442, \u043c\u043e\u0434\u0435\u043b\u044c \u0433\u0435\u043c\u0438\u043d\u0438 \u0438 \u043e\u0442\u0432\u0435\u0442 \u043c\u043e\u0435\u0439 \u043c\u043e\u0434\u0435\u043b\u0438 \u0443 chatgpt 4.1.<\/p>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<th>\n<p align=\"left\">\u2116<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0417\u0430\u0434\u0430\u0447\u0430 (\u043a\u0440\u0430\u0442\u043a\u043e)<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u041c\u043e\u0434\u0435\u043b\u044c<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u041a\u043e\u0440\u0440.<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u041f\u043e\u043b\u043d\u043e\u0442\u0430<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0421\u0442\u0440\u043e\u0433\u043e\u0441\u0442\u044c<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0421\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0430<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0421\u043b\u0443\u0447\u0430\u0438<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0424\u0438\u043d\u0430\u043b<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0421\u0440\u0435\u0434\u043d\u0435\u0435<\/p>\n<\/th>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">1<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0424\u0443\u043d\u043a\u0446\u0438\u0438 \u043d\u0430 \u043f\u0440\u043e\u0441\u0442\u044b\u0445 \u0434\u0435\u043b\u0438\u0442\u0435\u043b\u044f\u0445<\/p>\n<\/td>\n<td>\n<p align=\"left\">7B<\/p>\n<\/td>\n<td>\n<p align=\"left\">35%<\/p>\n<\/td>\n<td>\n<p align=\"left\">30%<\/p>\n<\/td>\n<td>\n<p align=\"left\">25%<\/p>\n<\/td>\n<td>\n<p align=\"left\">40%<\/p>\n<\/td>\n<td>\n<p align=\"left\">25%<\/p>\n<\/td>\n<td>\n<p align=\"left\">55%<\/p>\n<\/td>\n<td>\n<p align=\"left\">35%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">Gemini<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">95%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">85%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">95%<\/p>\n<\/td>\n<td>\n<p align=\"left\">91%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">2<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0411\u043e\u043d\u0437\u0430-\u0444\u0443\u043d\u043a\u0446\u0438\u0438<\/p>\n<\/td>\n<td>\n<p align=\"left\">7B<\/p>\n<\/td>\n<td>\n<p align=\"left\">30%<\/p>\n<\/td>\n<td>\n<p align=\"left\">25%<\/p>\n<\/td>\n<td>\n<p align=\"left\">20%<\/p>\n<\/td>\n<td>\n<p align=\"left\">40%<\/p>\n<\/td>\n<td>\n<p align=\"left\">15%<\/p>\n<\/td>\n<td>\n<p align=\"left\">50%<\/p>\n<\/td>\n<td>\n<p align=\"left\">30%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">Gemini<\/p>\n<\/td>\n<td>\n<p align=\"left\">85%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">80%<\/p>\n<\/td>\n<td>\n<p align=\"left\">95%<\/p>\n<\/td>\n<td>\n<p align=\"left\">95%<\/p>\n<\/td>\n<td>\n<p align=\"left\">89%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">3<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041f\u0440\u0435\u0434\u0448\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u0438\u043a\u0438 \u043f\u043e \u0434\u0435\u043b\u0438\u0442\u0435\u043b\u044f\u043c<\/p>\n<\/td>\n<td>\n<p align=\"left\">7B<\/p>\n<\/td>\n<td>\n<p align=\"left\">25%<\/p>\n<\/td>\n<td>\n<p align=\"left\">30%<\/p>\n<\/td>\n<td>\n<p align=\"left\">20%<\/p>\n<\/td>\n<td>\n<p align=\"left\">45%<\/p>\n<\/td>\n<td>\n<p align=\"left\">20%<\/p>\n<\/td>\n<td>\n<p align=\"left\">55%<\/p>\n<\/td>\n<td>\n<p align=\"left\">33%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">Gemini<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">95%<\/p>\n<\/td>\n<td>\n<p align=\"left\">95%<\/p>\n<\/td>\n<td>\n<p align=\"left\">85%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">95%<\/p>\n<\/td>\n<td>\n<p align=\"left\">92%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">4<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0418\u0433\u0440\u0430 \u0441 \u043d\u0435\u0440\u0430\u0432\u0435\u043d\u0441\u0442\u0432\u0430\u043c\u0438<\/p>\n<\/td>\n<td>\n<p align=\"left\">7B<\/p>\n<\/td>\n<td>\n<p align=\"left\">35%<\/p>\n<\/td>\n<td>\n<p align=\"left\">30%<\/p>\n<\/td>\n<td>\n<p align=\"left\">25%<\/p>\n<\/td>\n<td>\n<p align=\"left\">50%<\/p>\n<\/td>\n<td>\n<p align=\"left\">20%<\/p>\n<\/td>\n<td>\n<p align=\"left\">60%<\/p>\n<\/td>\n<td>\n<p align=\"left\">37%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">Gemini<\/p>\n<\/td>\n<td>\n<p align=\"left\">88%<\/p>\n<\/td>\n<td>\n<p align=\"left\">92%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">85%<\/p>\n<\/td>\n<td>\n<p align=\"left\">92%<\/p>\n<\/td>\n<td>\n<p align=\"left\">93%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">5<\/p>\n<\/td>\n<td>\n<p align=\"left\">Tiling \u043d\u0430 \u0440\u0435\u0448\u0451\u0442\u043a\u0435<\/p>\n<\/td>\n<td>\n<p align=\"left\">7B<\/p>\n<\/td>\n<td>\n<p align=\"left\">40%<\/p>\n<\/td>\n<td>\n<p align=\"left\">35%<\/p>\n<\/td>\n<td>\n<p align=\"left\">30%<\/p>\n<\/td>\n<td>\n<p align=\"left\">55%<\/p>\n<\/td>\n<td>\n<p align=\"left\">25%<\/p>\n<\/td>\n<td>\n<p align=\"left\">65%<\/p>\n<\/td>\n<td>\n<p align=\"left\">42%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">Gemini<\/p>\n<\/td>\n<td>\n<p align=\"left\">92%<\/p>\n<\/td>\n<td>\n<p align=\"left\">95%<\/p>\n<\/td>\n<td>\n<p align=\"left\">93%<\/p>\n<\/td>\n<td>\n<p align=\"left\">88%<\/p>\n<\/td>\n<td>\n<p align=\"left\">94%<\/p>\n<\/td>\n<td>\n<p align=\"left\">96%<\/p>\n<\/td>\n<td>\n<p align=\"left\">93%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">6<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0417\u0430\u0434\u0430\u0447\u0430 \u0441 \u0431\u0435\u0441\u043a\u043e\u043d\u0435\u0447\u043d\u044b\u043c \u043f\u0443\u0442\u0451\u043c<\/p>\n<\/td>\n<td>\n<p align=\"left\">7B<\/p>\n<\/td>\n<td>\n<p align=\"left\">28%<\/p>\n<\/td>\n<td>\n<p align=\"left\">25%<\/p>\n<\/td>\n<td>\n<p align=\"left\">20%<\/p>\n<\/td>\n<td>\n<p align=\"left\">50%<\/p>\n<\/td>\n<td>\n<p align=\"left\">15%<\/p>\n<\/td>\n<td>\n<p align=\"left\">55%<\/p>\n<\/td>\n<td>\n<p align=\"left\">32%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">Gemini<\/p>\n<\/td>\n<td>\n<p align=\"left\">87%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">88%<\/p>\n<\/td>\n<td>\n<p align=\"left\">85%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">92%<\/p>\n<\/td>\n<td>\n<p align=\"left\">88%<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>\u0414\u0430, \u0432\u044b \u0441\u043a\u0430\u0436\u0435\u0442\u0435 \u0447\u0442\u043e gemini \u043b\u0443\u0447\u0448\u0435 LiberalMind 1.5 \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u0432 2 \u0440\u0430\u0437\u0430.\u041d\u043e \u043f\u0440\u043e\u0433\u043e\u043d \u0431\u044b\u043b \u043e\u0434\u0438\u043d \u0440\u0430\u0437, \u0433\u0435\u043c\u0438\u043d\u0438 4 \u0440\u0430\u0437\u0430, \u0430 \u0442\u0430\u043a\u0436\u0435 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u044c\u043d\u043e \u0431\u044b\u043b \u043f\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u043e \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u0435 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0432 4000 \u0442\u044b\u0441\u044f\u0447\u0438, \u0441 \u043c\u0443\u043b\u044c\u0442\u0438\u0430\u0433\u0435\u043d\u0442\u043d\u043e\u0439 \u0441\u0438\u0441\u0442\u0435\u043c\u043e\u0439 \u043f\u043e \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0430\u043c \u043e\u043d\u0438 \u0441\u0440\u0430\u0432\u043d\u044f\u0442\u0441\u044f.<\/p>\n<p>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0441 GigaChat 2 MAX<\/p>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<th>\n<p align=\"left\">\u041a\u0440\u0438\u0442\u0435\u0440\u0438\u0439<\/p>\n<\/th>\n<th>\n<p align=\"left\"><strong>\u0422\u0432\u043e\u0435 \u0440\u0435\u0448\u0435\u043d\u0438\u0435<\/strong><\/p>\n<\/th>\n<th>\n<p align=\"left\"><strong>GigaChat<\/strong><\/p>\n<\/th>\n<th>\n<p align=\"left\">\u041f\u043e\u0431\u0435\u0434\u0438\u0442\u0435\u043b\u044c<\/p>\n<\/th>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\"><strong>1. \u041a\u043e\u0440\u0440\u0435\u043a\u0442\u043d\u043e\u0441\u0442\u044c<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0412\u0441\u0451 \u0432\u0435\u0440\u043d\u043e, \u043a\u0430\u0436\u0434\u044b\u0439 \u0441\u043b\u0443\u0447\u0430\u0439 \u0434\u043e\u043a\u0430\u0437\u0430\u043d \u0438\u043b\u0438 \u043f\u043e\u0441\u0442\u0440\u043e\u0435\u043d<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0415\u0441\u0442\u044c \u0438\u043d\u0442\u0443\u0438\u0446\u0438\u0438 \u0438 \u0438\u0434\u0435\u0438, \u043d\u043e \u043d\u0435\u0442 \u043f\u043e\u043b\u043d\u043e\u0439 \u0443\u0432\u0435\u0440\u0435\u043d\u043d\u043e\u0441\u0442\u0438<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2705 <strong>LiberalMind<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\"><strong>2. \u041f\u043e\u043b\u043d\u043e\u0442\u0430 \u043f\u0435\u0440\u0435\u0431\u043e\u0440\u0430 kk<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u042f\u0432\u043d\u043e \u043f\u043e\u043a\u0430\u0437\u0430\u043d\u043e, \u0447\u0442\u043e \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u044b \u0432\u0441\u0435 k\u2208[0,n]k \\in [0, n]<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0413\u043e\u0432\u043e\u0440\u0438\u0442\u0441\u044f \u043e &#171;\u0434\u0438\u0430\u043f\u0430\u0437\u043e\u043d\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0439&#187;, \u043d\u043e \u0431\u0435\u0437 \u044f\u0432\u043d\u043e\u0433\u043e \u0432\u044b\u0432\u043e\u0434\u0430<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2705 <strong>LiberalMind<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\"><strong>3. \u0421\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0430 \u0438\u0437\u043b\u043e\u0436\u0435\u043d\u0438\u044f<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0427\u0451\u0442\u043a\u043e: \u0448\u0430\u0433\u0438, \u0441\u043b\u0443\u0447\u0430\u0438, \u0432\u044b\u0432\u043e\u0434<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041c\u043d\u043e\u0433\u043e &#171;\u0440\u0430\u0441\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0439&#187;, \u0440\u0430\u0437\u0431\u0440\u043e\u0441\u0430\u043d\u043d\u044b\u0439 \u0442\u0435\u043a\u0441\u0442<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2705 <strong>LiberalMind<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\"><strong>4. \u0413\u0435\u043e\u043c\u0435\u0442\u0440\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0441\u0442\u0440\u043e\u0433\u043e\u0441\u0442\u044c<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0415\u0441\u0442\u044c \u043f\u0440\u0438\u043c\u0435\u0440\u044b, \u043e\u0431\u044a\u044f\u0441\u043d\u0435\u043d\u0438\u0435, \u043f\u043e\u043a\u0440\u044b\u0442\u0438\u044f<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0420\u0430\u0441\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u044f \u0431\u043e\u043b\u0435\u0435 \u0432\u044b\u0441\u043e\u043a\u043e\u0443\u0440\u043e\u0432\u043d\u0435\u0432\u044b\u0435, \u0430\u0431\u0441\u0442\u0440\u0430\u043a\u0442\u043d\u044b\u0435<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2705 <strong>LiberalMind<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\"><strong>5. \u0421\u0442\u0438\u043b\u044c (\u0430\u043a\u0430\u0434\u0435\u043c\u0438\u0447\u043d\u043e\u0441\u0442\u044c)<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0410\u043a\u043a\u0443\u0440\u0430\u0442\u043d\u043e\u0435 \u043e\u0444\u043e\u0440\u043c\u043b\u0435\u043d\u0438\u0435, \u0447\u0451\u0442\u043a\u0438\u0435 \u0437\u0430\u0433\u043e\u043b\u043e\u0432\u043a\u0438<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0411\u043e\u043b\u0435\u0435 &#171;\u044d\u0441\u0441\u0435&#187;-\u043f\u043e\u0434\u043e\u0431\u043d\u044b\u0439 \u0441\u0442\u0438\u043b\u044c<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0437\u0430\u0432\u0438\u0441\u0438\u0442 \u043e\u0442 \u0446\u0435\u043b\u0438<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\"><strong>6. \u0424\u0438\u043d\u0430\u043b\u044c\u043d\u044b\u0439 \u043e\u0442\u0432\u0435\u0442<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0427\u0451\u0442\u043a\u0438\u0439: 0,1,2,\u2026,n\\boxed{0, 1, 2, \\ldots, n}<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0420\u0430\u0437\u043c\u044b\u0442\u044b\u0439: &#171;\u0432 \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0451\u043d\u043d\u043e\u043c \u0434\u0438\u0430\u043f\u0430\u0437\u043e\u043d\u0435&#187;<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2705 <strong>LiberalMind<\/strong><\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>\u0422\u0435\u0441\u0442\u044b \u043f\u0440\u043e\u0432\u043e\u0434\u0438\u043b\u0438\u0441\u044c \u043e\u0442\u043a\u0440\u044b\u0442\u043e,\u0432\u044b \u0442\u0430\u043a\u0436\u0435 \u043c\u043e\u0436\u0435\u0442\u0435 \u043f\u0440\u043e\u0432\u0435\u0440\u0438\u0442\u044c \u0441\u0430\u0439\u0442 \u0441 \u0437\u0430\u0434\u0430\u0447\u0430\u043c\u0438 IMO 2025: <a href=\"https:\/\/matharena.ai\/\" rel=\"noopener noreferrer nofollow\">https:\/\/matharena.ai\/<\/a> \u0414\u0430\u043b\u0435\u0435 \u0441\u043a\u0430\u0447\u0438\u0432\u0430\u0435\u0442\u0435 \u043c\u043e\u044e \u043c\u043e\u0434\u0435\u043b\u044c, \u043c\u043e\u0434\u0435\u043b\u044c \u0441 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u043c\u0438 \u0432\u0435\u0441\u0430\u043c\u0438: <a href=\"https:\/\/huggingface.co\/liberalusa\/LiberalMind_v1.5\" rel=\"noopener noreferrer nofollow\">https:\/\/huggingface.co\/liberalusa\/LiberalMind_v1.5<\/a><\/p>\n<h2>\u0418\u0442\u043e\u0433<\/h2>\n<p>\u041f\u0440\u043e\u0434\u0435\u043b\u0430\u043d\u0430 \u043e\u0433\u0440\u043e\u043c\u043d\u0430\u044f \u0440\u0430\u0431\u043e\u0442\u0430, \u0441\u043e\u0437\u0434\u0430\u0442\u0435\u043b\u044c \u044d\u0442\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438- \u0430\u0432\u0442\u043e\u0440 \u044d\u0442\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0438, 17 \u043b\u0435\u0442\u043d\u0438\u0439 \u0448\u043a\u043e\u043b\u044c\u043d\u0438\u043a,\u043c\u043e\u0434\u0435\u043b\u044c \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u043d\u0430 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 qwen 2.5 7B, \u0435\u0434\u0438\u043d\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0435 \u0440\u0435\u0441\u0443\u0440\u0441\u044b \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f: \u043f\u043e\u0434\u043f\u0438\u0441\u043a\u0430 \u0433\u0443\u0433\u043b \u043a\u043e\u043b\u0430\u0431, \u043a\u043e\u0442\u043e\u0440\u043e\u0439 \u0434\u0430\u0432\u0430\u043b\u043e\u0441\u044c \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0447\u0430\u0441\u043e\u0432 Nvidia GPU A100 40GB.\u0415\u0441\u043b\u0438 \u0432\u044b \u0437\u0430\u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043e\u0432\u0430\u043b\u0438\u0441\u044c \u043c\u043e\u0435\u0439 \u0441\u0442\u0430\u0442\u044c\u0435\u0439 \u0438 \u043c\u043e\u0435\u0439 \u043c\u043e\u0434\u0435\u043b\u044c\u044e, \u043c\u043e\u0436\u0435\u0442\u0435 \u0441\u043e \u043c\u043d\u043e\u0439 \u0441\u0432\u044f\u0437\u0430\u0442\u044c\u0441\u044f \u043f\u043e \u043f\u043e\u0432\u043e\u0434\u0443 \u043f\u043e\u043c\u043e\u0449\u0438 \u0432 \u0440\u0430\u0437\u0432\u0438\u0442\u0438\u0438 \u043c\u043e\u0434\u0435\u043b\u0438 \u0438\u043b\u0438 \u043f\u043e \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044e \u0440\u0430\u0431\u043e\u0442\u044b.\u0422\u0435\u043b\u0435\u0433\u0440\u0430\u043c @Quloneco<\/p>\n<p>\u0421\u043f\u0430\u0441\u0438\u0431\u043e \u0437\u0430 \u043f\u0440\u043e\u0447\u0442\u0435\u043d\u0438\u0435!<\/p>\n<\/div>\n<\/div>\n<\/div>\n<p><!----><!----><\/div>\n<p><!----><!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/930352\/\"> https:\/\/habr.com\/ru\/articles\/930352\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<figure class=\"full-width\"><\/figure>\n<h2>\u0421 \u0447\u0435\u0433\u043e \u0432\u0441\u0435 \u043d\u0430\u0447\u0438\u043d\u0430\u043b\u043e\u0441\u044c?<\/h2>\n<p>\u0421\u0430\u043c\u0430 \u0438\u0434\u0435\u044f \u0432\u043e\u0437\u043d\u0438\u043a\u043b\u0430 \u0435\u0449\u0435 \u0433\u043e\u0434 \u043d\u0430\u0437\u0430\u0434.\u0425\u043e\u0442\u0435\u043b\u043e\u0441\u044c \u0441\u043e\u0437\u0434\u0430\u0442\u044c LLM, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0431\u0443\u0434\u0435\u0442 \u0431\u043e\u043b\u044c\u0448\u0435 \u0432\u0441\u0435\u0433\u043e \u043f\u0440\u0438\u0431\u043b\u0438\u0436\u0435\u043d\u0430 \u043a AGI.\u0412 \u043e\u043a\u0442\u044f\u0431\u0440\u0435 2024 \u0431\u044b\u043b\u043e \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u043d\u043e \u0438 \u043f\u0440\u043e\u0434\u0443\u043c\u0430\u043d\u043e \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u0438\u0441\u0442\u0435\u043c \u043f\u0440\u0435\u0442\u0440\u0435\u0439\u043d\u0430 \u043c\u043e\u0434\u0435\u043b\u0435\u0439,\u0430 \u0442\u0430\u043a\u0436\u0435 \u0438\u0445 \u0434\u043e\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0438 reinforcement learning \u0441\u0438\u0441\u0442\u0435\u043c\u044b.\u0422\u0430\u043a\u0436\u0435 \u0431\u044b\u043b\u0430 \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u043d\u0430 \u043d\u043e\u0432\u0430\u044f \u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u0434\u0435\u043a\u043e\u0434\u0435\u0440\u0430 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u0434\u0435\u043a\u043e\u0434\u0438\u0440\u043e\u0432\u0449\u0438\u043a\u0430 ROPE.\u041d\u043e \u043a \u0441\u043e\u0436\u0430\u043b\u0435\u043d\u0438\u044e \u0440\u0435\u0441\u0443\u0440\u0441\u043e\u0432 \u043d\u0430 \u0432\u043d\u0435\u0434\u0440\u0435\u043d\u0438\u0435 \u0442\u0430\u043a\u0438\u0445 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0439 \u0445\u0432\u0430\u0442\u0430\u043b\u043e \u043b\u0438\u0448\u044c \u043d\u0430 \u043c\u043e\u0434\u0435\u043b\u0438 \u0434\u043e 20M \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432,\u0447\u0442\u043e \u043e\u0437\u043d\u0430\u0447\u0430\u043b\u043e \u0438 \u043c\u0430\u043b\u0435\u043d\u044c\u043a\u0438\u0439 \u043d\u0430\u0431\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445 \u0434\u043b\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f,\u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0441\u043c\u044b\u0441\u043b\u0430 \u0432 \u044d\u0442\u043e\u043c \u0438\u043d\u0435 \u0431\u044b\u043b\u043e.<\/p>\n<p>\u0412 \u0430\u043f\u0440\u0435\u043b\u0435 \u0431\u044b\u043b \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u043d \u043e\u043f\u0435\u043d\u0441\u043e\u0440\u0441 \u0430\u0433\u0435\u043d\u0442 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u0433\u0435\u043c\u0438\u043d\u0438,\u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0438 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u0438\u0445 \u0432\u0430\u0440\u0438\u0430\u043d\u0442\u043e\u0432 \u043e\u0442\u0432\u0435\u0442\u0430 \u0438 \u0438\u0445 \u0430\u043d\u0430\u043b\u0438\u0437\u0430 \u0431\u044b\u043b \u043f\u043e \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0443 \u043d\u0430\u043c\u043d\u043e\u0433\u043e \u043b\u0443\u0447\u0448\u0435 grmini 2.5 pro, \u0445\u043e\u0442\u044f \u0430\u0433\u0435\u043d\u0442 \u0431\u044b\u043b \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u043d \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 gemini 2.0.\u0410\u0433\u0435\u043d\u0442 \u0431\u044b\u043b \u043d\u0430\u0437\u0432\u0430\u043d LiberalMind 1.0<\/p>\n<h2>\u041a\u0430\u043a \u044f \u043e\u0431\u0443\u0447\u0430\u043b LiberalMind 1.5?<\/h2>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043f\u0435\u0440\u0435\u0439\u0434\u0435\u043c \u0438\u043c\u0435\u043d\u043d\u043e \u043a \u044d\u0442\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438.\u041e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043f\u043e\u0441\u0442\u0440\u043e\u0435\u043d\u043e \u043d\u0430 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0438 GMPO-( Generative Model Policy Optimization ).\u041a\u0440\u0430\u0442\u043a\u043e \u043e\u043f\u0438\u0448\u0443 \u043a\u0430\u043a \u043e\u043d \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442.<\/p>\n<p>\u044d\u0442\u043e \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0439 \u043c\u0435\u0442\u043e\u0434 \u0432 Reinforcement Learning, \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u0430\u043a\u0442\u0443\u0430\u043b\u044c\u043d\u044b\u0439 \u0432 \u0437\u0430\u0434\u0430\u0447\u0430\u0445 <strong>offline RL<\/strong> \u0438 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0433\u0435\u043d\u0435\u0440\u0430\u0442\u0438\u0432\u043d\u044b\u0445 \u043f\u043e\u043b\u0438\u0442\u0438\u043a (\u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0434\u043b\u044f \u044f\u0437\u044b\u043a\u043e\u0432\u044b\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439).<\/p>\n<p>\u041e\u043d \u0431\u044b\u043b \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d \u043a\u0430\u043a \u0431\u043e\u043b\u0435\u0435 \u043f\u0440\u043e\u0441\u0442\u043e\u0439, \u0438\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0438\u0440\u0443\u0435\u043c\u044b\u0439 \u0438 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u044b\u0439 \u0441\u043f\u043e\u0441\u043e\u0431 RL-\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f <strong>\u0431\u0435\u0437 \u0441\u043b\u043e\u0436\u043d\u044b\u0445 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u043e\u0432 \u0438\u043b\u0438 value-\u0444\u0443\u043d\u043a\u0446\u0438\u0439<\/strong>.<\/p>\n<p>\u0412\u043c\u0435\u0441\u0442\u043e \u0442\u043e\u0433\u043e \u0447\u0442\u043e\u0431\u044b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u043c\u0435\u0442\u043e\u0434\u044b, \u0442\u0430\u043a\u0438\u0435 \u043a\u0430\u043a:<\/p>\n<ul>\n<li>\n<p><strong>PPO (Proximal Policy Optimization)<\/strong> \u2014 \u0441 \u043a\u0440\u0438\u0442\u0438\u043a\u043e\u043c \u0438 \u0430\u043a\u0442\u043e\u0440\u043e\u043c;<\/p>\n<\/li>\n<li>\n<p><strong>QLearning \/ SAC \/ DDPG<\/strong> \u2014 \u0441 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435\u043c \u0444\u0443\u043d\u043a\u0446\u0438\u0438 \u0446\u0435\u043d\u043d\u043e\u0441\u0442\u0438 (value),<\/p>\n<\/li>\n<\/ul>\n<p>GMPO \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442 <strong>advantage-weighted supervised learning<\/strong> \u2014 \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u044e \u043d\u0430 \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u044f, \u0432\u0437\u0432\u0435\u0448\u0435\u043d\u043d\u0443\u044e \u043f\u043e \u043f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u0443 (advantage), \u0431\u0435\u0437 value-\u0444\u0443\u043d\u043a\u0446\u0438\u0438.<\/p>\n<p>\u0424\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u043e:<\/p>\n<\/p>\n<p>\u0433\u0434\u0435:<\/p>\n<ul>\n<li>\n<p> \u2014 \u043f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u043e (advantage), \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u043f\u043e\u0441\u0447\u0438\u0442\u0430\u043d\u043e;<\/p>\n<\/li>\n<li>\n<p> \u2014 \u0432\u0435\u0441\u043e\u0432\u0430\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u044f, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440: <\/p>\n<\/li>\n<li>\n<p>\u200b \u2014 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0438\u0437\u043e\u0432\u0430\u043d\u043d\u0430\u044f \u043f\u043e\u043b\u0438\u0442\u0438\u043a\u0430.<\/p>\n<\/li>\n<\/ul>\n<h3>\u2699\ufe0f \u041a\u0430\u043a \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 GMPO (\u043f\u043e \u0448\u0430\u0433\u0430\u043c)<\/h3>\n<ol>\n<li>\n<p><strong>\u0421\u0431\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445<\/strong> \u0438\u0437 offline \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430: (s,a,r)(s, a, r)(s,a,r).<\/p>\n<\/li>\n<li>\n<p><strong>\u041e\u0446\u0435\u043d\u043a\u0430 advantages<\/strong> \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u044f (\u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0441 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u0435\u043c reward \u0438\u043b\u0438 \u0434\u0440\u0443\u0433\u0438\u0445 \u0442\u0435\u0445\u043d\u0438\u043a).<\/p>\n<\/li>\n<li>\n<p><strong>\u041f\u0435\u0440\u0435\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043f\u043e\u043b\u0438\u0442\u0438\u043a\u0438<\/strong>: \u043f\u043e\u043b\u0438\u0442\u0438\u043a\u0430 \u043e\u0431\u0443\u0447\u0430\u0435\u0442\u0441\u044f \u0438\u043c\u0438\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u044f \u0438\u0437 \u043d\u0430\u0431\u043e\u0440\u0430, \u0432\u0437\u0432\u0435\u0448\u0438\u0432\u0430\u044f \u0438\u0445 \u043f\u043e \u043f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u0443.<\/p>\n<\/li>\n<li>\n<p><strong>\u0420\u0435\u0433\u0443\u043b\u044f\u0440\u0438\u0437\u0430\u0446\u0438\u044f<\/strong> \u2014 \u043c\u043e\u0436\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c KL-\u0434\u0438\u0432\u0435\u0440\u0433\u0435\u043d\u0446\u0438\u044e \u043a \u043d\u0430\u0447\u0430\u043b\u044c\u043d\u043e\u0439 \u043f\u043e\u043b\u0438\u0442\u0438\u043a\u0435.<\/p>\n<\/li>\n<\/ol>\n<h2>\u0412 \u0447\u0435\u043c \u0441\u0443\u0442\u044c \u043c\u043e\u0435\u0433\u043e \u043c\u0435\u0442\u043e\u0434\u0430 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f?<\/h2>\n<h4>1. \u0410\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u0438 \u0440\u043e\u043b\u0438 \u043c\u043e\u0434\u0435\u043b\u0435\u0439<\/h4>\n<ol>\n<li>\n<p><strong>\u041f\u043e\u043b\u0438\u0442\u0438\u043a\u0430 (Actor)<\/strong><\/p>\n<ul>\n<li>\n<p>\u0413\u0435\u043d\u0435\u0440\u0430\u0442\u0438\u0432\u043d\u044b\u0439 \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440 \u0441 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u043c\u0438  \u0437\u0430\u0434\u0430\u0451\u0442\u0441\u044f \u043d\u0438\u0437\u043a\u043e\u0440\u0430\u043d\u0433\u043e\u0432\u044b\u043c\u0438 LoRA\u2011\u043c\u043e\u0434\u0443\u043b\u044f\u043c\u0438.<\/p>\n<\/li>\n<li>\n<p>\u041d\u0430 \u0432\u0445\u043e\u0434\u0435 \u0441\u043e\u0441\u0442\u043e\u044f\u043d\u0438\u0435 , \u043d\u0430 \u0432\u044b\u0445\u043e\u0434\u0435 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u0439 .<\/p>\n<\/li>\n<\/ul>\n<\/li>\n<li>\n<p><strong>\u0413\u0435\u043d\u0435\u0440\u0430\u0442\u0438\u0432\u043d\u044b\u0439 \u041a\u0440\u0438\u0442\u0438\u043a (Generative Critic)<\/strong><\/p>\n<ul>\n<li>\n<p>\u0422\u043e\u0442 \u0436\u0435 \u0442\u0438\u043f \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u044b (\u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440) \u0441 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u043c\u0438  \u2014 LoRA\u2011\u043c\u043e\u0434\u0443\u043b\u0438 \u043a\u0440\u0438\u0442\u0438\u043a\u0430.<\/p>\n<\/li>\n<li>\n<p>\u041f\u0440\u0438\u043d\u0438\u043c\u0430\u0435\u0442 \u043d\u0430 \u0432\u0445\u043e\u0434:<\/p>\n<ol>\n<li>\n<p>\u0421\u043e\u0441\u0442\u043e\u044f\u043d\u0438\u0435  (\u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 \u0438\u043b\u0438 \u043f\u0440\u0435\u0444\u0438\u043a\u0441).<\/p>\n<\/li>\n<li>\n<p>\u041f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u0438\u0435 \u0430\u043a\u0442\u0451\u0440\u0430 aa.<\/p>\n<\/li>\n<li>\n<p>\u0418\u0441\u0442\u0438\u043d\u043d\u044b\u0439 (&#171;\u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0439&#187;) \u043e\u0442\u0432\u0435\u0442 <\/p>\n<\/li>\n<\/ol>\n<\/li>\n<li>\n<p>\u0412\u044b\u0434\u0430\u0451\u0442 <strong>\u043e\u0431\u044a\u044f\u0441\u043d\u0435\u043d\u0438\u0435 \u043e\u0448\u0438\u0431\u043a\u0438<\/strong> \u0432 \u0432\u0438\u0434\u0435 \u0442\u0435\u043a\u0441\u0442\u0430 \u0438 <strong>\u0447\u0438\u0441\u043b\u043e\u0432\u0443\u044e \u043e\u0446\u0435\u043d\u043a\u0443<\/strong> . \u0418\u043c\u0435\u043d\u043d\u043e \u044d\u0442\u0430 \u043c\u043e\u0434\u0435\u043b\u044c \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u0443\u0435\u0442 <em>\u0447\u0438\u0441\u043b\u043e\u0432\u044b\u0435 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b<\/em>:<\/p>\n<ul>\n<li>\n<p>\u041d\u0430\u0433\u0440\u0430\u0434\u0443 .<\/p>\n<\/li>\n<li>\n<p>\u0411\u0430\u0437\u043e\u0432\u0443\u044e \u043b\u0438\u043d\u0438\u044e  (\u0441\u043a\u0430\u043b\u044f\u0440, \u0443\u0441\u0440\u0435\u0434\u043d\u0451\u043d\u043d\u043e\u0435 \u043f\u043e \u0431\u0430\u0442\u0447\u0443).<\/p>\n<\/li>\n<li>\n<p>\u041f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u043e \u041b\u043e\u043a\u0430\u043b\u044c\u043d\u0443\u044e \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u0443  (\u043f\u0440\u0438 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e\u0441\u0442\u0438 \u0434\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u0438 \u0430\u0434\u0430\u043f\u0442\u0438\u0440\u0443\u0435\u043c\u0443\u044e).<\/p>\n<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<\/li>\n<\/ol>\n<hr\/>\n<h4>2. \u0412\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u0435 \u0438 \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u044f \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u043a\u0440\u0438\u0442\u0438\u043a\u043e\u043c<\/h4>\n<ol>\n<li>\n<p><strong>\u041d\u0430\u0433\u0440\u0430\u0434\u0430<\/strong> \u00a0\u2014 \u0441\u043a\u0430\u043b\u044f\u0440, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043a\u0440\u0438\u0442\u0438\u043a \u0432\u044b\u0432\u043e\u0434\u0438\u0442 \u043a\u0430\u043a \u0444\u0443\u043d\u043a\u0446\u0438\u044e \u043e\u0442 \u0442\u0435\u043a\u0441\u0442\u0430 \u043e\u0431\u044a\u044f\u0441\u043d\u0435\u043d\u0438\u044f.<\/p>\n<\/li>\n<li>\n<p><strong>\u0411\u0430\u0437\u043e\u0432\u0430\u044f \u043b\u0438\u043d\u0438\u044f<\/strong> \u00a0\u2014 \u0430\u0433\u0440\u0435\u0433\u0430\u0442\u043d\u0430\u044f \u0441\u0442\u0430\u0442\u0438\u0441\u0442\u0438\u043a\u0430 (mean), \u043a\u043e\u0442\u043e\u0440\u0443\u044e \u043a\u0440\u0438\u0442\u0438\u043a \u0441\u0443\u043c\u043c\u0438\u0440\u0443\u0435\u0442 \u043f\u043e \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u0438\u043c \u0441\u0433\u0435\u043d\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u043c \u043e\u0442\u0432\u0435\u0442\u0430\u043c \u043d\u0430 \u0442\u043e\u0442 \u0436\u0435 ss. \u0422\u0430\u043a\u0436\u0435 \u0440\u0430\u0441\u0441\u0447\u0438\u0442\u0430\u043d\u0430 \u0438 \u0432\u044b\u0432\u0435\u0434\u0435\u043d\u0430 \u043c\u043e\u0434\u0435\u043b\u044c\u044e.<\/p>\n<\/li>\n<li>\n<p><strong>\u041f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u043e<\/strong> \u00a0\u2014 \u0440\u0430\u0437\u043d\u0438\u0446\u0430, \u0440\u0430\u0441\u0441\u0447\u0438\u0442\u0430\u043d\u043d\u0430\u044f \u0432\u043d\u0443\u0442\u0440\u0438 \u043a\u0440\u0438\u0442\u0438\u043a\u0430.<\/p>\n<\/li>\n<li>\n<p><strong>\u0412\u0435\u0441\u043e\u0432\u0430\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u044f<\/strong>:<\/p>\n<p>, <\/p>\n<p>\u0433\u0434\u0435 \u00a0\u2014 \u043b\u0438\u0431\u043e \u0444\u0438\u043a\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u0430\u044f \u0433\u0438\u043f\u0435\u0440\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u0430, \u043b\u0438\u0431\u043e \u0434\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0432\u0435\u043b\u0438\u0447\u0438\u043d\u0430, \u0442\u043e\u0436\u0435 \u0441\u0433\u0435\u043d\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u0430\u044f \u043a\u0440\u0438\u0442\u0438\u043a\u043e\u043c \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u0446\u0435\u043d\u0442\u0440\u0430\u043b\u044c\u043d\u043e\u0439 \u0434\u0438\u0441\u043f\u0435\u0440\u0441\u0438\u0438 .<\/p>\n<\/li>\n<\/ol>\n<blockquote>\n<p><strong>\u0412\u0430\u0436\u043d\u043e:<\/strong> \u0412\u0441\u0435 \u044d\u0442\u0438 \u0447\u0438\u0441\u043b\u043e\u0432\u044b\u0435 \u0432\u0435\u043b\u0438\u0447\u0438\u043d\u044b\u00a0\u2014 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0440\u0430\u0431\u043e\u0442\u044b \u0433\u0435\u043d\u0435\u0440\u0430\u0442\u0438\u0432\u043d\u043e\u0433\u043e \u043a\u0440\u0438\u0442\u0438\u043a\u0430. \u0418\u0445 \u043c\u043e\u0436\u043d\u043e \u043b\u043e\u0433\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0438 \u0430\u043d\u0430\u043b\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u043e.<\/p>\n<\/blockquote>\n<hr\/>\n<h4>3. LoRA\u2011fine\u2011tuning: \u0438\u043d\u0442\u0435\u0433\u0440\u0430\u0446\u0438\u044f \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u0432 \u0432\u0435\u0441\u0430<\/h4>\n<ol>\n<li>\n<p><strong>\u041d\u0438\u0437\u043a\u043e\u0440\u0430\u043d\u0433\u043e\u0432\u0430\u044f \u0430\u0434\u0430\u043f\u0442\u0430\u0446\u0438\u044f<\/strong><\/p>\n<ul>\n<li>\n<p>\u0412 \u043a\u0430\u0436\u0434\u043e\u043c \u0441\u043b\u043e\u0435 \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440\u0430 (\u043f\u043e\u043b\u0438\u0442\u0438\u043a\u0438 \u0438 \u043a\u0440\u0438\u0442\u0438\u043a\u0430) \u043f\u0440\u0438\u0441\u0443\u0442\u0441\u0442\u0432\u0443\u044e\u0442 \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0435 \u043c\u0430\u0442\u0440\u0438\u0446\u044b <\/p>\n<\/li>\n<li>\n<p>\u041f\u043e\u043b\u043d\u044b\u0435 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b: , \u0430\u043d\u0430\u043b\u043e\u0433\u0438\u0447\u043d\u043e \u0434\u043b\u044f <\/p>\n<\/li>\n<\/ul>\n<\/li>\n<li>\n<p><strong>\u041e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 LoRA\u2011\u0432\u0435\u0441\u043e\u0432<\/strong><\/p>\n<ul>\n<li>\n<p>\u0413\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u044b  \u043f\u043e\u0441\u0442\u0443\u043f\u0430\u044e\u0442 <em>\u0442\u043e\u043b\u044c\u043a\u043e<\/em> \u0432 LoRA\u2011\u043c\u043e\u0434\u0443\u043b\u0438. \u0411\u0430\u0437\u043e\u0432\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u03b80,\u03d50\\theta_0, \\phi_0 \u043e\u0441\u0442\u0430\u0451\u0442\u0441\u044f \u0437\u0430\u043c\u043e\u0440\u043e\u0436\u0435\u043d\u043d\u043e\u0439.<\/p>\n<\/li>\n<li>\n<p>LoRA\u2011\u043c\u043e\u0434\u0443\u043b\u0438 \u043e\u0431\u0443\u0447\u0430\u044e\u0442\u0441\u044f \u043c\u0435\u0442\u043e\u0434\u043e\u043c SGD\/Adam \u0441 \u043c\u0430\u043b\u044b\u043c\u0438 learning rate (\u043e\u0431\u044b\u0447\u043d\u043e , \u0447\u0442\u043e \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442:<\/p>\n<ul>\n<li>\n<p>\u0421\u043e\u0445\u0440\u0430\u043d\u044f\u0442\u044c \u044f\u0437\u044b\u043a\u043e\u0432\u044b\u0435 \u0438 \u0433\u0435\u043d\u0435\u0440\u0430\u0442\u0438\u0432\u043d\u044b\u0435 \u0441\u043f\u043e\u0441\u043e\u0431\u043d\u043e\u0441\u0442\u0438 \u0438\u0441\u0445\u043e\u0434\u043d\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438.<\/p>\n<\/li>\n<li>\n<p>\u0411\u044b\u0441\u0442\u0440\u043e \u0430\u0434\u0430\u043f\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c\u0441\u044f \u043f\u043e\u0434 \u0441\u043f\u0435\u0446\u0438\u0444\u0438\u0447\u0435\u0441\u043a\u0438\u0435 reward\u2011\u0441\u0438\u0433\u043d\u0430\u043b\u044b.<\/p>\n<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<\/li>\n<li>\n<p><strong>\u0412\u0441\u0442\u0440\u0430\u0438\u0432\u0430\u043d\u0438\u0435 critic\u2011\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432<\/strong><\/p>\n<ul>\n<li>\n<p>\u0417\u043d\u0430\u0447\u0435\u043d\u0438\u044f  \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442\u0441\u044f \u043a\u0430\u043a <em>\u043c\u0430\u0441\u0448\u0442\u0430\u0431\u043d\u044b\u0435 \u043a\u043e\u044d\u0444\u0444\u0438\u0446\u0438\u0435\u043d\u0442\u044b<\/em> \u0432 \u0442\u0435\u0440\u043c\u0438\u043d\u0430\u0445 \u043f\u043e\u0442\u0435\u0440\u044c:<\/p>\n<\/p>\n<\/li>\n<li>\n<p>\u0413\u0440\u0430\u0434\u0438\u0435\u043d\u0442 \u044d\u0442\u043e\u0439 \u0444\u0443\u043d\u043a\u0446\u0438\u0438 \u043f\u043e\u0440\u043e\u0436\u0434\u0430\u0435\u0442 \u043e\u0431\u043d\u043e\u0432\u043b\u0435\u043d\u0438\u044f LoRA\u2011\u043c\u0430\u0442\u0440\u0438\u0446 \u043f\u0440\u043e\u043f\u043e\u0440\u0446\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u043e critic\u2011\u043e\u0446\u0435\u043d\u043a\u0430\u043c.<\/p>\n<\/li>\n<\/ul>\n<\/li>\n<li>\n<p><strong>\u041f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u0434\u0435\u0442\u0430\u043b\u0438<\/strong><\/p>\n<ul>\n<li>\n<p><strong>\u0420\u0430\u0437\u043c\u0435\u0440\u043d\u043e\u0441\u0442\u044c LoRA<\/strong>: \u043e\u0431\u044b\u0447\u043d\u043e r=4r=4\u20131616 \u0432 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438 \u043e\u0442 \u0431\u044e\u0434\u0436\u0435\u0442\u0430.<\/p>\n<\/li>\n<li>\n<p><strong>\u0427\u0430\u0441\u0442\u043e\u0442\u0430 \u043e\u0431\u043d\u043e\u0432\u043b\u0435\u043d\u0438\u0439<\/strong>: \u043a\u0430\u0436\u0434\u044b\u0435 N \u0448\u0430\u0433\u043e\u0432 \u0430\u043a\u0442\u0451\u0440-\u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u0438 (\u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, N=1\u20134).<\/p>\n<\/li>\n<li>\n<p><strong>\u041c\u0435\u0445\u0430\u043d\u0438\u0437\u043c \u043d\u0430\u043a\u043e\u043f\u043b\u0435\u043d\u0438\u044f<\/strong>: critic \u043c\u043e\u0436\u0435\u0442 \u0437\u0430\u043f\u043e\u043c\u0438\u043d\u0430\u0442\u044c \u0441\u0442\u0430\u0442\u0438\u0441\u0442\u0438\u043a\u0438 ,  \u0432 \u0431\u0443\u0444\u0435\u0440\u0435, \u0447\u0442\u043e\u0431\u044b \u0434\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u0438 \u0440\u0435\u0433\u0443\u043b\u0438\u0440\u043e\u0432\u0430\u0442\u044c .<\/p>\n<\/li>\n<\/ul>\n<\/li>\n<\/ol>\n<hr\/>\n<h4>4. \u041e\u0431\u043d\u043e\u0432\u043b\u0451\u043d\u043d\u044b\u0435 \u0444\u0443\u043d\u043a\u0446\u0438\u0438 \u043f\u043e\u0442\u0435\u0440\u044c \u0438 \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c<\/h4>\n<\/p>\n<p><strong>\u0410\u043b\u0433\u043e\u0440\u0438\u0442\u043c \u043d\u0430 \u043a\u0430\u0436\u0434\u043e\u0439 \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u0438<\/strong>:<\/p>\n<ol>\n<li>\n<p>\u0421\u044d\u043c\u043f\u043b\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0431\u0430\u0442\u0447 <\/p>\n<\/li>\n<li>\n<p>\u0413\u0435\u043d\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c <\/p>\n<\/li>\n<li>\n<p>\u041a\u0440\u0438\u0442\u0438\u043a \u0432\u044b\u0434\u0430\u0451\u0442 <\/p>\n<\/li>\n<li>\n<p>\u041e\u0431\u043d\u043e\u0432\u0438\u0442\u044c LoRA-\u043a\u0440\u0438\u0442\u0438\u043a\u0430 \u043f\u043e \u041e\u0431\u043d\u043e\u0432\u0438\u0442\u044c LoRA-\u043f\u043e\u043b\u0438\u0442\u0438\u043a\u0443 \u043f\u043e <\/p>\n<\/li>\n<\/ol>\n<hr\/>\n<h4><\/h4>\n<figure class=\"full-width\">\n<div><figcaption>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u044f \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e\u0441\u0442\u0438 \u043e\u0442\u0432\u0435\u0442\u0430 \u043f\u043e KL \u0434\u0438\u0432\u0435\u0440\u0433\u0435\u043d\u0446\u0438\u0438 \u0438 \u0432\u0441\u0435\u0433\u043e \u043c\u0435\u0442\u043e\u0434\u0430 \u043e\u0431\u043d\u043e\u0432\u043b\u0435\u043d\u043d\u043e\u0433\u043e GMPO <\/figcaption><\/div>\n<\/figure>\n<h2>Deep Research \u0438 Multi-Agent system<\/h2>\n<p>\u041a\u0430\u043a \u0432\u044b \u043d\u0430\u0432\u0435\u0440\u043d\u043e\u0435 \u0441\u043b\u044b\u0448\u0430\u043b\u0438-Grok 4 \u043f\u0440\u043e\u0448\u0435\u043b \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a Humanity Last Exam \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u043c\u0443\u043b\u044c\u0442\u0438\u0430\u0433\u0435\u043d\u0442\u043d\u043e\u0439 \u0441\u0438\u0441\u0442\u0435\u043c\u044b.\u042f \u0440\u0435\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u043b \u0434\u043b\u044f \u043c\u043e\u0435\u0439 \u043c\u043e\u0434\u0435\u043b\u0438 \u0442\u043e\u0436\u0435 \u0441\u0430\u043c\u043e\u0435.\u0421\u043d\u0430\u0447\u0430\u043b\u0430 \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u0430\u0440\u0440\u0430\u043b\u0435\u043b\u044c\u043d\u043e \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u0443\u0435\u0442 4 \u0440\u0430\u0437\u043d\u044b\u0445 \u043e\u0442\u0432\u0435\u0442\u0430, \u043f\u043e\u0442\u043e\u043c \u0442\u0430\u043a\u0436\u0435 \u043c\u043e\u0434\u0435\u043b\u044c \u043a\u0440\u0438\u0442\u0438\u043a \u0441\u043e\u0432\u043c\u0435\u0449\u0430\u0435\u0442 \u043b\u0443\u0447\u0448\u0435\u0435 \u0438\u0437 \u0432\u0441\u0435\u0445 4 \u043e\u0442\u0432\u0435\u0442\u043e\u0432.\u0422\u0430\u043a\u0436\u0435 \u0431\u044b\u043b \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u043d Deep Research \u0434\u043b\u044f \u044d\u0442\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438.\u041a\u043e\u0434 \u044d\u0442\u0438\u0445 \u043c\u0435\u0442\u043e\u0434\u043e\u0432 \u0435\u0441\u0442\u044c \u043d\u0430 hf \u043a\u0430\u0440\u0442\u043e\u0447\u043a\u0438 \u043c\u043e\u0435\u0439 \u043c\u043e\u0434\u0435\u043b\u0438.<\/p>\n<h2>\u041d\u0430\u0431\u043e\u0440 \u043e\u0431\u0443\u0447\u0430\u044e\u0449\u0438\u0445 \u0434\u0430\u043d\u043d\u044b\u0445<\/h2>\n<p>\u042f \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043b \u043d\u0430\u0431\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445 \u0438\u0437 \u0442\u044b\u0441\u044f\u0447\u0438 \u0432\u043e\u043f\u0440\u043e\u0441\u043e\u0432 \u043f\u043e \u0440\u0430\u0437\u043d\u044b\u043c \u043d\u0430\u0443\u0447\u043d\u044b\u043c \u0441\u0444\u0435\u0440\u0430\u043c-\u0442\u0435\u0445\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u0435, \u0435\u0441\u0442\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e \u043d\u0430\u0443\u0447\u043d\u044b\u0435, \u0433\u0443\u043c\u0430\u043d\u0438\u0442\u0430\u0440\u043d\u044b\u0435.\u0414\u0430\u043b\u0435\u0435 \u044f \u0441\u043e\u0437\u0434\u0430\u043b \u043c\u0435\u0442\u0430 \u043f\u0440\u043e\u043c\u043f\u0442 \u043d\u0430 \u0442\u044b\u0441\u044f\u0447\u0438 \u0441\u0442\u0440\u043e\u043a \u0438 \u043f\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044e \u043c\u043e\u0434\u0435\u043b\u044c \u0441\u043d\u043e\u0432\u0430 \u043f\u0440\u043e\u0441\u043c\u0430\u0442\u0440\u0438\u0432\u0430\u043b\u0430 \u044d\u0442\u043e\u0442 \u043d\u0430\u0431\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445 \u0438\u0437 \u0432\u043e\u043f\u0440\u043e\u0441\u043e\u0432 \u0438 \u043f\u043e\u043d\u0438\u043c\u0430\u043b\u0430 \u043a\u0430\u043a \u043b\u0443\u0447\u0448\u0435 \u043e\u0442\u0432\u0435\u0447\u0430\u0442\u044c \u043d\u0430 \u043d\u0438\u0445.<\/p>\n<h2>\u0411\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0438<\/h2>\n<p>\u041a \u0441\u043e\u0436\u0430\u043b\u0435\u043d\u0438\u044e \u0440\u0435\u0441\u0443\u0440\u0441\u043e\u0432 \u0431\u044b\u043b\u043e \u043c\u0430\u043b\u043e,\u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u044f \u0443\u0441\u043f\u0435\u043b \u043f\u0440\u043e\u0439\u0442\u0438 \u0442\u043e\u043b\u044c\u043a\u043e \u043e\u0434\u0438\u043d \u0442\u0435\u0441\u0442- IMO 2025 \u0438 \u0441\u0440\u0430\u0432\u043d\u0438\u043b\u0438 \u0441 gemini 2.5 pro.\u042f \u043f\u043e\u043f\u0440\u043e\u0441\u0438\u043b \u0441\u0440\u0430\u0432\u043d\u0438\u0442\u044c \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0439 \u043e\u0442\u0432\u0435\u0442, \u043c\u043e\u0434\u0435\u043b\u044c \u0433\u0435\u043c\u0438\u043d\u0438 \u0438 \u043e\u0442\u0432\u0435\u0442 \u043c\u043e\u0435\u0439 \u043c\u043e\u0434\u0435\u043b\u0438 \u0443 chatgpt 4.1.<\/p>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<th>\n<p align=\"left\">\u2116<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0417\u0430\u0434\u0430\u0447\u0430 (\u043a\u0440\u0430\u0442\u043a\u043e)<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u041c\u043e\u0434\u0435\u043b\u044c<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u041a\u043e\u0440\u0440.<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u041f\u043e\u043b\u043d\u043e\u0442\u0430<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0421\u0442\u0440\u043e\u0433\u043e\u0441\u0442\u044c<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0421\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0430<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0421\u043b\u0443\u0447\u0430\u0438<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0424\u0438\u043d\u0430\u043b<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0421\u0440\u0435\u0434\u043d\u0435\u0435<\/p>\n<\/th>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">1<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0424\u0443\u043d\u043a\u0446\u0438\u0438 \u043d\u0430 \u043f\u0440\u043e\u0441\u0442\u044b\u0445 \u0434\u0435\u043b\u0438\u0442\u0435\u043b\u044f\u0445<\/p>\n<\/td>\n<td>\n<p align=\"left\">7B<\/p>\n<\/td>\n<td>\n<p align=\"left\">35%<\/p>\n<\/td>\n<td>\n<p align=\"left\">30%<\/p>\n<\/td>\n<td>\n<p align=\"left\">25%<\/p>\n<\/td>\n<td>\n<p align=\"left\">40%<\/p>\n<\/td>\n<td>\n<p align=\"left\">25%<\/p>\n<\/td>\n<td>\n<p align=\"left\">55%<\/p>\n<\/td>\n<td>\n<p align=\"left\">35%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">Gemini<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">95%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">85%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">95%<\/p>\n<\/td>\n<td>\n<p align=\"left\">91%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">2<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0411\u043e\u043d\u0437\u0430-\u0444\u0443\u043d\u043a\u0446\u0438\u0438<\/p>\n<\/td>\n<td>\n<p align=\"left\">7B<\/p>\n<\/td>\n<td>\n<p align=\"left\">30%<\/p>\n<\/td>\n<td>\n<p align=\"left\">25%<\/p>\n<\/td>\n<td>\n<p align=\"left\">20%<\/p>\n<\/td>\n<td>\n<p align=\"left\">40%<\/p>\n<\/td>\n<td>\n<p align=\"left\">15%<\/p>\n<\/td>\n<td>\n<p align=\"left\">50%<\/p>\n<\/td>\n<td>\n<p align=\"left\">30%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">Gemini<\/p>\n<\/td>\n<td>\n<p align=\"left\">85%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">80%<\/p>\n<\/td>\n<td>\n<p align=\"left\">95%<\/p>\n<\/td>\n<td>\n<p align=\"left\">95%<\/p>\n<\/td>\n<td>\n<p align=\"left\">89%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">3<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041f\u0440\u0435\u0434\u0448\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u0438\u043a\u0438 \u043f\u043e \u0434\u0435\u043b\u0438\u0442\u0435\u043b\u044f\u043c<\/p>\n<\/td>\n<td>\n<p align=\"left\">7B<\/p>\n<\/td>\n<td>\n<p align=\"left\">25%<\/p>\n<\/td>\n<td>\n<p align=\"left\">30%<\/p>\n<\/td>\n<td>\n<p align=\"left\">20%<\/p>\n<\/td>\n<td>\n<p align=\"left\">45%<\/p>\n<\/td>\n<td>\n<p align=\"left\">20%<\/p>\n<\/td>\n<td>\n<p align=\"left\">55%<\/p>\n<\/td>\n<td>\n<p align=\"left\">33%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">Gemini<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">95%<\/p>\n<\/td>\n<td>\n<p align=\"left\">95%<\/p>\n<\/td>\n<td>\n<p align=\"left\">85%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">95%<\/p>\n<\/td>\n<td>\n<p align=\"left\">92%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">4<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0418\u0433\u0440\u0430 \u0441 \u043d\u0435\u0440\u0430\u0432\u0435\u043d\u0441\u0442\u0432\u0430\u043c\u0438<\/p>\n<\/td>\n<td>\n<p align=\"left\">7B<\/p>\n<\/td>\n<td>\n<p align=\"left\">35%<\/p>\n<\/td>\n<td>\n<p align=\"left\">30%<\/p>\n<\/td>\n<td>\n<p align=\"left\">25%<\/p>\n<\/td>\n<td>\n<p align=\"left\">50%<\/p>\n<\/td>\n<td>\n<p align=\"left\">20%<\/p>\n<\/td>\n<td>\n<p align=\"left\">60%<\/p>\n<\/td>\n<td>\n<p align=\"left\">37%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">Gemini<\/p>\n<\/td>\n<td>\n<p align=\"left\">88%<\/p>\n<\/td>\n<td>\n<p align=\"left\">92%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">85%<\/p>\n<\/td>\n<td>\n<p align=\"left\">92%<\/p>\n<\/td>\n<td>\n<p align=\"left\">93%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">5<\/p>\n<\/td>\n<td>\n<p align=\"left\">Tiling \u043d\u0430 \u0440\u0435\u0448\u0451\u0442\u043a\u0435<\/p>\n<\/td>\n<td>\n<p align=\"left\">7B<\/p>\n<\/td>\n<td>\n<p align=\"left\">40%<\/p>\n<\/td>\n<td>\n<p align=\"left\">35%<\/p>\n<\/td>\n<td>\n<p align=\"left\">30%<\/p>\n<\/td>\n<td>\n<p align=\"left\">55%<\/p>\n<\/td>\n<td>\n<p align=\"left\">25%<\/p>\n<\/td>\n<td>\n<p align=\"left\">65%<\/p>\n<\/td>\n<td>\n<p align=\"left\">42%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">Gemini<\/p>\n<\/td>\n<td>\n<p align=\"left\">92%<\/p>\n<\/td>\n<td>\n<p align=\"left\">95%<\/p>\n<\/td>\n<td>\n<p align=\"left\">93%<\/p>\n<\/td>\n<td>\n<p align=\"left\">88%<\/p>\n<\/td>\n<td>\n<p align=\"left\">94%<\/p>\n<\/td>\n<td>\n<p align=\"left\">96%<\/p>\n<\/td>\n<td>\n<p align=\"left\">93%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">6<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0417\u0430\u0434\u0430\u0447\u0430 \u0441 \u0431\u0435\u0441\u043a\u043e\u043d\u0435\u0447\u043d\u044b\u043c \u043f\u0443\u0442\u0451\u043c<\/p>\n<\/td>\n<td>\n<p align=\"left\">7B<\/p>\n<\/td>\n<td>\n<p align=\"left\">28%<\/p>\n<\/td>\n<td>\n<p align=\"left\">25%<\/p>\n<\/td>\n<td>\n<p align=\"left\">20%<\/p>\n<\/td>\n<td>\n<p align=\"left\">50%<\/p>\n<\/td>\n<td>\n<p align=\"left\">15%<\/p>\n<\/td>\n<td>\n<p align=\"left\">55%<\/p>\n<\/td>\n<td>\n<p align=\"left\">32%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">\n<\/td>\n<td>\n<p align=\"left\">Gemini<\/p>\n<\/td>\n<td>\n<p align=\"left\">87%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">88%<\/p>\n<\/td>\n<td>\n<p align=\"left\">85%<\/p>\n<\/td>\n<td>\n<p align=\"left\">90%<\/p>\n<\/td>\n<td>\n<p align=\"left\">92%<\/p>\n<\/td>\n<td>\n<p align=\"left\">88%<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>\u0414\u0430, \u0432\u044b \u0441\u043a\u0430\u0436\u0435\u0442\u0435 \u0447\u0442\u043e gemini \u043b\u0443\u0447\u0448\u0435 LiberalMind 1.5 \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u0432 2 \u0440\u0430\u0437\u0430.\u041d\u043e \u043f\u0440\u043e\u0433\u043e\u043d \u0431\u044b\u043b \u043e\u0434\u0438\u043d \u0440\u0430\u0437, \u0433\u0435\u043c\u0438\u043d\u0438 4 \u0440\u0430\u0437\u0430, \u0430 \u0442\u0430\u043a\u0436\u0435 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u044c\u043d\u043e \u0431\u044b\u043b \u043f\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u043e \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u0435 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0432 4000 \u0442\u044b\u0441\u044f\u0447\u0438, \u0441 \u043c\u0443\u043b\u044c\u0442\u0438\u0430\u0433\u0435\u043d\u0442\u043d\u043e\u0439 \u0441\u0438\u0441\u0442\u0435\u043c\u043e\u0439 \u043f\u043e \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0430\u043c \u043e\u043d\u0438 \u0441\u0440\u0430\u0432\u043d\u044f\u0442\u0441\u044f.<\/p>\n<p>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0441 GigaChat 2 MAX<\/p>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<th>\n<p align=\"left\">\u041a\u0440\u0438\u0442\u0435\u0440\u0438\u0439<\/p>\n<\/th>\n<th>\n<p align=\"left\"><strong>\u0422\u0432\u043e\u0435 \u0440\u0435\u0448\u0435\u043d\u0438\u0435<\/strong><\/p>\n<\/th>\n<th>\n<p align=\"left\"><strong>GigaChat<\/strong><\/p>\n<\/th>\n<th>\n<p align=\"left\">\u041f\u043e\u0431\u0435\u0434\u0438\u0442\u0435\u043b\u044c<\/p>\n<\/th>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\"><strong>1. \u041a\u043e\u0440\u0440\u0435\u043a\u0442\u043d\u043e\u0441\u0442\u044c<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0412\u0441\u0451 \u0432\u0435\u0440\u043d\u043e, \u043a\u0430\u0436\u0434\u044b\u0439 \u0441\u043b\u0443\u0447\u0430\u0439 \u0434\u043e\u043a\u0430\u0437\u0430\u043d \u0438\u043b\u0438 \u043f\u043e\u0441\u0442\u0440\u043e\u0435\u043d<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0415\u0441\u0442\u044c \u0438\u043d\u0442\u0443\u0438\u0446\u0438\u0438 \u0438 \u0438\u0434\u0435\u0438, \u043d\u043e \u043d\u0435\u0442 \u043f\u043e\u043b\u043d\u043e\u0439 \u0443\u0432\u0435\u0440\u0435\u043d\u043d\u043e\u0441\u0442\u0438<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2705 <strong>LiberalMind<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\"><strong>2. \u041f\u043e\u043b\u043d\u043e\u0442\u0430 \u043f\u0435\u0440\u0435\u0431\u043e\u0440\u0430 kk<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u042f\u0432\u043d\u043e \u043f\u043e\u043a\u0430\u0437\u0430\u043d\u043e, \u0447\u0442\u043e \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u044b \u0432\u0441\u0435 k\u2208[0,n]k \\in [0, n]<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0413\u043e\u0432\u043e\u0440\u0438\u0442\u0441\u044f \u043e &#171;\u0434\u0438\u0430\u043f\u0430\u0437\u043e\u043d\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0439&#187;, \u043d\u043e \u0431\u0435\u0437 \u044f\u0432\u043d\u043e\u0433\u043e \u0432\u044b\u0432\u043e\u0434\u0430<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2705 <strong>LiberalMind<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\"><strong>3. \u0421\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0430 \u0438\u0437\u043b\u043e\u0436\u0435\u043d\u0438\u044f<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0427\u0451\u0442\u043a\u043e: \u0448\u0430\u0433\u0438, \u0441\u043b\u0443\u0447\u0430\u0438, \u0432\u044b\u0432\u043e\u0434<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041c\u043d\u043e\u0433\u043e &#171;\u0440\u0430\u0441\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0439&#187;, \u0440\u0430\u0437\u0431\u0440\u043e\u0441\u0430\u043d\u043d\u044b\u0439 \u0442\u0435\u043a\u0441\u0442<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2705 <strong>LiberalMind<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\"><strong>4. \u0413\u0435\u043e\u043c\u0435\u0442\u0440\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0441\u0442\u0440\u043e\u0433\u043e\u0441\u0442\u044c<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0415\u0441\u0442\u044c \u043f\u0440\u0438\u043c\u0435\u0440\u044b, \u043e\u0431\u044a\u044f\u0441\u043d\u0435\u043d\u0438\u0435, \u043f\u043e\u043a\u0440\u044b\u0442\u0438\u044f<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0420\u0430\u0441\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u044f \u0431\u043e\u043b\u0435\u0435 \u0432\u044b\u0441\u043e\u043a\u043e\u0443\u0440\u043e\u0432\u043d\u0435\u0432\u044b\u0435, \u0430\u0431\u0441\u0442\u0440\u0430\u043a\u0442\u043d\u044b\u0435<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2705 <strong>LiberalMind<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\"><strong>5. \u0421\u0442\u0438\u043b\u044c (\u0430\u043a\u0430\u0434\u0435\u043c\u0438\u0447\u043d\u043e\u0441\u0442\u044c)<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0410\u043a\u043a\u0443\u0440\u0430\u0442\u043d\u043e\u0435 \u043e\u0444\u043e\u0440\u043c\u043b\u0435\u043d\u0438\u0435, \u0447\u0451\u0442\u043a\u0438\u0435 \u0437\u0430\u0433\u043e\u043b\u043e\u0432\u043a\u0438<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0411\u043e\u043b\u0435\u0435 &#171;\u044d\u0441\u0441\u0435&#187;-\u043f\u043e\u0434\u043e\u0431\u043d\u044b\u0439 \u0441\u0442\u0438\u043b\u044c<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0437\u0430\u0432\u0438\u0441\u0438\u0442 \u043e\u0442 \u0446\u0435\u043b\u0438<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\"><strong>6. \u0424\u0438\u043d\u0430\u043b\u044c\u043d\u044b\u0439 \u043e\u0442\u0432\u0435\u0442<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0427\u0451\u0442\u043a\u0438\u0439: 0,1,2,\u2026,n\\boxed{0, 1, 2, \\ldots, n}<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0420\u0430\u0437\u043c\u044b\u0442\u044b\u0439: &#171;\u0432 \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0451\u043d\u043d\u043e\u043c \u0434\u0438\u0430\u043f\u0430\u0437\u043e\u043d\u0435&#187;<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2705 <strong>LiberalMind<\/strong><\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>\u0422\u0435\u0441\u0442\u044b \u043f\u0440\u043e\u0432\u043e\u0434\u0438\u043b\u0438\u0441\u044c \u043e\u0442\u043a\u0440\u044b\u0442\u043e,\u0432\u044b \u0442\u0430\u043a\u0436\u0435 \u043c\u043e\u0436\u0435\u0442\u0435 \u043f\u0440\u043e\u0432\u0435\u0440\u0438\u0442\u044c \u0441\u0430\u0439\u0442 \u0441 \u0437\u0430\u0434\u0430\u0447\u0430\u043c\u0438 IMO 2025: <a href=\"https:\/\/matharena.ai\/\" rel=\"noopener noreferrer nofollow\">https:\/\/matharena.ai\/<\/a> \u0414\u0430\u043b\u0435\u0435 \u0441\u043a\u0430\u0447\u0438\u0432\u0430\u0435\u0442\u0435 \u043c\u043e\u044e \u043c\u043e\u0434\u0435\u043b\u044c, \u043c\u043e\u0434\u0435\u043b\u044c \u0441 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u043c\u0438 \u0432\u0435\u0441\u0430\u043c\u0438: <a href=\"https:\/\/huggingface.co\/liberalusa\/LiberalMind_v1.5\" rel=\"noopener noreferrer nofollow\">https:\/\/huggingface.co\/liberalusa\/LiberalMind_v1.5<\/a><\/p>\n<h2>\u0418\u0442\u043e\u0433<\/h2>\n<p>\u041f\u0440\u043e\u0434\u0435\u043b\u0430\u043d\u0430 \u043e\u0433\u0440\u043e\u043c\u043d\u0430\u044f \u0440\u0430\u0431\u043e\u0442\u0430, \u0441\u043e\u0437\u0434\u0430\u0442\u0435\u043b\u044c \u044d\u0442\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438- \u0430\u0432\u0442\u043e\u0440 \u044d\u0442\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0438, 17 \u043b\u0435\u0442\u043d\u0438\u0439 \u0448\u043a\u043e\u043b\u044c\u043d\u0438\u043a,\u043c\u043e\u0434\u0435\u043b\u044c \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u043d\u0430 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 qwen 2.5 7B, \u0435\u0434\u0438\u043d\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0435 \u0440\u0435\u0441\u0443\u0440\u0441\u044b \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f: \u043f\u043e\u0434\u043f\u0438\u0441\u043a\u0430 \u0433\u0443\u0433\u043b \u043a\u043e\u043b\u0430\u0431, \u043a\u043e\u0442\u043e\u0440\u043e\u0439 \u0434\u0430\u0432\u0430\u043b\u043e\u0441\u044c \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0447\u0430\u0441\u043e\u0432 Nvidia GPU A100 40GB.\u0415\u0441\u043b\u0438 \u0432\u044b \u0437\u0430\u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043e\u0432\u0430\u043b\u0438\u0441\u044c \u043c\u043e\u0435\u0439 \u0441\u0442\u0430\u0442\u044c\u0435\u0439 \u0438 \u043c\u043e\u0435\u0439 \u043c\u043e\u0434\u0435\u043b\u044c\u044e, \u043c\u043e\u0436\u0435\u0442\u0435 \u0441\u043e \u043c\u043d\u043e\u0439 \u0441\u0432\u044f\u0437\u0430\u0442\u044c\u0441\u044f \u043f\u043e \u043f\u043e\u0432\u043e\u0434\u0443 \u043f\u043e\u043c\u043e\u0449\u0438 \u0432 \u0440\u0430\u0437\u0432\u0438\u0442\u0438\u0438 \u043c\u043e\u0434\u0435\u043b\u0438 \u0438\u043b\u0438 \u043f\u043e \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044e \u0440\u0430\u0431\u043e\u0442\u044b.\u0422\u0435\u043b\u0435\u0433\u0440\u0430\u043c @Quloneco<\/p>\n<p>\u0421\u043f\u0430\u0441\u0438\u0431\u043e \u0437\u0430 \u043f\u0440\u043e\u0447\u0442\u0435\u043d\u0438\u0435!<\/p>\n<\/div>\n<\/div>\n<\/div>\n<p><!----><!----><\/div>\n<p><!----><!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/930352\/\"> https:\/\/habr.com\/ru\/articles\/930352\/<\/a><br \/><\/br><\/br><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-468351","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/468351","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=468351"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/468351\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=468351"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=468351"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=468351"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}