{"id":466271,"date":"2025-07-07T15:22:57","date_gmt":"2025-07-07T15:22:57","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=466271"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=466271","title":{"rendered":"<span>\u041c\u0435\u043d\u044c\u0448\u0435 \u2014 \u043b\u0443\u0447\u0448\u0435: \u043a\u0430\u043a Polaris-4B \u043e\u0431\u043e\u0448\u0451\u043b Qwen3-32B<\/span>"},"content":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u041f\u0440\u0438\u0432\u0435\u0442, \u0425\u0430\u0431\u0440!<\/p>\n<p>\u0412 \u0438\u044e\u043d\u0435 2025 \u0433\u043e\u0434\u0430 \u043a\u043e\u043c\u0430\u043d\u0434\u0430 \u0438\u0437 \u0413\u043e\u043d\u043a\u043e\u043d\u0433\u0441\u043a\u043e\u0433\u043e \u0443\u043d\u0438\u0432\u0435\u0440\u0441\u0438\u0442\u0435\u0442\u0430 \u0432\u044b\u043b\u043e\u0436\u0438\u043b\u0430 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 <strong>Polaris-4B-Preview<\/strong> \u0438 <strong>Polaris-7B-Preview<\/strong>, \u043e\u0431\u0443\u0447\u0435\u043d\u043d\u044b\u0435 \u0441 \u043d\u0443\u043b\u044f \u043d\u0430 reasoning-\u0437\u0430\u0434\u0430\u0447\u0430\u0445 \u0441 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u0435\u043c Reinforcement Learning. \u042d\u0442\u0438 \u043c\u043e\u0434\u0435\u043b\u0438 \u043d\u0435 \u043f\u0440\u043e\u0441\u0442\u043e \u0434\u043e\u0433\u043e\u043d\u044f\u044e\u0442 \u0442\u043e\u043f\u043e\u0432\u044b\u0435 \u043a\u043e\u043c\u043c\u0435\u0440\u0447\u0435\u0441\u043a\u0438\u0435 \u0430\u043d\u0430\u043b\u043e\u0433\u0438 \u0432\u0440\u043e\u0434\u0435 Claude-Opus \u0438 Grok-3-Beta \u2014 \u043e\u043d\u0438 \u0438\u0445 \u043e\u0431\u0433\u043e\u043d\u044f\u044e\u0442. \u041f\u0440\u0438\u0447\u0451\u043c \u043d\u0430 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0435 \u0432\u0441\u0435\u0433\u043e \u0432 4 \u043c\u0438\u043b\u043b\u0438\u0430\u0440\u0434\u0430 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432.<\/p>\n<p>\u0412\u0441\u0435 \u044d\u0442\u043e \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043f\u0440\u043e\u0434\u0443\u043c\u0430\u043d\u043d\u043e\u0433\u043e \u0438\u043d\u0436\u0435\u043d\u0435\u0440\u043d\u043e\u0433\u043e \u043f\u043e\u0434\u0445\u043e\u0434\u0430. \u0412 \u044d\u0442\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435 \u043a\u043e\u0440\u043e\u0442\u043a\u043e \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c, \u043a\u0430\u043a \u0430\u0432\u0442\u043e\u0440\u0430\u043c Polaris \u0443\u0434\u0430\u043b\u043e\u0441\u044c:<\/p>\n<ul>\n<li>\n<p>\u0438\u0437\u0432\u043b\u0435\u0447\u044c \u043c\u0430\u043a\u0441\u0438\u043c\u0443\u043c \u0438\u0437 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445,<\/p>\n<\/li>\n<li>\n<p>\u043e\u0431\u0435\u0441\u043f\u0435\u0447\u0438\u0442\u044c \u0441\u0442\u0430\u0431\u0438\u043b\u044c\u043d\u043e\u0435 \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 reasoning-\u043c\u043e\u0434\u0435\u043b\u0435\u0439,<\/p>\n<\/li>\n<li>\n<p>\u043e\u0431\u043e\u0439\u0442\u0438 \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u044f \u043d\u0430 \u0434\u043b\u0438\u043d\u043d\u044b\u0435 CoT \u0431\u0435\u0437 \u0434\u043e\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f,<\/p>\n<\/li>\n<li>\n<p>\u0438 \u043f\u0440\u0438 \u044d\u0442\u043e\u043c \u043d\u0435 \u0440\u0430\u0437\u0432\u0430\u043b\u0438\u0442\u044c RL.<\/p>\n<\/li>\n<\/ul>\n<h3>\u0410\u043d\u0430\u043b\u0438\u0437 \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u0434\u0430\u043d\u043d\u044b\u0445: \u0444\u0443\u043d\u0434\u0430\u043c\u0435\u043d\u0442 \u0443\u0441\u0442\u043e\u0439\u0447\u0438\u0432\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f<\/h3>\n<p>\u041e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u044f\u0437\u044b\u043a\u043e\u0432\u044b\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u0441 \u043f\u043e\u0434\u043a\u0440\u0435\u043f\u043b\u0435\u043d\u0438\u0435\u043c (RLHF \u0438\u043b\u0438 GRPO) \u0442\u0440\u0430\u0434\u0438\u0446\u0438\u043e\u043d\u043d\u043e \u0441\u0442\u0440\u0430\u0434\u0430\u0435\u0442 \u043e\u0442 \u043e\u0434\u043d\u043e\u0439 \u0441\u0438\u0441\u0442\u0435\u043c\u043d\u043e\u0439 \u043e\u0448\u0438\u0431\u043a\u0438: \u043e\u0442\u0441\u0443\u0442\u0441\u0442\u0432\u0438\u0435 \u0431\u0430\u043b\u0430\u043d\u0441\u0430 \u043c\u0435\u0436\u0434\u0443 \u043b\u0451\u0433\u043a\u0438\u043c\u0438 \u0438 \u0441\u043b\u043e\u0436\u043d\u044b\u043c\u0438 \u0437\u0430\u0434\u0430\u0447\u0430\u043c\u0438. \u0411\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u043e\u0432 \u043b\u0438\u0431\u043e \u0447\u0440\u0435\u0437\u043c\u0435\u0440\u043d\u043e \u0442\u0440\u0438\u0432\u0438\u0430\u043b\u044c\u043d\u044b, \u043b\u0438\u0431\u043e \u043d\u0435 \u043f\u043e\u0434\u0434\u0430\u044e\u0442\u0441\u044f \u0440\u0435\u0448\u0435\u043d\u0438\u044e \u0434\u0430\u0436\u0435 \u0441\u0438\u043b\u044c\u043d\u044b\u043c\u0438 \u043c\u043e\u0434\u0435\u043b\u044f\u043c\u0438.<\/p>\n<p>\u0412 Polaris \u043f\u043e\u0434\u043e\u0448\u043b\u0438 \u043a \u044d\u0442\u043e\u043c\u0443 \u0432\u043e\u043f\u0440\u043e\u0441\u0443 \u0441 \u0438\u043d\u0436\u0435\u043d\u0435\u0440\u043d\u043e\u0439 \u0441\u0442\u0440\u043e\u0433\u043e\u0441\u0442\u044c\u044e. \u041e\u043d\u0438 \u043f\u043e\u0441\u0442\u0440\u043e\u0438\u043b\u0438 \u043e\u0446\u0435\u043d\u043a\u0443 \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u043f\u0440\u0438\u043c\u0435\u0440\u0430 \u0432 \u0432\u044b\u0431\u043e\u0440\u043a\u0435 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0430\u043d\u0438\u0438 \u0430\u0432\u0442\u043e\u043d\u043e\u043c\u043d\u043e\u0433\u043e \u0432\u044b\u0432\u043e\u0434\u0430.<\/p>\n<pre><code class=\"python\">def estimate_difficulty(model, prompt, n=8):     outputs = [model.generate(prompt, temperature=0.6) for _ in range(n)]     return sum(is_correct(output) for output in outputs) \/ n<\/code><\/pre>\n<p>\u0427\u0435\u043c \u0432\u044b\u0448\u0435 \u0434\u043e\u043b\u044f \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0445 \u0440\u0435\u0448\u0435\u043d\u0438\u0439, \u0442\u0435\u043c \u043f\u0440\u043e\u0449\u0435 \u0437\u0430\u0434\u0430\u0447\u0430. \u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u043c\u043e\u0436\u043d\u043e \u0432\u044b\u0447\u0438\u0441\u043b\u0438\u0442\u044c \u0442\u043e\u0447\u0435\u0447\u043d\u0443\u044e \u043c\u0435\u0442\u0440\u0438\u043a\u0443 \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u043d\u0430 \u043a\u0430\u0436\u0434\u044b\u0439 \u043f\u0440\u0438\u043c\u0435\u0440, \u043d\u0435 \u043f\u0440\u0438\u0431\u0435\u0433\u0430\u044f \u043a \u0440\u0443\u0447\u043d\u043e\u0439 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0435.<\/p>\n<h4>\u0417\u0435\u0440\u043a\u0430\u043b\u044c\u043d\u043e\u0435 J-\u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435<\/h4>\n<p>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0430\u043d\u0430\u043b\u0438\u0437\u0430 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u044f \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u043e\u043a\u0430\u0437\u0430\u043b\u0438\u0441\u044c \u043a\u0440\u0430\u0439\u043d\u0435 \u043f\u043e\u043a\u0430\u0437\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u043c\u0438.<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/f00\/ae3\/672\/f00ae3672b78c6b9611ec143e0df023f.png\" alt=\"\u0421\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435\" title=\"\u0421\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435\" width=\"2566\" height=\"920\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/f00\/ae3\/672\/f00ae3672b78c6b9611ec143e0df023f.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/f00\/ae3\/672\/f00ae3672b78c6b9611ec143e0df023f.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0421\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435<\/figcaption><\/div>\n<\/figure>\n<p>\u041c\u043e\u0434\u0435\u043b\u044c \u043d\u0430 1.5B \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u0447\u0430\u0449\u0435 \u043f\u0440\u043e\u0432\u0430\u043b\u0438\u0432\u0430\u0435\u0442 \u0437\u0430\u0434\u0430\u0447\u0438 \u2014 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0435\u0442 \u0444\u043e\u0440\u043c\u0443, \u0437\u0435\u0440\u043a\u0430\u043b\u044c\u043d\u043e \u043d\u0430\u043f\u043e\u043c\u0438\u043d\u0430\u044e\u0449\u0443\u044e \u0431\u0443\u043a\u0432\u0443 J: \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e \u0437\u0430\u0434\u0430\u0447 \u043a\u0440\u0430\u0439\u043d\u0435 \u0441\u043b\u043e\u0436\u043d\u044b\u0435.<\/p>\n<p>\u041c\u043e\u0434\u0435\u043b\u044c \u043d\u0430 7B \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432, \u043d\u0430\u043f\u0440\u043e\u0442\u0438\u0432, \u0440\u0435\u0448\u0430\u0435\u0442 \u043f\u043e\u0434\u0430\u0432\u043b\u044f\u044e\u0449\u0435\u0435 \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e \u0437\u0430\u0434\u0430\u0447 \u0431\u0435\u0437 \u043e\u0448\u0438\u0431\u043e\u043a. \u0420\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u043f\u0440\u0435\u0432\u0440\u0430\u0449\u0430\u0435\u0442\u0441\u044f \u0432 \u043e\u0431\u044b\u0447\u043d\u043e\u0435 J-\u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435: \u0432\u0441\u0451 \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u043f\u0440\u043e\u0441\u0442\u043e.<\/p>\n<p>\u041e\u0434\u0438\u043d \u0438 \u0442\u043e\u0442 \u0436\u0435 \u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u043f\u043e-\u0440\u0430\u0437\u043d\u043e\u043c\u0443 &#171;\u0447\u0438\u0442\u0430\u0435\u0442\u0441\u044f&#187; \u043c\u043e\u0434\u0435\u043b\u044f\u043c\u0438 \u0440\u0430\u0437\u043d\u043e\u0439 \u043c\u043e\u0449\u043d\u043e\u0441\u0442\u0438. \u0414\u043b\u044f \u043e\u0434\u043d\u043e\u0439 \u043e\u043d \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u0442\u0440\u0443\u0434\u043d\u044b\u0439, \u0434\u043b\u044f \u0434\u0440\u0443\u0433\u043e\u0439 \u2014 \u0431\u0430\u043d\u0430\u043b\u0435\u043d.<\/p>\n<h4>\u0424\u0438\u043b\u044c\u0442\u0440\u0430\u0446\u0438\u044f: \u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0430\u044e\u0449\u0435\u0433\u043e \u043a\u043e\u0440\u043f\u0443\u0441\u0430<\/h4>\n<p>\u0410\u0432\u0442\u043e\u0440\u044b \u0441\u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u043b\u0438 \u0442\u0440\u0438 \u043f\u043e\u0434\u0432\u044b\u0431\u043e\u0440\u043a\u0438 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 DeepScaleR-40K.<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/4f2\/83f\/6d2\/4f283f6d2b73ea00f42bcf7c5b0bf40c.png\" alt=\"\u042d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u0438 \u0432 \u0442\u0440\u0435\u0445 \u043d\u0438\u0436\u0435\u0443\u043f\u043e\u043c\u044f\u043d\u0443\u0442\u044b\u0445 \u0443\u0441\u043b\u043e\u0432\u0438\u044f\u0445\" title=\"\u042d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u0438 \u0432 \u0442\u0440\u0435\u0445 \u043d\u0438\u0436\u0435\u0443\u043f\u043e\u043c\u044f\u043d\u0443\u0442\u044b\u0445 \u0443\u0441\u043b\u043e\u0432\u0438\u044f\u0445\" width=\"2490\" height=\"1324\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/4f2\/83f\/6d2\/4f283f6d2b73ea00f42bcf7c5b0bf40c.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/4f2\/83f\/6d2\/4f283f6d2b73ea00f42bcf7c5b0bf40c.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u042d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u0438 \u0432 \u0442\u0440\u0435\u0445 \u043d\u0438\u0436\u0435\u0443\u043f\u043e\u043c\u044f\u043d\u0443\u0442\u044b\u0445 \u0443\u0441\u043b\u043e\u0432\u0438\u044f\u0445<\/figcaption><\/div>\n<\/figure>\n<ol>\n<li>\n<p><strong>\u041f\u043e\u043b\u043d\u044b\u0439 \u043d\u0430\u0431\u043e\u0440<\/strong>: \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 40 000 \u0437\u0430\u0434\u0430\u0447, \u0441 \u0434\u043e\u043c\u0438\u043d\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435\u043c \u043f\u0440\u043e\u0441\u0442\u044b\u0445 (8\/8).<\/p>\n<\/li>\n<li>\n<p><strong>\u0424\u0438\u043b\u044c\u0442\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0439<\/strong>: \u0443\u0431\u0440\u0430\u043d\u044b \u0432\u0441\u0435 \u0437\u0430\u0434\u0430\u0447\u0438 \u0441 8\/8 \u0440\u0435\u0448\u0435\u043d\u0438\u0439, \u043e\u0441\u0442\u0430\u0451\u0442\u0441\u044f 26 000 \u0437\u0430\u0434\u0430\u0447.<\/p>\n<\/li>\n<li>\n<p><strong>\u0410\u0433\u0440\u0435\u0441\u0441\u0438\u0432\u043d\u043e \u043e\u0442\u0444\u0438\u043b\u044c\u0442\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0439<\/strong>: \u043e\u0441\u0442\u0430\u044e\u0442\u0441\u044f \u0442\u043e\u043b\u044c\u043a\u043e \u0442\u0435 \u0437\u0430\u0434\u0430\u0447\u0438, \u0433\u0434\u0435 \u043c\u0435\u043d\u0435\u0435 \u043f\u043e\u043b\u043e\u0432\u0438\u043d\u044b \u0440\u0435\u0448\u0435\u043d\u0438\u0439 \u0443\u0441\u043f\u0435\u0448\u043d\u044b. 19 000 \u0437\u0430\u0434\u0430\u0447.<\/p>\n<\/li>\n<\/ol>\n<p>\u0422\u0435\u0441\u0442\u044b \u043f\u043e\u043a\u0430\u0437\u0430\u043b\u0438: \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u043b\u0451\u0433\u043a\u0438\u0439 \u0438\u043b\u0438 \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u0441\u043b\u043e\u0436\u043d\u044b\u0439 \u043a\u043e\u0440\u043f\u0443\u0441 <strong>\u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u043e \u0431\u0435\u0441\u043f\u043e\u043b\u0435\u0437\u0435\u043d<\/strong>. \u041b\u0443\u0447\u0448\u0438\u0439 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u0434\u0430\u0451\u0442 \u0441\u0431\u0430\u043b\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u0430\u044f, \u043e\u0442\u0444\u0438\u043b\u044c\u0442\u0440\u043e\u0432\u0430\u043d\u043d\u0430\u044f \u043f\u043e \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u0432\u044b\u0431\u043e\u0440\u043a\u0430.<\/p>\n<h3>Rollout-\u0434\u0438\u0432\u0435\u0440\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u044f \u0438 \u043a\u043e\u043d\u0442\u0440\u043e\u043b\u044c \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u044b<\/h3>\n<p>\u041e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0441 \u043f\u043e\u0434\u043a\u0440\u0435\u043f\u043b\u0435\u043d\u0438\u0435\u043c \u043f\u0440\u0435\u0434\u043f\u043e\u043b\u0430\u0433\u0430\u0435\u0442 \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435 \u0445\u043e\u0440\u043e\u0448\u0438\u0445 \u0438 \u043f\u043b\u043e\u0445\u0438\u0445 \u0442\u0440\u0430\u0435\u043a\u0442\u043e\u0440\u0438\u0439. \u0415\u0441\u043b\u0438 \u043c\u043e\u0434\u0435\u043b\u044c \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u0443\u0435\u0442 \u043e\u0434\u043d\u043e\u0442\u0438\u043f\u043d\u044b\u0435 \u043e\u0442\u0432\u0435\u0442\u044b \u2014 \u043d\u0438\u043a\u0430\u043a\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0430\u044e\u0449\u0435\u0433\u043e \u0441\u0438\u0433\u043d\u0430\u043b\u0430 \u043d\u0435 \u0432\u043e\u0437\u043d\u0438\u043a\u0430\u0435\u0442. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0443\u043f\u0440\u0430\u0432\u043b\u044f\u0442\u044c <strong>\u0440\u0430\u0437\u043d\u043e\u043e\u0431\u0440\u0430\u0437\u0438\u0435\u043c \u0432\u044b\u0431\u043e\u0440\u043e\u043a<\/strong>, \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u0432 \u0437\u0430\u0434\u0430\u0447\u0430\u0445 reasoning, \u0433\u0434\u0435 \u043e\u0434\u043d\u0430 \u0438 \u0442\u0430 \u0436\u0435 \u0446\u0435\u043b\u044c \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u0434\u043e\u0441\u0442\u0438\u0433\u043d\u0443\u0442\u0430 \u0440\u0430\u0437\u043d\u044b\u043c\u0438 \u043b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u0438\u043c\u0438 \u043f\u0443\u0442\u044f\u043c\u0438.<\/p>\n<h4>\u041c\u0435\u0442\u0440\u0438\u043a\u0438 \u0438 \u0443\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u0435 diversity<\/h4>\n<p>\u0414\u043b\u044f \u043e\u0446\u0435\u043d\u043a\u0438 \u0434\u0438\u0432\u0435\u0440\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043b\u0430\u0441\u044c \u043c\u0435\u0442\u0440\u0438\u043a\u0430 <code>distinct-4<\/code> \u2014 \u0434\u043e\u043b\u044f \u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u044b\u0445 4-\u0433\u0440\u0430\u043c\u043c \u043f\u043e \u043e\u0442\u043d\u043e\u0448\u0435\u043d\u0438\u044e \u043a \u043e\u0431\u0449\u0435\u043c\u0443 \u0447\u0438\u0441\u043b\u0443 \u0442\u043e\u043a\u0435\u043d\u043e\u0432.<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/dff\/aab\/0e3\/dffaab0e3794fd02752d3b79e7820740.png\" alt=\"\u0420\u0430\u0437\u043d\u043e\u043e\u0431\u0440\u0430\u0437\u0438\u0435 \u0440\u0430\u0437\u0432\u0435\u0440\u0442\u044b\u0432\u0430\u043d\u0438\u044f \u0441 \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u043e\u0439 \u0432\u044b\u0431\u043e\u0440\u043a\u0438\" title=\"\u0420\u0430\u0437\u043d\u043e\u043e\u0431\u0440\u0430\u0437\u0438\u0435 \u0440\u0430\u0437\u0432\u0435\u0440\u0442\u044b\u0432\u0430\u043d\u0438\u044f \u0441 \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u043e\u0439 \u0432\u044b\u0431\u043e\u0440\u043a\u0438\" width=\"1390\" height=\"966\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/dff\/aab\/0e3\/dffaab0e3794fd02752d3b79e7820740.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/dff\/aab\/0e3\/dffaab0e3794fd02752d3b79e7820740.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0420\u0430\u0437\u043d\u043e\u043e\u0431\u0440\u0430\u0437\u0438\u0435 \u0440\u0430\u0437\u0432\u0435\u0440\u0442\u044b\u0432\u0430\u043d\u0438\u044f \u0441 \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u043e\u0439 \u0432\u044b\u0431\u043e\u0440\u043a\u0438<\/figcaption><\/div>\n<\/figure>\n<p>\u0410\u0432\u0442\u043e\u0440\u044b \u043f\u0440\u043e\u0442\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u043b\u0438 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438 \u043c\u0435\u0436\u0434\u0443:<\/p>\n<ul>\n<li>\n<p>\u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u043e\u0439 \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u0438 (<code>temperature<\/code>)<\/p>\n<\/li>\n<li>\n<p>\u0442\u043e\u0447\u043d\u043e\u0441\u0442\u044c\u044e (<code>mean@32<\/code>)<\/p>\n<\/li>\n<li>\n<p>\u0440\u0430\u0437\u043d\u043e\u043e\u0431\u0440\u0430\u0437\u0438\u0435\u043c (<code>distinct-4<\/code>)<\/p>\n<\/li>\n<\/ul>\n<p>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u043f\u043e\u043a\u0430\u0437\u0430\u043b\u0438, \u0447\u0442\u043e \u043d\u0438\u0437\u043a\u0430\u044f \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u0430 (<code>t=0.6<\/code>) \u0434\u0430\u0435\u0442 \u0441\u0442\u0430\u0431\u0438\u043b\u044c\u043d\u043e\u0441\u0442\u044c, \u043d\u043e \u043f\u043e\u0434\u0430\u0432\u043b\u044f\u0435\u0442 \u0440\u0430\u0437\u043d\u043e\u043e\u0431\u0440\u0430\u0437\u0438\u0435. \u0420\u043e\u0441\u0442 \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u044b \u0434\u043e <code>1.4\u20131.5<\/code> \u0434\u0430\u0451\u0442 \u0432\u0441\u043f\u043b\u0435\u0441\u043a \u0440\u0430\u0437\u043d\u043e\u043e\u0431\u0440\u0430\u0437\u0438\u044f, \u043f\u0440\u0438 \u044d\u0442\u043e\u043c \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u044c \u043d\u0435 \u043f\u0440\u043e\u0441\u0435\u0434\u0430\u0435\u0442 \u043a\u0440\u0438\u0442\u0438\u0447\u043d\u043e. \u041f\u0440\u0438 <code>t&gt;1.55<\/code> \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442\u0441\u044f \u043a\u043e\u043b\u043b\u0430\u043f\u0441: \u043c\u043e\u0434\u0435\u043b\u044c \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u0443\u0435\u0442 \u0448\u0443\u043c.<\/p>\n<h4>\u0414\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0430\u0434\u0430\u043f\u0442\u0430\u0446\u0438\u044f \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u044b<\/h4>\n<p>\u0418\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u044b\u0439 \u0445\u043e\u0434: Polaris \u043d\u0435 \u0444\u0438\u043a\u0441\u0438\u0440\u0443\u0435\u0442 <code>temperature<\/code>, \u0430 <strong>\u043f\u043e\u0441\u0442\u0435\u043f\u0435\u043d\u043d\u043e \u0443\u0432\u0435\u043b\u0438\u0447\u0438\u0432\u0430\u0435\u0442 \u0435\u0451 \u043d\u0430 \u043a\u0430\u0436\u0434\u043e\u0439 \u0444\u0430\u0437\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f<\/strong>, \u0430\u0434\u0430\u043f\u0442\u0438\u0440\u0443\u044f\u0441\u044c \u043a \u0443\u043c\u0435\u043d\u044c\u0448\u0435\u043d\u0438\u044e \u044d\u043d\u0442\u0440\u043e\u043f\u0438\u0438 \u043c\u043e\u0434\u0435\u043b\u0438 (\u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442 \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043e\u0434\u043d\u043e \u0438 \u0442\u043e \u0436\u0435).<\/p>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<th>\n<p align=\"left\">\u0421\u0442\u0430\u0434\u0438\u044f<\/p>\n<\/th>\n<th>\n<p align=\"left\">Polaris-4B<\/p>\n<\/th>\n<th>\n<p align=\"left\">Polaris-7B<\/p>\n<\/th>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">1<\/p>\n<\/td>\n<td>\n<p align=\"left\">1.4<\/p>\n<\/td>\n<td>\n<p align=\"left\">0.7<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">2<\/p>\n<\/td>\n<td>\n<p align=\"left\">1.45<\/p>\n<\/td>\n<td>\n<p align=\"left\">1.0<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">3<\/p>\n<\/td>\n<td>\n<p align=\"left\">1.5<\/p>\n<\/td>\n<td>\n<p align=\"left\">1.1<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>\u0410\u0434\u0430\u043f\u0442\u0438\u0432\u043d\u044b\u0439 \u043c\u0435\u0445\u0430\u043d\u0438\u0437\u043c \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u0443\u0434\u0435\u0440\u0436\u0438\u0432\u0430\u0442\u044c <strong>\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0433\u043e\u0440\u0438\u0437\u043e\u043d\u0442<\/strong> \u043c\u043e\u0434\u0435\u043b\u0438 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u043c, \u043d\u0435 \u0434\u0430\u0432\u0430\u044f \u0435\u0439 \u0437\u0430\u0441\u0442\u0440\u0435\u0432\u0430\u0442\u044c \u0432 \u0443\u0436\u0435 \u043d\u0430\u0439\u0434\u0435\u043d\u043d\u044b\u0445 \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u0430\u0445.<\/p>\n<h3>\u041c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u0432\u044b\u0432\u043e\u0434\u0430: CoT \u0431\u0435\u0437 \u0434\u043e\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f<\/h3>\n<p>Chain-of-Thought \u0442\u0440\u0435\u0431\u0443\u0435\u0442 \u0434\u043b\u0438\u043d\u043d\u043e\u0433\u043e \u0432\u044b\u0432\u043e\u0434\u0430. \u041d\u043e \u043e\u0431\u0443\u0447\u0430\u0442\u044c RL \u043d\u0430 \u043f\u043e\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u044f\u0445 32\u201352K \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u2014 \u0434\u043e\u0440\u043e\u0433\u043e \u0438 \u043d\u0435\u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e. \u041f\u0440\u043e\u0431\u043b\u0435\u043c\u0430 \u0432 \u0442\u043e\u043c, \u0447\u0442\u043e \u0434\u0430\u0436\u0435 \u0435\u0441\u043b\u0438 \u0437\u0430\u0434\u0430\u043d <code>max_seq_len=52K<\/code>, \u0432 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u0441\u0442\u0438 \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e \u0431\u0430\u0442\u0447\u0435\u0439 \u043d\u0435 \u0434\u043e\u0445\u043e\u0434\u0438\u0442 \u0434\u043e \u044d\u0442\u043e\u0439 \u0434\u043b\u0438\u043d\u044b (<code>clip_ratio &lt; 10%<\/code>).<\/p>\n<p>\u0420\u0435\u0448\u0435\u043d\u0438\u0435 Polaris \u2014 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c <strong>\u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441\u043d\u043e\u0435 \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435<\/strong>, \u0441\u043e\u0445\u0440\u0430\u043d\u0438\u0432 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043a\u0443 \u043d\u0430 \u043a\u043e\u0440\u043e\u0442\u043a\u0438\u0445 \u043f\u0440\u0438\u043c\u0435\u0440\u0430\u0445.<\/p>\n<h4>Yarn: \u043f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u043d\u0430\u044f \u044d\u043a\u0441\u0442\u0440\u0430\u043f\u043e\u043b\u044f\u0446\u0438\u044f RoPE<\/h4>\n<p>\u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f <strong>Yarn<\/strong>, \u0441\u0445\u0435\u043c\u0430 \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f Rotary Position Embeddings:<\/p>\n<pre><code class=\"json\">\"rope_scaling\": {   \"attn_factor\": 1.0,   \"factor\": 1.5,   \"rope_type\": \"yarn\" }<\/code><\/pre>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/0ca\/268\/f09\/0ca268f09e0fd548b853f1e8595531a7.png\" width=\"2442\" height=\"1682\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/0ca\/268\/f09\/0ca268f09e0fd548b853f1e8595531a7.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/0ca\/268\/f09\/0ca268f09e0fd548b853f1e8595531a7.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>Yarn \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u043d\u0430 inference \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0434\u043b\u0438\u043d\u044b, \u0432 \u043f\u043e\u043b\u0442\u043e\u0440\u0430 \u0440\u0430\u0437\u0430 \u043f\u0440\u0435\u0432\u044b\u0448\u0430\u044e\u0449\u0438\u0435 \u043e\u0431\u0443\u0447\u0430\u044e\u0449\u0438\u0435, <strong>\u0431\u0435\u0437 \u043f\u043e\u0442\u0435\u0440\u0438 \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u0438<\/strong>.<\/p>\n<p>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0442\u0435\u0441\u0442\u043e\u0432 \u043d\u0430 \u0437\u0430\u0434\u0430\u0447\u0430\u0445 AIME:<\/p>\n<p>\u0414\u043b\u0438\u043d\u044b &gt;32K:<\/p>\n<ul>\n<li>\n<p>\u0411\u0435\u0437 Yarn: \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u044c \u043f\u0430\u0434\u0430\u0435\u0442 \u0434\u043e 26%<\/p>\n<\/li>\n<li>\n<p>\u0421 Yarn: \u0440\u0430\u0441\u0442\u0451\u0442 \u0434\u043e 50%+<\/p>\n<\/li>\n<\/ul>\n<p>\u0424\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438, \u044d\u0442\u043e \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0442\u044c &#171;train-short, test-long&#187; \u0441\u0442\u0440\u0430\u0442\u0435\u0433\u0438\u044e \u0431\u0435\u0437 \u043f\u0435\u0440\u0435\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f.<\/p>\n<h3>\u0423\u0441\u0442\u043e\u0439\u0447\u0438\u0432\u043e\u0441\u0442\u044c RL: \u043a\u0430\u043a Polaris \u0441\u043f\u0440\u0430\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0441 \u043d\u0443\u043b\u0435\u0432\u044b\u043c \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u043e\u043c<\/h3>\n<p>\u041e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u0440\u0430\u0441\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u044f \u0447\u0435\u0440\u0435\u0437 Reinforcement Learning, \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u0441 \u043c\u0430\u043b\u0435\u043d\u044c\u043a\u0438\u043c \u0440\u0430\u0437\u043c\u0435\u0440\u043e\u043c rollout-\u0431\u0430\u0442\u0447\u0430 (<code>n=8<\/code>), \u0441\u0442\u0430\u043b\u043a\u0438\u0432\u0430\u0435\u0442\u0441\u044f \u0441 \u043e\u0434\u043d\u043e\u0439 \u0441\u0438\u0441\u0442\u0435\u043c\u043d\u043e\u0439 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u043e\u0439: <strong>\u0440\u0430\u0437\u0440\u0435\u0436\u0435\u043d\u043d\u043e\u0441\u0442\u044c \u043d\u0430\u0433\u0440\u0430\u0434<\/strong>. \u0412 \u0437\u0430\u0434\u0430\u0447\u0430\u0445 \u043d\u0430 \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u043c\u044b\u0448\u043b\u0435\u043d\u0438\u0435, CoT, \u043b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0432\u044b\u0432\u043e\u0434 \u2014 \u043d\u0435\u0443\u0434\u0430\u0447\u0438 \u0441\u043b\u0443\u0447\u0430\u044e\u0442\u0441\u044f \u0447\u0430\u0441\u0442\u043e. \u0418 \u0431\u044b\u0432\u0430\u0435\u0442, \u0447\u0442\u043e \u043d\u0430 \u043e\u0434\u0438\u043d \u0438 \u0442\u043e\u0442 \u0436\u0435 prompt \u043c\u043e\u0434\u0435\u043b\u044c 8 \u0440\u0430\u0437 \u043f\u043e\u0434\u0440\u044f\u0434 \u0432\u044b\u0434\u0430\u0451\u0442 \u043d\u0435\u0432\u0435\u0440\u043d\u044b\u0439 \u043e\u0442\u0432\u0435\u0442. \u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442: batch \u0431\u0435\u0437 \u043f\u043e\u043b\u043e\u0436\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0445 \u043f\u0440\u0438\u043c\u0435\u0440\u043e\u0432 \u2192 <strong>\u043d\u0443\u043b\u0435\u0432\u043e\u0439 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442<\/strong> \u2192 \u043f\u043e\u0442\u0435\u0440\u044f\u043d\u043d\u044b\u0439 \u0448\u0430\u0433 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f.<\/p>\n<p>\u0412 \u0442\u0440\u0430\u0434\u0438\u0446\u0438\u043e\u043d\u043d\u043e\u043c GRPO \u0438\u043b\u0438 PPO \u044d\u0442\u043e \u043f\u0440\u0438\u0432\u043e\u0434\u0438\u0442 \u043a \u0441\u0442\u0430\u0433\u043d\u0430\u0446\u0438\u0438: \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0435 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442 \u0441\u0438\u0433\u043d\u0430\u043b\u0430, \u043d\u0435 \u0437\u043d\u0430\u0435\u0442, \u043a\u0443\u0434\u0430 \u0434\u0432\u0438\u0433\u0430\u0442\u044c\u0441\u044f. \u0410 \u043f\u043e\u0432\u0442\u043e\u0440\u043d\u043e\u0435 \u043f\u0440\u043e\u0433\u043e\u043d\u044f\u043d\u0438\u0435 \u0442\u0435\u0445 \u0436\u0435 \u043f\u0440\u043e\u043c\u043f\u0442\u043e\u0432 \u2014 \u0434\u043e\u0440\u043e\u0433\u043e \u0438 \u043d\u0435\u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e.<\/p>\n<p>\u0412 Polaris \u0431\u044b\u043b\u0438 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u044b \u0434\u0432\u0430 \u043f\u0440\u043e\u0441\u0442\u044b\u0445, \u043d\u043e \u043c\u043e\u0449\u043d\u044b\u0445 \u0441\u043f\u043e\u0441\u043e\u0431\u0430 \u043f\u0440\u0435\u043e\u0434\u043e\u043b\u0435\u043d\u0438\u044f \u044d\u0442\u043e\u0433\u043e &#171;\u044d\u0444\u0444\u0435\u043a\u0442\u0430 \u043f\u0443\u0441\u0442\u043e\u0433\u043e \u0431\u0430\u0442\u0447\u0430&#187;.<\/p>\n<h4>Rollout Rescue Buffer: \u043c\u044f\u0433\u043a\u043e\u0435 \u0432\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u043f\u0430\u043c\u044f\u0442\u0438 \u0432 RL<\/h4>\n<p>\u041a\u0430\u0436\u0434\u0430\u044f \u0437\u0430\u0434\u0430\u0447\u0430 \u0432 \u043e\u0431\u0443\u0447\u0430\u044e\u0449\u0435\u043c \u043a\u043e\u0440\u043f\u0443\u0441\u0435 \u0432 Polaris \u0438\u043c\u0435\u0435\u0442 \u0430\u0441\u0441\u043e\u0446\u0438\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0439 <strong>\u0431\u0443\u0444\u0435\u0440 \u0443\u0441\u043f\u0435\u0448\u043d\u043e\u0433\u043e \u043e\u0442\u0432\u0435\u0442\u0430<\/strong>. \u042d\u0442\u043e \u043a\u044d\u0448, \u0433\u0434\u0435 \u0441\u043e\u0445\u0440\u0430\u043d\u044f\u0435\u0442\u0441\u044f \u043f\u043e\u0441\u043b\u0435\u0434\u043d\u0438\u0439 \u0438\u0437\u0432\u0435\u0441\u0442\u043d\u044b\u0439 \u043a\u043e\u0440\u0440\u0435\u043a\u0442\u043d\u044b\u0439 \u0432\u044b\u0432\u043e\u0434 \u0434\u043b\u044f \u0434\u0430\u043d\u043d\u043e\u0433\u043e prompt&#8217;\u0430, \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u0439 \u043d\u0430 \u043b\u044e\u0431\u043e\u043c \u044d\u0442\u0430\u043f\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f.<\/p>\n<p>\u0421\u0446\u0435\u043d\u0430\u0440\u0438\u0439 \u0440\u0430\u0431\u043e\u0442\u044b:<\/p>\n<ol>\n<li>\n<p>\u041c\u043e\u0434\u0435\u043b\u044c \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u0443\u0435\u0442 8 rollout&#8217;\u043e\u0432 \u0434\u043b\u044f \u0437\u0430\u0434\u0430\u0447\u0438 X.<\/p>\n<\/li>\n<li>\n<p>\u0412\u0441\u0435 \u043e\u043d\u0438 \u043e\u043a\u0430\u0437\u044b\u0432\u0430\u044e\u0442\u0441\u044f \u043d\u0435\u0443\u0441\u043f\u0435\u0448\u043d\u044b\u043c\u0438 (<code>accuracy == 0\/8<\/code>).<\/p>\n<\/li>\n<li>\n<p>\u0415\u0441\u043b\u0438 \u0434\u043b\u044f \u0437\u0430\u0434\u0430\u0447\u0438 X \u0432 \u043f\u0440\u043e\u0448\u043b\u043e\u043c \u0431\u044b\u043b \u0443\u0441\u043f\u0435\u0448\u043d\u044b\u0439 rollout \u2014 \u043e\u043d \u0431\u0435\u0440\u0451\u0442\u0441\u044f \u0438\u0437 \u0431\u0443\u0444\u0435\u0440\u0430.<\/p>\n<\/li>\n<li>\n<p>\u041e\u0434\u0438\u043d \u0438\u0437 8 \u0442\u0435\u043a\u0443\u0449\u0438\u0445 \u043f\u0440\u043e\u0432\u0430\u043b\u044c\u043d\u044b\u0445 rollout&#8217;\u043e\u0432 \u0437\u0430\u043c\u0435\u043d\u044f\u0435\u0442\u0441\u044f \u044d\u0442\u0438\u043c \u0431\u0443\u0444\u0435\u0440\u043d\u044b\u043c.<\/p>\n<\/li>\n<\/ol>\n<p>\u0417\u0430\u043c\u0435\u043d\u0430 \u0434\u0435\u043b\u0430\u0435\u0442\u0441\u044f \u043d\u0435 \u043f\u043e\u043b\u043d\u043e\u0441\u0442\u044c\u044e \u2014 \u0442\u043e\u043b\u044c\u043a\u043e \u043e\u0434\u0438\u043d \u0438\u0437 8 rollout&#8217;\u043e\u0432. \u042d\u0442\u043e \u043d\u0435 \u043d\u0430\u0440\u0443\u0448\u0430\u0435\u0442 \u0441\u0442\u0430\u0442\u0438\u0441\u0442\u0438\u043a\u0443 RL, \u043f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e reward \u0432\u0441\u0451 \u0440\u0430\u0432\u043d\u043e \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0435\u0442\u0441\u044f \u0432\u044b\u0431\u043e\u0440\u043e\u0447\u043d\u043e.<\/p>\n<p>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442: <strong>\u0431\u0430\u0442\u0447 \u0432\u0441\u0435\u0433\u0434\u0430 \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u0445\u043e\u0442\u044f \u0431\u044b \u043e\u0434\u0438\u043d \u0441\u0438\u0433\u043d\u0430\u043b \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f<\/strong>, \u0438 \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442 \u043d\u0435\u043d\u0443\u043b\u0435\u0432\u043e\u0439 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442, \u0434\u0430\u0436\u0435 \u0435\u0441\u043b\u0438 &#171;\u0441\u0435\u0433\u043e\u0434\u043d\u044f \u0435\u0439 \u043d\u0435 \u0438\u0434\u0451\u0442&#187;.<\/p>\n<h4>Intra-Batch Informative Substitution:<\/h4>\n<p>\u0412\u0442\u043e\u0440\u043e\u0439 \u043c\u0435\u0445\u0430\u043d\u0438\u0437\u043c \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0432\u043d\u0443\u0442\u0440\u0438 \u0442\u0435\u043a\u0443\u0449\u0435\u0433\u043e \u0431\u0430\u0442\u0447\u0430 \u2014 <strong>\u0431\u0435\u0437 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u044f \u0432\u043d\u0435\u0448\u043d\u0435\u0439 \u043f\u0430\u043c\u044f\u0442\u0438<\/strong>. \u0415\u0441\u043b\u0438 \u0447\u0430\u0441\u0442\u044c \u0437\u0430\u0434\u0430\u0447 \u043e\u043a\u0430\u0437\u0430\u043b\u0430\u0441\u044c &#171;\u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0442\u0438\u0432\u043d\u043e\u0439&#187; (\u0442.\u0435. \u0441\u0440\u0435\u0434\u0438 8 rollout&#8217;\u043e\u0432 \u0435\u0441\u0442\u044c \u043a\u0430\u043a \u043c\u0438\u043d\u0438\u043c\u0443\u043c \u043e\u0434\u0438\u043d \u0443\u0441\u043f\u0435\u0448\u043d\u044b\u0439), \u0430 \u0434\u0440\u0443\u0433\u0430\u044f \u0447\u0430\u0441\u0442\u044c \u043f\u043e\u043b\u043d\u043e\u0441\u0442\u044c\u044e \u043f\u0440\u043e\u0432\u0430\u043b\u0435\u043d\u0430, Polaris \u0434\u0435\u043b\u0430\u0435\u0442 \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0435\u0435:<\/p>\n<ol>\n<li>\n<p>\u041d\u0430\u0445\u043e\u0434\u0438\u0442 &#171;\u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0442\u0438\u0432\u043d\u044b\u0435&#187; \u043f\u0440\u0438\u043c\u0435\u0440\u044b \u2014 \u0437\u0430\u0434\u0430\u0447\u0438 \u0441 mix \u0438\u0437 0 \u0438 1 reward.<\/p>\n<\/li>\n<li>\n<p>\u042d\u0442\u0438 \u043f\u0440\u0438\u043c\u0435\u0440\u044b \u0434\u0443\u0431\u043b\u0438\u0440\u0443\u044e\u0442\u0441\u044f \u0438 \u043f\u043e\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u044e\u0442\u0441\u044f \u043d\u0430 \u043c\u0435\u0441\u0442\u043e &#171;\u043c\u0435\u0440\u0442\u0432\u044b\u0445&#187; \u0437\u0430\u0434\u0430\u0447 (0\/8).<\/p>\n<\/li>\n<li>\n<p>\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u0432\u0435\u0441\u044c \u0431\u0430\u0442\u0447 \u043d\u0430\u043f\u043e\u043b\u043d\u044f\u0435\u0442\u0441\u044f \u043f\u0440\u0438\u043c\u0435\u0440\u0430\u043c\u0438, \u043e\u0442 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043c\u043e\u0436\u043d\u043e \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u043f\u043e\u043b\u0435\u0437\u043d\u044b\u0439 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442.<\/p>\n<\/li>\n<\/ol>\n<p>\u041e\u0431\u0430 \u043c\u0435\u0445\u0430\u043d\u0438\u0437\u043c\u0430 \u2014 Rollout Rescue \u0438 Intra-Batch Substitution \u2014 \u0440\u0435\u0448\u0430\u044e\u0442 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0443 <strong>reward sparsity<\/strong> \u043f\u0440\u0438 \u043d\u0435\u0431\u043e\u043b\u044c\u0448\u0438\u0445 batch-size. \u0417\u0430\u043c\u0435\u043d\u044b \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u0432 \u0440\u0430\u043c\u043a\u0430\u0445 already validated outputs, reward-\u0444\u0443\u043d\u043a\u0446\u0438\u044f \u043e\u0441\u0442\u0430\u0451\u0442\u0441\u044f \u0431\u0438\u043d\u0430\u0440\u043d\u043e\u0439, \u0438 \u043d\u0438\u043a\u0430\u043a\u043e\u0439 \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u0438 &#171;\u0438\u0437 \u0431\u0443\u0434\u0443\u0449\u0435\u0433\u043e&#187; \u043d\u0435 \u043f\u0440\u043e\u0438\u0441\u0445\u043e\u0434\u0438\u0442.<\/p>\n<p>\u042d\u0444\u0444\u0435\u043a\u0442 \u0432 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0438:<\/p>\n<ul>\n<li>\n<p>\u0417\u043d\u0430\u0447\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u043c\u0435\u043d\u044c\u0448\u0435 &#171;\u043c\u0451\u0440\u0442\u0432\u044b\u0445 \u0448\u0430\u0433\u043e\u0432&#187;<\/p>\n<\/li>\n<li>\n<p>\u0423\u0441\u0442\u043e\u0439\u0447\u0438\u0432\u044b\u0439 \u0440\u043e\u0441\u0442 reward \u043d\u0430 \u043a\u0430\u0436\u0434\u043e\u0439 \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u0438<\/p>\n<\/li>\n<li>\n<p>\u041f\u043e\u0432\u044b\u0448\u0435\u043d\u0438\u0435 sample efficiency RL<\/p>\n<\/li>\n<\/ul>\n<h3>\u041e\u0442\u043a\u0430\u0437 \u043e\u0442 KL \u0438 Entropy<\/h3>\n<p>\u0412\u043c\u0435\u0441\u0442\u0435 \u0441 \u043c\u0435\u0440\u0430\u043c\u0438 \u043f\u043e \u0443\u0441\u0442\u043e\u0439\u0447\u0438\u0432\u043e\u0441\u0442\u0438, \u0432 Polaris \u043e\u0442\u043a\u0430\u0437\u0430\u043b\u0438\u0441\u044c \u043e\u0442 \u0434\u0432\u0443\u0445 \u043f\u043e\u043f\u0443\u043b\u044f\u0440\u043d\u044b\u0445, \u043d\u043e \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u043d\u044b\u0445 \u043a\u043e\u043c\u043f\u043e\u043d\u0435\u043d\u0442\u043e\u0432 \u0432 RLHF:<\/p>\n<h4>\u041f\u043e\u0447\u0435\u043c\u0443 \u0431\u044b\u043b \u0443\u0431\u0440\u0430\u043d KL<\/h4>\n<p>KL-\u0434\u0438\u0432\u0435\u0440\u0433\u0435\u043d\u0446\u0438\u044f \u043c\u0435\u0436\u0434\u0443 \u0442\u0435\u043a\u0443\u0449\u0435\u0439 \u043f\u043e\u043b\u0438\u0442\u0438\u043a\u043e\u0439 \u0438 SFT-\u043c\u043e\u0434\u0435\u043b\u044c\u044e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f \u0432\u043e \u043c\u043d\u043e\u0433\u0438\u0445 RLHF-\u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044f\u0445 (\u0432\u043a\u043b\u044e\u0447\u0430\u044f PPO) \u0434\u043b\u044f \u0441\u0442\u0430\u0431\u0438\u043b\u0438\u0437\u0430\u0446\u0438\u0438. \u041d\u043e \u0432 \u0437\u0430\u0434\u0430\u0447\u0430\u0445 reasoning \u044d\u0442\u043e \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u0441\u044f \u0442\u043e\u0440\u043c\u043e\u0437\u043e\u043c: \u043c\u043e\u0434\u0435\u043b\u044c \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0430 \u0440\u0430\u043c\u043a\u0430\u043c\u0438 SFT-\u043f\u043e\u0432\u0435\u0434\u0435\u043d\u0438\u044f \u0438 \u043d\u0435 \u043c\u043e\u0436\u0435\u0442 \u0438\u0441\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u0442\u044c \u043d\u043e\u0432\u044b\u0435 \u0441\u0442\u0440\u0430\u0442\u0435\u0433\u0438\u0438 \u0440\u0430\u0441\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u044f.<\/p>\n<p>\u0412 Polaris KL \u043f\u043e\u043b\u043d\u043e\u0441\u0442\u044c\u044e \u0443\u0431\u0440\u0430\u043d, \u0447\u0442\u043e\u0431\u044b \u043c\u043e\u0434\u0435\u043b\u044c \u043c\u043e\u0433\u043b\u0430 <strong>\u043e\u0442\u043a\u043b\u043e\u043d\u044f\u0442\u044c\u0441\u044f \u043e\u0442 SFT \u0438 \u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043d\u043e\u0432\u044b\u0435 \u043b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u0446\u0435\u043f\u043e\u0447\u043a\u0438<\/strong> \u2014 \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u0435\u0441\u043b\u0438 \u043e\u043d\u0438 \u043d\u0435\u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u044b\u0435, \u043d\u043e \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0435.<\/p>\n<h4>\u041f\u043e\u0447\u0435\u043c\u0443 \u0431\u044b\u043b \u0443\u0431\u0440\u0430\u043d Entropy loss<\/h4>\n<p>\u0418\u0434\u0435\u044f \u043f\u043e\u043e\u0449\u0440\u044f\u0442\u044c \u044d\u043d\u0442\u0440\u043e\u043f\u0438\u044e \u0432 output&#8217;\u0430\u0445 \u043d\u0430 \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435 \u043e\u0431\u043e\u0440\u0430\u0447\u0438\u0432\u0430\u0435\u0442\u0441\u044f \u043d\u0435\u0441\u0442\u0430\u0431\u0438\u043b\u044c\u043d\u043e\u0441\u0442\u044c\u044e:<\/p>\n<ul>\n<li>\n<p>\u041d\u0430 \u043f\u043e\u0437\u0434\u043d\u0438\u0445 \u044d\u0442\u0430\u043f\u0430\u0445 RL \u044d\u043d\u0442\u0440\u043e\u043f\u0438\u044f \u043c\u043e\u0436\u0435\u0442 \u0440\u0430\u0441\u0442\u0438 \u0445\u0430\u043e\u0442\u0438\u0447\u043d\u043e<\/p>\n<\/li>\n<li>\n<p>\u042d\u0442\u043e \u0432\u0435\u0434\u0451\u0442 \u043a \u043a\u043e\u043b\u043b\u0430\u043f\u0441\u0443: \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442 \u0432\u044b\u0434\u0430\u0432\u0430\u0442\u044c \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u044b\u0435 \u0442\u043e\u043a\u0435\u043d\u044b<\/p>\n<\/li>\n<\/ul>\n<p>\u0412 Polaris \u043e\u0442\u043a\u0430\u0437\u0430\u043b\u0438\u0441\u044c \u043e\u0442 \u044d\u043d\u0442\u0440\u043e\u043f\u0438\u0439\u043d\u043e\u0433\u043e \u043f\u043e\u043e\u0449\u0440\u0435\u043d\u0438\u044f, \u0441\u043e\u0441\u0440\u0435\u0434\u043e\u0442\u043e\u0447\u0438\u0432\u0448\u0438\u0441\u044c \u043d\u0430 <strong>\u0447\u0438\u0441\u0442\u043e\u043c outcome-based reward<\/strong>.<\/p>\n<p>\u0412\u043c\u0435\u0441\u0442\u043e \u0432\u0441\u0435\u0433\u043e \u044d\u0442\u043e\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f <strong>surrogate loss \u0441 upper clipping bound<\/strong>, \u0430\u043d\u0430\u043b\u043e\u0433\u0438\u0447\u043d\u044b\u0439 DAPO.<\/p>\n<h3>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0438 \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435<\/h3>\n<p>\u0427\u0442\u043e\u0431\u044b \u043e\u0446\u0435\u043d\u0438\u0442\u044c \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u0435\u0439 Polaris, \u0430\u0432\u0442\u043e\u0440\u044b \u043f\u0440\u043e\u0432\u0435\u043b\u0438 \u0441\u0435\u0440\u0438\u044e \u0442\u0435\u0441\u0442\u043e\u0432 \u043d\u0430 \u043f\u043e\u043f\u0443\u043b\u044f\u0440\u043d\u044b\u0445 \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0430\u0445, \u0432\u043a\u043b\u044e\u0447\u0430\u044f AIME24, AIME25, Minerva Math, Olympiad Bench \u0438 AMC23. \u0412\u0441\u0435 \u0442\u0435\u0441\u0442\u044b \u043f\u0440\u043e\u0432\u043e\u0434\u0438\u043b\u0438\u0441\u044c \u043f\u043e \u0441\u0442\u0440\u043e\u0433\u0438\u043c, \u0432\u043e\u0441\u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u043c\u044b\u043c \u0443\u0441\u043b\u043e\u0432\u0438\u044f\u043c: \u043f\u043e 32 \u043f\u0440\u043e\u0433\u043e\u043d\u043a\u0438 \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0439 \u0437\u0430\u0434\u0430\u0447\u0438 (\u0438\u043b\u0438 4\/8 \u2014 \u0433\u0434\u0435 \u0443\u043a\u0430\u0437\u0430\u043d\u043e), \u0441 \u0435\u0434\u0438\u043d\u044b\u043c\u0438 sampling-\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u043c\u0438.<\/p>\n<p>\u0412\u0441\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u043b\u0438\u0441\u044c \u0432 \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0445 \u0443\u0441\u043b\u043e\u0432\u0438\u044f\u0445, \u043a\u0440\u043e\u043c\u0435 Qwen3, \u0433\u0434\u0435 \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u043b\u0438\u0441\u044c \u0431\u043e\u043b\u0435\u0435 \u043a\u043e\u043d\u0441\u0435\u0440\u0432\u0430\u0442\u0438\u0432\u043d\u044b\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u043f\u043e \u0443\u043c\u043e\u043b\u0447\u0430\u043d\u0438\u044e:<\/p>\n<pre><code class=\"python\">sampling_params = SamplingParams(     temperature=1.4,     top_p=1.0,     top_k=20,     max_tokens=90000  # ~90K \u0442\u043e\u043a\u0435\u043d\u043e\u0432: \u0434\u043b\u044f CoT \u043c\u0430\u043a\u0441\u0438\u043c\u0430\u043b\u044c\u043d\u0430\u044f \u0434\u043b\u0438\u043d\u0430 \u043a\u0440\u0438\u0442\u0438\u0447\u043d\u0430 )<\/code><\/pre>\n<p>Polaris-4B \u043d\u0435 \u043f\u0440\u043e\u0441\u0442\u043e \u043e\u0431\u0433\u043e\u043d\u044f\u0435\u0442 \u0434\u0440\u0443\u0433\u0438\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u00ab\u0432 \u0441\u0440\u0435\u0434\u043d\u0435\u043c\u00bb \u2014 \u043e\u043d \u0434\u0435\u043b\u0430\u0435\u0442 \u044d\u0442\u043e <strong>\u043d\u0430 \u0432\u044b\u0441\u043e\u043a\u0438\u0445 \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u0430\u0445 \u0438 \u0434\u043b\u0438\u043d\u043d\u044b\u0445 \u043e\u0442\u0432\u0435\u0442\u0430\u0445<\/strong>, \u0433\u0434\u0435 \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e baseline \u043d\u0430\u0447\u0438\u043d\u0430\u044e\u0442 \u0434\u0435\u0433\u0440\u0430\u0434\u0438\u0440\u043e\u0432\u0430\u0442\u044c.<\/p>\n<p>\u0411\u0430\u0437\u043e\u0432\u044b\u0439 \u0442\u0435\u0441\u0442 \u0432\u043a\u043b\u044e\u0447\u0430\u043b \u0437\u0430\u0434\u0430\u0447\u0438 \u0432\u0440\u043e\u0434\u0435:<\/p>\n<blockquote>\n<p>Every morning Aya goes for a 9-kilometer-long walk&#8230;<br \/> Suppose Aya walks at s + 1\/2 kilometers per hour.<br \/> Find the number of minutes the walk takes her, including t&#8230;<\/p>\n<\/blockquote>\n<p>\u0422\u0430\u043a\u0438\u0435 \u0437\u0430\u0434\u0430\u0447\u0438 \u0442\u0440\u0435\u0431\u0443\u044e\u0442 \u0446\u0435\u043f\u043e\u0447\u0435\u043a \u043b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0440\u0430\u0441\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0439, \u0440\u0430\u0441\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u044f \u043d\u0430 \u0443\u0440\u043e\u0432\u043d\u0435 \u0430\u043b\u0433\u0435\u0431\u0440\u044b, \u0434\u0440\u043e\u0431\u0435\u0439, \u0432\u0440\u0435\u043c\u0435\u043d\u0438, \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u0438 \u2014 \u0442\u0438\u043f\u0438\u0447\u043d\u0430\u044f \u0437\u0430\u0434\u0430\u0447\u0430 CoT, \u0433\u0434\u0435 \u0431\u0435\u0437 \u0433\u0440\u0430\u043c\u043e\u0442\u043d\u043e\u0433\u043e \u0432\u044b\u0432\u043e\u0434\u0430 \u043d\u0430 \u0434\u0435\u0441\u044f\u0442\u043a\u0438 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043e\u0442\u0432\u0435\u0442 \u043d\u0435\u0432\u043e\u0437\u043c\u043e\u0436\u0435\u043d.<\/p>\n<h4>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u043f\u043e \u0432\u0441\u0435\u043c \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0430\u043c<\/h4>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<th data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">\u041c\u043e\u0434\u0435\u043b\u044c<\/p>\n<\/th>\n<th data-colwidth=\"83\" width=\"83\">\n<p align=\"left\">AIME24 avg@32<\/p>\n<\/th>\n<th data-colwidth=\"86\" width=\"86\">\n<p align=\"left\">AIME25 avg@32<\/p>\n<\/th>\n<th data-colwidth=\"84\" width=\"84\">\n<p align=\"left\">Minerva avg@4<\/p>\n<\/th>\n<th data-colwidth=\"92\" width=\"92\">\n<p align=\"left\">Olympiad avg@4<\/p>\n<\/th>\n<th>\n<p align=\"left\">AMC23 avg@8<\/p>\n<\/th>\n<\/tr>\n<tr>\n<td data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">Deepseek-R1-Distill-Qwen-7B<\/p>\n<\/td>\n<td data-colwidth=\"83\" width=\"83\">\n<p align=\"left\">55.0<\/p>\n<\/td>\n<td data-colwidth=\"86\" width=\"86\">\n<p align=\"left\">39.7<\/p>\n<\/td>\n<td data-colwidth=\"84\" width=\"84\">\n<p align=\"left\">36.7<\/p>\n<\/td>\n<td data-colwidth=\"92\" width=\"92\">\n<p align=\"left\">56.8<\/p>\n<\/td>\n<td>\n<p align=\"left\">81.9<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">AReal-boba-RL-7B<\/p>\n<\/td>\n<td data-colwidth=\"83\" width=\"83\">\n<p align=\"left\">61.9<\/p>\n<\/td>\n<td data-colwidth=\"86\" width=\"86\">\n<p align=\"left\">48.3<\/p>\n<\/td>\n<td data-colwidth=\"84\" width=\"84\">\n<p align=\"left\">39.5<\/p>\n<\/td>\n<td data-colwidth=\"92\" width=\"92\">\n<p align=\"left\">61.9<\/p>\n<\/td>\n<td>\n<p align=\"left\">86.4<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">Skywork-OR1-7B-Math<\/p>\n<\/td>\n<td data-colwidth=\"83\" width=\"83\">\n<p align=\"left\">69.8<\/p>\n<\/td>\n<td data-colwidth=\"86\" width=\"86\">\n<p align=\"left\">52.3<\/p>\n<\/td>\n<td data-colwidth=\"84\" width=\"84\">\n<p align=\"left\">40.8<\/p>\n<\/td>\n<td data-colwidth=\"92\" width=\"92\">\n<p align=\"left\">63.2<\/p>\n<\/td>\n<td>\n<p align=\"left\">85.3<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">POLARIS-7B-Preview<\/p>\n<\/td>\n<td data-colwidth=\"83\" width=\"83\">\n<p align=\"left\">72.6<\/p>\n<\/td>\n<td data-colwidth=\"86\" width=\"86\">\n<p align=\"left\">52.6<\/p>\n<\/td>\n<td data-colwidth=\"84\" width=\"84\">\n<p align=\"left\">40.2<\/p>\n<\/td>\n<td data-colwidth=\"92\" width=\"92\">\n<p align=\"left\">65.4<\/p>\n<\/td>\n<td>\n<p align=\"left\">89.0<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">Deepseek-R1-Distill-Qwen-32B<\/p>\n<\/td>\n<td data-colwidth=\"83\" width=\"83\">\n<p align=\"left\">72.6<\/p>\n<\/td>\n<td data-colwidth=\"86\" width=\"86\">\n<p align=\"left\">54.9<\/p>\n<\/td>\n<td data-colwidth=\"84\" width=\"84\">\n<p align=\"left\">42.1<\/p>\n<\/td>\n<td data-colwidth=\"92\" width=\"92\">\n<p align=\"left\">59.4<\/p>\n<\/td>\n<td>\n<p align=\"left\">84.3<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">Qwen3-32B<\/p>\n<\/td>\n<td data-colwidth=\"83\" width=\"83\">\n<p align=\"left\">81.4<\/p>\n<\/td>\n<td data-colwidth=\"86\" width=\"86\">\n<p align=\"left\">72.9<\/p>\n<\/td>\n<td data-colwidth=\"84\" width=\"84\">\n<p align=\"left\">44.2<\/p>\n<\/td>\n<td data-colwidth=\"92\" width=\"92\">\n<p align=\"left\">66.7<\/p>\n<\/td>\n<td>\n<p align=\"left\">92.4<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">Qwen3-4B<\/p>\n<\/td>\n<td data-colwidth=\"83\" width=\"83\">\n<p align=\"left\">73.8<\/p>\n<\/td>\n<td data-colwidth=\"86\" width=\"86\">\n<p align=\"left\">65.6<\/p>\n<\/td>\n<td data-colwidth=\"84\" width=\"84\">\n<p align=\"left\">43.6<\/p>\n<\/td>\n<td data-colwidth=\"92\" width=\"92\">\n<p align=\"left\">62.2<\/p>\n<\/td>\n<td>\n<p align=\"left\">87.2<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">POLARIS-4B-Preview<\/p>\n<\/td>\n<td data-colwidth=\"83\" width=\"83\">\n<p align=\"left\"><strong>81.2<\/strong><\/p>\n<\/td>\n<td data-colwidth=\"86\" width=\"86\">\n<p align=\"left\"><strong>79.4<\/strong><\/p>\n<\/td>\n<td data-colwidth=\"84\" width=\"84\">\n<p align=\"left\"><strong>44.0<\/strong><\/p>\n<\/td>\n<td data-colwidth=\"92\" width=\"92\">\n<p align=\"left\"><strong>69.1<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>94.8<\/strong><\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<h4>Polaris-4B \u043e\u0431\u0445\u043e\u0434\u0438\u0442 \u0432\u0441\u0435\u0445 \u0432 \u0441\u0432\u043e\u0451\u043c \u043a\u043b\u0430\u0441\u0441\u0435<\/h4>\n<p>\u041c\u043e\u0434\u0435\u043b\u044c \u0441 4B \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u043c\u0438 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u043b\u0443\u0447\u0448\u0443\u044e \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u044c \u043f\u043e \u0432\u0441\u0435\u043c \u0437\u0430\u0434\u0430\u0447\u0430\u043c, \u0432\u043a\u043b\u044e\u0447\u0430\u044f:<\/p>\n<ul>\n<li>\n<p>AIME25: <strong>79.4%<\/strong> (\u043f\u0440\u043e\u0442\u0438\u0432 65.6% \u0443 Qwen3-4B)<\/p>\n<\/li>\n<li>\n<p>Minerva Math: <strong>44.0%<\/strong> (\u043d\u0430 \u0443\u0440\u043e\u0432\u043d\u0435 Qwen3-32B)<\/p>\n<\/li>\n<li>\n<p>Olympiad Bench: <strong>69.1%<\/strong> \u2014 \u0430\u0431\u0441\u043e\u043b\u044e\u0442\u043d\u044b\u0439 \u0440\u0435\u043a\u043e\u0440\u0434<\/p>\n<\/li>\n<li>\n<p>AMC23: <strong>94.8%<\/strong> \u2014 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442, \u0440\u0430\u043d\u0435\u0435 \u0434\u043e\u0441\u0442\u0438\u0436\u0438\u043c\u044b\u0439 \u0442\u043e\u043b\u044c\u043a\u043e \u0443 32B \u043c\u043e\u0434\u0435\u043b\u0435\u0439<\/p>\n<\/li>\n<\/ul>\n<p>\u042d\u0442\u043e \u0432\u044b\u0434\u0430\u044e\u0449\u0438\u0439\u0441\u044f \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442, \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u044f, \u0447\u0442\u043e \u0440\u0435\u0447\u044c \u0438\u0434\u0451\u0442 \u043e \u043c\u043e\u0434\u0435\u043b\u0438, \u043a\u043e\u0442\u043e\u0440\u0443\u044e \u043c\u043e\u0436\u043d\u043e \u0440\u0430\u0437\u0432\u0435\u0440\u043d\u0443\u0442\u044c \u043d\u0430 \u043e\u0434\u043d\u043e\u043c \u043f\u043e\u0442\u0440\u0435\u0431\u0438\u0442\u0435\u043b\u044c\u0441\u043a\u043e\u043c GPU (24\u201348 GB VRAM).<\/p>\n<h4>Polaris-4B \u043f\u043e\u0447\u0442\u0438 \u0434\u043e\u0433\u043e\u043d\u044f\u0435\u0442 Qwen3-32B, \u043d\u043e \u0432\u0435\u0441\u0438\u0442 \u0432 8 \u0440\u0430\u0437 \u043c\u0435\u043d\u044c\u0448\u0435<\/h4>\n<p>\u041f\u0440\u0438 \u043c\u0435\u043d\u044c\u0448\u0435\u043c \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0435 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 Polaris-4B \u0434\u0430\u0451\u0442:<\/p>\n<ul>\n<li>\n<p>\u041d\u0430 AIME25 \u2014 <strong>\u0431\u043e\u043b\u0435\u0435 \u0432\u044b\u0441\u043e\u043a\u0438\u0439 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442<\/strong>, \u0447\u0435\u043c Qwen3-32B<\/p>\n<\/li>\n<li>\n<p>\u041d\u0430 Minerva \u0438 Olympiad \u2014 \u043f\u043e\u0447\u0442\u0438 \u0438\u0434\u0435\u043d\u0442\u0438\u0447\u043d\u044b\u0435 \u0446\u0438\u0444\u0440\u044b<\/p>\n<\/li>\n<\/ul>\n<p>\u042d\u0442\u043e \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442, \u0447\u0442\u043e \u043f\u043e\u0434\u0445\u043e\u0434 Polaris \u043a \u0432\u044b\u0431\u043e\u0440\u0443 \u0437\u0430\u0434\u0430\u0447, \u0443\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u044e \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u044c\u044e \u0438 \u0434\u043b\u0438\u043d\u043e\u0439 \u0432\u044b\u0432\u043e\u0434\u0430 \u0434\u0430\u0451\u0442 <strong>\u043d\u0435\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u043f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u043e<\/strong>: \u043c\u043e\u0434\u0435\u043b\u044c \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442 \u0441\u0432\u043e\u0438 \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u0431\u043e\u043b\u0435\u0435 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e.<\/p>\n<h4>Polaris-7B \u043e\u043f\u0435\u0440\u0435\u0436\u0430\u0435\u0442 \u0432\u0441\u0435\u0445 \u043a\u043e\u043d\u043a\u0443\u0440\u0435\u043d\u0442\u043e\u0432 \u043d\u0430 7B<\/h4>\n<p>\u0425\u043e\u0442\u044f \u0440\u0430\u0437\u0440\u044b\u0432 \u043c\u0435\u0436\u0434\u0443 Polaris-7B \u0438 Qwen3-32B \u043e\u0436\u0438\u0434\u0430\u0435\u043c\u043e \u0432\u0435\u043b\u0438\u043a, \u0432 \u0441\u0432\u043e\u0435\u0439 \u0432\u0435\u0441\u043e\u0432\u043e\u0439 \u043a\u0430\u0442\u0435\u0433\u043e\u0440\u0438\u0438 \u043c\u043e\u0434\u0435\u043b\u044c \u043e\u0431\u0445\u043e\u0434\u0438\u0442 \u0432\u0441\u0435 \u0430\u043d\u0430\u043b\u043e\u0433\u0438, \u0432\u043a\u043b\u044e\u0447\u0430\u044f:<\/p>\n<ul>\n<li>\n<p>Deepseek-7B (\u043d\u0430 13% \u043d\u0438\u0436\u0435 \u043d\u0430 AIME24)<\/p>\n<\/li>\n<li>\n<p>Skywork \u0438 AReal-boba \u2014 \u0442\u043e\u0436\u0435 \u0443\u0441\u0442\u0443\u043f\u0430\u044e\u0442 \u043f\u043e \u0432\u0441\u0435\u043c \u043f\u043e\u043a\u0430\u0437\u0430\u0442\u0435\u043b\u044f\u043c<\/p>\n<\/li>\n<\/ul>\n<h4>\u0414\u043b\u0438\u043d\u043d\u044b\u0439 \u0432\u044b\u0432\u043e\u0434 \u2014 \u043a\u043b\u044e\u0447\u0435\u0432\u043e\u0439 \u0444\u0430\u043a\u0442\u043e\u0440<\/h4>\n<p>\u0415\u0441\u043b\u0438 \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0438\u0442\u044c <code>max_tokens<\/code> \u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u044b\u043c 4096 \u0438\u043b\u0438 8192, Polaris \u0442\u0435\u0440\u044f\u0435\u0442 \u0431\u043e\u043b\u044c\u0448\u0443\u044e \u0447\u0430\u0441\u0442\u044c \u0441\u0432\u043e\u0435\u0433\u043e \u043f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u0430. \u0418\u043c\u0435\u043d\u043d\u043e \u0437\u0430 \u0441\u0447\u0451\u0442 \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u0438 <strong>\u0434\u043b\u0438\u043d\u043d\u044b\u0445, \u0440\u0430\u0437\u0432\u0435\u0442\u0432\u043b\u0451\u043d\u043d\u044b\u0445 \u0446\u0435\u043f\u043e\u0447\u0435\u043a \u0440\u0430\u0441\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0439<\/strong> (\u0434\u043e 90K \u0442\u043e\u043a\u0435\u043d\u043e\u0432) \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u0440\u043e\u044f\u0432\u043b\u044f\u0435\u0442 \u0441\u0432\u043e\u044e \u0441\u0438\u043b\u0443.<\/p>\n<p>\u041e\u0442\u0441\u044e\u0434\u0430 \u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0432\u044b\u0432\u043e\u0434: <strong>\u0435\u0441\u043b\u0438 \u0432\u044b \u0442\u0435\u0441\u0442\u0438\u0440\u0443\u0435\u0442\u0435 reasoning-\u043c\u043e\u0434\u0435\u043b\u044c, \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0438\u0432\u0430\u044f \u0434\u043b\u0438\u043d\u0443 \u0432\u044b\u0432\u043e\u0434\u0430 \u2014 \u0432\u044b \u043d\u0435 \u0442\u0435\u0441\u0442\u0438\u0440\u0443\u0435\u0442\u0435 \u0435\u0451 \u0432\u043e\u0432\u0441\u0435<\/strong>.<\/p>\n<h3>\u0427\u0435\u043c\u0443 \u043c\u043e\u0436\u043d\u043e \u043d\u0430\u0443\u0447\u0438\u0442\u044c\u0441\u044f \u0443 Polaris<\/h3>\n<ol>\n<li>\n<p><strong>\u0421\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u044c \u0434\u0430\u043d\u043d\u044b\u0445 \u2014 \u043d\u0435 \u043c\u0435\u0442\u0440\u0438\u043a\u0430, \u0430 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442<\/strong>. \u0421\u0431\u0430\u043b\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u043e\u0435 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u043a\u0440\u0438\u0442\u0438\u0447\u043d\u043e \u0434\u043b\u044f \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u0438 RL.<\/p>\n<\/li>\n<li>\n<p><strong>Sampling temperature \u2014 \u0443\u043f\u0440\u0430\u0432\u043b\u044f\u0435\u043c\u0430\u044f \u043e\u0441\u044c \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f<\/strong>, \u043d\u0435 \u043f\u0440\u043e\u0441\u0442\u043e \u0444\u0438\u043a\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u0430\u044f \u0433\u0438\u043f\u0435\u0440\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u043d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0430.<\/p>\n<\/li>\n<li>\n<p><strong>Inference-time RoPE scaling \u0434\u0430\u0451\u0442 \u043f\u0440\u0438\u0440\u043e\u0441\u0442 \u0431\u0435\u0437 \u0437\u0430\u0442\u0440\u0430\u0442 \u043d\u0430 \u043f\u0435\u0440\u0435\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435<\/strong>.<\/p>\n<\/li>\n<li>\n<p><strong>\u041d\u0435\u0431\u043e\u043b\u044c\u0448\u0438\u0435 \u0438\u043d\u0436\u0435\u043d\u0435\u0440\u043d\u044b\u0435 \u0445\u0430\u043a\u0438 (buffer, swap) \u0440\u0430\u0434\u0438\u043a\u0430\u043b\u044c\u043d\u043e \u0443\u043b\u0443\u0447\u0448\u0430\u044e\u0442 \u0441\u0442\u0430\u0431\u0438\u043b\u044c\u043d\u043e\u0441\u0442\u044c RL.<\/strong><\/p>\n<\/li>\n<li>\n<p><strong>\u041d\u0435 \u0432\u0441\u0435 loss-\u0444\u0443\u043d\u043a\u0446\u0438\u0438 \u043f\u043e\u043b\u0435\u0437\u043d\u044b<\/strong>. \u0418\u043d\u043e\u0433\u0434\u0430 \u043b\u0443\u0447\u0448\u0435 \u0443\u0431\u0440\u0430\u0442\u044c \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u0438\u0437\u0430\u0442\u043e\u0440\u044b, \u0447\u0435\u043c \u043d\u0430 \u043d\u0438\u0445 \u043f\u043e\u043b\u0430\u0433\u0430\u0442\u044c\u0441\u044f.<\/p>\n<\/li>\n<\/ol>\n<h4>\u0421\u0441\u044b\u043b\u043a\u0438<\/h4>\n<ul>\n<li>\n<p><a href=\"https:\/\/huggingface.co\/POLARIS-Project\/Polaris-4B-Preview\" rel=\"noopener noreferrer nofollow\">Polaris-4B-Preview \u043d\u0430 Hugging Face<\/a> \u2014 \u0444\u0438\u043d\u0430\u043b\u044c\u043d\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c, \u0434\u043e\u0441\u0442\u0443\u043f\u043d\u0430\u044f \u0441 inference API.<\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/github.com\/hkunlp\/polaris\" rel=\"noopener noreferrer nofollow\">\u0418\u0441\u0445\u043e\u0434\u043d\u044b\u0439 \u043a\u043e\u0434 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f Polaris \u043d\u0430 GitHub<\/a> \u2014 \u0432\u043a\u043b\u044e\u0447\u0430\u0435\u0442 \u0440\u0435\u0446\u0435\u043f\u0442\u044b \u0438 \u043f\u0430\u0439\u043f\u043b\u0430\u0439\u043d.<\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/hkunlp.github.io\/blog\/2025\/Polaris\" rel=\"noopener noreferrer nofollow\">\u0411\u043b\u043e\u0433-\u043f\u043e\u0441\u0442 HKU NLP<\/a> \u2014 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b\u044c\u043d\u044b\u0439 \u043e\u0442\u0447\u0451\u0442 \u043a\u043e\u043c\u0430\u043d\u0434\u044b.<\/p>\n<\/li>\n<\/ul>\n<hr\/>\n<p>\u0415\u0441\u043b\u0438 \u0432\u0430\u043c \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u044b \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0435 \u0434\u043e\u0441\u0442\u0438\u0436\u0435\u043d\u0438\u044f \u0432\u00a0\u043e\u0431\u043b\u0430\u0441\u0442\u0438 \u0438\u0441\u043a\u0443\u0441\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u0433\u043e \u0438\u043d\u0442\u0435\u043b\u043b\u0435\u043a\u0442\u0430 \u0438 \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u0435\u0439, \u043f\u0440\u0438\u0433\u043b\u0430\u0448\u0430\u0435\u043c \u0432\u0430\u0441 \u043f\u043e\u0441\u0435\u0442\u0438\u0442\u044c \u0434\u0432\u0430 \u043f\u0440\u0435\u0434\u0441\u0442\u043e\u044f\u0449\u0438\u0445 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0445 \u0443\u0440\u043e\u043a\u0430, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043f\u043e\u043c\u043e\u0433\u0443\u0442 \u043b\u0443\u0447\u0448\u0435 \u043f\u043e\u043d\u044f\u0442\u044c, \u043a\u0430\u043a\u00a0\u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u043f\u0435\u0440\u0435\u0434\u043e\u0432\u044b\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0438 \u0438\u0445 \u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u043f\u0440\u0438\u043c\u0435\u043d\u0435\u043d\u0438\u0435.<\/p>\n<ul>\n<li>\n<p><strong>\u041f\u0435\u0440\u0432\u044b\u0439 \u0443\u0440\u043e\u043a<\/strong>\u00a0\u2014 <a href=\"https:\/\/otus.pw\/gaN1\/\" rel=\"noopener noreferrer nofollow\">\u00ab\u0413\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u044f \u0438\u0437\u043e\u0431\u0440\u0430\u0436\u0435\u043d\u0438\u0439 \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044f\u043c\u0438: \u043a\u0430\u043a\u00a0\u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0435 \u043c\u043e\u0434\u0435\u043b\u0438?\u00bb<\/a>\u00a0\u2014 \u043f\u0440\u043e\u0439\u0434\u0435\u0442 <em>16\u00a0\u0438\u044e\u043b\u044f \u0432 20:00<\/em>. \u0417\u0434\u0435\u0441\u044c \u0432\u044b \u0443\u0437\u043d\u0430\u0435\u0442\u0435 \u043e\u00a0\u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0445 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430\u0445 \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u0435\u0439 \u0438 \u043f\u0440\u0438\u043d\u0446\u0438\u043f\u0430\u0445 \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u0438 \u0438\u0437\u043e\u0431\u0440\u0430\u0436\u0435\u043d\u0438\u0439.<\/p>\n<\/li>\n<li>\n<p><strong>\u0412\u0442\u043e\u0440\u043e\u0439 \u0443\u0440\u043e\u043a<\/strong>\u00a0\u2014 \u00ab<a href=\"https:\/\/otus.pw\/sO0l\/\" rel=\"noopener noreferrer nofollow\">\u0418\u0441\u043a\u0443\u0441\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u0438\u043d\u0442\u0435\u043b\u043b\u0435\u043a\u0442 \u0434\u043b\u044f\u00a0\u0441\u043b\u0443\u0436\u0431\u044b \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u043a\u0438 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u0435\u0439<\/a>\u00bb\u00a0\u2014 \u0441\u043e\u0441\u0442\u043e\u0438\u0442\u0441\u044f <em>21\u00a0\u0430\u0432\u0433\u0443\u0441\u0442\u0430 \u0432 20:00<\/em>. \u0412\u00a0\u0440\u0430\u043c\u043a\u0430\u0445 \u044d\u0442\u043e\u0433\u043e \u0443\u0440\u043e\u043a\u0430 \u0432\u044b \u0443\u0437\u043d\u0430\u0435\u0442\u0435, \u043a\u0430\u043a\u00a0\u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0442\u044c \u0418\u0418 \u0434\u043b\u044f\u00a0\u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0437\u0430\u0446\u0438\u0438 \u0438 \u0443\u043b\u0443\u0447\u0448\u0435\u043d\u0438\u044f \u0440\u0430\u0431\u043e\u0442\u044b \u0441\u00a0\u043a\u043b\u0438\u0435\u043d\u0442\u0430\u043c\u0438.<\/p>\n<\/li>\n<\/ul>\n<p>\u0427\u0442\u043e\u0431\u044b \u043e\u0437\u043d\u0430\u043a\u043e\u043c\u0438\u0442\u044c\u0441\u044f \u0441\u00a0\u043f\u043e\u043b\u043d\u044b\u043c \u0441\u043f\u0438\u0441\u043a\u043e\u043c \u043a\u0443\u0440\u0441\u043e\u0432 \u0438 \u0432\u044b\u0431\u0440\u0430\u0442\u044c \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0443\u044e \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0443 \u043f\u043e\u00a0Data Science \u0438 \u043c\u0430\u0448\u0438\u043d\u043d\u043e\u043c\u0443 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044e, \u0437\u0430\u0445\u043e\u0434\u0438\u0442\u0435 \u0432 <a href=\"https:\/\/otus.pw\/ETwFP\/\" rel=\"noopener noreferrer nofollow\">\u043a\u0430\u0442\u0430\u043b\u043e\u0433<\/a>. \u0410\u00a0\u0447\u0442\u043e\u0431\u044b \u043d\u0435\u00a0\u043f\u0440\u043e\u043f\u0443\u0441\u0442\u0438\u0442\u044c \u043d\u043e\u0432\u044b\u0435 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0435 \u0443\u0440\u043e\u043a\u0438, \u0441\u043b\u0435\u0434\u0438\u0442\u0435 \u0437\u0430\u00a0\u043e\u0431\u043d\u043e\u0432\u043b\u0435\u043d\u0438\u044f\u043c\u0438 \u0432<a href=\"https:\/\/otus.pw\/UlPL\/\" rel=\"noopener noreferrer nofollow\"> \u043a\u0430\u043b\u0435\u043d\u0434\u0430\u0440\u0435 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0445 \u043c\u0435\u0440\u043e\u043f\u0440\u0438\u044f\u0442\u0438\u0439<\/a>.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<p><!----><!----><\/div>\n<p><!----><!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/921652\/\"> https:\/\/habr.com\/ru\/articles\/921652\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u041f\u0440\u0438\u0432\u0435\u0442, \u0425\u0430\u0431\u0440!<\/p>\n<p>\u0412 \u0438\u044e\u043d\u0435 2025 \u0433\u043e\u0434\u0430 \u043a\u043e\u043c\u0430\u043d\u0434\u0430 \u0438\u0437 \u0413\u043e\u043d\u043a\u043e\u043d\u0433\u0441\u043a\u043e\u0433\u043e \u0443\u043d\u0438\u0432\u0435\u0440\u0441\u0438\u0442\u0435\u0442\u0430 \u0432\u044b\u043b\u043e\u0436\u0438\u043b\u0430 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 <strong>Polaris-4B-Preview<\/strong> \u0438 <strong>Polaris-7B-Preview<\/strong>, \u043e\u0431\u0443\u0447\u0435\u043d\u043d\u044b\u0435 \u0441 \u043d\u0443\u043b\u044f \u043d\u0430 reasoning-\u0437\u0430\u0434\u0430\u0447\u0430\u0445 \u0441 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u0435\u043c Reinforcement Learning. \u042d\u0442\u0438 \u043c\u043e\u0434\u0435\u043b\u0438 \u043d\u0435 \u043f\u0440\u043e\u0441\u0442\u043e \u0434\u043e\u0433\u043e\u043d\u044f\u044e\u0442 \u0442\u043e\u043f\u043e\u0432\u044b\u0435 \u043a\u043e\u043c\u043c\u0435\u0440\u0447\u0435\u0441\u043a\u0438\u0435 \u0430\u043d\u0430\u043b\u043e\u0433\u0438 \u0432\u0440\u043e\u0434\u0435 Claude-Opus \u0438 Grok-3-Beta \u2014 \u043e\u043d\u0438 \u0438\u0445 \u043e\u0431\u0433\u043e\u043d\u044f\u044e\u0442. \u041f\u0440\u0438\u0447\u0451\u043c \u043d\u0430 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0435 \u0432\u0441\u0435\u0433\u043e \u0432 4 \u043c\u0438\u043b\u043b\u0438\u0430\u0440\u0434\u0430 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432.<\/p>\n<p>\u0412\u0441\u0435 \u044d\u0442\u043e \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043f\u0440\u043e\u0434\u0443\u043c\u0430\u043d\u043d\u043e\u0433\u043e \u0438\u043d\u0436\u0435\u043d\u0435\u0440\u043d\u043e\u0433\u043e \u043f\u043e\u0434\u0445\u043e\u0434\u0430. \u0412 \u044d\u0442\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435 \u043a\u043e\u0440\u043e\u0442\u043a\u043e \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c, \u043a\u0430\u043a \u0430\u0432\u0442\u043e\u0440\u0430\u043c Polaris \u0443\u0434\u0430\u043b\u043e\u0441\u044c:<\/p>\n<ul>\n<li>\n<p>\u0438\u0437\u0432\u043b\u0435\u0447\u044c \u043c\u0430\u043a\u0441\u0438\u043c\u0443\u043c \u0438\u0437 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445,<\/p>\n<\/li>\n<li>\n<p>\u043e\u0431\u0435\u0441\u043f\u0435\u0447\u0438\u0442\u044c \u0441\u0442\u0430\u0431\u0438\u043b\u044c\u043d\u043e\u0435 \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 reasoning-\u043c\u043e\u0434\u0435\u043b\u0435\u0439,<\/p>\n<\/li>\n<li>\n<p>\u043e\u0431\u043e\u0439\u0442\u0438 \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u044f \u043d\u0430 \u0434\u043b\u0438\u043d\u043d\u044b\u0435 CoT \u0431\u0435\u0437 \u0434\u043e\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f,<\/p>\n<\/li>\n<li>\n<p>\u0438 \u043f\u0440\u0438 \u044d\u0442\u043e\u043c \u043d\u0435 \u0440\u0430\u0437\u0432\u0430\u043b\u0438\u0442\u044c RL.<\/p>\n<\/li>\n<\/ul>\n<h3>\u0410\u043d\u0430\u043b\u0438\u0437 \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u0434\u0430\u043d\u043d\u044b\u0445: \u0444\u0443\u043d\u0434\u0430\u043c\u0435\u043d\u0442 \u0443\u0441\u0442\u043e\u0439\u0447\u0438\u0432\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f<\/h3>\n<p>\u041e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u044f\u0437\u044b\u043a\u043e\u0432\u044b\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u0441 \u043f\u043e\u0434\u043a\u0440\u0435\u043f\u043b\u0435\u043d\u0438\u0435\u043c (RLHF \u0438\u043b\u0438 GRPO) \u0442\u0440\u0430\u0434\u0438\u0446\u0438\u043e\u043d\u043d\u043e \u0441\u0442\u0440\u0430\u0434\u0430\u0435\u0442 \u043e\u0442 \u043e\u0434\u043d\u043e\u0439 \u0441\u0438\u0441\u0442\u0435\u043c\u043d\u043e\u0439 \u043e\u0448\u0438\u0431\u043a\u0438: \u043e\u0442\u0441\u0443\u0442\u0441\u0442\u0432\u0438\u0435 \u0431\u0430\u043b\u0430\u043d\u0441\u0430 \u043c\u0435\u0436\u0434\u0443 \u043b\u0451\u0433\u043a\u0438\u043c\u0438 \u0438 \u0441\u043b\u043e\u0436\u043d\u044b\u043c\u0438 \u0437\u0430\u0434\u0430\u0447\u0430\u043c\u0438. \u0411\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u043e\u0432 \u043b\u0438\u0431\u043e \u0447\u0440\u0435\u0437\u043c\u0435\u0440\u043d\u043e \u0442\u0440\u0438\u0432\u0438\u0430\u043b\u044c\u043d\u044b, \u043b\u0438\u0431\u043e \u043d\u0435 \u043f\u043e\u0434\u0434\u0430\u044e\u0442\u0441\u044f \u0440\u0435\u0448\u0435\u043d\u0438\u044e \u0434\u0430\u0436\u0435 \u0441\u0438\u043b\u044c\u043d\u044b\u043c\u0438 \u043c\u043e\u0434\u0435\u043b\u044f\u043c\u0438.<\/p>\n<p>\u0412 Polaris \u043f\u043e\u0434\u043e\u0448\u043b\u0438 \u043a \u044d\u0442\u043e\u043c\u0443 \u0432\u043e\u043f\u0440\u043e\u0441\u0443 \u0441 \u0438\u043d\u0436\u0435\u043d\u0435\u0440\u043d\u043e\u0439 \u0441\u0442\u0440\u043e\u0433\u043e\u0441\u0442\u044c\u044e. \u041e\u043d\u0438 \u043f\u043e\u0441\u0442\u0440\u043e\u0438\u043b\u0438 \u043e\u0446\u0435\u043d\u043a\u0443 \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u043f\u0440\u0438\u043c\u0435\u0440\u0430 \u0432 \u0432\u044b\u0431\u043e\u0440\u043a\u0435 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0430\u043d\u0438\u0438 \u0430\u0432\u0442\u043e\u043d\u043e\u043c\u043d\u043e\u0433\u043e \u0432\u044b\u0432\u043e\u0434\u0430.<\/p>\n<pre><code class=\"python\">def estimate_difficulty(model, prompt, n=8):     outputs = [model.generate(prompt, temperature=0.6) for _ in range(n)]     return sum(is_correct(output) for output in outputs) \/ n<\/code><\/pre>\n<p>\u0427\u0435\u043c \u0432\u044b\u0448\u0435 \u0434\u043e\u043b\u044f \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0445 \u0440\u0435\u0448\u0435\u043d\u0438\u0439, \u0442\u0435\u043c \u043f\u0440\u043e\u0449\u0435 \u0437\u0430\u0434\u0430\u0447\u0430. \u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u043c\u043e\u0436\u043d\u043e \u0432\u044b\u0447\u0438\u0441\u043b\u0438\u0442\u044c \u0442\u043e\u0447\u0435\u0447\u043d\u0443\u044e \u043c\u0435\u0442\u0440\u0438\u043a\u0443 \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u043d\u0430 \u043a\u0430\u0436\u0434\u044b\u0439 \u043f\u0440\u0438\u043c\u0435\u0440, \u043d\u0435 \u043f\u0440\u0438\u0431\u0435\u0433\u0430\u044f \u043a \u0440\u0443\u0447\u043d\u043e\u0439 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0435.<\/p>\n<h4>\u0417\u0435\u0440\u043a\u0430\u043b\u044c\u043d\u043e\u0435 J-\u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435<\/h4>\n<p>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0430\u043d\u0430\u043b\u0438\u0437\u0430 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u044f \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u043e\u043a\u0430\u0437\u0430\u043b\u0438\u0441\u044c \u043a\u0440\u0430\u0439\u043d\u0435 \u043f\u043e\u043a\u0430\u0437\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u043c\u0438.<\/p>\n<figure class=\"full-width\">\n<div><figcaption>\u0421\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435<\/figcaption><\/div>\n<\/figure>\n<p>\u041c\u043e\u0434\u0435\u043b\u044c \u043d\u0430 1.5B \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u0447\u0430\u0449\u0435 \u043f\u0440\u043e\u0432\u0430\u043b\u0438\u0432\u0430\u0435\u0442 \u0437\u0430\u0434\u0430\u0447\u0438 \u2014 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0435\u0442 \u0444\u043e\u0440\u043c\u0443, \u0437\u0435\u0440\u043a\u0430\u043b\u044c\u043d\u043e \u043d\u0430\u043f\u043e\u043c\u0438\u043d\u0430\u044e\u0449\u0443\u044e \u0431\u0443\u043a\u0432\u0443 J: \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e \u0437\u0430\u0434\u0430\u0447 \u043a\u0440\u0430\u0439\u043d\u0435 \u0441\u043b\u043e\u0436\u043d\u044b\u0435.<\/p>\n<p>\u041c\u043e\u0434\u0435\u043b\u044c \u043d\u0430 7B \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432, \u043d\u0430\u043f\u0440\u043e\u0442\u0438\u0432, \u0440\u0435\u0448\u0430\u0435\u0442 \u043f\u043e\u0434\u0430\u0432\u043b\u044f\u044e\u0449\u0435\u0435 \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e \u0437\u0430\u0434\u0430\u0447 \u0431\u0435\u0437 \u043e\u0448\u0438\u0431\u043e\u043a. \u0420\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u043f\u0440\u0435\u0432\u0440\u0430\u0449\u0430\u0435\u0442\u0441\u044f \u0432 \u043e\u0431\u044b\u0447\u043d\u043e\u0435 J-\u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435: \u0432\u0441\u0451 \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u043f\u0440\u043e\u0441\u0442\u043e.<\/p>\n<p>\u041e\u0434\u0438\u043d \u0438 \u0442\u043e\u0442 \u0436\u0435 \u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u043f\u043e-\u0440\u0430\u0437\u043d\u043e\u043c\u0443 &#171;\u0447\u0438\u0442\u0430\u0435\u0442\u0441\u044f&#187; \u043c\u043e\u0434\u0435\u043b\u044f\u043c\u0438 \u0440\u0430\u0437\u043d\u043e\u0439 \u043c\u043e\u0449\u043d\u043e\u0441\u0442\u0438. \u0414\u043b\u044f \u043e\u0434\u043d\u043e\u0439 \u043e\u043d \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u0442\u0440\u0443\u0434\u043d\u044b\u0439, \u0434\u043b\u044f \u0434\u0440\u0443\u0433\u043e\u0439 \u2014 \u0431\u0430\u043d\u0430\u043b\u0435\u043d.<\/p>\n<h4>\u0424\u0438\u043b\u044c\u0442\u0440\u0430\u0446\u0438\u044f: \u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0430\u044e\u0449\u0435\u0433\u043e \u043a\u043e\u0440\u043f\u0443\u0441\u0430<\/h4>\n<p>\u0410\u0432\u0442\u043e\u0440\u044b \u0441\u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u043b\u0438 \u0442\u0440\u0438 \u043f\u043e\u0434\u0432\u044b\u0431\u043e\u0440\u043a\u0438 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 DeepScaleR-40K.<\/p>\n<figure class=\"full-width\">\n<div><figcaption>\u042d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u0438 \u0432 \u0442\u0440\u0435\u0445 \u043d\u0438\u0436\u0435\u0443\u043f\u043e\u043c\u044f\u043d\u0443\u0442\u044b\u0445 \u0443\u0441\u043b\u043e\u0432\u0438\u044f\u0445<\/figcaption><\/div>\n<\/figure>\n<ol>\n<li>\n<p><strong>\u041f\u043e\u043b\u043d\u044b\u0439 \u043d\u0430\u0431\u043e\u0440<\/strong>: \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 40 000 \u0437\u0430\u0434\u0430\u0447, \u0441 \u0434\u043e\u043c\u0438\u043d\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435\u043c \u043f\u0440\u043e\u0441\u0442\u044b\u0445 (8\/8).<\/p>\n<\/li>\n<li>\n<p><strong>\u0424\u0438\u043b\u044c\u0442\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0439<\/strong>: \u0443\u0431\u0440\u0430\u043d\u044b \u0432\u0441\u0435 \u0437\u0430\u0434\u0430\u0447\u0438 \u0441 8\/8 \u0440\u0435\u0448\u0435\u043d\u0438\u0439, \u043e\u0441\u0442\u0430\u0451\u0442\u0441\u044f 26 000 \u0437\u0430\u0434\u0430\u0447.<\/p>\n<\/li>\n<li>\n<p><strong>\u0410\u0433\u0440\u0435\u0441\u0441\u0438\u0432\u043d\u043e \u043e\u0442\u0444\u0438\u043b\u044c\u0442\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0439<\/strong>: \u043e\u0441\u0442\u0430\u044e\u0442\u0441\u044f \u0442\u043e\u043b\u044c\u043a\u043e \u0442\u0435 \u0437\u0430\u0434\u0430\u0447\u0438, \u0433\u0434\u0435 \u043c\u0435\u043d\u0435\u0435 \u043f\u043e\u043b\u043e\u0432\u0438\u043d\u044b \u0440\u0435\u0448\u0435\u043d\u0438\u0439 \u0443\u0441\u043f\u0435\u0448\u043d\u044b. 19 000 \u0437\u0430\u0434\u0430\u0447.<\/p>\n<\/li>\n<\/ol>\n<p>\u0422\u0435\u0441\u0442\u044b \u043f\u043e\u043a\u0430\u0437\u0430\u043b\u0438: \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u043b\u0451\u0433\u043a\u0438\u0439 \u0438\u043b\u0438 \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u0441\u043b\u043e\u0436\u043d\u044b\u0439 \u043a\u043e\u0440\u043f\u0443\u0441 <strong>\u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u043e \u0431\u0435\u0441\u043f\u043e\u043b\u0435\u0437\u0435\u043d<\/strong>. \u041b\u0443\u0447\u0448\u0438\u0439 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u0434\u0430\u0451\u0442 \u0441\u0431\u0430\u043b\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u0430\u044f, \u043e\u0442\u0444\u0438\u043b\u044c\u0442\u0440\u043e\u0432\u0430\u043d\u043d\u0430\u044f \u043f\u043e \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u0432\u044b\u0431\u043e\u0440\u043a\u0430.<\/p>\n<h3>Rollout-\u0434\u0438\u0432\u0435\u0440\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u044f \u0438 \u043a\u043e\u043d\u0442\u0440\u043e\u043b\u044c \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u044b<\/h3>\n<p>\u041e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0441 \u043f\u043e\u0434\u043a\u0440\u0435\u043f\u043b\u0435\u043d\u0438\u0435\u043c \u043f\u0440\u0435\u0434\u043f\u043e\u043b\u0430\u0433\u0430\u0435\u0442 \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435 \u0445\u043e\u0440\u043e\u0448\u0438\u0445 \u0438 \u043f\u043b\u043e\u0445\u0438\u0445 \u0442\u0440\u0430\u0435\u043a\u0442\u043e\u0440\u0438\u0439. \u0415\u0441\u043b\u0438 \u043c\u043e\u0434\u0435\u043b\u044c \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u0443\u0435\u0442 \u043e\u0434\u043d\u043e\u0442\u0438\u043f\u043d\u044b\u0435 \u043e\u0442\u0432\u0435\u0442\u044b \u2014 \u043d\u0438\u043a\u0430\u043a\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0430\u044e\u0449\u0435\u0433\u043e \u0441\u0438\u0433\u043d\u0430\u043b\u0430 \u043d\u0435 \u0432\u043e\u0437\u043d\u0438\u043a\u0430\u0435\u0442. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0443\u043f\u0440\u0430\u0432\u043b\u044f\u0442\u044c <strong>\u0440\u0430\u0437\u043d\u043e\u043e\u0431\u0440\u0430\u0437\u0438\u0435\u043c \u0432\u044b\u0431\u043e\u0440\u043e\u043a<\/strong>, \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u0432 \u0437\u0430\u0434\u0430\u0447\u0430\u0445 reasoning, \u0433\u0434\u0435 \u043e\u0434\u043d\u0430 \u0438 \u0442\u0430 \u0436\u0435 \u0446\u0435\u043b\u044c \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u0434\u043e\u0441\u0442\u0438\u0433\u043d\u0443\u0442\u0430 \u0440\u0430\u0437\u043d\u044b\u043c\u0438 \u043b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u0438\u043c\u0438 \u043f\u0443\u0442\u044f\u043c\u0438.<\/p>\n<h4>\u041c\u0435\u0442\u0440\u0438\u043a\u0438 \u0438 \u0443\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u0435 diversity<\/h4>\n<p>\u0414\u043b\u044f \u043e\u0446\u0435\u043d\u043a\u0438 \u0434\u0438\u0432\u0435\u0440\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043b\u0430\u0441\u044c \u043c\u0435\u0442\u0440\u0438\u043a\u0430 <code>distinct-4<\/code> \u2014 \u0434\u043e\u043b\u044f \u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u044b\u0445 4-\u0433\u0440\u0430\u043c\u043c \u043f\u043e \u043e\u0442\u043d\u043e\u0448\u0435\u043d\u0438\u044e \u043a \u043e\u0431\u0449\u0435\u043c\u0443 \u0447\u0438\u0441\u043b\u0443 \u0442\u043e\u043a\u0435\u043d\u043e\u0432.<\/p>\n<figure class=\"full-width\">\n<div><figcaption>\u0420\u0430\u0437\u043d\u043e\u043e\u0431\u0440\u0430\u0437\u0438\u0435 \u0440\u0430\u0437\u0432\u0435\u0440\u0442\u044b\u0432\u0430\u043d\u0438\u044f \u0441 \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u043e\u0439 \u0432\u044b\u0431\u043e\u0440\u043a\u0438<\/figcaption><\/div>\n<\/figure>\n<p>\u0410\u0432\u0442\u043e\u0440\u044b \u043f\u0440\u043e\u0442\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u043b\u0438 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438 \u043c\u0435\u0436\u0434\u0443:<\/p>\n<ul>\n<li>\n<p>\u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u043e\u0439 \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u0438 (<code>temperature<\/code>)<\/p>\n<\/li>\n<li>\n<p>\u0442\u043e\u0447\u043d\u043e\u0441\u0442\u044c\u044e (<code>mean@32<\/code>)<\/p>\n<\/li>\n<li>\n<p>\u0440\u0430\u0437\u043d\u043e\u043e\u0431\u0440\u0430\u0437\u0438\u0435\u043c (<code>distinct-4<\/code>)<\/p>\n<\/li>\n<\/ul>\n<p>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u043f\u043e\u043a\u0430\u0437\u0430\u043b\u0438, \u0447\u0442\u043e \u043d\u0438\u0437\u043a\u0430\u044f \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u0430 (<code>t=0.6<\/code>) \u0434\u0430\u0435\u0442 \u0441\u0442\u0430\u0431\u0438\u043b\u044c\u043d\u043e\u0441\u0442\u044c, \u043d\u043e \u043f\u043e\u0434\u0430\u0432\u043b\u044f\u0435\u0442 \u0440\u0430\u0437\u043d\u043e\u043e\u0431\u0440\u0430\u0437\u0438\u0435. \u0420\u043e\u0441\u0442 \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u044b \u0434\u043e <code>1.4\u20131.5<\/code> \u0434\u0430\u0451\u0442 \u0432\u0441\u043f\u043b\u0435\u0441\u043a \u0440\u0430\u0437\u043d\u043e\u043e\u0431\u0440\u0430\u0437\u0438\u044f, \u043f\u0440\u0438 \u044d\u0442\u043e\u043c \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u044c \u043d\u0435 \u043f\u0440\u043e\u0441\u0435\u0434\u0430\u0435\u0442 \u043a\u0440\u0438\u0442\u0438\u0447\u043d\u043e. \u041f\u0440\u0438 <code>t&gt;1.55<\/code> \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442\u0441\u044f \u043a\u043e\u043b\u043b\u0430\u043f\u0441: \u043c\u043e\u0434\u0435\u043b\u044c \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u0443\u0435\u0442 \u0448\u0443\u043c.<\/p>\n<h4>\u0414\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0430\u0434\u0430\u043f\u0442\u0430\u0446\u0438\u044f \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u044b<\/h4>\n<p>\u0418\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u044b\u0439 \u0445\u043e\u0434: Polaris \u043d\u0435 \u0444\u0438\u043a\u0441\u0438\u0440\u0443\u0435\u0442 <code>temperature<\/code>, \u0430 <strong>\u043f\u043e\u0441\u0442\u0435\u043f\u0435\u043d\u043d\u043e \u0443\u0432\u0435\u043b\u0438\u0447\u0438\u0432\u0430\u0435\u0442 \u0435\u0451 \u043d\u0430 \u043a\u0430\u0436\u0434\u043e\u0439 \u0444\u0430\u0437\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f<\/strong>, \u0430\u0434\u0430\u043f\u0442\u0438\u0440\u0443\u044f\u0441\u044c \u043a \u0443\u043c\u0435\u043d\u044c\u0448\u0435\u043d\u0438\u044e \u044d\u043d\u0442\u0440\u043e\u043f\u0438\u0438 \u043c\u043e\u0434\u0435\u043b\u0438 (\u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442 \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043e\u0434\u043d\u043e \u0438 \u0442\u043e \u0436\u0435).<\/p>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<th>\n<p align=\"left\">\u0421\u0442\u0430\u0434\u0438\u044f<\/p>\n<\/th>\n<th>\n<p align=\"left\">Polaris-4B<\/p>\n<\/th>\n<th>\n<p align=\"left\">Polaris-7B<\/p>\n<\/th>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">1<\/p>\n<\/td>\n<td>\n<p align=\"left\">1.4<\/p>\n<\/td>\n<td>\n<p align=\"left\">0.7<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">2<\/p>\n<\/td>\n<td>\n<p align=\"left\">1.45<\/p>\n<\/td>\n<td>\n<p align=\"left\">1.0<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">3<\/p>\n<\/td>\n<td>\n<p align=\"left\">1.5<\/p>\n<\/td>\n<td>\n<p align=\"left\">1.1<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>\u0410\u0434\u0430\u043f\u0442\u0438\u0432\u043d\u044b\u0439 \u043c\u0435\u0445\u0430\u043d\u0438\u0437\u043c \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u0443\u0434\u0435\u0440\u0436\u0438\u0432\u0430\u0442\u044c <strong>\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0433\u043e\u0440\u0438\u0437\u043e\u043d\u0442<\/strong> \u043c\u043e\u0434\u0435\u043b\u0438 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u043c, \u043d\u0435 \u0434\u0430\u0432\u0430\u044f \u0435\u0439 \u0437\u0430\u0441\u0442\u0440\u0435\u0432\u0430\u0442\u044c \u0432 \u0443\u0436\u0435 \u043d\u0430\u0439\u0434\u0435\u043d\u043d\u044b\u0445 \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u0430\u0445.<\/p>\n<h3>\u041c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u0432\u044b\u0432\u043e\u0434\u0430: CoT \u0431\u0435\u0437 \u0434\u043e\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f<\/h3>\n<p>Chain-of-Thought \u0442\u0440\u0435\u0431\u0443\u0435\u0442 \u0434\u043b\u0438\u043d\u043d\u043e\u0433\u043e \u0432\u044b\u0432\u043e\u0434\u0430. \u041d\u043e \u043e\u0431\u0443\u0447\u0430\u0442\u044c RL \u043d\u0430 \u043f\u043e\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u044f\u0445 32\u201352K \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u2014 \u0434\u043e\u0440\u043e\u0433\u043e \u0438 \u043d\u0435\u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e. \u041f\u0440\u043e\u0431\u043b\u0435\u043c\u0430 \u0432 \u0442\u043e\u043c, \u0447\u0442\u043e \u0434\u0430\u0436\u0435 \u0435\u0441\u043b\u0438 \u0437\u0430\u0434\u0430\u043d <code>max_seq_len=52K<\/code>, \u0432 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u0441\u0442\u0438 \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e \u0431\u0430\u0442\u0447\u0435\u0439 \u043d\u0435 \u0434\u043e\u0445\u043e\u0434\u0438\u0442 \u0434\u043e \u044d\u0442\u043e\u0439 \u0434\u043b\u0438\u043d\u044b (<code>clip_ratio &lt; 10%<\/code>).<\/p>\n<p>\u0420\u0435\u0448\u0435\u043d\u0438\u0435 Polaris \u2014 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c <strong>\u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441\u043d\u043e\u0435 \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435<\/strong>, \u0441\u043e\u0445\u0440\u0430\u043d\u0438\u0432 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043a\u0443 \u043d\u0430 \u043a\u043e\u0440\u043e\u0442\u043a\u0438\u0445 \u043f\u0440\u0438\u043c\u0435\u0440\u0430\u0445.<\/p>\n<h4>Yarn: \u043f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u043d\u0430\u044f \u044d\u043a\u0441\u0442\u0440\u0430\u043f\u043e\u043b\u044f\u0446\u0438\u044f RoPE<\/h4>\n<p>\u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f <strong>Yarn<\/strong>, \u0441\u0445\u0435\u043c\u0430 \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f Rotary Position Embeddings:<\/p>\n<pre><code class=\"json\">\"rope_scaling\": {   \"attn_factor\": 1.0,   \"factor\": 1.5,   \"rope_type\": \"yarn\" }<\/code><\/pre>\n<figure class=\"full-width\"><\/figure>\n<p>Yarn \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u043d\u0430 inference \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0434\u043b\u0438\u043d\u044b, \u0432 \u043f\u043e\u043b\u0442\u043e\u0440\u0430 \u0440\u0430\u0437\u0430 \u043f\u0440\u0435\u0432\u044b\u0448\u0430\u044e\u0449\u0438\u0435 \u043e\u0431\u0443\u0447\u0430\u044e\u0449\u0438\u0435, <strong>\u0431\u0435\u0437 \u043f\u043e\u0442\u0435\u0440\u0438 \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u0438<\/strong>.<\/p>\n<p>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0442\u0435\u0441\u0442\u043e\u0432 \u043d\u0430 \u0437\u0430\u0434\u0430\u0447\u0430\u0445 AIME:<\/p>\n<p>\u0414\u043b\u0438\u043d\u044b &gt;32K:<\/p>\n<ul>\n<li>\n<p>\u0411\u0435\u0437 Yarn: \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u044c \u043f\u0430\u0434\u0430\u0435\u0442 \u0434\u043e 26%<\/p>\n<\/li>\n<li>\n<p>\u0421 Yarn: \u0440\u0430\u0441\u0442\u0451\u0442 \u0434\u043e 50%+<\/p>\n<\/li>\n<\/ul>\n<p>\u0424\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438, \u044d\u0442\u043e \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0442\u044c &#171;train-short, test-long&#187; \u0441\u0442\u0440\u0430\u0442\u0435\u0433\u0438\u044e \u0431\u0435\u0437 \u043f\u0435\u0440\u0435\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f.<\/p>\n<h3>\u0423\u0441\u0442\u043e\u0439\u0447\u0438\u0432\u043e\u0441\u0442\u044c RL: \u043a\u0430\u043a Polaris \u0441\u043f\u0440\u0430\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0441 \u043d\u0443\u043b\u0435\u0432\u044b\u043c \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u043e\u043c<\/h3>\n<p>\u041e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u0440\u0430\u0441\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u044f \u0447\u0435\u0440\u0435\u0437 Reinforcement Learning, \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u0441 \u043c\u0430\u043b\u0435\u043d\u044c\u043a\u0438\u043c \u0440\u0430\u0437\u043c\u0435\u0440\u043e\u043c rollout-\u0431\u0430\u0442\u0447\u0430 (<code>n=8<\/code>), \u0441\u0442\u0430\u043b\u043a\u0438\u0432\u0430\u0435\u0442\u0441\u044f \u0441 \u043e\u0434\u043d\u043e\u0439 \u0441\u0438\u0441\u0442\u0435\u043c\u043d\u043e\u0439 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u043e\u0439: <strong>\u0440\u0430\u0437\u0440\u0435\u0436\u0435\u043d\u043d\u043e\u0441\u0442\u044c \u043d\u0430\u0433\u0440\u0430\u0434<\/strong>. \u0412 \u0437\u0430\u0434\u0430\u0447\u0430\u0445 \u043d\u0430 \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u043c\u044b\u0448\u043b\u0435\u043d\u0438\u0435, CoT, \u043b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0432\u044b\u0432\u043e\u0434 \u2014 \u043d\u0435\u0443\u0434\u0430\u0447\u0438 \u0441\u043b\u0443\u0447\u0430\u044e\u0442\u0441\u044f \u0447\u0430\u0441\u0442\u043e. \u0418 \u0431\u044b\u0432\u0430\u0435\u0442, \u0447\u0442\u043e \u043d\u0430 \u043e\u0434\u0438\u043d \u0438 \u0442\u043e\u0442 \u0436\u0435 prompt \u043c\u043e\u0434\u0435\u043b\u044c 8 \u0440\u0430\u0437 \u043f\u043e\u0434\u0440\u044f\u0434 \u0432\u044b\u0434\u0430\u0451\u0442 \u043d\u0435\u0432\u0435\u0440\u043d\u044b\u0439 \u043e\u0442\u0432\u0435\u0442. \u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442: batch \u0431\u0435\u0437 \u043f\u043e\u043b\u043e\u0436\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0445 \u043f\u0440\u0438\u043c\u0435\u0440\u043e\u0432 \u2192 <strong>\u043d\u0443\u043b\u0435\u0432\u043e\u0439 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442<\/strong> \u2192 \u043f\u043e\u0442\u0435\u0440\u044f\u043d\u043d\u044b\u0439 \u0448\u0430\u0433 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f.<\/p>\n<p>\u0412 \u0442\u0440\u0430\u0434\u0438\u0446\u0438\u043e\u043d\u043d\u043e\u043c GRPO \u0438\u043b\u0438 PPO \u044d\u0442\u043e \u043f\u0440\u0438\u0432\u043e\u0434\u0438\u0442 \u043a \u0441\u0442\u0430\u0433\u043d\u0430\u0446\u0438\u0438: \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0435 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442 \u0441\u0438\u0433\u043d\u0430\u043b\u0430, \u043d\u0435 \u0437\u043d\u0430\u0435\u0442, \u043a\u0443\u0434\u0430 \u0434\u0432\u0438\u0433\u0430\u0442\u044c\u0441\u044f. \u0410 \u043f\u043e\u0432\u0442\u043e\u0440\u043d\u043e\u0435 \u043f\u0440\u043e\u0433\u043e\u043d\u044f\u043d\u0438\u0435 \u0442\u0435\u0445 \u0436\u0435 \u043f\u0440\u043e\u043c\u043f\u0442\u043e\u0432 \u2014 \u0434\u043e\u0440\u043e\u0433\u043e \u0438 \u043d\u0435\u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e.<\/p>\n<p>\u0412 Polaris \u0431\u044b\u043b\u0438 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u044b \u0434\u0432\u0430 \u043f\u0440\u043e\u0441\u0442\u044b\u0445, \u043d\u043e \u043c\u043e\u0449\u043d\u044b\u0445 \u0441\u043f\u043e\u0441\u043e\u0431\u0430 \u043f\u0440\u0435\u043e\u0434\u043e\u043b\u0435\u043d\u0438\u044f \u044d\u0442\u043e\u0433\u043e &#171;\u044d\u0444\u0444\u0435\u043a\u0442\u0430 \u043f\u0443\u0441\u0442\u043e\u0433\u043e \u0431\u0430\u0442\u0447\u0430&#187;.<\/p>\n<h4>Rollout Rescue Buffer: \u043c\u044f\u0433\u043a\u043e\u0435 \u0432\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u043f\u0430\u043c\u044f\u0442\u0438 \u0432 RL<\/h4>\n<p>\u041a\u0430\u0436\u0434\u0430\u044f \u0437\u0430\u0434\u0430\u0447\u0430 \u0432 \u043e\u0431\u0443\u0447\u0430\u044e\u0449\u0435\u043c \u043a\u043e\u0440\u043f\u0443\u0441\u0435 \u0432 Polaris \u0438\u043c\u0435\u0435\u0442 \u0430\u0441\u0441\u043e\u0446\u0438\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0439 <strong>\u0431\u0443\u0444\u0435\u0440 \u0443\u0441\u043f\u0435\u0448\u043d\u043e\u0433\u043e \u043e\u0442\u0432\u0435\u0442\u0430<\/strong>. \u042d\u0442\u043e \u043a\u044d\u0448, \u0433\u0434\u0435 \u0441\u043e\u0445\u0440\u0430\u043d\u044f\u0435\u0442\u0441\u044f \u043f\u043e\u0441\u043b\u0435\u0434\u043d\u0438\u0439 \u0438\u0437\u0432\u0435\u0441\u0442\u043d\u044b\u0439 \u043a\u043e\u0440\u0440\u0435\u043a\u0442\u043d\u044b\u0439 \u0432\u044b\u0432\u043e\u0434 \u0434\u043b\u044f \u0434\u0430\u043d\u043d\u043e\u0433\u043e prompt&#8217;\u0430, \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u0439 \u043d\u0430 \u043b\u044e\u0431\u043e\u043c \u044d\u0442\u0430\u043f\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f.<\/p>\n<p>\u0421\u0446\u0435\u043d\u0430\u0440\u0438\u0439 \u0440\u0430\u0431\u043e\u0442\u044b:<\/p>\n<ol>\n<li>\n<p>\u041c\u043e\u0434\u0435\u043b\u044c \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u0443\u0435\u0442 8 rollout&#8217;\u043e\u0432 \u0434\u043b\u044f \u0437\u0430\u0434\u0430\u0447\u0438 X.<\/p>\n<\/li>\n<li>\n<p>\u0412\u0441\u0435 \u043e\u043d\u0438 \u043e\u043a\u0430\u0437\u044b\u0432\u0430\u044e\u0442\u0441\u044f \u043d\u0435\u0443\u0441\u043f\u0435\u0448\u043d\u044b\u043c\u0438 (<code>accuracy == 0\/8<\/code>).<\/p>\n<\/li>\n<li>\n<p>\u0415\u0441\u043b\u0438 \u0434\u043b\u044f \u0437\u0430\u0434\u0430\u0447\u0438 X \u0432 \u043f\u0440\u043e\u0448\u043b\u043e\u043c \u0431\u044b\u043b \u0443\u0441\u043f\u0435\u0448\u043d\u044b\u0439 rollout \u2014 \u043e\u043d \u0431\u0435\u0440\u0451\u0442\u0441\u044f \u0438\u0437 \u0431\u0443\u0444\u0435\u0440\u0430.<\/p>\n<\/li>\n<li>\n<p>\u041e\u0434\u0438\u043d \u0438\u0437 8 \u0442\u0435\u043a\u0443\u0449\u0438\u0445 \u043f\u0440\u043e\u0432\u0430\u043b\u044c\u043d\u044b\u0445 rollout&#8217;\u043e\u0432 \u0437\u0430\u043c\u0435\u043d\u044f\u0435\u0442\u0441\u044f \u044d\u0442\u0438\u043c \u0431\u0443\u0444\u0435\u0440\u043d\u044b\u043c.<\/p>\n<\/li>\n<\/ol>\n<p>\u0417\u0430\u043c\u0435\u043d\u0430 \u0434\u0435\u043b\u0430\u0435\u0442\u0441\u044f \u043d\u0435 \u043f\u043e\u043b\u043d\u043e\u0441\u0442\u044c\u044e \u2014 \u0442\u043e\u043b\u044c\u043a\u043e \u043e\u0434\u0438\u043d \u0438\u0437 8 rollout&#8217;\u043e\u0432. \u042d\u0442\u043e \u043d\u0435 \u043d\u0430\u0440\u0443\u0448\u0430\u0435\u0442 \u0441\u0442\u0430\u0442\u0438\u0441\u0442\u0438\u043a\u0443 RL, \u043f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e reward \u0432\u0441\u0451 \u0440\u0430\u0432\u043d\u043e \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0435\u0442\u0441\u044f \u0432\u044b\u0431\u043e\u0440\u043e\u0447\u043d\u043e.<\/p>\n<p>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442: <strong>\u0431\u0430\u0442\u0447 \u0432\u0441\u0435\u0433\u0434\u0430 \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u0445\u043e\u0442\u044f \u0431\u044b \u043e\u0434\u0438\u043d \u0441\u0438\u0433\u043d\u0430\u043b \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f<\/strong>, \u0438 \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442 \u043d\u0435\u043d\u0443\u043b\u0435\u0432\u043e\u0439 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442, \u0434\u0430\u0436\u0435 \u0435\u0441\u043b\u0438 &#171;\u0441\u0435\u0433\u043e\u0434\u043d\u044f \u0435\u0439 \u043d\u0435 \u0438\u0434\u0451\u0442&#187;.<\/p>\n<h4>Intra-Batch Informative Substitution:<\/h4>\n<p>\u0412\u0442\u043e\u0440\u043e\u0439 \u043c\u0435\u0445\u0430\u043d\u0438\u0437\u043c \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0432\u043d\u0443\u0442\u0440\u0438 \u0442\u0435\u043a\u0443\u0449\u0435\u0433\u043e \u0431\u0430\u0442\u0447\u0430 \u2014 <strong>\u0431\u0435\u0437 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u044f \u0432\u043d\u0435\u0448\u043d\u0435\u0439 \u043f\u0430\u043c\u044f\u0442\u0438<\/strong>. \u0415\u0441\u043b\u0438 \u0447\u0430\u0441\u0442\u044c \u0437\u0430\u0434\u0430\u0447 \u043e\u043a\u0430\u0437\u0430\u043b\u0430\u0441\u044c &#171;\u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0442\u0438\u0432\u043d\u043e\u0439&#187; (\u0442.\u0435. \u0441\u0440\u0435\u0434\u0438 8 rollout&#8217;\u043e\u0432 \u0435\u0441\u0442\u044c \u043a\u0430\u043a \u043c\u0438\u043d\u0438\u043c\u0443\u043c \u043e\u0434\u0438\u043d \u0443\u0441\u043f\u0435\u0448\u043d\u044b\u0439), \u0430 \u0434\u0440\u0443\u0433\u0430\u044f \u0447\u0430\u0441\u0442\u044c \u043f\u043e\u043b\u043d\u043e\u0441\u0442\u044c\u044e \u043f\u0440\u043e\u0432\u0430\u043b\u0435\u043d\u0430, Polaris \u0434\u0435\u043b\u0430\u0435\u0442 \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0435\u0435:<\/p>\n<ol>\n<li>\n<p>\u041d\u0430\u0445\u043e\u0434\u0438\u0442 &#171;\u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0442\u0438\u0432\u043d\u044b\u0435&#187; \u043f\u0440\u0438\u043c\u0435\u0440\u044b \u2014 \u0437\u0430\u0434\u0430\u0447\u0438 \u0441 mix \u0438\u0437 0 \u0438 1 reward.<\/p>\n<\/li>\n<li>\n<p>\u042d\u0442\u0438 \u043f\u0440\u0438\u043c\u0435\u0440\u044b \u0434\u0443\u0431\u043b\u0438\u0440\u0443\u044e\u0442\u0441\u044f \u0438 \u043f\u043e\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u044e\u0442\u0441\u044f \u043d\u0430 \u043c\u0435\u0441\u0442\u043e &#171;\u043c\u0435\u0440\u0442\u0432\u044b\u0445&#187; \u0437\u0430\u0434\u0430\u0447 (0\/8).<\/p>\n<\/li>\n<li>\n<p>\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u0432\u0435\u0441\u044c \u0431\u0430\u0442\u0447 \u043d\u0430\u043f\u043e\u043b\u043d\u044f\u0435\u0442\u0441\u044f \u043f\u0440\u0438\u043c\u0435\u0440\u0430\u043c\u0438, \u043e\u0442 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043c\u043e\u0436\u043d\u043e \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u043f\u043e\u043b\u0435\u0437\u043d\u044b\u0439 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442.<\/p>\n<\/li>\n<\/ol>\n<p>\u041e\u0431\u0430 \u043c\u0435\u0445\u0430\u043d\u0438\u0437\u043c\u0430 \u2014 Rollout Rescue \u0438 Intra-Batch Substitution \u2014 \u0440\u0435\u0448\u0430\u044e\u0442 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0443 <strong>reward sparsity<\/strong> \u043f\u0440\u0438 \u043d\u0435\u0431\u043e\u043b\u044c\u0448\u0438\u0445 batch-size. \u0417\u0430\u043c\u0435\u043d\u044b \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u0432 \u0440\u0430\u043c\u043a\u0430\u0445 already validated outputs, reward-\u0444\u0443\u043d\u043a\u0446\u0438\u044f \u043e\u0441\u0442\u0430\u0451\u0442\u0441\u044f \u0431\u0438\u043d\u0430\u0440\u043d\u043e\u0439, \u0438 \u043d\u0438\u043a\u0430\u043a\u043e\u0439 \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u0438 &#171;\u0438\u0437 \u0431\u0443\u0434\u0443\u0449\u0435\u0433\u043e&#187; \u043d\u0435 \u043f\u0440\u043e\u0438\u0441\u0445\u043e\u0434\u0438\u0442.<\/p>\n<p>\u042d\u0444\u0444\u0435\u043a\u0442 \u0432 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0438:<\/p>\n<ul>\n<li>\n<p>\u0417\u043d\u0430\u0447\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u043c\u0435\u043d\u044c\u0448\u0435 &#171;\u043c\u0451\u0440\u0442\u0432\u044b\u0445 \u0448\u0430\u0433\u043e\u0432&#187;<\/p>\n<\/li>\n<li>\n<p>\u0423\u0441\u0442\u043e\u0439\u0447\u0438\u0432\u044b\u0439 \u0440\u043e\u0441\u0442 reward \u043d\u0430 \u043a\u0430\u0436\u0434\u043e\u0439 \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u0438<\/p>\n<\/li>\n<li>\n<p>\u041f\u043e\u0432\u044b\u0448\u0435\u043d\u0438\u0435 sample efficiency RL<\/p>\n<\/li>\n<\/ul>\n<h3>\u041e\u0442\u043a\u0430\u0437 \u043e\u0442 KL \u0438 Entropy<\/h3>\n<p>\u0412\u043c\u0435\u0441\u0442\u0435 \u0441 \u043c\u0435\u0440\u0430\u043c\u0438 \u043f\u043e \u0443\u0441\u0442\u043e\u0439\u0447\u0438\u0432\u043e\u0441\u0442\u0438, \u0432 Polaris \u043e\u0442\u043a\u0430\u0437\u0430\u043b\u0438\u0441\u044c \u043e\u0442 \u0434\u0432\u0443\u0445 \u043f\u043e\u043f\u0443\u043b\u044f\u0440\u043d\u044b\u0445, \u043d\u043e \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u043d\u044b\u0445 \u043a\u043e\u043c\u043f\u043e\u043d\u0435\u043d\u0442\u043e\u0432 \u0432 RLHF:<\/p>\n<h4>\u041f\u043e\u0447\u0435\u043c\u0443 \u0431\u044b\u043b \u0443\u0431\u0440\u0430\u043d KL<\/h4>\n<p>KL-\u0434\u0438\u0432\u0435\u0440\u0433\u0435\u043d\u0446\u0438\u044f \u043c\u0435\u0436\u0434\u0443 \u0442\u0435\u043a\u0443\u0449\u0435\u0439 \u043f\u043e\u043b\u0438\u0442\u0438\u043a\u043e\u0439 \u0438 SFT-\u043c\u043e\u0434\u0435\u043b\u044c\u044e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f \u0432\u043e \u043c\u043d\u043e\u0433\u0438\u0445 RLHF-\u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044f\u0445 (\u0432\u043a\u043b\u044e\u0447\u0430\u044f PPO) \u0434\u043b\u044f \u0441\u0442\u0430\u0431\u0438\u043b\u0438\u0437\u0430\u0446\u0438\u0438. \u041d\u043e \u0432 \u0437\u0430\u0434\u0430\u0447\u0430\u0445 reasoning \u044d\u0442\u043e \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u0441\u044f \u0442\u043e\u0440\u043c\u043e\u0437\u043e\u043c: \u043c\u043e\u0434\u0435\u043b\u044c \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0430 \u0440\u0430\u043c\u043a\u0430\u043c\u0438 SFT-\u043f\u043e\u0432\u0435\u0434\u0435\u043d\u0438\u044f \u0438 \u043d\u0435 \u043c\u043e\u0436\u0435\u0442 \u0438\u0441\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u0442\u044c \u043d\u043e\u0432\u044b\u0435 \u0441\u0442\u0440\u0430\u0442\u0435\u0433\u0438\u0438 \u0440\u0430\u0441\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u044f.<\/p>\n<p>\u0412 Polaris KL \u043f\u043e\u043b\u043d\u043e\u0441\u0442\u044c\u044e \u0443\u0431\u0440\u0430\u043d, \u0447\u0442\u043e\u0431\u044b \u043c\u043e\u0434\u0435\u043b\u044c \u043c\u043e\u0433\u043b\u0430 <strong>\u043e\u0442\u043a\u043b\u043e\u043d\u044f\u0442\u044c\u0441\u044f \u043e\u0442 SFT \u0438 \u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043d\u043e\u0432\u044b\u0435 \u043b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u0446\u0435\u043f\u043e\u0447\u043a\u0438<\/strong> \u2014 \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u0435\u0441\u043b\u0438 \u043e\u043d\u0438 \u043d\u0435\u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u044b\u0435, \u043d\u043e \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0435.<\/p>\n<h4>\u041f\u043e\u0447\u0435\u043c\u0443 \u0431\u044b\u043b \u0443\u0431\u0440\u0430\u043d Entropy loss<\/h4>\n<p>\u0418\u0434\u0435\u044f \u043f\u043e\u043e\u0449\u0440\u044f\u0442\u044c \u044d\u043d\u0442\u0440\u043e\u043f\u0438\u044e \u0432 output&#8217;\u0430\u0445 \u043d\u0430 \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435 \u043e\u0431\u043e\u0440\u0430\u0447\u0438\u0432\u0430\u0435\u0442\u0441\u044f \u043d\u0435\u0441\u0442\u0430\u0431\u0438\u043b\u044c\u043d\u043e\u0441\u0442\u044c\u044e:<\/p>\n<ul>\n<li>\n<p>\u041d\u0430 \u043f\u043e\u0437\u0434\u043d\u0438\u0445 \u044d\u0442\u0430\u043f\u0430\u0445 RL \u044d\u043d\u0442\u0440\u043e\u043f\u0438\u044f \u043c\u043e\u0436\u0435\u0442 \u0440\u0430\u0441\u0442\u0438 \u0445\u0430\u043e\u0442\u0438\u0447\u043d\u043e<\/p>\n<\/li>\n<li>\n<p>\u042d\u0442\u043e \u0432\u0435\u0434\u0451\u0442 \u043a \u043a\u043e\u043b\u043b\u0430\u043f\u0441\u0443: \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442 \u0432\u044b\u0434\u0430\u0432\u0430\u0442\u044c \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u044b\u0435 \u0442\u043e\u043a\u0435\u043d\u044b<\/p>\n<\/li>\n<\/ul>\n<p>\u0412 Polaris \u043e\u0442\u043a\u0430\u0437\u0430\u043b\u0438\u0441\u044c \u043e\u0442 \u044d\u043d\u0442\u0440\u043e\u043f\u0438\u0439\u043d\u043e\u0433\u043e \u043f\u043e\u043e\u0449\u0440\u0435\u043d\u0438\u044f, \u0441\u043e\u0441\u0440\u0435\u0434\u043e\u0442\u043e\u0447\u0438\u0432\u0448\u0438\u0441\u044c \u043d\u0430 <strong>\u0447\u0438\u0441\u0442\u043e\u043c outcome-based reward<\/strong>.<\/p>\n<p>\u0412\u043c\u0435\u0441\u0442\u043e \u0432\u0441\u0435\u0433\u043e \u044d\u0442\u043e\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f <strong>surrogate loss \u0441 upper clipping bound<\/strong>, \u0430\u043d\u0430\u043b\u043e\u0433\u0438\u0447\u043d\u044b\u0439 DAPO.<\/p>\n<h3>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0438 \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435<\/h3>\n<p>\u0427\u0442\u043e\u0431\u044b \u043e\u0446\u0435\u043d\u0438\u0442\u044c \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u0435\u0439 Polaris, \u0430\u0432\u0442\u043e\u0440\u044b \u043f\u0440\u043e\u0432\u0435\u043b\u0438 \u0441\u0435\u0440\u0438\u044e \u0442\u0435\u0441\u0442\u043e\u0432 \u043d\u0430 \u043f\u043e\u043f\u0443\u043b\u044f\u0440\u043d\u044b\u0445 \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0430\u0445, \u0432\u043a\u043b\u044e\u0447\u0430\u044f AIME24, AIME25, Minerva Math, Olympiad Bench \u0438 AMC23. \u0412\u0441\u0435 \u0442\u0435\u0441\u0442\u044b \u043f\u0440\u043e\u0432\u043e\u0434\u0438\u043b\u0438\u0441\u044c \u043f\u043e \u0441\u0442\u0440\u043e\u0433\u0438\u043c, \u0432\u043e\u0441\u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u043c\u044b\u043c \u0443\u0441\u043b\u043e\u0432\u0438\u044f\u043c: \u043f\u043e 32 \u043f\u0440\u043e\u0433\u043e\u043d\u043a\u0438 \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0439 \u0437\u0430\u0434\u0430\u0447\u0438 (\u0438\u043b\u0438 4\/8 \u2014 \u0433\u0434\u0435 \u0443\u043a\u0430\u0437\u0430\u043d\u043e), \u0441 \u0435\u0434\u0438\u043d\u044b\u043c\u0438 sampling-\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u043c\u0438.<\/p>\n<p>\u0412\u0441\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u043b\u0438\u0441\u044c \u0432 \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0445 \u0443\u0441\u043b\u043e\u0432\u0438\u044f\u0445, \u043a\u0440\u043e\u043c\u0435 Qwen3, \u0433\u0434\u0435 \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u043b\u0438\u0441\u044c \u0431\u043e\u043b\u0435\u0435 \u043a\u043e\u043d\u0441\u0435\u0440\u0432\u0430\u0442\u0438\u0432\u043d\u044b\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u043f\u043e \u0443\u043c\u043e\u043b\u0447\u0430\u043d\u0438\u044e:<\/p>\n<pre><code class=\"python\">sampling_params = SamplingParams(     temperature=1.4,     top_p=1.0,     top_k=20,     max_tokens=90000  # ~90K \u0442\u043e\u043a\u0435\u043d\u043e\u0432: \u0434\u043b\u044f CoT \u043c\u0430\u043a\u0441\u0438\u043c\u0430\u043b\u044c\u043d\u0430\u044f \u0434\u043b\u0438\u043d\u0430 \u043a\u0440\u0438\u0442\u0438\u0447\u043d\u0430 )<\/code><\/pre>\n<p>Polaris-4B \u043d\u0435 \u043f\u0440\u043e\u0441\u0442\u043e \u043e\u0431\u0433\u043e\u043d\u044f\u0435\u0442 \u0434\u0440\u0443\u0433\u0438\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u00ab\u0432 \u0441\u0440\u0435\u0434\u043d\u0435\u043c\u00bb \u2014 \u043e\u043d \u0434\u0435\u043b\u0430\u0435\u0442 \u044d\u0442\u043e <strong>\u043d\u0430 \u0432\u044b\u0441\u043e\u043a\u0438\u0445 \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u0430\u0445 \u0438 \u0434\u043b\u0438\u043d\u043d\u044b\u0445 \u043e\u0442\u0432\u0435\u0442\u0430\u0445<\/strong>, \u0433\u0434\u0435 \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e baseline \u043d\u0430\u0447\u0438\u043d\u0430\u044e\u0442 \u0434\u0435\u0433\u0440\u0430\u0434\u0438\u0440\u043e\u0432\u0430\u0442\u044c.<\/p>\n<p>\u0411\u0430\u0437\u043e\u0432\u044b\u0439 \u0442\u0435\u0441\u0442 \u0432\u043a\u043b\u044e\u0447\u0430\u043b \u0437\u0430\u0434\u0430\u0447\u0438 \u0432\u0440\u043e\u0434\u0435:<\/p>\n<blockquote>\n<p>Every morning Aya goes for a 9-kilometer-long walk&#8230;<br \/> Suppose Aya walks at s + 1\/2 kilometers per hour.<br \/> Find the number of minutes the walk takes her, including t&#8230;<\/p>\n<\/blockquote>\n<p>\u0422\u0430\u043a\u0438\u0435 \u0437\u0430\u0434\u0430\u0447\u0438 \u0442\u0440\u0435\u0431\u0443\u044e\u0442 \u0446\u0435\u043f\u043e\u0447\u0435\u043a \u043b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0440\u0430\u0441\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0439, \u0440\u0430\u0441\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u044f \u043d\u0430 \u0443\u0440\u043e\u0432\u043d\u0435 \u0430\u043b\u0433\u0435\u0431\u0440\u044b, \u0434\u0440\u043e\u0431\u0435\u0439, \u0432\u0440\u0435\u043c\u0435\u043d\u0438, \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u0438 \u2014 \u0442\u0438\u043f\u0438\u0447\u043d\u0430\u044f \u0437\u0430\u0434\u0430\u0447\u0430 CoT, \u0433\u0434\u0435 \u0431\u0435\u0437 \u0433\u0440\u0430\u043c\u043e\u0442\u043d\u043e\u0433\u043e \u0432\u044b\u0432\u043e\u0434\u0430 \u043d\u0430 \u0434\u0435\u0441\u044f\u0442\u043a\u0438 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043e\u0442\u0432\u0435\u0442 \u043d\u0435\u0432\u043e\u0437\u043c\u043e\u0436\u0435\u043d.<\/p>\n<h4>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u043f\u043e \u0432\u0441\u0435\u043c \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0430\u043c<\/h4>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<th data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">\u041c\u043e\u0434\u0435\u043b\u044c<\/p>\n<\/th>\n<th data-colwidth=\"83\" width=\"83\">\n<p align=\"left\">AIME24 avg@32<\/p>\n<\/th>\n<th data-colwidth=\"86\" width=\"86\">\n<p align=\"left\">AIME25 avg@32<\/p>\n<\/th>\n<th data-colwidth=\"84\" width=\"84\">\n<p align=\"left\">Minerva avg@4<\/p>\n<\/th>\n<th data-colwidth=\"92\" width=\"92\">\n<p align=\"left\">Olympiad avg@4<\/p>\n<\/th>\n<th>\n<p align=\"left\">AMC23 avg@8<\/p>\n<\/th>\n<\/tr>\n<tr>\n<td data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">Deepseek-R1-Distill-Qwen-7B<\/p>\n<\/td>\n<td data-colwidth=\"83\" width=\"83\">\n<p align=\"left\">55.0<\/p>\n<\/td>\n<td data-colwidth=\"86\" width=\"86\">\n<p align=\"left\">39.7<\/p>\n<\/td>\n<td data-colwidth=\"84\" width=\"84\">\n<p align=\"left\">36.7<\/p>\n<\/td>\n<td data-colwidth=\"92\" width=\"92\">\n<p align=\"left\">56.8<\/p>\n<\/td>\n<td>\n<p align=\"left\">81.9<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">AReal-boba-RL-7B<\/p>\n<\/td>\n<td data-colwidth=\"83\" width=\"83\">\n<p align=\"left\">61.9<\/p>\n<\/td>\n<td data-colwidth=\"86\" width=\"86\">\n<p align=\"left\">48.3<\/p>\n<\/td>\n<td data-colwidth=\"84\" width=\"84\">\n<p align=\"left\">39.5<\/p>\n<\/td>\n<td data-colwidth=\"92\" width=\"92\">\n<p align=\"left\">61.9<\/p>\n<\/td>\n<td>\n<p align=\"left\">86.4<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">Skywork-OR1-7B-Math<\/p>\n<\/td>\n<td data-colwidth=\"83\" width=\"83\">\n<p align=\"left\">69.8<\/p>\n<\/td>\n<td data-colwidth=\"86\" width=\"86\">\n<p align=\"left\">52.3<\/p>\n<\/td>\n<td data-colwidth=\"84\" width=\"84\">\n<p align=\"left\">40.8<\/p>\n<\/td>\n<td data-colwidth=\"92\" width=\"92\">\n<p align=\"left\">63.2<\/p>\n<\/td>\n<td>\n<p align=\"left\">85.3<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">POLARIS-7B-Preview<\/p>\n<\/td>\n<td data-colwidth=\"83\" width=\"83\">\n<p align=\"left\">72.6<\/p>\n<\/td>\n<td data-colwidth=\"86\" width=\"86\">\n<p align=\"left\">52.6<\/p>\n<\/td>\n<td data-colwidth=\"84\" width=\"84\">\n<p align=\"left\">40.2<\/p>\n<\/td>\n<td data-colwidth=\"92\" width=\"92\">\n<p align=\"left\">65.4<\/p>\n<\/td>\n<td>\n<p align=\"left\">89.0<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">Deepseek-R1-Distill-Qwen-32B<\/p>\n<\/td>\n<td data-colwidth=\"83\" width=\"83\">\n<p align=\"left\">72.6<\/p>\n<\/td>\n<td data-colwidth=\"86\" width=\"86\">\n<p align=\"left\">54.9<\/p>\n<\/td>\n<td data-colwidth=\"84\" width=\"84\">\n<p align=\"left\">42.1<\/p>\n<\/td>\n<td data-colwidth=\"92\" width=\"92\">\n<p align=\"left\">59.4<\/p>\n<\/td>\n<td>\n<p align=\"left\">84.3<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">Qwen3-32B<\/p>\n<\/td>\n<td data-colwidth=\"83\" width=\"83\">\n<p align=\"left\">81.4<\/p>\n<\/td>\n<td data-colwidth=\"86\" width=\"86\">\n<p align=\"left\">72.9<\/p>\n<\/td>\n<td data-colwidth=\"84\" width=\"84\">\n<p align=\"left\">44.2<\/p>\n<\/td>\n<td data-colwidth=\"92\" width=\"92\">\n<p align=\"left\">66.7<\/p>\n<\/td>\n<td>\n<p align=\"left\">92.4<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">Qwen3-4B<\/p>\n<\/td>\n<td data-colwidth=\"83\" width=\"83\">\n<p align=\"left\">73.8<\/p>\n<\/td>\n<td data-colwidth=\"86\" width=\"86\">\n<p align=\"left\">65.6<\/p>\n<\/td>\n<td data-colwidth=\"84\" width=\"84\">\n<p align=\"left\">43.6<\/p>\n<\/td>\n<td data-colwidth=\"92\" width=\"92\">\n<p align=\"left\">62.2<\/p>\n<\/td>\n<td>\n<p align=\"left\">87.2<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"252\" width=\"252\">\n<p align=\"left\">POLARIS-4B-Preview<\/p>\n<\/td>\n<td data-colwidth=\"83\" width=\"83\">\n<p align=\"left\"><strong>81.2<\/strong><\/p>\n<\/td>\n<td data-colwidth=\"86\" width=\"86\">\n<p align=\"left\"><strong>79.4<\/strong><\/p>\n<\/td>\n<td data-colwidth=\"84\" width=\"84\">\n<p align=\"left\"><strong>44.0<\/strong><\/p>\n<\/td>\n<td data-colwidth=\"92\" width=\"92\">\n<p align=\"left\"><strong>69.1<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>94.8<\/strong><\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<h4>Polaris-4B \u043e\u0431\u0445\u043e\u0434\u0438\u0442 \u0432\u0441\u0435\u0445 \u0432 \u0441\u0432\u043e\u0451\u043c \u043a\u043b\u0430\u0441\u0441\u0435<\/h4>\n<p>\u041c\u043e\u0434\u0435\u043b\u044c \u0441 4B \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u043c\u0438 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u043b\u0443\u0447\u0448\u0443\u044e \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u044c \u043f\u043e \u0432\u0441\u0435\u043c \u0437\u0430\u0434\u0430\u0447\u0430\u043c, \u0432\u043a\u043b\u044e\u0447\u0430\u044f:<\/p>\n<ul>\n<li>\n<p>AIME25: <strong>79.4%<\/strong> (\u043f\u0440\u043e\u0442\u0438\u0432 65.6% \u0443 Qwen3-4B)<\/p>\n<\/li>\n<li>\n<p>Minerva Math: <strong>44.0%<\/strong> (\u043d\u0430 \u0443\u0440\u043e\u0432\u043d\u0435 Qwen3-32B)<\/p>\n<\/li>\n<li>\n<p>Olympiad Bench: <strong>69.1%<\/strong> \u2014<\/p>\n<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-466271","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/466271","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=466271"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/466271\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=466271"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=466271"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=466271"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}