{"id":471327,"date":"2025-08-20T09:01:04","date_gmt":"2025-08-20T09:01:04","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=471327"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=471327","title":{"rendered":"<span>\u0422\u043e\u043a\u0435\u043d\u044b \u0432 \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044f\u0445. \u0427\u0442\u043e \u044d\u0442\u043e \u0438 \u043e\u0442\u043a\u0443\u0434\u0430 \u0431\u0435\u0440\u0451\u0442\u0441\u044f?<\/span>"},"content":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u0412 \u0434\u0430\u043d\u043d\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435 \u043c\u044b \u0440\u0430\u0437\u0431\u0435\u0440\u0451\u043c \u043a\u0430\u043a \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044c \u0432\u0438\u0434\u0438\u0442 \u0442\u0435\u043a\u0441\u0442, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043c\u044b \u0435\u0439 \u043e\u0442\u043f\u0440\u0430\u0432\u0438\u043b\u0438, \u043f\u043e\u0437\u043d\u0430\u043a\u043e\u043c\u0438\u043c\u0441\u044f \u043e\u0447\u0435\u043d\u044c \u0431\u043b\u0438\u0437\u043a\u043e \u0441 \u0442\u0435\u0440\u043c\u0438\u043d\u043e\u043c \u0422\u041e\u041a\u0415\u041d\u042b, \u0438 \u0434\u0430\u0436\u0435 \u0441\u0430\u043c\u0438 \u0441\u043e\u0437\u0434\u0430\u0434\u0438\u043c \u0442\u0435 \u0441\u0430\u043c\u044b\u0435 \u0442\u043e\u043a\u0435\u043d\u044b \u043d\u0430 Python.<\/p>\n<h3>\u041f\u043e\u0435\u0445\u0430\u043b\u0438<\/h3>\n<p>\u0414\u043b\u044f \u043d\u0430\u0447\u0430\u043b\u0430, \u0434\u0430\u0432\u0430\u0439\u0442\u0435 \u0432 \u043e\u0431\u0449\u0438\u0445 \u0447\u0435\u0440\u0442\u0430\u0445 \u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u0432\u0435\u0441\u044c \u043f\u0443\u0442\u044c \u0442\u0435\u043a\u0441\u0442\u0430 \u043e\u0442 \u042e\u0437\u0435\u0440\u0430 \u0434\u043e \u041d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u0438.<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/c04\/b0a\/a45\/c04b0aa45a5d3b7ad25625ef7e1482c5.png\" width=\"1200\" height=\"800\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/c04\/b0a\/a45\/c04b0aa45a5d3b7ad25625ef7e1482c5.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/c04\/b0a\/a45\/c04b0aa45a5d3b7ad25625ef7e1482c5.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u0410 \u0442\u0435\u043f\u0435\u0440\u044c \u0432 \u043e\u0431\u0440\u0430\u0442\u043d\u043e\u043c \u043f\u043e\u0440\u044f\u0434\u043a\u0435, \u0434\u043b\u044f \u0431\u043e\u043b\u0435\u0435 \u043b\u043e\u0433\u0438\u0447\u043d\u043e\u0433\u043e \u043f\u0443\u0442\u0438 \u043e\u0442 \u043f\u0440\u0438\u0447\u0438\u043d\u044b \u043a \u0441\u043b\u0435\u0434\u0441\u0442\u0432\u0438\u044e.<\/p>\n<p>\u0422\u0430\u043a \u043a\u0430\u043a \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044c, \u044d\u0442\u043e \u043e\u0447\u0435\u043d\u044c \u0441\u043b\u043e\u0436\u043d\u044b\u0439 \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c, \u043d\u0430 \u0432\u0445\u043e\u0434, \u043e\u043d \u0434\u043e\u043b\u0436\u0435\u043d \u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0442\u044c \u043f\u043e\u043d\u044f\u0442\u043d\u044b\u0435 \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u0435\u0434\u0438\u043d\u0438\u0446\u044b, \u0432 \u0442\u0435\u043a\u0441\u0442\u043e\u0432\u044b\u0445 \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044f\u0445, \u044d\u0442\u043e <strong>\u0412\u0435\u043a\u0442\u043e\u0440\u044b<\/strong>.<\/p>\n<p><strong>\u0412\u0435\u043a\u0442\u043e\u0440<\/strong> \u2014 \u044d\u0442\u043e <em>\u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u043e\u0431\u044a\u0435\u043a\u0442<\/em>: \u0443\u043f\u043e\u0440\u044f\u0434\u043e\u0447\u0435\u043d\u043d\u044b\u0439 \u043d\u0430\u0431\u043e\u0440 \u0447\u0438\u0441\u0435\u043b (\u043a\u043e\u043e\u0440\u0434\u0438\u043d\u0430\u0442).<br \/><strong>\u041f\u0440\u0438\u043c\u0435\u0440<\/strong>: <code>[1.2, -0.3, 0.7, ...]<\/code>.<br \/>\u0415\u0441\u043b\u0438 \u0441\u043e\u0432\u0441\u0435\u043c \u0443\u043f\u0440\u043e\u0449\u0430\u0442\u044c, \u044d\u0442\u043e \u043a\u0430\u043a \u043f\u0443\u0441\u0442\u044c \u043f\u043e \u043a\u0430\u0440\u0442\u0435 (1.2 \u0448\u0430\u0433\u0430 \u0432\u043b\u0435\u0432\u043e, 0.3 \u0448\u0430\u0433\u0430 \u043d\u0430\u0437\u0430\u0434, \u043a\u043e\u043f\u0430\u0442\u044c \u043d\u0430 0.7 \u043c\u0435\u0442\u0440\u0430 \u0432\u043d\u0438\u0437)<\/p>\n<p><strong>\u0412\u0435\u043a\u0442\u043e\u0440\u044b<\/strong>, \u043c\u044b \u0432 \u0441\u0432\u043e\u044e \u043e\u0447\u0435\u0440\u0435\u0434\u044c \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0438\u0437 \u0441\u043b\u043e\u0432\u0430\u0440\u044f \u0442\u043e\u043a\u0435\u043d\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043c\u044b \u0441\u043e\u0437\u0434\u0430\u0451\u043c \u0434\u0430\u0436\u0435 \u0440\u0430\u043d\u044c\u0448\u0435, \u0447\u0435\u043c \u0441\u0430\u043c\u0443 \u041d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044c.<br \/>\u041d\u0438\u0436\u0435, \u043c\u044b \u043a\u0430\u043a \u0440\u0430\u0437 \u0438 \u0431\u0443\u0434\u0435\u043c \u0441\u043e\u0437\u0434\u0430\u0432\u0430\u0442\u044c \u0442\u0430\u043a\u043e\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0441\u0430\u043c\u0438 \u0441 \u043d\u0443\u043b\u044f!<\/p>\n<p>\u0421\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432 &#8212; \u044d\u0442\u043e \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0433\u0434\u0435 \u0443 \u043d\u0430\u0441 \u043b\u0435\u0436\u0438\u0442 \u043d\u0430\u0431\u043e\u0440 \u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u0445 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0438 \u043a\u0430\u0436\u0434\u043e\u043c\u0443 \u0422\u043e\u043a\u0435\u043d\u0443 \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0443\u0435\u0442 \u0441\u0432\u043e\u0439 \u0412\u0435\u043a\u0442\u043e\u0440.<br \/>\u042d\u0442\u043e \u043c\u043e\u0436\u043d\u043e \u0441\u0440\u0430\u0432\u043d\u0438\u0442\u044c \u0441\u043e \u0441\u043b\u043e\u0432\u0430\u0440\u0451\u043c \u0438\u043d\u043e\u0441\u0442\u0440\u0430\u043d\u043d\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430.<\/p>\n<p><strong>\u0427\u0442\u043e \u0442\u0430\u043a\u043e\u0435 \u0442\u043e\u043a\u0435\u043d?<\/strong><\/p>\n<p>\u0422\u043e\u043a\u0435\u043d\u043e\u043c \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u0441\u043e\u0432\u043e\u043a\u0443\u043f\u043d\u043e\u0441\u0442\u044c \u043e\u0434\u043d\u043e\u0433\u043e \u0438 \u0431\u043e\u043b\u0435\u0435 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432.<br \/>\u0414\u043b\u044f \u043d\u0430\u0441, \u043b\u044e\u0434\u0435\u0439, \u0447\u0430\u0441\u0442\u043e \u0442\u043e\u043a\u0435\u043d\u044b \u043d\u0435 \u0431\u0443\u0434\u0443\u0442 \u043d\u0435\u0441\u0442\u0438 \u0441\u043c\u044b\u0441\u043b.<br \/>\u041d\u043e \u0447\u0435\u043c \u0431\u043e\u043b\u0435\u0435 \u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u0434\u0430\u0442\u0430\u0441\u0435\u0442(\u043d\u0430\u0431\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445 \u0434\u043b\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f), \u0442\u0435\u043c \u0431\u043e\u043b\u044c\u0448\u0435 \u0442\u043e\u043a\u0435\u043d\u044b \u0431\u0443\u0434\u0443\u0442 \u043f\u043e\u0445\u043e\u0436\u0438 \u043d\u0430 \u0441\u043b\u043e\u0432\u0430.<br \/>\u041f\u0440\u0438\u043c\u0435\u0440 \u043c\u044b \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0438\u0436\u0435.<\/p>\n<p>\u0418\u0442\u043e\u0433\u043e, \u043c\u044b \u043f\u0440\u043e\u0448\u043b\u0438 \u043f\u043e \u043f\u0443\u0442\u0438:<br \/>    \u0422\u0435\u043a\u0441\u0442 -&gt; \u0422\u043e\u043a\u0435\u043d\u044b -&gt; \u0412\u0435\u043a\u0442\u043e\u0440\u0430 -&gt; \u041d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044c<\/p>\n<p>&#171;\u041f\u0440\u0438\u0432\u0435\u0442 \u043c\u0438\u0440!&#187; -&gt; &#171;\u041f\u0440\u0438\u0432\u0435\u0442&#187;, &#171;\u043c\u0438\u0440&#187;, &#171;!&#187; -&gt; [1.2, -0.3, 0.7, &#8230;], [-0.1, 1.3, -7.7, &#8230;], [9.2, -4.1, 7.7, &#8230;] -&gt; \u041d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044c<\/p>\n<p>\u0412 \u043e\u0431\u0449\u0438\u0445 \u0447\u0435\u0440\u0442\u0430\u0445 \u0442\u0435\u043f\u0435\u0440\u044c \u043f\u043e\u043d\u044f\u0442\u043d\u043e, \u0447\u0442\u043e \u0438\u0437 \u0441\u0435\u0431\u044f \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u043a\u0430\u0436\u0434\u044b\u0439 \u044d\u0442\u0430\u043f.<\/p>\n<p>\u041f\u0435\u0440\u0435\u0445\u043e\u0434\u0438\u043c \u043e\u0442 \u043e\u0431\u0449\u0435\u0433\u043e \u043a \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u0438\u043a\u0435.<\/p>\n<p>\u0421\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432 &#8212; \u044d\u0442\u043e \u043d\u0430\u0431\u043e\u0440 \u043e\u0442 \u043e\u0434\u043d\u043e\u0433\u043e \u0438\u043b\u0438 \u0431\u043e\u043b\u0435\u0435 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432, \u0447\u0430\u0449\u0435 \u0432\u0441\u0435\u0433\u043e \u043f\u043e\u043f\u0430\u0434\u0430\u044e\u0449\u0438\u0435\u0441\u044f \u043d\u0430\u043c \u0432 \u043d\u0430\u0431\u043e\u0440\u0435 \u0434\u0430\u043d\u043d\u044b\u0445, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043c\u044b \u0432\u0437\u044f\u043b\u0438 \u0437\u0430 \u043e\u0441\u043d\u043e\u0432\u0443 \u0441\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u044f \u0441\u043b\u043e\u0432\u0430\u0440\u044f.<br \/>\u041e\u0431\u044b\u0447\u043d\u043e, \u0434\u043b\u044f \u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u044f\u0437\u044b\u043a\u043e\u0432\u044b\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439, \u044d\u0442\u043e \u0442\u0435\u0440\u0430\u0431\u0430\u0439\u0442\u044b \u0442\u0435\u043a\u0441\u0442\u0430 (\u0442\u0440\u043b\u043b\u0438\u043e\u043d\u044b \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432).<\/p>\n<p>\u0418 \u0447\u0442\u043e\u0431\u044b \u0441\u043e\u0437\u0434\u0430\u0442\u044c \u0442\u0430\u043a\u043e\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0443 \u043d\u0430\u0441 \u0435\u0441\u0442\u044c \u0440\u0430\u0437\u043d\u044b\u0435 \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u044b, \u043e \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043c\u044b \u043f\u043e\u0433\u043e\u0432\u043e\u0440\u0438\u043c \u043f\u043e\u0437\u0436\u0435, \u043d\u043e \u0438\u0445 \u0441\u0443\u0442\u044c \u043e\u0434\u043d\u0430. \u041d\u0430\u0439\u0442\u0438 \u0441\u0430\u043c\u044b\u0435 \u0447\u0430\u0441\u0442\u044b\u0435 \u043f\u043e \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u043c\u043e\u0441\u0442\u0438 \u0441\u0438\u043c\u0432\u043e\u043b\u044b \u0438\u043b\u0438 \u043d\u0430\u0431\u043e\u0440\u044b \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432 \u0432 <strong>\u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0435<\/strong> (\u0442\u043e\u0442 \u0441\u0430\u043c\u044b\u0439 \u043d\u0430\u0431\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445) \u0438 \u0441\u043e\u0437\u0434\u0430\u0442\u044c \u0438\u0437 \u043d\u0438\u0445 \u0442\u043e\u043a\u0435\u043d\u044b.<br \/>\u0422\u0435\u043c \u0441\u0430\u043c\u044b\u043c \u0422\u043e\u043a\u0435\u043d &#8212; \u044d\u0442\u043e \u0442\u043e \u0447\u0442\u043e \u0431\u044b\u043b\u043e \u043d\u0430\u0439\u0434\u0435\u043d\u043e \u0432 \u0442\u0435\u043a\u0441\u0442\u0435 \u0447\u0430\u0449\u0435 \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0445 \u0441\u043e\u0447\u0435\u0442\u0430\u043d\u0438\u0439 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432, \u0438 \u0431\u044b\u043b\u043e \u0432\u044b\u043d\u0435\u0441\u0435\u043d\u043e \u0432 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u043e\u0439 \u0435\u0434\u0438\u043d\u0438\u0446\u0435\u0439 \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u044c.<\/p>\n<p>\u0422\u043e\u043a\u0435\u043d\u044b \u0432 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0444\u043e\u0440\u043c\u0438\u0440\u0443\u044e\u0442\u0441\u044f \u043f\u043e\u0441\u0442\u0435\u043f\u0435\u043d\u043d\u043e \u0432 \u0442\u044b\u0441\u044f\u0447\u0438 \u0438\u043b\u0438 \u043c\u0438\u043b\u043b\u0438\u043e\u043d\u044b \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u0439.<br \/>\u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0438\u0437\u043d\u0430\u0447\u0430\u043b\u044c\u043d\u043e \u0432\u043e\u043e\u0431\u0449\u0435 \u0432\u0435\u0441\u044c <strong>\u0434\u0430\u0442\u0430\u0441\u0435\u0442<\/strong> \u0440\u0430\u0437\u0431\u0438\u0432\u0430\u0435\u0442\u0441\u044f \u043f\u043e\u0441\u0438\u043c\u0432\u043e\u043b\u044c\u043d\u043e, \u043f\u043e\u0441\u043b\u0435 \u0447\u0435\u0433\u043e \u043c\u044b \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u043c \u0441\u043a\u043b\u0435\u0438\u0432\u0430\u0442\u044c \u0440\u044f\u0434\u043e\u043c \u0441\u0442\u043e\u044f\u0449\u0438\u0435 \u0441\u0438\u043c\u0432\u043e\u043b\u044b \u0438 \u0441\u0447\u0438\u0442\u0430\u0442\u044c, \u043a\u0430\u043a\u0438\u0445 \u0441\u043e\u0447\u0435\u0442\u0430\u043d\u0438\u0439 \u0431\u044b\u043b\u043e \u043d\u0430\u0439\u0434\u0435\u043d\u043e \u0431\u043e\u043b\u044c\u0448\u0435 \u0432\u0441\u0435\u0433\u043e. \u041a\u0430\u043a\u043e\u0435 \u0441\u043e\u0447\u0435\u0442\u0430\u043d\u0438\u0435 \u0431\u044b\u043b\u043e \u043d\u0430\u0439\u0434\u0435\u043d\u043e \u0432 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0435 \u0431\u043e\u043b\u044c\u0448\u0435 \u0432\u0441\u0435\u0433\u043e \u0440\u0430\u0437, \u0442\u043e \u0441\u043e\u0447\u0435\u0442\u0430\u043d\u0438\u0435 \u043c\u044b \u0438 \u0432\u044b\u043d\u043e\u0441\u0438\u043c \u0432 \u043d\u0430\u0448 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432, \u0442\u0435\u043c \u0441\u0430\u043c\u044b\u043c \u043f\u043e\u043f\u043e\u043b\u043d\u044f\u044f \u0435\u0433\u043e \u043d\u043e\u0432\u044b\u043c\u0438 \u0442\u043e\u043a\u0435\u043d\u0430\u043c\u0438.<\/p>\n<p>\u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u0441\u043e\u0437\u0434\u0430\u0434\u0438\u043c \u0441\u0432\u043e\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 2 \u0441\u0442\u0440\u043e\u043a \u0442\u0435\u043a\u0441\u0442\u0430 \u0432 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u043f\u0440\u0438\u043c\u0435\u0440\u0430:<br \/>\u041f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044f:<\/p>\n<ol>\n<li>\n<p>\u043f\u0440\u0438\u0432\u0435\u0442 \u043c\u0438\u0440<\/p>\n<\/li>\n<li>\n<p>\u0432\u0435\u0442\u0445\u0438\u0439 \u0434\u043e\u043c<\/p>\n<\/li>\n<\/ol>\n<p>\u0414\u043b\u044f \u043d\u0430\u0447\u0430\u043b\u0430 \u0437\u0430\u043c\u0435\u043d\u0438\u043c \u0441\u0438\u043c\u0432\u043e\u043b\u044b (\u043d\u0435 \u0431\u0443\u043a\u0432\u044b) \u043d\u0430 _ .<br \/>\u0422\u0435\u043f\u0435\u0440\u044c \u043f\u043e \u0448\u0430\u0433\u0430\u043c \u043f\u0440\u043e\u0433\u043e\u043d\u0438\u043c \u043d\u0430\u0448\u0438 \u0441\u0442\u0440\u043e\u043a\u0438, \u0447\u0442\u043e\u0431\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0441\u043b\u043e\u0432\u0430\u0440\u044c<\/p>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<th>\n<p align=\"left\">\u0428\u0430\u0433<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0422\u0435\u043a\u0443\u0449\u0430\u044f \u0440\u0430\u0437\u0431\u0438\u0432\u043a\u0430<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0421\u0430\u043c\u0430\u044f \u0447\u0430\u0441\u0442\u0430\u044f \u043f\u0430\u0440\u0430<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0427\u0442\u043e \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0435\u043c<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u041f\u043e\u0447\u0435\u043c\u0443 \u0438\u043c\u0435\u043d\u043d\u043e \u043e\u043d\u0430<\/p>\n<\/th>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">0<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2581 \u043f \u0440 \u0438 \u0432 \u0435 \u0442 \u2581 \u043c \u0438 \u0440  \u2581 \u0432 \u0435 \u0442 \u0445 \u0438 \u0439 \u2581 \u0434 \u043e \u043c<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2014<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2014<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0421\u0442\u0430\u0440\u0442\u0443\u0435\u043c \u0441 \u043e\u0434\u0438\u043d\u043e\u0447\u043d\u044b\u0445 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">1<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2581 \u043f \u0440 \u0438 <strong>\u0432\u0435<\/strong> \u0442 \u2581 \u043c \u0438 \u0440  \u2581 <strong>\u0432\u0435<\/strong> \u0442 \u0445 \u0438 \u0439 \u2581 \u0434 \u043e \u043c<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>(\u0432,\u0435)<\/strong> = 2<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>\u0432\u0435<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u00ab\u0432\u0435\u00bb \u0432\u0441\u0442\u0440\u0435\u0442\u0438\u043b\u043e\u0441\u044c 2 \u0440\u0430\u0437\u0430 (\u0432 \u00ab\u043f\u0440\u0438\u0432\u0435\u0442\u00bb, \u00ab\u0432\u0435\u0442\u0445\u0438\u0439\u00bb) \u2014 \u0447\u0430\u0449\u0435 \u043b\u044e\u0431\u043e\u0439 \u0434\u0440\u0443\u0433\u043e\u0439 \u043f\u0430\u0440\u044b<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">2<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2581 \u043f \u0440 \u0438 <strong>\u0432\u0435\u0442<\/strong> \u2581 \u043c \u0438 \u0440  \u2581 <strong>\u0432\u0435\u0442<\/strong> \u0445 \u0438 \u0439 \u2581 \u0434 \u043e \u043c<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>(\u0432\u0435,\u0442)<\/strong> = 2<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>\u0432\u0435\u0442<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041f\u043e\u0441\u043b\u0435 \u043f\u0435\u0440\u0432\u043e\u0433\u043e \u0441\u043b\u0438\u044f\u043d\u0438\u044f \u043f\u0430\u0440\u0430 \u00ab\u0432\u0435\u0442\u00bb \u0441\u0442\u0430\u043b\u0430 \u0441\u0430\u043c\u043e\u0439 \u0447\u0430\u0441\u0442\u043e\u0439<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">3<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2581 \u043f\u0440\u0438\u0432\u0435\u0442 \u2581 \u043c \u0438 \u0440  \u2581 <strong>\u0432\u0435\u0442<\/strong> \u0445 \u0438 \u0439 \u2581 \u0434 \u043e \u043c<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2014<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2014<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041f\u0430\u0440\u0430 \u00ab\u043f\u0440\u2026\u00bb \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u0442\u043e\u043b\u044c\u043a\u043e \u0440\u0430\u0437, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0434\u0430\u043b\u044c\u043d\u0435\u0439\u0448\u0438\u0435 \u0441\u043b\u0438\u044f\u043d\u0438\u044f \u0441\u043c\u044b\u0441\u043b \u043d\u0435 \u0434\u0430\u044e\u0442 \u043f\u0440\u0438 \u0442\u0430\u043a\u043e\u043c \u043a\u0440\u043e\u0445\u043e\u0442\u043d\u043e\u043c \u043d\u0430\u0431\u043e\u0440\u0435<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p><strong>\u0427\u0442\u043e \u0432\u0438\u0434\u043d\u043e<\/strong><\/p>\n<ul>\n<li>\n<p>\u041a\u0430\u0436\u0434\u0443\u044e \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u044e \u0441\u0447\u0438\u0442\u0430\u0435\u043c \u0447\u0430\u0441\u0442\u043e\u0442\u044b <strong>\u0441\u043e\u0441\u0435\u0434\u043d\u0438\u0445<\/strong> \u0442\u043e\u043a\u0435\u043d\u043e\u0432.<\/p>\n<\/li>\n<li>\n<p>\u0421\u043a\u043b\u0435\u0438\u0432\u0430\u0435\u043c \u0441\u0430\u043c\u0443\u044e \u0447\u0430\u0441\u0442\u0443\u044e \u043f\u0430\u0440\u0443 \u2192 \u0443\u0442\u043e\u0447\u043d\u044f\u0435\u043c \u0440\u0430\u0437\u0431\u0438\u0435\u043d\u0438\u0435 \u2192 \u043f\u043e\u0432\u0442\u043e\u0440\u044f\u0435\u043c.<\/p>\n<\/li>\n<li>\n<p>\u0411\u043b\u0430\u0433\u043e\u0434\u0430\u0440\u044f \u043f\u043e\u0432\u0442\u043e\u0440\u0443 \u00ab\u0432\u0435\u0442\u00bb \u0441\u0440\u0430\u0437\u0443 \u0438\u0437 \u0434\u0432\u0443\u0445 \u0441\u043b\u043e\u0432 \u0442\u043e\u043a\u0435\u043d <strong>\u0432\u0435\u0442<\/strong> \u0431\u044b\u0441\u0442\u0440\u043e \u043f\u043e\u043f\u0430\u043b \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u044c.<\/p>\n<\/li>\n<\/ul>\n<p>\u041d\u0430 \u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445 \u043e\u0431\u044a\u0451\u043c \u0431\u043e\u043b\u044c\u0448\u0435 \u0438 \u0448\u0430\u0433\u043e\u0432 \u0431\u043e\u043b\u044c\u0448\u0435, \u043d\u043e \u043b\u043e\u0433\u0438\u043a\u0430 \u0442\u0430 \u0436\u0435.<br \/>\u041d\u0438\u0436\u0435 \u043c\u044b \u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0445 \u043f\u0440\u0438\u043c\u0435\u0440\u0430\u0445.<\/p>\n<p><strong>\u0421\u0443\u0431\u0441\u043b\u043e\u0432\u0430<\/strong> \u2014 \u044d\u0442\u043e \u043a\u0443\u0441\u043e\u0447\u043a\u0438 \u0441\u043b\u043e\u0432\u0430, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043c\u0435\u043d\u044c\u0448\u0435 \u0446\u0435\u043b\u043e\u0433\u043e \u0441\u043b\u043e\u0432\u0430, \u043d\u043e \u0431\u043e\u043b\u044c\u0448\u0435 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u043e\u0433\u043e \u0441\u0438\u043c\u0432\u043e\u043b\u0430.<br \/>\u041d\u0443\u0436\u043d\u044b, \u0447\u0442\u043e\u0431\u044b \u043c\u043e\u0434\u0435\u043b\u044c \u043c\u043e\u0433\u043b\u0430:<\/p>\n<ul>\n<li>\n<p><strong>\u0421\u043e\u0431\u0438\u0440\u0430\u0442\u044c \u0440\u0435\u0434\u043a\u0438\u0435 \u0441\u043b\u043e\u0432\u0430<\/strong> \u0438\u0437 \u0438\u0437\u0432\u0435\u0441\u0442\u043d\u044b\u0445 \u0447\u0430\u0441\u0442\u0435\u0439: <code>\u044d\u043b\u0435\u043a\u0442\u0440\u043e<\/code> + <code>\u0441\u043a\u0443\u0442\u0435\u0440<\/code> \u2192 \u00ab\u044d\u043b\u0435\u043a\u0442\u0440\u043e\u0441\u043a\u0443\u0442\u0435\u0440\u00bb.<\/p>\n<\/li>\n<li>\n<p><strong>\u041d\u0435 \u0440\u0430\u0437\u0434\u0443\u0432\u0430\u0442\u044c \u0441\u043b\u043e\u0432\u0430\u0440\u044c<\/strong> \u0434\u043e \u043c\u0438\u043b\u043b\u0438\u043e\u043d\u043e\u0432 \u0441\u043b\u043e\u0432\u043e\u0444\u043e\u0440\u043c.<\/p>\n<\/li>\n<\/ul>\n<p>\u0422\u0438\u043f\u0438\u0447\u043d\u044b\u0439 \u043f\u0440\u0438\u043c\u0435\u0440 \u0440\u0430\u0437\u0431\u0438\u0435\u043d\u0438\u044f \u043f\u043e BPE:<br \/> <code>\u043d\u0435\u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0443\u0435\u043c\u044b\u0439 \u2192 \u043d\u0435\u043f\u0440\u0435\u0434 + \u0441\u043a\u0430\u0437\u0443\u0435\u043c + \u044b\u0439<\/code><\/p>\n<p>\u0422\u0430\u043a \u043c\u043e\u0434\u0435\u043b\u044c \u0437\u043d\u0430\u0435\u0442 \u043a\u043e\u0440\u0435\u043d\u044c \u00ab\u0441\u043a\u0430\u0437\u00bb, \u0441\u0443\u0444\u0444\u0438\u043a\u0441 \u00ab-\u0443\u0435\u043c-\u00bb, \u043e\u043a\u043e\u043d\u0447\u0430\u043d\u0438\u0435 \u00ab-\u044b\u0439\u00bb \u0438 \u043c\u043e\u0436\u0435\u0442 \u043f\u043e\u043d\u044f\u0442\u044c \/ \u0441\u0433\u0435\u043d\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043c\u043d\u043e\u0436\u0435\u0441\u0442\u0432\u043e \u043f\u043e\u0445\u043e\u0436\u0438\u0445 \u0441\u043b\u043e\u0432, \u0434\u0430\u0436\u0435 \u0435\u0441\u043b\u0438 \u0446\u0435\u043b\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \u043d\u0435 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u043b\u043e\u0441\u044c \u0432 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0438.<\/p>\n<h3>\u0410\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u044b \u0441\u0443\u0431\u0432\u043e\u0440\u0434\u2011\u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u0438<\/h3>\n<p>\u0421\u0430\u043c\u044b\u0435 \u0440\u0430\u0441\u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0451\u043d\u043d\u044b\u0435 \u2014 BPE, WordPiece \u0438 SentencePiece. \u041e\u043d\u0438 \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u043f\u043e \u043e\u0434\u043d\u043e\u043c\u0443 \u043f\u0440\u0438\u043d\u0446\u0438\u043f\u0443: \u0441\u0442\u0440\u043e\u044f\u0442 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0441\u0443\u0431\u0441\u043b\u043e\u0432, \u043d\u0430\u0447\u0438\u043d\u0430\u044f \u0441 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432, \u0438 \u043f\u043e\u0441\u0442\u0435\u043f\u0435\u043d\u043d\u043e \u043e\u0431\u044a\u0435\u0434\u0438\u043d\u044f\u044e\u0442 \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0447\u0430\u0441\u0442\u044b\u0435 \u0441\u043e\u0447\u0435\u0442\u0430\u043d\u0438\u044f.<\/p>\n<h4>\ud83d\udd39 BPE (Byte\u2011Pair Encoding)<\/h4>\n<ol>\n<li>\n<p>\u0411\u0435\u0440\u0443\u0442 \u043d\u0430\u0431\u043e\u0440 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432 (\u0432\u043a\u043b\u044e\u0447\u0430\u044f \u043f\u0440\u043e\u0431\u0435\u043b\u044b \u0438 \u0431\u0430\u0439\u0442\u044b).<\/p>\n<\/li>\n<li>\n<p>\u0421\u0447\u0438\u0442\u0430\u044e\u0442 \u0432\u0441\u0435 \u043f\u0430\u0440\u044b \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432\/\u0441\u0443\u0431\u0441\u043b\u043e\u0432 \u0438 \u043d\u0430\u0445\u043e\u0434\u044f\u0442 \u0441\u0430\u043c\u0443\u044e \u0447\u0430\u0441\u0442\u0443\u044e.<\/p>\n<\/li>\n<li>\n<p>\u041e\u0431\u044a\u0435\u0434\u0438\u043d\u044f\u044e\u0442 \u0435\u0451 \u0432 \u0435\u0434\u0438\u043d\u044b\u0439 \u0442\u043e\u043a\u0435\u043d \u0438 \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u044e\u0442 \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u044c.<\/p>\n<\/li>\n<li>\n<p>\u041f\u043e\u0432\u0442\u043e\u0440\u044f\u044e\u0442, \u043f\u043e\u043a\u0430 \u043d\u0435 \u0434\u043e\u0441\u0442\u0438\u0433\u043d\u0443\u0442 \u043d\u0443\u0436\u043d\u043e\u0433\u043e \u0440\u0430\u0437\u043c\u0435\u0440\u0430 \u0441\u043b\u043e\u0432\u0430\u0440\u044f.<\/p>\n<\/li>\n<\/ol>\n<p>\u041f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u043e: \u043e\u0431\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u0435\u0442 \u0440\u0435\u0434\u043a\u043e \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u044e\u0449\u0438\u0435\u0441\u044f \u0441\u043b\u043e\u0432\u0430, \u0440\u0430\u0437\u0431\u0438\u0432\u0430\u044f \u0438\u0445 \u043d\u0430 \u0447\u0430\u0441\u0442\u0438. Byte\u2011level BPE \u0441\u043d\u0430\u0447\u0430\u043b\u0430 \u043f\u0435\u0440\u0435\u0432\u043e\u0434\u0438\u0442 \u0442\u0435\u043a\u0441\u0442 \u0432 UTF\u20118 \u0431\u0430\u0439\u0442\u044b, \u0447\u0442\u043e\u0431\u044b \u043f\u043e\u043a\u0440\u044b\u0442\u044c \u043b\u044e\u0431\u044b\u0435 \u0441\u0438\u043c\u0432\u043e\u043b\u044b.<\/p>\n<h4>\ud83d\udd39 WordPiece<\/h4>\n<p>\u041f\u043e\u0445\u043e\u0436 \u043d\u0430 BPE, \u043d\u043e \u043e\u0431\u044a\u0435\u0434\u0438\u043d\u044f\u0435\u0442 \u043f\u0430\u0440\u044b \u043d\u0435 \u043f\u0440\u043e\u0441\u0442\u043e \u043f\u043e \u0447\u0430\u0441\u0442\u043e\u0442\u0435, \u0430 \u043f\u043e \u0442\u043e\u043c\u0443, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u0438\u043b\u044c\u043d\u043e \u0443\u0432\u0435\u043b\u0438\u0447\u0438\u0442\u0441\u044f \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u044c \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u043f\u0440\u0438 \u0434\u043e\u0431\u0430\u0432\u043b\u0435\u043d\u0438\u0438 \u044d\u0442\u043e\u0439 \u043f\u0430\u0440\u044b, \u0442\u043e \u0435\u0441\u0442\u044c \u0434\u0435\u043b\u0430\u0435\u0442 merge \u043f\u043e \u043a\u0440\u0438\u0442\u0435\u0440\u0438\u044e \u043c\u0430\u043a\u0441\u0438\u043c\u0430\u043b\u044c\u043d\u043e\u0433\u043e \u043f\u0440\u0430\u0432\u0434\u043e\u043f\u043e\u0434\u043e\u0431\u0438\u044f. \u0418\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0432 BERT.<\/p>\n<h4>\ud83d\udd39 SentencePiece<\/h4>\n<p>\u042d\u0442\u043e \u043e\u0431\u0451\u0440\u0442\u043a\u0430, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043c\u043e\u0436\u0435\u0442 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c BPE \u0438\u043b\u0438 Unigram LM \u0431\u0435\u0437 \u044f\u0432\u043d\u043e\u0439 \u043f\u0440\u0435\u0434\u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 (\u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043f\u0440\u044f\u043c\u043e \u0441 &#171;\u0441\u044b\u0440\u044b\u043c&#187; \u0442\u0435\u043a\u0441\u0442\u043e\u043c, \u0432\u043a\u043b\u044e\u0447\u0430\u044f \u043f\u0440\u043e\u0431\u0435\u043b\u044b). \u041e\u0447\u0435\u043d\u044c \u043f\u043e\u0434\u0445\u043e\u0434\u0438\u0442 \u0434\u043b\u044f \u044f\u0437\u044b\u043a\u043e\u0432 \u0431\u0435\u0437 \u0440\u0430\u0437\u0434\u0435\u043b\u0435\u043d\u0438\u044f \u0441\u043b\u043e\u0432 \u043f\u0440\u043e\u0431\u0435\u043b\u0430\u043c\u0438.<\/p>\n<p>\u041a\u0441\u0442\u0430\u0442\u0438, \u043f\u0440\u0438\u043c\u0435\u0440 \u0432 \u0442\u0430\u0431\u043b\u0438\u0446\u0435 \u0432\u044b\u0448\u0435 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043b \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c <strong>BPE<\/strong>.<\/p>\n<h3>\u041a\u041e\u0414<\/h3>\n<p>\u0422\u0435\u043e\u0440\u0438\u044e \u043f\u043e\u0442\u0440\u043e\u0433\u0430\u043b\u0438.<br \/>\u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u043f\u0435\u0440\u0435\u0439\u0434\u0451\u043c \u043a \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435.<\/p>\n<p>\u0421\u043e\u0437\u0434\u0430\u0434\u0438\u043c \u0441\u0432\u043e\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432.<br \/>\u041f\u043e\u0439\u0434\u0451\u043c \u043f\u043e \u0445\u0430\u0440\u0434\u043a\u043e\u0440\u0443 \u0438 \u0431\u0443\u0434\u0435\u043c \u0441\u043e\u0437\u0434\u0430\u0432\u0430\u0442\u044c \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u043d\u0430 \u0447\u0438\u0441\u0442\u043e\u043c Python.<\/p>\n<pre><code>\"\"\" Byte-Pair Encoding (BPE) \u2014 \u0443\u0447\u0435\u0431\u043d\u0430\u044f \u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044f \u043d\u0430 Python ------------------------------------------------------------- \u0426\u0435\u043b\u044c: \u043f\u043e\u043a\u0430\u0437\u0430\u0442\u044c, \u043a\u0430\u043a \u0438\u0437 \u0442\u0435\u043a\u0441\u0442\u0430 \u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438 \u0441\u0442\u0440\u043e\u0438\u0442\u0441\u044f \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0441\u0443\u0431\u0441\u043b\u043e\u0432. \u0410\u043b\u0433\u043e\u0440\u0438\u0442\u043c \u043d\u0430 \u043a\u0430\u0436\u0434\u043e\u043c \u0448\u0430\u0433\u0435 \u0438\u0449\u0435\u0442 \u0441\u0430\u043c\u0443\u044e \u0447\u0430\u0441\u0442\u0443\u044e \u0441\u043e\u0441\u0435\u0434\u043d\u044e\u044e \u043f\u0430\u0440\u0443 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0438 \u0441\u043a\u043b\u0435\u0438\u0432\u0430\u0435\u0442 \u0435\u0451, \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u044f \u043d\u043e\u0432\u044b\u0439 \u0442\u043e\u043a\u0435\u043d \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u044c. \"\"\"    from collections import Counter # Counter \u0443\u0434\u043e\u0431\u043d\u043e \u0441\u0447\u0438\u0442\u0430\u0442\u044c \u0447\u0430\u0441\u0442\u043e\u0442\u044b \u044d\u043b\u0435\u043c\u0435\u043d\u0442\u043e\u0432    # \u041c\u0430\u0440\u043a\u0435\u0440 \u043a\u043e\u043d\u0446\u0430 \u0441\u043b\u043e\u0432\u0430: \u043d\u0443\u0436\u0435\u043d, \u0447\u0442\u043e\u0431\u044b \u043a\u043e\u043d\u0435\u0446 \u0441\u043b\u043e\u0432\u0430 \u043d\u0435 \u0441\u043b\u0438\u0432\u0430\u043b\u0441\u044f \u0441 \u043d\u0430\u0447\u0430\u043b\u043e\u043c \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0435\u0433\u043e. # \u0412\u044b\u0431\u0440\u0430\u043d \u0442\u0430\u043a\u0438\u043c, \u0447\u0442\u043e\u0431\u044b \u0432 \u0442\u0435\u043a\u0441\u0442\u0435 \u043f\u043e\u0434\u043e\u0431\u043d\u043e\u0433\u043e \u043d\u0435\u0431\u044b\u043b\u043e END = \"\"     def merge_word(tokens, pair, merged_token): \"\"\" \u041f\u043e\u043b\u0443\u0447\u0430\u0435\u0442 \u0441\u043f\u0438\u0441\u043e\u043a \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043e\u0434\u043d\u043e\u0433\u043e \u0441\u043b\u043e\u0432\u0430 \u0438 \u0441\u043a\u043b\u0435\u0438\u0432\u0430\u0435\u0442 \u0432 \u043d\u0451\u043c \u0443\u043a\u0430\u0437\u0430\u043d\u043d\u0443\u044e \u043f\u0430\u0440\u0443.    tokens : ['\u043c', '\u0430', '\u043c', '\u0430', ''] pair : ('\u043c', '\u0430') merged_token : '\u043c\u0430'    \u0412\u0435\u0440\u043d\u0451\u0442: ['\u043c\u0430', '\u043c\u0430', ''] \"\"\" i, output = 0, []    while i &amp;lt; len(tokens): # \u0415\u0441\u043b\u0438 \u0441\u0442\u043e\u044f\u0449\u0438\u0435 \u0440\u044f\u0434\u043e\u043c \u0442\u043e\u043a\u0435\u043d\u044b \u043e\u0431\u0440\u0430\u0437\u0443\u044e\u0442 \u043d\u0443\u0436\u043d\u0443\u044e \u043f\u0430\u0440\u0443 \u2014 \u0441\u043a\u043b\u0435\u0438\u0432\u0430\u0435\u043c if i &amp;lt; len(tokens) - 1 and (tokens[i], tokens[i + 1]) == pair: output.append(merged_token) # \u0432\u043c\u0435\u0441\u0442\u043e \u0434\u0432\u0443\u0445 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043a\u043b\u0430\u0434\u0451\u043c \u043e\u0434\u0438\u043d i += 2 # \u043f\u0440\u043e\u043f\u0443\u0441\u043a\u0430\u0435\u043c \u043e\u0431\u0430 else: output.append(tokens[i]) # \u0438\u043d\u0430\u0447\u0435 \u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u043c \u043a\u0430\u043a \u0435\u0441\u0442\u044c i += 1    return output   def bpe_train(corpus: str, num_merges: int = 100): \"\"\" \u0421\u0442\u0440\u043e\u0438\u0442 \u0441\u043b\u043e\u0432\u0430\u0440\u044c BPE \u043f\u043e \u0437\u0430\u0434\u0430\u043d\u043d\u043e\u043c\u0443 \u0442\u0435\u043a\u0441\u0442\u0443.    corpus : \u0441\u044b\u0440\u043e\u0439 \u0442\u0435\u043a\u0441\u0442 (\u0441\u0442\u0440\u043e\u043a\u0430) \u2014 \u00ab\u043c\u0430\u043c\u0430 \u043c\u044b\u043b\u0430 \u0440\u0430\u043c\u0443\u00bb num_merges : \u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0440\u0430\u0437 \u0432\u044b\u043f\u043e\u043b\u043d\u044f\u0442\u044c \u0441\u043b\u0438\u044f\u043d\u0438\u044f \u0441\u043e\u0441\u0435\u0434\u043d\u0438\u0445 \u043f\u0430\u0440    \u0412\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 set \u0441\u043e \u0432\u0441\u0435\u043c\u0438 \u0442\u043e\u043a\u0435\u043d\u0430\u043c\u0438, \u0432\u043a\u043b\u044e\u0447\u0430\u044f \u043d\u043e\u0432\u044b\u0435 \u0441\u0443\u0431\u0441\u043b\u043e\u0432\u0430. \"\"\"    # 1. \u0411\u0430\u0437\u043e\u0432\u0430\u044f \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u044f: \u043a\u0430\u0436\u0434\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \u2192 \u0441\u043f\u0438\u0441\u043e\u043a \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432 + END-\u043c\u0430\u0440\u043a\u0435\u0440. # \u00ab\u043c\u0430\u043c\u0430\u00bb \u2192 [['\u043c', '\u0430', '\u043c', '\u0430', '']] # \u00ab\u043c\u0430\u043c\u0430 \u043c\u044b\u043b\u0430 \u0440\u0430\u043c\u0443\u00bb \u2192 [['\u043c', '\u0430', '\u043c', '\u0430', ''], ['\u043c', '\u044b', '\u043b', '\u0430', ''], ['\u0440', '\u0430', '\u043c', '\u0443', '']] tokenized = [list(word) + [END] for word in corpus.strip().split()]    # 2. \u041d\u0430\u0447\u0430\u043b\u044c\u043d\u044b\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u2014 \u043f\u0440\u043e\u0441\u0442\u043e \u043c\u043d\u043e\u0436\u0435\u0441\u0442\u0432\u043e \u0432\u0441\u0435\u0445 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u0445 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432 + END. # {'\u0440', '\u043c', '\u0443', '\u043b', '\u0430', '', '\u044b'} vocab = set(t for word in tokenized for t in word)    # 3. \u041f\u044b\u0442\u0430\u0435\u043c\u0441\u044f \u0441\u043e\u0437\u0434\u0430\u0442\u044c \u043d\u043e\u0432\u044b\u0439 \u0442\u043e\u043a\u0435\u043d num_merges \u0440\u0430\u0437. for _ in range(num_merges):    # 3.1 \u041f\u043e\u0434\u0441\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u043c \u0447\u0430\u0441\u0442\u043e\u0442\u044b \u0432\u0441\u0435\u0445 \u0441\u043e\u0441\u0435\u0434\u043d\u0438\u0445 \u043f\u0430\u0440 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0432\u043e \u0432\u0441\u0451\u043c \u043a\u043e\u0440\u043f\u0443\u0441\u0435. # \u0411\u0435\u0440\u0451\u043c 2 \u0441\u043e\u0441\u0435\u0434\u043d\u0438\u0445 \u0442\u043e\u043a\u0435\u043d\u0430 (\u0438\u0437\u043d\u0430\u0447\u0430\u043b\u044c\u043d\u043e \u044d\u0442\u043e \u043f\u0440\u043e\u0441\u0442\u043e \u0441\u0438\u043c\u0432\u043e\u043b\u044b) \u0432 \u043a\u0430\u0436\u0434\u043e\u043c \u0441\u043b\u043e\u0432\u0435, \u0441\u043e\u0435\u0434\u0438\u043d\u044f\u0435\u043c. # \u041f\u0440\u0438\u043c\u0435\u0440 \u043f\u0435\u0440\u0432\u043e\u0439 \u043f\u0440\u043e\u0445\u043e\u0434\u043a\u0438: # \u041f\u0435\u0440\u0432\u043e\u0435 \u0441\u043b\u043e\u0432\u043e: # word = ['\u043c', '\u0430', '\u043c', '\u0430', ''] # list(zip(word, word[1:])) = [('\u043c', '\u0430'), ('\u0430', '\u043c'), ('\u043c', '\u0430'), ('\u0430', '')] # \u041f\u043e\u0441\u043b\u0435 \u043f\u0435\u0440\u0432\u043e\u0439 \u043f\u0440\u043e\u0445\u043e\u0434\u043a\u0438 \u0438\u0437 \u0432\u0441\u0435\u0445 \u0441\u043b\u043e\u0432 \u043f\u043e\u043b\u0443\u0447\u0438\u043c: # pairs = Counter({('\u043c', '\u0430'): 2, ('\u0430', '\u043c'): 2, ('\u0430', ''): 2, ('\u043c', '\u044b'): 1, ('\u044b', '\u043b'): 1, ('\u043b', '\u0430'): 1, ('\u0440', '\u0430'): 1, ('\u043c', '\u0443'): 1, ('\u0443', ''): 1}) # \u041c\u044b \u0432\u0438\u0434\u0438\u043c, \u0447\u0442\u043e ('\u043c', '\u0430') \u0438\u0434\u0451\u0442 \u043f\u0435\u0440\u0432\u044b\u043c \u0438 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f 2 \u0440\u0430\u0437\u0430 pairs = Counter() for word in tokenized: pairs.update(zip(word, word[1:]))    # 3.2 \u0415\u0441\u043b\u0438 \u043f\u0430\u0440 \u0431\u043e\u043b\u044c\u0448\u0435 \u043d\u0435\u0442 (\u0432\u0441\u0435 \u0441\u043b\u043e\u0432\u0430 \u0434\u043b\u0438\u043d\u043e\u0439 1) \u2014 \u0432\u044b\u0445\u043e\u0434\u0438\u043c \u0434\u043e\u0441\u0440\u043e\u0447\u043d\u043e # \u042d\u0442\u043e \u043f\u0440\u043e\u0438\u0441\u0445\u043e\u0434\u0442, \u043a\u043e\u0433\u0434\u0430 \u041a\u0410\u0416\u0414\u041e\u0415 \u0441\u043b\u043e\u0432\u043e \u0432 \u043f\u0435\u0440\u0435\u0434\u0430\u043d\u043d\u043e\u043c \u0442\u0435\u043a\u0441\u0442\u0435 \u0441\u0442\u0430\u043b\u043e \u0446\u0435\u043b\u043c\u044b \u0442\u043e\u043a\u0435\u043d\u043e\u043c if not pairs: break    # 3.3 \u0411\u0435\u0440\u0451\u043c \u0441\u0430\u043c\u0443\u044e \u0447\u0430\u0441\u0442\u0443\u044e \u043f\u0430\u0440\u0443. Counter.most_common(1)[0] \u2192 (\u043f\u0430\u0440\u0430, \u0447\u0430\u0441\u0442\u043e\u0442\u0430) # \u0412 \u043f\u0435\u0440\u0432\u043e\u0439 \u043f\u0440\u043e\u0445\u043e\u0434\u043a\u0435 \u044d\u0442\u043e ('\u043c', '\u0430') best_pair, best_freq = pairs.most_common(1)[0]    # 3.4 \u0421\u043e\u0437\u0434\u0430\u0451\u043c \u043d\u043e\u0432\u044b\u0439 \u0442\u043e\u043a\u0435\u043d, \u0441\u043a\u043b\u0435\u0438\u0432 \u0434\u0432\u0430 \u0441\u0442\u0430\u0440\u044b\u0445 (\u00ab\u043c\u00bb + \u00ab\u0430\u00bb \u2192 \u00ab\u043c\u0430\u00bb) merged_token = \"\".join(best_pair) vocab.add(merged_token) # \u043a\u043b\u0430\u0434\u0451\u043c \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432    # 3.5 \u041f\u0440\u043e\u0445\u043e\u0434\u0438\u043c \u043f\u043e \u043a\u0430\u0436\u0434\u043e\u043c\u0443 \u0441\u043b\u043e\u0432\u0443 \u0438 \u0441\u043a\u043b\u0435\u0438\u0432\u0430\u0435\u043c \u043d\u0430\u0439\u0434\u0435\u043d\u043d\u0443\u044e \u043f\u0430\u0440\u0443. # \u0412 \u043f\u0435\u0440\u0432\u043e\u0439 \u043f\u0440\u043e\u0445\u043e\u0434\u043a\u0435: # [['\u043c', '\u0430', '\u043c', '\u0430', ''], ['\u043c', '\u044b', '\u043b', '\u0430', ''], ['\u0440', '\u0430', '\u043c', '\u0443', '']] \u2192\u2192\u2192\u2192 [['\u043c\u0430', '\u043c\u0430', ''], ['\u043c', '\u044b', '\u043b', '\u0430', ''], ['\u0440', '\u0430', '\u043c', '\u0443', '']] tokenized = [ merge_word(word, best_pair, merged_token) for word in tokenized ]    # \u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u0440\u0430\u0441\u0441\u043c\u043e\u0440\u0438\u043c, \u043a\u0430\u043a \u0431\u0443\u0434\u0435\u0442 \u0432\u044b\u0433\u043b\u044f\u0434\u0435\u0442\u044c \u043d\u0430\u0448\u0430 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u0430\u044f tokenized \u0432 \u043a\u0430\u0436\u0434\u043e\u043c \u043f\u0440\u043e\u0445\u043e\u0434\u0435 # [['\u043c\u0430', '\u043c\u0430', ''], ['\u043c', '\u044b', '\u043b', '\u0430', ''], ['\u0440', '\u0430', '\u043c', '\u0443', '']] # [['\u043c\u0430\u043c\u0430', ''], ['\u043c', '\u044b', '\u043b', '\u0430', ''], ['\u0440', '\u0430', '\u043c', '\u0443', '']] # [['\u043c\u0430\u043c\u0430'], ['\u043c', '\u044b', '\u043b', '\u0430', ''], ['\u0440', '\u0430', '\u043c', '\u0443', '']] # [['\u043c\u0430\u043c\u0430'], ['\u043c\u044b', '\u043b', '\u0430', ''], ['\u0440', '\u0430', '\u043c', '\u0443', '']] # [['\u043c\u0430\u043c\u0430'], ['\u043c\u044b\u043b', '\u0430', ''], ['\u0440', '\u0430', '\u043c', '\u0443', '']] # [['\u043c\u0430\u043c\u0430'], ['\u043c\u044b\u043b\u0430', ''], ['\u0440', '\u0430', '\u043c', '\u0443', '']] # [['\u043c\u0430\u043c\u0430'], ['\u043c\u044b\u043b\u0430'], ['\u0440', '\u0430', '\u043c', '\u0443', '']] # [['\u043c\u0430\u043c\u0430'], ['\u043c\u044b\u043b\u0430'], ['\u0440\u0430', '\u043c', '\u0443', '']] # [['\u043c\u0430\u043c\u0430'], ['\u043c\u044b\u043b\u0430'], ['\u0440\u0430\u043c', '\u0443', '']] # [['\u043c\u0430\u043c\u0430'], ['\u043c\u044b\u043b\u0430'], ['\u0440\u0430\u043c\u0443', '']] # [['\u043c\u0430\u043c\u0430'], ['\u043c\u044b\u043b\u0430'], ['\u0440\u0430\u043c\u0443']]    # \u0418\u0437-\u0437\u0430 \u0442\u043e\u0433\u043e, \u0447\u0442\u043e \u0443 \u043d\u0430\u0441 \u0432\u0441\u0435\u0433\u043e \u043e\u0434\u043d\u0430 \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u0430\u044f \u043f\u0430\u0440\u0430, \u043c\u044b \u0431\u0443\u0434\u0435\u0442 \u0441\u043a\u043b\u0435\u0438\u0432\u0430\u0442\u044c \u043f\u043e\u0441\u043b\u0435 \"\u043c\u0430\" \u0442\u043e\u043a\u0435\u043d\u044b \u0434\u0440\u0443\u0433 \u0441 \u0434\u0440\u0443\u0433\u043e\u043c \u043f\u043e \u043f\u043e\u0440\u044f\u0434\u043a\u0443.    # \u041d\u0430 \u0434\u0430\u043d\u043d\u043e\u043c \u043f\u0440\u0438\u043c\u0435\u0440\u0435 \u0432\u0438\u0434\u043d\u043e, \u043a\u0430\u043a \u043f\u043e\u0441\u0442\u0435\u043f\u0435\u043d\u043d\u043e \u0442\u043e\u043a\u0435\u043d\u044b \u0441\u043a\u043b\u0435\u0435\u0432\u0430\u044e\u0442\u0441\u044f, \u043f\u043e\u043a\u0430 \u043c\u044b \u043d\u0435 \u043f\u043e\u043b\u0443\u0447\u0438\u043c \u0438\u0437 \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0441\u043b\u043e\u0432\u0430 \u0442\u043e\u043a\u0435\u043d. # \u0415\u0441\u043b\u0438 \u0436\u0435 \u043c\u044b \u0431\u0443\u0434\u0435\u043c \u0431\u0440\u0430\u0442\u044c \u0431\u043e\u043b\u0435\u0435 \u0431\u043e\u043b\u044c\u0448\u0438\u0435 \u0442\u0435\u043a\u0441\u0442\u044b, \u0430 \u043d\u0435 3 \u0441\u043b\u043e\u0432\u0430, \u0442\u043e \u0431\u0443\u0434\u0435\u0442\u043c \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u044c \u0437\u0430 \u043e\u0434\u0438\u043d \u043f\u0440\u043e\u0445\u043e\u0434 \u043d\u0435 \u043f\u043e 1 \u0438\u043b\u0438 2 \u0441\u0445\u043e\u0436\u0438\u0445 \u0442\u043e\u043a\u0435\u043d\u0430, \u0442\u0438\u043f\u0430 \"\u043c\u0430\", \u0430 \u0441\u0440\u0430\u0437\u0443 \u043f\u043e 1000 \u0438\u043b\u0438 100 000, \u0430 \u044d\u0442\u043e \u0441\u043e\u0432\u0441\u0435\u043c \u0434\u0443\u0440\u0433\u0438\u0435 \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u044b. # \u0418 \u043a\u043e\u0433\u0434\u0430 \u0442\u0435\u0441\u0442\u0430 \u0442\u0430\u043a \u043c\u043d\u043e\u0433\u043e, \u0442\u043e \u0447\u0442\u043e\u0431\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0442\u043e\u043a\u0435\u043d \u0440\u0430\u0432\u043d\u044b\u0439 \u0441\u043b\u043e\u0432\u0443, \u043f\u043e\u043d\u0430\u0434\u043e\u0431\u0438\u0442\u0441\u044f \u043d\u0435\u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e \u043c\u043d\u043e\u0433\u043e \u0440\u0430\u0437 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u043d\u0430\u0448 \u0442\u0435\u043a\u0441\u0442! # \u0410 \u044d\u0442\u043e \u0437\u0430\u043d\u0438\u043c\u0435\u0442 \u043c\u043d\u043e\u0433\u043e \u0432\u0440\u0435\u043c\u0435\u043d\u0438!!!      return vocab     # ------------------------------------------------------------ # \u0414\u0435\u043c\u043e\u043d\u0441\u0442\u0440\u0430\u0446\u0438\u044f # ------------------------------------------------------------ if __name__ == \"__main__\": sample_text = \"\u043c\u0430\u043c\u0430 \u043c\u044b\u043b\u0430 \u0440\u0430\u043c\u0443\" dictionary = bpe_train(sample_text, num_merges=10)    # \u0412\u044b\u0432\u043e\u0434\u0438\u043c \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043e\u0442\u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u043c \u0434\u043b\u044f \u043d\u0430\u0433\u043b\u044f\u0434\u043d\u043e\u0441\u0442\u0438 print(sorted(dictionary)) <\/code><\/pre>\n<p>\u042f \u043f\u043e\u0441\u0442\u0430\u0440\u0430\u043b\u0441\u044f \u043a\u0430\u043a \u043c\u043e\u0436\u043d\u043e \u043f\u043e\u0434\u0440\u043e\u0431\u043d\u0435\u0435 \u043f\u0440\u043e\u043a\u043e\u043c\u043c\u0435\u043d\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043a\u043e\u0434, \u0447\u0442\u043e\u0431\u044b \u0431\u044b\u043b\u043e \u043f\u043e\u043d\u044f\u0442\u043d\u043e \u0447\u0442\u043e \u0438 \u0433\u0434\u0435 \u043f\u0440\u043e\u0438\u0441\u0445\u043e\u0434\u0438\u0442.<\/p>\n<p>\u041f\u043e \u0438\u0442\u043e\u0433\u0443, \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432, \u0433\u0434\u0435 \u043a\u0430\u0436\u0434\u044b\u0439 \u0442\u043e\u043a\u0435\u043d, \u044d\u0442\u043e \u0446\u0435\u043b\u043e\u0435 \u0441\u043b\u043e\u0432\u043e.<br \/>\u041d\u043e \u0434\u043e\u0431\u0438\u0442\u044c\u0441\u044f &#171;\u0441\u043b\u043e\u0432\u043e = \u0442\u043e\u043a\u0435\u043d&#187; \u0443 \u043d\u0430\u0441 \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u043e\u0441\u044c \u0442\u043e\u043b\u044c\u043a\u043e \u0438\u0437-\u0437\u0430 \u043a\u0440\u0430\u0439\u043d\u0435 \u043c\u0430\u043b\u0435\u043d\u044c\u043a\u043e\u0433\u043e \u043e\u0431\u044a\u0451\u043c\u0430 \u0434\u0430\u043d\u043d\u044b\u0445.<\/p>\n<p>\u0410 \u0434\u0430\u0432\u0430\u0439\u0442\u0435 \u043f\u043e\u043f\u0440\u043e\u0431\u0443\u0435\u043c \u043f\u0440\u043e\u0432\u0435\u0440\u043d\u0443\u0442\u044c \u0442\u043e\u0436\u0435 \u0441\u0430\u043c\u043e\u0435, \u0442\u043e\u043b\u044c\u043a\u043e \u0442\u0435\u043f\u0435\u0440\u044c \u043c\u044b \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0438\u043c \u0441\u044e\u0434\u0430 \u0444\u0430\u0439\u043b \u0441 \u0431\u043e\u043b\u044c\u0448\u0438\u043c \u043e\u0431\u044a\u0451\u043c\u043e\u043c \u0434\u0430\u043d\u043d\u044b\u0445.<br \/>\u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u043c\u044b \u043f\u043e \u0410\u041f\u0418 \u0437\u0430\u0431\u0435\u0440\u0451\u043c \u0433\u043e\u0442\u043e\u0432\u044b\u0439 \u043d\u0430\u0431\u043e\u0440 \u0440\u0443\u0441\u0441\u043a\u043e\u0433\u043e \u0442\u0435\u043a\u0441\u0442\u0430 \u0438\u0437 \u043e\u0442\u043a\u0440\u044b\u0442\u043e\u0433\u043e \u0438\u0441\u0442\u043e\u0447\u043d\u0438\u043a\u0430:<br \/><a href=\"https:\/\/datasets-server.huggingface.co\/splits?dataset=Egor-AI\/Dataset_of_Russian_thinking\" rel=\"noopener noreferrer nofollow\">https:\/\/datasets-server.huggingface.co\/splits?dataset=Egor-AI\/Dataset_of_Russian_thinking<\/a><\/p>\n<p>\u042f \u043f\u043e\u0448\u0451\u043b \u043a Chat GPT \u0438 \u043f\u043e\u043f\u0440\u043e\u0441\u0438\u043b \u0435\u0433\u043e \u043f\u0435\u0440\u0435\u0434\u0435\u043b\u0430\u0442\u044c \u043a\u043e\u0434, \u0447\u0442\u043e\u0431\u044b \u043c\u044b \u043c\u043e\u0433\u043b\u0438 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0434\u0430\u043d\u043d\u044b\u0435 \u0438\u0437 \u0432\u043d\u0435\u0448\u043d\u0435\u0433\u043e \u0438\u0441\u0442\u043e\u0447\u043d\u0438\u043a\u0430 \u0438 \u0441\u043e\u0437\u0434\u0430\u0442\u044c \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u043d\u0435\u0433\u043e \u043d\u0430\u0448 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432.<br \/>\u0422\u0430\u043a \u0436\u0435, \u043f\u043e\u0441\u043b\u0435 \u0442\u0435\u0441\u0442\u043e\u0432\u044b\u0445 \u0437\u0430\u043f\u0443\u0441\u043a\u043e\u0432, \u044f \u043f\u043e\u043f\u0440\u043e\u0441\u0438\u043b \u0434\u043e\u043a\u0438\u043d\u0443\u0442\u044c \u0442\u0443\u0434\u0430 \u043c\u0443\u043b\u044c\u0442\u0438\u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0438\u043d\u0433, \u0447\u0442\u043e\u0431\u044b \u0432\u0441\u0451 \u0440\u0430\u0431\u043e\u0442\u0430\u043b\u043e \u0431\u044b\u0441\u0442\u0440\u0435\u0435.<br \/><em>!!! \u0414\u0430\u043d\u043d\u044b\u0439 \u043a\u043e\u0434 \u0431\u0443\u0434\u0435\u0442 \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u043e\u0447\u0435\u043d\u044c \u0434\u043e\u043b\u0433\u043e! \u041f\u043e\u043a\u0430 \u043e\u043d \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442, \u0447\u0438\u0442\u0430\u0439\u0442\u0435 \u0434\u0430\u043b\u044c\u0448\u0435 \u043f\u0440\u0438\u0447\u0438\u043d\u0443 \u0442\u0430\u043a\u043e\u0439 \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u043e\u0441\u0442\u0438, \u0435\u0441\u043b\u0438 \u0432\u044b \u0435\u0433\u043e \u043a\u043e\u043d\u0435\u0447\u043d\u043e \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u043b\u0438 \u0443 \u0441\u0435\u0431\u044f.<\/em><br \/>\u041c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 \u0442\u0430\u043a\u043e\u0439 \u043a\u043e\u0434:<\/p>\n<pre><code>\"\"\" \u041f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u0430\u044f \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0430 \u0440\u0443\u0441\u0441\u043a\u043e\u0433\u043e \u043a\u043e\u0440\u043f\u0443\u0441\u0430 (HF datasets-server) + \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 BPE.  \u2022 I\/O-\u0443\u0441\u043a\u043e\u0440\u0435\u043d\u0438\u0435: ThreadPoolExecutor (DL_WORKERS \u043f\u043e\u0442\u043e\u043a\u043e\u0432). \u2022 \u041f\u043e\u0440\u044f\u0434\u043e\u043a \u0441\u0442\u0440\u043e\u043a \u0433\u0430\u0440\u0430\u043d\u0442\u0438\u0440\u043e\u0432\u0430\u043d: \u043f\u0438\u0448\u0435\u043c \u0432 \u0444\u0430\u0439\u043b \u0441\u0442\u0440\u043e\u0433\u043e \u043f\u043e offset\u2019\u0443. \u2022 Robust: \u043d\u0435\u0442 \u043f\u043e\u043b\u044f num_examples \u2192 \u0433\u0440\u0443\u0437\u0438\u043c \u00ab\u0434\u043e \u043f\u0443\u0441\u0442\u043e\u0433\u043e \u043e\u0442\u0432\u0435\u0442\u0430\u00bb. \u2022 Python 3.9, stdlib + requests.  pip install requests \"\"\"  import os, sys, json, time, math, random, threading from concurrent.futures import ThreadPoolExecutor, as_completed from typing import Optional, List, Dict, Tuple from collections import Counter from multiprocessing import Pool, cpu_count import requests  # \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 \u043d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0438 \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 DATASET, SPLIT, TEXT_KEY = \"Egor-AI\/Dataset_of_Russian_thinking\", \"train\", \"prompt\" ROWS          = None      # None \u2192 \u0432\u0435\u0441\u044c \u0441\u043f\u043b\u0438\u0442 BATCH_API     = 100        # \u2264100 \u0441\u0442\u0440\u043e\u043a \u0432 \u043e\u0434\u043d\u043e\u043c \u0437\u0430\u043f\u0440\u043e\u0441\u0435 DL_WORKERS    = 10         # \u043f\u043e\u0442\u043e\u043a\u0438 \u0434\u043b\u044f \u0441\u043a\u0430\u0447\u0438\u0432\u0430\u043d\u0438\u044f MERGES        = 100_000   # BPE-\u0441\u043b\u0438\u044f\u043d\u0438\u0439 END           = \"\" DATA_FILE     = \"corpus.txt\" VOCAB_FILE    = \"vocab.json\" PROC_WORKERS  = cpu_count()  # \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 \u043d\u0430\u0434\u0451\u0436\u043d\u044b\u0439 GET-JSON \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 def get_json(url: str, tries: int = 10, base: float = 1.5, tout: float = 30):     hdr = {\"Accept\": \"application\/json\", \"User-Agent\": \"mini-bpe\/0.3\"}     for attempt in range(1, tries + 1):         r = requests.get(url, timeout=tout, headers=hdr)         if r.ok and \"application\/json\" in r.headers.get(\"Content-Type\", \"\"):             try: return r.json()             except ValueError: pass         wait = base * 2**(attempt-1) + random.uniform(0, 0.3)         print(f\"\u26a0 {r.status_code} {len(r.text)}B  try {attempt}\/{tries}\", file=sys.stderr)         time.sleep(wait)     raise RuntimeError(f\"JSON failed: {url}\")  # \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 helper: size \u0441\u043f\u043b\u0438\u0442\u0430 (\u0435\u0441\u043b\u0438 \u0435\u0441\u0442\u044c) \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 def split_size() -&amp;gt; Optional[int]:     meta = get_json(f\"https:\/\/datasets-server.huggingface.co\/splits?dataset={DATASET}\")     for s in meta[\"splits\"]:         if s[\"split\"] == SPLIT:             return next((int(s[k]) for k in (\"num_examples\", \"num_rows\", \"row_count\") if k in s), None)     return None  # \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 \u0441\u043a\u0430\u0447\u0438\u0432\u0430\u0435\u043c \u043e\u0434\u0438\u043d \u0431\u0430\u0442\u0447 \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 def fetch_batch(cfg: str, offset: int, length: int) -&amp;gt; Tuple[int, List[str]]:     url = (f\"https:\/\/datasets-server.huggingface.co\/rows\"            f\"?dataset={DATASET}&amp;amp;config={cfg}&amp;amp;split={SPLIT}\"            f\"&amp;amp;offset={offset}&amp;amp;length={length}\")     rows = get_json(url).get(\"rows\", [])     lines = [str(r[\"row\"][TEXT_KEY]).replace(\"\\n\", \" \") for r in rows if r[\"row\"][TEXT_KEY]]     return offset, lines  # \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 \u043f\u043e\u0442\u043e\u043a\u043e\u0432\u0430\u044f \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0430 \u043a\u043e\u0440\u043f\u0443\u0441\u0430 \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 def load_corpus(path: str) -&amp;gt; List[str]:     if os.path.isfile(path):         print(\"\u26a1 corpus.txt \u043d\u0430\u0439\u0434\u0435\u043d\")         return [ln.rstrip(\"\\n\") for ln in open(path, encoding=\"utf-8\")]      cfg = get_json(f\"https:\/\/datasets-server.huggingface.co\/splits?dataset={DATASET}\"                    )[\"splits\"][0][\"config\"]     est_total = ROWS or split_size()     print(f\"\u21e3 \u0441\u043a\u0430\u0447\u0438\u0432\u0430\u0435\u043c{' \u2248'+str(est_total) if est_total else ''} \u0441\u0442\u0440\u043e\u043a ({DL_WORKERS} \u043f\u043e\u0442\u043e\u043a\u043e\u0432)\u2026\")      results: Dict[int, List[str]] = {}     next_offset = 0     fetched = 0     t0 = time.time()     lock = threading.Lock()      def submit(off):         return pool.submit(fetch_batch, cfg, off, BATCH_API)      with ThreadPoolExecutor(max_workers=DL_WORKERS) as pool, \\          open(path, \"w\", encoding=\"utf-8\") as fout:          futures = {submit(next_offset): next_offset}         next_offset += BATCH_API          while futures:             done_future = next(as_completed(futures))             off, lines = done_future.result()             futures.pop(done_future)              with lock:                 results[off] = lines                 # \u043f\u0438\u0448\u0435\u043c \u043f\u043e\u0434\u0440\u044f\u0434, \u043a\u0430\u043a \u0442\u043e\u043b\u044c\u043a\u043e \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0430 \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0430\u044f \u0447\u0430\u0441\u0442\u044c                 write_off = min(results)                 while write_off in results:                     for ln in results.pop(write_off):                         fout.write(ln + \"\\n\")                     fetched += BATCH_API                     write_off += BATCH_API              # \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0435\u043c \u043d\u043e\u0432\u044b\u0439 \u0437\u0430\u043f\u0440\u043e\u0441, \u043f\u043e\u043a\u0430 \u043d\u0435 \u043f\u0440\u0435\u0432\u044b\u0441\u0438\u043b\u0438 ROWS (\u0438\u043b\u0438 \u043f\u043e\u043a\u0430 API \u043d\u0435 \u043f\u0443\u0441\u0442\u043e\u0439)             if ROWS is None or next_offset &amp;lt; ROWS:                 futures[submit(next_offset)] = next_offset                 next_offset += BATCH_API              if fetched and fetched % 1000 == 0:                 speed = fetched \/ max(time.time()-t0, 1)                 print(f\"  {fetched} \u0441\u0442\u0440\u043e\u043a ({speed:.1f}\/s)\")              # early-stop, \u0435\u0441\u043b\u0438 offset \u0432\u0435\u0440\u043d\u0443\u043b \u043f\u0443\u0441\u0442\u043e\u0439 \u0441\u043f\u0438\u0441\u043e\u043a             if not lines and ROWS is None:                 break      print(f\"\u2705 corpus.txt \u0433\u043e\u0442\u043e\u0432 ({fetched} \u0441\u0442\u0440\u043e\u043a, {time.time()-t0:.1f}s)\")     return [ln.rstrip(\"\\n\") for ln in open(path, encoding=\"utf-8\")]  # \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 BPE-\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 (\u043a\u0430\u043a \u0440\u0430\u043d\u044c\u0448\u0435) \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 def chunk(lst, n): size = math.ceil(len(lst)\/n); return [lst[i*size:(i+1)*size] for i in range(n)] def pairs_counter(part):     c = Counter()     for w in part:         c.update(zip(w, w[1:]))     return c def merge_word(tokens, pair, merged):     out,i=[],0     while i &amp;lt; len(tokens):         if i &amp;lt; len(tokens)-1 and (tokens[i],tokens[i+1])==pair:             out.append(merged); i+=2         else:             out.append(tokens[i]); i+=1     return out def bpe_train(text: str, merges: int, workers: int):     tokd=[list(w)+[END] for w in text.split()]     vocab={t for w in tokd for t in w}     with Pool(workers) as pool:         for step in range(1, merges+1):             pairs=Counter()             for pc in pool.map(pairs_counter, chunk(tokd, workers)):                 pairs.update(pc)             if not pairs: break             best,freq=pairs.most_common(1)[0]             m=\"\".join(best); vocab.add(m)             tokd=pool.starmap(merge_word, [(w,best,m) for w in tokd], chunksize=4096)             if step%100==0 or step in (1, merges):                 print(f\"  [{step}\/{merges}] +{m} freq={freq}\")     return sorted(vocab)  def bpe_encode(text, vocab):     sv=sorted(vocab,key=len,reverse=True); out=[]     for w in text.split():         w+=END; i=0         while i&lt;len(w):             for t in sv:                 if w.startswith(t,i): out.append(t); i+=len(t); break             else: out.append(w[i]); i+=1     return out   if __name__ == \"__main__\":     corpus_lines = load_corpus(DATA_FILE)     corpus = \" \".join(corpus_lines)      print(\"\\n\u2699\ufe0f  \u043e\u0431\u0443\u0447\u0430\u0435\u043c BPE \u2026\")     vocab = bpe_train(corpus, MERGES, PROC_WORKERS)      with open(VOCAB_FILE, \"w\", encoding=\"utf-8\") as f:         json.dump(vocab, f, ensure_ascii=False)     print(f\"\\n\u2705 \u0441\u043b\u043e\u0432\u0430\u0440\u044c {len(vocab)} \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u2192 {VOCAB_FILE}\")      example = \"\u041f\u0440\u0438\u043c\u0435\u0440: \u043c\u0430\u043c\u0430 \u043c\u044b\u043b\u0430 \u0440\u0430\u043c\u0443\"     print(\"\\n\ud83e\uddea\", example)     print(bpe_encode(example.lower(), vocab))<\/code><\/pre>\n<p>\u0418\u0437-\u0437\u0430 \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u044f \u043f\u043e \u0410\u041f\u0418, \u0434\u0430\u043d\u043d\u044b\u0435 \u044f \u043f\u043e\u043b\u0443\u0447\u0430\u043b \u043e\u043a\u043e\u043b\u043e 1,5 \u0447\u0430\u0441\u043e\u0432.<br \/>\u041f\u0440\u043e \u0441\u0430\u043c\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u044f \u043c\u043e\u043b\u0447\u0443&#8230;<br \/>\u0418 \u0447\u0435\u0441\u0442\u043d\u043e \u0433\u043e\u0432\u043e\u0440\u044f, \u043d\u0430 \u043f\u043e\u043b\u043d\u043e\u043c \u043e\u0431\u044a\u0451\u043c\u0435 \u0434\u0430\u043d\u043d\u044b\u0445, \u044f \u0442\u0430\u043a \u0438 \u043d\u0435 \u0434\u043e\u0436\u0434\u0430\u043b\u0441\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f, \u043d\u0430 \u0434\u0435\u0441\u044f\u0442\u043e\u0439 \u0447\u0430\u0441\u0442\u0438 \u0434\u0430\u043d\u043d\u044b\u0445 \u044d\u0442\u043e \u0437\u0430\u043d\u044f\u043b\u043e \u043e\u043a\u043e\u043b\u043e 12 \u0447\u0430\u0441\u043e\u0432.<br \/>\u0410 \u0437\u0430 2 \u0447\u0430\u0441\u0430 \u043d\u0430 \u043f\u043e\u043b\u043d\u043e\u043c \u043e\u0431\u044a\u0451\u043c\u0435 \u0443 \u043c\u0435\u043d\u044f \u0432\u044b\u043f\u043e\u043b\u043d\u0438\u043b\u0441\u044f 0,5% \u043e\u0442 \u043e\u0431\u0449\u0435\u0433\u043e \u043e\u0431\u044a\u0451\u043c\u0430.<\/p>\n<p>\u0427\u0442\u043e\u0431\u044b \u044d\u0442\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u043b\u043e, \u0435\u0441\u0442\u044c \u043f\u0438\u0442\u044c \u043d\u0435 \u043f\u0440\u043e\u0441\u0438\u043b\u043e, \u044f \u0437\u0430\u043a\u0438\u043d\u0443\u043b \u044d\u0442\u043e \u0432 Google Colab \u0438 \u043e\u043d\u043e \u0443 \u043c\u0435\u043d\u044f \u0442\u0430\u043c \u043a\u0440\u0443\u0442\u0438\u043b\u043e\u0441\u044c \u0442\u0438\u0445\u043e\u043d\u0435\u0447\u043a\u043e \u043d\u0430 \u0444\u043e\u043d\u0435.<\/p>\n<p>\u0412 \u0438\u0442\u043e\u0433\u0435, \u044f \u043f\u043e\u043b\u0443\u0447\u0438\u043b &#8230;.<br \/><code>['\u043f\u0440\u0438\u043c\u0435\u0440', ':', '\u043c\u0430\u043c\u0430', '\u043c\u044b\u043b\u0430', '\u0440\u0430\u043c', '\u0443']<\/code><\/p>\n<p>\u0414\u0430\u0436\u0435 \u043d\u0430 1\/10 \u0434\u0430\u043d\u043d\u044b\u0445 \u0432\u044b\u0448\u043b\u043e \u0445\u043e\u0440\u043e\u0448\u043e!<\/p>\n<p>\u041f\u043e \u0445\u0430\u0440\u0434\u043a\u043e\u0440\u0443 \u043f\u0440\u043e\u0448\u043b\u0438\u0441\u044c, \u0443\u0432\u0438\u0434\u0435\u043b\u0438 \u043a\u0430\u043a \u044d\u0442\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0432 \u0441\u0430\u043c\u043e\u043c \u043d\u0438\u0437\u0443.<br \/>\u0422\u0435\u043f\u0435\u0440\u044c \u0434\u0430\u0432\u0430\u0439\u0442\u0435 \u043f\u043e\u043f\u0440\u043e\u0431\u0443\u0435\u043c \u0433\u043e\u0442\u043e\u0432\u044b\u0435 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u044b \u0434\u043b\u044f \u0441\u043e\u0437\u0434\u0430\u043d\u0438\u044f \u0442\u043e\u043a\u0435\u043d\u0430.<\/p>\n<pre><code>#!\/usr\/bin\/env python3 # -*- coding: utf-8 -*- \"\"\" \u0420\u0443\u0441\u0441\u043a\u0438\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0441\u0443\u0431\u0441\u043b\u043e\u0432 \u0441 \u00ab\u043d\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u044b\u043c\u00bb BPE (\u043d\u0435 byte-level).  * \u043a\u043e\u0440\u043f\u0443\u0441 \u0431\u0435\u0440\u0451\u043c \u0447\u0435\u0440\u0435\u0437 Hugging Face `datasets`; * \u0442\u0440\u0435\u043d\u0438\u0440\u0443\u0435\u043c BPE \u043e\u0431\u044b\u0447\u043d\u043e\u0433\u043e \u0432\u0438\u0434\u0430 (\u0441\u0438\u043c\u0432\u043e\u043b\u044c\u043d\u043e-Unicode), \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0442\u043e\u043a\u0435\u043d\u044b \u0447\u0438\u0442\u0430\u0435\u043c\u044b:     \u2581\u041f\u0440\u0438\u043c\u0435\u0440, \u2581\u043c\u0430\u043c\u0430, \u2581\u043c\u044b, \u043b\u0430 \u2026 * \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u043f\u043e\u043f\u0443\u043b\u044f\u0440\u043d\u0443\u044e \u0431\u0435\u0441\u043f\u043b\u0430\u0442\u043d\u0443\u044e \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443 `tokenizers`   \u2192 \u0431\u044b\u0441\u0442\u0440\u0430\u044f \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043a\u0430 \u043d\u0430 CPU, \u0431\u0435\u0437 \u0432\u043d\u0435\u0448\u043d\u0438\u0445 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0435\u0439.  pip install datasets tokenizers \"\"\"  from pathlib import Path from datasets import load_dataset, disable_caching from tokenizers import Tokenizer, models, trainers, pre_tokenizers, decoders, normalizers  # \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 DATASET      = \"Egor-AI\/Dataset_of_Russian_thinking\" SPLIT        = \"train\" TEXT_COL     = \"prompt\" ROWS         = None               # None \u2192 \u0432\u0435\u0441\u044c \u0441\u043f\u043b\u0438\u0442 VOCAB_SIZE   = 1_000_000 MIN_FREQ     = 2                  # \u043e\u0442\u0431\u0440\u043e\u0441\u0438\u0442\u044c \u0441\u043e\u0432\u0441\u0435\u043c \u0440\u0435\u0434\u043a\u0438\u0435 CORPUS_PATH  = Path(\"corpus.txt\") TOK_DIR      = Path(\"ru_bpe\")     # \u0441\u043e\u0445\u0440\u0430\u043d\u0438\u0442 vocab.json + merges.txt + tokenizer.json TOK_DIR.mkdir(exist_ok=True)  # \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 1. \u043a\u043e\u0440\u043f\u0443\u0441 \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 if CORPUS_PATH.exists():     print(\"\u26a1 corpus.txt \u043d\u0430\u0439\u0434\u0435\u043d \u2014 \u043f\u0440\u043e\u043f\u0443\u0441\u043a\u0430\u0435\u043c \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0443\") else:     print(\"\u21e3 \u0441\u043a\u0430\u0447\u0438\u0432\u0430\u0435\u043c \u043a\u043e\u0440\u043f\u0443\u0441 \u2026\")     disable_caching()                       # \u043d\u0435 \u043f\u043b\u043e\u0434\u0438\u043c ~\/.cache\/huggingface     ds = load_dataset(DATASET, split=SPLIT, streaming=True)     with CORPUS_PATH.open(\"w\", encoding=\"utf-8\") as f:         for i, row in enumerate(ds, 1):             txt = str(row.get(TEXT_COL, \"\")).replace(\"\\n\", \" \")             if txt:                 f.write(txt + \"\\n\")             if ROWS and i &gt;= ROWS:                 break             if i % 1_000 == 0:                 print(f\"  {i} \u0441\u0442\u0440\u043e\u043a\")     size_mb = CORPUS_PATH.stat().st_size \/ 1e6     print(f\"\u2705 corpus.txt \u0441\u043e\u0445\u0440\u0430\u043d\u0451\u043d ({size_mb:.1f} MB)\")  # \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 2. \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 BPE \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 print(\"\\n\u2699\ufe0f  \u0443\u0447\u0438\u043c \u0441\u0438\u043c\u0432\u043e\u043b\u044c\u043d\u044b\u0439 BPE \u2026\") tokenizer = Tokenizer(models.BPE(unk_token=\"[UNK]\")) tokenizer.normalizer   = normalizers.NFKC()              # \u0431\u0430\u0437\u043e\u0432\u0430\u044f \u0443\u043d\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u044f \u044e\u043d\u0438\u043a\u043e\u0434\u0430 tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()    # \u0440\u0435\u0436\u0435\u043c \u043f\u043e \u043f\u0440\u043e\u0431\u0435\u043b\u0443 trainer = trainers.BpeTrainer(     vocab_size=VOCAB_SIZE,     min_frequency=MIN_FREQ,     special_tokens=[\"[PAD]\", \"[UNK]\", \"[CLS]\", \"[SEP]\", \"[MASK]\"] ) tokenizer.train([str(CORPUS_PATH)], trainer) tokenizer.decoder = decoders.BPEDecoder() tokenizer.model.save(str(TOK_DIR))           # \u0441\u043e\u0445\u0440\u0430\u043d\u0438\u0442 merges &amp; vocab tokenizer.save(str(TOK_DIR \/ \"tokenizer.json\")) print(f\"\u2705 \u0441\u043b\u043e\u0432\u0430\u0440\u044c {VOCAB_SIZE} \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u2192 {TOK_DIR}\")  # \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 3. \u0442\u0435\u0441\u0442 \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500 sample = \"\u041f\u0440\u0438\u043c\u0435\u0440: \u043c\u0430\u043c\u0430 \u043c\u044b\u043b\u0430 \u0440\u0430\u043c\u0443\" enc = tokenizer.encode(sample) print(\"\\n\ud83e\uddea \u0442\u043e\u043a\u0435\u043d\u044b:\", enc.tokens) print(\"\ud83e\uddea \u0432\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d\u043d\u0430\u044f \u0441\u0442\u0440\u043e\u043a\u0430:\", tokenizer.decode(enc.ids)) <\/code><\/pre>\n<p>\/\/ \u043a\u043e\u043d\u0435\u0446 \u0431\u043b\u043e\u043a\u0430 \u043a\u043e\u0434\u0430 \u043d\u0430 python<\/p>\n<p>\u0417\u0430\u043c\u0435\u0442\u0438\u043c, \u0447\u0442\u043e \u0441\u043a\u0430\u0447\u0438\u0432\u0430\u043d\u0438\u0435 \u0431\u0443\u0434\u0435\u0442 \u0438\u0434\u0442\u0438 \u0442\u0430\u043a \u0436\u0435 \u0434\u043e\u043b\u0433\u043e, \u0435\u0441\u043b\u0438 \u0444\u0430\u0439\u043b \u043d\u0435 \u0431\u044b\u043b \u0441\u043a\u0430\u0447\u0430\u043d \u043f\u0440\u043e\u0448\u043b\u044b\u043c \u0441\u043a\u0440\u0438\u043f\u0442\u043e\u043c.<br \/>\u041d\u041e!<br \/>\u0421\u0430\u043c\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043f\u0440\u043e\u043b\u0435\u0442\u0435\u043b\u043e \u0437\u0430 \u043a\u0430\u043a\u0438\u0435-\u0442\u043e 2 \u043c\u0438\u043d\u0443\u0442\u044b!<br \/>\u041a\u0430\u043a \u0436\u0435 \u0442\u0430\u043a???<br \/>\u042f \u0431\u044b\u043b \u0432 \u0448\u043e\u043a\u0435 \u0438 \u043f\u043e\u0434\u0443\u043c\u0430\u043b, \u0447\u0442\u043e \u044d\u0442\u043e \u043e\u0448\u0438\u0431\u043a\u0430 \u0438\u043b\u0438 \u0443 \u043c\u0435\u043d\u044f \u043f\u043e\u0434\u0433\u0440\u0443\u0437\u0438\u043b\u0441\u044f \u0443\u0436\u0435 \u0433\u043e\u0442\u043e\u0432\u044b\u0439 \u0442\u043e\u043a\u0438\u043d\u0438\u0437\u0430\u0442\u043e\u0440 \u0438\u043b\u0438 \u044d\u0442\u043e \u043d\u0435 \u043c\u043e\u0438 \u0434\u0430\u043d\u043d\u044b\u0435, \u043d\u0430 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u044f \u043e\u0431\u0443\u0447\u0430\u043b, \u0430 \u0447\u0442\u043e-\u0442\u043e \u0443\u0436\u0435 \u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u0433\u043e\u0442\u043e\u0432\u043e\u0435.<br \/>\u041d\u043e \u043d\u0435\u0442, \u044d\u0442\u043e \u0442\u043e\u043a\u0438\u043d\u0435\u0437\u0430\u0442\u043e\u0440, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u044f \u043f\u043e\u043b\u0443\u0447\u0438\u043b \u0442\u043e\u043b\u044c\u043a\u043e \u043d\u0430 \u0441\u0432\u043e\u0438\u0445 \u0434\u0430\u043d\u043d\u044b\u0445.<br \/>\u0418 \u043a\u0430\u043a \u0436\u0435 \u0442\u0430\u043a \u044d\u0442\u043e \u0432\u044b\u0448\u043b\u043e?<\/p>\n<p>\u0410 \u0432\u0441\u0451 \u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u043f\u0440\u043e\u0441\u0442\u043e, Python \u043e\u0447\u0435\u043d\u044c \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u044b\u0439.<\/p>\n<p>\u0414\u0435\u043b\u043e \u0432\u043e\u0432\u0441\u0435 \u043d\u0435 \u0432 \u00ab\u043c\u0430\u0433\u0438\u0438\u00bb \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a, \u0430 \u0432 \u0442\u043e\u043c, <strong>\u043d\u0430 \u0447\u0451\u043c \u0438 \u043a\u0430\u043a<\/strong> \u043e\u043d\u0438 \u043d\u0430\u043f\u0438\u0441\u0430\u043d\u044b.<\/p>\n<p>\u0415\u0441\u043b\u0438 \u0431\u0435\u0437 \u0441\u043b\u043e\u0436\u043d\u044b\u0445 \u0441\u043b\u043e\u0432 \u0438 \u0442\u0435\u0440\u043c\u0438\u043d\u043e\u0432, \u0442\u043e Python \u044d\u0442\u043e \u0432\u044b\u0441\u043e\u043a\u043e\u0443\u0440\u043e\u0432\u043d\u0435\u0432\u044b\u0439 \u0438 \u0438\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0438\u0440\u0443\u0435\u043c\u044b\u0439 \u044f\u0437\u044b\u043a \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f \u0438 \u043a\u0430\u0436\u0434\u044b\u0439 \u044d\u043b\u0435\u043c\u0435\u043d\u0442 \u0443\u043d\u0438\u0432\u0435\u0440\u0441\u0430\u043b\u0435\u043d \u043d\u043e \u043f\u0440\u0438 \u044d\u0442\u043e\u043c \u0442\u044f\u0436\u0451\u043b\u044b\u0439. \u0410 \u043a\u043e\u0433\u0434\u0430 \u043d\u0430\u043c \u043d\u0430\u0434\u043e \u0441\u043e\u0437\u0434\u0430\u0442\u044c \u043c\u0438\u043b\u043b\u0438\u043e\u043d\u044b \u0438\u043b\u0438 \u043c\u0438\u043b\u043b\u0438\u0430\u0440\u0434\u044b \u044d\u043b\u0435\u043c\u0435\u043d\u0442\u043e\u0432 \u0438 \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u0441 \u043d\u0438\u043c\u0438 \u0435\u0449\u0451 \u0431\u043e\u043b\u044c\u0448\u0435 \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u0439, \u0442\u043e \u044d\u0442\u043e \u043e\u0447\u0435\u043d\u044c \u0441\u0438\u043b\u044c\u043d\u043e \u0437\u0430\u043c\u0435\u0434\u043b\u044f\u0435\u0442 \u0441\u0430\u043c\u043e \u0441\u0435\u0431\u044f.<br \/>\u0410 \u0441\u0442\u043e\u0440\u043e\u043d\u043d\u044f\u044f \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043d\u0430 \u043d\u0438\u0437\u043a\u043e\u043c \u0443\u0440\u043e\u0432\u043d\u0435 \u0438 \u0438\u043c\u0435\u0435\u0442 \u043e\u043f\u0442\u0438\u043c\u0430\u043b\u044c\u043d\u044b\u0435 \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u044b, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0442\u0430\u043a <strong>\u043a\u0440\u0430\u0442\u043d\u043e<\/strong> \u0443\u0441\u043a\u043e\u0440\u044f\u044e\u0442 \u0440\u0430\u0431\u043e\u0442\u0443!<\/p>\n<p>\u0421\u0443\u043c\u043c\u0430\u0440\u043d\u043e \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442\u0441\u044f \u0443\u0441\u043a\u043e\u0440\u0435\u043d\u0438\u0435 \u0432 \u043c\u043e\u0451\u043c \u0441\u043b\u0443\u0447\u0430\u0435 \u0432 \u0442\u044b\u0441\u044f\u0447\u0438 \u0440\u0430\u0437!<\/p>\n<p>\u042f \u0437\u043d\u0430\u043b, \u0447\u0442\u043e Python \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u044b\u0439, \u043d\u043e \u0432\u043f\u0435\u0440\u0432\u044b\u0435 \u0443\u0432\u0438\u0434\u0435\u043b <strong>\u043d\u0430\u0441\u0442\u043e\u043b\u044c\u043a\u043e<\/strong> \u043a\u043e\u043b\u043e\u0441\u0441\u0430\u043b\u044c\u043d\u044b\u0439 \u0440\u0430\u0437\u0440\u044b\u0432 \u043d\u0430 \u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u043c \u043f\u0440\u0438\u043c\u0435\u0440\u0435.<\/p>\n<p>\u041d\u0443 \u043a\u0430\u043a-\u0442\u043e \u0438 \u0432\u0441\u0451.<\/p>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u0443 \u043d\u0430\u0441 \u0435\u0441\u0442\u044c \u0441\u0432\u043e\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0438 \u043c\u044b \u043c\u043e\u0436\u0435\u043c \u0447\u0435\u0440\u0435\u0437 \u043d\u0435\u0433\u043e \u0440\u0430\u0437\u0431\u0438\u0432\u0430\u0442\u044c \u043d\u0430\u0448 \u0442\u0435\u043a\u0441\u0442 \u043d\u0430 \u0442\u043e\u043a\u0435\u043d\u044b.<\/p>\n<p>\u0418 \u0432\u0440\u043e\u0434\u0435 \u0431\u044b \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0439 \u044d\u0442\u0430\u043f \u0412\u0435\u043a\u0442\u043e\u0440\u044b, \u043d\u043e \u0438\u0445 \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0432 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u0435\u0439, \u0442\u0430\u043a \u0447\u0442\u043e \u0440\u0430\u0437\u0431\u0435\u0440\u0451\u043c \u0432 \u0434\u0440\u0443\u0433\u043e\u0439 \u0440\u0430\u0437.<\/p>\n<h2>\u0418\u0442\u043e\u0433\u0438<\/h2>\n<p>\u0421\u043e\u0437\u0434\u0430\u0442\u044c \u0441\u0432\u043e\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0441\u043e\u0432\u0435\u0440\u0448\u0435\u043d\u043d\u043e \u043d\u0435 \u0441\u043b\u043e\u0436\u043d\u043e, \u0438 \u0434\u043b\u044f \u043d\u0435\u0431\u043e\u043b\u044c\u0448\u043e\u0433\u043e \u043e\u0431\u044a\u0451\u043c\u0430 \u0434\u0430\u043d\u043d\u044b\u0445 \u0435\u0449\u0451 \u0438 \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e \u0431\u044b\u0441\u0442\u0440\u043e.<br \/>\u041d\u043e \u043d\u0430\u0434\u043e \u043f\u043e\u043d\u0438\u043c\u0430\u0442\u044c, \u0435\u0441\u043b\u0438 \u0431\u044b \u0441\u043e\u0431\u0440\u0430\u043b\u0438 \u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0439 \u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u0434\u043b\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f, \u043d\u0435 \u043d\u0430 \u043c\u0438\u043b\u043b\u0438\u043e\u043d\u0435 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432, \u0430 \u043d\u0430 \u0442\u0440\u0438\u043b\u043b\u0438\u0430\u0440\u0434\u0430\u0445 \u0438\u043b\u0438 \u0431\u043e\u043b\u0435\u0435, \u0442\u043e \u0441\u043e\u0431\u0438\u0440\u0430\u043b\u0441\u044f \u0431\u044b \u0442\u0430\u043a\u043e\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0433\u043e\u0440\u0430\u0437\u0434\u043e \u0434\u043e\u043b\u044c\u0448\u0435!<br \/>\u041d\u043e \u044d\u0442\u043e \u0440\u0435\u0430\u043b\u044c\u043d\u043e, \u0438 \u043c\u044b \u0441\u043c\u043e\u0433\u043b\u0438 \u0434\u0430\u0436\u0435 \u043f\u043e\u0449\u0443\u043f\u0430\u0442\u044c \u043e\u0441\u043d\u043e\u0432\u044b.<\/p>\n<p>\u0421\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0439 \u044d\u0442\u0430\u043f, \u044d\u0442\u043e \u0441\u043e\u0437\u0434\u0430\u043d\u0438\u0435 \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u0439 \u043d\u0435\u0439\u0440\u043e\u043d\u043a\u0438, \u043d\u043e \u044d\u0442\u0438\u043c \u043c\u044b \u0437\u0430\u0439\u043c\u0451\u043c\u0441\u044f \u0432 \u0434\u0440\u0443\u0433\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435!<\/p>\n<\/div>\n<\/div>\n<\/div>\n<p><!----><!----><\/div>\n<p><!----><!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/938798\/\"> https:\/\/habr.com\/ru\/articles\/938798\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u0412 \u0434\u0430\u043d\u043d\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435 \u043c\u044b \u0440\u0430\u0437\u0431\u0435\u0440\u0451\u043c \u043a\u0430\u043a \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044c \u0432\u0438\u0434\u0438\u0442 \u0442\u0435\u043a\u0441\u0442, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043c\u044b \u0435\u0439 \u043e\u0442\u043f\u0440\u0430\u0432\u0438\u043b\u0438, \u043f\u043e\u0437\u043d\u0430\u043a\u043e\u043c\u0438\u043c\u0441\u044f \u043e\u0447\u0435\u043d\u044c \u0431\u043b\u0438\u0437\u043a\u043e \u0441 \u0442\u0435\u0440\u043c\u0438\u043d\u043e\u043c \u0422\u041e\u041a\u0415\u041d\u042b, \u0438 \u0434\u0430\u0436\u0435 \u0441\u0430\u043c\u0438 \u0441\u043e\u0437\u0434\u0430\u0434\u0438\u043c \u0442\u0435 \u0441\u0430\u043c\u044b\u0435 \u0442\u043e\u043a\u0435\u043d\u044b \u043d\u0430 Python.<\/p>\n<h3>\u041f\u043e\u0435\u0445\u0430\u043b\u0438<\/h3>\n<p>\u0414\u043b\u044f \u043d\u0430\u0447\u0430\u043b\u0430, \u0434\u0430\u0432\u0430\u0439\u0442\u0435 \u0432 \u043e\u0431\u0449\u0438\u0445 \u0447\u0435\u0440\u0442\u0430\u0445 \u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u0432\u0435\u0441\u044c \u043f\u0443\u0442\u044c \u0442\u0435\u043a\u0441\u0442\u0430 \u043e\u0442 \u042e\u0437\u0435\u0440\u0430 \u0434\u043e \u041d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u0438.<\/p>\n<figure class=\"full-width\"><\/figure>\n<p>\u0410 \u0442\u0435\u043f\u0435\u0440\u044c \u0432 \u043e\u0431\u0440\u0430\u0442\u043d\u043e\u043c \u043f\u043e\u0440\u044f\u0434\u043a\u0435, \u0434\u043b\u044f \u0431\u043e\u043b\u0435\u0435 \u043b\u043e\u0433\u0438\u0447\u043d\u043e\u0433\u043e \u043f\u0443\u0442\u0438 \u043e\u0442 \u043f\u0440\u0438\u0447\u0438\u043d\u044b \u043a \u0441\u043b\u0435\u0434\u0441\u0442\u0432\u0438\u044e.<\/p>\n<p>\u0422\u0430\u043a \u043a\u0430\u043a \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044c, \u044d\u0442\u043e \u043e\u0447\u0435\u043d\u044c \u0441\u043b\u043e\u0436\u043d\u044b\u0439 \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c, \u043d\u0430 \u0432\u0445\u043e\u0434, \u043e\u043d \u0434\u043e\u043b\u0436\u0435\u043d \u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0442\u044c \u043f\u043e\u043d\u044f\u0442\u043d\u044b\u0435 \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u0435\u0434\u0438\u043d\u0438\u0446\u044b, \u0432 \u0442\u0435\u043a\u0441\u0442\u043e\u0432\u044b\u0445 \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044f\u0445, \u044d\u0442\u043e <strong>\u0412\u0435\u043a\u0442\u043e\u0440\u044b<\/strong>.<\/p>\n<p><strong>\u0412\u0435\u043a\u0442\u043e\u0440<\/strong> \u2014 \u044d\u0442\u043e <em>\u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u043e\u0431\u044a\u0435\u043a\u0442<\/em>: \u0443\u043f\u043e\u0440\u044f\u0434\u043e\u0447\u0435\u043d\u043d\u044b\u0439 \u043d\u0430\u0431\u043e\u0440 \u0447\u0438\u0441\u0435\u043b (\u043a\u043e\u043e\u0440\u0434\u0438\u043d\u0430\u0442).<br \/><strong>\u041f\u0440\u0438\u043c\u0435\u0440<\/strong>: <code>[1.2, -0.3, 0.7, ...]<\/code>.<br \/>\u0415\u0441\u043b\u0438 \u0441\u043e\u0432\u0441\u0435\u043c \u0443\u043f\u0440\u043e\u0449\u0430\u0442\u044c, \u044d\u0442\u043e \u043a\u0430\u043a \u043f\u0443\u0441\u0442\u044c \u043f\u043e \u043a\u0430\u0440\u0442\u0435 (1.2 \u0448\u0430\u0433\u0430 \u0432\u043b\u0435\u0432\u043e, 0.3 \u0448\u0430\u0433\u0430 \u043d\u0430\u0437\u0430\u0434, \u043a\u043e\u043f\u0430\u0442\u044c \u043d\u0430 0.7 \u043c\u0435\u0442\u0440\u0430 \u0432\u043d\u0438\u0437)<\/p>\n<p><strong>\u0412\u0435\u043a\u0442\u043e\u0440\u044b<\/strong>, \u043c\u044b \u0432 \u0441\u0432\u043e\u044e \u043e\u0447\u0435\u0440\u0435\u0434\u044c \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0438\u0437 \u0441\u043b\u043e\u0432\u0430\u0440\u044f \u0442\u043e\u043a\u0435\u043d\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043c\u044b \u0441\u043e\u0437\u0434\u0430\u0451\u043c \u0434\u0430\u0436\u0435 \u0440\u0430\u043d\u044c\u0448\u0435, \u0447\u0435\u043c \u0441\u0430\u043c\u0443 \u041d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044c.<br \/>\u041d\u0438\u0436\u0435, \u043c\u044b \u043a\u0430\u043a \u0440\u0430\u0437 \u0438 \u0431\u0443\u0434\u0435\u043c \u0441\u043e\u0437\u0434\u0430\u0432\u0430\u0442\u044c \u0442\u0430\u043a\u043e\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0441\u0430\u043c\u0438 \u0441 \u043d\u0443\u043b\u044f!<\/p>\n<p>\u0421\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432 &#8212; \u044d\u0442\u043e \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0433\u0434\u0435 \u0443 \u043d\u0430\u0441 \u043b\u0435\u0436\u0438\u0442 \u043d\u0430\u0431\u043e\u0440 \u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u0445 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0438 \u043a\u0430\u0436\u0434\u043e\u043c\u0443 \u0422\u043e\u043a\u0435\u043d\u0443 \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0443\u0435\u0442 \u0441\u0432\u043e\u0439 \u0412\u0435\u043a\u0442\u043e\u0440.<br \/>\u042d\u0442\u043e \u043c\u043e\u0436\u043d\u043e \u0441\u0440\u0430\u0432\u043d\u0438\u0442\u044c \u0441\u043e \u0441\u043b\u043e\u0432\u0430\u0440\u0451\u043c \u0438\u043d\u043e\u0441\u0442\u0440\u0430\u043d\u043d\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430.<\/p>\n<p><strong>\u0427\u0442\u043e \u0442\u0430\u043a\u043e\u0435 \u0442\u043e\u043a\u0435\u043d?<\/strong><\/p>\n<p>\u0422\u043e\u043a\u0435\u043d\u043e\u043c \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u0441\u043e\u0432\u043e\u043a\u0443\u043f\u043d\u043e\u0441\u0442\u044c \u043e\u0434\u043d\u043e\u0433\u043e \u0438 \u0431\u043e\u043b\u0435\u0435 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432.<br \/>\u0414\u043b\u044f \u043d\u0430\u0441, \u043b\u044e\u0434\u0435\u0439, \u0447\u0430\u0441\u0442\u043e \u0442\u043e\u043a\u0435\u043d\u044b \u043d\u0435 \u0431\u0443\u0434\u0443\u0442 \u043d\u0435\u0441\u0442\u0438 \u0441\u043c\u044b\u0441\u043b.<br \/>\u041d\u043e \u0447\u0435\u043c \u0431\u043e\u043b\u0435\u0435 \u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u0434\u0430\u0442\u0430\u0441\u0435\u0442(\u043d\u0430\u0431\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445 \u0434\u043b\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f), \u0442\u0435\u043c \u0431\u043e\u043b\u044c\u0448\u0435 \u0442\u043e\u043a\u0435\u043d\u044b \u0431\u0443\u0434\u0443\u0442 \u043f\u043e\u0445\u043e\u0436\u0438 \u043d\u0430 \u0441\u043b\u043e\u0432\u0430.<br \/>\u041f\u0440\u0438\u043c\u0435\u0440 \u043c\u044b \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0438\u0436\u0435.<\/p>\n<p>\u0418\u0442\u043e\u0433\u043e, \u043c\u044b \u043f\u0440\u043e\u0448\u043b\u0438 \u043f\u043e \u043f\u0443\u0442\u0438:<br \/>    \u0422\u0435\u043a\u0441\u0442 -&gt; \u0422\u043e\u043a\u0435\u043d\u044b -&gt; \u0412\u0435\u043a\u0442\u043e\u0440\u0430 -&gt; \u041d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044c<\/p>\n<p>&#171;\u041f\u0440\u0438\u0432\u0435\u0442 \u043c\u0438\u0440!&#187; -&gt; &#171;\u041f\u0440\u0438\u0432\u0435\u0442&#187;, &#171;\u043c\u0438\u0440&#187;, &#171;!&#187; -&gt; [1.2, -0.3, 0.7, &#8230;], [-0.1, 1.3, -7.7, &#8230;], [9.2, -4.1, 7.7, &#8230;] -&gt; \u041d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044c<\/p>\n<p>\u0412 \u043e\u0431\u0449\u0438\u0445 \u0447\u0435\u0440\u0442\u0430\u0445 \u0442\u0435\u043f\u0435\u0440\u044c \u043f\u043e\u043d\u044f\u0442\u043d\u043e, \u0447\u0442\u043e \u0438\u0437 \u0441\u0435\u0431\u044f \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u043a\u0430\u0436\u0434\u044b\u0439 \u044d\u0442\u0430\u043f.<\/p>\n<p>\u041f\u0435\u0440\u0435\u0445\u043e\u0434\u0438\u043c \u043e\u0442 \u043e\u0431\u0449\u0435\u0433\u043e \u043a \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u0438\u043a\u0435.<\/p>\n<p>\u0421\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432 &#8212; \u044d\u0442\u043e \u043d\u0430\u0431\u043e\u0440 \u043e\u0442 \u043e\u0434\u043d\u043e\u0433\u043e \u0438\u043b\u0438 \u0431\u043e\u043b\u0435\u0435 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432, \u0447\u0430\u0449\u0435 \u0432\u0441\u0435\u0433\u043e \u043f\u043e\u043f\u0430\u0434\u0430\u044e\u0449\u0438\u0435\u0441\u044f \u043d\u0430\u043c \u0432 \u043d\u0430\u0431\u043e\u0440\u0435 \u0434\u0430\u043d\u043d\u044b\u0445, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043c\u044b \u0432\u0437\u044f\u043b\u0438 \u0437\u0430 \u043e\u0441\u043d\u043e\u0432\u0443 \u0441\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u044f \u0441\u043b\u043e\u0432\u0430\u0440\u044f.<br \/>\u041e\u0431\u044b\u0447\u043d\u043e, \u0434\u043b\u044f \u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u044f\u0437\u044b\u043a\u043e\u0432\u044b\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439, \u044d\u0442\u043e \u0442\u0435\u0440\u0430\u0431\u0430\u0439\u0442\u044b \u0442\u0435\u043a\u0441\u0442\u0430 (\u0442\u0440\u043b\u043b\u0438\u043e\u043d\u044b \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432).<\/p>\n<p>\u0418 \u0447\u0442\u043e\u0431\u044b \u0441\u043e\u0437\u0434\u0430\u0442\u044c \u0442\u0430\u043a\u043e\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0443 \u043d\u0430\u0441 \u0435\u0441\u0442\u044c \u0440\u0430\u0437\u043d\u044b\u0435 \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u044b, \u043e \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043c\u044b \u043f\u043e\u0433\u043e\u0432\u043e\u0440\u0438\u043c \u043f\u043e\u0437\u0436\u0435, \u043d\u043e \u0438\u0445 \u0441\u0443\u0442\u044c \u043e\u0434\u043d\u0430. \u041d\u0430\u0439\u0442\u0438 \u0441\u0430\u043c\u044b\u0435 \u0447\u0430\u0441\u0442\u044b\u0435 \u043f\u043e \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u043c\u043e\u0441\u0442\u0438 \u0441\u0438\u043c\u0432\u043e\u043b\u044b \u0438\u043b\u0438 \u043d\u0430\u0431\u043e\u0440\u044b \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432 \u0432 <strong>\u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0435<\/strong> (\u0442\u043e\u0442 \u0441\u0430\u043c\u044b\u0439 \u043d\u0430\u0431\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445) \u0438 \u0441\u043e\u0437\u0434\u0430\u0442\u044c \u0438\u0437 \u043d\u0438\u0445 \u0442\u043e\u043a\u0435\u043d\u044b.<br \/>\u0422\u0435\u043c \u0441\u0430\u043c\u044b\u043c \u0422\u043e\u043a\u0435\u043d &#8212; \u044d\u0442\u043e \u0442\u043e \u0447\u0442\u043e \u0431\u044b\u043b\u043e \u043d\u0430\u0439\u0434\u0435\u043d\u043e \u0432 \u0442\u0435\u043a\u0441\u0442\u0435 \u0447\u0430\u0449\u0435 \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0445 \u0441\u043e\u0447\u0435\u0442\u0430\u043d\u0438\u0439 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432, \u0438 \u0431\u044b\u043b\u043e \u0432\u044b\u043d\u0435\u0441\u0435\u043d\u043e \u0432 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u043e\u0439 \u0435\u0434\u0438\u043d\u0438\u0446\u0435\u0439 \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u044c.<\/p>\n<p>\u0422\u043e\u043a\u0435\u043d\u044b \u0432 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0444\u043e\u0440\u043c\u0438\u0440\u0443\u044e\u0442\u0441\u044f \u043f\u043e\u0441\u0442\u0435\u043f\u0435\u043d\u043d\u043e \u0432 \u0442\u044b\u0441\u044f\u0447\u0438 \u0438\u043b\u0438 \u043c\u0438\u043b\u043b\u0438\u043e\u043d\u044b \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u0439.<br \/>\u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0438\u0437\u043d\u0430\u0447\u0430\u043b\u044c\u043d\u043e \u0432\u043e\u043e\u0431\u0449\u0435 \u0432\u0435\u0441\u044c <strong>\u0434\u0430\u0442\u0430\u0441\u0435\u0442<\/strong> \u0440\u0430\u0437\u0431\u0438\u0432\u0430\u0435\u0442\u0441\u044f \u043f\u043e\u0441\u0438\u043c\u0432\u043e\u043b\u044c\u043d\u043e, \u043f\u043e\u0441\u043b\u0435 \u0447\u0435\u0433\u043e \u043c\u044b \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u043c \u0441\u043a\u043b\u0435\u0438\u0432\u0430\u0442\u044c \u0440\u044f\u0434\u043e\u043c \u0441\u0442\u043e\u044f\u0449\u0438\u0435 \u0441\u0438\u043c\u0432\u043e\u043b\u044b \u0438 \u0441\u0447\u0438\u0442\u0430\u0442\u044c, \u043a\u0430\u043a\u0438\u0445 \u0441\u043e\u0447\u0435\u0442\u0430\u043d\u0438\u0439 \u0431\u044b\u043b\u043e \u043d\u0430\u0439\u0434\u0435\u043d\u043e \u0431\u043e\u043b\u044c\u0448\u0435 \u0432\u0441\u0435\u0433\u043e. \u041a\u0430\u043a\u043e\u0435 \u0441\u043e\u0447\u0435\u0442\u0430\u043d\u0438\u0435 \u0431\u044b\u043b\u043e \u043d\u0430\u0439\u0434\u0435\u043d\u043e \u0432 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0435 \u0431\u043e\u043b\u044c\u0448\u0435 \u0432\u0441\u0435\u0433\u043e \u0440\u0430\u0437, \u0442\u043e \u0441\u043e\u0447\u0435\u0442\u0430\u043d\u0438\u0435 \u043c\u044b \u0438 \u0432\u044b\u043d\u043e\u0441\u0438\u043c \u0432 \u043d\u0430\u0448 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432, \u0442\u0435\u043c \u0441\u0430\u043c\u044b\u043c \u043f\u043e\u043f\u043e\u043b\u043d\u044f\u044f \u0435\u0433\u043e \u043d\u043e\u0432\u044b\u043c\u0438 \u0442\u043e\u043a\u0435\u043d\u0430\u043c\u0438.<\/p>\n<p>\u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u0441\u043e\u0437\u0434\u0430\u0434\u0438\u043c \u0441\u0432\u043e\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 2 \u0441\u0442\u0440\u043e\u043a \u0442\u0435\u043a\u0441\u0442\u0430 \u0432 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u043f\u0440\u0438\u043c\u0435\u0440\u0430:<br \/>\u041f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044f:<\/p>\n<ol>\n<li>\n<p>\u043f\u0440\u0438\u0432\u0435\u0442 \u043c\u0438\u0440<\/p>\n<\/li>\n<li>\n<p>\u0432\u0435\u0442\u0445\u0438\u0439 \u0434\u043e\u043c<\/p>\n<\/li>\n<\/ol>\n<p>\u0414\u043b\u044f \u043d\u0430\u0447\u0430\u043b\u0430 \u0437\u0430\u043c\u0435\u043d\u0438\u043c \u0441\u0438\u043c\u0432\u043e\u043b\u044b (\u043d\u0435 \u0431\u0443\u043a\u0432\u044b) \u043d\u0430 _ .<br \/>\u0422\u0435\u043f\u0435\u0440\u044c \u043f\u043e \u0448\u0430\u0433\u0430\u043c \u043f\u0440\u043e\u0433\u043e\u043d\u0438\u043c \u043d\u0430\u0448\u0438 \u0441\u0442\u0440\u043e\u043a\u0438, \u0447\u0442\u043e\u0431\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0441\u043b\u043e\u0432\u0430\u0440\u044c<\/p>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<th>\n<p align=\"left\">\u0428\u0430\u0433<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0422\u0435\u043a\u0443\u0449\u0430\u044f \u0440\u0430\u0437\u0431\u0438\u0432\u043a\u0430<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0421\u0430\u043c\u0430\u044f \u0447\u0430\u0441\u0442\u0430\u044f \u043f\u0430\u0440\u0430<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0427\u0442\u043e \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0435\u043c<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u041f\u043e\u0447\u0435\u043c\u0443 \u0438\u043c\u0435\u043d\u043d\u043e \u043e\u043d\u0430<\/p>\n<\/th>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">0<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2581 \u043f \u0440 \u0438 \u0432 \u0435 \u0442 \u2581 \u043c \u0438 \u0440  \u2581 \u0432 \u0435 \u0442 \u0445 \u0438 \u0439 \u2581 \u0434 \u043e \u043c<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2014<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2014<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0421\u0442\u0430\u0440\u0442\u0443\u0435\u043c \u0441 \u043e\u0434\u0438\u043d\u043e\u0447\u043d\u044b\u0445 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">1<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2581 \u043f \u0440 \u0438 <strong>\u0432\u0435<\/strong> \u0442 \u2581 \u043c \u0438 \u0440  \u2581 <strong>\u0432\u0435<\/strong> \u0442 \u0445 \u0438 \u0439 \u2581 \u0434 \u043e \u043c<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>(\u0432,\u0435)<\/strong> = 2<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>\u0432\u0435<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u00ab\u0432\u0435\u00bb \u0432\u0441\u0442\u0440\u0435\u0442\u0438\u043b\u043e\u0441\u044c 2 \u0440\u0430\u0437\u0430 (\u0432 \u00ab\u043f\u0440\u0438\u0432\u0435\u0442\u00bb, \u00ab\u0432\u0435\u0442\u0445\u0438\u0439\u00bb) \u2014 \u0447\u0430\u0449\u0435 \u043b\u044e\u0431\u043e\u0439 \u0434\u0440\u0443\u0433\u043e\u0439 \u043f\u0430\u0440\u044b<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">2<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2581 \u043f \u0440 \u0438 <strong>\u0432\u0435\u0442<\/strong> \u2581 \u043c \u0438 \u0440  \u2581 <strong>\u0432\u0435\u0442<\/strong> \u0445 \u0438 \u0439 \u2581 \u0434 \u043e \u043c<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>(\u0432\u0435,\u0442)<\/strong> = 2<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>\u0432\u0435\u0442<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041f\u043e\u0441\u043b\u0435 \u043f\u0435\u0440\u0432\u043e\u0433\u043e \u0441\u043b\u0438\u044f\u043d\u0438\u044f \u043f\u0430\u0440\u0430 \u00ab\u0432\u0435\u0442\u00bb \u0441\u0442\u0430\u043b\u0430 \u0441\u0430\u043c\u043e\u0439 \u0447\u0430\u0441\u0442\u043e\u0439<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">3<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2581 \u043f\u0440\u0438\u0432\u0435\u0442 \u2581 \u043c \u0438 \u0440  \u2581 <strong>\u0432\u0435\u0442<\/strong> \u0445 \u0438 \u0439 \u2581 \u0434 \u043e \u043c<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2014<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2014<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041f\u0430\u0440\u0430 \u00ab\u043f\u0440\u2026\u00bb \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u0442\u043e\u043b\u044c\u043a\u043e \u0440\u0430\u0437, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0434\u0430\u043b\u044c\u043d\u0435\u0439\u0448\u0438\u0435 \u0441\u043b\u0438\u044f\u043d\u0438\u044f \u0441\u043c\u044b\u0441\u043b \u043d\u0435 \u0434\u0430\u044e\u0442 \u043f\u0440\u0438 \u0442\u0430\u043a\u043e\u043c \u043a\u0440\u043e\u0445\u043e\u0442\u043d\u043e\u043c \u043d\u0430\u0431\u043e\u0440\u0435<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p><strong>\u0427\u0442\u043e \u0432\u0438\u0434\u043d\u043e<\/strong><\/p>\n<ul>\n<li>\n<p>\u041a\u0430\u0436\u0434\u0443\u044e \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u044e \u0441\u0447\u0438\u0442\u0430\u0435\u043c \u0447\u0430\u0441\u0442\u043e\u0442\u044b <strong>\u0441\u043e\u0441\u0435\u0434\u043d\u0438\u0445<\/strong> \u0442\u043e\u043a\u0435\u043d\u043e\u0432.<\/p>\n<\/li>\n<li>\n<p>\u0421\u043a\u043b\u0435\u0438\u0432\u0430\u0435\u043c \u0441\u0430\u043c\u0443\u044e \u0447\u0430\u0441\u0442\u0443\u044e \u043f\u0430\u0440\u0443 \u2192 \u0443\u0442\u043e\u0447\u043d\u044f\u0435\u043c \u0440\u0430\u0437\u0431\u0438\u0435\u043d\u0438\u0435 \u2192 \u043f\u043e\u0432\u0442\u043e\u0440\u044f\u0435\u043c.<\/p>\n<\/li>\n<li>\n<p>\u0411\u043b\u0430\u0433\u043e\u0434\u0430\u0440\u044f \u043f\u043e\u0432\u0442\u043e\u0440\u0443 \u00ab\u0432\u0435\u0442\u00bb \u0441\u0440\u0430\u0437\u0443 \u0438\u0437 \u0434\u0432\u0443\u0445 \u0441\u043b\u043e\u0432 \u0442\u043e\u043a\u0435\u043d <strong>\u0432\u0435\u0442<\/strong> \u0431\u044b\u0441\u0442\u0440\u043e \u043f\u043e\u043f\u0430\u043b \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u044c.<\/p>\n<\/li>\n<\/ul>\n<p>\u041d\u0430 \u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445 \u043e\u0431\u044a\u0451\u043c \u0431\u043e\u043b\u044c\u0448\u0435 \u0438 \u0448\u0430\u0433\u043e\u0432 \u0431\u043e\u043b\u044c\u0448\u0435, \u043d\u043e \u043b\u043e\u0433\u0438\u043a\u0430 \u0442\u0430 \u0436\u0435.<br \/>\u041d\u0438\u0436\u0435 \u043c\u044b \u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0445 \u043f\u0440\u0438\u043c\u0435\u0440\u0430\u0445.<\/p>\n<p><strong>\u0421\u0443\u0431\u0441\u043b\u043e\u0432\u0430<\/strong> \u2014 \u044d\u0442\u043e \u043a\u0443\u0441\u043e\u0447\u043a\u0438 \u0441\u043b\u043e\u0432\u0430, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043c\u0435\u043d\u044c\u0448\u0435 \u0446\u0435\u043b\u043e\u0433\u043e \u0441\u043b\u043e\u0432\u0430, \u043d\u043e \u0431\u043e\u043b\u044c\u0448\u0435 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u043e\u0433\u043e \u0441\u0438\u043c\u0432\u043e\u043b\u0430.<br \/>\u041d\u0443\u0436\u043d\u044b, \u0447\u0442\u043e\u0431\u044b \u043c\u043e\u0434\u0435\u043b\u044c \u043c\u043e\u0433\u043b\u0430:<\/p>\n<ul>\n<li>\n<p><strong>\u0421\u043e\u0431\u0438\u0440\u0430\u0442\u044c \u0440\u0435\u0434\u043a\u0438\u0435 \u0441\u043b\u043e\u0432\u0430<\/strong> \u0438\u0437 \u0438\u0437\u0432\u0435\u0441\u0442\u043d\u044b\u0445 \u0447\u0430\u0441\u0442\u0435\u0439: <code>\u044d\u043b\u0435\u043a\u0442\u0440\u043e<\/code> + <code>\u0441\u043a\u0443\u0442\u0435\u0440<\/code> \u2192 \u00ab\u044d\u043b\u0435\u043a\u0442\u0440\u043e\u0441\u043a\u0443\u0442\u0435\u0440\u00bb.<\/p>\n<\/li>\n<li>\n<p><strong>\u041d\u0435 \u0440\u0430\u0437\u0434\u0443\u0432\u0430\u0442\u044c \u0441\u043b\u043e\u0432\u0430\u0440\u044c<\/strong> \u0434\u043e \u043c\u0438\u043b\u043b\u0438\u043e\u043d\u043e\u0432 \u0441\u043b\u043e\u0432\u043e\u0444\u043e\u0440\u043c.<\/p>\n<\/li>\n<\/ul>\n<p>\u0422\u0438\u043f\u0438\u0447\u043d\u044b\u0439 \u043f\u0440\u0438\u043c\u0435\u0440 \u0440\u0430\u0437\u0431\u0438\u0435\u043d\u0438\u044f \u043f\u043e BPE:<br \/> <code>\u043d\u0435\u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0443\u0435\u043c\u044b\u0439 \u2192 \u043d\u0435\u043f\u0440\u0435\u0434 + \u0441\u043a\u0430\u0437\u0443\u0435\u043c + \u044b\u0439<\/code><\/p>\n<p>\u0422\u0430\u043a \u043c\u043e\u0434\u0435\u043b\u044c \u0437\u043d\u0430\u0435\u0442 \u043a\u043e\u0440\u0435\u043d\u044c \u00ab\u0441\u043a\u0430\u0437\u00bb, \u0441\u0443\u0444\u0444\u0438\u043a\u0441 \u00ab-\u0443\u0435\u043c-\u00bb, \u043e\u043a\u043e\u043d\u0447\u0430\u043d\u0438\u0435 \u00ab-\u044b\u0439\u00bb \u0438 \u043c\u043e\u0436\u0435\u0442 \u043f\u043e\u043d\u044f\u0442\u044c \/ \u0441\u0433\u0435\u043d\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043c\u043d\u043e\u0436\u0435\u0441\u0442\u0432\u043e \u043f\u043e\u0445\u043e\u0436\u0438\u0445 \u0441\u043b\u043e\u0432, \u0434\u0430\u0436\u0435 \u0435\u0441\u043b\u0438 \u0446\u0435\u043b\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \u043d\u0435 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u043b\u043e\u0441\u044c \u0432 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0438.<\/p>\n<h3>\u0410\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u044b \u0441\u0443\u0431\u0432\u043e\u0440\u0434\u2011\u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u0438<\/h3>\n<p>\u0421\u0430\u043c\u044b\u0435 \u0440\u0430\u0441\u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0451\u043d\u043d\u044b\u0435 \u2014 BPE, WordPiece \u0438 SentencePiece. \u041e\u043d\u0438 \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u043f\u043e \u043e\u0434\u043d\u043e\u043c\u0443 \u043f\u0440\u0438\u043d\u0446\u0438\u043f\u0443: \u0441\u0442\u0440\u043e\u044f\u0442 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0441\u0443\u0431\u0441\u043b\u043e\u0432, \u043d\u0430\u0447\u0438\u043d\u0430\u044f \u0441 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432, \u0438 \u043f\u043e\u0441\u0442\u0435\u043f\u0435\u043d\u043d\u043e \u043e\u0431\u044a\u0435\u0434\u0438\u043d\u044f\u044e\u0442 \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0447\u0430\u0441\u0442\u044b\u0435 \u0441\u043e\u0447\u0435\u0442\u0430\u043d\u0438\u044f.<\/p>\n<h4>\ud83d\udd39 BPE (Byte\u2011Pair Encoding)<\/h4>\n<ol>\n<li>\n<p>\u0411\u0435\u0440\u0443\u0442 \u043d\u0430\u0431\u043e\u0440 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432 (\u0432\u043a\u043b\u044e\u0447\u0430\u044f \u043f\u0440\u043e\u0431\u0435\u043b\u044b \u0438 \u0431\u0430\u0439\u0442\u044b).<\/p>\n<\/li>\n<li>\n<p>\u0421\u0447\u0438\u0442\u0430\u044e\u0442 \u0432\u0441\u0435 \u043f\u0430\u0440\u044b \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432\/\u0441\u0443\u0431\u0441\u043b\u043e\u0432 \u0438 \u043d\u0430\u0445\u043e\u0434\u044f\u0442 \u0441\u0430\u043c\u0443\u044e \u0447\u0430\u0441\u0442\u0443\u044e.<\/p>\n<\/li>\n<li>\n<p>\u041e\u0431\u044a\u0435\u0434\u0438\u043d\u044f\u044e\u0442 \u0435\u0451 \u0432 \u0435\u0434\u0438\u043d\u044b\u0439 \u0442\u043e\u043a\u0435\u043d \u0438 \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u044e\u0442 \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u044c.<\/p>\n<\/li>\n<li>\n<p>\u041f\u043e\u0432\u0442\u043e\u0440\u044f\u044e\u0442, \u043f\u043e\u043a\u0430 \u043d\u0435 \u0434\u043e\u0441\u0442\u0438\u0433\u043d\u0443\u0442 \u043d\u0443\u0436\u043d\u043e\u0433\u043e \u0440\u0430\u0437\u043c\u0435\u0440\u0430 \u0441\u043b\u043e\u0432\u0430\u0440\u044f.<\/p>\n<\/li>\n<\/ol>\n<p>\u041f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u043e: \u043e\u0431\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u0435\u0442 \u0440\u0435\u0434\u043a\u043e \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u044e\u0449\u0438\u0435\u0441\u044f \u0441\u043b\u043e\u0432\u0430, \u0440\u0430\u0437\u0431\u0438\u0432\u0430\u044f \u0438\u0445 \u043d\u0430 \u0447\u0430\u0441\u0442\u0438. Byte\u2011level BPE \u0441\u043d\u0430\u0447\u0430\u043b\u0430 \u043f\u0435\u0440\u0435\u0432\u043e\u0434\u0438\u0442 \u0442\u0435\u043a\u0441\u0442 \u0432 UTF\u20118 \u0431\u0430\u0439\u0442\u044b, \u0447\u0442\u043e\u0431\u044b \u043f\u043e\u043a\u0440\u044b\u0442\u044c \u043b\u044e\u0431\u044b\u0435 \u0441\u0438\u043c\u0432\u043e\u043b\u044b.<\/p>\n<h4>\ud83d\udd39 WordPiece<\/h4>\n<p>\u041f\u043e\u0445\u043e\u0436 \u043d\u0430 BPE, \u043d\u043e \u043e\u0431\u044a\u0435\u0434\u0438\u043d\u044f\u0435\u0442 \u043f\u0430\u0440\u044b \u043d\u0435 \u043f\u0440\u043e\u0441\u0442\u043e \u043f\u043e \u0447\u0430\u0441\u0442\u043e\u0442\u0435, \u0430 \u043f\u043e \u0442\u043e\u043c\u0443, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u0438\u043b\u044c\u043d\u043e \u0443\u0432\u0435\u043b\u0438\u0447\u0438\u0442\u0441\u044f \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u044c \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u043f\u0440\u0438 \u0434\u043e\u0431\u0430\u0432\u043b\u0435\u043d\u0438\u0438 \u044d\u0442\u043e\u0439 \u043f\u0430\u0440\u044b, \u0442\u043e \u0435\u0441\u0442\u044c \u0434\u0435\u043b\u0430\u0435\u0442 merge \u043f\u043e \u043a\u0440\u0438\u0442\u0435\u0440\u0438\u044e \u043c\u0430\u043a\u0441\u0438\u043c\u0430\u043b\u044c\u043d\u043e\u0433\u043e \u043f\u0440\u0430\u0432\u0434\u043e\u043f\u043e\u0434\u043e\u0431\u0438\u044f. \u0418\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0432 BERT.<\/p>\n<h4>\ud83d\udd39 SentencePiece<\/h4>\n<p>\u042d\u0442\u043e \u043e\u0431\u0451\u0440\u0442\u043a\u0430, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043c\u043e\u0436\u0435\u0442 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c BPE \u0438\u043b\u0438 Unigram LM \u0431\u0435\u0437 \u044f\u0432\u043d\u043e\u0439 \u043f\u0440\u0435\u0434\u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 (\u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043f\u0440\u044f\u043c\u043e \u0441 &#171;\u0441\u044b\u0440\u044b\u043c&#187; \u0442\u0435\u043a\u0441\u0442\u043e\u043c, \u0432\u043a\u043b\u044e\u0447\u0430\u044f \u043f\u0440\u043e\u0431\u0435\u043b\u044b). \u041e\u0447\u0435\u043d\u044c \u043f\u043e\u0434\u0445\u043e\u0434\u0438\u0442 \u0434\u043b\u044f \u044f\u0437\u044b\u043a\u043e\u0432 \u0431\u0435\u0437 \u0440\u0430\u0437\u0434\u0435\u043b\u0435\u043d\u0438\u044f \u0441\u043b\u043e\u0432 \u043f\u0440\u043e\u0431\u0435\u043b\u0430\u043c\u0438.<\/p>\n<p>\u041a\u0441\u0442\u0430\u0442\u0438, \u043f\u0440\u0438\u043c\u0435\u0440 \u0432 \u0442\u0430\u0431\u043b\u0438\u0446\u0435 \u0432\u044b\u0448\u0435 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043b \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c <strong>BPE<\/strong>.<\/p>\n<h3>\u041a\u041e\u0414<\/h3>\n<p>\u0422\u0435\u043e\u0440\u0438\u044e \u043f\u043e\u0442\u0440\u043e\u0433\u0430\u043b\u0438.<br \/>\u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u043f\u0435\u0440\u0435\u0439\u0434\u0451\u043c \u043a \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435.<\/p>\n<p>\u0421\u043e\u0437\u0434\u0430\u0434\u0438\u043c \u0441\u0432\u043e\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432.<br \/>\u041f\u043e\u0439\u0434\u0451\u043c \u043f\u043e \u0445\u0430\u0440\u0434\u043a\u043e\u0440\u0443 \u0438 \u0431\u0443\u0434\u0435\u043c \u0441\u043e\u0437\u0434\u0430\u0432\u0430\u0442\u044c \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u043d\u0430 \u0447\u0438\u0441\u0442\u043e\u043c Python.<\/p>\n<pre><code>\"\"\" Byte-Pair Encoding (BPE) \u2014 \u0443\u0447\u0435\u0431\u043d\u0430\u044f \u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044f \u043d\u0430 Python ------------------------------------------------------------- \u0426\u0435\u043b\u044c: \u043f\u043e\u043a\u0430\u0437\u0430\u0442\u044c, \u043a\u0430\u043a \u0438\u0437 \u0442\u0435\u043a\u0441\u0442\u0430 \u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438 \u0441\u0442\u0440\u043e\u0438\u0442\u0441\u044f \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0441\u0443\u0431\u0441\u043b\u043e\u0432. \u0410\u043b\u0433\u043e\u0440\u0438\u0442\u043c \u043d\u0430 \u043a\u0430\u0436\u0434\u043e\u043c \u0448\u0430\u0433\u0435 \u0438\u0449\u0435\u0442 \u0441\u0430\u043c\u0443\u044e \u0447\u0430\u0441\u0442\u0443\u044e \u0441\u043e\u0441\u0435\u0434\u043d\u044e\u044e \u043f\u0430\u0440\u0443 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0438 \u0441\u043a\u043b\u0435\u0438\u0432\u0430\u0435\u0442 \u0435\u0451, \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u044f \u043d\u043e\u0432\u044b\u0439 \u0442\u043e\u043a\u0435\u043d \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u044c. \"\"\"    from collections import Counter # Counter \u0443\u0434\u043e\u0431\u043d\u043e \u0441\u0447\u0438\u0442\u0430\u0442\u044c \u0447\u0430\u0441\u0442\u043e\u0442\u044b \u044d\u043b\u0435\u043c\u0435\u043d\u0442\u043e\u0432    # \u041c\u0430\u0440\u043a\u0435\u0440 \u043a\u043e\u043d\u0446\u0430 \u0441\u043b\u043e\u0432\u0430: \u043d\u0443\u0436\u0435\u043d, \u0447\u0442\u043e\u0431\u044b \u043a\u043e\u043d\u0435\u0446 \u0441\u043b\u043e\u0432\u0430 \u043d\u0435 \u0441\u043b\u0438\u0432\u0430\u043b\u0441\u044f \u0441 \u043d\u0430\u0447\u0430\u043b\u043e\u043c \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0435\u0433\u043e. # \u0412\u044b\u0431\u0440\u0430\u043d \u0442\u0430\u043a\u0438\u043c, \u0447\u0442\u043e\u0431\u044b \u0432 \u0442\u0435\u043a\u0441\u0442\u0435 \u043f\u043e\u0434\u043e\u0431\u043d\u043e\u0433\u043e \u043d\u0435\u0431\u044b\u043b\u043e END = \"\"     def merge_word(tokens, pair, merged_token): \"\"\" \u041f\u043e\u043b\u0443\u0447\u0430\u0435\u0442 \u0441\u043f\u0438\u0441\u043e\u043a \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043e\u0434\u043d\u043e\u0433\u043e \u0441\u043b\u043e\u0432\u0430 \u0438 \u0441\u043a\u043b\u0435\u0438\u0432\u0430\u0435\u0442 \u0432 \u043d\u0451\u043c \u0443\u043a\u0430\u0437\u0430\u043d\u043d\u0443\u044e \u043f\u0430\u0440\u0443.    tokens : ['\u043c', '\u0430', '\u043c', '\u0430', ''] pair : ('\u043c', '\u0430') merged_token : '\u043c\u0430'    \u0412\u0435\u0440\u043d\u0451\u0442: ['\u043c\u0430', '\u043c\u0430', ''] \"\"\" i, output = 0, []    while i &amp;lt; len(tokens): # \u0415\u0441\u043b\u0438 \u0441\u0442\u043e\u044f\u0449\u0438\u0435 \u0440\u044f\u0434\u043e\u043c \u0442\u043e\u043a\u0435\u043d\u044b \u043e\u0431\u0440\u0430\u0437\u0443\u044e\u0442 \u043d\u0443\u0436\u043d\u0443\u044e \u043f\u0430\u0440\u0443 \u2014 \u0441\u043a\u043b\u0435\u0438\u0432\u0430\u0435\u043c if i &amp;lt; len(tokens) - 1 and (tokens[i], tokens[i + 1]) == pair: output.append(merged_token) # \u0432\u043c\u0435\u0441\u0442\u043e \u0434\u0432\u0443\u0445 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043a\u043b\u0430\u0434\u0451\u043c \u043e\u0434\u0438\u043d i += 2 # \u043f\u0440\u043e\u043f\u0443\u0441\u043a\u0430\u0435\u043c \u043e\u0431\u0430 else: output.append(tokens[i]) # \u0438\u043d\u0430\u0447\u0435 \u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u043c \u043a\u0430\u043a \u0435\u0441\u0442\u044c i += 1    return output   def bpe_train(corpus: str, num_merges: int = 100): \"\"\" \u0421\u0442\u0440\u043e\u0438\u0442 \u0441\u043b\u043e\u0432\u0430\u0440\u044c BPE \u043f\u043e \u0437\u0430\u0434\u0430\u043d\u043d\u043e\u043c\u0443 \u0442\u0435\u043a\u0441\u0442\u0443.    corpus : \u0441\u044b\u0440\u043e\u0439 \u0442\u0435\u043a\u0441\u0442 (\u0441\u0442\u0440\u043e\u043a\u0430) \u2014 \u00ab\u043c\u0430\u043c\u0430 \u043c\u044b\u043b\u0430 \u0440\u0430\u043c\u0443\u00bb num_merges : \u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0440\u0430\u0437 \u0432\u044b\u043f\u043e\u043b\u043d\u044f\u0442\u044c \u0441\u043b\u0438\u044f\u043d\u0438\u044f \u0441\u043e\u0441\u0435\u0434\u043d\u0438\u0445 \u043f\u0430\u0440    \u0412\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 set \u0441\u043e \u0432\u0441\u0435\u043c\u0438 \u0442\u043e\u043a\u0435\u043d\u0430\u043c\u0438, \u0432\u043a\u043b\u044e\u0447\u0430\u044f \u043d\u043e\u0432\u044b\u0435 \u0441\u0443\u0431\u0441\u043b\u043e\u0432\u0430. \"\"\"    # 1. \u0411\u0430\u0437\u043e\u0432\u0430\u044f \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u044f: \u043a\u0430\u0436\u0434\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \u2192 \u0441\u043f\u0438\u0441\u043e\u043a \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432 + END-\u043c\u0430\u0440\u043a\u0435\u0440. # \u00ab\u043c\u0430\u043c\u0430\u00bb \u2192 [['\u043c', '\u0430', '\u043c', '\u0430', '']] # \u00ab\u043c\u0430\u043c\u0430 \u043c\u044b\u043b\u0430 \u0440\u0430\u043c\u0443\u00bb \u2192 [['\u043c', '\u0430', '\u043c', '\u0430', ''], ['\u043c', '\u044b', '\u043b', '\u0430', ''], ['\u0440', '\u0430', '\u043c', '\u0443', '']] tokenized = [list(word) + [END] for word in corpus.strip().split()]    # 2. \u041d\u0430\u0447\u0430\u043b\u044c\u043d\u044b\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u2014 \u043f\u0440\u043e\u0441\u0442\u043e \u043c\u043d\u043e\u0436\u0435\u0441\u0442\u0432\u043e \u0432\u0441\u0435\u0445 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u0445 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432 + END. # {'\u0440', '\u043c', '\u0443', '\u043b', '\u0430', '', '\u044b'} vocab = set(t for word in tokenized for t in word)    # 3. \u041f\u044b\u0442\u0430\u0435\u043c\u0441\u044f \u0441\u043e\u0437\u0434\u0430\u0442\u044c \u043d\u043e\u0432\u044b\u0439 \u0442\u043e\u043a\u0435\u043d num_merges \u0440\u0430\u0437. for _ in range(num_merges):    # 3.1 \u041f\u043e\u0434\u0441\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u043c \u0447\u0430\u0441\u0442\u043e\u0442\u044b \u0432\u0441\u0435\u0445 \u0441\u043e\u0441\u0435\u0434\u043d\u0438\u0445 \u043f\u0430\u0440 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0432\u043e \u0432\u0441\u0451\u043c \u043a\u043e\u0440\u043f\u0443\u0441\u0435. # \u0411\u0435\u0440\u0451\u043c 2 \u0441\u043e\u0441\u0435\u0434\u043d\u0438\u0445 \u0442\u043e\u043a\u0435\u043d\u0430 (\u0438\u0437\u043d\u0430\u0447\u0430\u043b\u044c\u043d\u043e \u044d\u0442\u043e \u043f\u0440\u043e\u0441\u0442\u043e \u0441\u0438\u043c\u0432\u043e\u043b\u044b) \u0432 \u043a\u0430\u0436\u0434\u043e\u043c \u0441\u043b\u043e\u0432\u0435, \u0441\u043e\u0435\u0434\u0438\u043d\u044f\u0435\u043c. # \u041f\u0440\u0438\u043c\u0435\u0440 \u043f\u0435\u0440\u0432\u043e\u0439 \u043f\u0440\u043e\u0445\u043e\u0434\u043a\u0438: # \u041f\u0435\u0440\u0432\u043e\u0435 \u0441\u043b\u043e\u0432\u043e: # word = ['\u043c', '\u0430', '\u043c', '\u0430', ''] # list(zip(word, word[1:])) = [('\u043c', '\u0430'), ('\u0430', '\u043c'), ('\u043c', '\u0430'), ('\u0430', '')] # \u041f\u043e\u0441\u043b\u0435 \u043f\u0435\u0440\u0432\u043e\u0439 \u043f\u0440\u043e\u0445\u043e\u0434\u043a\u0438 \u0438\u0437 \u0432\u0441\u0435\u0445 \u0441\u043b\u043e\u0432 \u043f\u043e\u043b\u0443\u0447\u0438\u043c: # pairs = Counter({('\u043c', '\u0430'): 2, ('\u0430', '\u043c'): 2, ('\u0430', ''): 2, ('\u043c', '\u044b'): 1, ('\u044b', '\u043b'): 1, ('\u043b', '\u0430'): 1, ('\u0440', '\u0430'): 1, ('\u043c', '\u0443'): 1, ('\u0443', ''): 1}) # \u041c\u044b \u0432\u0438\u0434\u0438\u043c, \u0447\u0442\u043e ('\u043c', '\u0430') \u0438\u0434\u0451\u0442 \u043f\u0435\u0440\u0432\u044b\u043c \u0438 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f 2 \u0440\u0430\u0437\u0430 pairs = Counter() for word in tokenized: pairs.update(zip(word, word[1:]))    # 3.2 \u0415\u0441\u043b\u0438 \u043f\u0430\u0440 \u0431\u043e\u043b\u044c\u0448\u0435 \u043d\u0435\u0442 (\u0432\u0441\u0435 \u0441\u043b\u043e\u0432\u0430 \u0434\u043b\u0438\u043d\u043e\u0439 1) \u2014 \u0432\u044b\u0445\u043e\u0434\u0438\u043c \u0434\u043e\u0441\u0440\u043e\u0447\u043d\u043e # \u042d\u0442\u043e \u043f\u0440\u043e\u0438\u0441\u0445\u043e\u0434\u0442, \u043a\u043e\u0433\u0434\u0430 \u041a\u0410\u0416\u0414\u041e\u0415 \u0441\u043b\u043e\u0432\u043e \u0432 \u043f\u0435\u0440\u0435\u0434\u0430\u043d\u043d\u043e\u043c \u0442\u0435\u043a\u0441\u0442\u0435 \u0441\u0442\u0430\u043b\u043e \u0446\u0435\u043b\u043c\u044b \u0442\u043e\u043a\u0435\u043d\u043e\u043c if not pairs: break    # 3.3 \u0411\u0435\u0440\u0451\u043c \u0441\u0430\u043c\u0443\u044e \u0447\u0430\u0441\u0442\u0443\u044e \u043f\u0430\u0440\u0443. Counter.most_common(1)[0] \u2192 (\u043f\u0430\u0440\u0430, \u0447\u0430\u0441\u0442\u043e\u0442\u0430) # \u0412 \u043f\u0435\u0440\u0432\u043e\u0439 \u043f\u0440\u043e\u0445\u043e\u0434\u043a\u0435 \u044d\u0442\u043e ('\u043c', '\u0430') best_pair, best_freq = pairs.most_common(1)[0]    # 3.4 \u0421\u043e\u0437\u0434\u0430\u0451\u043c \u043d\u043e\u0432\u044b\u0439 \u0442\u043e\u043a\u0435\u043d, \u0441\u043a\u043b\u0435\u0438\u0432 \u0434\u0432\u0430 \u0441\u0442\u0430\u0440\u044b\u0445 (\u00ab\u043c\u00bb + \u00ab\u0430\u00bb \u2192 \u00ab\u043c\u0430\u00bb) merged_token = \"\".join(best_pair) vocab.add(merged_token) # \u043a\u043b\u0430\u0434\u0451\u043c \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u043e\u0432    # 3.5 \u041f\u0440\u043e\u0445\u043e\u0434\u0438\u043c \u043f\u043e \u043a\u0430\u0436\u0434\u043e\u043c\u0443 \u0441\u043b\u043e\u0432\u0443 \u0438 \u0441\u043a\u043b\u0435\u0438\u0432\u0430\u0435\u043c \u043d\u0430\u0439\u0434\u0435\u043d\u043d\u0443\u044e \u043f\u0430\u0440\u0443. # \u0412 \u043f\u0435\u0440\u0432\u043e\u0439 \u043f\u0440\u043e\u0445\u043e\u0434\u043a\u0435: # [['\u043c', '\u0430', '\u043c', '\u0430', ''], ['\u043c', '\u044b', '\u043b', '\u0430', ''], ['\u0440', '\u0430', '\u043c', '\u0443', '']] \u2192\u2192\u2192\u2192 [['\u043c\u0430', '\u043c\u0430', ''], ['\u043c', '\u044b', '\u043b', '\u0430', ''], ['\u0440', '\u0430', '\u043c', '\u0443', '']] tokenized = [ merge_word(word, best_pair, merged_token) for word in tokenized ]    # \u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u0440\u0430\u0441\u0441\u043c\u043e\u0440\u0438\u043c, \u043a\u0430\u043a \u0431\u0443\u0434\u0435\u0442 \u0432\u044b\u0433\u043b\u044f\u0434\u0435\u0442\u044c \u043d\u0430\u0448\u0430 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u0430\u044f tokenized \u0432 \u043a\u0430\u0436\u0434\u043e\u043c \u043f\u0440\u043e\u0445\u043e\u0434\u0435 # [['\u043c\u0430', '\u043c\u0430', ''], ['\u043c', '\u044b', '\u043b', '\u0430', ''], ['\u0440', '\u0430', '\u043c', '\u0443', '']] # [['\u043c\u0430\u043c\u0430', ''], ['\u043c', '\u044b', '\u043b', '\u0430', ''], ['\u0440', '\u0430', '\u043c', '\u0443', '']] # [['\u043c\u0430\u043c\u0430'], ['\u043c', '\u044b', <\/code><\/pre>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-471327","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/471327","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=471327"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/471327\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=471327"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=471327"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=471327"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}