{"id":480469,"date":"2026-05-21T05:52:51","date_gmt":"2026-05-21T05:52:51","guid":{"rendered":"https:\/\/savepearlharbor.com\/?p=480469"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=480469","title":{"rendered":"\u041a\u0430\u043a \u044f \u043e\u0431\u0443\u0447\u0438\u043b GPT \u0441 \u043d\u0443\u043b\u044f \u043d\u0430 \u0440\u0443\u0441\u0441\u043a\u043e\u043c \u044f\u0437\u044b\u043a\u0435 \u2014 \u0438 \u0447\u0442\u043e \u0438\u0437 \u044d\u0442\u043e\u0433\u043e \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u043e\u0441\u044c"},"content":{"rendered":"<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u0412\u0441\u0451 \u043d\u0430\u0447\u0430\u043b\u043e\u0441\u044c \u0441 \u043d\u0430\u0438\u0432\u043d\u043e\u0439 \u043c\u044b\u0441\u043b\u0438: <em>\u0437\u0430\u0447\u0435\u043c \u043f\u043b\u0430\u0442\u0438\u0442\u044c \u0437\u0430 API \u0438\u043b\u0438 \u0442\u0430\u0449\u0438\u0442\u044c 7B-\u043c\u043e\u0434\u0435\u043b\u044c, \u0435\u0441\u043b\u0438 \u043c\u043d\u0435 \u043d\u0443\u0436\u043d\u0430 \u043c\u0430\u043b\u0435\u043d\u044c\u043a\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u0434\u043b\u044f \u043f\u0440\u043e\u0441\u0442\u044b\u0445 \u0440\u0430\u0437\u0433\u043e\u0432\u043e\u0440\u043e\u0432 \u043d\u0430 \u043e\u0434\u043d\u043e\u043c \u044f\u0437\u044b\u043a\u0435?<\/em> \u041b\u043e\u0433\u0438\u043a\u0430 \u043a\u0430\u0437\u0430\u043b\u0430\u0441\u044c \u0436\u0435\u043b\u0435\u0437\u043d\u043e\u0439 \u2014 \u0431\u043e\u043b\u044c\u0448\u0438\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0443\u043c\u0435\u044e\u0442 \u0432\u0441\u0451 \u0438 \u043d\u0430 \u0432\u0441\u0435\u0445 \u044f\u0437\u044b\u043a\u0430\u0445 \u0441\u0440\u0430\u0437\u0443, \u043d\u043e \u044d\u0442\u043e \u0436\u0435 \u0438\u0437\u0431\u044b\u0442\u043e\u0447\u043d\u043e. 0.7B, \u0437\u0430\u0442\u043e\u0447\u0435\u043d\u043d\u0430\u044f \u043f\u043e\u0434 \u043e\u0434\u0438\u043d \u044f\u0437\u044b\u043a \u0438 \u043e\u0434\u0438\u043d \u0441\u0442\u0438\u043b\u044c \u043e\u0431\u0449\u0435\u043d\u0438\u044f, \u0434\u043e\u043b\u0436\u043d\u0430 \u0441\u043f\u0440\u0430\u0432\u043b\u044f\u0442\u044c\u0441\u044f \u043d\u0435 \u0445\u0443\u0436\u0435.<\/p>\n<p>\u0421\u043f\u043e\u0439\u043b\u0435\u0440: \u044d\u0442\u043e \u0431\u044b\u043b\u043e \u043d\u0430\u0438\u0432\u043d\u043e. \u041d\u043e \u043f\u0443\u0442\u044c \u043e\u043a\u0430\u0437\u0430\u043b\u0441\u044f \u0446\u0435\u043d\u043d\u0435\u0435 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0430.<\/p>\n<p>\u0412 \u044d\u0442\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435 \u2014 \u043a\u0430\u043a \u044f \u043f\u0440\u043e\u0448\u0451\u043b \u043f\u0443\u0442\u044c \u043e\u0442 \u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u043e\u0433\u043e nanoGPT \u0434\u043e \u043a\u0430\u0441\u0442\u043e\u043c\u043d\u043e\u0439 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u044b \u0441 RoPE\/SwiGLU\/GQA, \u0441\u043e\u0431\u0440\u0430\u043b \u0440\u0443\u0441\u0441\u043a\u043e\u044f\u0437\u044b\u0447\u043d\u044b\u0439 \u043a\u043e\u0440\u043f\u0443\u0441 \u0441 \u043d\u0443\u043b\u044f, \u0438 \u043f\u0440\u0438\u0434\u0443\u043c\u0430\u043b \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0451\u043d\u043d\u043e\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043d\u0430 \u0431\u0435\u0441\u043f\u043b\u0430\u0442\u043d\u044b\u0445 Colab-\u0432\u043e\u0440\u043a\u0435\u0440\u0430\u0445 \u0447\u0435\u0440\u0435\u0437 Google Drive.<\/p>\n<hr\/>\n<h3>\u041f\u043e\u0447\u0435\u043c\u0443 \u043d\u0435 \u0432\u0437\u044f\u0442\u044c \u0433\u043e\u0442\u043e\u0432\u0443\u044e \u043c\u043e\u0434\u0435\u043b\u044c?<\/h3>\n<p>\u0427\u0435\u0441\u0442\u043d\u044b\u0439 \u043e\u0442\u0432\u0435\u0442: \u043f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e \u0445\u043e\u0442\u0435\u043b \u0440\u0430\u0437\u043e\u0431\u0440\u0430\u0442\u044c\u0441\u044f \u043a\u0430\u043a \u043e\u043d\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0438\u0437\u043d\u0443\u0442\u0440\u0438. \u0412\u0437\u044f\u0442\u044c Qwen \u0438\u043b\u0438 Llama, \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u044c \u0444\u0430\u0439\u043d-\u0442\u044e\u043d\u0438\u043d\u0433 \u2014 \u044d\u0442\u043e \u043f\u043e\u043d\u044f\u0442\u043d\u043e \u0438 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442. \u041d\u043e \u043a\u043e\u0433\u0434\u0430 \u0442\u044b \u0441\u0430\u043c \u0441\u0442\u0440\u043e\u0438\u0448\u044c \u043c\u043e\u0434\u0435\u043b\u044c \u0441 \u043d\u0443\u043b\u044f, \u043a\u0430\u0436\u0434\u0430\u044f \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u043d\u0430\u044f \u0434\u0435\u0442\u0430\u043b\u044c \u043f\u0435\u0440\u0435\u0441\u0442\u0430\u0451\u0442 \u0431\u044b\u0442\u044c \u043c\u0430\u0433\u0438\u0435\u0439.<\/p>\n<p>\u041f\u043b\u044e\u0441 \u0431\u044b\u043b\u0430 \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u0430\u044f \u0437\u0430\u0434\u0430\u0447\u0430: \u043d\u0443\u0436\u0435\u043d \u043f\u0435\u0440\u0441\u043e\u043d\u0430\u0436 \u0441 \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0451\u043d\u043d\u044b\u043c \u0441\u0442\u0438\u043b\u0435\u043c \u0440\u0435\u0447\u0438, \u043d\u0430 \u0440\u0443\u0441\u0441\u043a\u043e\u043c \u044f\u0437\u044b\u043a\u0435. \u041a\u0430\u0437\u0430\u043b\u043e\u0441\u044c \u043b\u043e\u0433\u0438\u0447\u043d\u044b\u043c \u2014 \u043c\u0435\u043d\u044c\u0448\u0435 \u043c\u043e\u0434\u0435\u043b\u044c, \u043c\u0435\u043d\u044c\u0448\u0435 \u0440\u0435\u0441\u0443\u0440\u0441\u043e\u0432, \u043f\u0440\u043e\u0449\u0435 \u0443\u043f\u0440\u0430\u0432\u043b\u044f\u0442\u044c \u043f\u043e\u0432\u0435\u0434\u0435\u043d\u0438\u0435\u043c. \u041e\u043a\u0430\u0437\u0430\u043b\u043e\u0441\u044c, \u0447\u0442\u043e 0.7B \u044d\u0442\u043e \u043e\u0447\u0435\u043d\u044c \u043c\u0430\u043b\u043e \u0434\u043b\u044f \u043d\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u043e\u0439 \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u0438 \u0441\u0432\u044f\u0437\u043d\u043e\u0433\u043e \u0442\u0435\u043a\u0441\u0442\u0430, \u043d\u043e \u044d\u0442\u043e \u044f \u043f\u043e\u043d\u044f\u043b \u043f\u043e\u0437\u0436\u0435.<\/p>\n<hr\/>\n<h3>\u0414\u0430\u0442\u0430\u0441\u0435\u0442: \u043a\u0430\u043a\u043e\u0439 \u044f\u0437\u044b\u043a \u043f\u043e\u0445\u043e\u0436 \u043d\u0430 \u043d\u0443\u0436\u043d\u044b\u0439 \u043c\u043d\u0435<\/h3>\n<p>\u041f\u0435\u0440\u0435\u0434 \u0441\u0431\u043e\u0440\u043e\u043c \u0434\u0430\u043d\u043d\u044b\u0445 \u0432\u0441\u0442\u0430\u043b \u043d\u0435\u043e\u0447\u0435\u0432\u0438\u0434\u043d\u044b\u0439 \u0432\u043e\u043f\u0440\u043e\u0441: \u043a\u0430\u043a\u043e\u0439 \u0441\u0442\u0438\u043b\u044c \u0440\u0443\u0441\u0441\u043a\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430 \u043d\u0443\u0436\u0435\u043d? \u041e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u0435 \u043d\u043e\u0432\u043e\u0441\u0442\u0438 \u2014 \u043d\u0435\u0442. \u041d\u0430\u0443\u0447\u043d\u044b\u0435 \u0442\u0435\u043a\u0441\u0442\u044b \u2014 \u043d\u0435\u0442. \u041d\u0443\u0436\u0435\u043d \u0431\u044b\u043b \u0436\u0438\u0432\u043e\u0439, \u0440\u0430\u0437\u0433\u043e\u0432\u043e\u0440\u043d\u044b\u0439, \u044d\u043c\u043e\u0446\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0439 \u044f\u0437\u044b\u043a.<\/p>\n<p>\u041a\u043e\u0440\u043f\u0443\u0441 \u0441\u043e\u0431\u0440\u0430\u043b \u0438\u0437 \u0442\u0440\u0451\u0445 \u0447\u0430\u0441\u0442\u0435\u0439:<\/p>\n<p><strong>Taiga<\/strong> \u2014 \u0433\u043e\u0442\u043e\u0432\u044b\u0439 \u0440\u0443\u0441\u0441\u043a\u043e\u044f\u0437\u044b\u0447\u043d\u044b\u0439 \u043a\u043e\u0440\u043f\u0443\u0441: \u043d\u043e\u0432\u043e\u0441\u0442\u0438, \u0436\u0443\u0440\u043d\u0430\u043b\u044b, \u0445\u0443\u0434\u043e\u0436\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u0430\u044f \u043b\u0438\u0442\u0435\u0440\u0430\u0442\u0443\u0440\u0430, \u0441\u0443\u0431\u0442\u0438\u0442\u0440\u044b. \u0425\u043e\u0440\u043e\u0448\u0430\u044f \u0431\u0430\u0437\u0430, \u043d\u043e \u0441\u0442\u0438\u043b\u044c \u043d\u0435\u043e\u0434\u043d\u043e\u0440\u043e\u0434\u043d\u044b\u0439.<\/p>\n<p><strong>\u0421\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u0441\u043a\u0440\u0435\u0439\u043f<\/strong> \u2014 ~566k \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0438\u0433\u0440\u043e\u0432\u044b\u0445 \u043c\u0435\u0434\u0438\u0430, \u0431\u043b\u043e\u0433-\u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c, \u043b\u0438\u0442\u0435\u0440\u0430\u0442\u0443\u0440\u043d\u044b\u0445 \u0441\u043e\u043e\u0431\u0449\u0435\u0441\u0442\u0432. \u0418\u043c\u0435\u043d\u043d\u043e \u0437\u0434\u0435\u0441\u044c \u0436\u0438\u0432\u043e\u0439 \u044f\u0437\u044b\u043a: \u044d\u043c\u043e\u0446\u0438\u0438, \u0441\u043b\u0435\u043d\u0433, \u043d\u0435\u0444\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u044b\u0435 \u043e\u0431\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u044f.<\/p>\n<p><strong>FineWeb2<\/strong> (<code>rus_Cyrl<\/code>) \u2014 \u0432\u0435\u0431-\u043a\u043e\u0440\u043f\u0443\u0441, \u043d\u043e \u0441\u044b\u0440\u043e\u0439. \u0415\u0433\u043e \u043f\u0440\u0438\u0448\u043b\u043e\u0441\u044c \u0444\u0438\u043b\u044c\u0442\u0440\u043e\u0432\u0430\u0442\u044c \u0441\u0442\u0440\u0438\u043c\u0438\u043d\u0433\u043e\u0432\u044b\u043c \u043f\u0430\u0439\u043f\u043b\u0430\u0439\u043d\u043e\u043c.<\/p>\n<h4>\u0424\u0438\u043b\u044c\u0442\u0440\u0430\u0446\u0438\u044f FineWeb2<\/h4>\n<p>\u0412\u0435\u0431-\u0434\u0430\u043d\u043d\u044b\u0435 \u2014 \u044d\u0442\u043e \u043c\u0443\u0441\u043e\u0440 \u043f\u043e \u0443\u043c\u043e\u043b\u0447\u0430\u043d\u0438\u044e. SEO-\u0442\u0435\u043a\u0441\u0442\u044b, \u043f\u0440\u0430\u0439\u0441-\u043b\u0438\u0441\u0442\u044b, \u0440\u0435\u0437\u044e\u043c\u0435, \u0431\u0438\u0442\u044b\u0435 \u0441\u0438\u043c\u0432\u043e\u043b\u044b. \u041d\u0430\u043f\u0438\u0441\u0430\u043b \u0441\u0442\u0440\u0438\u043c\u0438\u043d\u0433\u043e\u0432\u044b\u0439 \u0444\u0438\u043b\u044c\u0442\u0440 \u0447\u0442\u043e\u0431\u044b \u043d\u0435 \u0433\u0440\u0443\u0437\u0438\u0442\u044c \u0432\u0441\u0451 \u0432 \u043f\u0430\u043c\u044f\u0442\u044c:<\/p>\n<pre><code class=\"python\">@dataclassclass Config:    min_chars: int = 50    max_chars: int = 5000    min_letter_ratio: float = 0.4      # \u043c\u0438\u043d\u0438\u043c\u0443\u043c 40% \u0431\u0443\u043a\u0432 \u0432 \u0442\u0435\u043a\u0441\u0442\u0435    max_special_ratio: float = 0.25    # \u043d\u0435 \u0431\u043e\u043b\u044c\u0448\u0435 25% \u0441\u043f\u0435\u0446\u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432    lang_conf_threshold: float = 0.6   # \u0443\u0432\u0435\u0440\u0435\u043d\u043d\u043e\u0441\u0442\u044c langid    simhash_threshold: int = 3         # \u043f\u043e\u0440\u043e\u0433 \u0434\u043b\u044f \u0434\u0435\u0434\u0443\u043f\u043b\u0438\u043a\u0430\u0446\u0438\u0438<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:87px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041f\u043b\u044e\u0441 \u0441\u043f\u0438\u0441\u043e\u043a \u0441\u0442\u043e\u043f-\u0441\u043b\u043e\u0432 \u0434\u043b\u044f \u0431\u044b\u0441\u0442\u0440\u043e\u0439 \u0444\u0438\u043b\u044c\u0442\u0440\u0430\u0446\u0438\u0438 (\u201c\u0440\u0435\u0437\u044e\u043c\u0435\u201d, \u201c\u043f\u0440\u0430\u0439\u0441-\u043b\u0438\u0441\u0442\u201d, \u201cseo\u201d, \u201c\u0432\u0430\u043a\u0430\u043d\u0441\u0438\u044f\u201d \u0438 \u0442.\u0434.) \u2014 \u0434\u0435\u0448\u0435\u0432\u043b\u0435 langid \u0438 \u043e\u0442\u0441\u0435\u043a\u0430\u0435\u0442 \u0431\u043e\u043b\u044c\u0448\u0443\u044e \u0447\u0430\u0441\u0442\u044c \u043c\u0443\u0441\u043e\u0440\u0430 \u0434\u043e \u0442\u044f\u0436\u0451\u043b\u044b\u0445 \u043f\u0440\u043e\u0432\u0435\u0440\u043e\u043a.<\/p>\n<p>\u0418\u0442\u043e\u0433\u043e: ~12B \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043f\u043e\u0441\u043b\u0435 \u0444\u0438\u043b\u044c\u0442\u0440\u0430\u0446\u0438\u0438.<\/p>\n<h4>\u0422\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0442\u043e\u0440<\/h4>\n<p>\u041a\u0430\u0441\u0442\u043e\u043c\u043d\u044b\u0439 BPE \u043d\u0430 51 200 \u0442\u043e\u043a\u0435\u043d\u043e\u0432, \u043e\u0431\u0443\u0447\u0435\u043d\u043d\u044b\u0439 \u043d\u0430 \u0440\u0443\u0441\u0441\u043a\u043e\u044f\u0437\u044b\u0447\u043d\u043e\u043c \u043a\u043e\u0440\u043f\u0443\u0441\u0435. GPT-2-\u0448\u043d\u044b\u0439 \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0442\u043e\u0440 \u043f\u043b\u043e\u0445\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0441 \u0440\u0443\u0441\u0441\u043a\u0438\u043c \u2014 \u0441\u043b\u043e\u0432\u0430 \u0440\u0430\u0437\u0431\u0438\u0432\u0430\u044e\u0442\u0441\u044f \u043d\u0430 \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u043c\u0435\u043b\u043a\u0438\u0435 \u043a\u0443\u0441\u043a\u0438, \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u043d\u043e\u0435 \u043e\u043a\u043d\u043e \u0440\u0430\u0441\u0445\u043e\u0434\u0443\u0435\u0442\u0441\u044f \u043d\u0435\u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e.<\/p>\n<hr\/>\n<h3>\u042d\u0432\u043e\u043b\u044e\u0446\u0438\u044f \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u044b: \u043f\u044f\u0442\u044c \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u0439<\/h3>\n<h4>\u0418\u0442\u0435\u0440\u0430\u0446\u0438\u044f 1 \u2014 GPT-2 Small, \u0431\u0430\u0437\u043e\u0432\u044b\u0439 \u0441\u0442\u0430\u0440\u0442<\/h4>\n<p>\u041f\u0435\u0440\u0432\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u2014 \u0447\u0438\u0441\u0442\u044b\u0439 nanoGPT \u0431\u0435\u0437 \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u0439. 124M \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432, fp32, \u0431\u0435\u0437 \u043a\u043e\u043c\u043f\u0438\u043b\u044f\u0446\u0438\u0438.<\/p>\n<pre><code>batch_size=8, block_size=1024, grad_accum=1, iters=600ktrain loss: 3.99 | val loss: 4.02<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0420\u0430\u0431\u043e\u0442\u0430\u0435\u0442, \u043e\u0431\u0443\u0447\u0430\u0435\u0442\u0441\u044f, loss \u043f\u0430\u0434\u0430\u0435\u0442. \u041d\u043e \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u043e \u0438 \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u044f \u0441\u043b\u0430\u0431\u0430\u044f \u2014 \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u043c\u0430\u043b\u043e \u0434\u0430\u043d\u043d\u044b\u0445. \u0421\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0439 \u0448\u0430\u0433 \u2014 \u0434\u043e\u0431\u0430\u0432\u0438\u043b <code>torch.compile<\/code> \u0438 \u043f\u0435\u0440\u0435\u0445\u043e\u0434 \u043d\u0430 fp16. \u0422\u043e\u043b\u044c\u043a\u043e \u044d\u0442\u043e \u0434\u0430\u043b\u043e \u0437\u0430\u043c\u0435\u0442\u043d\u044b\u0439 \u043f\u0440\u0438\u0440\u043e\u0441\u0442 \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u0438 \u0431\u0435\u0437 \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u044b.<\/p>\n<h4>\u0418\u0442\u0435\u0440\u0430\u0446\u0438\u044f 2 \u2014 GPT-2 Small, \u0434\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u0433\u0438\u043f\u0435\u0440\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b<\/h4>\n<p>\u0413\u043b\u0430\u0432\u043d\u044b\u0439 \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442: \u043c\u0435\u043d\u044f\u0442\u044c \u0433\u0438\u043f\u0435\u0440\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b \u043f\u0440\u044f\u043c\u043e \u0432 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f, \u043d\u0435 \u043f\u0435\u0440\u0435\u0437\u0430\u043f\u0443\u0441\u043a\u0430\u044f. \u041f\u043e\u0441\u0442\u0435\u043f\u0435\u043d\u043d\u043e \u0443\u0432\u0435\u043b\u0438\u0447\u0438\u0432\u0430\u043b batch size \u0438 gradient accumulation, \u043f\u043e\u0434\u0431\u0438\u0440\u0430\u043b weight decay.<\/p>\n<pre><code>block_size=1024batch size: 8 \u2192 16 \u2192 20grad accum: 3 \u2192 6 \u2192 9 \u2192 12 \u2192 24weight decay: 0.1 \u2192 0.01 \u2192 0.05 \u2192 0.1\u0442\u043e\u043a\u0435\u043d\u043e\u0432: ~5.3Btrain loss: 3.24 | val loss: 3.30<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0421\u0443\u0449\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u043f\u0440\u043e\u0433\u0440\u0435\u0441\u0441. \u0411\u043e\u043b\u044c\u0448\u043e\u0439 gradient accumulation = \u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u044b\u0439 \u0431\u0430\u0442\u0447 = \u0441\u0442\u0430\u0431\u0438\u043b\u044c\u043d\u0435\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435. \u041d\u043e \u0443\u0434\u0430\u0440 \u043f\u043e \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u0438 \u043e\u0449\u0443\u0442\u0438\u043c\u044b\u0439.<\/p>\n<h4>\u0418\u0442\u0435\u0440\u0430\u0446\u0438\u044f 3 \u2014 GPT-2 Medium, \u043f\u0435\u0440\u0435\u0445\u043e\u0434 \u043d\u0430 345M<\/h4>\n<p>\u0422\u0430 \u0436\u0435 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430, \u0431\u043e\u043b\u044c\u0448\u0435 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432. \u0414\u043e\u0431\u0430\u0432\u0438\u043b dropout \u0432\u043e \u0432\u0442\u043e\u0440\u043e\u0439 \u043f\u043e\u043b\u043e\u0432\u0438\u043d\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f.<\/p>\n<pre><code>batch_size=4, grad_accum: 20 \u2192 60dropout: 0 \u2192 0.05 (\u0441\u043e \u0432\u0442\u043e\u0440\u043e\u0439 \u043f\u043e\u043b\u043e\u0432\u0438\u043d\u044b)\u0442\u043e\u043a\u0435\u043d\u043e\u0432: ~5.5Btrain loss: 3.07 | val loss: 3.12<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<h4>\u0418\u0442\u0435\u0440\u0430\u0446\u0438\u044f 4 \u2014 GPT-2 Large, \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0451\u043d\u043d\u043e\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435<\/h4>\n<p>GPT-2 Large (774M) \u0442\u0435\u0445\u043d\u0438\u0447\u0435\u0441\u043a\u0438 \u0432\u043b\u0435\u0437\u0430\u043b \u0432 \u043e\u0434\u043d\u0443 Colab-\u0441\u0435\u0441\u0441\u0438\u044e, \u043d\u043e \u0442\u043e\u043b\u044c\u043a\u043e \u0441 gradient checkpointing. \u042d\u0442\u043e \u043a\u043e\u0433\u0434\u0430 \u0430\u043a\u0442\u0438\u0432\u0430\u0446\u0438\u0438 \u043d\u0435 \u0441\u043e\u0445\u0440\u0430\u043d\u044f\u044e\u0442\u0441\u044f \u043f\u0440\u0438 forward \u0438 \u043f\u0435\u0440\u0435\u0441\u0447\u0438\u0442\u044b\u0432\u0430\u044e\u0442\u0441\u044f \u0437\u0430\u043d\u043e\u0432\u043e \u043f\u0440\u0438 backward. \u041f\u0430\u043c\u044f\u0442\u044c \u044d\u043a\u043e\u043d\u043e\u043c\u0438\u0442\u0441\u044f, \u043d\u043e \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c \u043f\u0430\u0434\u0430\u0435\u0442 \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u0432 2 \u0440\u0430\u0437\u0430. \u041d\u0430 \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0441\u0442\u0430\u043b\u043e \u043d\u0435\u0432\u044b\u043d\u043e\u0441\u0438\u043c\u043e \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u044b\u043c.<\/p>\n<p>\u0418\u043c\u0435\u043d\u043d\u043e \u0438\u0437-\u0437\u0430 \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u0438 \u043f\u043e\u044f\u0432\u0438\u043b\u0430\u0441\u044c \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0451\u043d\u043d\u0430\u044f \u0441\u0445\u0435\u043c\u0430 \u2014 \u043e\u0431 \u044d\u0442\u043e\u043c \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u0439 \u0440\u0430\u0437\u0434\u0435\u043b \u043d\u0438\u0436\u0435.<\/p>\n<pre><code>n_layer=36, n_head=20, n_embd=1280block_size=2048, batch_size=2, grad_accum=125\u0442\u043e\u043a\u0435\u043d\u043e\u0432: ~15Btrain loss: 2.86 | val loss: 3.04<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041f\u0440\u0438 5 \u0432\u043e\u0440\u043a\u0435\u0440\u0430\u0445 \u0443\u0441\u043a\u043e\u0440\u0435\u043d\u0438\u0435 \u0432\u044b\u0448\u043b\u043e \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e x2 \u043e\u0442\u043d\u043e\u0441\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u043e\u0434\u043d\u043e\u0433\u043e \u2014 \u043a\u0430\u0437\u0430\u043b\u043e\u0441\u044c \u0431\u044b \u043d\u0435\u043c\u043d\u043e\u0433\u043e, \u043d\u043e \u043d\u0430 \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435 \u044d\u0442\u043e \u0440\u0430\u0437\u043d\u0438\u0446\u0430 \u043c\u0435\u0436\u0434\u0443 \u201c\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0438\u0434\u0451\u0442\u201d \u0438 \u201c\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0441\u0442\u043e\u0438\u0442\u201d. 15B \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0438 774M \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u2014 \u0443\u0436\u0435 \u0447\u0443\u0432\u0441\u0442\u0432\u0443\u0435\u0442\u0441\u044f \u0432 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u0438.<\/p>\n<h4>\u0418\u0442\u0435\u0440\u0430\u0446\u0438\u044f 5 \u2014 \u043a\u0430\u0441\u0442\u043e\u043c\u043d\u0430\u044f \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430<\/h4>\n<p>\u0424\u0438\u043d\u0430\u043b\u044c\u043d\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u2014 \u043f\u0435\u0440\u0435\u0440\u0430\u0431\u043e\u0442\u0430\u043d\u043d\u0430\u044f \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u0441 \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u043c\u0438 \u043a\u043e\u043c\u043f\u043e\u043d\u0435\u043d\u0442\u0430\u043c\u0438. \u041f\u043e \u0441\u0443\u0442\u0438, \u044d\u0442\u043e \u0442\u043e, \u0447\u0435\u043c \u043e\u0442\u043b\u0438\u0447\u0430\u0435\u0442\u0441\u044f \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0439 LLaMA-\u0441\u0442\u0438\u043b\u044c \u043e\u0442 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b\u044c\u043d\u043e\u0433\u043e GPT-2.<\/p>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<th>\n<p align=\"left\">\u041a\u043e\u043c\u043f\u043e\u043d\u0435\u043d\u0442<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0411\u044b\u043b\u043e (GPT-2)<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0421\u0442\u0430\u043b\u043e<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0417\u0430\u0447\u0435\u043c<\/p>\n<\/th>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\u041f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u043d\u044b\u0435 \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0410\u0431\u0441\u043e\u043b\u044e\u0442\u043d\u044b\u0435<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>RoPE<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041b\u0443\u0447\u0448\u0430\u044f \u044d\u043a\u0441\u0442\u0440\u0430\u043f\u043e\u043b\u044f\u0446\u0438\u044f \u043d\u0430 \u0434\u043b\u0438\u043d\u043d\u044b\u0435 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u044b<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\u041d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044f<\/p>\n<\/td>\n<td>\n<p align=\"left\">LayerNorm<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>RMSNorm<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0411\u044b\u0441\u0442\u0440\u0435\u0435, \u0431\u0435\u0437 bias<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\u0410\u043a\u0442\u0438\u0432\u0430\u0446\u0438\u044f<\/p>\n<\/td>\n<td>\n<p align=\"left\">GELU<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>SwiGLU<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041b\u0443\u0447\u0448\u0435 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u043f\u0440\u0438 \u0442\u0435\u0445 \u0436\u0435 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u0445<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">Attention<\/p>\n<\/td>\n<td>\n<p align=\"left\">MHA<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>GQA<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041c\u0435\u043d\u044c\u0448\u0435 KV-\u043a\u0435\u0448, \u0431\u044b\u0441\u0442\u0440\u0435\u0435 \u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\u0412\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u0435 attention<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0420\u0443\u0447\u043d\u043e\u0435<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>Flash Attention<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0421\u0443\u0449\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e \u0431\u044b\u0441\u0442\u0440\u0435\u0435 \u043d\u0430 GPU<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<pre><code>\u0442\u043e\u043a\u0435\u043d\u043e\u0432: ~5.1Btrain loss: 3.07 | val loss: 3.11<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>Loss \u043f\u043e\u0445\u043e\u0436 \u043d\u0430 \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u044e 3, \u043d\u043e \u043c\u043e\u0434\u0435\u043b\u044c \u043c\u0435\u043d\u044c\u0448\u0435 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0432\u0438\u0434\u0435\u043b\u0430 \u2014 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u0435\u0435 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b. \u0418 \u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441 \u0437\u0430\u043c\u0435\u0442\u043d\u043e \u0431\u044b\u0441\u0442\u0440\u0435\u0435.<\/p>\n<hr\/>\n<h3>\u0414\u0435\u0442\u0430\u043b\u0438 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u044b<\/h3>\n<h4>RoPE<\/h4>\n<p>\u0412\u043c\u0435\u0441\u0442\u043e \u0442\u0430\u0431\u043b\u0438\u0446\u044b \u0430\u0431\u0441\u043e\u043b\u044e\u0442\u043d\u044b\u0445 \u043f\u043e\u0437\u0438\u0446\u0438\u0439 \u2014 \u043f\u043e\u0432\u043e\u0440\u043e\u0442 \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432 Q \u0438 K \u0432 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438 \u043e\u0442 \u043f\u043e\u0437\u0438\u0446\u0438\u0438. \u041e\u0442\u043d\u043e\u0441\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0435 \u0440\u0430\u0441\u0441\u0442\u043e\u044f\u043d\u0438\u0435 \u043c\u0435\u0436\u0434\u0443 \u0442\u043e\u043a\u0435\u043d\u0430\u043c\u0438 \u043a\u043e\u0434\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u0432 \u0441\u0430\u043c\u043e\u043c attention.<\/p>\n<pre><code class=\"python\">def apply_rotary_pos_emb(q, k, cos, sin):    q_embed = (q * cos) + (rotate_half(q) * sin)    k_embed = (k * cos) + (rotate_half(k) * sin)    return q_embed, k_embed<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<h4>SwiGLU<\/h4>\n<p>\u0412\u043c\u0435\u0441\u0442\u043e \u043e\u0434\u043d\u043e\u0439 \u043c\u0430\u0442\u0440\u0438\u0446\u044b \u0432 FFN \u2014 \u0434\u0432\u0435, \u0441 gate-\u043c\u0435\u0445\u0430\u043d\u0438\u0437\u043c\u043e\u043c:<\/p>\n<pre><code class=\"python\">def forward(self, x):    return self.w3(self.swish(self.w1(x)) * self.w2(x))<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p><code>hidden_dim = int(4 * d_model * 2\/3)<\/code> \u2014 \u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u0430\u044f \u0444\u043e\u0440\u043c\u0443\u043b\u0430 \u0447\u0442\u043e\u0431\u044b \u043a\u043e\u043c\u043f\u0435\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u0443\u044e \u043c\u0430\u0442\u0440\u0438\u0446\u0443 \u0438 \u0441\u043e\u0445\u0440\u0430\u043d\u0438\u0442\u044c \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u0442\u043e\u0442 \u0436\u0435 FLOPs.<\/p>\n<h4>GQA<\/h4>\n<p>Grouped Query Attention: \u0432\u043c\u0435\u0441\u0442\u043e \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u0445 KV-\u0433\u043e\u043b\u043e\u0432 \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0439 Q-\u0433\u043e\u043b\u043e\u0432\u044b \u2014 \u043e\u0434\u043d\u0430 \u0433\u0440\u0443\u043f\u043f\u0430 KV \u043d\u0430 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e Q. \u041c\u0435\u043d\u044c\u0448\u0435 \u043f\u0430\u043c\u044f\u0442\u0438, \u0431\u044b\u0441\u0442\u0440\u0435\u0435 \u2014 \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u043f\u0440\u0438 \u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441\u0435 \u0441 \u0434\u043b\u0438\u043d\u043d\u044b\u043c \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u043e\u043c.<\/p>\n<pre><code class=\"python\">if self.n_kv_head != self.n_head:    k = k.repeat_interleave(self.n_head \/\/ self.n_kv_head, dim=1)    v = v.repeat_interleave(self.n_head \/\/ self.n_kv_head, dim=1)<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<h4>Selective Gradient Checkpointing<\/h4>\n<p>\u041f\u043e\u043b\u043d\u044b\u0439 gradient checkpointing \u0440\u0435\u0436\u0435\u0442 \u043f\u0430\u043c\u044f\u0442\u044c \u0432 2x, \u043d\u043e \u0437\u0430\u043c\u0435\u0434\u043b\u044f\u0435\u0442 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043d\u0430 ~30% \u2014 \u043f\u0435\u0440\u0435\u0441\u0447\u0438\u0442\u044b\u0432\u0430\u044e\u0442\u0441\u044f \u0430\u043a\u0442\u0438\u0432\u0430\u0446\u0438\u0438 \u043f\u0440\u0438 backward pass. \u0420\u0435\u0448\u0435\u043d\u0438\u0435: \u0447\u0435\u043a\u043f\u043e\u0438\u043d\u0442\u0438\u0442\u044c \u0442\u043e\u043b\u044c\u043a\u043e \u0447\u0430\u0441\u0442\u044c \u0441\u043b\u043e\u0451\u0432.<\/p>\n<pre><code class=\"python\">checkpoint_strategy: str = \"custom\"  # \"alternate\", \"first_last\", \"custom\", \"all\"<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041d\u0430 \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435 \u0447\u0435\u043a\u043f\u043e\u0438\u043d\u0442\u0438\u043d\u0433 \u0447\u0451\u0442\u043d\u044b\u0445 \u0441\u043b\u043e\u0451\u0432 \u0434\u0430\u0432\u0430\u043b \u0445\u043e\u0440\u043e\u0448\u0438\u0439 \u0431\u0430\u043b\u0430\u043d\u0441 \u043f\u0430\u043c\u044f\u0442\u0438 \u0438 \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u0438.<\/p>\n<hr\/>\n<h3>\u0420\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0451\u043d\u043d\u043e\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043d\u0430 Colab \u0447\u0435\u0440\u0435\u0437 Google Drive<\/h3>\n<p>\u042d\u0442\u043e \u0441\u0430\u043c\u0430\u044f \u043d\u0435\u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u0430\u044f \u0447\u0430\u0441\u0442\u044c \u043f\u0440\u043e\u0435\u043a\u0442\u0430. GPT-2 Large \u0441 \u043f\u043e\u043b\u043d\u044b\u043c gradient checkpointing \u043e\u0431\u0443\u0447\u0430\u043b\u0441\u044f \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u043e \u043d\u0430 \u043e\u0434\u043d\u043e\u0439 \u0441\u0435\u0441\u0441\u0438\u0438. \u041d\u0443\u0436\u043d\u043e \u0431\u044b\u043b\u043e \u0440\u0430\u0441\u043f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u0438\u0442\u044c.<\/p>\n<p>\u0421\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u044b\u0439 DDP \u0447\u0435\u0440\u0435\u0437 NCCL \u0438\u043b\u0438 Gloo \u0442\u0440\u0435\u0431\u0443\u0435\u0442 \u043f\u0440\u044f\u043c\u043e\u0439 \u0441\u0432\u044f\u0437\u0438 \u043c\u0435\u0436\u0434\u0443 \u043d\u043e\u0434\u0430\u043c\u0438. \u0412 Colab \u044d\u0442\u043e \u043d\u0435\u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e \u2014 \u0443 \u0441\u0435\u0441\u0441\u0438\u0439 \u043d\u0435\u0442 \u043f\u043e\u0441\u0442\u043e\u044f\u043d\u043d\u044b\u0445 IP, \u043d\u0435\u0442 \u043e\u0431\u0449\u0435\u0439 \u0441\u0435\u0442\u0438. \u041d\u0443\u0436\u0435\u043d \u0431\u044b\u043b \u0434\u0440\u0443\u0433\u043e\u0439 \u0442\u0440\u0430\u043d\u0441\u043f\u043e\u0440\u0442.<\/p>\n<h4>\u0418\u0434\u0435\u044f: Google Drive \u043a\u0430\u043a \u0448\u0438\u043d\u0430 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u043e\u0432<\/h4>\n<p>Google \u0414\u0438\u0441\u043a \u0432 Colab \u043c\u043e\u043d\u0442\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u043a\u0430\u043a \u043e\u0431\u044b\u0447\u043d\u0430\u044f \u0444\u0430\u0439\u043b\u043e\u0432\u0430\u044f \u0441\u0438\u0441\u0442\u0435\u043c\u0430. \u041a\u0430\u0436\u0434\u044b\u0439 \u0432\u043e\u0440\u043a\u0435\u0440 \u043c\u043e\u0436\u0435\u0442 \u043f\u0438\u0441\u0430\u0442\u044c \u0438 \u0447\u0438\u0442\u0430\u0442\u044c \u0444\u0430\u0439\u043b\u044b. \u0417\u043d\u0430\u0447\u0438\u0442, \u043c\u043e\u0436\u043d\u043e \u043f\u0435\u0440\u0435\u0434\u0430\u0432\u0430\u0442\u044c \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u044b \u0447\u0435\u0440\u0435\u0437 \u0444\u0430\u0439\u043b\u044b.<\/p>\n<p><strong>\u0421\u0445\u0435\u043c\u0430:<\/strong><\/p>\n<pre><code>\u0412\u043e\u0440\u043a\u0435\u0440 1                          \u0412\u043e\u0440\u043a\u0435\u0440 2\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500                         \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500forward pass                      forward passbackward pass                     backward pass\u0441\u043e\u0445\u0440\u0430\u043d\u0438\u0442\u044c grad_iter_N_worker_1.pt \u0441\u043e\u0445\u0440\u0430\u043d\u0438\u0442\u044c grad_iter_N_worker_2.pt       \u2193                                 \u2193       \u043e\u0436\u0438\u0434\u0430\u043d\u0438\u0435 \u0444\u0430\u0439\u043b\u0430 \u0432\u043e\u0440\u043a\u0435\u0440\u0430 2          \u043e\u0436\u0438\u0434\u0430\u043d\u0438\u0435 \u0444\u0430\u0439\u043b\u0430 \u0432\u043e\u0440\u043a\u0435\u0440\u0430 1       \u2193                                 \u2193\u0437\u0430\u0433\u0440\u0443\u0437\u0438\u0442\u044c, \u0443\u0441\u0440\u0435\u0434\u043d\u0438\u0442\u044c, \u043f\u0440\u0438\u043c\u0435\u043d\u0438\u0442\u044c  \u0437\u0430\u0433\u0440\u0443\u0437\u0438\u0442\u044c, \u0443\u0441\u0440\u0435\u0434\u043d\u0438\u0442\u044c, \u043f\u0440\u0438\u043c\u0435\u043d\u0438\u0442\u044coptimizer.step()                  optimizer.step()<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041a\u0430\u0436\u0434\u044b\u0439 \u0432\u043e\u0440\u043a\u0435\u0440 \u0437\u043d\u0430\u0435\u0442 \u0441\u0432\u043e\u0451 <code>worker_id<\/code> \u0438 \u043e\u0431\u0449\u0435\u0435 <code>count_workers<\/code>. \u041f\u043e\u0441\u043b\u0435 backward pass \u2014 \u0441\u043e\u0445\u0440\u0430\u043d\u044f\u0435\u0442 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u044b \u043f\u043e\u0434 \u0441\u0432\u043e\u0438\u043c ID \u0438 \u043d\u043e\u043c\u0435\u0440\u043e\u043c \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u0438, \u0437\u0430\u0442\u0435\u043c \u0436\u0434\u0451\u0442 \u0444\u0430\u0439\u043b\u044b \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0445.<\/p>\n<pre><code class=\"python\"># \u0421\u043e\u0445\u0440\u0430\u043d\u0435\u043d\u0438\u0435 \u0441\u0432\u043e\u0438\u0445 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u043e\u0432save_gradients(model, f\"drive\/...\/grad_iter_{local_iter_num}_worker_{worker_id}.pt\")# \u041e\u0436\u0438\u0434\u0430\u043d\u0438\u0435 \u0438 \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0430 \u0447\u0443\u0436\u0438\u0445paths = [f\"grad_iter_{local_iter_num}_worker_{i}.pt\"         for i in range(1, count_workers + 1) if i != worker_id]accumulate_gradients_into_model(model, paths)<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0423\u0441\u0440\u0435\u0434\u043d\u0435\u043d\u0438\u0435 \u0434\u0435\u043b\u0430\u0435\u0442 \u043a\u0430\u0436\u0434\u044b\u0439 \u0432\u043e\u0440\u043a\u0435\u0440 \u0441\u0430\u043c\u043e\u0441\u0442\u043e\u044f\u0442\u0435\u043b\u044c\u043d\u043e:<\/p>\n<pre><code class=\"python\">def accumulate_gradients_into_model(model, gradient_paths):    for path in gradient_paths:        grads = torch.load(path, map_location='cpu')        for param, g in zip(model.parameters(), grads):            if param.grad is None:                param.grad = g.clone()            else:                param.grad.add_(g)    # \u0423\u0441\u0440\u0435\u0434\u043d\u0435\u043d\u0438\u0435 \u043f\u043e \u0432\u0441\u0435\u043c \u0432\u043e\u0440\u043a\u0435\u0440\u0430\u043c    for param in model.parameters():        if param.grad is not None:            param.grad.div_(len(gradient_paths) + 1)  # +1 \u0441\u0432\u043e\u0438<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<h4>\u0418\u043d\u0444\u0440\u0430\u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0430: \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0430\u043a\u043a\u0430\u0443\u043d\u0442\u043e\u0432 Google<\/h4>\n<p>\u041a\u0430\u0436\u0434\u044b\u0439 \u0432\u043e\u0440\u043a\u0435\u0440 \u2014 \u044d\u0442\u043e \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u0430\u044f Colab-\u0441\u0435\u0441\u0441\u0438\u044f \u043f\u043e\u0434 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u043c Google-\u0430\u043a\u043a\u0430\u0443\u043d\u0442\u043e\u043c. \u041e\u0431\u0449\u0430\u044f \u0442\u043e\u0447\u043a\u0430 \u0441\u0438\u043d\u0445\u0440\u043e\u043d\u0438\u0437\u0430\u0446\u0438\u0438 \u2014 \u043f\u0430\u043f\u043a\u0430 \u043d\u0430 Google Drive, \u043e\u0442\u043a\u0440\u044b\u0442\u0430\u044f \u0434\u043b\u044f \u0432\u0441\u0435\u0445 \u0430\u043a\u043a\u0430\u0443\u043d\u0442\u043e\u0432. \u041a\u0430\u0436\u0434\u044b\u0439 \u0432\u043e\u0440\u043a\u0435\u0440 \u043c\u043e\u043d\u0442\u0438\u0440\u0443\u0435\u0442 \u0441\u0432\u043e\u0439 Drive, \u043d\u043e \u0443 \u0432\u0441\u0435\u0445 \u0435\u0441\u0442\u044c \u044f\u0440\u043b\u044b\u043a \u043d\u0430 \u044d\u0442\u0443 \u043e\u0431\u0449\u0443\u044e \u043f\u0430\u043f\u043a\u0443 \u2014 \u0442\u0443\u0434\u0430 \u0438 \u043f\u0438\u0448\u0443\u0442\u0441\u044f \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u044b.<\/p>\n<h4>\u0414\u0432\u0430 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0430 \u043d\u0430 \u043a\u0430\u0436\u0434\u043e\u043c \u0432\u043e\u0440\u043a\u0435\u0440\u0435<\/h4>\n<p>\u0412\u043d\u0443\u0442\u0440\u0438 \u043e\u0434\u043d\u043e\u0439 Colab-\u0441\u0435\u0441\u0441\u0438\u0438 \u0440\u0430\u0431\u043e\u0442\u0430\u043b\u043e \u0434\u0432\u0430 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0430. \u041e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u043b\u043e\u0441\u044c \u0447\u0435\u0440\u0435\u0437 <code>subprocess.Popen<\/code> \u2014 \u0444\u043e\u043d\u043e\u0432\u043e, \u043d\u0435 \u0431\u043b\u043e\u043a\u0438\u0440\u0443\u044f \u044f\u0447\u0435\u0439\u043a\u0443:<\/p>\n<pre><code class=\"python\">import subprocessproc = subprocess.Popen([\"python\", \"train.py\"])<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0412\u0442\u043e\u0440\u0430\u044f \u044f\u0447\u0435\u0439\u043a\u0430 \u043a\u0440\u0443\u0442\u0438\u043b\u0430 \u0434\u0430\u0443\u043d\u043b\u043e\u0430\u0434\u0435\u0440 \u2014 \u0441\u043b\u0435\u0434\u0438\u043b\u0430 \u0437\u0430 \u043f\u043e\u044f\u0432\u043b\u0435\u043d\u0438\u0435\u043c \u0444\u0430\u0439\u043b\u043e\u0432 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u043e\u0432 \u0434\u0440\u0443\u0433\u0438\u0445 \u0432\u043e\u0440\u043a\u0435\u0440\u043e\u0432 \u043d\u0430 Google Drive \u0438 \u0441\u043a\u0430\u0447\u0438\u0432\u0430\u043b\u0430 \u0438\u0445 \u043b\u043e\u043a\u0430\u043b\u044c\u043d\u043e.<\/p>\n<h4>\u0424\u043b\u0430\u0433\u0438 \u043a\u0430\u043a \u0441\u0438\u0433\u043d\u0430\u043b \u0433\u043e\u0442\u043e\u0432\u043d\u043e\u0441\u0442\u0438<\/h4>\n<p>\u0412\u0430\u0436\u043d\u0430\u044f \u0434\u0435\u0442\u0430\u043b\u044c \u043f\u0440\u043e Google Drive: \u0444\u0430\u0439\u043b\u044b \u043d\u0430 \u0434\u0438\u0441\u043a\u0435 \u0432\u0441\u0435\u0433\u0434\u0430 \u0446\u0435\u043b\u044b\u0435 \u2014 \u043d\u0435\u0437\u0430\u0432\u0435\u0440\u0448\u0451\u043d\u043d\u0430\u044f \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0430 \u0442\u0443\u0434\u0430 \u043f\u0440\u043e\u0441\u0442\u043e \u043d\u0435 \u0441\u0438\u043d\u0445\u0440\u043e\u043d\u0438\u0437\u0438\u0440\u0443\u0435\u0442\u0441\u044f. \u041d\u043e \u043f\u0440\u0438 \u0441\u043a\u0430\u0447\u0438\u0432\u0430\u043d\u0438\u0438 \u043e\u0431\u0440\u0430\u0442\u043d\u043e \u043b\u043e\u043a\u0430\u043b\u044c\u043d\u043e \u0444\u0430\u0439\u043b \u043c\u043e\u0436\u0435\u0442 \u043f\u043e\u044f\u0432\u0438\u0442\u044c\u0441\u044f \u0440\u0430\u043d\u044c\u0448\u0435, \u0447\u0435\u043c \u0434\u043e\u043a\u0430\u0447\u0430\u0435\u0442\u0441\u044f \u043f\u043e\u043b\u043d\u043e\u0441\u0442\u044c\u044e.<\/p>\n<p>\u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u0434\u0430\u0443\u043d\u043b\u043e\u0430\u0434\u0435\u0440, \u0437\u0430\u0432\u0435\u0440\u0448\u0438\u0432 \u0441\u043a\u0430\u0447\u0438\u0432\u0430\u043d\u0438\u0435 \u0444\u0430\u0439\u043b\u0430, \u0441\u043e\u0437\u0434\u0430\u0432\u0430\u043b \u043b\u043e\u043a\u0430\u043b\u044c\u043d\u044b\u0439 <code>.flag<\/code>:<\/p>\n<pre><code class=\"python\"># \u0434\u0430\u0443\u043d\u043b\u043e\u0430\u0434\u0435\u0440: \u0441\u043a\u0430\u0447\u0430\u043b\u0438 \u0444\u0430\u0439\u043b \u2192 \u0441\u043e\u0437\u0434\u0430\u0451\u043c \u0444\u043b\u0430\u0433with open(f\"{local_iter_num}.flag\", \"w\") as f:    pass<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0436\u0434\u0430\u043b\u043e \u0444\u043b\u0430\u0433\u0430, \u0430 \u043d\u0435 \u0441\u0430\u043c\u043e\u0433\u043e \u0444\u0430\u0439\u043b\u0430 \u0441 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u0430\u043c\u0438:<\/p>\n<pre><code class=\"python\"># \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435: \u0436\u0434\u0451\u043c \u0444\u043b\u0430\u0433\u0430 \u043e\u0442 \u0434\u0430\u0443\u043d\u043b\u043e\u0430\u0434\u0435\u0440\u0430while not os.path.exists(f\"{local_iter_num}.flag\"):    time.sleep(0.1)<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0424\u043b\u0430\u0433 \u2014 \u0433\u0430\u0440\u0430\u043d\u0442\u0438\u044f \u0447\u0442\u043e \u0444\u0430\u0439\u043b \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u043e\u0432 \u0443\u0436\u0435 \u043f\u043e\u043b\u043d\u043e\u0441\u0442\u044c\u044e \u043b\u0435\u0436\u0438\u0442 \u043b\u043e\u043a\u0430\u043b\u044c\u043d\u043e \u0438 \u043c\u043e\u0436\u043d\u043e \u0447\u0438\u0442\u0430\u0442\u044c.<\/p>\n<h4>\u0413\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u044b \u0432 float16<\/h4>\n<p>\u0424\u0430\u0439\u043b\u044b \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u043e\u0432 \u0434\u043b\u044f Large \u043c\u043e\u0434\u0435\u043b\u0438 \u0432\u0435\u0441\u044f\u0442 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u043e\u0442\u0435\u043d \u043c\u0435\u0433\u0430\u0431\u0430\u0439\u0442. \u0421\u043e\u0445\u0440\u0430\u043d\u044f\u0442\u044c \u0432 float32 \u2014 \u0434\u043e\u043b\u0433\u043e \u0433\u0440\u0443\u0437\u0438\u0442\u044c \u0438 \u0434\u043e\u043b\u0433\u043e \u0441\u0438\u043d\u0445\u0440\u043e\u043d\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u0442\u044c. \u0420\u0435\u0448\u0435\u043d\u0438\u0435: \u0441\u043e\u0445\u0440\u0430\u043d\u044f\u0442\u044c \u0432 float16, \u043a\u043e\u043d\u0432\u0435\u0440\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043e\u0431\u0440\u0430\u0442\u043d\u043e \u043f\u0440\u0438 \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0435.<\/p>\n<pre><code class=\"python\">grads = [param.grad.detach().cpu().to(torch.float16) if param.grad is not None else None         for param in model.parameters()]torch.save(grads, path)<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<h4>\u041e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u044f \u043f\u043e\u0434\u0445\u043e\u0434\u0430<\/h4>\n<ul>\n<li>\n<p><strong>\u0421\u043a\u043e\u0440\u043e\u0441\u0442\u044c \u0441\u0438\u043d\u0445\u0440\u043e\u043d\u0438\u0437\u0430\u0446\u0438\u0438<\/strong>: \u043e\u0436\u0438\u0434\u0430\u043d\u0438\u0435 Drive \u2014 \u0441\u0430\u043c\u044b\u0439 \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u044b\u0439 \u0448\u0430\u0433. \u041d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u0435\u043a\u0443\u043d\u0434 \u043d\u0430 \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u044e \u043d\u0430\u043a\u0430\u043f\u043b\u0438\u0432\u0430\u044e\u0442\u0441\u044f.<\/p>\n<\/li>\n<li>\n<p><strong>\u041a\u041f\u0414 \u0440\u0430\u0441\u043f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u0438\u0432\u0430\u043d\u0438\u044f<\/strong>: 5 \u0432\u043e\u0440\u043a\u0435\u0440\u043e\u0432 \u0434\u0430\u043b\u0438 x2, \u0430 \u043d\u0435 x5. \u0411\u043e\u043b\u044c\u0448\u0443\u044e \u0447\u0430\u0441\u0442\u044c \u0432\u0440\u0435\u043c\u0435\u043d\u0438 \u0432\u043e\u0440\u043a\u0435\u0440\u044b \u043f\u0440\u043e\u0441\u0442\u043e \u0436\u0434\u0443\u0442 \u0434\u0440\u0443\u0433 \u0434\u0440\u0443\u0433\u0430.<\/p>\n<\/li>\n<li>\n<p><strong>\u041d\u0435\u0441\u0442\u0430\u0431\u0438\u043b\u044c\u043d\u043e\u0441\u0442\u044c<\/strong>: Colab-\u0441\u0435\u0441\u0441\u0438\u0438 \u043f\u0430\u0434\u0430\u044e\u0442 \u0431\u0435\u0437 \u043f\u0440\u0435\u0434\u0443\u043f\u0440\u0435\u0436\u0434\u0435\u043d\u0438\u044f. \u041e\u0431\u044f\u0437\u0430\u0442\u0435\u043b\u044c\u043d\u043e \u0443\u043c\u0435\u0442\u044c \u0432\u043e\u0437\u043e\u0431\u043d\u043e\u0432\u043b\u044f\u0442\u044c \u0441 \u0447\u0435\u043a\u043f\u043e\u0438\u043d\u0442\u0430.<\/p>\n<\/li>\n<li>\n<p><strong>\u041c\u0430\u0441\u0448\u0442\u0430\u0431<\/strong>: \u0431\u043e\u043b\u044c\u0448\u0435 5-6 \u0432\u043e\u0440\u043a\u0435\u0440\u043e\u0432 \u2014 \u043a\u043e\u043e\u0440\u0434\u0438\u043d\u0430\u0446\u0438\u044f \u0447\u0435\u0440\u0435\u0437 \u0444\u0430\u0439\u043b\u044b \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u0441\u044f \u0443\u0437\u043a\u0438\u043c \u043c\u0435\u0441\u0442\u043e\u043c.<\/p>\n<\/li>\n<\/ul>\n<p>\u0414\u043b\u044f \u043f\u0440\u043e\u0434\u0430 \u044d\u0442\u043e \u043d\u0435 \u0433\u043e\u0434\u0438\u0442\u0441\u044f. \u0414\u043b\u044f \u0431\u0435\u0441\u043f\u043b\u0430\u0442\u043d\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u043d\u0430 Colab \u2014 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442.<\/p>\n<hr\/>\n<h3>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0438 \u0432\u044b\u0432\u043e\u0434\u044b<\/h3>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<th>\n<p align=\"left\">\u041c\u043e\u0434\u0435\u043b\u044c<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0410\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0422\u043e\u043a\u0435\u043d\u043e\u0432<\/p>\n<\/th>\n<th>\n<p align=\"left\">val loss<\/p>\n<\/th>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">v1<\/p>\n<\/td>\n<td>\n<p align=\"left\">GPT-2 Small<\/p>\n<\/td>\n<td>\n<p align=\"left\">163M<\/p>\n<\/td>\n<td>\n<p align=\"left\">4.02<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">v2<\/p>\n<\/td>\n<td>\n<p align=\"left\">GPT-2 Small<\/p>\n<\/td>\n<td>\n<p align=\"left\">5.3B<\/p>\n<\/td>\n<td>\n<p align=\"left\">3.30<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">v3<\/p>\n<\/td>\n<td>\n<p align=\"left\">GPT-2 Medium<\/p>\n<\/td>\n<td>\n<p align=\"left\">5.5B+<\/p>\n<\/td>\n<td>\n<p align=\"left\">3.12<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">v4<\/p>\n<\/td>\n<td>\n<p align=\"left\">GPT-2 Large<\/p>\n<\/td>\n<td>\n<p align=\"left\">15B<\/p>\n<\/td>\n<td>\n<p align=\"left\">3.04<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">v5<\/p>\n<\/td>\n<td>\n<p align=\"left\">Custom (RoPE\/SwiGLU\/GQA)<\/p>\n<\/td>\n<td>\n<p align=\"left\">5.1B<\/p>\n<\/td>\n<td>\n<p align=\"left\">3.11<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<h4>\u0427\u0442\u043e \u044f \u043f\u043e\u043d\u044f\u043b<\/h4>\n<p><strong>0.7B \u2014 \u044d\u0442\u043e \u043c\u0430\u043b\u043e.<\/strong> \u0414\u043b\u044f \u043d\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u044b\u0445 \u0441\u0432\u044f\u0437\u043d\u044b\u0445 \u0434\u0438\u0430\u043b\u043e\u0433\u043e\u0432 \u043d\u0443\u0436\u043d\u043e \u043c\u0438\u043d\u0438\u043c\u0443\u043c 3-7B, \u0438 \u044d\u0442\u043e \u043f\u0440\u0438 \u0443\u0441\u043b\u043e\u0432\u0438\u0438 \u0445\u043e\u0440\u043e\u0448\u0435\u0433\u043e \u0444\u0430\u0439\u043d-\u0442\u044e\u043d\u0438\u043d\u0433\u0430 \u043f\u043e\u0432\u0435\u0440\u0445. \u0418\u0434\u0435\u044f \u0447\u0442\u043e \u201c\u043c\u0430\u043b\u0435\u043d\u044c\u043a\u0430\u044f \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u0437\u0430\u043c\u0435\u043d\u0438\u0442 \u0431\u043e\u043b\u044c\u0448\u0443\u044e\u201d \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0445\u0443\u0436\u0435 \u0447\u0435\u043c \u0445\u043e\u0442\u0435\u043b\u043e\u0441\u044c \u0431\u044b.<\/p>\n<p><strong>\u0414\u0430\u043d\u043d\u044b\u0435 \u0432\u0430\u0436\u043d\u0435\u0435 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u044b.<\/strong> v4 \u0441 \u043f\u0440\u043e\u0441\u0442\u043e\u0439 GPT-2 Large \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u043e\u0439 \u0438 15B \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043f\u043e\u043a\u0430\u0437\u0430\u043b\u0430 \u043b\u0443\u0447\u0448\u0438\u0439 loss, \u0447\u0435\u043c v5 \u0441 \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e\u0439 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u043e\u0439 \u0438 5B \u0442\u043e\u043a\u0435\u043d\u043e\u0432. \u041a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u043a\u043e\u0440\u043f\u0443\u0441\u0430 \u0438 \u043e\u0431\u044a\u0451\u043c \u0434\u0430\u043d\u043d\u044b\u0445 \u0431\u044c\u044e\u0442 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u043d\u044b\u0435 \u0443\u043b\u0443\u0447\u0448\u0435\u043d\u0438\u044f \u043d\u0430 \u043d\u0435\u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0430\u0445.<\/p>\n<p><strong>\u0420\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0451\u043d\u043d\u043e\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u2014 \u043d\u0435 \u0442\u043e\u043b\u044c\u043a\u043e \u043f\u0440\u043e \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c.<\/strong> \u0414\u0432\u0430 \u0432\u043e\u0440\u043a\u0435\u0440\u0430 \u0441 \u0441\u0438\u043d\u0445\u0440\u043e\u043d\u0438\u0437\u0430\u0446\u0438\u0435\u0439 \u0447\u0435\u0440\u0435\u0437 Drive \u0434\u0430\u043b\u0438 \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u044c \u043e\u0431\u0443\u0447\u0430\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u044c, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0444\u0438\u0437\u0438\u0447\u0435\u0441\u043a\u0438 \u043d\u0435 \u043f\u043e\u043c\u0435\u0449\u0430\u043b\u0430\u0441\u044c \u0432 \u043e\u0434\u043d\u0443 \u0441\u0435\u0441\u0441\u0438\u044e. \u042d\u0442\u043e \u0432\u0430\u0436\u043d\u0435\u0435 \u0443\u0441\u043a\u043e\u0440\u0435\u043d\u0438\u044f.<\/p>\n<p><strong>Chinchilla-\u043e\u043f\u0442\u0438\u043c\u0443\u043c<\/strong> \u0434\u043e\u0441\u0442\u0438\u0433\u043b\u0438 \u0442\u043e\u043b\u044c\u043a\u043e v2 \u0438 v4. ~20 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043d\u0430 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440 \u2014 \u0438 \u044d\u0442\u043e \u043e\u0431\u044a\u044f\u0441\u043d\u044f\u0435\u0442 \u0438\u0445 \u043e\u0442\u0440\u044b\u0432 \u043e\u0442 \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0445 \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u0439 \u043b\u0443\u0447\u0448\u0435, \u0447\u0435\u043c \u043b\u044e\u0431\u044b\u0435 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u043d\u044b\u0435 \u0434\u0435\u0442\u0430\u043b\u0438. \u041e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0441\u0442\u043e \u043d\u0435\u0434\u043e\u043e\u0431\u0443\u0447\u0435\u043d\u044b \u043f\u043e \u0434\u0430\u043d\u043d\u044b\u043c.<\/p>\n<\/div>\n<p>\u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/1037532\/\">https:\/\/habr.com\/ru\/articles\/1037532\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u0412\u0441\u0451 \u043d\u0430\u0447\u0430\u043b\u043e\u0441\u044c \u0441 \u043d\u0430\u0438\u0432\u043d\u043e\u0439 \u043c\u044b\u0441\u043b\u0438: \u0437\u0430\u0447\u0435\u043c \u043f\u043b\u0430\u0442\u0438\u0442\u044c \u0437\u0430 API \u0438\u043b\u0438 \u0442\u0430\u0449\u0438\u0442\u044c 7B-\u043c\u043e\u0434\u0435\u043b\u044c, \u0435\u0441\u043b\u0438 \u043c\u043d\u0435 \u043d\u0443\u0436\u043d\u0430 \u043c\u0430\u043b\u0435\u043d\u044c\u043a\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u0434\u043b\u044f \u043f\u0440\u043e\u0441\u0442\u044b\u0445 \u0440\u0430\u0437\u0433\u043e\u0432\u043e\u0440\u043e\u0432 \u043d\u0430 \u043e\u0434\u043d\u043e\u043c \u044f\u0437\u044b\u043a\u0435? \u041b\u043e\u0433\u0438\u043a\u0430 \u043a\u0430\u0437\u0430\u043b\u0430\u0441\u044c \u0436\u0435\u043b\u0435\u0437\u043d\u043e\u0439 \u2014 \u0431\u043e\u043b\u044c\u0448\u0438\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0443\u043c\u0435\u044e\u0442 \u0432\u0441\u0451 \u0438 \u043d\u0430 \u0432\u0441\u0435\u0445 \u044f\u0437\u044b\u043a\u0430\u0445 \u0441\u0440\u0430\u0437\u0443, \u043d\u043e \u044d\u0442\u043e \u0436\u0435 \u0438\u0437\u0431\u044b\u0442\u043e\u0447\u043d\u043e. 0.7B, \u0437\u0430\u0442\u043e\u0447\u0435\u043d\u043d\u0430\u044f \u043f\u043e\u0434 \u043e\u0434\u0438\u043d \u044f\u0437\u044b\u043a \u0438 \u043e\u0434\u0438\u043d \u0441\u0442\u0438\u043b\u044c \u043e\u0431\u0449\u0435\u043d\u0438\u044f, \u0434\u043e\u043b\u0436\u043d\u0430 \u0441\u043f\u0440\u0430\u0432\u043b\u044f\u0442\u044c\u0441\u044f \u043d\u0435 \u0445\u0443\u0436\u0435.\u0421\u043f\u043e\u0439\u043b\u0435\u0440: \u044d\u0442\u043e \u0431\u044b\u043b\u043e \u043d\u0430\u0438\u0432\u043d\u043e. \u041d\u043e \u043f\u0443\u0442\u044c \u043e\u043a\u0430\u0437\u0430\u043b\u0441\u044f \u0446\u0435\u043d\u043d\u0435\u0435 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0430.\u0412 \u044d\u0442\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435 \u2014 \u043a\u0430\u043a \u044f \u043f\u0440\u043e\u0448\u0451\u043b \u043f\u0443\u0442\u044c \u043e\u0442 \u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u043e\u0433\u043e nanoGPT \u0434\u043e \u043a\u0430\u0441\u0442\u043e\u043c\u043d\u043e\u0439 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u044b \u0441 RoPE\/SwiGLU\/GQA, \u0441\u043e\u0431\u0440\u0430\u043b \u0440\u0443\u0441\u0441\u043a\u043e\u044f\u0437\u044b\u0447\u043d\u044b\u0439 \u043a\u043e\u0440\u043f\u0443\u0441 \u0441 \u043d\u0443\u043b\u044f, \u0438 \u043f\u0440\u0438\u0434\u0443\u043c\u0430\u043b \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0451\u043d\u043d\u043e\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043d\u0430 \u0431\u0435\u0441\u043f\u043b\u0430\u0442\u043d\u044b\u0445 Colab-\u0432\u043e\u0440\u043a\u0435\u0440\u0430\u0445 \u0447\u0435\u0440\u0435\u0437 Google Drive.\u041f\u043e\u0447\u0435\u043c\u0443 \u043d\u0435 \u0432\u0437\u044f\u0442\u044c \u0433\u043e\u0442\u043e\u0432\u0443\u044e \u043c\u043e\u0434\u0435\u043b\u044c?\u0427\u0435\u0441\u0442\u043d\u044b\u0439 \u043e\u0442\u0432\u0435\u0442: \u043f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e \u0445\u043e\u0442\u0435\u043b \u0440\u0430\u0437\u043e\u0431\u0440\u0430\u0442\u044c\u0441\u044f \u043a\u0430\u043a \u043e\u043d\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0438\u0437\u043d\u0443\u0442\u0440\u0438. \u0412\u0437\u044f\u0442\u044c Qwen \u0438\u043b\u0438 Llama, \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u044c \u0444\u0430\u0439\u043d-\u0442\u044e\u043d\u0438\u043d\u0433 \u2014 \u044d\u0442\u043e \u043f\u043e\u043d\u044f\u0442\u043d\u043e \u0438 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442. \u041d\u043e \u043a\u043e\u0433\u0434\u0430 \u0442\u044b \u0441\u0430\u043c \u0441\u0442\u0440\u043e\u0438\u0448\u044c \u043c\u043e\u0434\u0435\u043b\u044c \u0441 \u043d\u0443\u043b\u044f, \u043a\u0430\u0436\u0434\u0430\u044f \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u043d\u0430\u044f \u0434\u0435\u0442\u0430\u043b\u044c \u043f\u0435\u0440\u0435\u0441\u0442\u0430\u0451\u0442 \u0431\u044b\u0442\u044c \u043c\u0430\u0433\u0438\u0435\u0439.\u041f\u043b\u044e\u0441 \u0431\u044b\u043b\u0430 \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u0430\u044f \u0437\u0430\u0434\u0430\u0447\u0430: \u043d\u0443\u0436\u0435\u043d \u043f\u0435\u0440\u0441\u043e\u043d\u0430\u0436 \u0441 \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0451\u043d\u043d\u044b\u043c \u0441\u0442\u0438\u043b\u0435\u043c \u0440\u0435\u0447\u0438, \u043d\u0430 \u0440\u0443\u0441\u0441\u043a\u043e\u043c \u044f\u0437\u044b\u043a\u0435. \u041a\u0430\u0437\u0430\u043b\u043e\u0441\u044c \u043b\u043e\u0433\u0438\u0447\u043d\u044b\u043c \u2014 \u043c\u0435\u043d\u044c\u0448\u0435 \u043c\u043e\u0434\u0435\u043b\u044c, \u043c\u0435\u043d\u044c\u0448\u0435 \u0440\u0435\u0441\u0443\u0440\u0441\u043e\u0432, \u043f\u0440\u043e\u0449\u0435 \u0443\u043f\u0440\u0430\u0432\u043b\u044f\u0442\u044c \u043f\u043e\u0432\u0435\u0434\u0435\u043d\u0438\u0435\u043c. \u041e\u043a\u0430\u0437\u0430\u043b\u043e\u0441\u044c, \u0447\u0442\u043e 0.7B \u044d\u0442\u043e \u043e\u0447\u0435\u043d\u044c \u043c\u0430\u043b\u043e \u0434\u043b\u044f \u043d\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u043e\u0439 \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u0438 \u0441\u0432\u044f\u0437\u043d\u043e\u0433\u043e \u0442\u0435\u043a\u0441\u0442\u0430, \u043d\u043e \u044d\u0442\u043e \u044f \u043f\u043e\u043d\u044f\u043b \u043f\u043e\u0437\u0436\u0435.\u0414\u0430\u0442\u0430\u0441\u0435\u0442: \u043a\u0430\u043a\u043e\u0439 \u044f\u0437\u044b\u043a \u043f\u043e\u0445\u043e\u0436 \u043d\u0430 \u043d\u0443\u0436\u043d\u044b\u0439 \u043c\u043d\u0435\u041f\u0435\u0440\u0435\u0434 \u0441\u0431\u043e\u0440\u043e\u043c \u0434\u0430\u043d\u043d\u044b\u0445 \u0432\u0441\u0442\u0430\u043b \u043d\u0435\u043e\u0447\u0435\u0432\u0438\u0434\u043d\u044b\u0439 \u0432\u043e\u043f\u0440\u043e\u0441: \u043a\u0430\u043a\u043e\u0439 \u0441\u0442\u0438\u043b\u044c \u0440\u0443\u0441\u0441\u043a\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430 \u043d\u0443\u0436\u0435\u043d? \u041e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u0435 \u043d\u043e\u0432\u043e\u0441\u0442\u0438 \u2014 \u043d\u0435\u0442. \u041d\u0430\u0443\u0447\u043d\u044b\u0435 \u0442\u0435\u043a\u0441\u0442\u044b \u2014 \u043d\u0435\u0442. \u041d\u0443\u0436\u0435\u043d \u0431\u044b\u043b \u0436\u0438\u0432\u043e\u0439, \u0440\u0430\u0437\u0433\u043e\u0432\u043e\u0440\u043d\u044b\u0439, \u044d\u043c\u043e\u0446\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0439 \u044f\u0437\u044b\u043a.\u041a\u043e\u0440\u043f\u0443\u0441 \u0441\u043e\u0431\u0440\u0430\u043b \u0438\u0437 \u0442\u0440\u0451\u0445 \u0447\u0430\u0441\u0442\u0435\u0439:Taiga \u2014 \u0433\u043e\u0442\u043e\u0432\u044b\u0439 \u0440\u0443\u0441\u0441\u043a\u043e\u044f\u0437\u044b\u0447\u043d\u044b\u0439 \u043a\u043e\u0440\u043f\u0443\u0441: \u043d\u043e\u0432\u043e\u0441\u0442\u0438, \u0436\u0443\u0440\u043d\u0430\u043b\u044b, \u0445\u0443\u0434\u043e\u0436\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u0430\u044f \u043b\u0438\u0442\u0435\u0440\u0430\u0442\u0443\u0440\u0430, \u0441\u0443\u0431\u0442\u0438\u0442\u0440\u044b. \u0425\u043e\u0440\u043e\u0448\u0430\u044f \u0431\u0430\u0437\u0430, \u043d\u043e \u0441\u0442\u0438\u043b\u044c \u043d\u0435\u043e\u0434\u043d\u043e\u0440\u043e\u0434\u043d\u044b\u0439.\u0421\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u0441\u043a\u0440\u0435\u0439\u043f \u2014 ~566k \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0438\u0433\u0440\u043e\u0432\u044b\u0445 \u043c\u0435\u0434\u0438\u0430, \u0431\u043b\u043e\u0433-\u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c, \u043b\u0438\u0442\u0435\u0440\u0430\u0442\u0443\u0440\u043d\u044b\u0445 \u0441\u043e\u043e\u0431\u0449\u0435\u0441\u0442\u0432. \u0418\u043c\u0435\u043d\u043d\u043e \u0437\u0434\u0435\u0441\u044c \u0436\u0438\u0432\u043e\u0439 \u044f\u0437\u044b\u043a: \u044d\u043c\u043e\u0446\u0438\u0438, \u0441\u043b\u0435\u043d\u0433, \u043d\u0435\u0444\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u044b\u0435 \u043e\u0431\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u044f.FineWeb2 (rus_Cyrl) \u2014 \u0432\u0435\u0431-\u043a\u043e\u0440\u043f\u0443\u0441, \u043d\u043e \u0441\u044b\u0440\u043e\u0439. \u0415\u0433\u043e \u043f\u0440\u0438\u0448\u043b\u043e\u0441\u044c \u0444\u0438\u043b\u044c\u0442\u0440\u043e\u0432\u0430\u0442\u044c \u0441\u0442\u0440\u0438\u043c\u0438\u043d\u0433\u043e\u0432\u044b\u043c \u043f\u0430\u0439\u043f\u043b\u0430\u0439\u043d\u043e\u043c.\u0424\u0438\u043b\u044c\u0442\u0440\u0430\u0446\u0438\u044f FineWeb2\u0412\u0435\u0431-\u0434\u0430\u043d\u043d\u044b\u0435 \u2014 \u044d\u0442\u043e \u043c\u0443\u0441\u043e\u0440 \u043f\u043e \u0443\u043c\u043e\u043b\u0447\u0430\u043d\u0438\u044e. SEO-\u0442\u0435\u043a\u0441\u0442\u044b, \u043f\u0440\u0430\u0439\u0441-\u043b\u0438\u0441\u0442\u044b, \u0440\u0435\u0437\u044e\u043c\u0435, \u0431\u0438\u0442\u044b\u0435 \u0441\u0438\u043c\u0432\u043e\u043b\u044b. \u041d\u0430\u043f\u0438\u0441\u0430\u043b \u0441\u0442\u0440\u0438\u043c\u0438\u043d\u0433\u043e\u0432\u044b\u0439 \u0444\u0438\u043b\u044c\u0442\u0440 \u0447\u0442\u043e\u0431\u044b \u043d\u0435 \u0433\u0440\u0443\u0437\u0438\u0442\u044c \u0432\u0441\u0451 \u0432 \u043f\u0430\u043c\u044f\u0442\u044c:@dataclassclass Config:    min_chars: int = 50    max_chars: int = 5000    min_letter_ratio: float = 0.4      # \u043c\u0438\u043d\u0438\u043c\u0443\u043c 40% \u0431\u0443\u043a\u0432 \u0432 \u0442\u0435\u043a\u0441\u0442\u0435    max_special_ratio: float = 0.25    # \u043d\u0435 \u0431\u043e\u043b\u044c\u0448\u0435 25% \u0441\u043f\u0435\u0446\u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432    lang_conf_threshold: float = 0.6   # \u0443\u0432\u0435\u0440\u0435\u043d\u043d\u043e\u0441\u0442\u044c langid    simhash_threshold: int = 3         # \u043f\u043e\u0440\u043e\u0433 \u0434\u043b\u044f \u0434\u0435\u0434\u0443\u043f\u043b\u0438\u043a\u0430\u0446\u0438\u0438\u041f\u043b\u044e\u0441 \u0441\u043f\u0438\u0441\u043e\u043a \u0441\u0442\u043e\u043f-\u0441\u043b\u043e\u0432 \u0434\u043b\u044f \u0431\u044b\u0441\u0442\u0440\u043e\u0439 \u0444\u0438\u043b\u044c\u0442\u0440\u0430\u0446\u0438\u0438 (\u201c\u0440\u0435\u0437\u044e\u043c\u0435\u201d, \u201c\u043f\u0440\u0430\u0439\u0441-\u043b\u0438\u0441\u0442\u201d, \u201cseo\u201d, \u201c\u0432\u0430\u043a\u0430\u043d\u0441\u0438\u044f\u201d \u0438 \u0442.\u0434.) \u2014 \u0434\u0435\u0448\u0435\u0432\u043b\u0435 langid \u0438 \u043e\u0442\u0441\u0435\u043a\u0430\u0435\u0442 \u0431\u043e\u043b\u044c\u0448\u0443\u044e \u0447\u0430\u0441\u0442\u044c \u043c\u0443\u0441\u043e\u0440\u0430 \u0434\u043e \u0442\u044f\u0436\u0451\u043b\u044b\u0445 \u043f\u0440\u043e\u0432\u0435\u0440\u043e\u043a.\u0418\u0442\u043e\u0433\u043e: ~12B \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043f\u043e\u0441\u043b\u0435 \u0444\u0438\u043b\u044c\u0442\u0440\u0430\u0446\u0438\u0438.\u0422\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0442\u043e\u0440\u041a\u0430\u0441\u0442\u043e\u043c\u043d\u044b\u0439 BPE \u043d\u0430 51 200 \u0442\u043e\u043a\u0435\u043d\u043e\u0432, \u043e\u0431\u0443\u0447\u0435\u043d\u043d\u044b\u0439 \u043d\u0430 \u0440\u0443\u0441\u0441\u043a\u043e\u044f\u0437\u044b\u0447\u043d\u043e\u043c \u043a\u043e\u0440\u043f\u0443\u0441\u0435. GPT-2-\u0448\u043d\u044b\u0439 \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0442\u043e\u0440 \u043f\u043b\u043e\u0445\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0441 \u0440\u0443\u0441\u0441\u043a\u0438\u043c \u2014 \u0441\u043b\u043e\u0432\u0430 \u0440\u0430\u0437\u0431\u0438\u0432\u0430\u044e\u0442\u0441\u044f \u043d\u0430 \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u043c\u0435\u043b\u043a\u0438\u0435 \u043a\u0443\u0441\u043a\u0438, \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u043d\u043e\u0435 \u043e\u043a\u043d\u043e \u0440\u0430\u0441\u0445\u043e\u0434\u0443\u0435\u0442\u0441\u044f \u043d\u0435\u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e.\u042d\u0432\u043e\u043b\u044e\u0446\u0438\u044f \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u044b: \u043f\u044f\u0442\u044c \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u0439\u0418\u0442\u0435\u0440\u0430\u0446\u0438\u044f 1 \u2014 GPT-2 Small, \u0431\u0430\u0437\u043e\u0432\u044b\u0439 \u0441\u0442\u0430\u0440\u0442\u041f\u0435\u0440\u0432\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u2014 \u0447\u0438\u0441\u0442\u044b\u0439 nanoGPT \u0431\u0435\u0437 \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u0439. 124M \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432, fp32, \u0431\u0435\u0437 \u043a\u043e\u043c\u043f\u0438\u043b\u044f\u0446\u0438\u0438.batch_size=8, block_size=1024, grad_accum=1, iters=600ktrain loss: 3.99 | val loss: 4.02\u0420\u0430\u0431\u043e\u0442\u0430\u0435\u0442, \u043e\u0431\u0443\u0447\u0430\u0435\u0442\u0441\u044f, loss \u043f\u0430\u0434\u0430\u0435\u0442. \u041d\u043e \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u043e \u0438 \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u044f \u0441\u043b\u0430\u0431\u0430\u044f \u2014 \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u043c\u0430\u043b\u043e \u0434\u0430\u043d\u043d\u044b\u0445. \u0421\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0439 \u0448\u0430\u0433 \u2014 \u0434\u043e\u0431\u0430\u0432\u0438\u043b torch.compile \u0438 \u043f\u0435\u0440\u0435\u0445\u043e\u0434 \u043d\u0430 fp16. \u0422\u043e\u043b\u044c\u043a\u043e \u044d\u0442\u043e \u0434\u0430\u043b\u043e \u0437\u0430\u043c\u0435\u0442\u043d\u044b\u0439 \u043f\u0440\u0438\u0440\u043e\u0441\u0442 \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u0438 \u0431\u0435\u0437 \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u044b.\u0418\u0442\u0435\u0440\u0430\u0446\u0438\u044f 2 \u2014 GPT-2 Small, \u0434\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u0433\u0438\u043f\u0435\u0440\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b\u0413\u043b\u0430\u0432\u043d\u044b\u0439 \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442: \u043c\u0435\u043d\u044f\u0442\u044c \u0433\u0438\u043f\u0435\u0440\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b \u043f\u0440\u044f\u043c\u043e \u0432 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f, \u043d\u0435 \u043f\u0435\u0440\u0435\u0437\u0430\u043f\u0443\u0441\u043a\u0430\u044f. \u041f\u043e\u0441\u0442\u0435\u043f\u0435\u043d\u043d\u043e \u0443\u0432\u0435\u043b\u0438\u0447\u0438\u0432\u0430\u043b batch size \u0438 gradient accumulation, \u043f\u043e\u0434\u0431\u0438\u0440\u0430\u043b weight decay.block_size=1024batch size: 8 \u2192 16 \u2192 20grad accum: 3 \u2192 6 \u2192 9 \u2192 12 \u2192 24weight decay: 0.1 \u2192 0.01 \u2192 0.05 \u2192 0.1\u0442\u043e\u043a\u0435\u043d\u043e\u0432: ~5.3Btrain loss: 3.24 | val loss: 3.30\u0421\u0443\u0449\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u043f\u0440\u043e\u0433\u0440\u0435\u0441\u0441. \u0411\u043e\u043b\u044c\u0448\u043e\u0439 gradient accumulation = \u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u044b\u0439 \u0431\u0430\u0442\u0447 = \u0441\u0442\u0430\u0431\u0438\u043b\u044c\u043d\u0435\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435. \u041d\u043e \u0443\u0434\u0430\u0440 \u043f\u043e \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u0438 \u043e\u0449\u0443\u0442\u0438\u043c\u044b\u0439.\u0418\u0442\u0435\u0440\u0430\u0446\u0438\u044f 3 \u2014 GPT-2 Medium, \u043f\u0435\u0440\u0435\u0445\u043e\u0434 \u043d\u0430 345M\u0422\u0430 \u0436\u0435 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430, \u0431\u043e\u043b\u044c\u0448\u0435 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432. \u0414\u043e\u0431\u0430\u0432\u0438\u043b dropout \u0432\u043e \u0432\u0442\u043e\u0440\u043e\u0439 \u043f\u043e\u043b\u043e\u0432\u0438\u043d\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f.batch_size=4, grad_accum: 20 \u2192 60dropout: 0 \u2192 0.05 (\u0441\u043e \u0432\u0442\u043e\u0440\u043e\u0439 \u043f\u043e\u043b\u043e\u0432\u0438\u043d\u044b)\u0442\u043e\u043a\u0435\u043d\u043e\u0432: ~5.5Btrain loss: 3.07 | val loss: 3.12\u0418\u0442\u0435\u0440\u0430\u0446\u0438\u044f 4 \u2014 GPT-2 Large, \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0451\u043d\u043d\u043e\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435GPT-2 Large (774M) \u0442\u0435\u0445\u043d\u0438\u0447\u0435\u0441\u043a\u0438 \u0432\u043b\u0435\u0437\u0430\u043b \u0432 \u043e\u0434\u043d\u0443 Colab-\u0441\u0435\u0441\u0441\u0438\u044e, \u043d\u043e \u0442\u043e\u043b\u044c\u043a\u043e \u0441 gradient checkpointing. \u042d\u0442\u043e \u043a\u043e\u0433\u0434\u0430 \u0430\u043a\u0442\u0438\u0432\u0430\u0446\u0438\u0438 \u043d\u0435 \u0441\u043e\u0445\u0440\u0430\u043d\u044f\u044e\u0442\u0441\u044f \u043f\u0440\u0438 forward \u0438 \u043f\u0435\u0440\u0435\u0441\u0447\u0438\u0442\u044b\u0432\u0430\u044e\u0442\u0441\u044f \u0437\u0430\u043d\u043e\u0432\u043e \u043f\u0440\u0438 backward. \u041f\u0430\u043c\u044f\u0442\u044c \u044d\u043a\u043e\u043d\u043e\u043c\u0438\u0442\u0441\u044f, \u043d\u043e \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c \u043f\u0430\u0434\u0430\u0435\u0442 \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u0432 2 \u0440\u0430\u0437\u0430. \u041d\u0430 \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0441\u0442\u0430\u043b\u043e \u043d\u0435\u0432\u044b\u043d\u043e\u0441\u0438\u043c\u043e \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u044b\u043c.\u0418\u043c\u0435\u043d\u043d\u043e \u0438\u0437-\u0437\u0430 \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u0438 \u043f\u043e\u044f\u0432\u0438\u043b\u0430\u0441\u044c \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0451\u043d\u043d\u0430\u044f \u0441\u0445\u0435\u043c\u0430 \u2014 \u043e\u0431 \u044d\u0442\u043e\u043c \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u0439 \u0440\u0430\u0437\u0434\u0435\u043b \u043d\u0438\u0436\u0435.n_layer=36, n_head=20, n_embd=1280block_size=2048, batch_size=2, grad_accum=125\u0442\u043e\u043a\u0435\u043d\u043e\u0432: ~15Btrain loss: 2.86 | val loss: 3.04\u041f\u0440\u0438 5 \u0432\u043e\u0440\u043a\u0435\u0440\u0430\u0445 \u0443\u0441\u043a\u043e\u0440\u0435\u043d\u0438\u0435 \u0432\u044b\u0448\u043b\u043e \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e x2 \u043e\u0442\u043d\u043e\u0441\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u043e\u0434\u043d\u043e\u0433\u043e \u2014 \u043a\u0430\u0437\u0430\u043b\u043e\u0441\u044c \u0431\u044b \u043d\u0435\u043c\u043d\u043e\u0433\u043e, \u043d\u043e \u043d\u0430 \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435 \u044d\u0442\u043e \u0440\u0430\u0437\u043d\u0438\u0446\u0430 \u043c\u0435\u0436\u0434\u0443 \u201c\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0438\u0434\u0451\u0442\u201d \u0438 \u201c\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0441\u0442\u043e\u0438\u0442\u201d. 15B \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0438 774M \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u2014 \u0443\u0436\u0435 \u0447\u0443\u0432\u0441\u0442\u0432\u0443\u0435\u0442\u0441\u044f \u0432 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u0438.\u0418\u0442\u0435\u0440\u0430\u0446\u0438\u044f 5 \u2014 \u043a\u0430\u0441\u0442\u043e\u043c\u043d\u0430\u044f \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430\u0424\u0438\u043d\u0430\u043b\u044c\u043d\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u2014 \u043f\u0435\u0440\u0435\u0440\u0430\u0431\u043e\u0442\u0430\u043d\u043d\u0430\u044f \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u0441 \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u043c\u0438 \u043a\u043e\u043c\u043f\u043e\u043d\u0435\u043d\u0442\u0430\u043c\u0438. \u041f\u043e \u0441\u0443\u0442\u0438, \u044d\u0442\u043e \u0442\u043e, \u0447\u0435\u043c \u043e\u0442\u043b\u0438\u0447\u0430\u0435\u0442\u0441\u044f \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0439 LLaMA-\u0441\u0442\u0438\u043b\u044c \u043e\u0442 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b\u044c\u043d\u043e\u0433\u043e GPT-2.\u041a\u043e\u043c\u043f\u043e\u043d\u0435\u043d\u0442\u0411\u044b\u043b\u043e (GPT-2)\u0421\u0442\u0430\u043b\u043e\u0417\u0430\u0447\u0435\u043c\u041f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u043d\u044b\u0435 \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438\u0410\u0431\u0441\u043e\u043b\u044e\u0442\u043d\u044b\u0435RoPE\u041b\u0443\u0447\u0448\u0430\u044f \u044d\u043a\u0441\u0442\u0440\u0430\u043f\u043e\u043b\u044f\u0446\u0438\u044f \u043d\u0430 \u0434\u043b\u0438\u043d\u043d\u044b\u0435 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u044b\u041d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044fLayerNormRMSNorm\u0411\u044b\u0441\u0442\u0440\u0435\u0435, \u0431\u0435\u0437 bias\u0410\u043a\u0442\u0438\u0432\u0430\u0446\u0438\u044fGELUSwiGLU\u041b\u0443\u0447\u0448\u0435 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u043f\u0440\u0438 \u0442\u0435\u0445 \u0436\u0435 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u0445AttentionMHAGQA\u041c\u0435\u043d\u044c\u0448\u0435 KV-\u043a\u0435\u0448, \u0431\u044b\u0441\u0442\u0440\u0435\u0435 \u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441\u0412\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u0435 attention\u0420\u0443\u0447\u043d\u043e\u0435Flash Attention\u0421\u0443\u0449\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e \u0431\u044b\u0441\u0442\u0440\u0435\u0435 \u043d\u0430 GPU\u0442\u043e\u043a\u0435\u043d\u043e\u0432: ~5.1Btrain loss: 3.07 | val loss: 3.11Loss \u043f\u043e\u0445\u043e\u0436 \u043d\u0430 \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u044e 3, \u043d\u043e \u043c\u043e\u0434\u0435\u043b\u044c \u043c\u0435\u043d\u044c\u0448\u0435 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0432\u0438\u0434\u0435\u043b\u0430 \u2014 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u0435\u0435 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b. \u0418 \u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441 \u0437\u0430\u043c\u0435\u0442\u043d\u043e \u0431\u044b\u0441\u0442\u0440\u0435\u0435.\u0414\u0435\u0442\u0430\u043b\u0438 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u044bRoPE\u0412\u043c\u0435\u0441\u0442\u043e \u0442\u0430\u0431\u043b\u0438\u0446\u044b \u0430\u0431\u0441\u043e\u043b\u044e\u0442\u043d\u044b\u0445 \u043f\u043e\u0437\u0438\u0446\u0438\u0439 \u2014 \u043f\u043e\u0432\u043e\u0440\u043e\u0442 \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432 Q \u0438 K \u0432 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438 \u043e\u0442 \u043f\u043e\u0437\u0438\u0446\u0438\u0438. \u041e\u0442\u043d\u043e\u0441\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0435 \u0440\u0430\u0441\u0441\u0442\u043e\u044f\u043d\u0438\u0435 \u043c\u0435\u0436\u0434\u0443 \u0442\u043e\u043a\u0435\u043d\u0430\u043c\u0438 \u043a\u043e\u0434\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u0432 \u0441\u0430\u043c\u043e\u043c attention.def apply_rotary_pos_emb(q, k, cos, sin):    q_embed = (q * cos) + (rotate_half(q) * sin)    k_embed = (k * cos) + (rotate_half(k) * sin)    return q_embed, k_embedSwiGLU\u0412\u043c\u0435\u0441\u0442\u043e \u043e\u0434\u043d\u043e\u0439 \u043c\u0430\u0442\u0440\u0438\u0446\u044b \u0432 FFN \u2014 \u0434\u0432\u0435, \u0441 gate-\u043c\u0435\u0445\u0430\u043d\u0438\u0437\u043c\u043e\u043c:def forward(self, x):    return self.w3(self.swish(self.w1(x)) * self.w2(x))hidden_dim = int(4 * d_model * 2\/3) \u2014 \u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u0430\u044f \u0444\u043e\u0440\u043c\u0443\u043b\u0430 \u0447\u0442\u043e\u0431\u044b \u043a\u043e\u043c\u043f\u0435\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u0443\u044e \u043c\u0430\u0442\u0440\u0438\u0446\u0443 \u0438 \u0441\u043e\u0445\u0440\u0430\u043d\u0438\u0442\u044c \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u0442\u043e\u0442 \u0436\u0435 FLOPs.GQAGrouped Query Attention: \u0432\u043c\u0435\u0441\u0442\u043e \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u0445 KV-\u0433\u043e\u043b\u043e\u0432 \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0439 Q-\u0433\u043e\u043b\u043e\u0432\u044b \u2014 \u043e\u0434\u043d\u0430 \u0433\u0440\u0443\u043f\u043f\u0430 KV \u043d\u0430 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e Q. \u041c\u0435\u043d\u044c\u0448\u0435 \u043f\u0430\u043c\u044f\u0442\u0438, \u0431\u044b\u0441\u0442\u0440\u0435\u0435 \u2014 \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u043f\u0440\u0438 \u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441\u0435 \u0441 \u0434\u043b\u0438\u043d\u043d\u044b\u043c \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u043e\u043c.if self.n_kv_head != self.n_head:    k = k.repeat_interleave(self.n_head \/\/ self.n_kv_head, dim=1)    v = v.repeat_interleave(self.n_head \/\/ self.n_kv_head, dim=1)Selective Gradient Checkpointing\u041f\u043e\u043b\u043d\u044b\u0439 gradient checkpointing \u0440\u0435\u0436\u0435\u0442 \u043f\u0430\u043c\u044f\u0442\u044c \u0432 2x, \u043d\u043e \u0437\u0430\u043c\u0435\u0434\u043b\u044f\u0435\u0442 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043d\u0430 ~30% \u2014 \u043f\u0435\u0440\u0435\u0441\u0447\u0438\u0442\u044b\u0432\u0430\u044e\u0442\u0441\u044f \u0430\u043a\u0442\u0438\u0432\u0430\u0446\u0438\u0438 \u043f\u0440\u0438 backward pass. \u0420\u0435\u0448\u0435\u043d\u0438\u0435: \u0447\u0435\u043a\u043f\u043e\u0438\u043d\u0442\u0438\u0442\u044c \u0442\u043e\u043b\u044c\u043a\u043e \u0447\u0430\u0441\u0442\u044c \u0441\u043b\u043e\u0451\u0432.checkpoint_strategy: str = &#171;custom&#187;  # &#171;alternate&#187;, &#171;first_last&#187;, &#171;custom&#187;, &#171;all&#187;\u041d\u0430 \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435 \u0447\u0435\u043a\u043f\u043e\u0438\u043d\u0442\u0438\u043d\u0433 \u0447\u0451\u0442\u043d\u044b\u0445 \u0441\u043b\u043e\u0451\u0432 \u0434\u0430\u0432\u0430\u043b \u0445\u043e\u0440\u043e\u0448\u0438\u0439 \u0431\u0430\u043b\u0430\u043d\u0441 \u043f\u0430\u043c\u044f\u0442\u0438 \u0438 \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u0438.\u0420\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0451\u043d\u043d\u043e\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043d\u0430 Colab \u0447\u0435\u0440\u0435\u0437 Google Drive\u042d\u0442\u043e \u0441\u0430\u043c\u0430\u044f \u043d\u0435\u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u0430\u044f \u0447\u0430\u0441\u0442\u044c \u043f\u0440\u043e\u0435\u043a\u0442\u0430. GPT-2 Large \u0441 \u043f\u043e\u043b\u043d\u044b\u043c gradient checkpointing \u043e\u0431\u0443\u0447\u0430\u043b\u0441\u044f \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u043e \u043d\u0430 \u043e\u0434\u043d\u043e\u0439 \u0441\u0435\u0441\u0441\u0438\u0438. \u041d\u0443\u0436\u043d\u043e \u0431\u044b\u043b\u043e \u0440\u0430\u0441\u043f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u0438\u0442\u044c.\u0421\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u044b\u0439 DDP \u0447\u0435\u0440\u0435\u0437 NCCL \u0438\u043b\u0438 Gloo \u0442\u0440\u0435\u0431\u0443\u0435\u0442 \u043f\u0440\u044f\u043c\u043e\u0439 \u0441\u0432\u044f\u0437\u0438 \u043c\u0435\u0436\u0434\u0443 \u043d\u043e\u0434\u0430\u043c\u0438. \u0412 Colab \u044d\u0442\u043e \u043d\u0435\u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e \u2014 \u0443 \u0441\u0435\u0441\u0441\u0438\u0439 \u043d\u0435\u0442 \u043f\u043e\u0441\u0442\u043e\u044f\u043d\u043d\u044b\u0445 IP, \u043d\u0435\u0442 \u043e\u0431\u0449\u0435\u0439 \u0441\u0435\u0442\u0438. \u041d\u0443\u0436\u0435\u043d \u0431\u044b\u043b \u0434\u0440\u0443\u0433\u043e\u0439 \u0442\u0440\u0430\u043d\u0441\u043f\u043e\u0440\u0442.\u0418\u0434\u0435\u044f: Google Drive \u043a\u0430\u043a \u0448\u0438\u043d\u0430 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u043e\u0432Google \u0414\u0438\u0441\u043a \u0432 Colab \u043c\u043e\u043d\u0442\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u043a\u0430\u043a \u043e\u0431\u044b\u0447\u043d\u0430\u044f \u0444\u0430\u0439\u043b\u043e\u0432\u0430\u044f \u0441\u0438\u0441\u0442\u0435\u043c\u0430. \u041a\u0430\u0436\u0434\u044b\u0439 \u0432\u043e\u0440\u043a\u0435\u0440 \u043c\u043e\u0436\u0435\u0442 \u043f\u0438\u0441\u0430\u0442\u044c \u0438 \u0447\u0438\u0442\u0430\u0442\u044c \u0444\u0430\u0439\u043b\u044b. \u0417\u043d\u0430\u0447\u0438\u0442, \u043c\u043e\u0436\u043d\u043e \u043f\u0435\u0440\u0435\u0434\u0430\u0432\u0430\u0442\u044c \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u044b \u0447\u0435\u0440\u0435\u0437 \u0444\u0430\u0439\u043b\u044b.\u0421\u0445\u0435\u043c\u0430:\u0412\u043e\u0440\u043a\u0435\u0440 1                          \u0412\u043e\u0440\u043a\u0435\u0440 2\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500                         \u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500\u2500forward pass                      forward passbackward pass                     backward pass\u0441\u043e\u0445\u0440\u0430\u043d\u0438\u0442\u044c grad_iter_N_worker_1.pt \u0441\u043e\u0445\u0440\u0430\u043d\u0438\u0442\u044c grad_iter_N_worker_2.pt       \u2193                                 \u2193       \u043e\u0436\u0438\u0434\u0430\u043d\u0438\u0435 \u0444\u0430\u0439\u043b\u0430 \u0432\u043e\u0440\u043a\u0435\u0440\u0430 2          \u043e\u0436\u0438\u0434\u0430\u043d\u0438\u0435 \u0444\u0430\u0439\u043b\u0430 \u0432\u043e\u0440\u043a\u0435\u0440\u0430 1       \u2193                                 \u2193\u0437\u0430\u0433\u0440\u0443\u0437\u0438\u0442\u044c, \u0443\u0441\u0440\u0435\u0434\u043d\u0438\u0442\u044c, \u043f\u0440\u0438\u043c\u0435\u043d\u0438\u0442\u044c  \u0437\u0430\u0433\u0440\u0443\u0437\u0438\u0442\u044c, \u0443\u0441\u0440\u0435\u0434\u043d\u0438\u0442\u044c, \u043f\u0440\u0438\u043c\u0435\u043d\u0438\u0442\u044coptimizer.step()                  optimizer.step()\u041a\u0430\u0436\u0434\u044b\u0439 \u0432\u043e\u0440\u043a\u0435\u0440 \u0437\u043d\u0430\u0435\u0442 \u0441\u0432\u043e\u0451 worker_id \u0438 \u043e\u0431\u0449\u0435\u0435 count_workers. \u041f\u043e\u0441\u043b\u0435 backward pass \u2014 \u0441\u043e\u0445\u0440\u0430\u043d\u044f\u0435\u0442 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u044b \u043f\u043e\u0434 \u0441\u0432\u043e\u0438\u043c ID \u0438 \u043d\u043e\u043c\u0435\u0440\u043e\u043c \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u0438, \u0437\u0430\u0442\u0435\u043c \u0436\u0434\u0451\u0442 \u0444\u0430\u0439\u043b\u044b \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0445.# \u0421\u043e\u0445\u0440\u0430\u043d\u0435\u043d\u0438\u0435 \u0441\u0432\u043e\u0438\u0445 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u043e\u0432save_gradients(model, f&#187;drive\/&#8230;\/grad_iter_{local_iter_num}_worker_{worker_id}.pt&#187;)# \u041e\u0436\u0438\u0434\u0430\u043d\u0438\u0435 \u0438 \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0430 \u0447\u0443\u0436\u0438\u0445paths = [f&#187;grad_iter_{local_iter_num}_worker_{i}.pt&#187;         for i in range(1, count_workers + 1) if i != worker_id]accumulate_gradients_into_model(model, paths)\u0423\u0441\u0440\u0435\u0434\u043d\u0435\u043d\u0438\u0435 \u0434\u0435\u043b\u0430\u0435\u0442 \u043a\u0430\u0436\u0434\u044b\u0439 \u0432\u043e\u0440\u043a\u0435\u0440 \u0441\u0430\u043c\u043e\u0441\u0442\u043e\u044f\u0442\u0435\u043b\u044c\u043d\u043e:def accumulate_gradients_into_model(model, gradient_paths):    for path in gradient_paths:        grads = torch.load(path, map_location=&#8217;cpu&#8217;)        for param, g in zip(model.parameters(), grads):            if param.grad is None:                param.grad = g.clone()            else:                param.grad.add_(g)    # \u0423\u0441\u0440\u0435\u0434\u043d\u0435\u043d\u0438\u0435 \u043f\u043e \u0432\u0441\u0435\u043c \u0432\u043e\u0440\u043a\u0435\u0440\u0430\u043c    for param in model.parameters():        if param.grad is not None:            param.grad.div_(len(gradient_paths) + 1)  # +1 \u0441\u0432\u043e\u0438\u0418\u043d\u0444\u0440\u0430\u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0430: \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0430\u043a\u043a\u0430\u0443\u043d\u0442\u043e\u0432 Google\u041a\u0430\u0436\u0434\u044b\u0439 \u0432\u043e\u0440\u043a\u0435\u0440 \u2014 \u044d\u0442\u043e \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u0430\u044f Colab-\u0441\u0435\u0441\u0441\u0438\u044f \u043f\u043e\u0434 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u043c Google-\u0430\u043a\u043a\u0430\u0443\u043d\u0442\u043e\u043c. \u041e\u0431\u0449\u0430\u044f \u0442\u043e\u0447\u043a\u0430 \u0441\u0438\u043d\u0445\u0440\u043e\u043d\u0438\u0437\u0430\u0446\u0438\u0438 \u2014 \u043f\u0430\u043f\u043a\u0430 \u043d\u0430 Google Drive, \u043e\u0442\u043a\u0440\u044b\u0442\u0430\u044f \u0434\u043b\u044f \u0432\u0441\u0435\u0445 \u0430\u043a\u043a\u0430\u0443\u043d\u0442\u043e\u0432. \u041a\u0430\u0436\u0434\u044b\u0439 \u0432\u043e\u0440\u043a\u0435\u0440 \u043c\u043e\u043d\u0442\u0438\u0440\u0443\u0435\u0442 \u0441\u0432\u043e\u0439 Drive, \u043d\u043e \u0443 \u0432\u0441\u0435\u0445 \u0435\u0441\u0442\u044c \u044f\u0440\u043b\u044b\u043a \u043d\u0430 \u044d\u0442\u0443 \u043e\u0431\u0449\u0443\u044e \u043f\u0430\u043f\u043a\u0443 \u2014 \u0442\u0443\u0434\u0430 \u0438 \u043f\u0438\u0448\u0443\u0442\u0441\u044f \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u044b.\u0414\u0432\u0430 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0430 \u043d\u0430 \u043a\u0430\u0436\u0434\u043e\u043c \u0432\u043e\u0440\u043a\u0435\u0440\u0435\u0412\u043d\u0443\u0442\u0440\u0438 \u043e\u0434\u043d\u043e\u0439 Colab-\u0441\u0435\u0441\u0441\u0438\u0438 \u0440\u0430\u0431\u043e\u0442\u0430\u043b\u043e \u0434\u0432\u0430 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0430. \u041e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u043b\u043e\u0441\u044c \u0447\u0435\u0440\u0435\u0437 subprocess.Popen \u2014 \u0444\u043e\u043d\u043e\u0432\u043e, \u043d\u0435 \u0431\u043b\u043e\u043a\u0438\u0440\u0443\u044f \u044f\u0447\u0435\u0439\u043a\u0443:import subprocessproc = subprocess.Popen([&#171;python&#187;, &#171;train.py&#187;])\u0412\u0442\u043e\u0440\u0430\u044f \u044f\u0447\u0435\u0439\u043a\u0430 \u043a\u0440\u0443\u0442\u0438\u043b\u0430 \u0434\u0430\u0443\u043d\u043b\u043e\u0430\u0434\u0435\u0440 \u2014 \u0441\u043b\u0435\u0434\u0438\u043b\u0430 \u0437\u0430 \u043f\u043e\u044f\u0432\u043b\u0435\u043d\u0438\u0435\u043c \u0444\u0430\u0439\u043b\u043e\u0432 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u043e\u0432 \u0434\u0440\u0443\u0433\u0438\u0445 \u0432\u043e\u0440\u043a\u0435\u0440\u043e\u0432 \u043d\u0430 Google Drive \u0438 \u0441\u043a\u0430\u0447\u0438\u0432\u0430\u043b\u0430 \u0438\u0445 \u043b\u043e\u043a\u0430\u043b\u044c\u043d\u043e.\u0424\u043b\u0430\u0433\u0438 \u043a\u0430\u043a \u0441\u0438\u0433\u043d\u0430\u043b \u0433\u043e\u0442\u043e\u0432\u043d\u043e\u0441\u0442\u0438\u0412\u0430\u0436\u043d\u0430\u044f \u0434\u0435\u0442\u0430\u043b\u044c \u043f\u0440\u043e Google Drive: \u0444\u0430\u0439\u043b\u044b \u043d\u0430 \u0434\u0438\u0441\u043a\u0435 \u0432\u0441\u0435\u0433\u0434\u0430 \u0446\u0435\u043b\u044b\u0435 \u2014 \u043d\u0435\u0437\u0430\u0432\u0435\u0440\u0448\u0451\u043d\u043d\u0430\u044f \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0430 \u0442\u0443\u0434\u0430 \u043f\u0440\u043e\u0441\u0442\u043e \u043d\u0435 \u0441\u0438\u043d\u0445\u0440\u043e\u043d\u0438\u0437\u0438\u0440\u0443\u0435\u0442\u0441\u044f. \u041d\u043e \u043f\u0440\u0438 \u0441\u043a\u0430\u0447\u0438\u0432\u0430\u043d\u0438\u0438 \u043e\u0431\u0440\u0430\u0442\u043d\u043e \u043b\u043e\u043a\u0430\u043b\u044c\u043d\u043e \u0444\u0430\u0439\u043b \u043c\u043e\u0436\u0435\u0442 \u043f\u043e\u044f\u0432\u0438\u0442\u044c\u0441\u044f \u0440\u0430\u043d\u044c\u0448\u0435, \u0447\u0435\u043c \u0434\u043e\u043a\u0430\u0447\u0430\u0435\u0442\u0441\u044f \u043f\u043e\u043b\u043d\u043e\u0441\u0442\u044c\u044e.\u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u0434\u0430\u0443\u043d\u043b\u043e\u0430\u0434\u0435\u0440, \u0437\u0430\u0432\u0435\u0440\u0448\u0438\u0432 \u0441\u043a\u0430\u0447\u0438\u0432\u0430\u043d\u0438\u0435 \u0444\u0430\u0439\u043b\u0430, \u0441\u043e\u0437\u0434\u0430\u0432\u0430\u043b \u043b\u043e\u043a\u0430\u043b\u044c\u043d\u044b\u0439 .flag:# \u0434\u0430\u0443\u043d\u043b\u043e\u0430\u0434\u0435\u0440: \u0441\u043a\u0430\u0447\u0430\u043b\u0438 \u0444\u0430\u0439\u043b \u2192 \u0441\u043e\u0437\u0434\u0430\u0451\u043c \u0444\u043b\u0430\u0433with open(f&#187;{local_iter_num}.flag&#187;, &#171;w&#187;) as f:    pass\u041e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0436\u0434\u0430\u043b\u043e \u0444\u043b\u0430\u0433\u0430, \u0430 \u043d\u0435 \u0441\u0430\u043c\u043e\u0433\u043e \u0444\u0430\u0439\u043b\u0430 \u0441 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u0430\u043c\u0438:# \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435: \u0436\u0434\u0451\u043c \u0444\u043b\u0430\u0433\u0430 \u043e\u0442 \u0434\u0430\u0443\u043d\u043b\u043e\u0430\u0434\u0435\u0440\u0430while not os.path.exists(f&#187;{local_iter_num}.flag&#187;):    time.sleep(0.1)\u0424\u043b\u0430\u0433 \u2014 \u0433\u0430\u0440\u0430\u043d\u0442\u0438\u044f \u0447\u0442\u043e \u0444\u0430\u0439\u043b \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442\u043e\u0432 \u0443\u0436\u0435 \u043f\u043e\u043b\u043d\u043e\u0441\u0442\u044c\u044e \u043b\u0435\u0436\u0438\u0442 \u043b\u043e\u043a\u0430\u043b\u044c\u043d\u043e \u0438 \u043c\u043e\u0436\u043d\u043e&#8230;<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-480469","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/480469","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=480469"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/480469\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=480469"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=480469"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=480469"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}