{"id":468292,"date":"2025-07-23T15:00:40","date_gmt":"2025-07-23T15:00:40","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=468292"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=468292","title":{"rendered":"<span>AGI: \u043e\u0442 \u0438\u0434\u0435\u0438 \u043a \u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u0438, \u0447\u0430\u0441\u0442\u044c 3: \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440 \u0438 \u0438\u0434\u0435\u0438 \u0434\u043b\u044f \u0443\u043b\u0443\u0447\u0448\u0435\u043d\u0438\u044f<\/span>"},"content":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<h3>\ud83e\udde9 \u041e\u0431\u0449\u0430\u044f \u0441\u0445\u0435\u043c\u0430 \u0440\u0430\u0431\u043e\u0442\u044b \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440\u0430<\/h3>\n<p>\u0414\u043b\u044f \u043f\u043e\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u044b \u0438 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u043e\u0432 \u0432 AGI \u0441\u0438\u0441\u0442\u0435\u043c\u0435, \u0434\u0430\u0432\u0430\u0439\u0442\u0435 \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u0440\u0435\u0448\u0435\u043d\u0438\u044f \u043d\u0430 \u0442\u0435\u043a\u0443\u0449\u0438\u0439 \u043c\u043e\u043c\u0435\u043d\u0442: LLM &#8212; \u0431\u043e\u043b\u044c\u0448\u0430\u044f \u044f\u0437\u044b\u043a\u043e\u0432\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c, \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440.<\/p>\n<p>\u0422\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u043e\u0431\u043e\u0439 \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044c \u0442\u0435\u043a\u0441\u0442\u0430: \u0432\u0445\u043e\u0434\u043d\u043e\u0439 \u0442\u0435\u043a\u0441\u0442 \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u0443\u0435\u0442\u0441\u044f \u0432 \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u044b\u0439 \u0442\u043e\u043a\u0435\u043d (\u0447\u0430\u0441\u0442\u044c \u0441\u043b\u043e\u0432\u0430) \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u043d\u044b\u0439 \u043c\u043e\u0434\u0435\u043b\u044c\u044e.<\/p>\n<p>\u0418\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044f \u043e\u0441\u043d\u043e\u0432\u0430\u043d\u0430 \u043d\u0430 \u043f\u043e\u0434\u0440\u043e\u0431\u043d\u043e\u043c \u0440\u0430\u0437\u0431\u043e\u0440\u0435 \u043a\u043e\u0434\u0430 \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440\u0430 GPT2 \u0438 DeepSeekV3.<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/57e\/252\/19a\/57e25219a1a028f4b7abb7bf8ccaaaba.png\" alt=\"\u0420\u0430\u0437\u0431\u043e\u0440 \u043a\u043e\u0434\u0430 GPT-2. \u041a\u043e\u0434: https:\/\/github.com\/openai\/gpt-2\/tree\/master\/src\" title=\"\u0420\u0430\u0437\u0431\u043e\u0440 \u043a\u043e\u0434\u0430 GPT-2. \u041a\u043e\u0434: https:\/\/github.com\/openai\/gpt-2\/tree\/master\/src\" width=\"2089\" height=\"1554\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/57e\/252\/19a\/57e25219a1a028f4b7abb7bf8ccaaaba.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/57e\/252\/19a\/57e25219a1a028f4b7abb7bf8ccaaaba.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0420\u0430\u0437\u0431\u043e\u0440 \u043a\u043e\u0434\u0430 GPT-2. \u041a\u043e\u0434: <a href=\"https:\/\/github.com\/openai\/gpt-2\/tree\/master\/src\" rel=\"noopener noreferrer nofollow\">https:\/\/github.com\/openai\/gpt-2\/tree\/master\/src<\/a><\/figcaption><\/div>\n<\/figure>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/551\/7ee\/ff9\/5517eeff903e21cdea86e5fd3e54690f.png\" alt=\"\u0420\u0430\u0437\u0431\u043e\u0440 \u043a\u043e\u0434\u0430 DeepSeek V3. \u041a\u043e\u0434: https:\/\/github.com\/deepseek-ai\/DeepSeek-V3\/tree\/main\/inference\" title=\"\u0420\u0430\u0437\u0431\u043e\u0440 \u043a\u043e\u0434\u0430 DeepSeek V3. \u041a\u043e\u0434: https:\/\/github.com\/deepseek-ai\/DeepSeek-V3\/tree\/main\/inference\" width=\"2412\" height=\"1806\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/551\/7ee\/ff9\/5517eeff903e21cdea86e5fd3e54690f.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/551\/7ee\/ff9\/5517eeff903e21cdea86e5fd3e54690f.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0420\u0430\u0437\u0431\u043e\u0440 \u043a\u043e\u0434\u0430 DeepSeek V3. \u041a\u043e\u0434: <a href=\"https:\/\/github.com\/deepseek-ai\/DeepSeek-V3\/tree\/main\/inference\" rel=\"noopener noreferrer nofollow\">https:\/\/github.com\/deepseek-ai\/DeepSeek-V3\/tree\/main\/inference<\/a><\/figcaption><\/div>\n<\/figure>\n<p>\u041f\u043e\u0434\u0440\u043e\u0431\u043d\u0430\u044f \u0444\u043e\u0440\u043c\u0443\u043b\u0430:<\/p>\n<p>Input &#8212; \u0432\u0445\u043e\u0434 \u0438\u043b\u0438 \u043f\u0440\u043e\u043c\u043f\u0442.<\/p>\n<p>Input \u2192 Tokens = Tokenize(Input)<\/p>\n<p>Output = P(tokens) = Attention(Tokens) + FeedForward(Tokens)<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/543\/850\/602\/54385060265209b4a2fc4673759d956f.png\" alt=\"Attention \u0438 FFN \u0432 \u043a\u043e\u0434\u0435 GPT-2\" title=\"Attention \u0438 FFN \u0432 \u043a\u043e\u0434\u0435 GPT-2\" width=\"1570\" height=\"1232\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/543\/850\/602\/54385060265209b4a2fc4673759d956f.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/543\/850\/602\/54385060265209b4a2fc4673759d956f.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>Attention \u0438 FFN \u0432 \u043a\u043e\u0434\u0435 GPT-2<\/figcaption><\/div>\n<\/figure>\n<p>\u0417\u0434\u0435\u0441\u044c \u043c\u044b \u0432\u0438\u0434\u0438\u043c \u0447\u0442\u043e \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0437\u0430\u0434\u0430\u0435\u0442\u0441\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u0435\u0439! \u0422.\u0435 \u043e\u043d\u043e \u043b\u0438\u043d\u0435\u0439\u043d\u043e. \u041d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u044b\u0439 \u0442\u043e\u043a\u0435\u043d \u0437\u0430\u0442\u0435\u043c \u0432\u044b\u0431\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u043e\u0433\u043e \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u0435\u0441\u043b\u0438 \u0437\u0430\u0434\u0430\u043d\u0430 \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u0430. \u0422.\u0435 \u0437\u0434\u0435\u0441\u044c \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u043e\u0441\u0442\u044c \u0432\u043b\u0438\u044f\u0435\u0442 \u0432 \u043a\u043e\u043d\u0446\u0435 \u0438 \u0442\u043e\u043b\u044c\u043a\u043e \u043d\u0430 \u0432\u044b\u0431\u043e\u0440 \u0442\u043e\u043a\u0435\u043d\u0430. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u0430 \u043f\u0440\u0438 \u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f\u0445 \u043c\u043e\u0436\u0435\u0442 \u0438\u043c\u0435\u0442\u044c \u043d\u0435\u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0443\u0435\u043c\u044b\u0439 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442. \u0412\u043d\u0443\u0442\u0440\u0438 \u0444\u0443\u043d\u043a\u0446\u0438\u0438 Attention: \u0435\u0441\u0442\u044c \u043c\u0430\u0442\u0440\u0438\u0446\u044b Wq, Wk, Wv \u0438 FeedForward: Wa, Wb \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043f\u043e\u0434\u0431\u0438\u0440\u0430\u044e\u0442\u0441\u044f \u0442\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c \u0447\u0442\u043e\u0431\u044b \u043e\u0448\u0438\u0431\u043a\u0430 \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u043d\u043e\u0433\u043e \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u0438\u043c\u0435\u043b\u0430 \u043c\u0438\u043d\u0438\u043c\u0430\u043b\u044c\u043d\u043e\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435. \u0422\u0443\u0442 \u043c\u044b \u043f\u043e\u0434\u0445\u043e\u0434\u0438\u043c \u043a \u0437\u0430\u0434\u0430\u0447\u0435 \u043c\u0438\u043d\u0438\u043c\u0438\u0437\u0430\u0446\u0438\u0438 \u043e\u0448\u0438\u0431\u043a\u0438 \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u0438\u044f \u043c\u043e\u0434\u0435\u043b\u0438.<\/p>\n<h3>\ud83e\uddee \u041c\u0438\u043d\u0438\u043c\u0438\u0437\u0430\u0446\u0438\u044f \u043e\u0448\u0438\u0431\u043a\u0438 \u0447\u0435\u0440\u0435\u0437 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442 \u0444\u0443\u043d\u043a\u0446\u0438\u0438, TensorFlow<\/h3>\n<p>\u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u0435\u0449\u0435 \u0440\u0430\u0437 \u043d\u0430 \u0444\u043e\u0440\u043c\u0443\u043b\u0443 \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u0438\u044f:<\/p>\n<p>Output = P(tokens) = Attention(Tokens) + FeedForward(Tokens)<\/p>\n<p>\u041c\u044b \u0432\u0438\u0434\u0438\u043c \u0447\u0442\u043e \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0437\u0430\u0434\u0430\u0435\u0442\u0441\u044f \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u0444\u0443\u043d\u043a\u0446\u0438\u0435\u0439 \u0438 \u0437\u0430\u0434\u0430\u0447\u0430 \u0432 \u0442\u043e\u043c, \u0447\u0442\u043e\u0431\u044b \u043d\u0430\u0439\u0442\u0438 \u0442\u0430\u043a\u0438\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u043c\u0430\u0442\u0440\u0438\u0446 \u0447\u0442\u043e\u0431\u044b \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0438\u0440\u0443\u044e\u0449\u0430\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u044f \u043f\u043e\u0442\u0435\u0440\u044c LOSS \u0438\u043c\u0435\u043b\u0430 \u043c\u0435\u043d\u044c\u0448\u0435\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 \u0447\u0435\u043c \u0442\u0435\u043a\u0443\u0449\u0435\u0435. \u041a\u0430\u043a \u0436\u0435 \u044d\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442\u0441\u044f? \u042d\u0442\u043e \u043d\u0430\u0437\u044b\u0432\u0430\u0435\u0442\u0441\u044f backpropagation \u0438 \u0432\u044b\u0447\u0438\u0441\u043b\u044f\u0435\u0442\u0441\u044f \u0447\u0435\u0440\u0435\u0437 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442 \u0444\u0443\u043d\u043a\u0446\u0438\u0438. \u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0432\u0441\u0435 \u0441\u043b\u043e\u0438 Attention, FeedForward \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u044e\u0442\u0441\u044f \u0432 \u0432\u0438\u0434\u0435 \u0432\u044b\u0447\u0438\u0441\u043b\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0433\u043e \u0433\u0440\u0430\u0444\u0430 \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043d\u0430\u0437\u044b\u0432\u0430\u0435\u0442\u0441\u044f TensorFlow.<\/p>\n<p>\u0412\u0435\u0440\u0448\u0438\u043d\u044b \u0433\u0440\u0430\u0444\u0430 \u044d\u0442\u043e \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u0438, \u0440\u0435\u0431\u0440\u0430 \u044d\u0442\u043e \u0432\u0445\u043e\u0434\u043d\u044b\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f. \u041a\u0430\u0436\u0434\u043e\u0439 \u0432\u0435\u0440\u0448\u0438\u043d\u0435 \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0443\u0435\u0442 \u043d\u0435\u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u044f. \u0414\u043b\u044f \u043f\u0440\u0438\u043c\u0435\u0440\u0430 \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u0442\u0430\u043a\u0443\u044e \u0444\u0443\u043d\u043a\u0446\u0438\u044e:<\/p>\n<p>Floss = x\u00b2\u00a0\u00a0<\/p>\n<p>x = 2 \u00b7 y\u00a0\u00a0<\/p>\n<p>\u041d\u0443\u0436\u043d\u043e \u043d\u0430\u0439\u0442\u0438 \u0442\u0430\u043a\u0438\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f (x, y) \u0447\u0442\u043e\u0431\u044b \u0444\u0443\u043d\u043a\u0446\u0438\u044f \u0443\u043c\u0435\u043d\u044c\u0448\u0438\u043b\u0430\u0441\u044c. \u0417\u0434\u0435\u0441\u044c (x, y) \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u043e\u0431\u043e\u0439 \u0432\u0445\u043e\u0434\u043d\u043e\u0439 \u0432\u0435\u043a\u0442\u043e\u0440. \u041a\u0430\u043a \u044d\u0442\u043e \u0441\u0434\u0435\u043b\u0430\u0442\u044c? \u0420\u0435\u0448\u0435\u043d\u0438\u0435 \u0442\u0430\u043a\u043e\u0435: \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u0441\u044f \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u043d\u0430\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u0438 Floss \u043f\u043e \u0432\u0441\u0435\u043c \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u043c. \u0427\u0442\u043e \u0442\u0430\u043a\u043e\u0435 \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u043d\u0430\u044f? \u042d\u0442\u043e \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 \u043a\u043e\u0442\u043e\u0440\u043e\u0435 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u0438. \u0415\u0441\u043b\u0438 \u0432\u044b\u0447\u0438\u0441\u043b\u0438\u0442\u044c \u0435\u0433\u043e \u043a \u043a\u0430\u0436\u0434\u043e\u0439 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u043e\u0439 \u043f\u043e\u043b\u0443\u0447\u0438\u043c \u0432\u0435\u043a\u0442\u043e\u0440 \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u0432 \u043a\u0430\u043a\u0443\u044e \u0441\u0442\u043e\u0440\u043e\u043d\u0443 \u0440\u0430\u0441\u0442\u0435\u0442 \u0444\u0443\u043d\u043a\u0446\u0438\u044f (\u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c) \u0438\u043b\u0438 \u043d\u043e\u0440\u043c\u0430\u043b\u044c \u043a \u0444\u0443\u043d\u043a\u0446\u0438\u0438. \u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c \u043c\u044b \u043c\u043e\u0436\u0435\u043c \u043f\u043e\u0441\u0447\u0438\u0442\u0430\u0442\u044c \u0432\u0435\u043a\u0442\u043e\u0440 \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u0438 \u0438 \u0434\u0432\u0438\u0433\u0430\u0442\u044c\u0441\u044f \u0432 \u043e\u0431\u0440\u0430\u0442\u043d\u043e\u043c \u043d\u0430\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u0438 \u043f\u043e \u044d\u0442\u043e\u043c\u0443 \u0432\u0435\u043a\u0442\u043e\u0440\u0443. \u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u043f\u0440\u043e\u0441\u0442\u043e \u043e\u0442\u043d\u0438\u043c\u0430\u0435\u043c \u0432\u0435\u043a\u0442\u043e\u0440 \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u043d\u044b\u0445 \u043e\u0442 \u0432\u0441\u0435\u0445 \u043c\u0430\u0442\u0440\u0438\u0446. \u0418 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u043b\u0443\u0447\u0448\u0435\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 Floss.<\/p>\n<p>\u0424\u043e\u0440\u043c\u0443\u043b\u0430:\u00a0<\/p>\n<p>W_new = W_old \u2013 \u03b7 \u00b7 \u2202LOSS\/\u2202W<\/p>\n<p>\u00a0\u0417\u0434\u0435\u0441\u044c n \u0437\u0430\u0434\u0430\u0435\u0442 \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c \u043e\u043f\u0442\u0438\u043c\u0438\u0437\u0430\u0446\u0438\u0438 \u0444\u0443\u043d\u043a\u0446\u0438\u0438.<\/p>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043e\u0441\u0442\u0430\u0435\u0442\u0441\u044f \u043f\u043e\u0441\u0447\u0438\u0442\u0430\u0442\u044c \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u043d\u0443\u044e, \u043d\u043e \u043a\u0430\u043a \u044d\u0442\u043e \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u0435\u0441\u043b\u0438 \u0438\u043c\u0435\u0435\u043c \u0432\u044b\u0447\u0438\u0441\u043b\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0433\u0440\u0430\u0444 \u0442\u0435\u043d\u0437\u043e\u0440\u043e\u0432? \u041d\u0430 \u043f\u0440\u0438\u043c\u0435\u0440\u0435 \u0441\u0447\u0438\u0442\u0430\u0435\u0442\u0441\u044f \u0442\u0430\u043a \u043f\u0443\u0442\u0435\u043c \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0433\u043e \u0442\u043e\u0436\u0434\u0435\u0441\u0442\u0432\u0430:<\/p>\n<p>d(Floss) \/ dy = d(Floss) \/ dy * (dy \/ dx),&#8230; \u0438 \u0430\u043d\u0430\u043b\u043e\u0433\u0438\u0447\u043d\u043e \u043f\u043e \u043b\u044e\u0431\u043e\u043c\u0443 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0443 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0445. \u0422.\u0435 \u043c\u044b \u0441\u0447\u0438\u0442\u0430\u0435\u043c \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u043d\u044b\u0435 \u043f\u043e \u0432\u0441\u0435\u043c \u0443\u0437\u043b\u0430\u043c \u0438 \u0437\u0430\u0442\u0435\u043c \u043f\u0435\u0440\u0435\u043c\u043d\u043e\u0436\u0430\u0435\u043c \u0438\u0445.<\/p>\n<p>\u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u0432\u0445\u043e\u0434\u043d\u043e\u0439 \u0432\u0435\u043a\u0442\u043e\u0440 (x, y) \u0438\u043c\u0435\u0435\u0442 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f (1, 1), \u0442.\u0435 (x, y) = (1, 1)<\/p>\n<p>\u0414\u0430\u043b\u0435\u0435:<\/p>\n<p>d(Floss)\/dx = 2 * x (\u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u043f\u0440\u0430\u0432\u0438\u043b\u043e \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u044f \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u043d\u044b\u0445)<\/p>\n<p>dx\/dy = 2 (\u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u043f\u0440\u0430\u0432\u0438\u043b\u043e \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u044f \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u043d\u044b\u0445)<\/p>\n<p>\u041f\u043e\u043b\u0443\u0447\u0430\u0435\u043c d(Floss)\/dy = 2 <em> x = 2 <\/em> (2 <em> y) = 4 <\/em> y<\/p>\n<p>\u0415\u0441\u043b\u0438 \u043f\u043e\u0434\u0441\u0442\u0430\u0432\u0438\u0442\u044c \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f x \u0438 y \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0432\u0435\u043a\u0442\u043e\u0440 \u0438\u043b\u0438 \u043d\u043e\u0440\u043c\u0430\u043b\u044c \u0434\u0432\u0438\u0436\u0435\u043d\u0438\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u0438:<\/p>\n<p>(d(Floss)\/dx, d(Floss)\/dy) = (2 <em> 1 = 2, 4 <\/em> 1 = 4) = (2, 4)<\/p>\n<p>\u0414\u043e\u043f\u0443\u0441\u0442\u0438\u043c n = 1<\/p>\n<p>\u041e\u0442\u043d\u0438\u043c\u0430\u0435\u043c: (1, 1) &#8212; (2 <em> 1, 4 <\/em> 1) = (1 &#8212; 2 = -1, 1 &#8212; 4 = -3)<\/p>\n<p>\u041f\u0440\u0435\u0434\u044b\u0434\u0443\u0449\u0435\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 Floss &#8212; 2, \u043d\u043e\u0432\u043e\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435: 2 * (-3) = -6.<\/p>\n<p>\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c \u0441\u0447\u0438\u0442\u0430\u0435\u0442\u0441\u044f \u0438 \u043e\u043f\u0442\u0438\u043c\u0438\u0437\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u0432\u0435\u0441\u044c \u0431\u043b\u043e\u043a \u0432 GPT \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440\u0435.<\/p>\n<h3>\ud83e\udde9 \u041f\u0440\u0438\u043d\u0446\u0438\u043f\u044b \u0440\u0430\u0431\u043e\u0442\u044b Tokenize, Attention, FeedForward<\/h3>\n<h4>\ud83d\udd0d Tokenize<\/h4>\n<p>\u0417\u0430\u0434\u0430\u043d \u0432\u0445\u043e\u0434\u043d\u043e\u0439 \u0442\u0435\u043a\u0441\u0442, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440: \u201c\u041f\u0440\u0438\u0432\u0435\u0442 GPT!\u201d. \u041c\u043e\u0434\u0435\u043b\u044c \u043d\u0435 \u043c\u043e\u0436\u0435\u0442 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u0441\u0442\u0440\u043e\u043a\u043e\u0432\u044b\u0439 \u0442\u0435\u043a\u0441\u0442 \u0441\u0440\u0430\u0437\u0443, \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u043e\u043d\u0438\u043c\u0430\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u0447\u0438\u0441\u043b\u0430. \u041a\u0430\u043a \u043d\u0430\u043c \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u0442\u044c \u0442\u0435\u043a\u0441\u0442 \u0432 \u0447\u0438\u0441\u043b\u0430? \u0414\u0430 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0440\u0430\u0437\u0434\u0435\u043b\u0438\u0442\u044c \u0442\u0435\u043a\u0441\u0442 \u043d\u0430 \u0447\u0430\u0441\u0442\u0438 \u0438 \u043a\u0430\u0436\u0434\u043e\u0439 \u0447\u0430\u0441\u0442\u0438 \u0434\u0430\u0442\u044c \u0447\u0438\u0441\u043b\u043e\u0432\u043e\u0435 \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0438\u0435. \u0422\u0430\u043a\u043e\u0435 \u0447\u0438\u0441\u043b\u043e \u043d\u0430\u0437\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u0442\u043e\u043a\u0435\u043d\u043e\u043c (\u043b\u0435\u043a\u0441\u0435\u043c\u043e\u0439).\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c \u043c\u044b \u0434\u0435\u043b\u0438\u043c \u0442\u0435\u043a\u0441\u0442 \u043d\u0430 \u0441\u043b\u043e\u0432\u0430:<\/p>\n<p>Tokenize1(\u201c\u041f\u0440\u0438\u0432\u0435\u0442 GPT!\u201d) = [\u201c\u041f\u0440\u0438\u0432\u0435\u0442\u201d, \u201c \u201d, \u201cGPT\u201d, \u201c!\u201d].<\/p>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043d\u0430\u043c \u043d\u0443\u0436\u043d\u043e \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u0442\u044c \u044d\u0442\u0438 \u0442\u043e\u043a\u0435\u043d\u044b \u0432 \u0447\u0438\u0441\u043b\u0430. \u041d\u043e \u0437\u0434\u0435\u0441\u044c \u043c\u044b \u0438\u043c\u0435\u0435\u043c \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0443. \u041d\u0430\u043c \u043f\u0440\u0438\u0434\u0435\u0442\u0441\u044f \u0441\u043e\u0437\u0434\u0430\u0442\u044c \u0442\u0430\u043a\u043e\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0432 \u043a\u043e\u0442\u043e\u0440\u043e\u043c \u0431\u0443\u0434\u0443\u0442 \u0432\u0441\u0435 \u0441\u043b\u043e\u0432\u0430 \u044f\u0437\u044b\u043a\u0430 \u0447\u0442\u043e\u0431\u044b \u043a\u0430\u0436\u0434\u043e\u043c\u0443 \u0441\u043b\u043e\u0432\u0443 \u043f\u0443\u043d\u043a\u0442\u0443\u0430\u0446\u0438\u0438 \u0447\u0438\u0441\u043b\u0443 \u0438 \u0442.\u0434 \u0434\u0430\u0442\u044c \u0447\u0438\u0441\u043b\u043e\u0432\u043e\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435. \u041d\u043e \u0435\u0441\u043b\u0438 \u044d\u0442\u043e \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u0441\u044f \u043e\u0447\u0435\u043d\u044c \u0431\u043e\u043b\u044c\u0448\u0438\u043c. \u041a\u0430\u043a \u0440\u0435\u0448\u0438\u0442\u044c \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0443? \u0414\u043b\u044f \u0440\u0435\u0448\u0435\u043d\u0438\u044f \u043d\u0430 \u043f\u0440\u0438\u043c\u0435\u0440\u0435 GPT2 \u0442\u043e\u043a\u0435\u043d\u044b \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0440\u0430\u0437\u0434\u0435\u043b\u044f\u044e\u0442\u0441\u044f \u043d\u0430 \u0447\u0430\u0441\u0442\u0438, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440:<\/p>\n<p>Tokenize2(\u201c\u041f\u0440\u0438\u0432\u0435\u0442 GPT!\u201d) = [\u201c\u041f\u0440\u0438\u201d, \u201c\u0432\u0435\u0442\u201d, \u201c \u201d, \u201cGPT\u201d, \u201c!\u201d], \u0442.\u0435 \u043d\u0430 \u043a\u0443\u0441\u043e\u0447\u043a\u0438 \u043e\u0442 \u0441\u043b\u043e\u0432. \u0410 \u0442\u0430\u043a\u0438\u0445 \u043a\u0443\u0441\u043e\u0447\u043a\u043e\u0432 \u043d\u0435 \u043e\u0447\u0435\u043d\u044c \u043c\u043d\u043e\u0433\u043e \u0438 \u0438\u0445 \u043c\u043e\u0436\u043d\u043e \u0445\u0440\u0430\u043d\u0438\u0442\u044c \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u0435. \u041f\u043e\u043b\u0443\u0447\u0430\u0435\u0442\u0441\u044f \u0442\u0430\u043a\u043e\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c (\u043f\u0440\u0438\u043c\u0435\u0440):<\/p>\n<p>\u2026<\/p>\n<p>\u041f\u0440\u0438 &#8212; 34,<\/p>\n<p>\u2026<\/p>\n<p>\u0432\u0435\u0442 &#8212; 56<\/p>\n<p>\u2026<\/p>\n<p>GPT &#8212; 102<\/p>\n<p>\u2026<\/p>\n<p>! &#8212; 1004<\/p>\n<p>\u041f\u043e\u043b\u0443\u0447\u0430\u0435\u043c:<\/p>\n<p>Tokenize3(\u201c\u041f\u0440\u0438\u0432\u0435\u0442 GPT!\u201d) = [34, 56, 102]<\/p>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u0438\u043c\u0435\u0435\u043c \u0437\u0430\u0434\u0430\u0447\u0443 \u043a\u0430\u043a \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e \u0440\u0430\u0437\u0434\u0435\u043b\u0438\u0442\u044c \u0442\u0435\u043a\u0441\u0442 \u043d\u0430 \u043a\u0443\u0441\u043e\u0447\u043a\u0438? \u041d\u0430 \u043f\u0440\u0438\u043c\u0435\u0440 GPT2 \u043c\u043e\u0436\u043d\u043e \u0443\u0432\u0438\u0434\u0435\u0442\u044c \u0447\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442\u0441\u044f \u044d\u0442\u043e \u0447\u0435\u0440\u0435\u0437 \u0431\u0438\u0433\u0440\u0430\u043c\u043c\u044b. \u0411\u0438\u0433\u0440\u0430\u043c\u043c\u0430 \u044d\u0442\u043e \u043f\u0430\u0440\u0430 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u044e\u0449\u0430\u044f \u0441\u043e\u043e\u0442\u0432\u0435\u0441\u0442\u0432\u0438\u0435 \u043c\u0435\u0436\u0434\u0443 \u0431\u0443\u043a\u0432\u0430\u043c\u0438 \u0432 \u0441\u043b\u043e\u0432\u0435. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440:<\/p>\n<p>(\u201c\u041f\u201d, \u201c\u0440\u201d)<\/p>\n<p>(\u201c\u041f\u0440\u201d, \u201c\u0438\u201d)<\/p>\n<p>\u2026<\/p>\n<p>(\u201c\u0432\u0435\u201d, \u201c\u0442\u201d).<\/p>\n<p>\u042d\u0442\u043e\u0442 \u0441\u043f\u0438\u0441\u043e\u043a \u0431\u0438\u0433\u0440\u0430\u043c\u043c \u0441\u0447\u0438\u0442\u0430\u0435\u0442\u0441\u044f \u043f\u043e \u043e\u0431\u0443\u0447\u0430\u0435\u043c\u043e\u043c\u0443 \u0442\u0435\u043a\u0441\u0442\u0443 (\u043d\u0430\u0437\u043e\u0432\u0435\u043c DATA) \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0438\u043c\u0435\u0435\u0442 \u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u0440\u0430\u0437\u043c\u0435\u0440 &#8212; \u0433\u0438\u0433\u0430\u0431\u0430\u0439\u0442\u044b \u0442\u0435\u043a\u0441\u0442\u0430. \u041d\u0430\u0445\u043e\u0434\u044f\u0442\u0441\u044f \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u044b\u0435 \u043f\u0430\u0440\u044b \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u043c\u044b\u0435 \u0432 \u0442\u0435\u043a\u0441\u0442\u0435.<\/p>\n<p>\u0414\u0430\u043b\u0435\u0435 \u043d\u0430 \u043f\u0440\u0438\u043c\u0435\u0440\u0435 \u0441\u043b\u043e\u0432\u0430 \u201c\u041f\u0440\u0438\u0432\u0435\u0442\u201d \u0434\u0435\u043b\u0438\u043c \u0441\u043b\u043e\u0432\u043e \u043d\u0430 \u0431\u0443\u043a\u0432\u044b \u0438 \u0441\u0442\u0440\u043e\u0438\u043c \u0431\u0438\u0433\u0440\u0430\u043c\u043c\u044b:<\/p>\n<p>[(\u201c\u041f\u201d, \u201c\u0440\u201d), (\u201c\u0440\u201d, \u201c\u0438\u201d), (\u201c\u0438\u201d, \u201c\u0432\u201d), (\u201c\u0432\u201d, \u201c\u0435\u201d), (\u201c\u0435\u201d, \u201c\u0442\u201d)] &#8212; \u0437\u0434\u0435\u0441\u044c \u043f\u0430\u0440\u044b \u0441\u0442\u0440\u043e\u044f\u0442\u0441\u044f \u043f\u043e \u043f\u0440\u0438\u043d\u0446\u0438\u043f\u0443 \u043b\u0435\u0432\u0430\u044f \u0447\u0430\u0441\u0442\u044c \u043f\u0435\u0440\u0432\u043e\u0439 \u0431\u0438\u0433\u0440\u0430\u043c\u043c\u044b \u0440\u0430\u0432\u043d\u043e \u043f\u0440\u0430\u0432\u043e\u0439 \u0447\u0430\u0441\u0442\u0438 \u0432\u0442\u043e\u0440\u043e\u0439. \u0418 \u043f\u043e \u0442\u0430\u0431\u043b\u0438\u0446\u0435 \u0431\u0438\u0433\u0440\u0430\u043c\u043c \u043e\u0431\u044a\u0435\u0434\u0438\u043d\u044f\u0435\u043c \u0431\u0443\u043a\u0432\u044b \u043d\u0430\u0445\u043e\u0434\u0438\u043c \u0441\u043e\u0432\u043f\u0430\u0434\u0435\u043d\u0438\u0435 \u043f\u043e \u0431\u0438\u0433\u0440\u0430\u043c\u043c\u0435 (\u201c\u041f\u201d, \u201c\u0440\u201d) \u0438 \u0434\u0430\u043b\u0435\u0435 \u043e\u0431\u044a\u0435\u0434\u0438\u043d\u044f\u0435\u043c \u043f\u043e \u0431\u0438\u0433\u0440\u0430\u043c\u043c\u0435:<\/p>\n<p>TokenizeBigram([(\u201c\u041f\u201d, \u201c\u0440\u201d), (\u201c\u0440\u201d, \u201c\u0438\u201d), (\u201c\u0438\u201d, \u201c\u0432\u201d), (\u201c\u0432\u201d, \u201c\u0435\u201d), (\u201c\u0435\u201d, \u201c\u0442\u201d)]) =([(\u201c\u041f\u0440\u201d), (\u201c\u0440\u201d, \u201c\u0438\u201d), (\u201c\u0438\u201d, \u201c\u0432\u201d), (\u201c\u0432\u201d, \u201c\u0435\u201d), (\u201c\u0435\u201d, \u201c\u0442\u201d)])<\/p>\n<p>\u0414\u0430\u043b\u0435\u0435 \u043f\u043e \u0431\u0438\u0433\u0440\u0430\u043c\u043c\u0435 (\u201c\u041f\u0440\u201d, \u201c\u0438\u201d):<\/p>\n<p>TokenizeBigram([(\u201c\u041f\u0440\u201d), (\u201c\u0440\u201d, \u201c\u0438\u201d), (\u201c\u0438\u201d, \u201c\u0432\u201d), (\u201c\u0432\u201d, \u201c\u0435\u201d), (\u201c\u0435\u201d, \u201c\u0442\u201d)]) = [(\u201c\u041f\u0440\u0438\u201d), (\u201c\u0438\u201d, \u201c\u0432\u201d), (\u201c\u0432\u201d, \u201c\u0435\u201d), (\u201c\u0435\u201d, \u201c\u0442\u201d)]<\/p>\n<p>\u0418\u0442\u0430\u043a \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442\u0441\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u044f:<\/p>\n<p>Tokenize(\u201c\u041f\u0440\u0438\u0432\u0435\u0442 GPT!\u201d) = [34, 56, 102]=Tokens<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/9ee\/d5b\/2c9\/9eed5b2c9111fa8ba61142e454b21202.png\" alt=\"\u0410\u043b\u0433\u043e\u0440\u0438\u0442\u043c \u0431\u0438\u0433\u0440\u0430\u043c\u043c \u0432 \u043a\u043e\u0434\u0435 GPT-2\" title=\"\u0410\u043b\u0433\u043e\u0440\u0438\u0442\u043c \u0431\u0438\u0433\u0440\u0430\u043c\u043c \u0432 \u043a\u043e\u0434\u0435 GPT-2\" width=\"2127\" height=\"2037\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/9ee\/d5b\/2c9\/9eed5b2c9111fa8ba61142e454b21202.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/9ee\/d5b\/2c9\/9eed5b2c9111fa8ba61142e454b21202.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0410\u043b\u0433\u043e\u0440\u0438\u0442\u043c \u0431\u0438\u0433\u0440\u0430\u043c\u043c \u0432 \u043a\u043e\u0434\u0435 GPT-2<\/figcaption><\/div>\n<\/figure>\n<h4>\ud83d\udd0d Tokenize \u2192 Embedding<\/h4>\n<p>\u0423 \u043d\u0430\u0441 \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0430\u0441\u044c \u043f\u043e\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u044c \u0447\u0438\u0441\u0435\u043b. \u041d\u043e \u043a\u0430\u043a \u0436\u0435 \u043c\u043e\u0434\u0435\u043b\u044c \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440\u0430 \u043f\u043e\u043d\u0438\u043c\u0430\u0435\u0442 \u0441\u043c\u044b\u0441\u043b \u0438\u0437 \u044d\u0442\u0438\u0445 \u0447\u0438\u0441\u0435\u043b?<\/p>\n<p>\u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0434\u0430\u043d\u043d\u044b\u0435 \u0447\u0438\u0441\u043b\u0430 \u0438\u043b\u0438 \u0441\u043b\u043e\u0432\u0430-\u0442\u043e\u043a\u0435\u043d\u044b \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u0443\u044e\u0442\u0441\u044f \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0437\u0430\u0434\u0430\u044e\u0442\u0441\u044f \u043c\u043e\u0434\u0435\u043b\u044c\u044e \u0432 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0442\u043e\u043a\u0435\u043d\u0430 \u043a\u0430\u043a \u0441\u043b\u043e\u0432\u0430\u0440\u044c token[i] -&gt; embedding[i]. \u0427\u0442\u043e \u0442\u0430\u043a\u043e\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u044b? \u0412\u0435\u043a\u0442\u043e\u0440\u044b \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u044e\u0442 \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0435 \u043c\u0435\u0440\u043d\u043e\u0441\u0442\u0438(\u043f\u0440\u0438\u0437\u043d\u0430\u043a\u0438) \u043e\u0431\u044a\u0435\u043a\u0442\u0430 \u0442.\u0435 \u0441\u043b\u043e\u0432\u0430 \u0438\u043c\u0435\u044e\u0449\u0435\u0433\u043e \u0441\u043c\u044b\u0441\u043b. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u0438\u043c\u0435\u0435\u043c \u0441\u043b\u043e\u0432\u043e \u043a\u043e\u0448\u043a\u0430 Cat. \u041a\u043e\u0448\u043a\u0430 \u0438\u043c\u0435\u0435\u0442 \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0441\u0442\u0438\u043a\u0438 \u0438 \u0438\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0438\u0440\u0443\u044e\u0442\u0441\u044f \u043e\u043d\u0438 \u043a\u0430\u043a \u0430\u0442\u0440\u0438\u0431\u0443\u0442\u044b \u043a\u043b\u0430\u0441\u0441\u0430 \u043f\u0440\u0438\u043c\u0435\u0440 \u043d\u0430 c#:<\/p>\n<p><code>class Cat<\/code><\/p>\n<p><code>{<\/code><\/p>\n<p><code>\u00a0\u00a0\u00a0public int Mass { get; set; }<\/code><\/p>\n<p><code>\u00a0\u00a0\u00a0public int Color { get; set; }<\/code><\/p>\n<p><code>\u00a0\u00a0\u00a0\u2026<\/code><\/p>\n<p><code>}<\/code><\/p>\n<p>\u041a\u0430\u0436\u0434\u044b\u0439 \u0430\u0442\u0440\u0438\u0431\u0443\u0442 \u0438\u043b\u0438 \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0441\u0442\u0438\u043a\u0430 \u044d\u0442\u043e \u0440\u0430\u0437\u043c\u0435\u0440\u043d\u043e\u0441\u0442\u044c \u043a\u043b\u0430\u0441\u0441\u0430: \u0442.\u0435 \u043a\u043e\u0448\u043a\u0430 \u043c\u043e\u0436\u0435\u0442 \u0438\u043c\u0435\u0442\u044c \u043c\u0430\u0441\u0441\u0443, \u0446\u0432\u0435\u0442: \u0431\u0435\u043b\u044b\u0439, \u0437\u0435\u043b\u0435\u043d\u044b\u0439, \u043a\u0440\u0430\u0441\u043d\u044b\u0439 \u0438 \u0442.\u0434. \u0418 \u0432\u0441\u0435 \u044d\u0442\u043e \u043a\u043e\u0434\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u0447\u0438\u0441\u043b\u0430\u043c\u0438. \u041d\u043e \u043d\u0430\u043c \u043d\u0435 \u043d\u0443\u0436\u043d\u043e \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u0442\u044c \u044d\u0442\u0438 \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0441\u0442\u0438\u043a\u0438 \u0432\u0440\u0443\u0447\u043d\u0443\u044e. \u041a\u0440\u0430\u0441\u043e\u0442\u0430 \u043d\u0435\u0439\u0440\u043e\u043d\u043d\u044b\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u0432 \u0442\u043e\u043c \u0447\u0442\u043e \u043e\u043d\u0438 \u0441\u0430\u043c\u0438 \u0443\u0447\u0430\u0442\u0441\u044f \u043a\u0430\u043a \u044d\u0442\u043e \u0434\u0435\u043b\u0430\u0442\u044c. \u0418\u0442\u0430\u043a \u0441\u043b\u043e\u0432\u043e \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u0443\u0435\u0442\u0441\u044f \u0432 \u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u0441\u043f\u0438\u0441\u043e\u043a \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0441\u0442\u0438\u043a \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043d\u0430\u0437\u044b\u0432\u0430\u044e\u0442\u0441\u044f features (\u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u0438).<\/p>\n<p>\u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440: \u201c\u041f\u0440\u0438\u201d =&gt; 34 =&gt; [35, 67, 32, 78 \u2026 ] 1024, 4098\u2026 \u0447\u0438\u0441\u0435\u043b! \u042d\u0442\u043e \u043e\u0433\u0440\u043e\u043c\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0430\u0442\u0440\u0438\u0431\u0443\u0442\u043e\u0432 \u043f\u043e \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0437\u0443\u044e\u0442\u0441\u044f \u0441\u043b\u043e\u0432\u0430-\u0442\u043e\u043a\u0435\u043d\u044b. \u0418 \u043c\u043e\u0434\u0435\u043b\u044c \u0441\u0430\u043c\u0430 \u0443\u0447\u0438\u0442\u0441\u044f \u0441\u0442\u0440\u043e\u0438\u0442\u044c \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0441\u0442\u0438\u043a\u0438 \u043e\u0431\u0443\u0447\u0438\u0432\u0448\u0438\u0441\u044c \u043d\u0430 DATA, \u043f\u0443\u0442\u0435\u043c \u0443\u043c\u0435\u043d\u044c\u0448\u0435\u043d\u0438\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u0438 Floss. \u0412 \u0441\u0430\u043c\u043e\u043c \u0432\u0435\u043a\u0442\u043e\u0440\u0435 \u0437\u0430\u043a\u043e\u0434\u0438\u0440\u043e\u0432\u0430\u043d\u044b \u043d\u0435 \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u043e \u0430\u0442\u0440\u0438\u0431\u0443\u0442\u044b \u043a\u0430\u043a \u0432 \u043a\u043b\u0430\u0441\u0441\u0435, \u043d\u043e \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0435 \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u044b \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0442\u043e\u0440\u044b \u0438\u043b\u0438 \u0438\u0445 \u0447\u0430\u0441\u0442\u0438, \u0442\u0430\u043a \u043a\u0430\u043a \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0435 \u0443\u043c\u0435\u0435\u0442 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u0446\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0444\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u043e \u043a\u0430\u043a \u0447\u0435\u043b\u043e\u0432\u0435\u043a \u0434\u0435\u043b\u0430\u0435\u0442 \u043e\u043d\u0430 \u044d\u0442\u043e \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u0447\u0442\u043e\u0431\u044b \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u043e\u0432\u0430\u0442\u044c \u0432\u0441\u0435\u0439 \u0444\u0443\u043d\u043a\u0446\u0438\u0438 Floss(DATA). \u0412\u0435\u043a\u0442\u043e\u0440 \u0434\u043b\u044f \u0442\u043e\u043a\u0435\u043d\u0430 \u043d\u0430\u0437\u044b\u0432\u0430\u0435\u0442\u0441\u044f embedding.<\/p>\n<p>\u0414\u043b\u044f \u043f\u0440\u0438\u043c\u0435\u0440\u0430 \u043f\u0440\u0438\u043c\u0435\u043c \u0447\u0442\u043e \u0434\u043b\u0438\u043d\u0430 \u0432\u0435\u043a\u0442\u043e\u0440\u0430 \u043f\u0440\u0438\u0437\u043d\u0430\u043a\u043e\u0432 2 (\u0432 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u0441\u0442\u0438 \u0434\u043b\u0438\u043d\u0430 1024 \u0438\u043b\u0438 \u0431\u043e\u043b\u0435\u0435!).<\/p>\n<p>\u0418\u043c\u0435\u0435\u043c \u0442\u0430\u043a\u0443\u044e \u0444\u0443\u043d\u043a\u0446\u0438\u044e:<\/p>\n<p>Embedding(Tokens) = [ [1, 2], [3, 4], [4, 8] ] = Vectors<\/p>\n<p>\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c \u043c\u044b \u043c\u043e\u0436\u0435\u043c \u0432\u0445\u043e\u0434\u043d\u043e\u0439 \u0442\u0435\u043a\u0441\u0442 \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u044b\u0432\u0430\u0442\u044c \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u043e\u0442\u0440\u0430\u0436\u0430\u044e\u0449\u0438\u0435 \u0441\u043c\u044b\u0441\u043b \u044d\u0442\u043e\u0433\u043e \u0442\u0435\u043a\u0441\u0442\u0430 \u0438\u043b\u0438 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0442\u043e\u0440\u044b \u0442\u043e\u043a\u0435\u043d\u043e\u0432. \u0417\u0434\u0435\u0441\u044c \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u0441\u044f \u043e\u0447\u0435\u0432\u0438\u0434\u043d\u043e \u0447\u0442\u043e \u0447\u0435\u043c \u0434\u043b\u0438\u043d\u043d\u0435\u0435 \u0432\u0435\u043a\u0442\u043e\u0440 \u0442\u0435\u043c \u043f\u043e \u0431\u043e\u043b\u044c\u0448\u0438\u043c \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0441\u0442\u0438\u043a\u0430\u043c \u043c\u043e\u0434\u0435\u043b\u044c \u0431\u0443\u0434\u0435\u0442 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u0446\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0441\u043b\u043e\u0432\u0430 \u0438 \u0442\u0435\u043c \u0442\u043e\u0447\u043d\u0435\u0435 \u0431\u0443\u0434\u0435\u0442 \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u0442\u044c \u0441\u043c\u044b\u0441\u043b.<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/c43\/a1e\/fe1\/c43a1efe10c52d95c3e43795f7e7f393.png\" alt=\"\u041f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0441\u043c\u044b\u0441\u043b\u0430 (\u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438) \u0432 GPT-2\" title=\"\u041f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0441\u043c\u044b\u0441\u043b\u0430 (\u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438) \u0432 GPT-2\" width=\"2343\" height=\"1840\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/c43\/a1e\/fe1\/c43a1efe10c52d95c3e43795f7e7f393.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/c43\/a1e\/fe1\/c43a1efe10c52d95c3e43795f7e7f393.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u041f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0441\u043c\u044b\u0441\u043b\u0430 (\u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438) \u0432 GPT-2<\/figcaption><\/div>\n<\/figure>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/fcf\/d55\/5b3\/fcfd555b32c4576bd23ebe8c7ac02b7a.png\" alt=\"\u041f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0441\u043c\u044b\u0441\u043b\u0430 (\u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438) \u0432 DeepSeek3. \u0423 \u043d\u0435\u0433\u043e \u0440\u0435\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u043d\u043e \u0447\u0435\u0440\u0435\u0437 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443 Torch\" title=\"\u041f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0441\u043c\u044b\u0441\u043b\u0430 (\u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438) \u0432 DeepSeek3. \u0423 \u043d\u0435\u0433\u043e \u0440\u0435\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u043d\u043e \u0447\u0435\u0440\u0435\u0437 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443 Torch\" width=\"1671\" height=\"1156\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/fcf\/d55\/5b3\/fcfd555b32c4576bd23ebe8c7ac02b7a.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/fcf\/d55\/5b3\/fcfd555b32c4576bd23ebe8c7ac02b7a.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u041f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0441\u043c\u044b\u0441\u043b\u0430 (\u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438) \u0432 DeepSeek3. \u0423 \u043d\u0435\u0433\u043e \u0440\u0435\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u043d\u043e \u0447\u0435\u0440\u0435\u0437 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443 Torch<\/figcaption><\/div>\n<\/figure>\n<h3> \ud83d\udd0d Tokenize \u2192 Embedding \u2192 PositionalEmbedding<\/h3>\n<p>\u041f\u043e\u0441\u043b\u0435 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u044f \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432 \u0441\u043c\u044b\u0441\u043b\u0430 (\u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u043e\u0432) \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0432 \u043c\u043e\u0434\u0435\u043b\u0438 \u043a\u0430\u043a \u0442\u043e \u0437\u0430\u043a\u043e\u0434\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043d\u0430 \u043a\u0430\u043a\u043e\u043c \u043c\u0435\u0441\u0442\u0435 \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u0441\u044f \u0432\u0435\u043a\u0442\u043e\u0440 \u0442\u043e\u043a\u0435\u043d\u0430 \u043f\u043e\u0441\u043a\u043e\u043b\u044c\u043a\u0443 \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0435 \u0443\u043c\u0435\u0435\u0442 \u044d\u0442\u043e \u0440\u0430\u0437\u043b\u0438\u0447\u0430\u0442\u044c. \u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f \u043f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u043d\u044b\u0439 \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433: PositionalEmbedding.<\/p>\n<p>\u041e\u043d \u0432\u044b\u0447\u0438\u0441\u043b\u044f\u0435\u0442 \u043f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u043d\u044b\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0438 \u0441\u043a\u043b\u0430\u0434\u044b\u0432\u0430\u0435\u0442 \u0438\u0445 \u0441 \u0432\u0435\u043a\u0442\u043e\u0440\u0430\u043c\u0438 (GPT2). \u0422\u0430\u043a\u0436\u0435 \u043c\u043e\u0436\u0435\u0442 \u0432\u044b\u043f\u043e\u043b\u043d\u044f\u0442\u044c\u0441\u044f \u0432\u0440\u0430\u0449\u0435\u043d\u0438\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432 \u043f\u043e \u043d\u0438\u043c (DeepSeekV3).<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/f13\/90d\/a75\/f1390da75be2ba125398ac1e2881c1f8.png\" alt=\"\u041d\u0435\u043f\u0440\u043e\u0441\u0442\u043e\u0435 \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u0435 \u0432\u0440\u0430\u0449\u0435\u043d\u0438\u044f \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432 \u0434\u043b\u044f \u043f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u043d\u043e\u0433\u043e \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0430 \u0432 DeepSeekV3\" title=\"\u041d\u0435\u043f\u0440\u043e\u0441\u0442\u043e\u0435 \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u0435 \u0432\u0440\u0430\u0449\u0435\u043d\u0438\u044f \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432 \u0434\u043b\u044f \u043f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u043d\u043e\u0433\u043e \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0430 \u0432 DeepSeekV3\" width=\"1333\" height=\"895\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/f13\/90d\/a75\/f1390da75be2ba125398ac1e2881c1f8.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/f13\/90d\/a75\/f1390da75be2ba125398ac1e2881c1f8.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u041d\u0435\u043f\u0440\u043e\u0441\u0442\u043e\u0435 \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u0435 \u0432\u0440\u0430\u0449\u0435\u043d\u0438\u044f \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432 \u0434\u043b\u044f \u043f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u043d\u043e\u0433\u043e \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0430 \u0432 DeepSeekV3<\/figcaption><\/div>\n<\/figure>\n<h3>\ud83d\udca1 \u0412\u043d\u0438\u043c\u0430\u043d\u0438\u0435 (Attention)<\/h3>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u0440\u0430\u0437\u0431\u0435\u0440\u0435\u043c \u043a\u0430\u043a \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0444\u0443\u043d\u043a\u0446\u0438\u044f Attention.<\/p>\n<p>\u0424\u043e\u0440\u043c\u0443\u043b\u0430:<\/p>\n<p>Attention = softmax( (Wq \u00b7 Wk\u1d40) \/ sqrt(d) ) \u00b7 Wv<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/814\/59b\/ca7\/81459bca797286ef682e2d8fe99650cf.png\" alt=\"\u0412\u043e\u0442 \u0442\u0430\u043a \u0440\u0435\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u0432 GPT-2\" title=\"\u0412\u043e\u0442 \u0442\u0430\u043a \u0440\u0435\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u0432 GPT-2\" width=\"1872\" height=\"1518\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/814\/59b\/ca7\/81459bca797286ef682e2d8fe99650cf.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/814\/59b\/ca7\/81459bca797286ef682e2d8fe99650cf.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0412\u043e\u0442 \u0442\u0430\u043a \u0440\u0435\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u0432 GPT-2<\/figcaption><\/div>\n<\/figure>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/712\/b0b\/14c\/712b0b14ca7d6e5c03bf523111220c2d.png\" alt=\"\u0410 \u0432\u043e\u0442 \u0442\u0430\u043a \u0432 DeepSeekV3. \u0421\u043b\u043e\u0436\u043d\u043e \u043f\u0440\u0430\u0432\u0434\u0430? \u0422\u0443\u0442 QLora, \u0430 einsum \u043f\u0435\u0440\u0435\u043c\u043d\u043e\u0436\u0435\u043d\u0438\u0435 \u043c\u0430\u0442\u0440\u0438\u0446\" title=\"\u0410 \u0432\u043e\u0442 \u0442\u0430\u043a \u0432 DeepSeekV3. \u0421\u043b\u043e\u0436\u043d\u043e \u043f\u0440\u0430\u0432\u0434\u0430? \u0422\u0443\u0442 QLora, \u0430 einsum \u043f\u0435\u0440\u0435\u043c\u043d\u043e\u0436\u0435\u043d\u0438\u0435 \u043c\u0430\u0442\u0440\u0438\u0446\" width=\"2401\" height=\"1576\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/712\/b0b\/14c\/712b0b14ca7d6e5c03bf523111220c2d.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/712\/b0b\/14c\/712b0b14ca7d6e5c03bf523111220c2d.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0410 \u0432\u043e\u0442 \u0442\u0430\u043a \u0432 DeepSeekV3. \u0421\u043b\u043e\u0436\u043d\u043e \u043f\u0440\u0430\u0432\u0434\u0430? \u0422\u0443\u0442 QLora, \u0430 einsum \u043f\u0435\u0440\u0435\u043c\u043d\u043e\u0436\u0435\u043d\u0438\u0435 \u043c\u0430\u0442\u0440\u0438\u0446<\/figcaption><\/div>\n<\/figure>\n<p>\u0427\u0442\u043e \u0442\u0430\u043a\u043e\u0435 Q, K, V?<\/p>\n<p>\u042d\u0442\u043e \u043a\u043e\u043d\u0446\u0435\u043f\u0442\u044b-\u0432\u0435\u043a\u0442\u043e\u0440\u044b \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u0432 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f, Q &#8212; \u0432\u0435\u043a\u0442\u043e\u0440 \u043f\u043e\u0438\u0441\u043a\u0430, K &#8212; \u0432\u0435\u043a\u0442\u043e\u0440 \u043a\u043b\u044e\u0447\u0430, V &#8212; \u0432\u0435\u043a\u0442\u043e\u0440 \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u044f \u0438\u043b\u0438 \u0432\u0430\u0436\u043d\u043e\u0441\u0442\u0438. \u0420\u0430\u0437\u043b\u043e\u0436\u0435\u043d\u044b \u043e\u043d\u0438 \u0432 \u043c\u0430\u0442\u0440\u0438\u0446\u0435 \u043f\u043e \u0442\u043e\u043a\u0435\u043d\u0430\u043c \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0441\u043f\u0440\u043e\u0435\u0446\u0438\u0440\u043e\u0432\u0430\u043d\u0430 \u043d\u0430 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e \u0431\u043e\u043b\u044c\u0448\u0435\u0439 \u043c\u043e\u0449\u043d\u043e\u0441\u0442\u0438. \u0427\u0442\u043e \u0442\u0430\u043a\u043e\u0435 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f? \u041b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u0438 \u044d\u0442\u043e \u0442\u0430\u043a \u0432\u044b\u0445\u043e\u0434\u043d\u044b\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u043b\u0435\u0436\u0430\u0442 \u0432 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0435 \u0441\u043c\u044b\u0441\u043b\u0430, \u043c\u044b \u0438\u0445 \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u0443\u0435\u043c (\u043f\u0440\u043e\u0435\u0446\u0438\u0440\u0443\u0435\u043c) \u0432 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u0438 \u0441\u0447\u0438\u0442\u0430\u0435\u043c \u043f\u043e \u043d\u0438\u043c \u043e\u0447\u043a\u0438 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f.<\/p>\n<p>\u0427\u0442\u043e\u0431\u044b \u0441\u043f\u0440\u043e\u0435\u0446\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432\u0435\u043a\u0442\u043e\u0440 Vector \u043d\u0430 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u043e\u043d \u0443\u043c\u043d\u043e\u0436\u0430\u0435\u0442\u0441\u044f \u043d\u0430 \u043c\u0430\u0442\u0440\u0438\u0446\u0443 W. \u041a\u043e\u0442\u043e\u0440\u0430\u044f \u0434\u0430\u0435\u0442 \u043f\u0440\u0430\u0432\u0438\u043b\u043e \u043f\u0440\u043e\u0435\u043a\u0446\u0438\u0438 \u043a\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c \u0432\u0435\u043a\u0442\u043e\u0440 \u043f\u0440\u043e\u0435\u0446\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u043d\u0430 \u0432\u0435\u043a\u0442\u043e\u0440 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f. \u0412 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u0441\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u0435\u0442 3 \u0432\u0435\u043a\u0442\u043e\u0440\u0430: Q, K, V. \u041c\u0430\u0442\u0440\u0438\u0446\u0430 W \u0438\u043c\u0435\u0435\u0442 \u0431\u043e\u043b\u044c\u0448\u0443\u044e \u043c\u0435\u0440\u043d\u043e\u0441\u0442\u044c \u0447\u0435\u043c \u043c\u0430\u0442\u0440\u0438\u0446\u0430 \u0432\u0435\u043a\u0442\u043e\u0440\u0430, \u0447\u0442\u043e\u0431\u044b \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u0432 \u0431\u043e\u043b\u044c\u0448\u0435\u043c \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0435 \u0447\u0435\u043c \u0432\u0435\u043a\u0442\u043e\u0440. \u041b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u0438 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e \u0441\u043c\u044b\u0441\u043b\u0430 \u0440\u0430\u0441\u0448\u0438\u0440\u044f\u0435\u0442\u0441\u044f \u0434\u043e \u0431\u043e\u043b\u044c\u0448\u0435\u0433\u043e \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0430 \u0438 \u0442\u0430\u043c \u0441\u0442\u0440\u043e\u0438\u0442\u0441\u044f \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435. \u0412\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u043f\u043e \u0432\u0441\u0435\u043c \u0442\u043e\u043a\u0435\u043d\u0430\u043c \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u0430\u043c \u0442\u043e\u043a\u0435\u043d \u0443\u0434\u0435\u043b\u044f\u0435\u0442 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u043a \u0434\u0440\u0443\u0433\u0438\u043c \u0442\u043e\u043a\u0435\u043d\u0430\u043c, \u0442.\u0435 \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0442\u043e\u043a\u0435\u043d\u0443 Token(i) \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u043e Token(j). \u0412 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f Q \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u043e\u0431\u043e\u0439 \u0442\u0430\u043a\u0443\u044e \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0441\u0442\u0438\u043a\u0443: \u043a\u0430\u043a\u0443\u044e \u0441\u0432\u043e\u044e \u0446\u0435\u043b\u044c \u0438\u043c\u0435\u0435\u0442 \u0442\u043e\u043a\u0435\u043d? \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u043e\u043d\u0430 \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u043c \u0446\u0435\u043b\u0438. K \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u043e\u0431\u043e\u0439 \u0446\u0435\u043b\u0435\u0432\u043e\u0439 \u0432\u0435\u043a\u0442\u043e\u0440 \u0447\u0442\u043e \u0442\u043e\u043a\u0435\u043d \u043c\u043e\u0436\u0435\u0442 \u0434\u0430\u0442\u044c \u0434\u0440\u0443\u0433\u0438\u043c \u0442\u043e\u043a\u0435\u043d\u0430\u043c? \u0422.\u0435 \u043f\u043e \u043a\u0430\u0436\u0434\u044b\u043c \u043f\u0430\u0440\u0430\u043c \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0432\u044b\u0447\u0438\u0441\u043b\u044f\u044e\u0442\u0441\u044f \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0446\u0435\u043b\u0435\u0439:<\/p>\n<p>Vq, Vk. \u0418 \u0434\u0430\u043b\u0435\u0435 \u0441\u0447\u0438\u0442\u0430\u0435\u0442\u0441\u044f \u0438\u0445 \u0441\u043a\u0430\u043b\u044f\u0440\u043d\u043e\u0435 \u043f\u0440\u043e\u0438\u0437\u0432\u0435\u0434\u0435\u043d\u0438\u0435. \u041e\u043d\u043e \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u0441\u043e\u043d\u0430\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u043d\u043e\u0441\u0442\u044c \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432. \u0422.\u0435 \u0435\u0441\u043b\u0438 Vq, Vk \u0441\u043e-\u043d\u0430\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u043d\u044b, \u043e\u043d\u0438 \u0438\u043c\u0435\u044e\u0442 \u043e\u0431\u0449\u0443\u044e \u0446\u0435\u043b\u044c (\u0443\u0433\u043e\u043b \u0431\u043b\u0438\u0436\u0435 \u043a 0). \u0410 \u044d\u0442\u043e \u0437\u043d\u0430\u0447\u0438\u0442 \u0447\u0442\u043e \u043e\u043d\u0438 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u044e\u0442 \u043f\u043e\u0432\u044b\u0448\u0435\u043d\u043d\u044b\u0439 \u0438\u043d\u0442\u0435\u0440\u0435\u0441 (\u0434\u0440\u0443\u0433 \u043a \u0434\u0440\u0443\u0433\u0443).<\/p>\n<p>\u0412 \u0444\u043e\u0440\u043c\u0443\u043b\u0435 Wq * (Wk^T) \u043e\u0437\u043d\u0430\u0447\u0430\u0435\u0442 \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u0435 dot product \u043f\u043e \u043c\u0430\u0442\u0440\u0438\u0446\u0435: \u043c\u0430\u0442\u0440\u0438\u0446\u0430 Q \u0443\u043c\u043d\u043e\u0436\u0430\u0435\u0442\u0441\u044f \u043d\u0430 \u0442\u0440\u0430\u043d\u0441\u043f\u043e\u043d\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u0443\u044e \u043c\u0430\u0442\u0440\u0438\u0446\u0443 K, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0442 \u0434\u0430\u043d\u043d\u044b\u0435 \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u043d\u044b\u0435 \u0446\u0435\u043b\u0438 \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432 \u043f\u043e \u0442\u043e\u043a\u0435\u043d\u0430\u043c. \u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u0434\u0435\u043b\u0438\u0442\u0441\u044f \u043d\u0430 SQRT(d) \u044d\u0442\u043e \u043f\u0440\u043e\u0441\u0442\u043e \u043e\u043f\u0442\u0438\u043c\u0438\u0437\u0430\u0446\u0438\u043e\u043d\u043d\u044b\u0439 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440 (\u0432 \u043c\u043e\u0434\u0435\u043b\u0438 \u043c\u043d\u043e\u0433\u043e \u0442\u0430\u043a\u0438\u0445 \u0434\u043b\u044f \u0441\u0442\u0430\u0431\u0438\u043b\u0438\u0437\u0430\u0446\u0438\u0438 \u0432\u0435\u043a\u0442\u043e\u0440\u0430 \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u043d\u044b\u0445). \u041f\u043e\u0441\u043b\u0435 \u0443\u043c\u043d\u043e\u0436\u0435\u043d\u0438\u044f \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u043c\u0430\u0442\u0440\u0438\u0446\u0443 \u0441\u043a\u043e\u0440\u043e\u0432 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u043d\u0430 \u0441\u043b\u043e\u0432\u0435 [\u201c\u041f\u0440\u0438\u201d, \u201c\u0432\u0435\u0442\u201d]:<\/p>\n<p>[ 0, 0.8,<\/p>\n<p>\u00a0\u00a00.2, 0 ]<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/9a7\/9f4\/20e\/9a79f420e6e32fbef6f1945d60804212.png\" alt=\"\u0412\u043e\u0442 \u0442\u0430\u043a \u044d\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442\u0441\u044f \u0432 GPT-2\" title=\"\u0412\u043e\u0442 \u0442\u0430\u043a \u044d\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442\u0441\u044f \u0432 GPT-2\" width=\"1707\" height=\"1507\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/9a7\/9f4\/20e\/9a79f420e6e32fbef6f1945d60804212.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/9a7\/9f4\/20e\/9a79f420e6e32fbef6f1945d60804212.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0412\u043e\u0442 \u0442\u0430\u043a \u044d\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442\u0441\u044f \u0432 GPT-2<\/figcaption><\/div>\n<\/figure>\n<p>\u0422.\u0435\u00a0<\/p>\n<p>\u201c\u041f\u0440\u0438\u201d \u043a \u201c\u041f\u0440\u0438\u201d \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f 0,<\/p>\n<p>\u201c\u041f\u0440\u0438\u201d \u043a \u201c\u0432\u0435\u0442\u201d \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f 0.8,<\/p>\n<p>\u201c\u0432\u0435\u0442\u201d \u043a \u201c\u041f\u0440\u0438\u201d \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f 0.2.<\/p>\n<p>\u041d\u043e \u0437\u0434\u0435\u0441\u044c \u0435\u0441\u043b\u0438 \u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0435\u0442\u044c \u0435\u0441\u0442\u044c \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u0432 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043f\u0440\u0435\u0434\u044b\u0434\u0443\u0449\u0438\u0439 \u0442\u043e\u043a\u0435\u043d \u0438\u043c\u0435\u0435\u0442 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u0432 \u0431\u0443\u0434\u0443\u0449\u0435\u043c\u0443. \u0422.\u0435 \u043f\u0440\u043e\u0448\u043b\u043e\u0435 \u0441\u043c\u043e\u0442\u0440\u0438\u0442 \u043d\u0430 \u0431\u0443\u0434\u0443\u0449\u0435\u0435. \u041d\u043e \u0447\u0442\u043e\u0431\u044b \u0434\u0435\u043b\u0430\u0442\u044c \u043f\u0440\u043e\u0433\u043d\u043e\u0437 \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0435 \u0434\u043e\u043b\u0436\u043d\u0430 \u0437\u043d\u0430\u0442\u044c \u0431\u0443\u0434\u0443\u0449\u0435\u0435 \u0438\u043d\u0430\u0447\u0435 \u043e\u043d\u0430 \u0431\u0443\u0434\u0435\u0442 \u043f\u0440\u043e\u0441\u0442\u043e \u0438\u0437\u0432\u043b\u0435\u043a\u0430\u0442\u044c \u0438\u0437 \u0431\u0443\u0434\u0443\u0449\u0435\u0433\u043e \u043d\u0435 \u0434\u0435\u043b\u0430\u044f \u043f\u0440\u043e\u0433\u043d\u043e\u0437\u0430! \u0427\u0442\u043e\u0431\u044b \u044d\u0442\u043e\u0433\u043e \u0438\u0437\u0431\u0435\u0436\u0430\u0442\u044c \u043c\u044b \u0434\u0435\u043b\u0430\u0435\u043c \u043c\u0430\u0442\u0440\u0438\u0446\u0443 \u0442\u0440\u0435\u0443\u0433\u043e\u043b\u044c\u043d\u043e\u0439 \u0442.\u0435 \u0431\u0443\u0434\u0443\u0449\u0438\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f (\u0442\u0435 \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0432\u044b\u0448\u0435 \u0434\u0438\u0430\u0433\u043e\u043d\u0430\u043b\u0438 (\u0441\u0432\u0435\u0440\u0445\u0443-\u0432\u043d\u0438\u0437) \u043c\u0430\u0442\u0440\u0438\u0446\u044b \u043e\u0431\u043d\u0443\u043b\u044f\u0435\u043c):<\/p>\n<p>[ 0, 0,<\/p>\n<p>\u00a0\u00a00.2, 0 ]<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/b84\/bb6\/f1d\/b84bb6f1d03b151e2df0c39c997a964f.png\" alt=\"\u0412\u043e\u0442 \u043f\u0440\u043e\u0435\u043a\u0446\u0438\u0438 \u043c\u0435\u0436\u0434\u0443 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0430\u043c\u0438 \u043e \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u044f \u0433\u043e\u0432\u043e\u0440\u0438\u043b \u0432 GPT-2. \u041c\u043e\u0434\u0435\u043b\u044c \u0441\u0430\u043c\u0430 \u0443\u0447\u0438\u0442\u0441\u044f \u0434\u0435\u043b\u0430\u0442\u044c \u0438\u0445.\" title=\"\u0412\u043e\u0442 \u043f\u0440\u043e\u0435\u043a\u0446\u0438\u0438 \u043c\u0435\u0436\u0434\u0443 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0430\u043c\u0438 \u043e \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u044f \u0433\u043e\u0432\u043e\u0440\u0438\u043b \u0432 GPT-2. \u041c\u043e\u0434\u0435\u043b\u044c \u0441\u0430\u043c\u0430 \u0443\u0447\u0438\u0442\u0441\u044f \u0434\u0435\u043b\u0430\u0442\u044c \u0438\u0445.\" width=\"846\" height=\"361\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/b84\/bb6\/f1d\/b84bb6f1d03b151e2df0c39c997a964f.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/b84\/bb6\/f1d\/b84bb6f1d03b151e2df0c39c997a964f.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0412\u043e\u0442 \u043f\u0440\u043e\u0435\u043a\u0446\u0438\u0438 \u043c\u0435\u0436\u0434\u0443 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0430\u043c\u0438 \u043e \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u044f \u0433\u043e\u0432\u043e\u0440\u0438\u043b \u0432 GPT-2. \u041c\u043e\u0434\u0435\u043b\u044c \u0441\u0430\u043c\u0430 \u0443\u0447\u0438\u0442\u0441\u044f \u0434\u0435\u043b\u0430\u0442\u044c \u0438\u0445.<\/figcaption><\/div>\n<\/figure>\n<p>\u0414\u0430\u043b\u0435\u0435 \u0434\u0430\u043d\u043d\u0430\u044f \u043c\u0430\u0442\u0440\u0438\u0446\u0430 \u043f\u0440\u043e\u0445\u043e\u0434\u0438\u0442 \u0447\u0435\u0440\u0435\u0437 \u0444\u0443\u043d\u043a\u0446\u0438\u044e softmax. \u042d\u0442\u0430 \u0444\u0443\u043d\u043a\u0446\u0438\u044f \u043f\u0440\u0435\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u0441\u043a\u043e\u0440\u044b \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u0432 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u0438 \u0443\u0441\u0438\u043b\u0438\u0432\u0430\u044f \u0440\u0430\u0437\u043b\u0438\u0447\u0438\u044f \u0432 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f\u0445 \u0442.\u0435 \u043f\u043e\u043b\u0443\u0447\u0430\u044e\u0442\u0441\u044f \u0431\u043e\u043b\u0435\u0435 \u0441\u0438\u043b\u044c\u043d\u044b\u0435 \u0440\u0430\u0437\u043b\u0438\u0447\u0438\u044f \u043a\u0430\u043a \u0432 \u0443\u0441\u0438\u043b\u0438\u0442\u0435\u043b\u0435 \u0441\u0438\u0433\u043d\u0430\u043b\u0430.<\/p>\n<p>softmax(Wattention)=Wp<\/p>\n<p>\u0417\u0430\u0442\u0435\u043c \u043c\u044b \u0443\u043c\u043d\u043e\u0436\u0430\u0435\u043c \u0434\u0430\u043d\u043d\u0443\u044e \u043c\u0430\u0442\u0440\u0438\u0446\u0443 \u043d\u0430 \u043c\u0430\u0442\u0440\u0438\u0446\u0443 Wv:<\/p>\n<p>Wa = Wp * Wv.\u00a0<\/p>\n<p>\u042d\u0442\u043e \u0434\u0430\u0435\u0442 \u0441\u0440\u0435\u0434\u043d\u0435\u0432\u0437\u0432\u0435\u0448\u0435\u043d\u043d\u0443\u044e \u043c\u0430\u0442\u0440\u0438\u0446\u0443 \u0442.\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u043f\u043e \u0442\u043e\u043a\u0435\u043d\u0430\u043c \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u044e\u0449\u0438\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u0434\u0440\u0443\u0433 \u043a \u0434\u0440\u0443\u0433\u0443. \u0412\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0435 \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u044b \u0432 \u044f\u0437\u044b\u043a\u0435 \u0432 \u043b\u0435\u043a\u0441\u0438\u043a\u0435 \u0441\u0438\u043d\u0442\u0430\u043a\u0441\u0438\u0441\u0435 \u0441\u0435\u043c\u0430\u043d\u0442\u0438\u043a\u0435 \u0441\u0430\u043c\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430 \u0438 \u0434\u0430\u0435\u0442 \u043d\u0430\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u0435 \u043f\u043e \u0442\u0430\u043a\u0438\u043c \u0446\u0435\u043b\u044f\u043c.<\/p>\n<p>\u0414\u0430\u043b\u0435\u0435 \u0442\u0430\u043a \u043a\u0430\u043a \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 Wa \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d \u0432 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u043c\u044b \u0434\u043e\u043b\u0436\u043d\u044b \u0441\u043f\u0440\u043e\u0435\u0446\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u043e\u0431\u0440\u0430\u0442\u043d\u043e \u0432 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e \u0441\u043c\u044b\u0441\u043b\u043e\u0432. \u042d\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442 \u043c\u043e\u0434\u0435\u043b\u044c \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0443\u0447\u0438\u0442\u0441\u044f \u044d\u0442\u043e \u0434\u0435\u043b\u0430\u0442\u044c \u043d\u0430 DATA.<\/p>\n<p>\u041f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0432\u0435\u043a\u0442\u043e\u0440 [Vectors&lt;attention&gt;].<\/p>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043a\u0430\u043a \u043d\u0430\u043c \u043a \u043d\u0430\u0448\u0438\u043c \u0432\u0435\u043a\u0442\u043e\u0440\u0430\u043c \u0441\u043c\u044b\u0441\u043b\u0430 [Vectors] \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u0442\u0430\u043a \u0447\u0442\u043e\u0431\u044b \u043e\u043d\u0438 \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u043b\u0438 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435? \u0414\u0435\u043b\u0430\u0435\u0442\u0441\u044f \u044d\u0442\u043e \u0447\u0435\u0440\u0435\u0437 \u0441\u043b\u043e\u0436\u0435\u043d\u0438\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432:<\/p>\n<p>[Vectors2] = [Vectors] + [Vectors&lt;attention&gt;]<\/p>\n<p>\u0412 \u043d\u0430\u0448\u0435\u043c \u043f\u0440\u0438\u043c\u0435\u0440\u0435 \u043f\u0443\u0441\u0442\u044c attention:<\/p>\n<p>\u00a0[ [0.1, 0.2],\u00a0<\/p>\n<p>\u00a0\u00a0\u00a0[0.3, 0.4],\u00a0<\/p>\n<p>\u00a0\u00a0\u00a0[0.4, 0.6] ]\u00a0 (\u0437\u0434\u0435\u0441\u044c \u043f\u0440\u043e\u0441\u0442\u043e \u043f\u0440\u0438\u043c\u0435\u0440)<\/p>\n<p>\u00a0[ [1, 2],\u00a0<\/p>\n<p>\u00a0\u00a0\u00a0[3, 4],\u00a0 + attention<\/p>\n<p>\u00a0\u00a0\u00a0[4, 8] ]\u00a0<\/p>\n<p>\u041f\u043e\u043b\u0443\u0447\u0430\u0435\u043c: [ [1.1, 2.2], [3.3, 4.4], [4.4, 8.6] ].<\/p>\n<p><strong>\u0410\u0434\u0430\u043f\u0442\u0430\u0446\u0438\u044f Low\u2011Rank (LoRA):<\/strong><\/p>\n<p>\u041f\u0440\u0438 \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u044f\u0445 \u043c\u0430\u0442\u0440\u0438\u0446\u0430 Wq \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0430 \u0434\u0432\u0443\u043c\u044f \u043c\u0430\u0442\u0440\u0438\u0446\u0430\u043c\u0438: Wq = Wa * Wb^T. \u042d\u0442\u043e \u043d\u0430\u0437\u044b\u0432\u0430\u0435\u0442\u0441\u044f LoRA \u0438\u043b\u0438 Low Rank Adaptation. \u0417\u0430\u0447\u0435\u043c \u044d\u0442\u043e \u043d\u0443\u0436\u043d\u043e?<\/p>\n<p>\u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u043c\u0430\u0442\u0440\u0438\u0446\u0430 Wq \u0438\u043c\u0435\u0435\u0442 \u0440\u0430\u0437\u043c\u0435\u0440\u043d\u043e\u0441\u0442\u044c [4098, 4098] \u0442.\u0435 4098 * 4098 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 \u0430 \u044d\u0442\u043e \u043e\u043a\u043e\u043b\u043e 16\u043c\u043b\u043d! \u041e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0442\u0430\u043a\u043e\u0433\u043e \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0430 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u0440\u0435\u0441\u0443\u0440\u0441\u043e\u0437\u0430\u0442\u0440\u0430\u0442\u043d\u043e. \u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u043c\u0430\u0442\u0440\u0438\u0446\u0430 Wq \u0440\u0430\u0441\u043a\u043b\u0430\u0434\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u043d\u0430 \u0434\u0432\u0435 \u043d\u0438\u0437\u043a\u043e\u0440\u0430\u0437\u043c\u0435\u0440\u043d\u044b\u0435 \u043c\u0430\u0442\u0440\u0438\u0446\u044b Wr. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u0435\u0441\u043b\u0438 \u0440\u0430\u043d\u0433 16 \u0442\u043e \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442\u0441\u044f:<\/p>\n<p>Wa: [4098, 16]<\/p>\n<p>Wb: [16, 4098]<\/p>\n<p>\u0418 \u0443\u043c\u043d\u043e\u0436\u0435\u043d\u0438\u0435 \u0438\u0445 \u0434\u0430\u0435\u0442 \u043c\u0430\u0442\u0440\u0438\u0446\u0443 Wq! \u041d\u043e \u0432 \u043e\u0431\u043e\u0438\u0445 \u043c\u0430\u0442\u0440\u0438\u0446\u0430\u0445 \u043c\u044b \u0438\u043c\u0435\u0435\u043c \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432: 4098 <em> 16 + 16 <\/em> 4098 \u0442.\u0435 \u0433\u043e\u0440\u0430\u0437\u0434\u043e \u043c\u0435\u043d\u044c\u0448\u0435. \u0427\u0435\u0440\u0435\u0437 \u044d\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442\u0441\u044f fine tuning \u043c\u043e\u0434\u0435\u043b\u0438. Fine tuning \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0435\u0442\u0441\u044f \u043a attention \u043d\u043e \u043c\u043e\u0436\u0435\u0442 \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0442\u044c\u0441\u044f \u0438 \u043a feed forward.<\/p>\n<p>Fine tune \u043f\u0435\u0440\u0435\u0441\u0442\u0440\u0430\u0438\u0432\u0430\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u043c\u0430\u043b\u0443\u044e \u0447\u0430\u0441\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u0438 \u0438 \u043f\u0440\u0438 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0438 \u043f\u0440\u0438 \u043c\u0430\u043b\u043e\u043c \u0438\u043b\u0438 \u043d\u0435\u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u043c \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0435 \u043f\u0440\u0438\u043c\u0435\u0440\u043e\u0432 \u043f\u0435\u0440\u0435\u0441\u0442\u0440\u0430\u0438\u0432\u0430\u0435\u0442 \u043c\u043e\u0434\u0435\u043b\u044c \u0442\u0430\u043a \u0447\u0442\u043e \u0446\u0435\u043b\u0438 \u0432 \u043c\u043e\u0434\u0435\u043b\u0438 \u0441\u0442\u0440\u0435\u043c\u044f\u0442\u0441\u044f \u0442\u043e\u043b\u044c\u043a\u043e \u043a \u044d\u0442\u0438\u043c \u043f\u0440\u0438\u043c\u0435\u0440\u0430\u043c \u0438 \u0434\u0440\u0443\u0433\u0438\u0435 \u043e\u043d\u0430 \u0437\u0430\u0431\u044b\u0432\u0430\u0435\u0442 \u043d\u0430 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043e\u0431\u0443\u0447\u0430\u043b\u0430\u0441\u044c.<\/p>\n<p><strong>\u0417\u0430\u043c\u0435\u0442\u043a\u0438 \u043f\u043e Attention \u0441\u043b\u043e\u044e<\/strong><\/p>\n<p>\u041a\u0430\u043a\u0438\u0435 \u0435\u0441\u0442\u044c \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u044b \u0441 \u043c\u0435\u0445\u0430\u043d\u0438\u0437\u043c\u043e\u043c \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u044f \u0446\u0435\u043b\u0435\u0439 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f:<\/p>\n<p>\u041f\u0440\u043e\u0431\u043b\u0435\u043c\u0430 \u043e\u0431\u0449\u0430\u044f, \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u043d\u0430 \u0437\u043d\u0430\u043d\u0438\u044f\u0445 \u0438 \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u0430\u0445 \u043d\u0430 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043e\u043d\u0430 \u043e\u0431\u0443\u0447\u0435\u043d\u0430. \u0415\u0441\u043b\u0438 \u0447\u0442\u043e \u0442\u043e \u043d\u043e\u0432\u043e\u0435 \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u0438\u0437 \u043f\u0440\u0435\u0434\u043c\u0435\u0442\u043d\u043e\u0439 \u043e\u0431\u043b\u0430\u0441\u0442\u0438 \u043a\u043e\u0442\u043e\u0440\u043e\u0439 \u043d\u0435 \u0431\u044b\u043b\u043e \u0432 \u043f\u0440\u0438\u043c\u0435\u0440\u0430\u0445 (\u0442\u0430\u043a \u043a\u0430\u043a \u0434\u0430\u043d\u043d\u044b\u0435 \u043a\u043e\u043d\u0444\u0438\u0434\u0435\u043d\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u0435) \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0435 \u0441\u0442\u0430\u043d\u0435\u0442 \u043e\u0431\u0440\u0430\u0449\u0430\u0442\u044c \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u043d\u0430 \u043d\u0438\u0445. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u043c\u044b \u0432\u044b\u043d\u0443\u0436\u0434\u0435\u043d\u044b \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u0438 \u043d\u0430 \u043f\u0440\u0435\u0434\u043c\u0435\u0442\u043d\u044b\u0445 \u043e\u0431\u043b\u0430\u0441\u0442\u044f\u0445 \u0447\u0442\u043e \u043e\u0442\u0434\u0430\u043b\u044f\u0435\u0442 \u043e\u0442 AGI. \u0417\u0434\u0435\u0441\u044c \u0440\u0435\u0448\u0435\u043d\u0438\u0435\u043c \u0434\u043b\u044f AGI \u044f \u0432\u0438\u0436\u0443 \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u0442\u0430\u043a: \u043d\u0443\u0436\u043d\u043e \u0441\u0447\u0438\u0442\u0430\u0442\u044c \u043d\u0435 \u0442\u043e\u043b\u044c\u043a\u043e \u0446\u0435\u043b\u0438 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u043d\u043e \u0438 \u043e\u0431\u0449\u0443\u044e \u0446\u0435\u043b\u044c \u0431\u0435\u0437 \u0443\u0447\u0435\u0442\u0430 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f, \u0430 \u0434\u0430\u043b\u0435\u0435 \u0431\u0435\u0440\u0435\u043c \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u043a\u0430\u043a \u0446\u0435\u043d\u0442\u0440 \u043c\u0430\u0441\u0441 \u043f\u043e \u043d\u0438\u043c. Attention = Factor * Mass(Wq,k,v) + Attention(Q, K, V). \u0422\u043e\u0433\u0434\u0430 \u043c\u043e\u0434\u0435\u043b\u044c \u0431\u0443\u0434\u0435\u0442 \u0438\u043c\u0435\u0442\u044c \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u043a \u0442\u0435\u043c \u043e\u0431\u043b\u0430\u0441\u0442\u044f\u043c \u0442\u0435\u043a\u0441\u0442\u0430 \u0433\u0434\u0435 \u043d\u0435 \u0431\u044b\u043b\u043e \u0435\u0449\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f. \u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043f\u043e\u043a\u0430 \u043d\u0435\u0438\u0437\u0432\u0435\u0441\u0442\u0435\u043d \u0442\u0440\u0435\u0431\u0443\u044e\u0442\u0441\u044f \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u044b.<\/p>\n<h3>\u2699\ufe0f Feed\u2011Forward (FFN) \u0438 Mixture\u2011of\u2011Experts<\/h3>\n<p>\u0420\u0430\u0437\u0431\u0435\u0440\u0435\u043c \u043a\u0430\u043a \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0441\u043b\u043e\u0439 FeedForward.<\/p>\n<p>\u041c\u043e\u0434\u0435\u043b\u044c \u0430\u043d\u0430\u043b\u043e\u0433\u0438\u0447\u043d\u043e \u043a\u0430\u043a \u0441 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435\u043c \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u0443\u0435\u0442 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432 \u0441\u043c\u044b\u0441\u043b\u0430 \u043d\u0430 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u043e\u0432. \u0427\u0442\u043e \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u043e\u0431\u043e\u0439 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u043e\u0432?<\/p>\n<p>\u042d\u0442\u043e \u043c\u0430\u0442\u0440\u0438\u0446\u0430 \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u0442 \u0432\u0441\u0435 \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u044b \u0438 \u0437\u0430\u043a\u043e\u043d\u043e\u043c\u0435\u0440\u043d\u043e\u0441\u0442\u0438 \u043f\u0440\u0438 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0438 \u043d\u0430 DATA. \u0412\u0435\u043a\u0442\u043e\u0440\u044b \u0443\u043c\u043d\u043e\u0436\u0430\u044f\u0441\u044c \u043d\u0430 \u044d\u0442\u0443 \u043c\u0430\u0442\u0440\u0438\u0446\u0443 \u043f\u043e\u043b\u0443\u0447\u0430\u044e\u0442 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u0435 \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u043e\u043d\u0438 \u0440\u0435\u043b\u0435\u0432\u0430\u043d\u0442\u043d\u044b \u043a \u043e\u0431\u0449\u0438\u043c \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u0430\u043c \u0432 \u043e\u0431\u0449\u0438\u0445 \u0446\u0435\u043b\u044f\u0445 DATA. \u041c\u043e\u0434\u0435\u043b\u044c \u0441\u0447\u0438\u0442\u0430\u0435\u0442 \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u043d\u044b\u0439 \u043f\u0430\u0442\u0442\u0435\u0440\u043d \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u043c\u044b\u0439 \u0446\u0432\u0435\u0442 \u043a\u043e\u0448\u043a\u0438 \u044d\u0442\u043e \u0431\u0435\u043b\u044b\u0439 \u0438 \u0447\u0435\u0440\u043d\u044b\u0439 \u0446\u0432\u0435\u0442 \u0430 \u043d\u0435 \u0433\u043e\u043b\u0443\u0431\u043e\u0439. \u0418 \u0432\u0435\u043a\u0442\u043e\u0440\u0443 \u0446\u0435\u043b\u0438 \u0434\u043b\u044f \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u0430 \u043a\u043e\u0448\u043a\u0430 \u0431\u0435\u043b\u0430\u044f \u0438 \u0447\u0435\u0440\u043d\u0430\u044f \u0441\u0442\u0430\u0432\u0438\u0442 \u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u0432\u0435\u0441. \u0410 \u0432\u0435\u043a\u0442\u043e\u0440\u0443 \u0446\u0435\u043b\u0438 \u043a\u043e\u0448\u043a\u0430 \u0433\u043e\u043b\u0443\u0431\u0430\u044f \u043e\u0447\u0435\u043d\u044c \u043c\u0430\u043b\u044b\u0439 \u043e\u0442\u0440\u0438\u0446\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0432\u0435\u0441. \u0423 \u043d\u0430\u0441 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442\u0441\u044f \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0430 \u043e\u0447\u0435\u043d\u044c \u043e\u0442\u0440\u0438\u0446\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u0435 \u0438 \u043f\u043e\u043b\u043e\u0436\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0435 \u0432\u0435\u0441\u0430. \u0414\u043b\u044f \u0440\u0435\u0448\u0435\u043d\u0438\u044f \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u044f \u0430\u043a\u0442\u0438\u0432\u0430\u0446\u0438\u0438 \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 GELU (GPT2), SILU (DeepSeekV3).<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/eb8\/bd4\/3fd\/eb8bd43fdc9881e24f2e70b0d86e3bfc.png\" alt=\"\u0412\u043e\u0442 \u044d\u0442\u043e\u0442 \u043a\u0443\u0441\u043e\u0447\u0435\u043a \u0438 \u0435\u0441\u0442\u044c \u0432\u0435\u0441\u044c FFN \u0432 GPT-2. \u0412\u0438\u0434\u0438\u0442\u0435 \u0442\u0430\u043c \u0442\u043e\u0436\u0435 \u043f\u0440\u043e\u0435\u043a\u0446\u0438\u0438 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432 - conv1d('c_fc'-&gt;'c_proj')\" title=\"\u0412\u043e\u0442 \u044d\u0442\u043e\u0442 \u043a\u0443\u0441\u043e\u0447\u0435\u043a \u0438 \u0435\u0441\u0442\u044c \u0432\u0435\u0441\u044c FFN \u0432 GPT-2. \u0412\u0438\u0434\u0438\u0442\u0435 \u0442\u0430\u043c \u0442\u043e\u0436\u0435 \u043f\u0440\u043e\u0435\u043a\u0446\u0438\u0438 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432 - conv1d('c_fc'-&gt;'c_proj')\" width=\"1543\" height=\"1639\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/eb8\/bd4\/3fd\/eb8bd43fdc9881e24f2e70b0d86e3bfc.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/eb8\/bd4\/3fd\/eb8bd43fdc9881e24f2e70b0d86e3bfc.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0412\u043e\u0442 \u044d\u0442\u043e\u0442 \u043a\u0443\u0441\u043e\u0447\u0435\u043a \u0438 \u0435\u0441\u0442\u044c \u0432\u0435\u0441\u044c FFN \u0432 GPT-2. \u0412\u0438\u0434\u0438\u0442\u0435 \u0442\u0430\u043c \u0442\u043e\u0436\u0435 \u043f\u0440\u043e\u0435\u043a\u0446\u0438\u0438 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432 &#8212; conv1d(&#8216;c_fc&#8217;-&gt;&#8217;c_proj&#8217;)<\/figcaption><\/div>\n<\/figure>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/76e\/cab\/df4\/76ecabdf41628dcae11babefb48813e8.png\" alt=\"\u0410 \u0442\u0443\u0442 \u043a\u043b\u0430\u0441\u0441 \u0434\u043b\u044f DeepSeekV3.\" title=\"\u0410 \u0442\u0443\u0442 \u043a\u043b\u0430\u0441\u0441 \u0434\u043b\u044f DeepSeekV3.\" width=\"1726\" height=\"1565\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/76e\/cab\/df4\/76ecabdf41628dcae11babefb48813e8.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/76e\/cab\/df4\/76ecabdf41628dcae11babefb48813e8.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0410 \u0442\u0443\u0442 \u043a\u043b\u0430\u0441\u0441 \u0434\u043b\u044f DeepSeekV3.<\/figcaption><\/div>\n<\/figure>\n<p>\u0424\u043e\u0440\u043c\u0443\u043b\u0430:<\/p>\n<p>Wffn = GELU([Vectors] * W&lt;patterns space&gt;).<\/p>\n<p>\u041a\u0430\u043a \u0432\u0438\u0434\u0438\u043c \u044d\u0442\u043e \u0442\u043e\u0436\u0435 \u043b\u0438\u043d\u0435\u0439\u043d\u0430\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u044f.<\/p>\n<p>\u0412 DeepSeek \u043f\u043e\u043c\u0438\u043c\u043e \u043f\u0440\u043e\u0441\u0442\u043e\u0439 FFN \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u044e\u0449\u0435\u0439 \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u044b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f MOE mixture of experts. \u0427\u0442\u043e \u044d\u0442\u043e \u0442\u0430\u043a\u043e\u0435? \u0412\u0445\u043e\u0434 \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0430 \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u043e\u0432 \u043f\u0440\u043e\u0445\u043e\u0434\u0438\u0442 \u0447\u0435\u0440\u0435\u0437 Gate \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u0446\u0438\u0440\u0443\u0435\u0442 \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u044b \u043d\u0430 \u0431\u043e\u043b\u044c\u0448\u0438\u0435 \u0433\u0440\u0443\u043f\u043f\u044b: \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u043a\u0430, \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u0438 \u0442.\u0434. \u0421\u0447\u0438\u0442\u0430\u044e\u0442\u0441\u044f \u043e\u0447\u043a\u0438 \u043f\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430\u043c \u0438 \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0440\u0435\u043b\u0435\u0432\u0430\u043d\u0442\u043d\u044b\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u0441\u043e \u0432\u0445\u043e\u0434\u043e\u043c. \u0421\u0430\u043c \u044d\u043a\u0441\u043f\u0435\u0440\u0442 \u044d\u0442\u043e \u0442\u0430\u043a\u043e\u0439 \u0436\u0435 Wffn. \u042d\u0442\u043e \u0440\u0435\u0448\u0430\u0435\u0442 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0443 GPT2: \u0442\u0430\u043a \u043a\u0430\u043a \u043c\u043e\u0434\u0435\u043b\u044c \u0434\u0435\u043b\u0430\u0435\u0442 \u043c\u0430\u043b\u0435\u043d\u044c\u043a\u0438\u0435 \u0448\u0430\u0433\u0438 \u043f\u043e \u043a\u0430\u0436\u0434\u043e\u043c\u0443 \u0442\u043e\u043a\u0435\u043d\u0443 \u043e\u043d\u0430 \u043e\u043f\u0435\u0440\u0438\u0440\u0443\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u043c\u0430\u043b\u044b\u043c\u0438 \u0446\u0435\u043b\u044f\u043c\u0438 \u0432 \u043f\u0440\u043e\u043c\u043f\u0442\u0435 \u0431\u043e\u043b\u044c\u0448\u0438\u0435 \u0446\u0435\u043b\u0438 (\u0433\u043b\u043e\u0431\u0430\u043b\u044c\u043d\u044b\u0435) \u043e\u043d\u0430 \u043d\u0435 \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u0442. \u0410\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 MOE \u0434\u0435\u043b\u0438\u0442 \u0446\u0435\u043b\u0438 \u043d\u0430 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u0438 \u0438 \u0440\u0435\u0448\u0430\u0435\u0442 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0443 \u043b\u043e\u043a\u0430\u043b\u044c\u043d\u044b\u0445 \u0446\u0435\u043b\u0435\u0439. \u041d\u043e \u0442\u0435\u043c \u043d\u0435 \u043c\u0435\u043d\u0435\u0435 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0430 \u043e\u0441\u0442\u0430\u0435\u0442\u0441\u044f \u0432\u043d\u0443\u0442\u0440\u0438 \u0441\u0430\u043c\u043e\u0439 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u0438. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u0432 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0438 \u043c\u043e\u0434\u0435\u043b\u044c \u0442\u0430\u043a\u0436\u0435 \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u0442 \u043c\u0430\u043b\u044b\u0435 \u0446\u0435\u043b\u0438 \u0438 \u043d\u0435 \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u0442 \u0433\u043b\u043e\u0431\u0430\u043b\u044c\u043d\u044b\u0435. \u0414\u043b\u044f \u0440\u0435\u0448\u0435\u043d\u0438\u044f \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u044b \u0432 AGI \u0434\u043e\u043b\u0436\u0435\u043d \u0431\u044b\u0442\u044c \u0431\u043e\u043b\u0435\u0435 \u0441\u043b\u043e\u0436\u043d\u044b\u0439 \u043c\u0435\u0445\u0430\u043d\u0438\u0437\u043c \u0446\u0435\u043b\u0435\u043f\u043e\u043b\u0430\u0433\u0430\u043d\u0438\u044f \u0434\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u043d\u0443\u0436\u043d\u043e \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0442\u044c \u043d\u0435 \u043e\u0434\u043d\u043e \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e \u043f\u0440\u043e\u0435\u043a\u0446\u0438\u0438 \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u0442\u043e\u043b\u044c\u043a\u043e \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u044b \u043a\u0430\u043a \u0441\u043b\u0443\u0447\u0430\u0435 \u0441 LLM, \u043d\u043e \u0438 \u0434\u0440\u0443\u0433\u0438\u0435 \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u0441\u043b\u043e\u0436\u043d\u0430\u044f \u0441\u0435\u043c\u0430\u043d\u0442\u0438\u043a\u0430, \u044d\u043c\u043e\u0446\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u043e\u0435 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e, \u043a\u0430\u0437\u0443\u0430\u043b\u044c\u043d\u043e\u0435 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e \u0438 \u0442.\u0434.<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/8dc\/350\/865\/8dc350865ca6541edff0dba602b2df9b.png\" alt=\"\u0410 \u044d\u0442\u0430 \u0448\u0442\u0443\u043a\u0430 \u0432 DeepSeekV3 \u043f\u043e\u0443\u043c\u043d\u0435\u0435: \u043e\u043d\u0430 \u0440\u043e\u0443\u0442\u0438\u0442 \u043c\u0435\u0436\u0434\u0443 \u043f\u0440\u043e\u0441\u0442\u044b\u043c FFN \u0438 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u043c\" title=\"\u0410 \u044d\u0442\u0430 \u0448\u0442\u0443\u043a\u0430 \u0432 DeepSeekV3 \u043f\u043e\u0443\u043c\u043d\u0435\u0435: \u043e\u043d\u0430 \u0440\u043e\u0443\u0442\u0438\u0442 \u043c\u0435\u0436\u0434\u0443 \u043f\u0440\u043e\u0441\u0442\u044b\u043c FFN \u0438 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u043c\" width=\"1306\" height=\"715\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/8dc\/350\/865\/8dc350865ca6541edff0dba602b2df9b.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/8dc\/350\/865\/8dc350865ca6541edff0dba602b2df9b.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0410 \u044d\u0442\u0430 \u0448\u0442\u0443\u043a\u0430 \u0432 DeepSeekV3 \u043f\u043e\u0443\u043c\u043d\u0435\u0435: \u043e\u043d\u0430 \u0440\u043e\u0443\u0442\u0438\u0442 \u043c\u0435\u0436\u0434\u0443 \u043f\u0440\u043e\u0441\u0442\u044b\u043c FFN \u0438 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u043c<\/figcaption><\/div>\n<\/figure>\n<p>\u0417\u0430\u0442\u0435\u043c \u043c\u044b \u043e\u043f\u044f\u0442\u044c \u0441\u043a\u043b\u0430\u0434\u044b\u0432\u0430\u0435\u043c \u0432\u044b\u0445\u043e\u0434 \u0441 [Vectors]: [Vectors] + [Vectors&lt;attention&gt;] + [Vectors&lt;ffn&gt;]<\/p>\n<p>\u0427\u0442\u043e \u043c\u044b \u0438\u043c\u0435\u0435\u043c? \u041c\u044b \u0438\u043c\u0435\u0435\u043c \u0441\u0430\u043c\u0438 \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438 \u0432\u0435\u043a\u0442\u043e\u0440\u044b [Vectors] \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043e\u0442\u0440\u0430\u0436\u0430\u044e\u0442 \u0441\u0435\u043c\u0430\u043d\u0442\u0438\u043a\u0443 \u0441\u043c\u044b\u0441\u043b\u0430 \u0442\u0435\u043a\u0441\u0442\u0430 \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u0430\u0445. \u041c\u044b \u0438\u043c\u0435\u0435\u043c \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0441\u0435\u043c\u0430\u043d\u0442\u0438\u043a\u0438 \u0442\u0435\u043a\u0441\u0442\u0430 \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043e\u0442\u043a\u043b\u043e\u043d\u0435\u043d\u044b \u043f\u043e \u0446\u0435\u043b\u044f\u043c attention \u0438 ffn. \u0422\u0435\u043f\u0435\u0440\u044c \u043a\u0430\u043a \u043f\u043e\u0441\u0447\u0438\u0442\u0430\u0442\u044c \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u0438 \u0434\u043b\u044f \u0432\u0441\u0435\u0445 \u0442\u043e\u043a\u0435\u043d\u043e\u0432?<\/p>\n<p>\u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u043c\u044b \u0441\u0447\u0438\u0442\u0430\u0435\u043c dot product \u0442.\u0435 \u0443\u0433\u043e\u043b \u043e\u0442\u043a\u043b\u043e\u043d\u0435\u043d\u0438\u044f \u043c\u0435\u0436\u0434\u0443 \u0432\u0435\u043a\u0442\u043e\u0440\u0430\u043c\u0438 \u0441 \u0443\u0447\u0435\u0442\u043e\u043c attention \u0438 ffn c \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b\u044c\u043d\u044b\u043c\u0438 \u0432\u0435\u043a\u0442\u043e\u0440\u0430\u043c\u0438 embedding. \u042d\u0442\u043e \u0434\u0430\u0435\u0442 \u043e\u0442\u043a\u043b\u043e\u043d\u0435\u043d\u0438\u044f \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043d\u0430\u0437\u044b\u0432\u0430\u044e\u0442\u0441\u044f \u043b\u043e\u0433\u0438\u0442\u044b. \u0422.\u0435 \u044d\u0442\u043e \u0441\u043a\u043e\u0440\u044b \u0438\u043b\u0438 \u0433\u0440\u0430\u0434\u0443\u0441\u044b \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u043f\u043e \u043a\u0430\u0436\u0434\u043e\u043c\u0443 \u0442\u043e\u043a\u0435\u043d\u0443 \u043e\u0442\u043a\u043b\u043e\u043d\u044f\u044e\u0442\u0441\u044f \u043e\u0442 \u043e\u0431\u0449\u0435\u0439 \u0446\u0435\u043b\u0438 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u043e\u0439 \u043f\u0443\u0442\u0435\u043c \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u0438\u044f \u043d\u0430 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0438 \u043c\u0430\u0441\u0441\u0438\u0432\u0430 DATA.<\/p>\n<p>\u0410 \u0434\u0430\u043b\u0435\u0435 \u043f\u043e \u043b\u043e\u0433\u0438\u0442\u0430\u043c \u043c\u044b \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u0435\u043c \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u044b\u0439 \u0442\u043e\u043a\u0435\u043d.<\/p>\n<h3>\ud83d\udea7 \u0418\u0442\u043e\u0433\u0438<\/h3>\n<p>LLM \u044d\u0442\u043e \u0445\u043e\u0440\u043e\u0448\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u043e \u043e\u043d\u0430 \u0438\u043c\u0435\u0435\u0442 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u044b:\u00a0<\/p>\n<ul>\n<li>\n<p>\u043e\u043d\u0430 \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u0442 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u0432\u043d\u0443\u0442\u0440\u0438 \u0442\u0435\u043a\u0441\u0442\u0430 \u0438 \u043e\u0431\u0449\u0438\u0435 \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u044b \u0432 \u043c\u043e\u0434\u0435\u043b\u0438 \u043c\u0438\u0440\u0430, \u043d\u043e \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0430 \u043b\u0438\u0448\u044c \u044d\u0442\u0438\u043c, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u043c\u044b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c fine tune, \u0430 \u044d\u0442\u043e \u043d\u0435 AGI.<\/p>\n<\/li>\n<li>\n<p>\u043e\u043d\u0430 \u0434\u0432\u0438\u0433\u0430\u0435\u0442\u0441\u044f \u0442\u043e\u043b\u044c\u043a\u043e \u043a \u043c\u0430\u043b\u0435\u043d\u044c\u043a\u0438\u043c \u0446\u0435\u043b\u044f\u043c \u0438 \u043d\u0435 \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u0442 \u0433\u043b\u043e\u0431\u0430\u043b\u044c\u043d\u044b\u0435 \u044d\u0442\u043e \u0442\u0430\u043a\u0436\u0435 \u043e\u0442\u0434\u0430\u043b\u044f\u0435\u0442 \u043e\u0442 AGI<\/p>\n<\/li>\n<li>\n<p>\u041c\u043e\u0434\u0435\u043b\u044c \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u043f\u0440\u043e\u0441\u0442\u043e \u0444\u0443\u043d\u043a\u0446\u0438\u0435\u0439 \u043e\u043f\u0442\u0438\u043c\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u043e\u0439 \u043d\u0430 \u043f\u043e\u0442\u0435\u0440\u0435 \u043e\u0448\u0438\u0431\u043e\u043a \u043f\u0440\u0438 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0438 \u043d\u0430 DATA. \u041e\u043d\u0430 \u043d\u0435 \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0441\u0435\u0442\u044c\u044e \u043d\u0435\u0439\u0440\u043e\u043d\u043e\u0432 \u043a\u0430\u043a \u0432 \u043c\u043e\u0437\u0433\u0435 \u0447\u0435\u043b\u043e\u0432\u0435\u043a\u0430. \u042d\u0442\u043e \u043b\u0438\u0448\u044c \u043f\u0440\u0438\u0431\u043b\u0438\u0436\u0435\u043d\u043d\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c. \u041c\u043e\u0434\u0435\u043b\u044c \u043d\u0435 \u0438\u043c\u0435\u0435\u0442 \u0441\u0442\u043e\u0445\u0430\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0433\u043e \u0444\u0430\u043a\u0442\u043e\u0440\u0430 \u0441\u0430\u043c\u0430 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u043d\u044b\u0445 \u043d\u0435 \u0434\u0430\u0441\u0442 \u044d\u0442\u043e\u0433\u043e \u0441\u0434\u0435\u043b\u0430\u0442\u044c.<\/p>\n<\/li>\n<\/ul>\n<h4>\ud83d\udca1 \u0418\u0434\u0435\u0438 \u0434\u043b\u044f AGI-\u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u044b<\/h4>\n<ul>\n<li>\n<p>\u0412 attention \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d \u043c\u0435\u0445\u0430\u043d\u0438\u0437\u043c \u0447\u0442\u043e\u0431\u044b \u043c\u043e\u0434\u0435\u043b\u044c \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u043b\u0430 \u043d\u0435 \u0442\u043e\u043b\u044c\u043a\u043e \u043f\u043e \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044e<\/p>\n<\/li>\n<li>\n<p>\u0412 ffn \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0432\u043d\u0435\u0434\u0440\u0438\u0442\u044c \u0434\u0440\u0443\u0433\u0438\u0435 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0430 \u0447\u0442\u043e\u0431\u044b \u043c\u043e\u0434\u0435\u043b\u044c \u0441\u043c\u043e\u0433\u043b\u0430 \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u0442\u044c \u0442\u0435 \u0430\u0441\u043f\u0435\u043a\u0442\u044b \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043e\u0442\u043d\u043e\u0441\u044f\u0442\u0441\u044f \u043d\u0435 \u0442\u043e\u043b\u044c\u043a\u043e \u043a \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u0430\u043c<\/p>\n<\/li>\n<li>\n<p>\u0412 AGI \u0434\u043e\u043b\u0436\u0435\u043d \u0431\u044b\u0442\u044c \u0444\u0430\u043a\u0442\u043e\u0440 \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u043e\u0441\u0442\u0438 \u043d\u0435 \u0442\u0430\u043a \u043a\u0430\u043a \u043e\u043d \u0441\u0434\u0435\u043b\u0430\u043d \u043a\u0430\u043a \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u0430 \u043f\u043e \u043b\u043e\u0433\u0438\u0442\u0430\u043c \u0430 \u043d\u0430\u043f\u0440\u044f\u043c\u0443\u044e \u0432\u043d\u0443\u0442\u0440\u0438 attention \u0438 ffn \u0441\u043b\u043e\u0435\u0432.<\/p>\n<\/li>\n<\/ul>\n<p>P.S.: \u0415\u0441\u043b\u0438 \u0432\u0430\u043c \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u0435\u043d \u0434\u0430\u043d\u043d\u044b\u0439 \u0440\u0430\u0437\u0431\u043e\u0440, \u043c\u043e\u0433\u0443 \u0442\u0430\u043a\u0436\u0435 \u0440\u0430\u0437\u043e\u0431\u0440\u0430\u0442\u044c \u043a\u043e\u0434 \u043c\u043e\u0434\u0435\u043b\u0438 Grok1.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<p><!----><!----><\/div>\n<p><!----><!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/930202\/\"> https:\/\/habr.com\/ru\/articles\/930202\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<h3>\ud83e\udde9 \u041e\u0431\u0449\u0430\u044f \u0441\u0445\u0435\u043c\u0430 \u0440\u0430\u0431\u043e\u0442\u044b \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440\u0430<\/h3>\n<p>\u0414\u043b\u044f \u043f\u043e\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u044b \u0438 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u043e\u0432 \u0432 AGI \u0441\u0438\u0441\u0442\u0435\u043c\u0435, \u0434\u0430\u0432\u0430\u0439\u0442\u0435 \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u0440\u0435\u0448\u0435\u043d\u0438\u044f \u043d\u0430 \u0442\u0435\u043a\u0443\u0449\u0438\u0439 \u043c\u043e\u043c\u0435\u043d\u0442: LLM &#8212; \u0431\u043e\u043b\u044c\u0448\u0430\u044f \u044f\u0437\u044b\u043a\u043e\u0432\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c, \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440.<\/p>\n<p>\u0422\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u043e\u0431\u043e\u0439 \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044c \u0442\u0435\u043a\u0441\u0442\u0430: \u0432\u0445\u043e\u0434\u043d\u043e\u0439 \u0442\u0435\u043a\u0441\u0442 \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u0443\u0435\u0442\u0441\u044f \u0432 \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u044b\u0439 \u0442\u043e\u043a\u0435\u043d (\u0447\u0430\u0441\u0442\u044c \u0441\u043b\u043e\u0432\u0430) \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u043d\u044b\u0439 \u043c\u043e\u0434\u0435\u043b\u044c\u044e.<\/p>\n<p>\u0418\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044f \u043e\u0441\u043d\u043e\u0432\u0430\u043d\u0430 \u043d\u0430 \u043f\u043e\u0434\u0440\u043e\u0431\u043d\u043e\u043c \u0440\u0430\u0437\u0431\u043e\u0440\u0435 \u043a\u043e\u0434\u0430 \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440\u0430 GPT2 \u0438 DeepSeekV3.<\/p>\n<figure class=\"full-width\">\n<div><figcaption>\u0420\u0430\u0437\u0431\u043e\u0440 \u043a\u043e\u0434\u0430 GPT-2. \u041a\u043e\u0434: <a href=\"https:\/\/github.com\/openai\/gpt-2\/tree\/master\/src\" rel=\"noopener noreferrer nofollow\">https:\/\/github.com\/openai\/gpt-2\/tree\/master\/src<\/a><\/figcaption><\/div>\n<\/figure>\n<figure class=\"full-width\">\n<div><figcaption>\u0420\u0430\u0437\u0431\u043e\u0440 \u043a\u043e\u0434\u0430 DeepSeek V3. \u041a\u043e\u0434: <a href=\"https:\/\/github.com\/deepseek-ai\/DeepSeek-V3\/tree\/main\/inference\" rel=\"noopener noreferrer nofollow\">https:\/\/github.com\/deepseek-ai\/DeepSeek-V3\/tree\/main\/inference<\/a><\/figcaption><\/div>\n<\/figure>\n<p>\u041f\u043e\u0434\u0440\u043e\u0431\u043d\u0430\u044f \u0444\u043e\u0440\u043c\u0443\u043b\u0430:<\/p>\n<p>Input &#8212; \u0432\u0445\u043e\u0434 \u0438\u043b\u0438 \u043f\u0440\u043e\u043c\u043f\u0442.<\/p>\n<p>Input \u2192 Tokens = Tokenize(Input)<\/p>\n<p>Output = P(tokens) = Attention(Tokens) + FeedForward(Tokens)<\/p>\n<figure class=\"full-width\">\n<div><figcaption>Attention \u0438 FFN \u0432 \u043a\u043e\u0434\u0435 GPT-2<\/figcaption><\/div>\n<\/figure>\n<p>\u0417\u0434\u0435\u0441\u044c \u043c\u044b \u0432\u0438\u0434\u0438\u043c \u0447\u0442\u043e \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0437\u0430\u0434\u0430\u0435\u0442\u0441\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u0435\u0439! \u0422.\u0435 \u043e\u043d\u043e \u043b\u0438\u043d\u0435\u0439\u043d\u043e. \u041d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u044b\u0439 \u0442\u043e\u043a\u0435\u043d \u0437\u0430\u0442\u0435\u043c \u0432\u044b\u0431\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u043e\u0433\u043e \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u0435\u0441\u043b\u0438 \u0437\u0430\u0434\u0430\u043d\u0430 \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u0430. \u0422.\u0435 \u0437\u0434\u0435\u0441\u044c \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u043e\u0441\u0442\u044c \u0432\u043b\u0438\u044f\u0435\u0442 \u0432 \u043a\u043e\u043d\u0446\u0435 \u0438 \u0442\u043e\u043b\u044c\u043a\u043e \u043d\u0430 \u0432\u044b\u0431\u043e\u0440 \u0442\u043e\u043a\u0435\u043d\u0430. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u0442\u0435\u043c\u043f\u0435\u0440\u0430\u0442\u0443\u0440\u0430 \u043f\u0440\u0438 \u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f\u0445 \u043c\u043e\u0436\u0435\u0442 \u0438\u043c\u0435\u0442\u044c \u043d\u0435\u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0443\u0435\u043c\u044b\u0439 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442. \u0412\u043d\u0443\u0442\u0440\u0438 \u0444\u0443\u043d\u043a\u0446\u0438\u0438 Attention: \u0435\u0441\u0442\u044c \u043c\u0430\u0442\u0440\u0438\u0446\u044b Wq, Wk, Wv \u0438 FeedForward: Wa, Wb \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043f\u043e\u0434\u0431\u0438\u0440\u0430\u044e\u0442\u0441\u044f \u0442\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c \u0447\u0442\u043e\u0431\u044b \u043e\u0448\u0438\u0431\u043a\u0430 \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u043d\u043e\u0433\u043e \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u0438\u043c\u0435\u043b\u0430 \u043c\u0438\u043d\u0438\u043c\u0430\u043b\u044c\u043d\u043e\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435. \u0422\u0443\u0442 \u043c\u044b \u043f\u043e\u0434\u0445\u043e\u0434\u0438\u043c \u043a \u0437\u0430\u0434\u0430\u0447\u0435 \u043c\u0438\u043d\u0438\u043c\u0438\u0437\u0430\u0446\u0438\u0438 \u043e\u0448\u0438\u0431\u043a\u0438 \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u0438\u044f \u043c\u043e\u0434\u0435\u043b\u0438.<\/p>\n<h3>\ud83e\uddee \u041c\u0438\u043d\u0438\u043c\u0438\u0437\u0430\u0446\u0438\u044f \u043e\u0448\u0438\u0431\u043a\u0438 \u0447\u0435\u0440\u0435\u0437 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442 \u0444\u0443\u043d\u043a\u0446\u0438\u0438, TensorFlow<\/h3>\n<p>\u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u0435\u0449\u0435 \u0440\u0430\u0437 \u043d\u0430 \u0444\u043e\u0440\u043c\u0443\u043b\u0443 \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u0438\u044f:<\/p>\n<p>Output = P(tokens) = Attention(Tokens) + FeedForward(Tokens)<\/p>\n<p>\u041c\u044b \u0432\u0438\u0434\u0438\u043c \u0447\u0442\u043e \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0437\u0430\u0434\u0430\u0435\u0442\u0441\u044f \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u0444\u0443\u043d\u043a\u0446\u0438\u0435\u0439 \u0438 \u0437\u0430\u0434\u0430\u0447\u0430 \u0432 \u0442\u043e\u043c, \u0447\u0442\u043e\u0431\u044b \u043d\u0430\u0439\u0442\u0438 \u0442\u0430\u043a\u0438\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u043c\u0430\u0442\u0440\u0438\u0446 \u0447\u0442\u043e\u0431\u044b \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0438\u0440\u0443\u044e\u0449\u0430\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u044f \u043f\u043e\u0442\u0435\u0440\u044c LOSS \u0438\u043c\u0435\u043b\u0430 \u043c\u0435\u043d\u044c\u0448\u0435\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 \u0447\u0435\u043c \u0442\u0435\u043a\u0443\u0449\u0435\u0435. \u041a\u0430\u043a \u0436\u0435 \u044d\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442\u0441\u044f? \u042d\u0442\u043e \u043d\u0430\u0437\u044b\u0432\u0430\u0435\u0442\u0441\u044f backpropagation \u0438 \u0432\u044b\u0447\u0438\u0441\u043b\u044f\u0435\u0442\u0441\u044f \u0447\u0435\u0440\u0435\u0437 \u0433\u0440\u0430\u0434\u0438\u0435\u043d\u0442 \u0444\u0443\u043d\u043a\u0446\u0438\u0438. \u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0432\u0441\u0435 \u0441\u043b\u043e\u0438 Attention, FeedForward \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u044e\u0442\u0441\u044f \u0432 \u0432\u0438\u0434\u0435 \u0432\u044b\u0447\u0438\u0441\u043b\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0433\u043e \u0433\u0440\u0430\u0444\u0430 \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043d\u0430\u0437\u044b\u0432\u0430\u0435\u0442\u0441\u044f TensorFlow.<\/p>\n<p>\u0412\u0435\u0440\u0448\u0438\u043d\u044b \u0433\u0440\u0430\u0444\u0430 \u044d\u0442\u043e \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u0438, \u0440\u0435\u0431\u0440\u0430 \u044d\u0442\u043e \u0432\u0445\u043e\u0434\u043d\u044b\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f. \u041a\u0430\u0436\u0434\u043e\u0439 \u0432\u0435\u0440\u0448\u0438\u043d\u0435 \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0443\u0435\u0442 \u043d\u0435\u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u044f. \u0414\u043b\u044f \u043f\u0440\u0438\u043c\u0435\u0440\u0430 \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u0442\u0430\u043a\u0443\u044e \u0444\u0443\u043d\u043a\u0446\u0438\u044e:<\/p>\n<p>Floss = x\u00b2\u00a0\u00a0<\/p>\n<p>x = 2 \u00b7 y\u00a0\u00a0<\/p>\n<p>\u041d\u0443\u0436\u043d\u043e \u043d\u0430\u0439\u0442\u0438 \u0442\u0430\u043a\u0438\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f (x, y) \u0447\u0442\u043e\u0431\u044b \u0444\u0443\u043d\u043a\u0446\u0438\u044f \u0443\u043c\u0435\u043d\u044c\u0448\u0438\u043b\u0430\u0441\u044c. \u0417\u0434\u0435\u0441\u044c (x, y) \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u043e\u0431\u043e\u0439 \u0432\u0445\u043e\u0434\u043d\u043e\u0439 \u0432\u0435\u043a\u0442\u043e\u0440. \u041a\u0430\u043a \u044d\u0442\u043e \u0441\u0434\u0435\u043b\u0430\u0442\u044c? \u0420\u0435\u0448\u0435\u043d\u0438\u0435 \u0442\u0430\u043a\u043e\u0435: \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u0441\u044f \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u043d\u0430\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u0438 Floss \u043f\u043e \u0432\u0441\u0435\u043c \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u043c. \u0427\u0442\u043e \u0442\u0430\u043a\u043e\u0435 \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u043d\u0430\u044f? \u042d\u0442\u043e \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 \u043a\u043e\u0442\u043e\u0440\u043e\u0435 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u0438. \u0415\u0441\u043b\u0438 \u0432\u044b\u0447\u0438\u0441\u043b\u0438\u0442\u044c \u0435\u0433\u043e \u043a \u043a\u0430\u0436\u0434\u043e\u0439 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u043e\u0439 \u043f\u043e\u043b\u0443\u0447\u0438\u043c \u0432\u0435\u043a\u0442\u043e\u0440 \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u0432 \u043a\u0430\u043a\u0443\u044e \u0441\u0442\u043e\u0440\u043e\u043d\u0443 \u0440\u0430\u0441\u0442\u0435\u0442 \u0444\u0443\u043d\u043a\u0446\u0438\u044f (\u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c) \u0438\u043b\u0438 \u043d\u043e\u0440\u043c\u0430\u043b\u044c \u043a \u0444\u0443\u043d\u043a\u0446\u0438\u0438. \u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c \u043c\u044b \u043c\u043e\u0436\u0435\u043c \u043f\u043e\u0441\u0447\u0438\u0442\u0430\u0442\u044c \u0432\u0435\u043a\u0442\u043e\u0440 \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u0438 \u0438 \u0434\u0432\u0438\u0433\u0430\u0442\u044c\u0441\u044f \u0432 \u043e\u0431\u0440\u0430\u0442\u043d\u043e\u043c \u043d\u0430\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u0438 \u043f\u043e \u044d\u0442\u043e\u043c\u0443 \u0432\u0435\u043a\u0442\u043e\u0440\u0443. \u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u043f\u0440\u043e\u0441\u0442\u043e \u043e\u0442\u043d\u0438\u043c\u0430\u0435\u043c \u0432\u0435\u043a\u0442\u043e\u0440 \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u043d\u044b\u0445 \u043e\u0442 \u0432\u0441\u0435\u0445 \u043c\u0430\u0442\u0440\u0438\u0446. \u0418 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u043b\u0443\u0447\u0448\u0435\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 Floss.<\/p>\n<p>\u0424\u043e\u0440\u043c\u0443\u043b\u0430:\u00a0<\/p>\n<p>W_new = W_old \u2013 \u03b7 \u00b7 \u2202LOSS\/\u2202W<\/p>\n<p>\u00a0\u0417\u0434\u0435\u0441\u044c n \u0437\u0430\u0434\u0430\u0435\u0442 \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c \u043e\u043f\u0442\u0438\u043c\u0438\u0437\u0430\u0446\u0438\u0438 \u0444\u0443\u043d\u043a\u0446\u0438\u0438.<\/p>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043e\u0441\u0442\u0430\u0435\u0442\u0441\u044f \u043f\u043e\u0441\u0447\u0438\u0442\u0430\u0442\u044c \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u043d\u0443\u044e, \u043d\u043e \u043a\u0430\u043a \u044d\u0442\u043e \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u0435\u0441\u043b\u0438 \u0438\u043c\u0435\u0435\u043c \u0432\u044b\u0447\u0438\u0441\u043b\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0433\u0440\u0430\u0444 \u0442\u0435\u043d\u0437\u043e\u0440\u043e\u0432? \u041d\u0430 \u043f\u0440\u0438\u043c\u0435\u0440\u0435 \u0441\u0447\u0438\u0442\u0430\u0435\u0442\u0441\u044f \u0442\u0430\u043a \u043f\u0443\u0442\u0435\u043c \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0433\u043e \u0442\u043e\u0436\u0434\u0435\u0441\u0442\u0432\u0430:<\/p>\n<p>d(Floss) \/ dy = d(Floss) \/ dy * (dy \/ dx),&#8230; \u0438 \u0430\u043d\u0430\u043b\u043e\u0433\u0438\u0447\u043d\u043e \u043f\u043e \u043b\u044e\u0431\u043e\u043c\u0443 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0443 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0445. \u0422.\u0435 \u043c\u044b \u0441\u0447\u0438\u0442\u0430\u0435\u043c \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u043d\u044b\u0435 \u043f\u043e \u0432\u0441\u0435\u043c \u0443\u0437\u043b\u0430\u043c \u0438 \u0437\u0430\u0442\u0435\u043c \u043f\u0435\u0440\u0435\u043c\u043d\u043e\u0436\u0430\u0435\u043c \u0438\u0445.<\/p>\n<p>\u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u0432\u0445\u043e\u0434\u043d\u043e\u0439 \u0432\u0435\u043a\u0442\u043e\u0440 (x, y) \u0438\u043c\u0435\u0435\u0442 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f (1, 1), \u0442.\u0435 (x, y) = (1, 1)<\/p>\n<p>\u0414\u0430\u043b\u0435\u0435:<\/p>\n<p>d(Floss)\/dx = 2 * x (\u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u043f\u0440\u0430\u0432\u0438\u043b\u043e \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u044f \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u043d\u044b\u0445)<\/p>\n<p>dx\/dy = 2 (\u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u043f\u0440\u0430\u0432\u0438\u043b\u043e \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u044f \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u043d\u044b\u0445)<\/p>\n<p>\u041f\u043e\u043b\u0443\u0447\u0430\u0435\u043c d(Floss)\/dy = 2 <em> x = 2 <\/em> (2 <em> y) = 4 <\/em> y<\/p>\n<p>\u0415\u0441\u043b\u0438 \u043f\u043e\u0434\u0441\u0442\u0430\u0432\u0438\u0442\u044c \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f x \u0438 y \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0432\u0435\u043a\u0442\u043e\u0440 \u0438\u043b\u0438 \u043d\u043e\u0440\u043c\u0430\u043b\u044c \u0434\u0432\u0438\u0436\u0435\u043d\u0438\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u0438:<\/p>\n<p>(d(Floss)\/dx, d(Floss)\/dy) = (2 <em> 1 = 2, 4 <\/em> 1 = 4) = (2, 4)<\/p>\n<p>\u0414\u043e\u043f\u0443\u0441\u0442\u0438\u043c n = 1<\/p>\n<p>\u041e\u0442\u043d\u0438\u043c\u0430\u0435\u043c: (1, 1) &#8212; (2 <em> 1, 4 <\/em> 1) = (1 &#8212; 2 = -1, 1 &#8212; 4 = -3)<\/p>\n<p>\u041f\u0440\u0435\u0434\u044b\u0434\u0443\u0449\u0435\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 Floss &#8212; 2, \u043d\u043e\u0432\u043e\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435: 2 * (-3) = -6.<\/p>\n<p>\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c \u0441\u0447\u0438\u0442\u0430\u0435\u0442\u0441\u044f \u0438 \u043e\u043f\u0442\u0438\u043c\u0438\u0437\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u0432\u0435\u0441\u044c \u0431\u043b\u043e\u043a \u0432 GPT \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440\u0435.<\/p>\n<h3>\ud83e\udde9 \u041f\u0440\u0438\u043d\u0446\u0438\u043f\u044b \u0440\u0430\u0431\u043e\u0442\u044b Tokenize, Attention, FeedForward<\/h3>\n<h4>\ud83d\udd0d Tokenize<\/h4>\n<p>\u0417\u0430\u0434\u0430\u043d \u0432\u0445\u043e\u0434\u043d\u043e\u0439 \u0442\u0435\u043a\u0441\u0442, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440: \u201c\u041f\u0440\u0438\u0432\u0435\u0442 GPT!\u201d. \u041c\u043e\u0434\u0435\u043b\u044c \u043d\u0435 \u043c\u043e\u0436\u0435\u0442 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u0441\u0442\u0440\u043e\u043a\u043e\u0432\u044b\u0439 \u0442\u0435\u043a\u0441\u0442 \u0441\u0440\u0430\u0437\u0443, \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u043e\u043d\u0438\u043c\u0430\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u0447\u0438\u0441\u043b\u0430. \u041a\u0430\u043a \u043d\u0430\u043c \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u0442\u044c \u0442\u0435\u043a\u0441\u0442 \u0432 \u0447\u0438\u0441\u043b\u0430? \u0414\u0430 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0440\u0430\u0437\u0434\u0435\u043b\u0438\u0442\u044c \u0442\u0435\u043a\u0441\u0442 \u043d\u0430 \u0447\u0430\u0441\u0442\u0438 \u0438 \u043a\u0430\u0436\u0434\u043e\u0439 \u0447\u0430\u0441\u0442\u0438 \u0434\u0430\u0442\u044c \u0447\u0438\u0441\u043b\u043e\u0432\u043e\u0435 \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0438\u0435. \u0422\u0430\u043a\u043e\u0435 \u0447\u0438\u0441\u043b\u043e \u043d\u0430\u0437\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u0442\u043e\u043a\u0435\u043d\u043e\u043c (\u043b\u0435\u043a\u0441\u0435\u043c\u043e\u0439).\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c \u043c\u044b \u0434\u0435\u043b\u0438\u043c \u0442\u0435\u043a\u0441\u0442 \u043d\u0430 \u0441\u043b\u043e\u0432\u0430:<\/p>\n<p>Tokenize1(\u201c\u041f\u0440\u0438\u0432\u0435\u0442 GPT!\u201d) = [\u201c\u041f\u0440\u0438\u0432\u0435\u0442\u201d, \u201c \u201d, \u201cGPT\u201d, \u201c!\u201d].<\/p>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043d\u0430\u043c \u043d\u0443\u0436\u043d\u043e \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u0442\u044c \u044d\u0442\u0438 \u0442\u043e\u043a\u0435\u043d\u044b \u0432 \u0447\u0438\u0441\u043b\u0430. \u041d\u043e \u0437\u0434\u0435\u0441\u044c \u043c\u044b \u0438\u043c\u0435\u0435\u043c \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0443. \u041d\u0430\u043c \u043f\u0440\u0438\u0434\u0435\u0442\u0441\u044f \u0441\u043e\u0437\u0434\u0430\u0442\u044c \u0442\u0430\u043a\u043e\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0432 \u043a\u043e\u0442\u043e\u0440\u043e\u043c \u0431\u0443\u0434\u0443\u0442 \u0432\u0441\u0435 \u0441\u043b\u043e\u0432\u0430 \u044f\u0437\u044b\u043a\u0430 \u0447\u0442\u043e\u0431\u044b \u043a\u0430\u0436\u0434\u043e\u043c\u0443 \u0441\u043b\u043e\u0432\u0443 \u043f\u0443\u043d\u043a\u0442\u0443\u0430\u0446\u0438\u0438 \u0447\u0438\u0441\u043b\u0443 \u0438 \u0442.\u0434 \u0434\u0430\u0442\u044c \u0447\u0438\u0441\u043b\u043e\u0432\u043e\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435. \u041d\u043e \u0435\u0441\u043b\u0438 \u044d\u0442\u043e \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u0441\u044f \u043e\u0447\u0435\u043d\u044c \u0431\u043e\u043b\u044c\u0448\u0438\u043c. \u041a\u0430\u043a \u0440\u0435\u0448\u0438\u0442\u044c \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0443? \u0414\u043b\u044f \u0440\u0435\u0448\u0435\u043d\u0438\u044f \u043d\u0430 \u043f\u0440\u0438\u043c\u0435\u0440\u0435 GPT2 \u0442\u043e\u043a\u0435\u043d\u044b \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0440\u0430\u0437\u0434\u0435\u043b\u044f\u044e\u0442\u0441\u044f \u043d\u0430 \u0447\u0430\u0441\u0442\u0438, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440:<\/p>\n<p>Tokenize2(\u201c\u041f\u0440\u0438\u0432\u0435\u0442 GPT!\u201d) = [\u201c\u041f\u0440\u0438\u201d, \u201c\u0432\u0435\u0442\u201d, \u201c \u201d, \u201cGPT\u201d, \u201c!\u201d], \u0442.\u0435 \u043d\u0430 \u043a\u0443\u0441\u043e\u0447\u043a\u0438 \u043e\u0442 \u0441\u043b\u043e\u0432. \u0410 \u0442\u0430\u043a\u0438\u0445 \u043a\u0443\u0441\u043e\u0447\u043a\u043e\u0432 \u043d\u0435 \u043e\u0447\u0435\u043d\u044c \u043c\u043d\u043e\u0433\u043e \u0438 \u0438\u0445 \u043c\u043e\u0436\u043d\u043e \u0445\u0440\u0430\u043d\u0438\u0442\u044c \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u0435. \u041f\u043e\u043b\u0443\u0447\u0430\u0435\u0442\u0441\u044f \u0442\u0430\u043a\u043e\u0439 \u0441\u043b\u043e\u0432\u0430\u0440\u044c (\u043f\u0440\u0438\u043c\u0435\u0440):<\/p>\n<p>\u2026<\/p>\n<p>\u041f\u0440\u0438 &#8212; 34,<\/p>\n<p>\u2026<\/p>\n<p>\u0432\u0435\u0442 &#8212; 56<\/p>\n<p>\u2026<\/p>\n<p>GPT &#8212; 102<\/p>\n<p>\u2026<\/p>\n<p>! &#8212; 1004<\/p>\n<p>\u041f\u043e\u043b\u0443\u0447\u0430\u0435\u043c:<\/p>\n<p>Tokenize3(\u201c\u041f\u0440\u0438\u0432\u0435\u0442 GPT!\u201d) = [34, 56, 102]<\/p>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u0438\u043c\u0435\u0435\u043c \u0437\u0430\u0434\u0430\u0447\u0443 \u043a\u0430\u043a \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e \u0440\u0430\u0437\u0434\u0435\u043b\u0438\u0442\u044c \u0442\u0435\u043a\u0441\u0442 \u043d\u0430 \u043a\u0443\u0441\u043e\u0447\u043a\u0438? \u041d\u0430 \u043f\u0440\u0438\u043c\u0435\u0440 GPT2 \u043c\u043e\u0436\u043d\u043e \u0443\u0432\u0438\u0434\u0435\u0442\u044c \u0447\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442\u0441\u044f \u044d\u0442\u043e \u0447\u0435\u0440\u0435\u0437 \u0431\u0438\u0433\u0440\u0430\u043c\u043c\u044b. \u0411\u0438\u0433\u0440\u0430\u043c\u043c\u0430 \u044d\u0442\u043e \u043f\u0430\u0440\u0430 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u044e\u0449\u0430\u044f \u0441\u043e\u043e\u0442\u0432\u0435\u0441\u0442\u0432\u0438\u0435 \u043c\u0435\u0436\u0434\u0443 \u0431\u0443\u043a\u0432\u0430\u043c\u0438 \u0432 \u0441\u043b\u043e\u0432\u0435. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440:<\/p>\n<p>(\u201c\u041f\u201d, \u201c\u0440\u201d)<\/p>\n<p>(\u201c\u041f\u0440\u201d, \u201c\u0438\u201d)<\/p>\n<p>\u2026<\/p>\n<p>(\u201c\u0432\u0435\u201d, \u201c\u0442\u201d).<\/p>\n<p>\u042d\u0442\u043e\u0442 \u0441\u043f\u0438\u0441\u043e\u043a \u0431\u0438\u0433\u0440\u0430\u043c\u043c \u0441\u0447\u0438\u0442\u0430\u0435\u0442\u0441\u044f \u043f\u043e \u043e\u0431\u0443\u0447\u0430\u0435\u043c\u043e\u043c\u0443 \u0442\u0435\u043a\u0441\u0442\u0443 (\u043d\u0430\u0437\u043e\u0432\u0435\u043c DATA) \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0438\u043c\u0435\u0435\u0442 \u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u0440\u0430\u0437\u043c\u0435\u0440 &#8212; \u0433\u0438\u0433\u0430\u0431\u0430\u0439\u0442\u044b \u0442\u0435\u043a\u0441\u0442\u0430. \u041d\u0430\u0445\u043e\u0434\u044f\u0442\u0441\u044f \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u044b\u0435 \u043f\u0430\u0440\u044b \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u043c\u044b\u0435 \u0432 \u0442\u0435\u043a\u0441\u0442\u0435.<\/p>\n<p>\u0414\u0430\u043b\u0435\u0435 \u043d\u0430 \u043f\u0440\u0438\u043c\u0435\u0440\u0435 \u0441\u043b\u043e\u0432\u0430 \u201c\u041f\u0440\u0438\u0432\u0435\u0442\u201d \u0434\u0435\u043b\u0438\u043c \u0441\u043b\u043e\u0432\u043e \u043d\u0430 \u0431\u0443\u043a\u0432\u044b \u0438 \u0441\u0442\u0440\u043e\u0438\u043c \u0431\u0438\u0433\u0440\u0430\u043c\u043c\u044b:<\/p>\n<p>[(\u201c\u041f\u201d, \u201c\u0440\u201d), (\u201c\u0440\u201d, \u201c\u0438\u201d), (\u201c\u0438\u201d, \u201c\u0432\u201d), (\u201c\u0432\u201d, \u201c\u0435\u201d), (\u201c\u0435\u201d, \u201c\u0442\u201d)] &#8212; \u0437\u0434\u0435\u0441\u044c \u043f\u0430\u0440\u044b \u0441\u0442\u0440\u043e\u044f\u0442\u0441\u044f \u043f\u043e \u043f\u0440\u0438\u043d\u0446\u0438\u043f\u0443 \u043b\u0435\u0432\u0430\u044f \u0447\u0430\u0441\u0442\u044c \u043f\u0435\u0440\u0432\u043e\u0439 \u0431\u0438\u0433\u0440\u0430\u043c\u043c\u044b \u0440\u0430\u0432\u043d\u043e \u043f\u0440\u0430\u0432\u043e\u0439 \u0447\u0430\u0441\u0442\u0438 \u0432\u0442\u043e\u0440\u043e\u0439. \u0418 \u043f\u043e \u0442\u0430\u0431\u043b\u0438\u0446\u0435 \u0431\u0438\u0433\u0440\u0430\u043c\u043c \u043e\u0431\u044a\u0435\u0434\u0438\u043d\u044f\u0435\u043c \u0431\u0443\u043a\u0432\u044b \u043d\u0430\u0445\u043e\u0434\u0438\u043c \u0441\u043e\u0432\u043f\u0430\u0434\u0435\u043d\u0438\u0435 \u043f\u043e \u0431\u0438\u0433\u0440\u0430\u043c\u043c\u0435 (\u201c\u041f\u201d, \u201c\u0440\u201d) \u0438 \u0434\u0430\u043b\u0435\u0435 \u043e\u0431\u044a\u0435\u0434\u0438\u043d\u044f\u0435\u043c \u043f\u043e \u0431\u0438\u0433\u0440\u0430\u043c\u043c\u0435:<\/p>\n<p>TokenizeBigram([(\u201c\u041f\u201d, \u201c\u0440\u201d), (\u201c\u0440\u201d, \u201c\u0438\u201d), (\u201c\u0438\u201d, \u201c\u0432\u201d), (\u201c\u0432\u201d, \u201c\u0435\u201d), (\u201c\u0435\u201d, \u201c\u0442\u201d)]) =([(\u201c\u041f\u0440\u201d), (\u201c\u0440\u201d, \u201c\u0438\u201d), (\u201c\u0438\u201d, \u201c\u0432\u201d), (\u201c\u0432\u201d, \u201c\u0435\u201d), (\u201c\u0435\u201d, \u201c\u0442\u201d)])<\/p>\n<p>\u0414\u0430\u043b\u0435\u0435 \u043f\u043e \u0431\u0438\u0433\u0440\u0430\u043c\u043c\u0435 (\u201c\u041f\u0440\u201d, \u201c\u0438\u201d):<\/p>\n<p>TokenizeBigram([(\u201c\u041f\u0440\u201d), (\u201c\u0440\u201d, \u201c\u0438\u201d), (\u201c\u0438\u201d, \u201c\u0432\u201d), (\u201c\u0432\u201d, \u201c\u0435\u201d), (\u201c\u0435\u201d, \u201c\u0442\u201d)]) = [(\u201c\u041f\u0440\u0438\u201d), (\u201c\u0438\u201d, \u201c\u0432\u201d), (\u201c\u0432\u201d, \u201c\u0435\u201d), (\u201c\u0435\u201d, \u201c\u0442\u201d)]<\/p>\n<p>\u0418\u0442\u0430\u043a \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442\u0441\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u044f:<\/p>\n<p>Tokenize(\u201c\u041f\u0440\u0438\u0432\u0435\u0442 GPT!\u201d) = [34, 56, 102]=Tokens<\/p>\n<figure class=\"full-width\">\n<div><figcaption>\u0410\u043b\u0433\u043e\u0440\u0438\u0442\u043c \u0431\u0438\u0433\u0440\u0430\u043c\u043c \u0432 \u043a\u043e\u0434\u0435 GPT-2<\/figcaption><\/div>\n<\/figure>\n<h4>\ud83d\udd0d Tokenize \u2192 Embedding<\/h4>\n<p>\u0423 \u043d\u0430\u0441 \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0430\u0441\u044c \u043f\u043e\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u044c \u0447\u0438\u0441\u0435\u043b. \u041d\u043e \u043a\u0430\u043a \u0436\u0435 \u043c\u043e\u0434\u0435\u043b\u044c \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440\u0430 \u043f\u043e\u043d\u0438\u043c\u0430\u0435\u0442 \u0441\u043c\u044b\u0441\u043b \u0438\u0437 \u044d\u0442\u0438\u0445 \u0447\u0438\u0441\u0435\u043b?<\/p>\n<p>\u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0434\u0430\u043d\u043d\u044b\u0435 \u0447\u0438\u0441\u043b\u0430 \u0438\u043b\u0438 \u0441\u043b\u043e\u0432\u0430-\u0442\u043e\u043a\u0435\u043d\u044b \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u0443\u044e\u0442\u0441\u044f \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0437\u0430\u0434\u0430\u044e\u0442\u0441\u044f \u043c\u043e\u0434\u0435\u043b\u044c\u044e \u0432 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0442\u043e\u043a\u0435\u043d\u0430 \u043a\u0430\u043a \u0441\u043b\u043e\u0432\u0430\u0440\u044c token[i] -&gt; embedding[i]. \u0427\u0442\u043e \u0442\u0430\u043a\u043e\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u044b? \u0412\u0435\u043a\u0442\u043e\u0440\u044b \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u044e\u0442 \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0435 \u043c\u0435\u0440\u043d\u043e\u0441\u0442\u0438(\u043f\u0440\u0438\u0437\u043d\u0430\u043a\u0438) \u043e\u0431\u044a\u0435\u043a\u0442\u0430 \u0442.\u0435 \u0441\u043b\u043e\u0432\u0430 \u0438\u043c\u0435\u044e\u0449\u0435\u0433\u043e \u0441\u043c\u044b\u0441\u043b. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u0438\u043c\u0435\u0435\u043c \u0441\u043b\u043e\u0432\u043e \u043a\u043e\u0448\u043a\u0430 Cat. \u041a\u043e\u0448\u043a\u0430 \u0438\u043c\u0435\u0435\u0442 \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0441\u0442\u0438\u043a\u0438 \u0438 \u0438\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0438\u0440\u0443\u044e\u0442\u0441\u044f \u043e\u043d\u0438 \u043a\u0430\u043a \u0430\u0442\u0440\u0438\u0431\u0443\u0442\u044b \u043a\u043b\u0430\u0441\u0441\u0430 \u043f\u0440\u0438\u043c\u0435\u0440 \u043d\u0430 c#:<\/p>\n<p><code>class Cat<\/code><\/p>\n<p><code>{<\/code><\/p>\n<p><code>\u00a0\u00a0\u00a0public int Mass { get; set; }<\/code><\/p>\n<p><code>\u00a0\u00a0\u00a0public int Color { get; set; }<\/code><\/p>\n<p><code>\u00a0\u00a0\u00a0\u2026<\/code><\/p>\n<p><code>}<\/code><\/p>\n<p>\u041a\u0430\u0436\u0434\u044b\u0439 \u0430\u0442\u0440\u0438\u0431\u0443\u0442 \u0438\u043b\u0438 \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0441\u0442\u0438\u043a\u0430 \u044d\u0442\u043e \u0440\u0430\u0437\u043c\u0435\u0440\u043d\u043e\u0441\u0442\u044c \u043a\u043b\u0430\u0441\u0441\u0430: \u0442.\u0435 \u043a\u043e\u0448\u043a\u0430 \u043c\u043e\u0436\u0435\u0442 \u0438\u043c\u0435\u0442\u044c \u043c\u0430\u0441\u0441\u0443, \u0446\u0432\u0435\u0442: \u0431\u0435\u043b\u044b\u0439, \u0437\u0435\u043b\u0435\u043d\u044b\u0439, \u043a\u0440\u0430\u0441\u043d\u044b\u0439 \u0438 \u0442.\u0434. \u0418 \u0432\u0441\u0435 \u044d\u0442\u043e \u043a\u043e\u0434\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u0447\u0438\u0441\u043b\u0430\u043c\u0438. \u041d\u043e \u043d\u0430\u043c \u043d\u0435 \u043d\u0443\u0436\u043d\u043e \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u0442\u044c \u044d\u0442\u0438 \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0441\u0442\u0438\u043a\u0438 \u0432\u0440\u0443\u0447\u043d\u0443\u044e. \u041a\u0440\u0430\u0441\u043e\u0442\u0430 \u043d\u0435\u0439\u0440\u043e\u043d\u043d\u044b\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u0432 \u0442\u043e\u043c \u0447\u0442\u043e \u043e\u043d\u0438 \u0441\u0430\u043c\u0438 \u0443\u0447\u0430\u0442\u0441\u044f \u043a\u0430\u043a \u044d\u0442\u043e \u0434\u0435\u043b\u0430\u0442\u044c. \u0418\u0442\u0430\u043a \u0441\u043b\u043e\u0432\u043e \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u0443\u0435\u0442\u0441\u044f \u0432 \u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u0441\u043f\u0438\u0441\u043e\u043a \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0441\u0442\u0438\u043a \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043d\u0430\u0437\u044b\u0432\u0430\u044e\u0442\u0441\u044f features (\u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u0438).<\/p>\n<p>\u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440: \u201c\u041f\u0440\u0438\u201d =&gt; 34 =&gt; [35, 67, 32, 78 \u2026 ] 1024, 4098\u2026 \u0447\u0438\u0441\u0435\u043b! \u042d\u0442\u043e \u043e\u0433\u0440\u043e\u043c\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0430\u0442\u0440\u0438\u0431\u0443\u0442\u043e\u0432 \u043f\u043e \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0437\u0443\u044e\u0442\u0441\u044f \u0441\u043b\u043e\u0432\u0430-\u0442\u043e\u043a\u0435\u043d\u044b. \u0418 \u043c\u043e\u0434\u0435\u043b\u044c \u0441\u0430\u043c\u0430 \u0443\u0447\u0438\u0442\u0441\u044f \u0441\u0442\u0440\u043e\u0438\u0442\u044c \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0441\u0442\u0438\u043a\u0438 \u043e\u0431\u0443\u0447\u0438\u0432\u0448\u0438\u0441\u044c \u043d\u0430 DATA, \u043f\u0443\u0442\u0435\u043c \u0443\u043c\u0435\u043d\u044c\u0448\u0435\u043d\u0438\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u0438 Floss. \u0412 \u0441\u0430\u043c\u043e\u043c \u0432\u0435\u043a\u0442\u043e\u0440\u0435 \u0437\u0430\u043a\u043e\u0434\u0438\u0440\u043e\u0432\u0430\u043d\u044b \u043d\u0435 \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u043e \u0430\u0442\u0440\u0438\u0431\u0443\u0442\u044b \u043a\u0430\u043a \u0432 \u043a\u043b\u0430\u0441\u0441\u0435, \u043d\u043e \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0435 \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u044b \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0442\u043e\u0440\u044b \u0438\u043b\u0438 \u0438\u0445 \u0447\u0430\u0441\u0442\u0438, \u0442\u0430\u043a \u043a\u0430\u043a \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0435 \u0443\u043c\u0435\u0435\u0442 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u0446\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0444\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u043e \u043a\u0430\u043a \u0447\u0435\u043b\u043e\u0432\u0435\u043a \u0434\u0435\u043b\u0430\u0435\u0442 \u043e\u043d\u0430 \u044d\u0442\u043e \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u0447\u0442\u043e\u0431\u044b \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u043e\u0432\u0430\u0442\u044c \u0432\u0441\u0435\u0439 \u0444\u0443\u043d\u043a\u0446\u0438\u0438 Floss(DATA). \u0412\u0435\u043a\u0442\u043e\u0440 \u0434\u043b\u044f \u0442\u043e\u043a\u0435\u043d\u0430 \u043d\u0430\u0437\u044b\u0432\u0430\u0435\u0442\u0441\u044f embedding.<\/p>\n<p>\u0414\u043b\u044f \u043f\u0440\u0438\u043c\u0435\u0440\u0430 \u043f\u0440\u0438\u043c\u0435\u043c \u0447\u0442\u043e \u0434\u043b\u0438\u043d\u0430 \u0432\u0435\u043a\u0442\u043e\u0440\u0430 \u043f\u0440\u0438\u0437\u043d\u0430\u043a\u043e\u0432 2 (\u0432 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u0441\u0442\u0438 \u0434\u043b\u0438\u043d\u0430 1024 \u0438\u043b\u0438 \u0431\u043e\u043b\u0435\u0435!).<\/p>\n<p>\u0418\u043c\u0435\u0435\u043c \u0442\u0430\u043a\u0443\u044e \u0444\u0443\u043d\u043a\u0446\u0438\u044e:<\/p>\n<p>Embedding(Tokens) = [ [1, 2], [3, 4], [4, 8] ] = Vectors<\/p>\n<p>\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c \u043c\u044b \u043c\u043e\u0436\u0435\u043c \u0432\u0445\u043e\u0434\u043d\u043e\u0439 \u0442\u0435\u043a\u0441\u0442 \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u044b\u0432\u0430\u0442\u044c \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u043e\u0442\u0440\u0430\u0436\u0430\u044e\u0449\u0438\u0435 \u0441\u043c\u044b\u0441\u043b \u044d\u0442\u043e\u0433\u043e \u0442\u0435\u043a\u0441\u0442\u0430 \u0438\u043b\u0438 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0442\u043e\u0440\u044b \u0442\u043e\u043a\u0435\u043d\u043e\u0432. \u0417\u0434\u0435\u0441\u044c \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u0441\u044f \u043e\u0447\u0435\u0432\u0438\u0434\u043d\u043e \u0447\u0442\u043e \u0447\u0435\u043c \u0434\u043b\u0438\u043d\u043d\u0435\u0435 \u0432\u0435\u043a\u0442\u043e\u0440 \u0442\u0435\u043c \u043f\u043e \u0431\u043e\u043b\u044c\u0448\u0438\u043c \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0441\u0442\u0438\u043a\u0430\u043c \u043c\u043e\u0434\u0435\u043b\u044c \u0431\u0443\u0434\u0435\u0442 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u0446\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0441\u043b\u043e\u0432\u0430 \u0438 \u0442\u0435\u043c \u0442\u043e\u0447\u043d\u0435\u0435 \u0431\u0443\u0434\u0435\u0442 \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u0442\u044c \u0441\u043c\u044b\u0441\u043b.<\/p>\n<figure class=\"full-width\">\n<div><figcaption>\u041f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0441\u043c\u044b\u0441\u043b\u0430 (\u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438) \u0432 GPT-2<\/figcaption><\/div>\n<\/figure>\n<figure class=\"full-width\">\n<div><figcaption>\u041f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0441\u043c\u044b\u0441\u043b\u0430 (\u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438) \u0432 DeepSeek3. \u0423 \u043d\u0435\u0433\u043e \u0440\u0435\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u043d\u043e \u0447\u0435\u0440\u0435\u0437 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443 Torch<\/figcaption><\/div>\n<\/figure>\n<h3> \ud83d\udd0d Tokenize \u2192 Embedding \u2192 PositionalEmbedding<\/h3>\n<p>\u041f\u043e\u0441\u043b\u0435 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u044f \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432 \u0441\u043c\u044b\u0441\u043b\u0430 (\u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u043e\u0432) \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0432 \u043c\u043e\u0434\u0435\u043b\u0438 \u043a\u0430\u043a \u0442\u043e \u0437\u0430\u043a\u043e\u0434\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043d\u0430 \u043a\u0430\u043a\u043e\u043c \u043c\u0435\u0441\u0442\u0435 \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u0441\u044f \u0432\u0435\u043a\u0442\u043e\u0440 \u0442\u043e\u043a\u0435\u043d\u0430 \u043f\u043e\u0441\u043a\u043e\u043b\u044c\u043a\u0443 \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0435 \u0443\u043c\u0435\u0435\u0442 \u044d\u0442\u043e \u0440\u0430\u0437\u043b\u0438\u0447\u0430\u0442\u044c. \u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f \u043f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u043d\u044b\u0439 \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433: PositionalEmbedding.<\/p>\n<p>\u041e\u043d \u0432\u044b\u0447\u0438\u0441\u043b\u044f\u0435\u0442 \u043f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u043d\u044b\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0438 \u0441\u043a\u043b\u0430\u0434\u044b\u0432\u0430\u0435\u0442 \u0438\u0445 \u0441 \u0432\u0435\u043a\u0442\u043e\u0440\u0430\u043c\u0438 (GPT2). \u0422\u0430\u043a\u0436\u0435 \u043c\u043e\u0436\u0435\u0442 \u0432\u044b\u043f\u043e\u043b\u043d\u044f\u0442\u044c\u0441\u044f \u0432\u0440\u0430\u0449\u0435\u043d\u0438\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432 \u043f\u043e \u043d\u0438\u043c (DeepSeekV3).<\/p>\n<figure class=\"full-width\">\n<div><figcaption>\u041d\u0435\u043f\u0440\u043e\u0441\u0442\u043e\u0435 \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u0435 \u0432\u0440\u0430\u0449\u0435\u043d\u0438\u044f \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432 \u0434\u043b\u044f \u043f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u043d\u043e\u0433\u043e \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0430 \u0432 DeepSeekV3<\/figcaption><\/div>\n<\/figure>\n<h3>\ud83d\udca1 \u0412\u043d\u0438\u043c\u0430\u043d\u0438\u0435 (Attention)<\/h3>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u0440\u0430\u0437\u0431\u0435\u0440\u0435\u043c \u043a\u0430\u043a \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0444\u0443\u043d\u043a\u0446\u0438\u044f Attention.<\/p>\n<p>\u0424\u043e\u0440\u043c\u0443\u043b\u0430:<\/p>\n<p>Attention = softmax( (Wq \u00b7 Wk\u1d40) \/ sqrt(d) ) \u00b7 Wv<\/p>\n<figure class=\"full-width\">\n<div><figcaption>\u0412\u043e\u0442 \u0442\u0430\u043a \u0440\u0435\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u0432 GPT-2<\/figcaption><\/div>\n<\/figure>\n<figure class=\"full-width\">\n<div><figcaption>\u0410 \u0432\u043e\u0442 \u0442\u0430\u043a \u0432 DeepSeekV3. \u0421\u043b\u043e\u0436\u043d\u043e \u043f\u0440\u0430\u0432\u0434\u0430? \u0422\u0443\u0442 QLora, \u0430 einsum \u043f\u0435\u0440\u0435\u043c\u043d\u043e\u0436\u0435\u043d\u0438\u0435 \u043c\u0430\u0442\u0440\u0438\u0446<\/figcaption><\/div>\n<\/figure>\n<p>\u0427\u0442\u043e \u0442\u0430\u043a\u043e\u0435 Q, K, V?<\/p>\n<p>\u042d\u0442\u043e \u043a\u043e\u043d\u0446\u0435\u043f\u0442\u044b-\u0432\u0435\u043a\u0442\u043e\u0440\u044b \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u0432 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f, Q &#8212; \u0432\u0435\u043a\u0442\u043e\u0440 \u043f\u043e\u0438\u0441\u043a\u0430, K &#8212; \u0432\u0435\u043a\u0442\u043e\u0440 \u043a\u043b\u044e\u0447\u0430, V &#8212; \u0432\u0435\u043a\u0442\u043e\u0440 \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u044f \u0438\u043b\u0438 \u0432\u0430\u0436\u043d\u043e\u0441\u0442\u0438. \u0420\u0430\u0437\u043b\u043e\u0436\u0435\u043d\u044b \u043e\u043d\u0438 \u0432 \u043c\u0430\u0442\u0440\u0438\u0446\u0435 \u043f\u043e \u0442\u043e\u043a\u0435\u043d\u0430\u043c \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0441\u043f\u0440\u043e\u0435\u0446\u0438\u0440\u043e\u0432\u0430\u043d\u0430 \u043d\u0430 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e \u0431\u043e\u043b\u044c\u0448\u0435\u0439 \u043c\u043e\u0449\u043d\u043e\u0441\u0442\u0438. \u0427\u0442\u043e \u0442\u0430\u043a\u043e\u0435 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f? \u041b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u0438 \u044d\u0442\u043e \u0442\u0430\u043a \u0432\u044b\u0445\u043e\u0434\u043d\u044b\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u043b\u0435\u0436\u0430\u0442 \u0432 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0435 \u0441\u043c\u044b\u0441\u043b\u0430, \u043c\u044b \u0438\u0445 \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u0443\u0435\u043c (\u043f\u0440\u043e\u0435\u0446\u0438\u0440\u0443\u0435\u043c) \u0432 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u0438 \u0441\u0447\u0438\u0442\u0430\u0435\u043c \u043f\u043e \u043d\u0438\u043c \u043e\u0447\u043a\u0438 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f.<\/p>\n<p>\u0427\u0442\u043e\u0431\u044b \u0441\u043f\u0440\u043e\u0435\u0446\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432\u0435\u043a\u0442\u043e\u0440 Vector \u043d\u0430 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u043e\u043d \u0443\u043c\u043d\u043e\u0436\u0430\u0435\u0442\u0441\u044f \u043d\u0430 \u043c\u0430\u0442\u0440\u0438\u0446\u0443 W. \u041a\u043e\u0442\u043e\u0440\u0430\u044f \u0434\u0430\u0435\u0442 \u043f\u0440\u0430\u0432\u0438\u043b\u043e \u043f\u0440\u043e\u0435\u043a\u0446\u0438\u0438 \u043a\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c \u0432\u0435\u043a\u0442\u043e\u0440 \u043f\u0440\u043e\u0435\u0446\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u043d\u0430 \u0432\u0435\u043a\u0442\u043e\u0440 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f. \u0412 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u0441\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u0435\u0442 3 \u0432\u0435\u043a\u0442\u043e\u0440\u0430: Q, K, V. \u041c\u0430\u0442\u0440\u0438\u0446\u0430 W \u0438\u043c\u0435\u0435\u0442 \u0431\u043e\u043b\u044c\u0448\u0443\u044e \u043c\u0435\u0440\u043d\u043e\u0441\u0442\u044c \u0447\u0435\u043c \u043c\u0430\u0442\u0440\u0438\u0446\u0430 \u0432\u0435\u043a\u0442\u043e\u0440\u0430, \u0447\u0442\u043e\u0431\u044b \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u0432 \u0431\u043e\u043b\u044c\u0448\u0435\u043c \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0435 \u0447\u0435\u043c \u0432\u0435\u043a\u0442\u043e\u0440. \u041b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u0438 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e \u0441\u043c\u044b\u0441\u043b\u0430 \u0440\u0430\u0441\u0448\u0438\u0440\u044f\u0435\u0442\u0441\u044f \u0434\u043e \u0431\u043e\u043b\u044c\u0448\u0435\u0433\u043e \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0430 \u0438 \u0442\u0430\u043c \u0441\u0442\u0440\u043e\u0438\u0442\u0441\u044f \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435. \u0412\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u043f\u043e \u0432\u0441\u0435\u043c \u0442\u043e\u043a\u0435\u043d\u0430\u043c \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u0430\u043c \u0442\u043e\u043a\u0435\u043d \u0443\u0434\u0435\u043b\u044f\u0435\u0442 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u043a \u0434\u0440\u0443\u0433\u0438\u043c \u0442\u043e\u043a\u0435\u043d\u0430\u043c, \u0442.\u0435 \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0442\u043e\u043a\u0435\u043d\u0443 Token(i) \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u043e Token(j). \u0412 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f Q \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u043e\u0431\u043e\u0439 \u0442\u0430\u043a\u0443\u044e \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0441\u0442\u0438\u043a\u0443: \u043a\u0430\u043a\u0443\u044e \u0441\u0432\u043e\u044e \u0446\u0435\u043b\u044c \u0438\u043c\u0435\u0435\u0442 \u0442\u043e\u043a\u0435\u043d? \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u043e\u043d\u0430 \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u043c \u0446\u0435\u043b\u0438. K \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u043e\u0431\u043e\u0439 \u0446\u0435\u043b\u0435\u0432\u043e\u0439 \u0432\u0435\u043a\u0442\u043e\u0440 \u0447\u0442\u043e \u0442\u043e\u043a\u0435\u043d \u043c\u043e\u0436\u0435\u0442 \u0434\u0430\u0442\u044c \u0434\u0440\u0443\u0433\u0438\u043c \u0442\u043e\u043a\u0435\u043d\u0430\u043c? \u0422.\u0435 \u043f\u043e \u043a\u0430\u0436\u0434\u044b\u043c \u043f\u0430\u0440\u0430\u043c \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0432\u044b\u0447\u0438\u0441\u043b\u044f\u044e\u0442\u0441\u044f \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0446\u0435\u043b\u0435\u0439:<\/p>\n<p>Vq, Vk. \u0418 \u0434\u0430\u043b\u0435\u0435 \u0441\u0447\u0438\u0442\u0430\u0435\u0442\u0441\u044f \u0438\u0445 \u0441\u043a\u0430\u043b\u044f\u0440\u043d\u043e\u0435 \u043f\u0440\u043e\u0438\u0437\u0432\u0435\u0434\u0435\u043d\u0438\u0435. \u041e\u043d\u043e \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 <\/p>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-468292","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/468292","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=468292"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/468292\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=468292"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=468292"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=468292"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}