{"id":456798,"date":"2025-04-21T15:01:06","date_gmt":"2025-04-21T15:01:06","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=456798"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=456798","title":{"rendered":"<span>Mixture of Experts: \u043a\u043e\u0433\u0434\u0430 \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044c \u0443\u0447\u0438\u0442\u0441\u044f \u0434\u0435\u043b\u0435\u0433\u0438\u0440\u043e\u0432\u0430\u0442\u044c<\/span>"},"content":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/09c\/682\/488\/09c6824888e54d62a5ceb1b6235b09d2.jpg\" width=\"1280\" height=\"787\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/09c\/682\/488\/09c6824888e54d62a5ceb1b6235b09d2.jpg 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/09c\/682\/488\/09c6824888e54d62a5ceb1b6235b09d2.jpg 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u041f\u0440\u0438\u0432\u0435\u0442, \u0447\u0435\u043c\u043f\u0438\u043e\u043d\u044b!  <\/p>\n<p>    \u041f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u044c\u0442\u0435, \u0447\u0442\u043e \u0443 \u0432\u0430\u0441 \u0435\u0441\u0442\u044c \u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u0438 \u0441\u043b\u043e\u0436\u043d\u044b\u0439 \u043f\u0440\u043e\u0435\u043a\u0442, \u0438 \u0432\u044b \u043d\u0430\u043d\u044f\u043b\u0438 \u0434\u0432\u0443\u0445 \u0443\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0446\u0435\u0432: \u041a\u0430\u0431\u0430\u043d-\u041a\u0430\u0431\u0430\u043d\u044b\u0447\u0430 \u0438 \u0420\u0443\u043a\u043e\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u0435\u0432\u0430. \u0412\u044b \u0434\u0430\u0435\u0442\u0435 \u0438\u043c \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u0443\u044e \u0437\u0430\u0434\u0430\u0447\u0443: \u043d\u0430\u0431\u0440\u0430\u0442\u044c \u0448\u0442\u0430\u0442 \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u043e\u0432 \u0438 \u0432\u044b\u043f\u043e\u043b\u043d\u0438\u0442\u044c \u0432\u0430\u0448 \u043f\u0440\u043e\u0435\u043a\u0442. \u0412\u0441\u044f \u043f\u0440\u0438\u0431\u044b\u043b\u044c \u0432\u043c\u0435\u0441\u0442\u0435 \u0441 \u043d\u0430\u0447\u0430\u043b\u044c\u043d\u044b\u043c \u0431\u044e\u0434\u0436\u0435\u0442\u043e\u043c \u043e\u0441\u0442\u0430\u043d\u0435\u0442\u0441\u044f \u0443 \u043d\u0438\u0445.<\/p>\n<p>    \u041a\u0430\u0431\u0430\u043d-\u041a\u0430\u0431\u0430\u043d\u044b\u0447 \u0440\u0435\u0448\u0438\u043b, \u0447\u0442\u043e \u043d\u0435\u0442 \u0441\u043c\u044b\u0441\u043b\u0430 \u043f\u043b\u0430\u0442\u0438\u0442\u044c \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u043c \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u0438\u0441\u0442\u0430\u043c \u043f\u043e DevOps, backend, ML \u0438 \u0434\u0440\u0443\u0433\u0438\u043c \u043d\u0430\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u044f\u043c, \u0438 \u043d\u0430\u043d\u044f\u043b \u0432\u0441\u0435\u0433\u043e \u043e\u0434\u043d\u043e\u0433\u043e \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u0430 \u0437\u0430 80 \u043c\u043e\u043d\u0435\u0442\u043e\u043a. \u042d\u0442\u043e\u0442 \u0431\u0435\u0434\u043d\u044f\u0433\u0430 \u0440\u0430\u0431\u043e\u0442\u0430\u043b \u0432 \u0441\u0442\u0438\u043b\u0435 \u00ab\u043e\u0434\u0438\u043d \u0437\u0430 \u0432\u0441\u0435\u0445\u00bb \u0438, \u0435\u0441\u0442\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e, \u0431\u044b\u0441\u0442\u0440\u043e \u0432\u044b\u0433\u043e\u0440\u0435\u043b \u0438 \u00ab\u0443\u043c\u0435\u0440\u00bb. \u041a\u0430\u0431\u0430\u043d-\u041a\u0430\u0431\u0430\u043d\u044b\u0447, \u043d\u0435 \u0434\u043e\u043b\u0433\u043e \u0434\u0443\u043c\u0430\u044f, \u043d\u0430\u043d\u044f\u043b \u0435\u0449\u0435 \u043e\u0434\u043d\u043e\u0433\u043e \u0442\u0430\u043a\u043e\u0433\u043e \u0436\u0435 \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u0430. \u0412 \u0438\u0442\u043e\u0433\u0435 \u0432\u044b \u0432\u0435\u0440\u043d\u0443\u043b\u0438\u0441\u044c \u0438 \u0443\u0432\u0438\u0434\u0435\u043b\u0438 \u043f\u0435\u0447\u0430\u043b\u044c\u043d\u0443\u044e \u043a\u0430\u0440\u0442\u0438\u043d\u0443: \u0437\u0430\u0434\u0430\u0447\u0443 \u043d\u0438\u043a\u0442\u043e \u043d\u0435 \u0440\u0435\u0448\u0438\u043b, \u043e\u0441\u0442\u0430\u043b\u0441\u044f \u043b\u0438\u0448\u044c \u041a\u0430\u0431\u0430\u043d-\u041a\u0430\u0431\u0430\u043d\u044b\u0447 \u0438 \u043a\u043b\u0430\u0434\u0431\u0438\u0449\u0435 \u043d\u0435\u0441\u0447\u0430\u0441\u0442\u043d\u044b\u0445 \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u043e\u0432.<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/d74\/7b9\/524\/d747b952459f9909c8f684df72a54d24.png\" width=\"594\" height=\"574\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/d74\/7b9\/524\/d747b952459f9909c8f684df72a54d24.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/d74\/7b9\/524\/d747b952459f9909c8f684df72a54d24.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>    \u0410 \u0432\u043e\u0442 \u0420\u0443\u043a\u043e\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u0435\u0432 \u043f\u043e\u0441\u0442\u0443\u043f\u0438\u043b \u0438\u043d\u0430\u0447\u0435: \u043e\u043d \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0438\u043b \u0431\u044e\u0434\u0436\u0435\u0442 \u043d\u0430 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u043f\u043e\u0445\u043e\u0436\u0438\u0445 \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u043e\u0432, \u043d\u043e \u0441\u043d\u0430\u0447\u0430\u043b\u0430 \u043d\u0435 \u043f\u043e\u043d\u0438\u043c\u0430\u043b, \u043a\u0442\u043e \u0438\u0437 \u043d\u0438\u0445 \u0432 \u0447\u0451\u043c \u043b\u0443\u0447\u0448\u0435. \u0422\u043e\u0433\u0434\u0430 \u043e\u043d \u0441\u0442\u0430\u043b \u0434\u0430\u0432\u0430\u0442\u044c \u0438\u043c \u043d\u0435\u0431\u043e\u043b\u044c\u0448\u0438\u0435 \u0437\u0430\u0434\u0430\u0447\u0438 \u0438 \u0432\u043d\u0438\u043c\u0430\u0442\u0435\u043b\u044c\u043d\u043e \u043d\u0430\u0431\u043b\u044e\u0434\u0430\u0442\u044c \u0437\u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0430\u043c\u0438. \u0427\u0435\u0440\u0435\u0437 \u043d\u0435\u043a\u043e\u0442\u043e\u0440\u043e\u0435 \u0432\u0440\u0435\u043c\u044f \u043e\u043d \u043f\u043e\u043d\u044f\u043b, \u0447\u0442\u043e \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a \u21161 \u043d\u0430 70% \u043b\u0443\u0447\u0448\u0435 \u0441\u043f\u0440\u0430\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0441 \u0437\u0430\u0434\u0430\u0447\u0430\u043c\u0438 \u043f\u043e ML, \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a \u21162 \u043d\u0430 80% \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u0435\u0435 \u0432 backend-\u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u043a\u0435 \u0438 \u0442\u0430\u043a \u0434\u0430\u043b\u0435\u0435. \u0422\u0430\u043a \u0420\u0443\u043a\u043e\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u0435\u0432 \u043f\u043e\u0441\u0442\u0435\u043f\u0435\u043d\u043d\u043e \u0441\u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u043b \u043a\u043e\u043c\u0430\u043d\u0434\u0443 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432, \u0441\u0430\u043c \u0441\u0442\u0430\u0432 \u0443\u043f\u0440\u0430\u0432\u043b\u044f\u044e\u0449\u0438\u043c (\u0438\u043b\u0438 &#171;gating&#187;-\u0443\u0437\u043b\u043e\u043c), \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u0435\u0442 \u0437\u0430\u0434\u0430\u0447\u0438 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u0437\u043d\u0430\u043d\u0438\u0439 \u043e \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u044f\u0445 \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u0430. \u0421\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u0438 \u0443\u0433\u043b\u0443\u0431\u043b\u044f\u043b\u0438 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0438\u0437\u0443 \u0432 \u0441\u0432\u043e\u0438\u0445 \u043d\u0430\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u044f\u0445, \u0430 \u0420\u0443\u043a\u043e\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u0435\u0432 \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u043b\u0441\u044f \u0432\u0441\u0451 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u0435\u0435 \u0432 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0438 \u0437\u0430\u0434\u0430\u0447.<\/p>\n<p>\u0412\u043d\u0435\u0437\u0430\u043f\u043d\u043e \u043c\u044b \u043f\u0440\u0438\u0448\u043b\u0438 \u043a \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u043e\u043c\u0443 \u0440\u0435\u0448\u0435\u043d\u0438\u044e:<\/p>\n<ul>\n<li>\n<p>\u0420\u0443\u043a\u043e\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u0435\u0432 \u2014 \u044d\u0442\u043e <code>gating network<\/code>, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u0435\u0442 \u0437\u0430\u0434\u0430\u0447\u0438, \u0438\u0441\u0445\u043e\u0434\u044f \u0438\u0437 \u043f\u0440\u0435\u0434\u044b\u0434\u0443\u0449\u0438\u0445 \u0443\u0441\u043f\u0435\u0445\u043e\u0432 \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u043e\u0432.<\/p>\n<\/li>\n<li>\n<p>\u0421\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u0438 \u2014 \u044d\u0442\u043e <code>local experts<\/code>, \u043a\u0430\u0436\u0434\u044b\u0439 \u0438\u0437 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u0438\u0437\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u043d\u0430 \u0441\u0432\u043e\u0435\u0439 \u0447\u0430\u0441\u0442\u0438 \u0437\u0430\u0434\u0430\u0447.<\/p>\n<\/li>\n<\/ul>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/aeb\/656\/131\/aeb65613170b9897db5938ffb50b8389.png\" width=\"781\" height=\"470\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/aeb\/656\/131\/aeb65613170b9897db5938ffb50b8389.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/aeb\/656\/131\/aeb65613170b9897db5938ffb50b8389.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>    \u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u043c\u044b \u044d\u043a\u043e\u043d\u043e\u043c\u0438\u043c \u0440\u0435\u0441\u0443\u0440\u0441\u044b, \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0441\u0438\u043b\u044c\u043d\u044b\u0445 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u0438\u0441\u0442\u043e\u0432 \u0438 \u0434\u043e\u0441\u0442\u0438\u0433\u0430\u0435\u043c \u043e\u0442\u043b\u0438\u0447\u043d\u044b\u0445 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u0432 \u0437\u0430 \u043a\u043e\u0440\u043e\u0442\u043a\u043e\u0435 \u0432\u0440\u0435\u043c\u044f.<\/p>\n<p>\u0418\u043c\u0435\u043d\u043d\u043e \u0442\u0430\u043a \u0432 1991 \u0433\u043e\u0434\u0443 \u0438 \u043f\u043e\u044f\u0432\u0438\u043b\u043e\u0441\u044c \u0440\u0435\u0448\u0435\u043d\u0438\u0435 <a href=\"https:\/\/www.cs.toronto.edu\/~hinton\/absps\/jjnh91.pdf\">Adaptive Mixtures of local Experts<\/a><\/p>\n<p>\u042d\u0442\u043e\u0442 \u043f\u043e\u0434\u0445\u043e\u0434 \u0434\u043e\u043a\u0430\u0437\u0430\u043b \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u044c, \u0441\u043e\u043a\u0440\u0430\u0449\u0430\u044f \u0432\u0440\u0435\u043c\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u043f\u043e\u0447\u0442\u0438 \u0432\u0434\u0432\u043e\u0435.<\/p>\n<h3>\u041a\u0430\u043a \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 MoE?   <\/h3>\n<p>    \u041f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u044c\u0442\u0435 \u043c\u043e\u0434\u0435\u043b\u044c, \u0443 \u043a\u043e\u0442\u043e\u0440\u043e\u0439 \u0435\u0441\u0442\u044c \u0432\u0445\u043e\u0434\u043d\u044b\u0435 \u0438 \u0432\u044b\u0445\u043e\u0434\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435, \u0430 \u043c\u0435\u0436\u0434\u0443 \u043d\u0438\u043c\u0438 \u043d\u0430\u0431\u043e\u0440 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432. \u042d\u0442\u0438\u0445 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432 \u043e\u0440\u0433\u0430\u043d\u0438\u0437\u0443\u0435\u0442 \u0443\u043f\u0440\u0430\u0432\u043b\u044f\u044e\u0449\u0430\u044f \u0441\u0435\u0442\u044c (<code>gating network<\/code>), \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u044e\u0449\u0430\u044f, \u043a\u0430\u043a\u0438\u0435 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u044b \u043c\u043e\u0433\u0443\u0442 \u043b\u0443\u0447\u0448\u0435 \u0441\u043f\u0440\u0430\u0432\u0438\u0442\u044c\u0441\u044f \u0441 \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u043e\u0439 \u0437\u0430\u0434\u0430\u0447\u0435\u0439. Gating-\u0441\u0435\u0442\u044c, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043f\u0440\u0438\u0441\u0432\u0430\u0438\u0432\u0430\u0435\u0442 \u0432\u0435\u0441\u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0443 \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430, \u043e\u0431\u044a\u0435\u0434\u0438\u043d\u044f\u044f \u0438\u0445 \u0432 \u0438\u0442\u043e\u0433\u043e\u0432\u044b\u0439 \u043e\u0442\u0432\u0435\u0442.<\/p>\n<p>    \u0417\u0432\u0443\u0447\u0438\u0442 \u043a\u0440\u0430\u0441\u0438\u0432\u043e, \u043d\u043e \u043d\u0435 \u0432\u0441\u0451 \u0442\u0430\u043a \u043f\u0440\u043e\u0441\u0442\u043e&#8230; \u0412\u043e \u0432\u0440\u0435\u043c\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0432\u043e\u0437\u043d\u0438\u043a\u0430\u044e\u0442 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u044b\u0435 \u0438 \u0434\u0430\u0436\u0435 \u00ab\u043b\u043e\u043c\u0430\u044e\u0449\u0438\u0435 \u043c\u043e\u0437\u0433\u00bb \u0441\u0438\u0442\u0443\u0430\u0446\u0438\u0438, \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u043a\u043e\u0433\u0434\u0430 \u043e\u0441\u043e\u0437\u043d\u0430\u0451\u0448\u044c, \u0447\u0442\u043e \u0441\u043e\u0437\u0434\u0430\u043d\u043d\u0430\u044f \u0442\u043e\u0431\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u044c \u043c\u043e\u0436\u0435\u0442 \u00ab\u0432\u044b\u043d\u0435\u0441\u0442\u0438\u00bb \u0442\u0435\u0431\u044f \u0441\u0430\u043c\u043e\u0433\u043e.<\/p>\n<p>    Conditional Computation \u043e\u0434\u043d\u0430 \u0438\u0437 \u0444\u0438\u0448\u0435\u043a MoE: \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u044c \u043e\u0442\u043a\u043b\u044e\u0447\u0430\u0442\u044c \u0438\u043b\u0438 \u0447\u0430\u0441\u0442\u0438\u0447\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432. \u042d\u0442\u043e \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u043a\u043e\u043c\u0431\u0438\u043d\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0440\u0430\u0437\u043d\u044b\u0435 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u044b, \u043a\u0430\u0436\u0434\u0430\u044f \u0438\u0437 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u0432\u044b\u044f\u0432\u043b\u044f\u0435\u0442 \u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u044b \u0432 \u0434\u0430\u043d\u043d\u044b\u0445. \u041c\u043e\u0434\u0435\u043b\u044c \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u0441\u044f \u0433\u0438\u0431\u043a\u043e\u0439: \u0441\u0430\u043c\u0430 \u0440\u0435\u0448\u0430\u0435\u0442, \u043a\u0430\u043a\u0438\u0445 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432 \u0437\u0430\u0434\u0435\u0439\u0441\u0442\u0432\u043e\u0432\u0430\u0442\u044c \u0430\u043a\u0442\u0438\u0432\u043d\u043e, \u043a\u043e\u0433\u043e \u0438\u0433\u043d\u043e\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c, \u0430 \u043a\u043e\u0433\u043e \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0438\u0442\u044c \u0447\u0443\u0442\u044c-\u0447\u0443\u0442\u044c.<\/p>\n<p>    \u041a\u043b\u044e\u0447\u0435\u0432\u0430\u044f \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e\u0441\u0442\u044c \u2014 \u0440\u0430\u0437\u0440\u0435\u0436\u0435\u043d\u043d\u043e\u0441\u0442\u044c. \u0421 \u043f\u043e\u043c\u043e\u0449\u044c\u044e MoE \u043c\u043e\u0436\u043d\u043e \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u044c \u0431\u0435\u0437 \u043f\u0440\u043e\u043f\u043e\u0440\u0446\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u043e\u0433\u043e \u0443\u0432\u0435\u043b\u0438\u0447\u0435\u043d\u0438\u044f \u0432\u044b\u0447\u0438\u0441\u043b\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0439 \u043d\u0430\u0433\u0440\u0443\u0437\u043a\u0438. \u042d\u0442\u043e \u043e\u0447\u0435\u043d\u044c \u0432\u0430\u0436\u043d\u043e, \u0432\u0435\u0434\u044c \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u043e\u0431\u0443\u0447\u0430\u0442\u044c \u043e\u0433\u0440\u043e\u043c\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432, \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044f \u043f\u0440\u0438 \u044d\u0442\u043e\u043c \u0442\u043e\u043b\u044c\u043a\u043e \u043d\u0443\u0436\u043d\u044b\u0445. \u0412 \u044d\u0442\u043e\u043c \u043d\u0430\u043c \u043f\u043e\u043c\u043e\u0433\u0430\u0435\u0442 \u0432\u0430\u0436\u043d\u044b\u0439 \u0433\u0438\u043f\u0435\u0440\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440 \u2014 <code>top_k<\/code>, \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u044e\u0449\u0438\u0439, \u0441\u043a\u043e\u043b\u044c\u043a\u043e \u043b\u0443\u0447\u0448\u0438\u0445 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432 \u0431\u0443\u0434\u0435\u0442 \u0432\u044b\u0431\u0440\u0430\u043d\u043e \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0432\u0445\u043e\u0434\u0430.<\/p>\n<figure class=\"\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/25f\/d45\/584\/25fd4558426acfc06ae6c592ee0c9333.png\" width=\"459\" height=\"459\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/25f\/d45\/584\/25fd4558426acfc06ae6c592ee0c9333.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/25f\/d45\/584\/25fd4558426acfc06ae6c592ee0c9333.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>    \u041d\u043e \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0435 \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u043d\u0430\u0447\u0438\u043d\u0430\u044e\u0442\u0441\u044f \u0441 \u043d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0438 \u0433\u0438\u043f\u0435\u0440\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u0438 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u043d\u044b\u0445 \u0440\u0435\u0448\u0435\u043d\u0438\u0439. \u0421\u0430\u043c\u0430\u044f \u0431\u043e\u043b\u044c\u0448\u0430\u044f \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0430 MoE \u2014 \u044d\u0442\u043e \u00ab\u043f\u0440\u0438\u043b\u0438\u043f\u0430\u043d\u0438\u0435 \u0433\u0435\u0439\u0442\u0430\u00bb, \u043a\u043e\u0433\u0434\u0430 \u043c\u0430\u0440\u0448\u0440\u0443\u0442\u0438\u0437\u0430\u0442\u043e\u0440 \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442 \u043f\u043e\u0441\u0442\u043e\u044f\u043d\u043d\u043e \u0432\u044b\u0431\u0438\u0440\u0430\u0442\u044c \u043e\u0434\u043d\u0438\u0445 \u0438 \u0442\u0435\u0445 \u0436\u0435 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432. \u042d\u0442\u0438 \u0438\u0437\u0431\u0440\u0430\u043d\u043d\u044b\u0435 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u044b \u043f\u043e\u043b\u0443\u0447\u0430\u044e\u0442 \u0431\u043e\u043b\u044c\u0448\u0435 \u0434\u0430\u043d\u043d\u044b\u0445 \u0438 \u0431\u044b\u0441\u0442\u0440\u0435\u0435 \u043e\u0431\u0443\u0447\u0430\u044e\u0442\u0441\u044f, \u0432 \u0442\u043e \u0432\u0440\u0435\u043c\u044f \u043a\u0430\u043a \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0435 \u00ab\u0441\u043a\u0443\u0447\u0430\u044e\u0442 \u0438 \u043f\u044c\u044e\u0442 \u043a\u043e\u0444\u0435\u00bb.<\/p>\n<p>\u0412\u043e\u0437\u043d\u0438\u043a\u0430\u0435\u0442 \u0437\u0430\u043a\u043e\u043d\u043e\u043c\u0435\u0440\u043d\u044b\u0439 \u0432\u043e\u043f\u0440\u043e\u0441: \u0437\u0430\u0447\u0435\u043c \u0442\u043e\u0433\u0434\u0430 \u0432\u043e\u043e\u0431\u0449\u0435 \u043d\u0443\u0436\u043d\u044b \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0435 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u044b?<\/p>\n<p>    \u041a\u0430\u043a \u0441 \u044d\u0442\u0438\u043c \u0431\u043e\u0440\u043e\u0442\u044c\u0441\u044f? \u0412 \u0441\u0432\u043e\u0451\u043c \u043a\u043e\u0434\u0435 \u044f \u0434\u043e\u0431\u0430\u0432\u0438\u043b \u0442\u0440\u0435\u043a\u0435\u0440 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u044f \u0434\u0430\u043d\u043d\u044b\u0445 \u043f\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430\u043c, \u0447\u0442\u043e\u0431\u044b \u043a\u043e\u043d\u0442\u0440\u043e\u043b\u0438\u0440\u043e\u0432\u0430\u0442\u044c, \u043d\u0435 \u00ab\u0437\u0430\u043b\u0438\u043f\u00bb \u043b\u0438 \u0433\u0435\u0439\u0442. \u0422\u0430\u043a\u0436\u0435 \u044f \u0432\u043d\u0435\u0434\u0440\u0438\u043b \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0445\u0438\u0442\u0440\u044b\u0445 \u0440\u0435\u0448\u0435\u043d\u0438\u0439, \u043f\u043e\u0434\u0441\u043c\u043e\u0442\u0440\u0435\u043d\u043d\u044b\u0445 \u043d\u0430 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0445 \u0444\u043e\u0440\u0443\u043c\u0430\u0445.<\/p>\n<p>\u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u043a\u0440\u0430\u0442\u043a\u043e \u0440\u0435\u0437\u044e\u043c\u0438\u0440\u0443\u0435\u043c:<\/p>\n<p>    \u0422\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u044f MoE \u0432\u044b\u0433\u043e\u0434\u043d\u0430 \u0437\u0430 \u0441\u0447\u0451\u0442 \u0440\u0430\u0437\u0440\u0435\u0436\u0435\u043d\u043d\u043e\u0441\u0442\u0438 \u0438 \u0433\u0438\u0431\u043a\u043e\u0441\u0442\u0438 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u044f \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432. \u041e\u0434\u043d\u0430\u043a\u043e \u044d\u0442\u043e \u00ab\u0441\u0434\u0435\u043b\u043a\u0430 \u0441 \u0434\u044c\u044f\u0432\u043e\u043b\u043e\u043c\u00bb, \u043f\u043e\u0441\u043a\u043e\u043b\u044c\u043a\u0443 \u0432\u043e\u0437\u043d\u0438\u043a\u0430\u044e\u0442 \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438:<\/p>\n<ul>\n<li>\n<p>\u0421\u043b\u043e\u0436\u043d\u0430\u044f \u0431\u0430\u043b\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u043a\u0430 \u0440\u0430\u0431\u043e\u0442\u044b \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432.<\/p>\n<\/li>\n<li>\n<p>\u0424\u0443\u043d\u043a\u0446\u0438\u044f \u043f\u043e\u0442\u0435\u0440\u044c \u0434\u043e\u043b\u0436\u043d\u0430 \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u0442\u044c \u043a\u0430\u043a \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u044c \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432, \u0442\u0430\u043a \u0438 \u043c\u0430\u0440\u0448\u0440\u0443\u0442\u0438\u0437\u0430\u0442\u043e\u0440\u0430.<\/p>\n<\/li>\n<li>\n<p>\u041a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0433\u0438\u043f\u0435\u0440\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 (\u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432, \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 gating-\u0441\u0435\u0442\u0438) \u0443\u0441\u043b\u043e\u0436\u043d\u044f\u0435\u0442 \u043d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0443 \u043c\u043e\u0434\u0435\u043b\u0438.<\/p>\n<\/li>\n<\/ul>\n<h3>\u0413\u0434\u0435 \u0441\u0435\u0439\u0447\u0430\u0441 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442 MoE?  <\/h3>\n<p>\u041f\u043e\u0447\u0442\u0438 \u0432\u0441\u0435 \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0435 LLM \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442 MoE. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u043d\u0435\u0434\u0430\u0432\u043d\u043e \u0432\u044b\u0448\u0435\u0434\u0448\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c <a href=\"https:\/\/t.me\/datafeeling\/1291\">Llama4 Scout \u0441 16x17B <\/a>\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u043c\u0438 \u2014 \u044d\u0442\u043e 16 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432 \u043f\u043e 17 \u043c\u0438\u043b\u043b\u0438\u0430\u0440\u0434\u043e\u0432 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u043a\u0430\u0436\u0434\u044b\u0439. \u0422\u043e \u0435\u0441\u0442\u044c \u043d\u0430 \u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441\u0435 \u0432\u044b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0435 \u043d\u0435 \u0432\u0441\u0435 272 \u043c\u043b\u0440\u0434 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432, \u0430 \u0442\u043e\u043b\u044c\u043a\u043e top_k \u0432\u044b\u0431\u0440\u0430\u043d\u043d\u044b\u0445. \u0412\u043f\u0435\u0447\u0430\u0442\u043b\u044f\u044e\u0449\u0435\u0435 \u0441\u043d\u0438\u0436\u0435\u043d\u0438\u0435 \u0432\u044b\u0447\u0438\u0441\u043b\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0445 \u0437\u0430\u0442\u0440\u0430\u0442, \u043f\u0440\u0430\u0432\u0434\u0430?<\/p>\n<p>\u0422\u0430\u043a\u0436\u0435 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u044f \u0430\u043a\u0442\u0438\u0432\u043d\u043e \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0435\u0442\u0441\u044f \u0432 \u043a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440\u043d\u043e\u043c \u0437\u0440\u0435\u043d\u0438\u0438, \u0438 \u0441\u0435\u0439\u0447\u0430\u0441 \u043c\u044b \u0435\u0451 \u043f\u0440\u043e\u0442\u0435\u0441\u0442\u0438\u0440\u0443\u0435\u043c \u043d\u0430 \u043f\u0440\u043e\u0441\u0442\u043e\u043c \u043f\u0440\u0438\u043c\u0435\u0440\u0435 <a href=\"https:\/\/research.google\/blog\/scaling-vision-with-sparse-mixture-of-experts\/\">V-MoEs<\/a>.<\/p>\n<h3>\u0422\u0435\u0441\u0442 \u0434\u0440\u0430\u0439\u0432 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0438  <\/h3>\n<p>    \u0418\u0442\u0430\u043a, \u0434\u043b\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0432\u043e\u0437\u044c\u043c\u0435\u043c \u043f\u0440\u043e\u0441\u0442\u0435\u043d\u044c\u043a\u0438\u0439 \u0434\u0430\u0442\u0430\u0441\u0435\u0442 <a href=\"https:\/\/paperswithcode.com\/dataset\/cifar-100\">CIFAR100<\/a> \u0438 \u043e\u0431\u0443\u0447\u0438\u043c \u043d\u0430 \u043d\u0435\u043c \u043d\u0430\u0448\u0443 \u043a\u0430\u0441\u0442\u043e\u043c\u043d\u0443\u044e V-MoEs \u0434\u043b\u044f \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438 \u0438\u0437\u043e\u0431\u0440\u0430\u0436\u0435\u043d\u0438\u0439.<\/p>\n<p>\u0421\u0430\u043c\u0430 \u043f\u043e \u0441\u0435\u0431\u0435 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u0431\u0443\u0434\u0435\u0442 \u0441\u043e\u0441\u0442\u043e\u044f\u0442\u044c \u0438\u0437 \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0435\u0433\u043e:<\/p>\n<p>\u041a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0438\u0439 VIT, \u043d\u043e \u0435\u0435 \u0447\u0430\u0441\u0442\u044c \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0442\u043e\u0440\u0430 \u043c\u044b \u043e\u0431\u0435\u0440\u043d\u0435\u043c \u0432 decoder \u0431\u043b\u043e\u043a, \u0433\u0434\u0435 \u0443 \u043d\u0430\u0441 \u0431\u0443\u0434\u0435\u0442 \u043f\u0440\u0438\u043c\u0435\u043d\u0435\u043d\u0430 MOE <\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/8df\/1f7\/915\/8df1f791516ffd6fc1ba730506209906.png\" width=\"788\" height=\"212\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/8df\/1f7\/915\/8df1f791516ffd6fc1ba730506209906.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/8df\/1f7\/915\/8df1f791516ffd6fc1ba730506209906.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u041d\u0430\u0447\u043d\u0435\u043c \u0441 \u043c\u0430\u0440\u0448\u0440\u0443\u0442\u0438\u0437\u0430\u0442\u043e\u0440\u0430, \u0432 \u043d\u0430\u0448\u0435\u043c \u0441\u043b\u0443\u0447\u0430\u0435 \u043e\u043d \u0431\u044b\u043b \u0440\u0435\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u043d \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c<\/p>\n<pre><code class=\"python\">import torch import torch.nn as nn import torch.nn.functional as F  class GatingNetwork(nn.Module):     def __init__(self,                  input_dim = 151296,                  num_experts=4,                  top_k=2,                  use_noise=True,                  noise_std=1e-2,                  temperature=1.0):         super().__init__()          self.num_experts = num_experts         self.top_k = top_k         self.use_noise = use_noise         self.noise_std = noise_std         self.temperature = temperature          self.gate = nn.Sequential(             nn.Linear(input_dim, 512),             nn.ReLU(),             nn.Dropout(0.2),             nn.Linear(512, 256),             nn.ReLU(),             nn.Dropout(0.2),             nn.Linear(256, num_experts)         )      def forward(self, x):         logits = self.gate(x)  # (B, num_experts)          if self.use_noise and self.training:             scale = logits.std(dim=1, keepdim=True).clamp(min=1e-3)               noise = torch.randn_like(logits) * self.noise_std * scale             logits = logits + noise          topk_vals, topk_indices = torch.topk(logits, self.top_k, dim=1)          gates = F.softmax(topk_vals \/ self.temperature, dim=1)  # (B, top_k)          return topk_indices, gates <\/code><\/pre>\n<p>    \u041e\u043d \u0431\u0435\u0440\u0451\u0442 \u0432\u0445\u043e\u0434\u043d\u043e\u0439 \u0432\u0435\u043a\u0442\u043e\u0440 <code>x<\/code>, <strong>\u043e\u0446\u0435\u043d\u0438\u0432\u0430\u0435\u0442, \u043a\u0430\u043a\u0438\u0435 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u044b \u0438\u0437 <\/strong><code><strong>num_experts<\/strong><\/code><strong> \u043b\u0443\u0447\u0448\u0435 \u043f\u043e\u0434\u043e\u0439\u0434\u0443\u0442<\/strong> \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u043f\u0440\u0438\u043c\u0435\u0440\u0430 \u0432 \u0431\u0430\u0442\u0447\u0435, \u0438 <strong>\u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 <\/strong><code><strong>top_k<\/strong><\/code><strong> \u043b\u0443\u0447\u0448\u0438\u0445 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432 \u0441 \u0438\u0445 \u0432\u0435\u0441\u0430\u043c\u0438<\/strong>.<\/p>\n<p>\u0422\u043e \u0435\u0441\u0442\u044c \u044d\u0442\u043e \u2014 \u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0430\u044f <strong>Gating Network<\/strong>, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0440\u0435\u0448\u0430\u0435\u0442, <strong>\u043a\u0430\u043a\u0438\u043c \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430\u043c \u0434\u0430\u0442\u044c \u043f\u043e\u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u0441 \u0432\u0445\u043e\u0434\u043e\u043c<\/strong>.<\/p>\n<p>    \u041e\u0431\u0440\u0430\u0442\u0438\u0442\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435, \u0447\u0442\u043e \u0442\u0443\u0442 \u0435\u0441\u0442\u044c <strong>noisy gating<\/strong> \u2014 \u044d\u0442\u043e \u043e\u0434\u0438\u043d \u0438\u0437 \u0441\u043f\u043e\u0441\u043e\u0431\u043e\u0432 <strong>\u0438\u0437\u0431\u0435\u0436\u0430\u0442\u044c &#171;\u0437\u0430\u043b\u0438\u043f\u0430\u043d\u0438\u044f \u0433\u0435\u0439\u0442\u0430&#187;<\/strong> \u043d\u0430 \u043e\u0434\u043d\u043e\u043c \u0438 \u0442\u043e\u043c \u0436\u0435 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0435.  \u0412\u043e \u0432\u0440\u0435\u043c\u044f \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043a\u0438 \u0448\u0443\u043c \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u0438 \u0432 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438 \u043e\u0442 \u043f\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u043d\u043e\u0439 \u043d\u0430\u043c\u0438 \u043f\u0440\u043e\u043f\u043e\u0440\u0446\u0438\u0438 \u0432\u043b\u0438\u044f\u0435\u0442 \u043d\u0430 \u0440\u0435\u0448\u0435\u043d\u0438\u0435 \u043e \u0442\u043e\u043c \u043a\u0430\u043a\u043e\u0433\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430 \u043f\u043e\u0432\u044b\u0431\u0438\u0440\u0430\u0442\u044c. \u0418\u043d\u044b\u043c\u0438 \u0441\u043b\u043e\u0432\u0430\u043c\u0438 \u043c\u044b \u0432\u043b\u0438\u044f\u0435\u043c \u043d\u0430 &#171;\u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u0432\u0430&#187;, \u0447\u0442\u043e\u0431\u044b \u043e\u043d \u0434\u0430\u0432\u0430\u043b \u0448\u0430\u043d\u0441\u044b \u0431\u043e\u043b\u044c\u0448\u0435\u043c\u0443 \u0447\u0438\u0441\u043b\u0443 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432, \u0430 \u043d\u0435 \u0432\u044b\u0431\u0438\u0440\u0430\u043b \u043b\u044e\u0431\u0438\u043c\u0447\u0438\u043a\u043e\u0432.<\/p>\n<h3>\u0421\u043e\u0437\u0434\u0430\u0434\u0438\u043c \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432<\/h3>\n<pre><code class=\"python\">import torch.nn as nn   class FFNExpert(nn.Module):     def __init__(self, input_dim, hidden_dims, output_dim, dropout_prob=0.5):         super(FFNExpert, self).__init__()          layers = []         self.linears = nn.ModuleList()          prev_dim = input_dim         for hidden_dim in hidden_dims:             linear = nn.Linear(prev_dim, hidden_dim)             self.linears.append(linear)             layers.append(linear)             layers.append(nn.LayerNorm(hidden_dim))             layers.append(nn.ReLU())             layers.append(nn.Dropout(dropout_prob))             prev_dim = hidden_dim          final_linear = nn.Linear(prev_dim, output_dim)         self.linears.append(final_linear)         layers.append(final_linear)          self.network = nn.Sequential(*layers)         self._initialize_weights()      def _initialize_weights(self):         for linear in self.linears:             nn.init.xavier_uniform_(linear.weight)             if linear.bias is not None:                 nn.init.zeros_(linear.bias)      def forward(self, x):         return self.network(x)   class FFNExpertSmall(FFNExpert):     def __init__(self, input_dim, output_dim):         super(FFNExpertSmall, self).__init__(input_dim, hidden_dims=[256, 128], output_dim=output_dim, dropout_prob=0.3)   class FFNExpertMedium(FFNExpert):     def __init__(self, input_dim, output_dim):         super(FFNExpertMedium, self).__init__(input_dim, hidden_dims=[512, 256, 128], output_dim=output_dim,                                               dropout_prob=0.4)   class FFNExpertLarge(FFNExpert):     def __init__(self, input_dim, output_dim):         super(FFNExpertLarge, self).__init__(input_dim, hidden_dims=[1024, 512, 256, 128], output_dim=output_dim,                                              dropout_prob=0.5)   class FFNExpertVeryLarge(FFNExpert):     def __init__(self, input_dim, output_dim):         super(FFNExpertVeryLarge, self).__init__(input_dim, hidden_dims=[2048, 1024, 512, 256, 128],                                                  output_dim=output_dim, dropout_prob=0.6) <\/code><\/pre>\n<p>\u0422\u0443\u0442 \u0432 \u0446\u0435\u043b\u043e\u043c \u0432\u0441\u0435 \u043f\u0440\u043e\u0441\u0442\u043e, \u043c\u044b \u043d\u0430\u0431\u0440\u043e\u0441\u0430\u043b\u0438 4 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430 \u0441 \u0440\u0430\u0437\u043d\u044b\u043c\u0438 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u043c\u0438 \u0438 \u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u0442\u043e \u043a\u0430\u043a \u043e\u043d\u0438 \u0431\u0443\u0434\u0443\u0442 \u043e\u0431\u0443\u0447\u0430\u0442\u044c\u0441\u044f.<\/p>\n<h3>\u041d\u0430\u0447\u043d\u0435\u043c \u0441\u043e\u0431\u0438\u0440\u0430\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u044c<\/h3>\n<pre><code class=\"python\">import torch.nn as nn import timm  class ViT_backbone(nn.Module):     def __init__(self):         super().__init__()         self.backbone = timm.create_model('vit_base_patch16_224',                                           pretrained=True)          for param in self.backbone.parameters():             param.requires_grad = False          self.embed_dim = self.backbone.head.in_features          self.backbone.reset_classifier(0)          self.ln = nn.LayerNorm(self.embed_dim)         self.ln2 = nn.LayerNorm(self.embed_dim)         self.attn = nn.MultiheadAttention(embed_dim=self.embed_dim,                                           num_heads=8,                                           batch_first=True)      def forward(self, x):         skip = self.backbone.forward_features(x)  # [B, N, D]         x_ln = self.ln(skip)         attn_out, _ = self.attn(x_ln, x_ln, x_ln)         x_attn = attn_out + skip         x_final = self.ln2(x_attn).flatten(1)  # [B, N*D]         return x_final<\/code><\/pre>\n<p>\u0422\u0443\u0442 \u0432\u0441\u0435 \u043f\u0440\u043e\u0441\u0442\u043e \u0432\u043e\u0437\u044c\u043c\u0435\u043c \u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0443\u044e \u043c\u043e\u0434\u0435\u043b\u044c VIT \u0438 \u0434\u043e\u0431\u0430\u0432\u0438\u043c \u043a \u043d\u0435\u0439 \u0441\u043b\u043e\u0438 \u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u0438 \u043f\u043e\u0441\u043b\u0435 Multihead Attention  \u0438 skip connection.<\/p>\n<p>\u041f\u043e\u0441\u043b\u0435 \u0441\u0434\u0435\u043b\u0430\u0435\u043c \u043d\u0430\u0448\u0435 \u043e\u0431\u044a\u0435\u0434\u0438\u043d\u0435\u043d\u0438\u0435 \u0438 \u043d\u0430\u043a\u043e\u043d\u0435\u0446-\u0442\u043e MOE <\/p>\n<pre><code class=\"python\">import torch import torch.nn as nn import torch.nn.functional as F from model.gating_network import GatingNetwork from model.Vit_model import ViT_backbone  class MoECNN(nn.Module):     def __init__(self,                  experts,                  input_for_gating = 151296,                  top_k=2,                  output_dim=100,                  use_aux_loss=True,                  aux_loss_weight=0.01,                  warmup_iters=500,                  noise_std = 0.5):         super().__init__()         self.num_experts = len(experts)         self.top_k = top_k         self.output_dim = output_dim         self.use_aux_loss = use_aux_loss         self.aux_loss_weight = aux_loss_weight         self.warmup_iters = warmup_iters         self.iter = 0          self.backbone = ViT_backbone()         self.experts = nn.ModuleList(experts)         self.gating = GatingNetwork( input_dim = input_for_gating,                                      num_experts=self.num_experts,                                      top_k = top_k,                                      noise_std=noise_std)          self.register_buffer(\"expert_usage\",                              torch.zeros(self.num_experts))      def forward(self, x):         batch_size = x.size(0)         device = x.device         x = self.backbone(x)          if self.training and self.iter &lt; self.warmup_iters:             random_indices = torch.randint(0,                                            self.num_experts,                                            (batch_size, self.top_k),                                            device=device)             gates = torch.full((batch_size, self.top_k),                                1.0 \/ self.top_k,                                device=device)             topk_indices = random_indices             self.iter += 1         else:             topk_indices, gates = self.gating(x)          output = torch.zeros(batch_size, self.output_dim, device=device)         self.expert_usage.zero_()          for i in range(self.top_k):             idx = topk_indices[:, i]             for expert_idx in torch.unique(idx):                 expert_mask = (idx == expert_idx)                 if expert_mask.sum() == 0:                     continue                 x_sel = x[expert_mask]                 y_sel = self.experts[expert_idx](x_sel)                 gate_weight = gates[expert_mask, i].unsqueeze(1)                 output[expert_mask] += gate_weight * y_sel                  self.expert_usage[expert_idx] += expert_mask.sum()          aux_loss = None         if self.use_aux_loss and self.training:             usage = self.expert_usage \/ batch_size             aux_loss = ((usage - usage.mean()) ** 2).mean() * self.aux_loss_weight          return output, aux_loss <\/code><\/pre>\n<p>    \u041f\u0435\u0440\u0432\u043e\u0435 \u043d\u0430 \u0447\u0442\u043e \u043e\u0431\u0440\u0430\u0442\u0438\u043c \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u044d\u0442\u043e  \u044d\u0442\u043e <code>warmup_iters<\/code>. \u0422\u0443\u0442 \u0443 \u043d\u0430\u0441 \u044d\u0442\u043e \u0447\u0438\u0441\u043b\u043e \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u0439 \u0433\u0434\u0435 \u043c\u044b \u043a\u0430\u043a-\u0431\u044b \u043e\u0442\u043a\u043b\u044e\u0447\u0430\u0435\u043c gating-\u0441\u0435\u0442\u044c , \u0447\u0442\u043e\u0431\u044b \u0438\u0437\u0431\u0435\u0436\u0430\u0442\u044c \u043a\u043e\u043b\u043b\u0430\u043f\u0441\u0430 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u044f (\u043e\u0434\u0438\u043d \u044d\u043a\u0441\u043f\u0435\u0440\u0442 \u0432\u044b\u0431\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u0447\u0430\u0449\u0435 \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0445 \u0434\u043e \u0442\u043e\u0433\u043e, \u043a\u0430\u043a \u0441\u0435\u0442\u044c \u043e\u0431\u0443\u0447\u0438\u0442\u0441\u044f \u0440\u0430\u0437\u0443\u043c\u043d\u043e \u043c\u0430\u0440\u0448\u0440\u0443\u0442\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432\u0445\u043e\u0434\u044b).  \u042d\u0442\u043e \u0434\u0430\u0435\u0442 \u043d\u0430\u043c &#171;\u0440\u0430\u0437\u043e\u0433\u0440\u0435\u0442\u044c&#187; \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432 \u043f\u0435\u0440\u0435\u0434\u0430\u0432\u0430\u044f \u0438\u043c \u0440\u0430\u0432\u043d\u043e\u043c\u0435\u0440\u043d\u043e \u0434\u0430\u043d\u043d\u044b\u0435 \u0438 \u0434\u0430\u043b\u0435\u0435 \u043c\u044b \u0443\u0436\u0435 \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u043c \u0431\u043e\u043b\u0435\u0435 \u0442\u043e\u043d\u043a\u043e \u0438\u0437\u0431\u0438\u0440\u0430\u0442\u044c \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432 \u0437\u0430 \u0441\u0447\u0435\u0442 gating network.<\/p>\n<p>\u0412\u0442\u043e\u0440\u043e\u0439 \u043c\u043e\u043c\u0435\u043d\u0442 \u044d\u0442\u043e \u0434\u043e\u0431\u0430\u0432\u043b\u0435\u043d\u0438\u0435 <code>use_aux_loss<\/code>. \u0414\u0430\u043d\u043d\u044b\u0439 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440 \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u043d\u0430\u043c \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u0442\u044c \u0432 \u043e\u0431\u0449\u0435\u043c \u043b\u043e\u0441\u0441\u0435 \u043d\u0435\u0440\u0430\u0432\u043d\u043e\u043c\u0435\u0440\u043d\u043e\u0435 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u043f\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430\u043c \u0432 \u043e\u0431\u0449\u0438\u0439 loss.<\/p>\n<p>\u041a\u0430\u043a \u0438\u0442\u043e\u0433 \u043c\u043e\u0434\u0435\u043b\u044c \u0432\u044b\u0431\u0438\u0440\u0430\u0435\u0442 <code>tok_k <\/code>\u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432 \u0438 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u0438\u0445 \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u0438\u0439 \u0434\u0435\u043b\u0430\u0435\u0442 \u0432\u0437\u0432\u0435\u0448\u0435\u043d\u043d\u0443\u044e \u0441\u0443\u043c\u043c\u0443, \u043f\u043e\u0441\u043b\u0435 \u0447\u0435\u0433\u043e \u0432\u044b\u0434\u0430\u0435\u0442 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u0438 loss \u043f\u043e \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u044e.<\/p>\n<h3>\u0427\u0442\u043e \u0432 \u0438\u0442\u043e\u0433\u0435?<\/h3>\n<p>    \u041f\u0440\u0438 \u043f\u0440\u043e\u0441\u0442\u043e\u043c &#171;\u043d\u0430 \u043a\u043e\u043b\u0435\u043d\u043a\u0435&#187; \u043c\u044b \u0441\u043c\u043e\u0433\u043b\u0438 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c f1 \u043d\u0430 \u0442\u0435\u0441\u0442\u0435 89.%. \u0411\u043e\u043b\u0435\u0435 \u044f\u0432\u043d\u043e \u043f\u043e\u0438\u0433\u0440\u0430\u0432 \u0441 \u0433\u0438\u043f\u043f\u0435\u0440\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u043c\u0438, \u0442\u0438\u043f\u0430\u043c\u0438 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432 \u0438 \u043d\u0435\u043a\u043e\u0442\u043e\u0440\u044b\u043c\u0438 \u0438\u0437\u043e\u0449\u0440\u0435\u043d\u043d\u043e\u0441\u0442\u044f\u043c\u0438 \u0434\u0443\u043c\u0430\u044e, \u0447\u0442\u043e \u043c\u043e\u0436\u043d\u043e \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043b\u0443\u0447\u0448\u0435. \u0421\u0430\u043c\u043e\u0435 \u0433\u043b\u0430\u0432\u043d\u043e\u0435, \u0447\u0442\u043e<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/49f\/807\/34b\/49f80734bc4d0d1088b6b197b9b6ad51.png\" width=\"590\" height=\"406\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/49f\/807\/34b\/49f80734bc4d0d1088b6b197b9b6ad51.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/49f\/807\/34b\/49f80734bc4d0d1088b6b197b9b6ad51.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u0442\u0435\u043f\u0435\u0440\u044c \u043f\u0440\u043e\u0432\u0435\u0434\u0435\u043c \u043c\u043e\u0434\u0435\u043b\u044c \u0447\u0435\u0440\u0435\u0437 \u043e\u0434\u0438\u043d \u0431\u0430\u0442\u0447 \u0438 \u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c, \u0447\u0442\u043e \u0442\u0430\u043c \u043d\u0430 \u043e\u0434\u043d\u043e\u043c \u0431\u0430\u0442\u0447\u0435, \u0447\u0442\u043e \u043f\u0440\u043e\u0438\u0437\u043e\u0448\u043b\u043e \u043f\u043e \u0433\u0440\u0430\u0444\u0438\u043a\u0443 \u0438 \u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u043f\u0435\u0440\u0432\u044b\u0435 10 \u0441\u044d\u043c\u043f\u043b\u043e\u0432 \u0431\u0430\u0442\u0447\u0430.<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/010\/873\/685\/0108736851b570f5b0584dfb0f281ddc.png\" width=\"686\" height=\"405\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/010\/873\/685\/0108736851b570f5b0584dfb0f281ddc.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/010\/873\/685\/0108736851b570f5b0584dfb0f281ddc.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u041a\u0430\u043a \u043c\u043e\u0436\u0435\u043c \u0443\u0432\u0438\u0434\u0435\u0442\u044c, \u0443 \u043d\u0430\u0441 2 \u044d\u043a\u0441\u043f\u0435\u0440\u0442 \u043e\u043a\u0430\u0437\u0430\u043b\u0441\u044f \u0432 \u0434\u0430\u043d\u043d\u043e\u0439 \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u0438 \u043d\u0435 \u0432\u043e\u0441\u0442\u0440\u0435\u0431\u043e\u0432\u0430\u043d, \u0430 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043b\u0438 \u043c\u044b \u0441 0,1,3 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430 \u0432 \u0440\u0430\u0437\u043d\u043e\u0439 \u043f\u0440\u043e\u043f\u043e\u0440\u0446\u0438\u0438.<\/p>\n<p>\u041c\u043e\u0436\u043d\u043e \u0441\u043a\u0430\u0437\u0430\u0442\u044c, \u0447\u0442\u043e \u0432\u043e\u0442: &#171;\u0432\u0442\u043e\u0440\u043e\u0439 \u044d\u043a\u0441\u043f\u0435\u0440\u0442 \u043f\u0435\u0440\u0435\u043e\u0431\u0443\u0447\u0438\u043b\u0441\u044f \u0438\u043b\u0438 \u043e\u0431\u0443\u0447\u0438\u043b\u0441\u044f \u043f\u043b\u043e\u0445\u043e&#187;. \u041e\u0434\u043d\u0430\u043a\u043e \u0434\u0430\u0432\u0430\u0439\u0442\u0435 \u0433\u043b\u044f\u043d\u0435\u043c \u0433\u043b\u0443\u0431\u0436\u0435! \u041c\u044b \u0432\u0435\u0434\u044c \u043e\u0442\u0441\u043b\u0435\u0436\u0438\u0432\u0430\u0435\u043c \u0432\u0441\u0435 \u0447\u0435\u0440\u0435\u0437 clearml \ud83d\ude42<\/p>\n<figure class=\"\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/81c\/4d5\/a54\/81c4d5a5427fba624bd2ff524227c8f8.png\" width=\"495\" height=\"362\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/81c\/4d5\/a54\/81c4d5a5427fba624bd2ff524227c8f8.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/81c\/4d5\/a54\/81c4d5a5427fba624bd2ff524227c8f8.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u041d\u0430 \u0442\u0435\u0441\u0442\u043e\u0432\u043e\u043c \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0435 \u0432 \u0441\u0440\u0435\u0434\u043d\u0435\u043c \u043c\u043e\u0436\u043d\u043e \u0437\u0430\u043c\u0435\u0442\u0438\u0442\u044c, \u0447\u0442\u043e \u0432\u0441\u0435 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u044b \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u0432\u044b\u0448\u043b\u0438 \u043d\u0430 \u043a\u0430\u043a\u0443\u044e-\u0442\u043e \u0441\u0432\u043e\u044e \u0437\u043e\u043d\u0443 \u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u0441\u0442\u0438. \u0425\u043e\u0442\u044f \u043a\u043e\u043d\u0435\u0447\u043d\u043e \u043e\u0442 \u043f\u0435\u0440\u0432\u043e\u0433\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430 \u0445\u043e\u0442\u0435\u043b\u043e\u0441\u044c \u043e\u0436\u0438\u0434\u0430\u0442\u044c \u043f\u043e\u0431\u043e\u043b\u044c\u0448\u0435!<\/p>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u0434\u0430\u0432\u0430\u0439\u0442\u0435 \u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u0432\u0438\u0437\u0443\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044e \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u0432:<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/04f\/d14\/448\/04fd14448d6c0a686c82c01b7fa3586e.png\" width=\"1473\" height=\"601\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/04f\/d14\/448\/04fd14448d6c0a686c82c01b7fa3586e.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/04f\/d14\/448\/04fd14448d6c0a686c82c01b7fa3586e.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>    \u041d\u0435\u0441\u043c\u043e\u0442\u0440\u044f \u043d\u0430 \u0448\u0430\u043a\u0430\u043b\u044c\u043d\u043e\u0441\u0442\u044c(\u043c\u044b \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u043c \u0441 CIFAR100 \u043d\u0430\u043f\u043e\u043c\u0438\u043d\u0430\u044e) \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 \u0432\u0435\u0441\u044c\u043c\u0430 \u043d\u0435\u043f\u043b\u043e\u0445\u0438\u0435 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b. \u0418 \u0442\u0435\u043f\u0435\u0440\u044c \u0432\u0438\u0448\u0435\u043d\u043a\u0430 \u043d\u0430 \u0442\u043e\u0440\u0442\u0435 &#8212; \u044d\u0442\u043e \u043e\u0442\u0441\u043b\u0435\u0436\u0438\u0432\u0430\u043d\u0438\u0435 \u043f\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430\u043c. \u0418\u0445 \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u043e \u0433\u043e\u0432\u043e\u0440\u044f \u043c\u044b \u0438\u0442\u0430\u043a \u043b\u043e\u0433\u0438\u0440\u0443\u0435\u043c \u0438 \u0441\u0435\u0439\u0447\u0430\u0441 \u043c\u043e\u0436\u0435\u043c \u043f\u0440\u043e\u0432\u0435\u0441\u0442\u0438 \u043d\u0430 \u043c\u0430\u043b\u0435\u043d\u044c\u043a\u043e\u043c \u0441\u044d\u043c\u043f\u043b\u0435 \u0430\u043d\u0430\u043b\u0438\u0442\u0438\u043a\u0443. \u0415\u0441\u043b\u0438 \u0443 \u043d\u0430\u0441 \u0435\u0441\u0442\u044c \u043e\u0447\u0435\u043d\u044c \u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u044d\u043a\u0441\u043f\u0435\u0440\u0442 \u0438 \u043e\u043d \u043d\u0435 \u043f\u0440\u0438\u0433\u043e\u0434\u0438\u043b\u0441\u044f \u0432 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u0438 \u0432 \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u044f\u0445, \u0442\u043e \u043c\u044b \u043c\u043e\u0436\u0435\u043c \u0441\u044d\u043a\u043e\u043d\u043e\u043c\u0438\u0442\u044c \u043e\u0447\u0435\u043d\u044c \u043c\u043d\u043e\u0433\u043e \u043f\u0430\u043c\u044f\u0442\u0438. <\/p>\n<figure class=\"\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/c84\/a8f\/407\/c84a8f407ab63d1047042a9a89c2fca3.png\" width=\"492\" height=\"61\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/c84\/a8f\/407\/c84a8f407ab63d1047042a9a89c2fca3.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/c84\/a8f\/407\/c84a8f407ab63d1047042a9a89c2fca3.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>    \u041f\u043e\u0434\u0432\u043e\u0434\u044f \u0438\u0442\u043e\u0433\u0438 \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u043c \u043a\u043e\u043d\u0446\u0435\u043f\u0442\u043e\u043c \u0431\u044b\u043b\u043e \u043f\u043e\u043a\u0430\u0437\u0430\u0442\u044c \u043a\u0430\u043a\u0438\u0435 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u044b \u0431\u044b\u0432\u0430\u044e\u0442 \u0438 \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u043f\u0440\u0438 \u0440\u0430\u0431\u043e\u0442\u0435 \u0441 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0435\u0439, \u0430 \u0442\u0430\u043a\u0436\u0435 \u0435\u0435 \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u0438 \u043f\u043e\u0442\u0435\u043d\u0446\u0438\u0430\u043b, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0443\u0436\u0435 \u0441\u0435\u0439\u0447\u0430\u0441 \u043e\u0447\u0435\u043d\u044c \u0443\u0441\u043f\u0435\u0448\u043d\u043e \u0440\u0435\u0430\u043b\u0438\u0437\u0443\u0435\u0442\u0441\u044f!<\/p>\n<p><a href=\"https:\/\/emojigraph.org\/ru\/fire\/\">\ud83d\udd25<\/a>  \u0421\u0442\u0430\u0432\u044c\u0442\u0435 \u043b\u0430\u0439\u043a \u0438 \u043d\u0430\u043f\u0438\u0448\u0438\u0442\u0435 \u043a\u0430\u043a\u0438\u0435 \u0442\u0435\u043c\u044b \u0431\u044b\u043b\u043e \u0431\u044b \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u043e \u0440\u0430\u0437\u043e\u0431\u0440\u0430\u0442\u044c \u0434\u0430\u043b\u044c\u0448\u0435! \u0421\u0430\u043c\u043e\u0435 \u0433\u043b\u0430\u0432\u043d\u043e\u0435 \u2014 \u043f\u0440\u043e\u0431\u0443\u0439\u0442\u0435 \u0438 \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u0438\u0440\u0443\u0439\u0442\u0435!<\/p>\n<p> <a href=\"https:\/\/emojigraph.org\/ru\/check-mark\/\">\u2714\ufe0f<\/a> \u041f\u0440\u0438\u0441\u043e\u0435\u0434\u0438\u043d\u044f\u0439\u0442\u0435\u0441\u044c \u043a \u043d\u0430\u0448\u0435\u043c\u0443 Telegram-\u0441\u043e\u043e\u0431\u0449\u0435\u0441\u0442\u0432\u0443 <a href=\"https:\/\/t.me\/+w0V_HEhKSkIyMTYy\">@datafeeling<\/a>, \u0447\u0442\u043e\u0431\u044b \u043f\u0435\u0440\u0432\u044b\u043c\u0438 \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0442\u044c \u043d\u0430 \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435 \u043f\u0435\u0440\u0435\u0434\u043e\u0432\u044b\u0435 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0438!<\/p>\n<\/div>\n<\/div>\n<\/div>\n<p><!----><!----><\/div>\n<p><!----><!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/902728\/\"> https:\/\/habr.com\/ru\/articles\/902728\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<figure class=\"full-width\"><\/figure>\n<p>\u041f\u0440\u0438\u0432\u0435\u0442, \u0447\u0435\u043c\u043f\u0438\u043e\u043d\u044b!  <\/p>\n<p>    \u041f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u044c\u0442\u0435, \u0447\u0442\u043e \u0443 \u0432\u0430\u0441 \u0435\u0441\u0442\u044c \u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u0438 \u0441\u043b\u043e\u0436\u043d\u044b\u0439 \u043f\u0440\u043e\u0435\u043a\u0442, \u0438 \u0432\u044b \u043d\u0430\u043d\u044f\u043b\u0438 \u0434\u0432\u0443\u0445 \u0443\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0446\u0435\u0432: \u041a\u0430\u0431\u0430\u043d-\u041a\u0430\u0431\u0430\u043d\u044b\u0447\u0430 \u0438 \u0420\u0443\u043a\u043e\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u0435\u0432\u0430. \u0412\u044b \u0434\u0430\u0435\u0442\u0435 \u0438\u043c \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u0443\u044e \u0437\u0430\u0434\u0430\u0447\u0443: \u043d\u0430\u0431\u0440\u0430\u0442\u044c \u0448\u0442\u0430\u0442 \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u043e\u0432 \u0438 \u0432\u044b\u043f\u043e\u043b\u043d\u0438\u0442\u044c \u0432\u0430\u0448 \u043f\u0440\u043e\u0435\u043a\u0442. \u0412\u0441\u044f \u043f\u0440\u0438\u0431\u044b\u043b\u044c \u0432\u043c\u0435\u0441\u0442\u0435 \u0441 \u043d\u0430\u0447\u0430\u043b\u044c\u043d\u044b\u043c \u0431\u044e\u0434\u0436\u0435\u0442\u043e\u043c \u043e\u0441\u0442\u0430\u043d\u0435\u0442\u0441\u044f \u0443 \u043d\u0438\u0445.<\/p>\n<p>    \u041a\u0430\u0431\u0430\u043d-\u041a\u0430\u0431\u0430\u043d\u044b\u0447 \u0440\u0435\u0448\u0438\u043b, \u0447\u0442\u043e \u043d\u0435\u0442 \u0441\u043c\u044b\u0441\u043b\u0430 \u043f\u043b\u0430\u0442\u0438\u0442\u044c \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u043c \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u0438\u0441\u0442\u0430\u043c \u043f\u043e DevOps, backend, ML \u0438 \u0434\u0440\u0443\u0433\u0438\u043c \u043d\u0430\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u044f\u043c, \u0438 \u043d\u0430\u043d\u044f\u043b \u0432\u0441\u0435\u0433\u043e \u043e\u0434\u043d\u043e\u0433\u043e \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u0430 \u0437\u0430 80 \u043c\u043e\u043d\u0435\u0442\u043e\u043a. \u042d\u0442\u043e\u0442 \u0431\u0435\u0434\u043d\u044f\u0433\u0430 \u0440\u0430\u0431\u043e\u0442\u0430\u043b \u0432 \u0441\u0442\u0438\u043b\u0435 \u00ab\u043e\u0434\u0438\u043d \u0437\u0430 \u0432\u0441\u0435\u0445\u00bb \u0438, \u0435\u0441\u0442\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e, \u0431\u044b\u0441\u0442\u0440\u043e \u0432\u044b\u0433\u043e\u0440\u0435\u043b \u0438 \u00ab\u0443\u043c\u0435\u0440\u00bb. \u041a\u0430\u0431\u0430\u043d-\u041a\u0430\u0431\u0430\u043d\u044b\u0447, \u043d\u0435 \u0434\u043e\u043b\u0433\u043e \u0434\u0443\u043c\u0430\u044f, \u043d\u0430\u043d\u044f\u043b \u0435\u0449\u0435 \u043e\u0434\u043d\u043e\u0433\u043e \u0442\u0430\u043a\u043e\u0433\u043e \u0436\u0435 \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u0430. \u0412 \u0438\u0442\u043e\u0433\u0435 \u0432\u044b \u0432\u0435\u0440\u043d\u0443\u043b\u0438\u0441\u044c \u0438 \u0443\u0432\u0438\u0434\u0435\u043b\u0438 \u043f\u0435\u0447\u0430\u043b\u044c\u043d\u0443\u044e \u043a\u0430\u0440\u0442\u0438\u043d\u0443: \u0437\u0430\u0434\u0430\u0447\u0443 \u043d\u0438\u043a\u0442\u043e \u043d\u0435 \u0440\u0435\u0448\u0438\u043b, \u043e\u0441\u0442\u0430\u043b\u0441\u044f \u043b\u0438\u0448\u044c \u041a\u0430\u0431\u0430\u043d-\u041a\u0430\u0431\u0430\u043d\u044b\u0447 \u0438 \u043a\u043b\u0430\u0434\u0431\u0438\u0449\u0435 \u043d\u0435\u0441\u0447\u0430\u0441\u0442\u043d\u044b\u0445 \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u043e\u0432.<\/p>\n<figure class=\"full-width\"><\/figure>\n<p>    \u0410 \u0432\u043e\u0442 \u0420\u0443\u043a\u043e\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u0435\u0432 \u043f\u043e\u0441\u0442\u0443\u043f\u0438\u043b \u0438\u043d\u0430\u0447\u0435: \u043e\u043d \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0438\u043b \u0431\u044e\u0434\u0436\u0435\u0442 \u043d\u0430 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u043f\u043e\u0445\u043e\u0436\u0438\u0445 \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u043e\u0432, \u043d\u043e \u0441\u043d\u0430\u0447\u0430\u043b\u0430 \u043d\u0435 \u043f\u043e\u043d\u0438\u043c\u0430\u043b, \u043a\u0442\u043e \u0438\u0437 \u043d\u0438\u0445 \u0432 \u0447\u0451\u043c \u043b\u0443\u0447\u0448\u0435. \u0422\u043e\u0433\u0434\u0430 \u043e\u043d \u0441\u0442\u0430\u043b \u0434\u0430\u0432\u0430\u0442\u044c \u0438\u043c \u043d\u0435\u0431\u043e\u043b\u044c\u0448\u0438\u0435 \u0437\u0430\u0434\u0430\u0447\u0438 \u0438 \u0432\u043d\u0438\u043c\u0430\u0442\u0435\u043b\u044c\u043d\u043e \u043d\u0430\u0431\u043b\u044e\u0434\u0430\u0442\u044c \u0437\u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0430\u043c\u0438. \u0427\u0435\u0440\u0435\u0437 \u043d\u0435\u043a\u043e\u0442\u043e\u0440\u043e\u0435 \u0432\u0440\u0435\u043c\u044f \u043e\u043d \u043f\u043e\u043d\u044f\u043b, \u0447\u0442\u043e \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a \u21161 \u043d\u0430 70% \u043b\u0443\u0447\u0448\u0435 \u0441\u043f\u0440\u0430\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0441 \u0437\u0430\u0434\u0430\u0447\u0430\u043c\u0438 \u043f\u043e ML, \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a \u21162 \u043d\u0430 80% \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u0435\u0435 \u0432 backend-\u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u043a\u0435 \u0438 \u0442\u0430\u043a \u0434\u0430\u043b\u0435\u0435. \u0422\u0430\u043a \u0420\u0443\u043a\u043e\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u0435\u0432 \u043f\u043e\u0441\u0442\u0435\u043f\u0435\u043d\u043d\u043e \u0441\u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u043b \u043a\u043e\u043c\u0430\u043d\u0434\u0443 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432, \u0441\u0430\u043c \u0441\u0442\u0430\u0432 \u0443\u043f\u0440\u0430\u0432\u043b\u044f\u044e\u0449\u0438\u043c (\u0438\u043b\u0438 &#171;gating&#187;-\u0443\u0437\u043b\u043e\u043c), \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u0435\u0442 \u0437\u0430\u0434\u0430\u0447\u0438 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u0437\u043d\u0430\u043d\u0438\u0439 \u043e \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u044f\u0445 \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u0430. \u0421\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u0438 \u0443\u0433\u043b\u0443\u0431\u043b\u044f\u043b\u0438 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0438\u0437\u0443 \u0432 \u0441\u0432\u043e\u0438\u0445 \u043d\u0430\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u044f\u0445, \u0430 \u0420\u0443\u043a\u043e\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u0435\u0432 \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u043b\u0441\u044f \u0432\u0441\u0451 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u0435\u0435 \u0432 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0438 \u0437\u0430\u0434\u0430\u0447.<\/p>\n<p>\u0412\u043d\u0435\u0437\u0430\u043f\u043d\u043e \u043c\u044b \u043f\u0440\u0438\u0448\u043b\u0438 \u043a \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u043e\u043c\u0443 \u0440\u0435\u0448\u0435\u043d\u0438\u044e:<\/p>\n<ul>\n<li>\n<p>\u0420\u0443\u043a\u043e\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u0435\u0432 \u2014 \u044d\u0442\u043e <code>gating network<\/code>, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u0435\u0442 \u0437\u0430\u0434\u0430\u0447\u0438, \u0438\u0441\u0445\u043e\u0434\u044f \u0438\u0437 \u043f\u0440\u0435\u0434\u044b\u0434\u0443\u0449\u0438\u0445 \u0443\u0441\u043f\u0435\u0445\u043e\u0432 \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u043e\u0432.<\/p>\n<\/li>\n<li>\n<p>\u0421\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u0438 \u2014 \u044d\u0442\u043e <code>local experts<\/code>, \u043a\u0430\u0436\u0434\u044b\u0439 \u0438\u0437 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u0438\u0437\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u043d\u0430 \u0441\u0432\u043e\u0435\u0439 \u0447\u0430\u0441\u0442\u0438 \u0437\u0430\u0434\u0430\u0447.<\/p>\n<\/li>\n<\/ul>\n<figure class=\"full-width\"><\/figure>\n<p>    \u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u043c\u044b \u044d\u043a\u043e\u043d\u043e\u043c\u0438\u043c \u0440\u0435\u0441\u0443\u0440\u0441\u044b, \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0441\u0438\u043b\u044c\u043d\u044b\u0445 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u0438\u0441\u0442\u043e\u0432 \u0438 \u0434\u043e\u0441\u0442\u0438\u0433\u0430\u0435\u043c \u043e\u0442\u043b\u0438\u0447\u043d\u044b\u0445 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u0432 \u0437\u0430 \u043a\u043e\u0440\u043e\u0442\u043a\u043e\u0435 \u0432\u0440\u0435\u043c\u044f.<\/p>\n<p>\u0418\u043c\u0435\u043d\u043d\u043e \u0442\u0430\u043a \u0432 1991 \u0433\u043e\u0434\u0443 \u0438 \u043f\u043e\u044f\u0432\u0438\u043b\u043e\u0441\u044c \u0440\u0435\u0448\u0435\u043d\u0438\u0435 <a href=\"https:\/\/www.cs.toronto.edu\/~hinton\/absps\/jjnh91.pdf\">Adaptive Mixtures of local Experts<\/a><\/p>\n<p>\u042d\u0442\u043e\u0442 \u043f\u043e\u0434\u0445\u043e\u0434 \u0434\u043e\u043a\u0430\u0437\u0430\u043b \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u044c, \u0441\u043e\u043a\u0440\u0430\u0449\u0430\u044f \u0432\u0440\u0435\u043c\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u043f\u043e\u0447\u0442\u0438 \u0432\u0434\u0432\u043e\u0435.<\/p>\n<h3>\u041a\u0430\u043a \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 MoE?   <\/h3>\n<p>    \u041f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u044c\u0442\u0435 \u043c\u043e\u0434\u0435\u043b\u044c, \u0443 \u043a\u043e\u0442\u043e\u0440\u043e\u0439 \u0435\u0441\u0442\u044c \u0432\u0445\u043e\u0434\u043d\u044b\u0435 \u0438 \u0432\u044b\u0445\u043e\u0434\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435, \u0430 \u043c\u0435\u0436\u0434\u0443 \u043d\u0438\u043c\u0438 \u043d\u0430\u0431\u043e\u0440 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432. \u042d\u0442\u0438\u0445 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432 \u043e\u0440\u0433\u0430\u043d\u0438\u0437\u0443\u0435\u0442 \u0443\u043f\u0440\u0430\u0432\u043b\u044f\u044e\u0449\u0430\u044f \u0441\u0435\u0442\u044c (<code>gating network<\/code>), \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u044e\u0449\u0430\u044f, \u043a\u0430\u043a\u0438\u0435 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u044b \u043c\u043e\u0433\u0443\u0442 \u043b\u0443\u0447\u0448\u0435 \u0441\u043f\u0440\u0430\u0432\u0438\u0442\u044c\u0441\u044f \u0441 \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u043e\u0439 \u0437\u0430\u0434\u0430\u0447\u0435\u0439. Gating-\u0441\u0435\u0442\u044c, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043f\u0440\u0438\u0441\u0432\u0430\u0438\u0432\u0430\u0435\u0442 \u0432\u0435\u0441\u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0443 \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430, \u043e\u0431\u044a\u0435\u0434\u0438\u043d\u044f\u044f \u0438\u0445 \u0432 \u0438\u0442\u043e\u0433\u043e\u0432\u044b\u0439 \u043e\u0442\u0432\u0435\u0442.<\/p>\n<p>    \u0417\u0432\u0443\u0447\u0438\u0442 \u043a\u0440\u0430\u0441\u0438\u0432\u043e, \u043d\u043e \u043d\u0435 \u0432\u0441\u0451 \u0442\u0430\u043a \u043f\u0440\u043e\u0441\u0442\u043e&#8230; \u0412\u043e \u0432\u0440\u0435\u043c\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0432\u043e\u0437\u043d\u0438\u043a\u0430\u044e\u0442 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u044b\u0435 \u0438 \u0434\u0430\u0436\u0435 \u00ab\u043b\u043e\u043c\u0430\u044e\u0449\u0438\u0435 \u043c\u043e\u0437\u0433\u00bb \u0441\u0438\u0442\u0443\u0430\u0446\u0438\u0438, \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u043a\u043e\u0433\u0434\u0430 \u043e\u0441\u043e\u0437\u043d\u0430\u0451\u0448\u044c, \u0447\u0442\u043e \u0441\u043e\u0437\u0434\u0430\u043d\u043d\u0430\u044f \u0442\u043e\u0431\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u044c \u043c\u043e\u0436\u0435\u0442 \u00ab\u0432\u044b\u043d\u0435\u0441\u0442\u0438\u00bb \u0442\u0435\u0431\u044f \u0441\u0430\u043c\u043e\u0433\u043e.<\/p>\n<p>    Conditional Computation \u043e\u0434\u043d\u0430 \u0438\u0437 \u0444\u0438\u0448\u0435\u043a MoE: \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u044c \u043e\u0442\u043a\u043b\u044e\u0447\u0430\u0442\u044c \u0438\u043b\u0438 \u0447\u0430\u0441\u0442\u0438\u0447\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432. \u042d\u0442\u043e \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u043a\u043e\u043c\u0431\u0438\u043d\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0440\u0430\u0437\u043d\u044b\u0435 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u044b, \u043a\u0430\u0436\u0434\u0430\u044f \u0438\u0437 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u0432\u044b\u044f\u0432\u043b\u044f\u0435\u0442 \u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0430\u0442\u0442\u0435\u0440\u043d\u044b \u0432 \u0434\u0430\u043d\u043d\u044b\u0445. \u041c\u043e\u0434\u0435\u043b\u044c \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u0441\u044f \u0433\u0438\u0431\u043a\u043e\u0439: \u0441\u0430\u043c\u0430 \u0440\u0435\u0448\u0430\u0435\u0442, \u043a\u0430\u043a\u0438\u0445 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432 \u0437\u0430\u0434\u0435\u0439\u0441\u0442\u0432\u043e\u0432\u0430\u0442\u044c \u0430\u043a\u0442\u0438\u0432\u043d\u043e, \u043a\u043e\u0433\u043e \u0438\u0433\u043d\u043e\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c, \u0430 \u043a\u043e\u0433\u043e \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0438\u0442\u044c \u0447\u0443\u0442\u044c-\u0447\u0443\u0442\u044c.<\/p>\n<p>    \u041a\u043b\u044e\u0447\u0435\u0432\u0430\u044f \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e\u0441\u0442\u044c \u2014 \u0440\u0430\u0437\u0440\u0435\u0436\u0435\u043d\u043d\u043e\u0441\u0442\u044c. \u0421 \u043f\u043e\u043c\u043e\u0449\u044c\u044e MoE \u043c\u043e\u0436\u043d\u043e \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u044c \u0431\u0435\u0437 \u043f\u0440\u043e\u043f\u043e\u0440\u0446\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u043e\u0433\u043e \u0443\u0432\u0435\u043b\u0438\u0447\u0435\u043d\u0438\u044f \u0432\u044b\u0447\u0438\u0441\u043b\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0439 \u043d\u0430\u0433\u0440\u0443\u0437\u043a\u0438. \u042d\u0442\u043e \u043e\u0447\u0435\u043d\u044c \u0432\u0430\u0436\u043d\u043e, \u0432\u0435\u0434\u044c \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u043e\u0431\u0443\u0447\u0430\u0442\u044c \u043e\u0433\u0440\u043e\u043c\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432, \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044f \u043f\u0440\u0438 \u044d\u0442\u043e\u043c \u0442\u043e\u043b\u044c\u043a\u043e \u043d\u0443\u0436\u043d\u044b\u0445. \u0412 \u044d\u0442\u043e\u043c \u043d\u0430\u043c \u043f\u043e\u043c\u043e\u0433\u0430\u0435\u0442 \u0432\u0430\u0436\u043d\u044b\u0439 \u0433\u0438\u043f\u0435\u0440\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440 \u2014 <code>top_k<\/code>, \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u044e\u0449\u0438\u0439, \u0441\u043a\u043e\u043b\u044c\u043a\u043e \u043b\u0443\u0447\u0448\u0438\u0445 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432 \u0431\u0443\u0434\u0435\u0442 \u0432\u044b\u0431\u0440\u0430\u043d\u043e \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0432\u0445\u043e\u0434\u0430.<\/p>\n<figure class=\"\"><\/figure>\n<p>    \u041d\u043e \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0435 \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u043d\u0430\u0447\u0438\u043d\u0430\u044e\u0442\u0441\u044f \u0441 \u043d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0438 \u0433\u0438\u043f\u0435\u0440\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u0438 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u043d\u044b\u0445 \u0440\u0435\u0448\u0435\u043d\u0438\u0439. \u0421\u0430\u043c\u0430\u044f \u0431\u043e\u043b\u044c\u0448\u0430\u044f \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0430 MoE \u2014 \u044d\u0442\u043e \u00ab\u043f\u0440\u0438\u043b\u0438\u043f\u0430\u043d\u0438\u0435 \u0433\u0435\u0439\u0442\u0430\u00bb, \u043a\u043e\u0433\u0434\u0430 \u043c\u0430\u0440\u0448\u0440\u0443\u0442\u0438\u0437\u0430\u0442\u043e\u0440 \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442 \u043f\u043e\u0441\u0442\u043e\u044f\u043d\u043d\u043e \u0432\u044b\u0431\u0438\u0440\u0430\u0442\u044c \u043e\u0434\u043d\u0438\u0445 \u0438 \u0442\u0435\u0445 \u0436\u0435 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432. \u042d\u0442\u0438 \u0438\u0437\u0431\u0440\u0430\u043d\u043d\u044b\u0435 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u044b \u043f\u043e\u043b\u0443\u0447\u0430\u044e\u0442 \u0431\u043e\u043b\u044c\u0448\u0435 \u0434\u0430\u043d\u043d\u044b\u0445 \u0438 \u0431\u044b\u0441\u0442\u0440\u0435\u0435 \u043e\u0431\u0443\u0447\u0430\u044e\u0442\u0441\u044f, \u0432 \u0442\u043e \u0432\u0440\u0435\u043c\u044f \u043a\u0430\u043a \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0435 \u00ab\u0441\u043a\u0443\u0447\u0430\u044e\u0442 \u0438 \u043f\u044c\u044e\u0442 \u043a\u043e\u0444\u0435\u00bb.<\/p>\n<p>\u0412\u043e\u0437\u043d\u0438\u043a\u0430\u0435\u0442 \u0437\u0430\u043a\u043e\u043d\u043e\u043c\u0435\u0440\u043d\u044b\u0439 \u0432\u043e\u043f\u0440\u043e\u0441: \u0437\u0430\u0447\u0435\u043c \u0442\u043e\u0433\u0434\u0430 \u0432\u043e\u043e\u0431\u0449\u0435 \u043d\u0443\u0436\u043d\u044b \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0435 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u044b?<\/p>\n<p>    \u041a\u0430\u043a \u0441 \u044d\u0442\u0438\u043c \u0431\u043e\u0440\u043e\u0442\u044c\u0441\u044f? \u0412 \u0441\u0432\u043e\u0451\u043c \u043a\u043e\u0434\u0435 \u044f \u0434\u043e\u0431\u0430\u0432\u0438\u043b \u0442\u0440\u0435\u043a\u0435\u0440 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u044f \u0434\u0430\u043d\u043d\u044b\u0445 \u043f\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430\u043c, \u0447\u0442\u043e\u0431\u044b \u043a\u043e\u043d\u0442\u0440\u043e\u043b\u0438\u0440\u043e\u0432\u0430\u0442\u044c, \u043d\u0435 \u00ab\u0437\u0430\u043b\u0438\u043f\u00bb \u043b\u0438 \u0433\u0435\u0439\u0442. \u0422\u0430\u043a\u0436\u0435 \u044f \u0432\u043d\u0435\u0434\u0440\u0438\u043b \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0445\u0438\u0442\u0440\u044b\u0445 \u0440\u0435\u0448\u0435\u043d\u0438\u0439, \u043f\u043e\u0434\u0441\u043c\u043e\u0442\u0440\u0435\u043d\u043d\u044b\u0445 \u043d\u0430 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0445 \u0444\u043e\u0440\u0443\u043c\u0430\u0445.<\/p>\n<p>\u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u043a\u0440\u0430\u0442\u043a\u043e \u0440\u0435\u0437\u044e\u043c\u0438\u0440\u0443\u0435\u043c:<\/p>\n<p>    \u0422\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u044f MoE \u0432\u044b\u0433\u043e\u0434\u043d\u0430 \u0437\u0430 \u0441\u0447\u0451\u0442 \u0440\u0430\u0437\u0440\u0435\u0436\u0435\u043d\u043d\u043e\u0441\u0442\u0438 \u0438 \u0433\u0438\u0431\u043a\u043e\u0441\u0442\u0438 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u044f \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432. \u041e\u0434\u043d\u0430\u043a\u043e \u044d\u0442\u043e \u00ab\u0441\u0434\u0435\u043b\u043a\u0430 \u0441 \u0434\u044c\u044f\u0432\u043e\u043b\u043e\u043c\u00bb, \u043f\u043e\u0441\u043a\u043e\u043b\u044c\u043a\u0443 \u0432\u043e\u0437\u043d\u0438\u043a\u0430\u044e\u0442 \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438:<\/p>\n<ul>\n<li>\n<p>\u0421\u043b\u043e\u0436\u043d\u0430\u044f \u0431\u0430\u043b\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u043a\u0430 \u0440\u0430\u0431\u043e\u0442\u044b \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432.<\/p>\n<\/li>\n<li>\n<p>\u0424\u0443\u043d\u043a\u0446\u0438\u044f \u043f\u043e\u0442\u0435\u0440\u044c \u0434\u043e\u043b\u0436\u043d\u0430 \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u0442\u044c \u043a\u0430\u043a \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u044c \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432, \u0442\u0430\u043a \u0438 \u043c\u0430\u0440\u0448\u0440\u0443\u0442\u0438\u0437\u0430\u0442\u043e\u0440\u0430.<\/p>\n<\/li>\n<li>\n<p>\u041a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0433\u0438\u043f\u0435\u0440\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 (\u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432, \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 gating-\u0441\u0435\u0442\u0438) \u0443\u0441\u043b\u043e\u0436\u043d\u044f\u0435\u0442 \u043d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0443 \u043c\u043e\u0434\u0435\u043b\u0438.<\/p>\n<\/li>\n<\/ul>\n<h3>\u0413\u0434\u0435 \u0441\u0435\u0439\u0447\u0430\u0441 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442 MoE?  <\/h3>\n<p>\u041f\u043e\u0447\u0442\u0438 \u0432\u0441\u0435 \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0435 LLM \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442 MoE. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u043d\u0435\u0434\u0430\u0432\u043d\u043e \u0432\u044b\u0448\u0435\u0434\u0448\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c <a href=\"https:\/\/t.me\/datafeeling\/1291\">Llama4 Scout \u0441 16x17B <\/a>\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u043c\u0438 \u2014 \u044d\u0442\u043e 16 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432 \u043f\u043e 17 \u043c\u0438\u043b\u043b\u0438\u0430\u0440\u0434\u043e\u0432 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u043a\u0430\u0436\u0434\u044b\u0439. \u0422\u043e \u0435\u0441\u0442\u044c \u043d\u0430 \u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441\u0435 \u0432\u044b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0435 \u043d\u0435 \u0432\u0441\u0435 272 \u043c\u043b\u0440\u0434 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432, \u0430 \u0442\u043e\u043b\u044c\u043a\u043e top_k \u0432\u044b\u0431\u0440\u0430\u043d\u043d\u044b\u0445. \u0412\u043f\u0435\u0447\u0430\u0442\u043b\u044f\u044e\u0449\u0435\u0435 \u0441\u043d\u0438\u0436\u0435\u043d\u0438\u0435 \u0432\u044b\u0447\u0438\u0441\u043b\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0445 \u0437\u0430\u0442\u0440\u0430\u0442, \u043f\u0440\u0430\u0432\u0434\u0430?<\/p>\n<p>\u0422\u0430\u043a\u0436\u0435 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u044f \u0430\u043a\u0442\u0438\u0432\u043d\u043e \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0435\u0442\u0441\u044f \u0432 \u043a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440\u043d\u043e\u043c \u0437\u0440\u0435\u043d\u0438\u0438, \u0438 \u0441\u0435\u0439\u0447\u0430\u0441 \u043c\u044b \u0435\u0451 \u043f\u0440\u043e\u0442\u0435\u0441\u0442\u0438\u0440\u0443\u0435\u043c \u043d\u0430 \u043f\u0440\u043e\u0441\u0442\u043e\u043c \u043f\u0440\u0438\u043c\u0435\u0440\u0435 <a href=\"https:\/\/research.google\/blog\/scaling-vision-with-sparse-mixture-of-experts\/\">V-MoEs<\/a>.<\/p>\n<h3>\u0422\u0435\u0441\u0442 \u0434\u0440\u0430\u0439\u0432 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0438  <\/h3>\n<p>    \u0418\u0442\u0430\u043a, \u0434\u043b\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0432\u043e\u0437\u044c\u043c\u0435\u043c \u043f\u0440\u043e\u0441\u0442\u0435\u043d\u044c\u043a\u0438\u0439 \u0434\u0430\u0442\u0430\u0441\u0435\u0442 <a href=\"https:\/\/paperswithcode.com\/dataset\/cifar-100\">CIFAR100<\/a> \u0438 \u043e\u0431\u0443\u0447\u0438\u043c \u043d\u0430 \u043d\u0435\u043c \u043d\u0430\u0448\u0443 \u043a\u0430\u0441\u0442\u043e\u043c\u043d\u0443\u044e V-MoEs \u0434\u043b\u044f \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438 \u0438\u0437\u043e\u0431\u0440\u0430\u0436\u0435\u043d\u0438\u0439.<\/p>\n<p>\u0421\u0430\u043c\u0430 \u043f\u043e \u0441\u0435\u0431\u0435 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u0431\u0443\u0434\u0435\u0442 \u0441\u043e\u0441\u0442\u043e\u044f\u0442\u044c \u0438\u0437 \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0435\u0433\u043e:<\/p>\n<p>\u041a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0438\u0439 VIT, \u043d\u043e \u0435\u0435 \u0447\u0430\u0441\u0442\u044c \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0442\u043e\u0440\u0430 \u043c\u044b \u043e\u0431\u0435\u0440\u043d\u0435\u043c \u0432 decoder \u0431\u043b\u043e\u043a, \u0433\u0434\u0435 \u0443 \u043d\u0430\u0441 \u0431\u0443\u0434\u0435\u0442 \u043f\u0440\u0438\u043c\u0435\u043d\u0435\u043d\u0430 MOE <\/p>\n<figure class=\"full-width\"><\/figure>\n<p>\u041d\u0430\u0447\u043d\u0435\u043c \u0441 \u043c\u0430\u0440\u0448\u0440\u0443\u0442\u0438\u0437\u0430\u0442\u043e\u0440\u0430, \u0432 \u043d\u0430\u0448\u0435\u043c \u0441\u043b\u0443\u0447\u0430\u0435 \u043e\u043d \u0431\u044b\u043b \u0440\u0435\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u043d \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c<\/p>\n<pre><code class=\"python\">import torch import torch.nn as nn import torch.nn.functional as F  class GatingNetwork(nn.Module):     def __init__(self,                  input_dim = 151296,                  num_experts=4,                  top_k=2,                  use_noise=True,                  noise_std=1e-2,                  temperature=1.0):         super().__init__()          self.num_experts = num_experts         self.top_k = top_k         self.use_noise = use_noise         self.noise_std = noise_std         self.temperature = temperature          self.gate = nn.Sequential(             nn.Linear(input_dim, 512),             nn.ReLU(),             nn.Dropout(0.2),             nn.Linear(512, 256),             nn.ReLU(),             nn.Dropout(0.2),             nn.Linear(256, num_experts)         )      def forward(self, x):         logits = self.gate(x)  # (B, num_experts)          if self.use_noise and self.training:             scale = logits.std(dim=1, keepdim=True).clamp(min=1e-3)               noise = torch.randn_like(logits) * self.noise_std * scale             logits = logits + noise          topk_vals, topk_indices = torch.topk(logits, self.top_k, dim=1)          gates = F.softmax(topk_vals \/ self.temperature, dim=1)  # (B, top_k)          return topk_indices, gates <\/code><\/pre>\n<p>    \u041e\u043d \u0431\u0435\u0440\u0451\u0442 \u0432\u0445\u043e\u0434\u043d\u043e\u0439 \u0432\u0435\u043a\u0442\u043e\u0440 <code>x<\/code>, <strong>\u043e\u0446\u0435\u043d\u0438\u0432\u0430\u0435\u0442, \u043a\u0430\u043a\u0438\u0435 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u044b \u0438\u0437 <\/strong><code><strong>num_experts<\/strong><\/code><strong> \u043b\u0443\u0447\u0448\u0435 \u043f\u043e\u0434\u043e\u0439\u0434\u0443\u0442<\/strong> \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u043f\u0440\u0438\u043c\u0435\u0440\u0430 \u0432 \u0431\u0430\u0442\u0447\u0435, \u0438 <strong>\u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 <\/strong><code><strong>top_k<\/strong><\/code><strong> \u043b\u0443\u0447\u0448\u0438\u0445 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432 \u0441 \u0438\u0445 \u0432\u0435\u0441\u0430\u043c\u0438<\/strong>.<\/p>\n<p>\u0422\u043e \u0435\u0441\u0442\u044c \u044d\u0442\u043e \u2014 \u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0430\u044f <strong>Gating Network<\/strong>, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0440\u0435\u0448\u0430\u0435\u0442, <strong>\u043a\u0430\u043a\u0438\u043c \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430\u043c \u0434\u0430\u0442\u044c \u043f\u043e\u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u0441 \u0432\u0445\u043e\u0434\u043e\u043c<\/strong>.<\/p>\n<p>    \u041e\u0431\u0440\u0430\u0442\u0438\u0442\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435, \u0447\u0442\u043e \u0442\u0443\u0442 \u0435\u0441\u0442\u044c <strong>noisy gating<\/strong> \u2014 \u044d\u0442\u043e \u043e\u0434\u0438\u043d \u0438\u0437 \u0441\u043f\u043e\u0441\u043e\u0431\u043e\u0432 <strong>\u0438\u0437\u0431\u0435\u0436\u0430\u0442\u044c &#171;\u0437\u0430\u043b\u0438\u043f\u0430\u043d\u0438\u044f \u0433\u0435\u0439\u0442\u0430&#187;<\/strong> \u043d\u0430 \u043e\u0434\u043d\u043e\u043c \u0438 \u0442\u043e\u043c \u0436\u0435 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0435.  \u0412\u043e \u0432\u0440\u0435\u043c\u044f \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043a\u0438 \u0448\u0443\u043c \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u0438 \u0432 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438 \u043e\u0442 \u043f\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u043d\u043e\u0439 \u043d\u0430\u043c\u0438 \u043f\u0440\u043e\u043f\u043e\u0440\u0446\u0438\u0438 \u0432\u043b\u0438\u044f\u0435\u0442 \u043d\u0430 \u0440\u0435\u0448\u0435\u043d\u0438\u0435 \u043e \u0442\u043e\u043c \u043a\u0430\u043a\u043e\u0433\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430 \u043f\u043e\u0432\u044b\u0431\u0438\u0440\u0430\u0442\u044c. \u0418\u043d\u044b\u043c\u0438 \u0441\u043b\u043e\u0432\u0430\u043c\u0438 \u043c\u044b \u0432\u043b\u0438\u044f\u0435\u043c \u043d\u0430 &#171;\u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u0432\u0430&#187;, \u0447\u0442\u043e\u0431\u044b \u043e\u043d \u0434\u0430\u0432\u0430\u043b \u0448\u0430\u043d\u0441\u044b \u0431\u043e\u043b\u044c\u0448\u0435\u043c\u0443 \u0447\u0438\u0441\u043b\u0443 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432, \u0430 \u043d\u0435 \u0432\u044b\u0431\u0438\u0440\u0430\u043b \u043b\u044e\u0431\u0438\u043c\u0447\u0438\u043a\u043e\u0432.<\/p>\n<h3>\u0421\u043e\u0437\u0434\u0430\u0434\u0438\u043c \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432<\/h3>\n<pre><code class=\"python\">import torch.nn as nn   class FFNExpert(nn.Module):     def __init__(self, input_dim, hidden_dims, output_dim, dropout_prob=0.5):         super(FFNExpert, self).__init__()          layers = []         self.linears = nn.ModuleList()          prev_dim = input_dim         for hidden_dim in hidden_dims:             linear = nn.Linear(prev_dim, hidden_dim)             self.linears.append(linear)             layers.append(linear)             layers.append(nn.LayerNorm(hidden_dim))             layers.append(nn.ReLU())             layers.append(nn.Dropout(dropout_prob))             prev_dim = hidden_dim          final_linear = nn.Linear(prev_dim, output_dim)         self.linears.append(final_linear)         layers.append(final_linear)          self.network = nn.Sequential(*layers)         self._initialize_weights()      def _initialize_weights(self):         for linear in self.linears:             nn.init.xavier_uniform_(linear.weight)             if linear.bias is not None:                 nn.init.zeros_(linear.bias)      def forward(self, x):         return self.network(x)   class FFNExpertSmall(FFNExpert):     def __init__(self, input_dim, output_dim):         super(FFNExpertSmall, self).__init__(input_dim, hidden_dims=[256, 128], output_dim=output_dim, dropout_prob=0.3)   class FFNExpertMedium(FFNExpert):     def __init__(self, input_dim, output_dim):         super(FFNExpertMedium, self).__init__(input_dim, hidden_dims=[512, 256, 128], output_dim=output_dim,                                               dropout_prob=0.4)   class FFNExpertLarge(FFNExpert):     def __init__(self, input_dim, output_dim):         super(FFNExpertLarge, self).__init__(input_dim, hidden_dims=[1024, 512, 256, 128], output_dim=output_dim,                                              dropout_prob=0.5)   class FFNExpertVeryLarge(FFNExpert):     def __init__(self, input_dim, output_dim):         super(FFNExpertVeryLarge, self).__init__(input_dim, hidden_dims=[2048, 1024, 512, 256, 128],                                                  output_dim=output_dim, dropout_prob=0.6) <\/code><\/pre>\n<p>\u0422\u0443\u0442 \u0432 \u0446\u0435\u043b\u043e\u043c \u0432\u0441\u0435 \u043f\u0440\u043e\u0441\u0442\u043e, \u043c\u044b \u043d\u0430\u0431\u0440\u043e\u0441\u0430\u043b\u0438 4 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430 \u0441 \u0440\u0430\u0437\u043d\u044b\u043c\u0438 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u043c\u0438 \u0438 \u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u0442\u043e \u043a\u0430\u043a \u043e\u043d\u0438 \u0431\u0443\u0434\u0443\u0442 \u043e\u0431\u0443\u0447\u0430\u0442\u044c\u0441\u044f.<\/p>\n<h3>\u041d\u0430\u0447\u043d\u0435\u043c \u0441\u043e\u0431\u0438\u0440\u0430\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u044c<\/h3>\n<pre><code class=\"python\">import torch.nn as nn import timm  class ViT_backbone(nn.Module):     def __init__(self):         super().__init__()         self.backbone = timm.create_model('vit_base_patch16_224',                                           pretrained=True)          for param in self.backbone.parameters():             param.requires_grad = False          self.embed_dim = self.backbone.head.in_features          self.backbone.reset_classifier(0)          self.ln = nn.LayerNorm(self.embed_dim)         self.ln2 = nn.LayerNorm(self.embed_dim)         self.attn = nn.MultiheadAttention(embed_dim=self.embed_dim,                                           num_heads=8,                                           batch_first=True)      def forward(self, x):         skip = self.backbone.forward_features(x)  # [B, N, D]<\/code><\/pre>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-456798","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/456798","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=456798"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/456798\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=456798"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=456798"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=456798"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}