{"id":479657,"date":"2026-05-13T21:11:19","date_gmt":"2026-05-13T21:11:19","guid":{"rendered":"https:\/\/savepearlharbor.com\/?p=479657"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=479657","title":{"rendered":"AI \u0434\u043b\u044f PHP-\u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u043e\u0432. \u0427\u0430\u0441\u0442\u044c 6:\u00a0Bag of Words \u0438 TF\u2013IDF \u2013 \u043a\u0430\u043a \u043a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440 \u043f\u0440\u0435\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u0442\u0435\u043a\u0441\u0442 \u0432 \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u043a\u0443"},"content":{"rendered":"<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u041a\u0430\u043a \u043a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440 \u043f\u0440\u0435\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u0442\u0435\u043a\u0441\u0442 \u0432 \u0447\u0438\u0441\u043b\u0430 \u0438 \u043f\u043e\u0447\u0435\u043c\u0443 TF\u2013IDF \u0434\u0435\u0441\u044f\u0442\u0438\u043b\u0435\u0442\u0438\u044f\u043c\u0438 \u043e\u0441\u0442\u0430\u0432\u0430\u043b\u0441\u044f \u043e\u0441\u043d\u043e\u0432\u043e\u0439 \u043f\u043e\u0438\u0441\u043a\u043e\u0432\u044b\u0445 \u0441\u0438\u0441\u0442\u0435\u043c. \u0420\u0430\u0437\u0431\u0438\u0440\u0430\u0435\u043c Bag of Words, TF\u2013IDF \u0438 \u043f\u043e\u0438\u0441\u043a \u043f\u043e\u0445\u043e\u0436\u0438\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u043d\u0430 \u0447\u0438\u0441\u0442\u043e\u043c PHP.<\/p>\n<p><strong>\u042d\u0442\u043e \u0448\u0435\u0441\u0442\u0430\u044f \u0447\u0430\u0441\u0442\u044c \u043f\u0440\u043e\u0435\u043a\u0442\u0430.<\/strong><\/p>\n<p>\u0427\u0430\u0441\u0442\u044c 5: <a href=\"https:\/\/habr.com\/ru\/articles\/1019250\/\" rel=\"noopener noreferrer nofollow\">\u041e\u0442 \u043c\u0430\u0441\u0441\u0438\u0432\u043e\u0432 \u043a GPU: \u043a\u0430\u043a PHP-\u044d\u043a\u043e\u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u043f\u0440\u0438\u0445\u043e\u0434\u0438\u0442 \u043a \u043d\u0430\u0441\u0442\u043e\u044f\u0449\u0435\u043c\u0443 ML<\/a><br \/>\u0427\u0430\u0441\u0442\u044c 4: <a href=\"https:\/\/habr.com\/ru\/articles\/993966\/\" rel=\"noopener noreferrer nofollow\">\u041f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u0435 TransformersPHP<\/a><br \/>\u0427\u0430\u0441\u0442\u044c 3: <a href=\"https:\/\/habr.com\/ru\/articles\/984042\/\" rel=\"noopener noreferrer nofollow\">\u041f\u0440\u0430\u043a\u0442\u0438\u043a\u0430 \u0431\u0435\u0437 Python \u0438 data science<\/a><br \/>\u0427\u0430\u0441\u0442\u044c 2: <a href=\"https:\/\/habr.com\/ru\/articles\/966792\/\" rel=\"noopener noreferrer nofollow\">\u0421\u043e\u0431\u0438\u0440\u0430\u0435\u043c \u043f\u0440\u043e\u0441\u0442\u0435\u0439\u0448\u0443\u044e RAG-\u0441\u0438\u0441\u0442\u0435\u043c\u0443 \u043d\u0430 PHP \u0441 Neuron AI \u0437\u0430 \u0432\u0435\u0447\u0435\u0440<\/a><br \/>\u0427\u0430\u0441\u0442\u044c 1: <a href=\"https:\/\/habr.com\/ru\/articles\/948014\/\" rel=\"noopener noreferrer nofollow\">\u041a\u0430\u043a \u044f \u043f\u044b\u0442\u0430\u043b\u0441\u044f \u043f\u043e\u0434\u0440\u0443\u0436\u0438\u0442\u044c PHP \u0441 NER \u2013 \u0434\u0440\u0430\u043c\u0430 \u0432 5 \u0430\u043a\u0442\u0430\u0445<\/a><\/p>\n<p>\u041a\u043e\u0433\u0434\u0430 \u043c\u044b \u0433\u043e\u0432\u043e\u0440\u0438\u043c, \u0447\u0442\u043e \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u0438 &#171;\u043f\u043e\u043d\u0438\u043c\u0430\u044e\u0442 \u0442\u0435\u043a\u0441\u0442&#187;, \u043b\u0435\u0433\u043a\u043e \u0437\u0430\u0431\u044b\u0442\u044c \u043e\u0434\u043d\u0443 \u0432\u0430\u0436\u043d\u0443\u044e \u0432\u0435\u0449\u044c: \u043a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440 \u0438\u0437\u043d\u0430\u0447\u0430\u043b\u044c\u043d\u043e \u0432\u043e\u043e\u0431\u0449\u0435 \u043d\u0435 \u0443\u043c\u0435\u0435\u0442 \u043f\u043e\u043d\u0438\u043c\u0430\u0442\u044c \u0441\u043b\u043e\u0432\u0430.<\/p>\n<p>\u0414\u043b\u044f \u043c\u0430\u0448\u0438\u043d\u044b \u0442\u0435\u043a\u0441\u0442 \u2013 \u044d\u0442\u043e \u043f\u0440\u043e\u0441\u0442\u043e \u043f\u043e\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u044c \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432. \u0427\u0442\u043e\u0431\u044b \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u044b \u043c\u043e\u0433\u043b\u0438 \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u0441 \u044f\u0437\u044b\u043a\u043e\u043c, \u0442\u0435\u043a\u0441\u0442 \u043d\u0443\u0436\u043d\u043e \u043f\u0440\u0435\u0432\u0440\u0430\u0442\u0438\u0442\u044c \u0432 \u0447\u0438\u0441\u043b\u0430.<\/p>\n<p>\u0418\u043c\u0435\u043d\u043d\u043e \u0437\u0434\u0435\u0441\u044c \u043f\u043e\u044f\u0432\u043b\u044f\u044e\u0442\u0441\u044f Bag of Words \u0438 TF\u2013IDF \u2013 \u0434\u0432\u0430 \u0444\u0443\u043d\u0434\u0430\u043c\u0435\u043d\u0442\u0430\u043b\u044c\u043d\u044b\u0445 \u043f\u043e\u0434\u0445\u043e\u0434\u0430, \u0441 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u0438\u0441\u0442\u043e\u0440\u0438\u0447\u0435\u0441\u043a\u0438 \u043d\u0430\u0447\u0438\u043d\u0430\u043b\u043e\u0441\u044c NLP \u0438 \u043f\u043e\u0438\u0441\u043a \u043f\u043e \u0442\u0435\u043a\u0441\u0442\u0443.<\/p>\n<p>\u041d\u0435\u0441\u043c\u043e\u0442\u0440\u044f \u043d\u0430 \u0432\u043e\u0437\u0440\u0430\u0441\u0442, \u044d\u0442\u0438 \u043c\u0435\u0442\u043e\u0434\u044b \u0434\u043e \u0441\u0438\u0445 \u043f\u043e\u0440 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442\u0441\u044f:<\/p>\n<ul>\n<li>\n<p>\u0432 \u043f\u043e\u0438\u0441\u043a\u043e\u0432\u044b\u0445 \u0441\u0438\u0441\u0442\u0435\u043c\u0430\u0445;<\/p>\n<\/li>\n<li>\n<p>\u0432 FAQ \u0438 helpdesk;<\/p>\n<\/li>\n<li>\n<p>\u0432 \u043a\u043e\u0440\u043f\u043e\u0440\u0430\u0442\u0438\u0432\u043d\u044b\u0445 \u043f\u043e\u0438\u0441\u043a\u043e\u0432\u0438\u043a\u0430\u0445;<\/p>\n<\/li>\n<li>\n<p>\u0432 \u0440\u0435\u043a\u043e\u043c\u0435\u043d\u0434\u0430\u0446\u0438\u044f\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432;<\/p>\n<\/li>\n<li>\n<p>\u0432 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438 \u0442\u0435\u043a\u0441\u0442\u043e\u0432.<\/p>\n<\/li>\n<\/ul>\n<p>\u0418 \u0433\u043b\u0430\u0432\u043d\u043e\u0435 \u2013 \u043e\u043d\u0438 \u043f\u043e\u043c\u043e\u0433\u0430\u044e\u0442 \u043f\u043e\u043d\u044f\u0442\u044c, \u043a\u0430\u043a \u0432\u043e\u043e\u0431\u0449\u0435 \u0442\u0435\u043a\u0441\u0442 \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u0441\u044f \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u043a\u043e\u0439<\/p>\n<hr\/>\n<h3>\u0418\u0441\u0442\u043e\u0440\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0441\u043f\u0440\u0430\u0432\u043a\u0430<\/h3>\n<p>\u0418\u0441\u0442\u043e\u0440\u0438\u0447\u0435\u0441\u043a\u0438 \u044d\u0442\u0438 \u043f\u043e\u0434\u0445\u043e\u0434\u044b \u043f\u043e\u044f\u0432\u0438\u043b\u0438\u0441\u044c \u0432 \u0440\u0430\u0437\u043d\u044b\u0435 \u0433\u043e\u0434\u044b \u0438 \u0440\u0430\u0437\u0432\u0438\u0432\u0430\u043b\u0438\u0441\u044c \u043f\u043e\u0441\u0442\u0435\u043f\u0435\u043d\u043d\u043e. <\/p>\n<p><a href=\"https:\/\/ru.wikipedia.org\/wiki\/%D0%9C%D0%B5%D1%88%D0%BE%D0%BA_%D1%81%D0%BB%D0%BE%D0%B2\" rel=\"noopener noreferrer nofollow\">Bag of Words<\/a> \u043d\u0430\u0447\u0430\u043b \u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u0442\u044c\u0441\u044f \u0435\u0449\u0451 \u0432 1950-\u0445 \u0433\u043e\u0434\u0430\u0445 \u043a\u0430\u043a \u043f\u0440\u043e\u0441\u0442\u043e\u0439 \u0441\u043f\u043e\u0441\u043e\u0431 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u044f \u0442\u0435\u043a\u0441\u0442\u0430 \u0447\u0435\u0440\u0435\u0437 \u043d\u0430\u0431\u043e\u0440 \u0441\u043b\u043e\u0432. \u0410\u043a\u0442\u0438\u0432\u043d\u043e \u0440\u0430\u0437\u0432\u0438\u0432\u0430\u0442\u044c\u0441\u044f \u044d\u0442\u043e\u0442 \u043f\u043e\u0434\u0445\u043e\u0434 \u0441\u0442\u0430\u043b \u0432 1960-\u0445 \u0432\u043c\u0435\u0441\u0442\u0435 \u0441 \u0440\u0430\u0431\u043e\u0442\u0430\u043c\u0438 \u0416\u0435\u0440\u0430\u0440\u0430 \u0421\u0430\u043b\u0442\u043e\u043d\u0430 \u0438 \u043f\u043e\u044f\u0432\u043b\u0435\u043d\u0438\u0435\u043c vector space model.  \u200b <\/p>\n<p><a href=\"https:\/\/ru.wikipedia.org\/wiki\/TF-IDF\" rel=\"noopener noreferrer nofollow\">TF\u2013IDF<\/a> \u043f\u043e\u044f\u0432\u0438\u043b\u0441\u044f \u043f\u043e\u0437\u0436\u0435 &#8212; \u0432 \u043d\u0430\u0447\u0430\u043b\u0435 1970-\u0445. \u0418\u0434\u0435\u044e IDF \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0438\u043b\u0430 \u041a\u0430\u0440\u0435\u043d \u0421\u043f\u044d\u0440\u043a \u0414\u0436\u043e\u043d\u0441 \u0432 1972 \u0433\u043e\u0434\u0443, \u0430 \u0437\u0430\u0442\u0435\u043c TF\u2013IDF \u0441\u0442\u0430\u043b \u043f\u043e\u043f\u0443\u043b\u044f\u0440\u043d\u044b\u043c \u0431\u043b\u0430\u0433\u043e\u0434\u0430\u0440\u044f \u0438\u0441\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u043d\u0438\u044f\u043c \u0416\u0435\u0440\u0430\u0440\u0430 \u0421\u0430\u043b\u0442\u043e\u043d\u0430 \u0432 \u043e\u0431\u043b\u0430\u0441\u0442\u0438 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u043e\u043d\u043d\u043e\u0433\u043e \u043f\u043e\u0438\u0441\u043a\u0430.<\/p>\n<h3>Bag of Words: &#171;\u043c\u0435\u0448\u043e\u043a \u0441\u043b\u043e\u0432&#187;<\/h3>\n<p>BOW &#8212; Bag of Words (\u043c\u0435\u0448\u043e\u043a \u0441\u043b\u043e\u0432) \u2013 \u044d\u0442\u043e \u0441\u043f\u043e\u0441\u043e\u0431 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u0438\u0442\u044c \u0442\u0435\u043a\u0441\u0442 \u0431\u0435\u0437 \u0443\u0447\u0451\u0442\u0430 \u043f\u043e\u0440\u044f\u0434\u043a\u0430 \u0441\u043b\u043e\u0432. \u041d\u0430\u0441 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u0443\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u0442\u043e, \u043a\u0430\u043a\u0438\u0435 \u0441\u043b\u043e\u0432\u0430 \u0432\u0441\u0442\u0440\u0435\u0442\u0438\u043b\u0438\u0441\u044c \u0438 \u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0440\u0430\u0437.<\/p>\n<p>\u041f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u0438\u043c \u0434\u0432\u0430 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044f:<\/p>\n<ul>\n<li>\n<p>\u200b&#187;\u041a\u043e\u0442 \u0435\u0441\u0442 \u0440\u044b\u0431\u0443&#187;<\/p>\n<\/li>\n<li>\n<p>&#171;\u0420\u044b\u0431\u0443 \u0435\u0441\u0442 \u043a\u043e\u0442&#187;<\/p>\n<\/li>\n<\/ul>\n<p>\u0414\u043b\u044f \u0447\u0435\u043b\u043e\u0432\u0435\u043a\u0430 \u043e\u043d\u0438 \u043f\u043e\u0447\u0442\u0438 \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u044b. \u0414\u043b\u044f Bag of Words \u2013 \u0430\u0431\u0441\u043e\u043b\u044e\u0442\u043d\u043e \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u044b.<\/p>\n<p>\u041c\u044b \u043a\u0430\u043a \u0431\u044b \u0432\u044b\u0441\u044b\u043f\u0430\u0435\u043c \u0441\u043b\u043e\u0432\u0430 \u0438\u0437 \u0442\u0435\u043a\u0441\u0442\u0430 \u0432 \u043c\u0435\u0448\u043e\u043a, \u043f\u0435\u0440\u0435\u043c\u0435\u0448\u0438\u0432\u0430\u0435\u043c, \u0437\u0430\u0431\u044b\u0432\u0430\u044f \u043e\u0431 \u0438\u0445 \u043f\u043e\u0440\u044f\u0434\u043a\u0435 \u0438 \u0441\u0447\u0438\u0442\u0430\u0435\u043c \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0441\u043b\u043e\u0432\u0430.<\/p>\n<h3>\u041a\u0430\u043a \u0441\u0442\u0440\u043e\u0438\u0442\u0441\u044f \u0441\u043b\u043e\u0432\u0430\u0440\u044c<\/h3>\n<p>\u041f\u0435\u0440\u0432\u044b\u0439 \u0448\u0430\u0433 \u2013 \u043f\u043e\u0441\u0442\u0440\u043e\u0438\u0442\u044c \u0441\u043b\u043e\u0432\u0430\u0440\u044c. \u042d\u0442\u043e \u043f\u0440\u043e\u0441\u0442\u043e \u0441\u043f\u0438\u0441\u043e\u043a \u0432\u0441\u0435\u0445 \u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u044b\u0445 \u0441\u043b\u043e\u0432 \u0432\u043e \u0432\u0441\u0435\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0445.<\/p>\n<p>\u041f\u0443\u0441\u0442\u044c \u0443 \u043d\u0430\u0441 \u0435\u0441\u0442\u044c \u0442\u0440\u0438 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430:<\/p>\n<pre><code>D1: \u043a\u043e\u0442 \u0435\u0441\u0442 \u0440\u044b\u0431\u0443D2: \u043a\u043e\u0442 \u043b\u044e\u0431\u0438\u0442 \u0440\u044b\u0431\u0443D3: \u0441\u043e\u0431\u0430\u043a\u0430 \u0435\u0441\u0442 \u043c\u044f\u0441\u043e<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:87px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0421\u043d\u0430\u0447\u0430\u043b\u0430 \u0441\u0442\u0440\u043e\u0438\u0442\u0441\u044f \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0432\u0441\u0435\u0445 \u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u044b\u0445 \u0441\u043b\u043e\u0432:<\/p>\n<pre><code>[\u043a\u043e\u0442, \u0435\u0441\u0442, \u0440\u044b\u0431\u0443, \u043b\u044e\u0431\u0438\u0442, \u0441\u043e\u0431\u0430\u043a\u0430, \u043c\u044f\u0441\u043e]<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041f\u043e\u0441\u043b\u0435 \u044d\u0442\u043e\u0433\u043e \u043a\u0430\u0436\u0434\u043e\u043c\u0443 \u0441\u043b\u043e\u0432\u0443 \u043d\u0430\u0437\u043d\u0430\u0447\u0430\u0435\u0442\u0441\u044f \u0438\u043d\u0434\u0435\u043a\u0441:<\/p>\n<pre><code>\u043a\u043e\u0442 \u2192 0\u0435\u0441\u0442 \u2192 1\u0440\u044b\u0431\u0443 \u2192 2\u043b\u044e\u0431\u0438\u0442 \u2192 3\u0441\u043e\u0431\u0430\u043a\u0430 \u2192 4\u043c\u044f\u0441\u043e \u2192 5<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<h3>\u041f\u0440\u0435\u0432\u0440\u0430\u0449\u0430\u0435\u043c \u0442\u0435\u043a\u0441\u0442 \u0432 \u0432\u0435\u043a\u0442\u043e\u0440<\/h3>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043a\u0430\u0436\u0434\u044b\u0439 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442 \u043c\u043e\u0436\u043d\u043e \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u0438\u0442\u044c \u043a\u0430\u043a \u0447\u0438\u0441\u043b\u043e\u0432\u043e\u0439 \u0432\u0435\u043a\u0442\u043e\u0440 \u0434\u043b\u0438\u043d\u044b |V|, \u0433\u0434\u0435 |V| \u2013 \u0440\u0430\u0437\u043c\u0435\u0440 \u0441\u043b\u043e\u0432\u0430\u0440\u044f.<\/p>\n<p>\u0414\u043b\u044f \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430: <strong>\u043a\u043e\u0442 \u0435\u0441\u0442 \u0440\u044b\u0431\u0443 <\/strong>\u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c:<\/p>\n<pre><code>[1, 1, 1, 0, 0, 0]<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0414\u043b\u044f: <strong>\u043a\u043e\u0442 \u043b\u044e\u0431\u0438\u0442 \u0440\u044b\u0431\u0443<\/strong>:<\/p>\n<pre><code>[1, 0, 1, 1, 0, 0]<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0410 \u0434\u043b\u044f: <strong>\u0441\u043e\u0431\u0430\u043a\u0430 \u0435\u0441\u0442 \u043c\u044f\u0441\u043e<\/strong>:<\/p>\n<pre><code>[0, 1, 0, 0, 1, 1]<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041a\u0430\u0436\u0434\u043e\u0435 \u0447\u0438\u0441\u043b\u043e \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442, \u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0440\u0430\u0437 \u0441\u043b\u043e\u0432\u043e \u0432\u0441\u0442\u0440\u0435\u0442\u0438\u043b\u043e\u0441\u044c \u0432 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0435.<\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/7cb\/3c8\/44e\/7cb3c844e45ac9b8dcbec8d2ab9dab7f.png\" alt=\"BOW - \u041c\u0435\u0448\u043e\u043a \u0441\u043b\u043e\u0432: \u0432\u0435\u043a\u0442\u043e\u0440\u044b\" title=\"BOW - \u041c\u0435\u0448\u043e\u043a \u0441\u043b\u043e\u0432: \u0432\u0435\u043a\u0442\u043e\u0440\u044b\" width=\"1536\" height=\"1024\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/7cb\/3c8\/44e\/7cb3c844e45ac9b8dcbec8d2ab9dab7f.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/7cb\/3c8\/44e\/7cb3c844e45ac9b8dcbec8d2ab9dab7f.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>BOW &#8212; \u041c\u0435\u0448\u043e\u043a \u0441\u043b\u043e\u0432: \u0432\u0435\u043a\u0442\u043e\u0440\u044b<\/figcaption><\/div>\n<\/figure>\n<h3>\u041d\u0435\u043c\u043d\u043e\u0433\u043e \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u043a\u0438<\/h3>\n<p>\u0424\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u043e Bag of Words \u043c\u043e\u0436\u043d\u043e \u043e\u043f\u0438\u0441\u0430\u0442\u044c \u0442\u0430\u043a:<\/p>\n<p>\u041f\u0443\u0441\u0442\u044c \u0441\u043b\u043e\u0432\u0430\u0440\u044c:<\/p>\n<p><img decoding=\"async\" class=\"formula\" source=\"V = {w_1, w_2, \\dots, w_n}\" alt=\"V = {w_1, w_2, \\dots, w_n}\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/6\/62\/62a\/62a4833fc4700e7b2f0dd5c06fb3d016.svg\" width=\"144\" height=\"16\" data-width=\"18.786\" data-height=\"2.262\" data-vertical-align=\"-0.566\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/6\/62\/62a\/62a4833fc4700e7b2f0dd5c06fb3d016.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/6\/62\/62a\/62a4833fc4700e7b2f0dd5c06fb3d016.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<p>\u0422\u043e\u0433\u0434\u0430 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u043a\u0430\u043a \u0432\u0435\u043a\u0442\u043e\u0440:<\/p>\n<p><img decoding=\"async\" class=\"formula\" source=\"x(d) = (c_1, c_2, \\dots, c_n)\" alt=\"x(d) = (c_1, c_2, \\dots, c_n)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/2\/25\/253\/2532bc442233a9dee8e00b9ea6f12c01.svg\" width=\"168\" height=\"16\" data-width=\"21.117\" data-height=\"2.262\" data-vertical-align=\"-0.566\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/2\/25\/253\/2532bc442233a9dee8e00b9ea6f12c01.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/2\/25\/253\/2532bc442233a9dee8e00b9ea6f12c01.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<p>\u0433\u0434\u0435:<\/p>\n<ul>\n<li>\n<p><img decoding=\"async\" class=\"formula inline\" source=\"c\u1d62\" alt=\"c\u1d62\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/0\/04\/04d\/04d214d19de3c689a70b11f273eae949.svg\" width=\"16\" height=\"16\" data-width=\"2.337\" data-height=\"2.149\" data-vertical-align=\"-0.452\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/0\/04\/04d\/04d214d19de3c689a70b11f273eae949.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/0\/04\/04d\/04d214d19de3c689a70b11f273eae949.svg 781w\" loading=\"lazy\" decode=\"async\"\/>\u2013 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0432\u0445\u043e\u0436\u0434\u0435\u043d\u0438\u0439 \u0441\u043b\u043e\u0432\u0430 <img decoding=\"async\" class=\"formula inline\" source=\"w\u1d62\" alt=\"w\u1d62\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/3\/3a\/3aa\/3aad3fc08e549ca2d61b2641408d506b.svg\" width=\"16\" height=\"16\" data-width=\"2.977\" data-height=\"2.149\" data-vertical-align=\"-0.452\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/3\/3a\/3aa\/3aad3fc08e549ca2d61b2641408d506b.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/3\/3a\/3aa\/3aad3fc08e549ca2d61b2641408d506b.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<\/li>\n<li>\n<p><img decoding=\"async\" class=\"formula inline\" source=\"n\" alt=\"n\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/7\/7b\/7b8\/7b8b965ad4bca0e41ab51de7b31363a1.svg\" width=\"12\" height=\"12\" data-width=\"1.357\" data-height=\"1.025\" data-vertical-align=\"-0.025\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/7\/7b\/7b8\/7b8b965ad4bca0e41ab51de7b31363a1.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/7\/7b\/7b8\/7b8b965ad4bca0e41ab51de7b31363a1.svg 781w\" loading=\"lazy\" decode=\"async\"\/> \u2013 \u0440\u0430\u0437\u043c\u0435\u0440 \u0441\u043b\u043e\u0432\u0430\u0440\u044f.<\/p>\n<\/li>\n<\/ul>\n<p>\u041d\u0430 \u044d\u0442\u043e\u043c \u044d\u0442\u0430\u043f\u0435 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b \u0443\u0436\u0435 \u0441\u0442\u0430\u043d\u043e\u0432\u044f\u0442\u0441\u044f \u043e\u0431\u044a\u0435\u043a\u0442\u0430\u043c\u0438 \u043b\u0438\u043d\u0435\u0439\u043d\u043e\u0439 \u0430\u043b\u0433\u0435\u0431\u0440\u044b.<\/p>\n<p>\u042d\u0442\u043e \u043e\u0431\u044b\u0447\u043d\u044b\u0439 \u0432\u0435\u043a\u0442\u043e\u0440 \u0432 <img decoding=\"async\" class=\"formula inline\" source=\" \\mathbb{R}^n\" alt=\" \\mathbb{R}^n\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/6\/6d\/6d7\/6d744292f01e8793cf6cb01f80be72a9.svg\" width=\"16\" height=\"16\" data-width=\"2.781\" data-height=\"2.262\" data-vertical-align=\"-0.566\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/6\/6d\/6d7\/6d744292f01e8793cf6cb01f80be72a9.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/6\/6d\/6d7\/6d744292f01e8793cf6cb01f80be72a9.svg 781w\" loading=\"lazy\" decode=\"async\"\/> (\u0434\u043b\u044f \u0447\u0438\u0441\u0442\u043e\u0433\u043e Bag of Words \u2013 \u0444\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u043e \u0432 <img decoding=\"async\" class=\"formula inline\" source=\"\\mathbb{N}^n\" alt=\"\\mathbb{N}^n\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/8\/8b\/8b0\/8b0949f1187bf26ef34c58fa019e816b.svg\" width=\"16\" height=\"16\" data-width=\"2.781\" data-height=\"2.262\" data-vertical-align=\"-0.566\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/8\/8b\/8b0\/8b0949f1187bf26ef34c58fa019e816b.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/8\/8b\/8b0\/8b0949f1187bf26ef34c58fa019e816b.svg 781w\" loading=\"lazy\" decode=\"async\"\/>, \u043d\u043e \u043c\u043e\u0436\u043d\u043e \u0440\u0430\u0441\u0441\u043c\u0430\u0442\u0440\u0438\u0432\u0430\u0442\u044c \u043a\u0430\u043a \u0432\u0435\u043a\u0442\u043e\u0440 \u0432 <img decoding=\"async\" class=\"formula inline\" source=\" \\mathbb{R}^n\" alt=\" \\mathbb{R}^n\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/6\/6d\/6d7\/6d744292f01e8793cf6cb01f80be72a9.svg\" width=\"16\" height=\"16\" data-width=\"2.781\" data-height=\"2.262\" data-vertical-align=\"-0.566\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/6\/6d\/6d7\/6d744292f01e8793cf6cb01f80be72a9.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/6\/6d\/6d7\/6d744292f01e8793cf6cb01f80be72a9.svg 781w\" loading=\"lazy\" decode=\"async\"\/>.\u200b<\/p>\n<p>\u0418 \u0443\u0436\u0435 \u043d\u0430 \u044d\u0442\u043e\u043c \u044d\u0442\u0430\u043f\u0435 \u043c\u044b \u043c\u043e\u0436\u0435\u043c:<\/p>\n<ul>\n<li>\n<p>\u200b\u0441\u0440\u0430\u0432\u043d\u0438\u0432\u0430\u0442\u044c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b<\/p>\n<\/li>\n<li>\n<p>\u043e\u0431\u0443\u0447\u0430\u0442\u044c \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0442\u043e\u0440\u044b<\/p>\n<\/li>\n<li>\n<p>\u0438\u0441\u043a\u0430\u0442\u044c \u043f\u043e\u0445\u043e\u0436\u0438\u0435 \u0442\u0435\u043a\u0441\u0442\u044b<\/p>\n<\/li>\n<\/ul>\n<p>\u041d\u043e \u0435\u0441\u0442\u044c \u043e\u0434\u043d\u0430 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0430.<\/p>\n<h3>\u0413\u043b\u0430\u0432\u043d\u0430\u044f \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0430 Bag of Words<\/h3>\n<p>\u0423 \u043f\u043e\u0434\u0445\u043e\u0434\u0430 \u0435\u0441\u0442\u044c \u0441\u0435\u0440\u044c\u0451\u0437\u043d\u044b\u0439 \u043d\u0435\u0434\u043e\u0441\u0442\u0430\u0442\u043e\u043a, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043d\u0430\u0437\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u043e\u0439 \u0447\u0430\u0441\u0442\u043e\u0442.<\/p>\n<p>\u0412\u0441\u0435 \u0441\u043b\u043e\u0432\u0430 \u0441\u0447\u0438\u0442\u0430\u044e\u0442\u0441\u044f \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u043e \u0432\u0430\u0436\u043d\u044b\u043c\u0438.<\/p>\n<p>\u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440: \u0441\u043b\u043e\u0432\u043e &#171;\u043a\u043e\u0442&#187; \u0441\u043b\u043e\u0432\u043e &#171;\u0438&#187;.<\/p>\n<p>\u0421\u043b\u043e\u0432\u043e &#171;\u0438&#187; \u0431\u0443\u0434\u0435\u0442 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0442\u044c\u0441\u044f \u043f\u043e\u0447\u0442\u0438 \u0432 \u043a\u0430\u0436\u0434\u043e\u043c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0435. \u0415\u0433\u043e \u0447\u0430\u0441\u0442\u043e\u0442\u0430 \u0431\u043e\u043b\u044c\u0448\u0430\u044f, \u043d\u043e \u0441\u043c\u044b\u0441\u043b\u043e\u0432\u0430\u044f \u0446\u0435\u043d\u043d\u043e\u0441\u0442\u044c \u043f\u043e\u0447\u0442\u0438 \u043d\u0443\u043b\u0435\u0432\u0430\u044f.\u200b<\/p>\n<p>Bag of Words \u043d\u0435 \u0440\u0430\u0437\u043b\u0438\u0447\u0430\u0435\u0442:<\/p>\n<ul>\n<li>\n<p>\u0432\u0430\u0436\u043d\u044b\u0435 \u0441\u043b\u043e\u0432\u0430<\/p>\n<\/li>\n<li>\n<p>\u0441\u043b\u0443\u0436\u0435\u0431\u043d\u044b\u0435 \u0441\u043b\u043e\u0432\u0430<\/p>\n<\/li>\n<li>\n<p>\u0440\u0435\u0434\u043a\u0438\u0435, \u043d\u043e \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0442\u0438\u0432\u043d\u044b\u0435 \u0442\u0435\u0440\u043c\u0438\u043d\u044b<\/p>\n<\/li>\n<\/ul>\n<p>\u0418\u043c\u0435\u043d\u043d\u043e \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u043d\u0430 \u0441\u0446\u0435\u043d\u0435 \u043f\u043e\u044f\u0432\u0438\u043b\u0441\u044f TF\u2013IDF.<\/p>\n<h3>TF\u2013IDF: \u0438\u0434\u0435\u044f \u0432 \u043e\u0434\u043d\u043e\u0439 \u0444\u0440\u0430\u0437\u0435<\/h3>\n<p>TF\u2013IDF \u0440\u0430\u0441\u0448\u0438\u0444\u0440\u043e\u0432\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u043a\u0430\u043a: Term Frequency \u2013 Inverse Document Frequency<\/p>\n<p>\u200b\u0418\u0434\u0435\u044f \u043e\u0447\u0435\u043d\u044c \u043f\u0440\u043e\u0441\u0442\u0430\u044f:<\/p>\n<ul>\n<li>\n<p>\u200b\u0441\u043b\u043e\u0432\u043e \u0432\u0430\u0436\u043d\u043e, \u0435\u0441\u043b\u0438 \u043e\u043d\u043e \u0447\u0430\u0441\u0442\u043e \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u0432 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0435<\/p>\n<\/li>\n<li>\n<p>\u043d\u043e \u043e\u043d\u043e \u0442\u0435\u0440\u044f\u0435\u0442 \u0446\u0435\u043d\u043d\u043e\u0441\u0442\u044c, \u0435\u0441\u043b\u0438 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u043f\u043e\u0447\u0442\u0438 \u0432\u043e \u0432\u0441\u0435\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0445<\/p>\n<\/li>\n<\/ul>\n<p>TF \u2013 &#171;\u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0447\u0430\u0441\u0442\u043e \u0441\u043b\u043e\u0432\u043e \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u0432 \u0434\u0430\u043d\u043d\u043e\u043c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0435&#187;<\/p>\n<p>\u200bIDF \u2013 &#171;\u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u043b\u043e\u0432\u043e \u0440\u0435\u0434\u043a\u043e\u0435 \u0432 \u043a\u043e\u0440\u043f\u0443\u0441\u0435&#187;<\/p>\n<p>\u0418\u0442\u043e\u0433\u043e\u0432\u044b\u0439 \u0432\u0435\u0441 \u2013 \u0438\u0445 \u043f\u0440\u043e\u0438\u0437\u0432\u0435\u0434\u0435\u043d\u0438\u0435.<\/p>\n<h3>TF (Term Frequency) \u2013 \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u043b\u043e\u0432\u043e \u0432\u0430\u0436\u043d\u043e \u0432\u043d\u0443\u0442\u0440\u0438 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430<\/h3>\n<p>\u0421\u0430\u043c\u0430\u044f \u043f\u0440\u043e\u0441\u0442\u0430\u044f \u0444\u043e\u0440\u043c\u0443\u043b\u0430 TF:<\/p>\n<p><img decoding=\"async\" class=\"formula\" source=\"\\mathrm{TF}(w,d)=count(w,d)\" alt=\"\\mathrm{TF}(w,d)=count(w,d)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/9\/92\/926\/9261574fc4ee1301bb867cc59d36bf6a.svg\" width=\"176\" height=\"16\" data-width=\"22.798\" data-height=\"2.262\" data-vertical-align=\"-0.566\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/9\/92\/926\/9261574fc4ee1301bb867cc59d36bf6a.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/9\/92\/926\/9261574fc4ee1301bb867cc59d36bf6a.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<p>\u041d\u043e \u0447\u0430\u0449\u0435 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442 \u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044e:<\/p>\n<p><img decoding=\"async\" class=\"formula\" source=\"\\mathrm{TF}(w,d)=\\frac{count(w,d)}{|d|}\" alt=\"\\mathrm{TF}(w,d)=\\frac{count(w,d)}{|d|}\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/2\/2a\/2ab\/2abb5d1ed541cf7fd3654fc4c6f1a4ba.svg\" width=\"184\" height=\"40\" data-width=\"23.794\" data-height=\"5.473\" data-vertical-align=\"-2.171\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/2\/2a\/2ab\/2abb5d1ed541cf7fd3654fc4c6f1a4ba.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/2\/2a\/2ab\/2abb5d1ed541cf7fd3654fc4c6f1a4ba.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<p>\u0433\u0434\u0435:<\/p>\n<ul>\n<li>\n<p><img decoding=\"async\" class=\"formula inline\" source=\"count(w,d)\" alt=\"count(w,d)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/2\/26\/260\/260e8cbeae5bad870a56f3b4aa588efd.svg\" width=\"88\" height=\"16\" data-width=\"11.108\" data-height=\"2.262\" data-vertical-align=\"-0.566\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/2\/26\/260\/260e8cbeae5bad870a56f3b4aa588efd.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/2\/26\/260\/260e8cbeae5bad870a56f3b4aa588efd.svg 781w\" loading=\"lazy\" decode=\"async\"\/> \u2013 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0441\u043b\u043e\u0432\u0430<\/p>\n<\/li>\n<li>\n<p><img decoding=\"async\" class=\"formula inline\" source=\"|d|\" alt=\"|d|\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/e\/e4\/e4b\/e4bc24fb31457d9c06933642a81d7723.svg\" width=\"16\" height=\"16\" data-width=\"2.434\" data-height=\"2.26\" data-vertical-align=\"-0.564\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/e\/e4\/e4b\/e4bc24fb31457d9c06933642a81d7723.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/e\/e4\/e4b\/e4bc24fb31457d9c06933642a81d7723.svg 781w\" loading=\"lazy\" decode=\"async\"\/> \u2013 \u0434\u043b\u0438\u043d\u0430 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430<\/p>\n<\/li>\n<\/ul>\n<p>\u0418\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0430\u0446\u0438\u044f \u043f\u0440\u043e\u0441\u0442\u0430: <\/p>\n<ul>\n<li>\n<p>0 \u2192 \u0441\u043b\u043e\u0432\u0430 \u043d\u0435\u0442 <\/p>\n<\/li>\n<li>\n<p>\u0447\u0435\u043c \u0431\u043e\u043b\u044c\u0448\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435, \u0442\u0435\u043c \u0432\u0430\u0436\u043d\u0435\u0435 \u0441\u043b\u043e\u0432\u043e \u0432 \u0440\u0430\u043c\u043a\u0430\u0445 \u0434\u0430\u043d\u043d\u043e\u0433\u043e \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430<\/p>\n<\/li>\n<\/ul>\n<h3>IDF (Inverse Document Frequency) \u2013 \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u043b\u043e\u0432\u043e \u0440\u0435\u0434\u043a\u043e\u0435<\/h3>\n<p>IDF \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u043b\u043e\u0432\u043e \u0440\u0435\u0434\u043a\u043e\u0435.<\/p>\n<blockquote>\n<p>\u0430 \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u044d\u0442\u043e \u0441\u043b\u043e\u0432\u043e \u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u043e \u0434\u043b\u044f \u0432\u0441\u0435\u0433\u043e \u043a\u043e\u0440\u043f\u0443\u0441\u0430?<\/p>\n<\/blockquote>\n<p>\u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f IDF:<\/p>\n<p><img decoding=\"async\" class=\"formula\" source=\"\\mathrm{IDF}(w)=\\ln\\left(\\frac{N}{df(w)}\\right)\" alt=\"\\mathrm{IDF}(w)=\\ln\\left(\\frac{N}{df(w)}\\right)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/9\/95\/959\/959db8588906adfcfc2f13ce1bfcb3b0.svg\" width=\"176\" height=\"40\" data-width=\"22.81\" data-height=\"5.451\" data-vertical-align=\"-2.16\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/9\/95\/959\/959db8588906adfcfc2f13ce1bfcb3b0.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/9\/95\/959\/959db8588906adfcfc2f13ce1bfcb3b0.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<p>\u0433\u0434\u0435:<\/p>\n<ul>\n<li>\n<p><img decoding=\"async\" class=\"formula inline\" source=\"ln\" alt=\"ln\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/f\/f8\/f8e\/f8e19f449f17c9d37dcc93dd244ec3bb.svg\" width=\"16\" height=\"12\" data-width=\"2.032\" data-height=\"1.595\" data-vertical-align=\"-0.025\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/f\/f8\/f8e\/f8e19f449f17c9d37dcc93dd244ec3bb.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/f\/f8\/f8e\/f8e19f449f17c9d37dcc93dd244ec3bb.svg 781w\" loading=\"lazy\" decode=\"async\"\/> \u2013 \u043d\u0430\u0442\u0443\u0440\u0430\u043b\u044c\u043d\u044b\u0439 \u043b\u043e\u0433\u0430\u0440\u0438\u0444\u043c (\u0435\u0433\u043e \u0436\u0435 \u0438 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u0434\u0430\u043b\u0435\u0435)<\/p>\n<\/li>\n<li>\n<p><img decoding=\"async\" class=\"formula inline\" source=\"N\" alt=\"N\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/8\/8d\/8d9\/8d9c307cb7f3c4a32822a51922d1ceaa.svg\" width=\"16\" height=\"12\" data-width=\"2.009\" data-height=\"1.545\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/8\/8d\/8d9\/8d9c307cb7f3c4a32822a51922d1ceaa.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/8\/8d\/8d9\/8d9c307cb7f3c4a32822a51922d1ceaa.svg 781w\" loading=\"lazy\" decode=\"async\"\/> \u2013 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432<\/p>\n<\/li>\n<li>\n<p><img decoding=\"async\" class=\"formula inline\" source=\"df(w)\" alt=\"df(w)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/6\/6a\/6a6\/6a65bbc3ec2d6fbf724b9675f779da66.svg\" width=\"40\" height=\"16\" data-width=\"5.801\" data-height=\"2.262\" data-vertical-align=\"-0.566\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/6\/6a\/6a6\/6a65bbc3ec2d6fbf724b9675f779da66.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/6\/6a\/6a6\/6a65bbc3ec2d6fbf724b9675f779da66.svg 781w\" loading=\"lazy\" decode=\"async\"\/> \u2013 \u0447\u0438\u0441\u043b\u043e \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432, \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0449\u0438\u0445 \u0441\u043b\u043e\u0432\u043e<\/p>\n<\/li>\n<\/ul>\n<p>\u0418\u043d\u043e\u0433\u0434\u0430 \u0435\u0449\u0451 \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u044e\u0442 \u0441\u0433\u043b\u0430\u0436\u0438\u0432\u0430\u043d\u0438\u0435:<\/p>\n<p><img decoding=\"async\" class=\"formula\" source=\"\\mathrm{IDF}(w) = \\ln\\left(\\frac{N + 1}{df(w) + 1}\\right) + 1\" alt=\"\\mathrm{IDF}(w) = \\ln\\left(\\frac{N + 1}{df(w) + 1}\\right) + 1\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/1\/17\/171\/1717438693c0bc068bafee2fc98d5a1e.svg\" width=\"240\" height=\"40\" data-width=\"30.604\" data-height=\"5.451\" data-vertical-align=\"-2.16\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/1\/17\/171\/1717438693c0bc068bafee2fc98d5a1e.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/1\/17\/171\/1717438693c0bc068bafee2fc98d5a1e.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<p>\u041a\u0430\u043a \u044d\u0442\u043e \u0438\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c:<\/p>\n<ul>\n<li>\n<p>\u0440\u0435\u0434\u043a\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \u2192 \u0432\u044b\u0441\u043e\u043a\u0438\u0439 IDF<\/p>\n<\/li>\n<li>\n<p>\u0447\u0430\u0441\u0442\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \u2192 \u043d\u0438\u0437\u043a\u0438\u0439 IDF<\/p>\n<\/li>\n<\/ul>\n<p>\u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440: &#171;SMTP&#187; \u043c\u043e\u0436\u0435\u0442 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0442\u044c\u0441\u044f \u0440\u0435\u0434\u043a\u043e, \u0432 \u0442\u043e\u0436\u0435 \u0432\u0440\u0435\u043c\u044f &#171;\u043a\u0430\u043a&#187; \u2013 \u043f\u043e\u0447\u0442\u0438 \u0432\u0435\u0437\u0434\u0435. <\/p>\n<p>\u0421\u043b\u0435\u0434\u043e\u0432\u0430\u0442\u0435\u043b\u044c\u043d\u043e:<\/p>\n<ul>\n<li>\n<p>&#171;SMTP&#187; \u0431\u0443\u0434\u0435\u0442 \u0438\u043c\u0435\u0442\u044c \u0432\u044b\u0441\u043e\u043a\u0438\u0439 \u0432\u0435\u0441<\/p>\n<\/li>\n<li>\n<p>&#171;\u043a\u0430\u043a&#187; \u2013 \u043f\u043e\u0447\u0442\u0438 \u043d\u0443\u043b\u0435\u0432\u043e\u0439<\/p>\n<\/li>\n<\/ul>\n<h4>\u041f\u0440\u0438\u043c\u0435\u0440 \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u044f<\/h4>\n<p>\u0414\u043e\u043f\u0443\u0441\u0442\u0438\u043c, \u0447\u0442\u043e \u0443 \u043d\u0430\u0441 \u0435\u0441\u0442\u044c:<\/p>\n<ul>\n<li>\n<p>\u0432\u0441\u0435\u0433\u043e 3 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430<\/p>\n<\/li>\n<li>\n<p>\u0441\u043b\u043e\u0432\u043e &#171;\u043a\u043e\u0442&#187; \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u0432 \u0434\u0432\u0443\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0445<\/p>\n<\/li>\n<\/ul>\n<p>\u0422\u043e\u0433\u0434\u0430:<\/p>\n<p><img decoding=\"async\" class=\"formula\" source=\"\\mathrm{IDF}(\\text{\u043a\u043e\u0442})=\\ln\\left(\\frac{3}{2}\\right)\\approx0.405\" alt=\"\\mathrm{IDF}(\\text{\u043a\u043e\u0442})=\\ln\\left(\\frac{3}{2}\\right)\\approx0.405\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/8\/87\/87b\/87ba33ff0376c5cbd297b51668f1b0d9.svg\" width=\"224\" height=\"40\" data-width=\"28.764\" data-height=\"5.428\" data-vertical-align=\"-2.148\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/8\/87\/87b\/87ba33ff0376c5cbd297b51668f1b0d9.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/8\/87\/87b\/87ba33ff0376c5cbd297b51668f1b0d9.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<p>\u0410 \u0441\u043b\u043e\u0432\u043e &#171;\u0441\u043e\u0431\u0430\u043a\u0430&#187; \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u0442\u043e\u043b\u044c\u043a\u043e \u043e\u0434\u0438\u043d \u0440\u0430\u0437:<\/p>\n<p><img decoding=\"async\" class=\"formula\" source=\"\\mathrm{IDF}(\\text{\u0441\u043e\u0431\u0430\u043a\u0430})=\\ln\\left(\\frac{3}{1}\\right)\\approx1.099\" alt=\"\\mathrm{IDF}(\\text{\u0441\u043e\u0431\u0430\u043a\u0430})=\\ln\\left(\\frac{3}{1}\\right)\\approx1.099\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/f\/f4\/f44\/f44bf9466d99243a6dda610d59e3412a.svg\" width=\"256\" height=\"40\" data-width=\"32.837\" data-height=\"5.428\" data-vertical-align=\"-2.148\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/f\/f4\/f44\/f44bf9466d99243a6dda610d59e3412a.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/f\/f4\/f44\/f44bf9466d99243a6dda610d59e3412a.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<p>\u0414\u0430\u0436\u0435 \u0435\u0441\u043b\u0438 \u0432 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0435 \u043e\u043d\u0438 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u044e\u0442\u0441\u044f \u043f\u043e \u043e\u0434\u043d\u043e\u043c\u0443 \u0440\u0430\u0437\u0443, &#171;\u0441\u043e\u0431\u0430\u043a\u0430&#187; \u0431\u0443\u0434\u0435\u0442 \u0432\u0435\u0441\u0438\u0442\u044c \u0437\u043d\u0430\u0447\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0431\u043e\u043b\u044c\u0448\u0435.<\/p>\n<h3>\u0424\u0438\u043d\u0430\u043b\u044c\u043d\u0430\u044f \u0444\u043e\u0440\u043c\u0443\u043b\u0430 TF\u2013IDF<\/h3>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043e\u0431\u044a\u0435\u0434\u0438\u043d\u044f\u0435\u043c TF \u0438 IDF:<\/p>\n<p><img decoding=\"async\" class=\"formula\" source=\"\\mathrm{TF\\text{-}IDF}(w,d)=\\mathrm{TF}(w,d)\\times\\mathrm{IDF}(w)\" alt=\"\\mathrm{TF\\text{-}IDF}(w,d)=\\mathrm{TF}(w,d)\\times\\mathrm{IDF}(w)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/8\/8b\/8bf\/8bfc73d011d6e5efd260989a6aaf9a01.svg\" width=\"280\" height=\"16\" data-width=\"35.308\" data-height=\"2.262\" data-vertical-align=\"-0.566\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/8\/8b\/8bf\/8bfc73d011d6e5efd260989a6aaf9a01.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/8\/8b\/8bf\/8bfc73d011d6e5efd260989a6aaf9a01.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<p>\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c:<\/p>\n<ul>\n<li>\n<p>\u0447\u0430\u0441\u0442\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \u0432\u043d\u0443\u0442\u0440\u0438 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430 \u2192 \u0432\u0435\u0441 \u0440\u0430\u0441\u0442\u0451\u0442;<\/p>\n<\/li>\n<li>\n<p>\u0447\u0430\u0441\u0442\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \u0432\u043e \u0432\u0441\u0451\u043c \u043a\u043e\u0440\u043f\u0443\u0441\u0435 \u2192 \u0432\u0435\u0441 \u043f\u0430\u0434\u0430\u0435\u0442.<\/p>\n<\/li>\n<\/ul>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/69f\/b34\/687\/69fb34687f420bedbb43418f7012307f.png\" alt=\"\u0422\u0435\u043f\u043b\u043e\u0432\u0430\u044f \u043a\u0430\u0440\u0442\u0430, \u043e\u0442\u043e\u0431\u0440\u0430\u0436\u0430\u044e\u0449\u0430\u044f \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f TF-IDF\" title=\"\u0422\u0435\u043f\u043b\u043e\u0432\u0430\u044f \u043a\u0430\u0440\u0442\u0430, \u043e\u0442\u043e\u0431\u0440\u0430\u0436\u0430\u044e\u0449\u0430\u044f \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f TF-IDF\" width=\"1536\" height=\"1024\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/69f\/b34\/687\/69fb34687f420bedbb43418f7012307f.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/69f\/b34\/687\/69fb34687f420bedbb43418f7012307f.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0422\u0435\u043f\u043b\u043e\u0432\u0430\u044f \u043a\u0430\u0440\u0442\u0430, \u043e\u0442\u043e\u0431\u0440\u0430\u0436\u0430\u044e\u0449\u0430\u044f \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f TF-IDF<\/figcaption><\/div>\n<\/figure>\n<h3>\u200b\u0412\u0435\u043a\u0442\u043e\u0440 TF\u2013IDF<\/h3>\n<p>\u041a\u0430\u043a \u0438 Bag of Words, TF\u2013IDF \u2013 \u044d\u0442\u043e \u0432\u0435\u043a\u0442\u043e\u0440.<\/p>\n<p>\u041e\u0442\u043b\u0438\u0447\u0438\u0435 \u0442\u043e\u043b\u044c\u043a\u043e \u0432 \u0442\u043e\u043c, \u0447\u0442\u043e \u0432\u043c\u0435\u0441\u0442\u043e \u0446\u0435\u043b\u044b\u0445 \u0447\u0438\u0441\u0435\u043b \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0432\u0435\u0449\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0435 \u0432\u0435\u0441\u0430.<\/p>\n<p><img decoding=\"async\" class=\"formula\" source=\"x(d) = (\\mathrm{tfidf}_1, \\mathrm{tfidf}_2, \\dots, \\mathrm{tfidf}_n)\" alt=\"x(d) = (\\mathrm{tfidf}_1, \\mathrm{tfidf}_2, \\dots, \\mathrm{tfidf}_n)\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/2\/2e\/2e0\/2e066a389931910a0c0fc6e45b8869dd.svg\" width=\"240\" height=\"16\" data-width=\"30.633\" data-height=\"2.262\" data-vertical-align=\"-0.566\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/2\/2e\/2e0\/2e066a389931910a0c0fc6e45b8869dd.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/2\/2e\/2e0\/2e066a389931910a0c0fc6e45b8869dd.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<p>\u042d\u0442\u043e\u0442 \u0432\u0435\u043a\u0442\u043e\u0440:<\/p>\n<ul>\n<li>\n<p>\u043e\u0431\u044b\u0447\u043d\u043e \u0445\u0440\u0430\u043d\u0438\u0442\u0441\u044f \u0432 \u0440\u0430\u0437\u0440\u0435\u0436\u0435\u043d\u043d\u043e\u043c \u0432\u0438\u0434\u0435 (\u0442\u043e\u043b\u044c\u043a\u043e \u043d\u0435\u043d\u0443\u043b\u0435\u0432\u044b\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f)<\/p>\n<\/li>\n<li>\n<p>\u0432\u044b\u0441\u043e\u043a\u043e\u0440\u0430\u0437\u043c\u0435\u0440\u043d\u044b\u0439<\/p>\n<\/li>\n<li>\n<p>\u0445\u043e\u0440\u043e\u0448\u043e \u043e\u0442\u0440\u0430\u0436\u0430\u0435\u0442 \u0441\u043c\u044b\u0441\u043b \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430 \u043d\u0430 \u0431\u0430\u0437\u043e\u0432\u043e\u043c \u0443\u0440\u043e\u0432\u043d\u0435<\/p>\n<\/li>\n<\/ul>\n<h3>\u0421\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432<\/h3>\n<p>TF\u2013IDF \u0447\u0430\u0441\u0442\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442 \u0432\u043c\u0435\u0441\u0442\u0435 \u0441 \u043a\u043e\u0441\u0438\u043d\u0443\u0441\u043d\u044b\u043c \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u043e\u043c (<a href=\"https:\/\/en.wikipedia.org\/wiki\/Cosine_similarity\" rel=\"noopener noreferrer nofollow\">cosine similarity<\/a>).<\/p>\n<p>\u041f\u043e\u0447\u0435\u043c\u0443? \u041f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e:<\/p>\n<ul>\n<li>\n<p>\u0434\u043b\u0438\u043d\u044b \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0440\u0430\u0437\u043d\u044b\u0435<\/p>\n<\/li>\n<li>\n<p>\u0432\u0430\u0436\u043d\u0430 \u043d\u0435 \u0441\u0443\u043c\u043c\u0430 \u0432\u0435\u0441\u043e\u0432, \u0430 \u043d\u0430\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u0430<\/p>\n<\/li>\n<\/ul>\n<p>\u200b\u041a\u043e\u0441\u0438\u043d\u0443\u0441\u043d\u043e\u0435 \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u043e \u0438\u0437\u043c\u0435\u0440\u044f\u0435\u0442 \u0443\u0433\u043e\u043b \u043c\u0435\u0436\u0434\u0443 \u0432\u0435\u043a\u0442\u043e\u0440\u0430\u043c\u0438, \u0430 \u043d\u0435 \u0440\u0430\u0441\u0441\u0442\u043e\u044f\u043d\u0438\u0435 \u043c\u0435\u0436\u0434\u0443 \u0442\u043e\u0447\u043a\u0430\u043c\u0438.<\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/6b1\/bc4\/7ed\/6b1bc47ed8f1a65261c13033c10056a8.png\" alt=\"\u041a\u043e\u0441\u0438\u043d\u0443\u0441\u043d\u043e\u0435 \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u043e \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432\" title=\"\u041a\u043e\u0441\u0438\u043d\u0443\u0441\u043d\u043e\u0435 \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u043e \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432\" width=\"1536\" height=\"1053\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/6b1\/bc4\/7ed\/6b1bc47ed8f1a65261c13033c10056a8.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/6b1\/bc4\/7ed\/6b1bc47ed8f1a65261c13033c10056a8.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u041a\u043e\u0441\u0438\u043d\u0443\u0441\u043d\u043e\u0435 \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u043e \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432<\/figcaption><\/div>\n<\/figure>\n<h3>\u041f\u043e\u0447\u0435\u043c\u0443 TF\u2013IDF \u0441\u0442\u0430\u043b \u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043e\u043c \u043f\u043e\u0438\u0441\u043a\u0430<\/h3>\n<p>TF\u2013IDF \u0434\u043e\u043b\u0433\u043e\u0435 \u0432\u0440\u0435\u043c\u044f \u0431\u044b\u043b \u043e\u0441\u043d\u043e\u0432\u043e\u0439 \u043f\u043e\u0438\u0441\u043a\u043e\u0432\u044b\u0445 \u0441\u0438\u0441\u0442\u0435\u043c, \u0438 \u0434\u0430\u0436\u0435 \u0441\u0435\u0433\u043e\u0434\u043d\u044f \u043f\u043e\u0445\u043e\u0436\u0438\u0435 \u0438\u0434\u0435\u0438 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442\u0441\u044f \u0432\u043d\u0443\u0442\u0440\u0438 Elasticsearch, Lucene, \u043a\u043e\u0440\u043f\u043e\u0440\u0430\u0442\u0438\u0432\u043d\u044b\u0445 \u043f\u043e\u0438\u0441\u043a\u043e\u0432\u0438\u043a\u043e\u0432 \u0438 \u0441\u0438\u0441\u0442\u0435\u043c \u0440\u0435\u043a\u043e\u043c\u0435\u043d\u0434\u0430\u0446\u0438\u0439.<\/p>\n<p>\u041f\u0440\u0438\u0447\u0438\u043d\u0430 \u043f\u0440\u043e\u0441\u0442\u0430: TF\u2013IDF \u0445\u043e\u0440\u043e\u0448\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0432 \u0437\u0430\u0434\u0430\u0447\u0430\u0445, \u0433\u0434\u0435 \u0442\u0435\u043a\u0441\u0442\u044b \u043e\u0442\u043d\u043e\u0441\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u043a\u043e\u0440\u043e\u0442\u043a\u0438\u0435, \u0432\u0430\u0436\u043d\u0430 \u0442\u0435\u0440\u043c\u0438\u043d\u043e\u043b\u043e\u0433\u0438\u044f \u0438 \u043d\u0443\u0436\u043d\u044b \u0431\u044b\u0441\u0442\u0440\u044b\u0435, \u043f\u043e\u043d\u044f\u0442\u043d\u044b\u0435 \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u044f. \u041c\u043e\u0434\u0435\u043b\u044c \u043b\u0435\u0433\u043a\u043e \u0438\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c, \u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u2013 \u043e\u0431\u044a\u044f\u0441\u043d\u0438\u0442\u044c.<\/p>\n<h3>\u041e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u044f Bag of Words \u0438 TF\u2013IDF<\/h3>\n<p>\u200b\u041f\u0440\u0438 \u044d\u0442\u043e\u043c \u0432\u0430\u0436\u043d\u043e \u043f\u043e\u043d\u0438\u043c\u0430\u0442\u044c \u0433\u0440\u0430\u043d\u0438\u0446\u044b \u044d\u0442\u0438\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439. \u041e\u043d\u0438 \u043d\u0435 \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u043e\u0440\u044f\u0434\u043e\u043a \u0441\u043b\u043e\u0432, \u043d\u0435 \u043f\u043e\u043d\u0438\u043c\u0430\u044e\u0442 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 \u0438 \u043d\u0435 \u0437\u043d\u0430\u044e\u0442 \u0441\u0435\u043c\u0430\u043d\u0442\u0438\u043a\u0438. \u0414\u043b\u044f \u043d\u0438\u0445 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u044f \u0432\u0440\u043e\u0434\u0435 <em>river bank<\/em> \u0438 <em>bank account<\/em> \u043c\u043e\u0433\u0443\u0442 \u0432\u044b\u0433\u043b\u044f\u0434\u0435\u0442\u044c \u043f\u043e\u0447\u0442\u0438 \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u043e (\u0438\u043b\u0438 \u0434\u043b\u044f \u0440\u0443\u0441\u0441\u043a\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430: <em>\u0437\u0430\u043f\u043b\u0435\u0442\u0451\u043d\u043d\u0430\u044f \u043a\u043e\u0441\u0430<\/em> \u0438 <em>\u043d\u0430\u0448\u043b\u0430 \u043a\u043e\u0441\u0430 \u043d\u0430 \u043a\u0430\u043c\u0435\u043d\u044c<\/em>).<\/p>\n<p>\u200b\u041d\u043e \u043d\u0435\u0441\u043c\u043e\u0442\u0440\u044f \u043d\u0430 \u043f\u0440\u043e\u0441\u0442\u043e\u0442\u0443, \u0442\u0430\u043a\u0438\u0435 \u043f\u043e\u0434\u0445\u043e\u0434\u044b \u0434\u043e \u0441\u0438\u0445 \u043f\u043e\u0440 \u043e\u0441\u0442\u0430\u044e\u0442\u0441\u044f \u043f\u043e\u043b\u0435\u0437\u043d\u044b\u043c\u0438. \u041e\u043d\u0438 \u0431\u044b\u0441\u0442\u0440\u044b\u0435, \u0445\u043e\u0440\u043e\u0448\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u043d\u0430 \u043d\u0435\u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u0434\u0430\u043d\u043d\u044b\u0445 \u0438 \u0447\u0430\u0441\u0442\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442\u0441\u044f \u043a\u0430\u043a \u0441\u0438\u043b\u044c\u043d\u044b\u0439 baseline \u043f\u0435\u0440\u0435\u0434 \u0431\u043e\u043b\u0435\u0435 \u0441\u043b\u043e\u0436\u043d\u044b\u043c\u0438 ML-\u043c\u043e\u0434\u0435\u043b\u044f\u043c\u0438.<\/p>\n<h3>\u041f\u043e\u0447\u0435\u043c\u0443 \u044d\u0442\u043e \u0432\u0441\u0451 \u0435\u0449\u0451 \u0432\u0430\u0436\u043d\u043e<\/h3>\n<p>Bag of Words \u0438 TF\u2013IDF \u2013 \u044d\u0442\u043e \u0444\u0443\u043d\u0434\u0430\u043c\u0435\u043d\u0442 NLP.<\/p>\n<p>\u0415\u0441\u043b\u0438 \u0432\u044b \u043f\u043e\u043d\u0438\u043c\u0430\u0435\u0442\u0435, \u043a\u0430\u043a \u0442\u0435\u043a\u0441\u0442 \u043f\u0440\u0435\u0432\u0440\u0430\u0449\u0430\u0435\u0442\u0441\u044f \u0432 \u0432\u0435\u043a\u0442\u043e\u0440, \u043f\u043e\u0447\u0435\u043c\u0443 \u0441\u043b\u043e\u0432\u0430 \u043f\u043e\u043b\u0443\u0447\u0430\u044e\u0442 \u0440\u0430\u0437\u043d\u044b\u0435 \u0432\u0435\u0441\u0430 \u0438 \u043a\u0430\u043a \u0440\u0435\u0434\u043a\u043e\u0441\u0442\u044c \u0432\u043b\u0438\u044f\u0435\u0442 \u043d\u0430 \u0437\u043d\u0430\u0447\u0438\u043c\u043e\u0441\u0442\u044c \u0442\u0435\u0440\u043c\u0438\u043d\u0430, \u0442\u043e <a href=\"https:\/\/ru.wikipedia.org\/wiki\/%D0%92%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BD%D0%BE%D0%B5_%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D1%82%D0%B0%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81%D0%BB%D0%BE%D0%B2\" rel=\"noopener noreferrer nofollow\">embeddings<\/a>, attention \u0438 <a href=\"https:\/\/ru.wikipedia.org\/wiki\/%D0%A2%D1%80%D0%B0%D0%BD%D1%81%D1%84%D0%BE%D1%80%D0%BC%D0%B5%D1%80_(%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F)\" rel=\"noopener noreferrer nofollow\">transformer-\u043c\u043e\u0434\u0435\u043b\u0438<\/a> \u0441\u0442\u0430\u043d\u043e\u0432\u044f\u0442\u0441\u044f \u0433\u043e\u0440\u0430\u0437\u0434\u043e \u043f\u043e\u043d\u044f\u0442\u043d\u0435\u0435.<\/p>\n<p>\u041f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0434\u0435\u043b\u0430\u044e\u0442 \u043a\u043e\u043d\u0446\u0435\u043f\u0442\u0443\u0430\u043b\u044c\u043d\u043e \u0442\u043e \u0436\u0435 \u0441\u0430\u043c\u043e\u0435 \u2013 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u044e\u0442 \u0442\u0435\u043a\u0441\u0442 \u0432 \u0432\u0438\u0434\u0435 \u0447\u0438\u0441\u0435\u043b \u0438 \u0438\u0449\u0443\u0442 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438 \u043c\u0435\u0436\u0434\u0443 \u043d\u0438\u043c\u0438, \u2013 \u0442\u043e\u043b\u044c\u043a\u043e \u0437\u043d\u0430\u0447\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0441\u043b\u043e\u0436\u043d\u0435\u0435 \u0438 \u0443\u043c\u043d\u0435\u0435.<\/p>\n<p>\u0418\u043c\u0435\u043d\u043d\u043e \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u043c\u044b \u043d\u0430\u0447\u0430\u043b\u0438 \u043e\u0431\u044a\u044f\u0441\u043d\u0435\u043d\u0438\u044f \u0441 \u043c\u0435\u0448\u043a\u0430 \u0441\u043b\u043e\u0432.<\/p>\n<h3>\u041f\u0440\u043e\u0441\u0442\u043e\u0439 \u043f\u0440\u0438\u043c\u0435\u0440 TF\u2013IDF \u043d\u0430 PHP (\u0431\u0435\u0437 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a) <\/h3>\n<h4>\u041f\u043e\u0438\u0441\u043a \u043f\u043e\u0445\u043e\u0436\u0438\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u043d\u0430 PHP<\/h4>\n<p>\u0412 \u044d\u0442\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435 \u043c\u044b \u0441\u043e\u0437\u043d\u0430\u0442\u0435\u043b\u044c\u043d\u043e \u043d\u0435 \u0431\u0443\u0434\u0435\u043c \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0433\u043e\u0442\u043e\u0432\u044b\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438 \u0438 \u0440\u0435\u0430\u043b\u0438\u0437\u0443\u0435\u043c \u0432\u0441\u0451 \u043d\u0430 \u0447\u0438\u0441\u0442\u043e\u043c PHP \u2013 \u0438\u0441\u043a\u043b\u044e\u0447\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0432 \u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u0445 \u0446\u0435\u043b\u044f\u0445, \u0447\u0442\u043e\u0431\u044b \u043b\u0443\u0447\u0448\u0435 \u043f\u043e\u043d\u044f\u0442\u044c, \u043a\u0430\u043a \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 Bag of Words \u0438 TF\u2013IDF &#171;\u043f\u043e\u0434 \u043a\u0430\u043f\u043e\u0442\u043e\u043c&#187;.<\/p>\n<p>\u0420\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043f\u0440\u043e\u0441\u0442\u043e\u0439 \u043f\u0440\u0438\u043c\u0435\u0440. \u0414\u043e\u043f\u0443\u0441\u0442\u0438\u043c, \u0443 \u043d\u0430\u0441 \u0435\u0441\u0442\u044c \u0431\u0430\u0437\u0430 \u0437\u043d\u0430\u043d\u0438\u0439:<\/p>\n<pre><code class=\"php\">$documents = [    1 =&gt; '\u041a\u0430\u043a \u0441\u0431\u0440\u043e\u0441\u0438\u0442\u044c \u043f\u0430\u0440\u043e\u043b\u044c \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f',    2 =&gt; '\u041e\u0448\u0438\u0431\u043a\u0430 \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0435\u043d\u0438\u044f \u043a \u0431\u0430\u0437\u0435 \u0434\u0430\u043d\u043d\u044b\u0445',    3 =&gt; '\u041d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0430 SMTP \u0434\u043b\u044f \u043e\u0442\u043f\u0440\u0430\u0432\u043a\u0438 \u043f\u043e\u0447\u0442\u044b',    4 =&gt; '\u0412\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d\u0438\u0435 \u0434\u043e\u0441\u0442\u0443\u043f\u0430 \u043a \u0430\u043a\u043a\u0430\u0443\u043d\u0442\u0443 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f',];<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044c \u0432\u0432\u043e\u0434\u0438\u0442 \u0437\u0430\u043f\u0440\u043e\u0441:<\/p>\n<pre><code>\u043d\u0435 \u043c\u043e\u0433\u0443 \u0432\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u044c \u043f\u0430\u0440\u043e\u043b\u044c \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0417\u0430\u0434\u0430\u0447\u0430 \u0441\u0438\u0441\u0442\u0435\u043c\u044b \u2013 \u043d\u0430\u0439\u0442\u0438 \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u043f\u043e\u0445\u043e\u0436\u0438\u0435 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b.<\/p>\n<h4>\u0410\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u043f\u043e\u0438\u0441\u043a\u0430<\/h4>\n<p>Pipeline \u0431\u0443\u0434\u0435\u0442 \u0432\u044b\u0433\u043b\u044f\u0434\u0435\u0442\u044c \u0442\u0430\u043a:<\/p>\n<pre><code>\u0414\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b   \u2193\u0422\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u044f   \u2193TF\u2013IDF \u0432\u0435\u043a\u0442\u043e\u0440\u044b   \u2193\u0412\u0435\u043a\u0442\u043e\u0440 \u0437\u0430\u043f\u0440\u043e\u0441\u0430   \u2193Cosine Similarity   \u2193\u0421\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u043a\u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u0432<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/01b\/548\/3a0\/01b5483a0d46b5b664bf96be3f9e6ffd.png\" alt=\"\u041a\u043e\u043d\u0432\u0435\u0439\u0435\u0440 \u043f\u043e\u0438\u0441\u043a\u0430 (pipeline) \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432\" title=\"\u041a\u043e\u043d\u0432\u0435\u0439\u0435\u0440 \u043f\u043e\u0438\u0441\u043a\u0430 (pipeline) \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432\" width=\"1550\" height=\"814\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/01b\/548\/3a0\/01b5483a0d46b5b664bf96be3f9e6ffd.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/01b\/548\/3a0\/01b5483a0d46b5b664bf96be3f9e6ffd.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u041a\u043e\u043d\u0432\u0435\u0439\u0435\u0440 \u043f\u043e\u0438\u0441\u043a\u0430 (pipeline) \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432<\/figcaption><\/div>\n<\/figure>\n<h4>\u0428\u0430\u0433 1. \u041f\u043e\u0434\u0433\u043e\u0442\u0430\u0432\u043b\u0438\u0432\u0430\u0435\u043c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b<\/h4>\n<pre><code class=\"php\">$documents = [    1 =&gt; '\u041a\u0430\u043a \u0441\u0431\u0440\u043e\u0441\u0438\u0442\u044c \u043f\u0430\u0440\u043e\u043b\u044c \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f',    2 =&gt; '\u041e\u0448\u0438\u0431\u043a\u0430 \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0435\u043d\u0438\u044f \u043a \u0431\u0430\u0437\u0435 \u0434\u0430\u043d\u043d\u044b\u0445',    3 =&gt; '\u041d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0430 SMTP \u0434\u043b\u044f \u043e\u0442\u043f\u0440\u0430\u0432\u043a\u0438 \u043f\u043e\u0447\u0442\u044b',    4 =&gt; '\u0412\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d\u0438\u0435 \u0434\u043e\u0441\u0442\u0443\u043f\u0430 \u043a \u0430\u043a\u043a\u0430\u0443\u043d\u0442\u0443 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f',];$query = '\u043d\u0435 \u043c\u043e\u0433\u0443 \u0432\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u044c \u043f\u0430\u0440\u043e\u043b\u044c \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f'; <\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<h4>\u0428\u0430\u0433 2. \u0422\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u044f<\/h4>\n<p>\u0414\u043b\u044f \u043f\u0440\u043e\u0441\u0442\u043e\u0442\u044b \u0437\u0434\u0435\u0441\u044c \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f \u043e\u0447\u0435\u043d\u044c \u043f\u0440\u0438\u043c\u0438\u0442\u0438\u0432\u043d\u0430\u044f \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u044f \u2013 \u043c\u044b \u043f\u0440\u043e\u0441\u0442\u043e \u0440\u0430\u0437\u0431\u0438\u0432\u0430\u0435\u043c \u0441\u0442\u0440\u043e\u043a\u0443 \u043f\u043e \u043f\u0440\u043e\u0431\u0435\u043b\u0430\u043c. \u0412 production-\u0441\u0438\u0441\u0442\u0435\u043c\u0430\u0445 \u043e\u0431\u044b\u0447\u043d\u043e \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u043e:<\/p>\n<ul>\n<li>\n<p>\u0443\u0434\u0430\u043b\u044f\u044e\u0442 \u043f\u0443\u043d\u043a\u0442\u0443\u0430\u0446\u0438\u044e<\/p>\n<\/li>\n<li>\n<p>\u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0443\u044e\u0442 \u043f\u0440\u043e\u0431\u0435\u043b\u044b<\/p>\n<\/li>\n<li>\n<p>\u0443\u0431\u0438\u0440\u0430\u044e\u0442 stop-words<\/p>\n<\/li>\n<li>\n<p>\u043f\u0440\u0438\u0432\u043e\u0434\u044f\u0442 \u0441\u043b\u043e\u0432\u0430 \u043a \u043d\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u043e\u0439 \u0444\u043e\u0440\u043c\u0435<\/p>\n<\/li>\n<\/ul>\n<pre><code class=\"php\">function tokenize(string $text): array {    $text = mb_strtolower($text);    return explode(' ', $text);}<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u0443\u0435\u043c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b:<\/p>\n<pre><code class=\"php\">$tokenizedDocs = array_map('tokenize', $documents);$queryTokens = tokenize($query);<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<h4>\u0428\u0430\u0433 3. TF (Term Frequency)<\/h4>\n<p>\u041f\u0440\u0438 \u043f\u043e\u043c\u043e\u0449\u0438 \u044d\u0442\u043e\u0439 \u0444\u0443\u043d\u043a\u0446\u0438\u0438 \u043c\u044b \u0440\u0430\u0441\u0441\u0447\u0438\u0442\u0430\u0435\u043c \u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u043d\u043d\u0443\u044e \u0447\u0430\u0441\u0442\u043e\u0442\u0443 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u043c\u043e\u0441\u0442\u0438 \u0442\u0435\u0440\u043c\u0438\u043d\u0430 \u0432 \u043e\u0434\u043d\u043e\u043c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0435.<\/p>\n<pre><code class=\"php\">function termFrequency(array $tokens): array {    $tf = [];    $count = count($tokens);    foreach ($tokens as $token) {        $tf[$token] = ($tf[$token] ?? 0) + 1;    }    foreach ($tf as $word =&gt; $value) {        $tf[$word] = $value \/ $count;    }    return $tf;}<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<h4>\u0428\u0430\u0433 4. IDF (Inverse Document Frequency)<\/h4>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u0441\u0447\u0438\u0442\u0430\u0435\u043c, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u043b\u043e\u0432\u043e \u0440\u0435\u0434\u043a\u043e\u0435 \u0432\u043e \u0432\u0441\u0451\u043c \u043a\u043e\u0440\u043f\u0443\u0441\u0435. \u0412\u044b\u0447\u0438\u0441\u043b\u044f\u0435\u043c \u043e\u0431\u0440\u0430\u0442\u043d\u0443\u044e \u0447\u0430\u0441\u0442\u043e\u0442\u0443 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u043c\u043e\u0441\u0442\u0438 \u0442\u0435\u0440\u043c\u0438\u043d\u0430 \u0432\u043e \u0432\u0441\u0451\u043c \u043a\u043e\u0440\u043f\u0443\u0441\u0435 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432.<\/p>\n<pre><code class=\"php\">function inverseDocumentFrequency(array $documents): array {    $df = [];    $N = count($documents);    foreach ($documents as $doc) {        foreach (array_unique($doc) as $word) {            $df[$word] = ($df[$word] ?? 0) + 1;        }    }    $idf = [];    foreach ($df as $word =&gt; $freq) {        $idf[$word] = log($N \/ $freq);        \/\/ \u0422\u0430\u043a\u043e\u0439 \u0432\u0430\u0440\u0438\u0430\u043d\u0442 \u0444\u043e\u0440\u043c\u0443\u043b\u044b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442 smoothing \u0438 \u043f\u043e\u043c\u043e\u0433\u0430\u0435\u0442 \u0438\u0437\u0431\u0435\u0436\u0430\u0442\u044c         \/\/ \u0441\u0438\u0442\u0443\u0430\u0446\u0438\u0439, \u043a\u043e\u0433\u0434\u0430 \u043e\u0447\u0435\u043d\u044c \u0447\u0430\u0441\u0442\u044b\u0435 \u0441\u043b\u043e\u0432\u0430 \u043f\u043e\u043b\u0443\u0447\u0430\u044e\u0442 \u0432\u0435\u0441 \u0440\u043e\u0432\u043d\u043e 0        \/\/ $idf[$word] = log(($N + 1) \/ ($freq + 1)) + 1;    }    return $idf;}<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<h4>\u0428\u0430\u0433 5. TF\u2013IDF \u0432\u0435\u043a\u0442\u043e\u0440<\/h4>\n<p>\u0421\u043e\u0437\u0434\u0430\u0451\u043c TF-IDF \u0432\u0435\u043a\u0442\u043e\u0440 \u0434\u043b\u044f \u043e\u0434\u043d\u043e\u0433\u043e \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\/\u0437\u0430\u043f\u0440\u043e\u0441\u0430.<\/p>\n<pre><code class=\"php\">function tfidf(array $tf, array $idf): array {    $vector = [];    foreach ($tf as $word =&gt; $value) {        $vector[$word] = $value * ($idf[$word] ?? 0);    }    return $vector;}<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0421\u0442\u0440\u043e\u0438\u043c \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432:<\/p>\n<pre><code class=\"php\">$idf = inverseDocumentFrequency($tokenizedDocs);$documentVectors = [];foreach ($tokenizedDocs as $id =&gt; $tokens) {    $tf = termFrequency($tokens);    $documentVectors[$id] = tfidf($tf, $idf);}<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<h4>\u0428\u0430\u0433 6. \u0412\u0435\u043a\u0442\u043e\u0440 \u0437\u0430\u043f\u0440\u043e\u0441\u0430<\/h4>\n<pre><code class=\"php\">$queryTf = termFrequency($queryTokens);$queryVector = tfidf($queryTf, $idf);<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u0437\u0430\u043f\u0440\u043e\u0441 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d \u0442\u043e\u0447\u043d\u043e \u0442\u0430\u043a \u0436\u0435, \u043a\u0430\u043a \u0438 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b.<\/p>\n<p>\u042d\u0442\u043e \u043e\u0447\u0435\u043d\u044c \u0432\u0430\u0436\u043d\u044b\u0439 \u043c\u043e\u043c\u0435\u043d\u0442.<\/p>\n<p>\u041f\u043e\u0441\u043b\u0435 TF\u2013IDF \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b \u0438 \u0437\u0430\u043f\u0440\u043e\u0441 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u044b \u0432 \u043e\u0434\u043d\u043e\u043c \u0432\u0437\u0432\u0435\u0448\u0435\u043d\u043d\u043e\u043c \u0432\u0435\u043a\u0442\u043e\u0440\u043d\u043e\u043c \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0435 \u0442\u0435\u0440\u043c\u0438\u043d\u043e\u0432.<\/p>\n<h4>\u0428\u0430\u0433 7. Cosine Similarity<\/h4>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043d\u0443\u0436\u043d\u043e \u0438\u0437\u043c\u0435\u0440\u0438\u0442\u044c \u0431\u043b\u0438\u0437\u043e\u0441\u0442\u044c \u043c\u0435\u0436\u0434\u0443 \u0432\u0435\u043a\u0442\u043e\u0440\u0430\u043c\u0438.<\/p>\n<p>\u0418\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c cosine similarity:<\/p>\n<p><img decoding=\"async\" class=\"formula\" source=\"\\mathrm{cosine\\_sim}(A, B) = \\frac{A \\cdot B}{|A||B|}\" alt=\"\\mathrm{cosine\\_sim}(A, B) = \\frac{A \\cdot B}{|A||B|}\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/4\/4b\/4b4\/4b4174c2d839acd3ef820ddcac3b6b1a.svg\" width=\"208\" height=\"40\" data-width=\"26.577\" data-height=\"5.319\" data-vertical-align=\"-2.094\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/getpro\/habr\/formulas\/4\/4b\/4b4\/4b4174c2d839acd3ef820ddcac3b6b1a.svg 780w,&#10;       https:\/\/habrastorage.org\/getpro\/habr\/formulas\/4\/4b\/4b4\/4b4174c2d839acd3ef820ddcac3b6b1a.svg 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<p>\u0418\u043d\u0442\u0443\u0438\u0442\u0438\u0432\u043d\u043e:<\/p>\n<ul>\n<li>\n<p>\u0447\u0435\u043c \u0431\u043b\u0438\u0436\u0435 cosine similarity \u043a 1 \u2192 \u0442\u0435\u043c \u0431\u043b\u0438\u0436\u0435 \u043d\u0430\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u044f \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432<\/p>\n<\/li>\n<li>\n<p>\u0447\u0435\u043c \u0431\u043b\u0438\u0436\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 \u043a 0 \u2192 \u0442\u0435\u043c \u043c\u0435\u043d\u0435\u0435 \u043f\u043e\u0445\u043e\u0436\u0438 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b<\/p>\n<\/li>\n<\/ul>\n<p><strong>\u0420\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044f cosine similarity<\/strong><\/p>\n<p>(\u0441\u043c. \u043d\u0438\u0436\u0435 \u0432 \u043f\u043e\u043b\u043d\u043e\u043c \u043f\u0440\u0438\u043c\u0435\u0440\u0435 \u043a\u043e\u0434\u0430).<\/p>\n<h4>\u0428\u0430\u0433 8. \u041f\u043e\u0438\u0441\u043a \u043f\u043e\u0445\u043e\u0436\u0438\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432<\/h4>\n<pre><code class=\"php\">$results = [];foreach ($documentVectors as $id =&gt; $vector) {    $results[$id] = cosineSimilarity(        $queryVector,        $vector    );}arsort($results);print_r($results);<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041f\u043e\u043b\u043d\u044b\u0439 \u043f\u0440\u0438\u043c\u0435\u0440 \u043a\u043e\u0434\u0430 \u043d\u0430 \u0447\u0438\u0441\u0442\u043e\u043c PHP<\/p>\n<details class=\"spoiler\">\n<summary>\u0421\u043a\u0440\u044b\u0442\u044b\u0439 \u0442\u0435\u043a\u0441\u0442<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"php\">\/\/ \u0418\u0441\u0445\u043e\u0434\u043d\u044b\u0435 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b \u0434\u043b\u044f \u043f\u043e\u0438\u0441\u043a\u0430 \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u0430.$documents = [    1 =&gt; '\u041a\u0430\u043a \u0441\u0431\u0440\u043e\u0441\u0438\u0442\u044c \u043f\u0430\u0440\u043e\u043b\u044c \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f',    2 =&gt; '\u041e\u0448\u0438\u0431\u043a\u0430 \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0435\u043d\u0438\u044f \u043a \u0431\u0430\u0437\u0435 \u0434\u0430\u043d\u043d\u044b\u0445',    3 =&gt; '\u041d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0430 SMTP \u0434\u043b\u044f \u043e\u0442\u043f\u0440\u0430\u0432\u043a\u0438 \u043f\u043e\u0447\u0442\u044b',    4 =&gt; '\u0412\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d\u0438\u0435 \u0434\u043e\u0441\u0442\u0443\u043f\u0430 \u043a \u0430\u043a\u043a\u0430\u0443\u043d\u0442\u0443 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f',];\/\/ Converts text to lowercase and splits by spaces.function tokenize(string $text): array {    $text = mb_strtolower($text);    return explode(' ', $text);}\/\/ \u0412\u044b\u0447\u0438\u0441\u043b\u044f\u0435\u0442 \u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u043d\u043d\u0443\u044e \u0447\u0430\u0441\u0442\u043e\u0442\u0443 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u043c\u043e\u0441\u0442\u0438 \u0442\u0435\u0440\u043c\u0438\u043d\u043e\u0432 \u0432 \u043e\u0434\u043d\u043e\u043c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0435.function termFrequency(array $tokens): array {    $tf = [];    $count = count($tokens);    foreach ($tokens as $token) {        $tf[$token] = ($tf[$token] ?? 0) + 1;    }    foreach ($tf as $word =&gt; $value) {        $tf[$word] = $value \/ $count;    }    return $tf;}\/\/ \u0412\u044b\u0447\u0438\u0441\u043b\u044f\u0435\u0442 \u043e\u0431\u0440\u0430\u0442\u043d\u0443\u044e \u0447\u0430\u0441\u0442\u043e\u0442\u0443 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u043c\u043e\u0441\u0442\u0438 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430 \u043f\u043e \u0432\u0441\u0435\u043c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u043c.function inverseDocumentFrequency(array $documents): array {    $df = [];    $N = count($documents);    foreach ($documents as $doc) {        foreach (array_unique($doc) as $word) {            $df[$word] = ($df[$word] ?? 0) + 1;        }    }    $idf = [];    foreach ($df as $word =&gt; $freq) {        $idf[$word] = log($N \/ $freq);        \/\/ \u0422\u0430\u043a\u043e\u0439 \u0432\u0430\u0440\u0438\u0430\u043d\u0442 \u0444\u043e\u0440\u043c\u0443\u043b\u044b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442 smoothing \u0438 \u043f\u043e\u043c\u043e\u0433\u0430\u0435\u0442 \u0438\u0437\u0431\u0435\u0436\u0430\u0442\u044c \u0441\u0438\u0442\u0443\u0430\u0446\u0438\u0439,         \/\/ \u043a\u043e\u0433\u0434\u0430 \u043e\u0447\u0435\u043d\u044c \u0447\u0430\u0441\u0442\u044b\u0435 \u0441\u043b\u043e\u0432\u0430 \u043f\u043e\u043b\u0443\u0447\u0430\u044e\u0442 \u0432\u0435\u0441 \u0440\u043e\u0432\u043d\u043e 0        \/\/ $idf[$word] = log(($N + 1) \/ ($freq + 1)) + 1;    }    return $idf;}\/\/ \u0421\u043e\u0437\u0434\u0430\u0435\u0442 TF-IDF \u0432\u0435\u043a\u0442\u043e\u0440 \u0434\u043b\u044f \u043e\u0434\u043d\u043e\u0433\u043e \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\/\u0437\u0430\u043f\u0440\u043e\u0441\u0430.function tfidf(array $tf, array $idf): array {    $vector = [];    foreach ($tf as $word =&gt; $value) {        $vector[$word] = $value * ($idf[$word] ?? 0);    }    return $vector;}\/\/ \u0418\u0437\u043c\u0435\u0440\u044f\u0435\u0442 \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u043e \u043c\u0435\u0436\u0434\u0443 \u0434\u0432\u0443\u043c\u044f \u0440\u0430\u0437\u0440\u0435\u0436\u0435\u043d\u043d\u044b\u043c\u0438 \u0432\u0435\u043a\u0442\u043e\u0440\u0430\u043c\u0438.function cosineSimilarity(array $a, array $b): float {    $dot = 0;    $normA = 0;    $normB = 0;    $words = array_unique(array_merge(        array_keys($a),        array_keys($b)    ));    foreach ($words as $word) {        $va = $a[$word] ?? 0;        $vb = $b[$word] ?? 0;        $dot += $va * $vb;        $normA += $va * $va;        $normB += $vb * $vb;    }    if ($normA == 0 || $normB == 0) {        return 0;    }    return $dot \/ (sqrt($normA) * sqrt($normB));}\/\/ \u041f\u0440\u0435\u0434\u0432\u0430\u0440\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0432\u044b\u0447\u0438\u0441\u043b\u0438\u0442\u044c \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0435 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b, \/\/ IDF-\u043a\u043e\u0434\u044b \u0438 \u0432\u0435\u043a\u0442\u043e\u0440\u044b TF-IDF \u0434\u043b\u044f \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432.$tokenizedDocs = array_map('tokenize', $documents);$idf = inverseDocumentFrequency($tokenizedDocs);$documentVectors = [];foreach ($tokenizedDocs as $id =&gt; $tokens) {    $tf = termFrequency($tokens);    $documentVectors[$id] = tfidf($tf, $idf);}$query = '\u043d\u0435 \u043c\u043e\u0433\u0443 \u0432\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u044c \u043f\u0430\u0440\u043e\u043b\u044c \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f';$queryTokens = tokenize($query);$queryTf = termFrequency($queryTokens);$queryVector = tfidf($queryTf, $idf);$results = [];foreach ($documentVectors as $id =&gt; $vector) {    $results[$id] = cosineSimilarity(        $queryVector,        $vector    );}arsort($results);echo 'Results:' . \"\\n\";foreach ($results as $id =&gt; $score) {    echo 'Document ' . $id . ': ' . round($score, 2) . ' (' . $documents[$id] . ')' . \"\\n\";}echo \"\\n\" . \"\\n\";echo 'Document vectors:' . \"\\n\";foreach ($documentVectors as $id =&gt; $vector) {    echo 'Document ' . $id . ': ' . \"\\n\";    print_r($vector);    echo \"\\n\";}echo \"\\n\";echo 'IDF:' . \"\\n\";print_r($idf);<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p><strong>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442<\/strong><\/p>\n<p>\u041f\u0440\u0438\u043c\u0435\u0440 \u0432\u044b\u0432\u043e\u0434\u0430:<\/p>\n<pre><code class=\"php\">Array (    [1] =&gt; 0.62017367294604    [4] =&gt; 0.11952286093344    [2] =&gt; 0    [3] =&gt; 0)<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<blockquote>\n<p>\u0427\u0442\u043e\u0431\u044b \u0441\u0430\u043c\u043e\u0441\u0442\u043e\u044f\u0442\u0435\u043b\u044c\u043d\u043e \u043f\u0440\u043e\u0442\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u044d\u0442\u043e\u0442 \u043a\u043e\u0434, <br \/>\u0432\u043e\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0439\u0442\u0435\u0441\u044c <a href=\"https:\/\/aiwithphp.org\/books\/ai-for-php-developers\/examples\/part-5\/bag-of-words-and-tf-idf\" rel=\"noopener noreferrer nofollow\">\u043e\u043d\u043b\u0430\u0439\u043d-\u0434\u0435\u043c\u043e\u043d\u0441\u0442\u0440\u0430\u0446\u0438\u0435\u0439<\/a> \u0434\u043b\u044f \u0435\u0433\u043e \u0437\u0430\u043f\u0443\u0441\u043a\u0430.<\/p>\n<\/blockquote>\n<h4>\u0418\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0430\u0446\u0438\u044f \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u0432<\/h4>\n<p>\u0421\u0438\u0441\u0442\u0435\u043c\u0430 \u0441\u0447\u0438\u0442\u0430\u0435\u0442 \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u043f\u043e\u0445\u043e\u0436\u0438\u043c\u0438:<\/p>\n<ol>\n<li>\n<p>&#171;\u041a\u0430\u043a \u0441\u0431\u0440\u043e\u0441\u0438\u0442\u044c \u043f\u0430\u0440\u043e\u043b\u044c \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f&#187;<\/p>\n<\/li>\n<li>\n<p>&#171;\u0412\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d\u0438\u0435 \u0434\u043e\u0441\u0442\u0443\u043f\u0430 \u043a \u0430\u043a\u043a\u0430\u0443\u043d\u0442\u0443 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f&#187;<\/p>\n<\/li>\n<\/ol>\n<p>\u0418 \u044d\u0442\u043e \u0443\u0436\u0435 \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u0432\u043f\u043e\u043b\u043d\u0435 \u0440\u0430\u0437\u0443\u043c\u043d\u043e.<\/p>\n<p>\u0418\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u043e, \u0447\u0442\u043e:<\/p>\n<ul>\n<li>\n<p>SMTP \u043d\u0435 \u0438\u043c\u0435\u0435\u0442 \u043d\u0438\u0447\u0435\u0433\u043e \u043e\u0431\u0449\u0435\u0433\u043e \u0441 \u0437\u0430\u043f\u0440\u043e\u0441\u043e\u043c<\/p>\n<\/li>\n<li>\n<p>\u043e\u0448\u0438\u0431\u043a\u0430 \u0431\u0430\u0437\u044b \u0434\u0430\u043d\u043d\u044b\u0445 \u0442\u043e\u0436\u0435 \u043d\u0435\u0440\u0435\u043b\u0435\u0432\u0430\u043d\u0442\u043d\u0430<\/p>\n<\/li>\n<li>\n<p>\u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442 \u043f\u0440\u043e \u0432\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d\u0438\u0435 \u0434\u043e\u0441\u0442\u0443\u043f\u0430 \u043f\u043e\u043b\u0443\u0447\u0438\u043b \u043d\u0435\u043d\u0443\u043b\u0435\u0432\u043e\u0435 \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u043e \u0432 \u043e\u0441\u043d\u043e\u0432\u043d\u043e\u043c \u0431\u043b\u0430\u0433\u043e\u0434\u0430\u0440\u044f \u0441\u043e\u0432\u043f\u0430\u0434\u0435\u043d\u0438\u044e \u0441\u043b\u043e\u0432\u0430 &#171;\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f&#187;<\/p>\n<\/li>\n<\/ul>\n<p>\u041f\u0440\u0438 \u044d\u0442\u043e\u043c \u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u0432\u0441\u0451 \u0435\u0449\u0451 \u043d\u0435 \u043f\u043e\u043d\u0438\u043c\u0430\u0435\u0442, \u0447\u0442\u043e:<\/p>\n<ul>\n<li>\n<p>&#171;\u0432\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u044c&#187; \u0438 &#171;\u0432\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d\u0438\u0435&#187; \u0441\u0432\u044f\u0437\u0430\u043d\u044b<\/p>\n<\/li>\n<li>\n<p>&#171;\u043f\u0430\u0440\u043e\u043b\u044c&#187; \u0438 &#171;\u0434\u043e\u0441\u0442\u0443\u043f&#187; \u043c\u043e\u0433\u0443\u0442 \u0431\u044b\u0442\u044c \u0431\u043b\u0438\u0437\u043a\u0438\u043c\u0438 \u043f\u043e \u0441\u043c\u044b\u0441\u043b\u0443<\/p>\n<\/li>\n<\/ul>\n<p>\u0411\u0435\u0437 <a href=\"https:\/\/ru.wikipedia.org\/wiki\/%D0%A1%D1%82%D0%B5%D0%BC%D0%BC%D0%B8%D0%BD%D0%B3\" rel=\"noopener noreferrer nofollow\">\u0441\u0442\u0435\u043c\u043c\u0438\u043d\u0433\u0430 (stemming)<\/a> \u0438\u043b\u0438 <a href=\"https:\/\/ru.wikipedia.org\/wiki\/%D0%9B%D0%B5%D0%BC%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F\" rel=\"noopener noreferrer nofollow\">\u043b\u0435\u043c\u043c\u0430\u0442\u0438\u0437\u0430\u0446\u0438\u0438 (lemmatization)<\/a> \u0442\u0430\u043a\u0438\u0435 \u0441\u043b\u043e\u0432\u0430 \u0441\u0447\u0438\u0442\u0430\u044e\u0442\u0441\u044f \u0440\u0430\u0437\u043d\u044b\u043c\u0438 \u0442\u043e\u043a\u0435\u043d\u0430\u043c\u0438.<\/p>\n<p>\u0418 \u0445\u043e\u0442\u044f \u0441\u0438\u0441\u0442\u0435\u043c\u0430: \u043d\u0435 \u043f\u043e\u043d\u0438\u043c\u0430\u0435\u0442 \u0441\u0435\u043c\u0430\u043d\u0442\u0438\u043a\u0443 \u0442\u0435\u043a\u0441\u0442\u0430, \u043d\u0435 \u0437\u043d\u0430\u0435\u0442 \u0441\u0438\u043d\u043e\u043d\u0438\u043c\u043e\u0432, \u043d\u0435 \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u0442 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 \u0438 \u043d\u0435 \u043d\u0435 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442 \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u0438 \u2013 \u043e\u043d\u0430 \u043f\u0440\u043e\u0441\u0442\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0441\u043e \u0441\u0442\u0430\u0442\u0438\u0441\u0442\u0438\u043a\u043e\u0439 \u0441\u043b\u043e\u0432.<\/p>\n<h3>\u041f\u043e\u0434\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u0438\u0442\u043e\u0433\u043e\u0432 <\/h3>\n<p>\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u0445\u043e\u0442\u044f \u043c\u044b \u0438 \u0443\u0431\u0435\u0434\u0438\u043b\u0438\u0441\u044c \u043d\u0430 \u0434\u043e\u0432\u043e\u043b\u044c\u043d\u043e \u043f\u0440\u043e\u0441\u0442\u043e\u043c \u043f\u0440\u0438\u043c\u0435\u0440\u0435, \u0447\u0442\u043e \u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442, \u0443 \u043d\u0435\u0451 \u0435\u0441\u0442\u044c \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u044f. \u041e\u043d\u0430 \u043d\u0435 \u043f\u043e\u043d\u0438\u043c\u0430\u0435\u0442 \u0441\u043c\u044b\u0441\u043b \u0442\u0435\u043a\u0441\u0442\u0430 \u043f\u043e-\u043d\u0430\u0441\u0442\u043e\u044f\u0449\u0435\u043c\u0443: \u043d\u0435 \u0437\u043d\u0430\u0435\u0442 \u0441\u0438\u043d\u043e\u043d\u0438\u043c\u043e\u0432, \u043f\u043b\u043e\u0445\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0441 \u0440\u0430\u0437\u043d\u044b\u043c\u0438 \u0444\u043e\u0440\u043c\u0430\u043c\u0438 \u0441\u043b\u043e\u0432 \u0438 \u043d\u0435 \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u0442 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442. \u041f\u043e \u0441\u0443\u0442\u0438, \u043f\u043e\u0438\u0441\u043a \u0441\u0442\u0440\u043e\u0438\u0442\u0441\u044f \u0432 \u043e\u0441\u043d\u043e\u0432\u043d\u043e\u043c \u043d\u0430 \u0441\u043e\u0432\u043f\u0430\u0434\u0435\u043d\u0438\u0438 \u0442\u0435\u0440\u043c\u0438\u043d\u043e\u0432.<\/p>\n<p>\u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0434\u043b\u044f \u0442\u0435\u043a\u0443\u0449\u0435\u0439 \u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u0438 \u0441\u043b\u043e\u0432\u0430:<\/p>\n<ul>\n<li>\n<p>&#171;\u0432\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u044c&#187;<\/p>\n<\/li>\n<li>\n<p>&#171;\u0432\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d\u0438\u0435&#187;<\/p>\n<\/li>\n<\/ul>\n<p>\u0441\u0447\u0438\u0442\u0430\u044e\u0442\u0441\u044f \u0440\u0430\u0437\u043d\u044b\u043c\u0438 \u0442\u043e\u043a\u0435\u043d\u0430\u043c\u0438.<\/p>\n<p>\u0422\u043e \u0436\u0435 \u0441\u0430\u043c\u043e\u0435 \u043a\u0430\u0441\u0430\u0435\u0442\u0441\u044f:<\/p>\n<ul>\n<li>\n<p>&#171;\u0434\u043e\u0441\u0442\u0443\u043f&#187;<\/p>\n<\/li>\n<li>\n<p>&#171;\u043f\u0430\u0440\u043e\u043b\u044c&#187;<\/p>\n<\/li>\n<\/ul>\n<p>\u0421\u0438\u0441\u0442\u0435\u043c\u0430 \u043f\u0440\u043e\u0441\u0442\u043e \u043d\u0435 \u0437\u043d\u0430\u0435\u0442, \u0447\u0442\u043e \u044d\u0442\u0438 \u0441\u043b\u043e\u0432\u0430 \u043c\u043e\u0433\u0443\u0442 \u0431\u044b\u0442\u044c \u0441\u0432\u044f\u0437\u0430\u043d\u044b \u043f\u043e \u0441\u043c\u044b\u0441\u043b\u0443.<\/p>\n<p>\u0427\u0442\u043e\u0431\u044b \u0440\u0435\u0448\u0438\u0442\u044c \u044d\u0442\u043e, \u043e\u0431\u044b\u0447\u043d\u043e \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u044e\u0442:<\/p>\n<ul>\n<li>\n<p><a href=\"https:\/\/ru.wikipedia.org\/wiki\/%D0%A1%D1%82%D0%B5%D0%BC%D0%BC%D0%B8%D0%BD%D0%B3\" rel=\"noopener noreferrer nofollow\">stemming<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/ru.wikipedia.org\/wiki\/%D0%9B%D0%B5%D0%BC%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F\" rel=\"noopener noreferrer nofollow\">lemmatization<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/ru.wikipedia.org\/wiki\/%D0%92%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BD%D0%BE%D0%B5_%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D1%82%D0%B0%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81%D0%BB%D0%BE%D0%B2\" rel=\"noopener noreferrer nofollow\">word embeddings<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/ru.wikipedia.org\/wiki\/%D0%A2%D1%80%D0%B0%D0%BD%D1%81%D1%84%D0%BE%D1%80%D0%BC%D0%B5%D1%80_(%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F)\" rel=\"noopener noreferrer nofollow\">transformer\u2011\u043c\u043e\u0434\u0435\u043b\u0438<\/a><\/p>\n<\/li>\n<\/ul>\n<p>\u041d\u043e \u0444\u0443\u043d\u0434\u0430\u043c\u0435\u043d\u0442 \u043e\u0441\u0442\u0430\u0451\u0442\u0441\u044f \u0442\u0435\u043c \u0436\u0435: \u0442\u0435\u043a\u0441\u0442 \u0432\u0441\u0451 \u0440\u0430\u0432\u043d\u043e \u043f\u0440\u0435\u0432\u0440\u0430\u0449\u0430\u0435\u0442\u0441\u044f \u0432 \u0432\u0435\u043a\u0442\u043e\u0440. \u0418 \u044d\u0442\u043e\u0442 \u043a\u0435\u0439\u0441 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u043e\u0447\u0435\u043d\u044c \u0432\u0430\u0436\u043d\u0443\u044e \u0438\u0434\u0435\u044e \u0432\u0441\u0435\u0439 \u043e\u0431\u043b\u0430\u0441\u0442\u0438 NLP.<\/p>\n<p>\u0414\u0430\u0436\u0435 \u043f\u0440\u043e\u0441\u0442\u0430\u044f \u0441\u0442\u0430\u0442\u0438\u0441\u0442\u0438\u043a\u0430 \u0441\u043b\u043e\u0432 \u0443\u0436\u0435 \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u0441\u0442\u0440\u043e\u0438\u0442\u044c \u043f\u043e\u043b\u0435\u0437\u043d\u044b\u0435 \u043f\u043e\u0438\u0441\u043a\u043e\u0432\u044b\u0435 \u0441\u0438\u0441\u0442\u0435\u043c\u044b.<\/p>\n<p>\u0411\u0435\u0437 \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u0435\u0439. \u0411\u0435\u0437 GPU\/TPU. \u0411\u0435\u0437 LLM.<\/p>\n<p>\u0422\u043e\u043b\u044c\u043a\u043e: \u0441\u043b\u043e\u0432\u0430, \u0432\u0435\u0441\u0430, \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0438 \u043d\u0435\u043c\u043d\u043e\u0433\u043e \u043b\u0438\u043d\u0435\u0439\u043d\u043e\u0439 \u0430\u043b\u0433\u0435\u0431\u0440\u044b.<\/p>\n<p>\u0418\u043c\u0435\u043d\u043d\u043e \u0441 \u0442\u0430\u043a\u0438\u0445 \u0441\u0438\u0441\u0442\u0435\u043c \u0438\u0441\u0442\u043e\u0440\u0438\u0447\u0435\u0441\u043a\u0438 \u043d\u0430\u0447\u0438\u043d\u0430\u043b\u0441\u044f \u043f\u043e\u0438\u0441\u043a \u043f\u043e \u0442\u0435\u043a\u0441\u0442\u0443 \u2013 \u0438 \u0438\u043c\u0435\u043d\u043d\u043e \u043e\u043d\u0438 \u0434\u043e \u0441\u0438\u0445 \u043f\u043e\u0440 \u043b\u0435\u0436\u0430\u0442 \u0432\u043d\u0443\u0442\u0440\u0438 \u043c\u043d\u043e\u0433\u0438\u0445 production-\u0441\u0438\u0441\u0442\u0435\u043c \u043a\u0430\u043a \u0431\u044b\u0441\u0442\u0440\u044b\u0439 \u0438 \u043d\u0430\u0434\u0451\u0436\u043d\u044b\u0439 \u0431\u0430\u0437\u043e\u0432\u044b\u0439 \u0443\u0440\u043e\u0432\u0435\u043d\u044c.<\/p>\n<blockquote>\n<p>\u0415\u0441\u043b\u0438 \u0432\u0430\u043c \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u0430 \u0442\u0435\u043c\u0430 AI \u0432 PHP, \u043c\u043e\u0436\u043d\u043e \u0433\u043b\u0443\u0431\u0436\u0435 \u043f\u043e\u0433\u0440\u0443\u0437\u0438\u0442\u044c\u0441\u044f \u0432 \u043d\u0435\u0451 \u0432 \u043c\u043e\u0435\u0439 \u0431\u0435\u0441\u043f\u043b\u0430\u0442\u043d\u043e\u0439 \u043a\u043d\u0438\u0433\u0435: &#171;<a href=\"https:\/\/apphp.gitbook.io\/ai-for-php-developers\/\" rel=\"noopener noreferrer nofollow\">AI \u0434\u043b\u044f PHP-\u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u043e\u0432: \u0438\u043d\u0442\u0443\u0438\u0442\u0438\u0432\u043d\u043e \u0438 \u043d\u0430 \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435<\/a>&#171;.<\/p>\n<p>\u0410 \u0447\u0442\u043e\u0431\u044b \u043b\u0443\u0447\u0448\u0435 \u043f\u043e\u043d\u044f\u0442\u044c, \u043a\u0430\u043a \u0432\u0441\u0451 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442, \u2013 \u043f\u043e\u043f\u0440\u043e\u0431\u0443\u0439\u0442\u0435 <a href=\"https:\/\/aiwithphp.org\/books\/ai-for-php-developers\/examples\/\" rel=\"noopener noreferrer nofollow\">\u0438\u043d\u0442\u0435\u0440\u0430\u043a\u0442\u0438\u0432\u043d\u044b\u0435 \u043e\u043d\u043b\u0430\u0439\u043d-\u043f\u0440\u0438\u043c\u0435\u0440\u044b<\/a> \u0438 \u043f\u043e\u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u0438\u0440\u0443\u0439\u0442\u0435 \u0441 \u043a\u043e\u0434\u043e\u043c \u0441\u0430\u043c\u043e\u0441\u0442\u043e\u044f\u0442\u0435\u043b\u044c\u043d\u043e.<\/p>\n<\/blockquote>\n<\/div>\n<p>\u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/1034874\/\">https:\/\/habr.com\/ru\/articles\/1034874\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u041a\u0430\u043a \u043a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440 \u043f\u0440\u0435\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u0442\u0435\u043a\u0441\u0442 \u0432 \u0447\u0438\u0441\u043b\u0430 \u0438 \u043f\u043e\u0447\u0435\u043c\u0443 TF\u2013IDF \u0434\u0435\u0441\u044f\u0442\u0438\u043b\u0435\u0442\u0438\u044f\u043c\u0438 \u043e\u0441\u0442\u0430\u0432\u0430\u043b\u0441\u044f \u043e\u0441\u043d\u043e\u0432\u043e\u0439 \u043f\u043e\u0438\u0441\u043a\u043e\u0432\u044b\u0445 \u0441\u0438\u0441\u0442\u0435\u043c. \u0420\u0430\u0437\u0431\u0438\u0440\u0430\u0435\u043c Bag of Words, TF\u2013IDF \u0438 \u043f\u043e\u0438\u0441\u043a \u043f\u043e\u0445\u043e\u0436\u0438\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u043d\u0430 \u0447\u0438\u0441\u0442\u043e\u043c PHP.\u042d\u0442\u043e \u0448\u0435\u0441\u0442\u0430\u044f \u0447\u0430\u0441\u0442\u044c \u043f\u0440\u043e\u0435\u043a\u0442\u0430.\u0427\u0430\u0441\u0442\u044c 5: \u041e\u0442 \u043c\u0430\u0441\u0441\u0438\u0432\u043e\u0432 \u043a GPU: \u043a\u0430\u043a PHP-\u044d\u043a\u043e\u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u043f\u0440\u0438\u0445\u043e\u0434\u0438\u0442 \u043a \u043d\u0430\u0441\u0442\u043e\u044f\u0449\u0435\u043c\u0443 ML\u0427\u0430\u0441\u0442\u044c 4: \u041f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u0435 TransformersPHP\u0427\u0430\u0441\u0442\u044c 3: \u041f\u0440\u0430\u043a\u0442\u0438\u043a\u0430 \u0431\u0435\u0437 Python \u0438 data science\u0427\u0430\u0441\u0442\u044c 2: \u0421\u043e\u0431\u0438\u0440\u0430\u0435\u043c \u043f\u0440\u043e\u0441\u0442\u0435\u0439\u0448\u0443\u044e RAG-\u0441\u0438\u0441\u0442\u0435\u043c\u0443 \u043d\u0430 PHP \u0441 Neuron AI \u0437\u0430 \u0432\u0435\u0447\u0435\u0440\u0427\u0430\u0441\u0442\u044c 1: \u041a\u0430\u043a \u044f \u043f\u044b\u0442\u0430\u043b\u0441\u044f \u043f\u043e\u0434\u0440\u0443\u0436\u0438\u0442\u044c PHP \u0441 NER \u2013 \u0434\u0440\u0430\u043c\u0430 \u0432 5 \u0430\u043a\u0442\u0430\u0445\u041a\u043e\u0433\u0434\u0430 \u043c\u044b \u0433\u043e\u0432\u043e\u0440\u0438\u043c, \u0447\u0442\u043e \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u0438 &#171;\u043f\u043e\u043d\u0438\u043c\u0430\u044e\u0442 \u0442\u0435\u043a\u0441\u0442&#187;, \u043b\u0435\u0433\u043a\u043e \u0437\u0430\u0431\u044b\u0442\u044c \u043e\u0434\u043d\u0443 \u0432\u0430\u0436\u043d\u0443\u044e \u0432\u0435\u0449\u044c: \u043a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440 \u0438\u0437\u043d\u0430\u0447\u0430\u043b\u044c\u043d\u043e \u0432\u043e\u043e\u0431\u0449\u0435 \u043d\u0435 \u0443\u043c\u0435\u0435\u0442 \u043f\u043e\u043d\u0438\u043c\u0430\u0442\u044c \u0441\u043b\u043e\u0432\u0430.\u0414\u043b\u044f \u043c\u0430\u0448\u0438\u043d\u044b \u0442\u0435\u043a\u0441\u0442 \u2013 \u044d\u0442\u043e \u043f\u0440\u043e\u0441\u0442\u043e \u043f\u043e\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u044c \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432. \u0427\u0442\u043e\u0431\u044b \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u044b \u043c\u043e\u0433\u043b\u0438 \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u0441 \u044f\u0437\u044b\u043a\u043e\u043c, \u0442\u0435\u043a\u0441\u0442 \u043d\u0443\u0436\u043d\u043e \u043f\u0440\u0435\u0432\u0440\u0430\u0442\u0438\u0442\u044c \u0432 \u0447\u0438\u0441\u043b\u0430.\u0418\u043c\u0435\u043d\u043d\u043e \u0437\u0434\u0435\u0441\u044c \u043f\u043e\u044f\u0432\u043b\u044f\u044e\u0442\u0441\u044f Bag of Words \u0438 TF\u2013IDF \u2013 \u0434\u0432\u0430 \u0444\u0443\u043d\u0434\u0430\u043c\u0435\u043d\u0442\u0430\u043b\u044c\u043d\u044b\u0445 \u043f\u043e\u0434\u0445\u043e\u0434\u0430, \u0441 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u0438\u0441\u0442\u043e\u0440\u0438\u0447\u0435\u0441\u043a\u0438 \u043d\u0430\u0447\u0438\u043d\u0430\u043b\u043e\u0441\u044c NLP \u0438 \u043f\u043e\u0438\u0441\u043a \u043f\u043e \u0442\u0435\u043a\u0441\u0442\u0443.\u041d\u0435\u0441\u043c\u043e\u0442\u0440\u044f \u043d\u0430 \u0432\u043e\u0437\u0440\u0430\u0441\u0442, \u044d\u0442\u0438 \u043c\u0435\u0442\u043e\u0434\u044b \u0434\u043e \u0441\u0438\u0445 \u043f\u043e\u0440 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442\u0441\u044f:\u0432 \u043f\u043e\u0438\u0441\u043a\u043e\u0432\u044b\u0445 \u0441\u0438\u0441\u0442\u0435\u043c\u0430\u0445;\u0432 FAQ \u0438 helpdesk;\u0432 \u043a\u043e\u0440\u043f\u043e\u0440\u0430\u0442\u0438\u0432\u043d\u044b\u0445 \u043f\u043e\u0438\u0441\u043a\u043e\u0432\u0438\u043a\u0430\u0445;\u0432 \u0440\u0435\u043a\u043e\u043c\u0435\u043d\u0434\u0430\u0446\u0438\u044f\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432;\u0432 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438 \u0442\u0435\u043a\u0441\u0442\u043e\u0432.\u0418 \u0433\u043b\u0430\u0432\u043d\u043e\u0435 \u2013 \u043e\u043d\u0438 \u043f\u043e\u043c\u043e\u0433\u0430\u044e\u0442 \u043f\u043e\u043d\u044f\u0442\u044c, \u043a\u0430\u043a \u0432\u043e\u043e\u0431\u0449\u0435 \u0442\u0435\u043a\u0441\u0442 \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u0441\u044f \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u043a\u043e\u0439\u0418\u0441\u0442\u043e\u0440\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0441\u043f\u0440\u0430\u0432\u043a\u0430\u0418\u0441\u0442\u043e\u0440\u0438\u0447\u0435\u0441\u043a\u0438 \u044d\u0442\u0438 \u043f\u043e\u0434\u0445\u043e\u0434\u044b \u043f\u043e\u044f\u0432\u0438\u043b\u0438\u0441\u044c \u0432 \u0440\u0430\u0437\u043d\u044b\u0435 \u0433\u043e\u0434\u044b \u0438 \u0440\u0430\u0437\u0432\u0438\u0432\u0430\u043b\u0438\u0441\u044c \u043f\u043e\u0441\u0442\u0435\u043f\u0435\u043d\u043d\u043e. Bag of Words \u043d\u0430\u0447\u0430\u043b \u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u0442\u044c\u0441\u044f \u0435\u0449\u0451 \u0432 1950-\u0445 \u0433\u043e\u0434\u0430\u0445 \u043a\u0430\u043a \u043f\u0440\u043e\u0441\u0442\u043e\u0439 \u0441\u043f\u043e\u0441\u043e\u0431 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u044f \u0442\u0435\u043a\u0441\u0442\u0430 \u0447\u0435\u0440\u0435\u0437 \u043d\u0430\u0431\u043e\u0440 \u0441\u043b\u043e\u0432. \u0410\u043a\u0442\u0438\u0432\u043d\u043e \u0440\u0430\u0437\u0432\u0438\u0432\u0430\u0442\u044c\u0441\u044f \u044d\u0442\u043e\u0442 \u043f\u043e\u0434\u0445\u043e\u0434 \u0441\u0442\u0430\u043b \u0432 1960-\u0445 \u0432\u043c\u0435\u0441\u0442\u0435 \u0441 \u0440\u0430\u0431\u043e\u0442\u0430\u043c\u0438 \u0416\u0435\u0440\u0430\u0440\u0430 \u0421\u0430\u043b\u0442\u043e\u043d\u0430 \u0438 \u043f\u043e\u044f\u0432\u043b\u0435\u043d\u0438\u0435\u043c vector space model.  \u200b TF\u2013IDF \u043f\u043e\u044f\u0432\u0438\u043b\u0441\u044f \u043f\u043e\u0437\u0436\u0435 &#8212; \u0432 \u043d\u0430\u0447\u0430\u043b\u0435 1970-\u0445. \u0418\u0434\u0435\u044e IDF \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0438\u043b\u0430 \u041a\u0430\u0440\u0435\u043d \u0421\u043f\u044d\u0440\u043a \u0414\u0436\u043e\u043d\u0441 \u0432 1972 \u0433\u043e\u0434\u0443, \u0430 \u0437\u0430\u0442\u0435\u043c TF\u2013IDF \u0441\u0442\u0430\u043b \u043f\u043e\u043f\u0443\u043b\u044f\u0440\u043d\u044b\u043c \u0431\u043b\u0430\u0433\u043e\u0434\u0430\u0440\u044f \u0438\u0441\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u043d\u0438\u044f\u043c \u0416\u0435\u0440\u0430\u0440\u0430 \u0421\u0430\u043b\u0442\u043e\u043d\u0430 \u0432 \u043e\u0431\u043b\u0430\u0441\u0442\u0438 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u043e\u043d\u043d\u043e\u0433\u043e \u043f\u043e\u0438\u0441\u043a\u0430.Bag of Words: &#171;\u043c\u0435\u0448\u043e\u043a \u0441\u043b\u043e\u0432&#187;BOW &#8212; Bag of Words (\u043c\u0435\u0448\u043e\u043a \u0441\u043b\u043e\u0432) \u2013 \u044d\u0442\u043e \u0441\u043f\u043e\u0441\u043e\u0431 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u0438\u0442\u044c \u0442\u0435\u043a\u0441\u0442 \u0431\u0435\u0437 \u0443\u0447\u0451\u0442\u0430 \u043f\u043e\u0440\u044f\u0434\u043a\u0430 \u0441\u043b\u043e\u0432. \u041d\u0430\u0441 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u0443\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u0442\u043e, \u043a\u0430\u043a\u0438\u0435 \u0441\u043b\u043e\u0432\u0430 \u0432\u0441\u0442\u0440\u0435\u0442\u0438\u043b\u0438\u0441\u044c \u0438 \u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0440\u0430\u0437.\u041f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u0438\u043c \u0434\u0432\u0430 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044f:\u200b&#187;\u041a\u043e\u0442 \u0435\u0441\u0442 \u0440\u044b\u0431\u0443&#187;&#187;\u0420\u044b\u0431\u0443 \u0435\u0441\u0442 \u043a\u043e\u0442&#187;\u0414\u043b\u044f \u0447\u0435\u043b\u043e\u0432\u0435\u043a\u0430 \u043e\u043d\u0438 \u043f\u043e\u0447\u0442\u0438 \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u044b. \u0414\u043b\u044f Bag of Words \u2013 \u0430\u0431\u0441\u043e\u043b\u044e\u0442\u043d\u043e \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u044b.\u041c\u044b \u043a\u0430\u043a \u0431\u044b \u0432\u044b\u0441\u044b\u043f\u0430\u0435\u043c \u0441\u043b\u043e\u0432\u0430 \u0438\u0437 \u0442\u0435\u043a\u0441\u0442\u0430 \u0432 \u043c\u0435\u0448\u043e\u043a, \u043f\u0435\u0440\u0435\u043c\u0435\u0448\u0438\u0432\u0430\u0435\u043c, \u0437\u0430\u0431\u044b\u0432\u0430\u044f \u043e\u0431 \u0438\u0445 \u043f\u043e\u0440\u044f\u0434\u043a\u0435 \u0438 \u0441\u0447\u0438\u0442\u0430\u0435\u043c \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0441\u043b\u043e\u0432\u0430.\u041a\u0430\u043a \u0441\u0442\u0440\u043e\u0438\u0442\u0441\u044f \u0441\u043b\u043e\u0432\u0430\u0440\u044c\u041f\u0435\u0440\u0432\u044b\u0439 \u0448\u0430\u0433 \u2013 \u043f\u043e\u0441\u0442\u0440\u043e\u0438\u0442\u044c \u0441\u043b\u043e\u0432\u0430\u0440\u044c. \u042d\u0442\u043e \u043f\u0440\u043e\u0441\u0442\u043e \u0441\u043f\u0438\u0441\u043e\u043a \u0432\u0441\u0435\u0445 \u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u044b\u0445 \u0441\u043b\u043e\u0432 \u0432\u043e \u0432\u0441\u0435\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0445.\u041f\u0443\u0441\u0442\u044c \u0443 \u043d\u0430\u0441 \u0435\u0441\u0442\u044c \u0442\u0440\u0438 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430:D1: \u043a\u043e\u0442 \u0435\u0441\u0442 \u0440\u044b\u0431\u0443D2: \u043a\u043e\u0442 \u043b\u044e\u0431\u0438\u0442 \u0440\u044b\u0431\u0443D3: \u0441\u043e\u0431\u0430\u043a\u0430 \u0435\u0441\u0442 \u043c\u044f\u0441\u043e\u0421\u043d\u0430\u0447\u0430\u043b\u0430 \u0441\u0442\u0440\u043e\u0438\u0442\u0441\u044f \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0432\u0441\u0435\u0445 \u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u044b\u0445 \u0441\u043b\u043e\u0432:[\u043a\u043e\u0442, \u0435\u0441\u0442, \u0440\u044b\u0431\u0443, \u043b\u044e\u0431\u0438\u0442, \u0441\u043e\u0431\u0430\u043a\u0430, \u043c\u044f\u0441\u043e]\u041f\u043e\u0441\u043b\u0435 \u044d\u0442\u043e\u0433\u043e \u043a\u0430\u0436\u0434\u043e\u043c\u0443 \u0441\u043b\u043e\u0432\u0443 \u043d\u0430\u0437\u043d\u0430\u0447\u0430\u0435\u0442\u0441\u044f \u0438\u043d\u0434\u0435\u043a\u0441:\u043a\u043e\u0442 \u2192 0\u0435\u0441\u0442 \u2192 1\u0440\u044b\u0431\u0443 \u2192 2\u043b\u044e\u0431\u0438\u0442 \u2192 3\u0441\u043e\u0431\u0430\u043a\u0430 \u2192 4\u043c\u044f\u0441\u043e \u2192 5\u041f\u0440\u0435\u0432\u0440\u0430\u0449\u0430\u0435\u043c \u0442\u0435\u043a\u0441\u0442 \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u0422\u0435\u043f\u0435\u0440\u044c \u043a\u0430\u0436\u0434\u044b\u0439 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442 \u043c\u043e\u0436\u043d\u043e \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u0438\u0442\u044c \u043a\u0430\u043a \u0447\u0438\u0441\u043b\u043e\u0432\u043e\u0439 \u0432\u0435\u043a\u0442\u043e\u0440 \u0434\u043b\u0438\u043d\u044b |V|, \u0433\u0434\u0435 |V| \u2013 \u0440\u0430\u0437\u043c\u0435\u0440 \u0441\u043b\u043e\u0432\u0430\u0440\u044f.\u0414\u043b\u044f \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430: \u043a\u043e\u0442 \u0435\u0441\u0442 \u0440\u044b\u0431\u0443 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c:[1, 1, 1, 0, 0, 0]\u0414\u043b\u044f: \u043a\u043e\u0442 \u043b\u044e\u0431\u0438\u0442 \u0440\u044b\u0431\u0443:[1, 0, 1, 1, 0, 0]\u0410 \u0434\u043b\u044f: \u0441\u043e\u0431\u0430\u043a\u0430 \u0435\u0441\u0442 \u043c\u044f\u0441\u043e:[0, 1, 0, 0, 1, 1]\u041a\u0430\u0436\u0434\u043e\u0435 \u0447\u0438\u0441\u043b\u043e \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442, \u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0440\u0430\u0437 \u0441\u043b\u043e\u0432\u043e \u0432\u0441\u0442\u0440\u0435\u0442\u0438\u043b\u043e\u0441\u044c \u0432 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0435.BOW &#8212; \u041c\u0435\u0448\u043e\u043a \u0441\u043b\u043e\u0432: \u0432\u0435\u043a\u0442\u043e\u0440\u044b\u041d\u0435\u043c\u043d\u043e\u0433\u043e \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u043a\u0438\u0424\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u043e Bag of Words \u043c\u043e\u0436\u043d\u043e \u043e\u043f\u0438\u0441\u0430\u0442\u044c \u0442\u0430\u043a:\u041f\u0443\u0441\u0442\u044c \u0441\u043b\u043e\u0432\u0430\u0440\u044c:\u0422\u043e\u0433\u0434\u0430 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u043a\u0430\u043a \u0432\u0435\u043a\u0442\u043e\u0440:\u0433\u0434\u0435:\u2013 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0432\u0445\u043e\u0436\u0434\u0435\u043d\u0438\u0439 \u0441\u043b\u043e\u0432\u0430  \u2013 \u0440\u0430\u0437\u043c\u0435\u0440 \u0441\u043b\u043e\u0432\u0430\u0440\u044f.\u041d\u0430 \u044d\u0442\u043e\u043c \u044d\u0442\u0430\u043f\u0435 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b \u0443\u0436\u0435 \u0441\u0442\u0430\u043d\u043e\u0432\u044f\u0442\u0441\u044f \u043e\u0431\u044a\u0435\u043a\u0442\u0430\u043c\u0438 \u043b\u0438\u043d\u0435\u0439\u043d\u043e\u0439 \u0430\u043b\u0433\u0435\u0431\u0440\u044b.\u042d\u0442\u043e \u043e\u0431\u044b\u0447\u043d\u044b\u0439 \u0432\u0435\u043a\u0442\u043e\u0440 \u0432  (\u0434\u043b\u044f \u0447\u0438\u0441\u0442\u043e\u0433\u043e Bag of Words \u2013 \u0444\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u043e \u0432 , \u043d\u043e \u043c\u043e\u0436\u043d\u043e \u0440\u0430\u0441\u0441\u043c\u0430\u0442\u0440\u0438\u0432\u0430\u0442\u044c \u043a\u0430\u043a \u0432\u0435\u043a\u0442\u043e\u0440 \u0432 .\u200b\u0418 \u0443\u0436\u0435 \u043d\u0430 \u044d\u0442\u043e\u043c \u044d\u0442\u0430\u043f\u0435 \u043c\u044b \u043c\u043e\u0436\u0435\u043c:\u200b\u0441\u0440\u0430\u0432\u043d\u0438\u0432\u0430\u0442\u044c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b\u043e\u0431\u0443\u0447\u0430\u0442\u044c \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0442\u043e\u0440\u044b\u0438\u0441\u043a\u0430\u0442\u044c \u043f\u043e\u0445\u043e\u0436\u0438\u0435 \u0442\u0435\u043a\u0441\u0442\u044b\u041d\u043e \u0435\u0441\u0442\u044c \u043e\u0434\u043d\u0430 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0430.\u0413\u043b\u0430\u0432\u043d\u0430\u044f \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0430 Bag of Words\u0423 \u043f\u043e\u0434\u0445\u043e\u0434\u0430 \u0435\u0441\u0442\u044c \u0441\u0435\u0440\u044c\u0451\u0437\u043d\u044b\u0439 \u043d\u0435\u0434\u043e\u0441\u0442\u0430\u0442\u043e\u043a, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043d\u0430\u0437\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u043e\u0439 \u0447\u0430\u0441\u0442\u043e\u0442.\u0412\u0441\u0435 \u0441\u043b\u043e\u0432\u0430 \u0441\u0447\u0438\u0442\u0430\u044e\u0442\u0441\u044f \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u043e \u0432\u0430\u0436\u043d\u044b\u043c\u0438.\u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440: \u0441\u043b\u043e\u0432\u043e &#171;\u043a\u043e\u0442&#187; \u0441\u043b\u043e\u0432\u043e &#171;\u0438&#187;.\u0421\u043b\u043e\u0432\u043e &#171;\u0438&#187; \u0431\u0443\u0434\u0435\u0442 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0442\u044c\u0441\u044f \u043f\u043e\u0447\u0442\u0438 \u0432 \u043a\u0430\u0436\u0434\u043e\u043c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0435. \u0415\u0433\u043e \u0447\u0430\u0441\u0442\u043e\u0442\u0430 \u0431\u043e\u043b\u044c\u0448\u0430\u044f, \u043d\u043e \u0441\u043c\u044b\u0441\u043b\u043e\u0432\u0430\u044f \u0446\u0435\u043d\u043d\u043e\u0441\u0442\u044c \u043f\u043e\u0447\u0442\u0438 \u043d\u0443\u043b\u0435\u0432\u0430\u044f.\u200bBag of Words \u043d\u0435 \u0440\u0430\u0437\u043b\u0438\u0447\u0430\u0435\u0442:\u0432\u0430\u0436\u043d\u044b\u0435 \u0441\u043b\u043e\u0432\u0430\u0441\u043b\u0443\u0436\u0435\u0431\u043d\u044b\u0435 \u0441\u043b\u043e\u0432\u0430\u0440\u0435\u0434\u043a\u0438\u0435, \u043d\u043e \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0442\u0438\u0432\u043d\u044b\u0435 \u0442\u0435\u0440\u043c\u0438\u043d\u044b\u0418\u043c\u0435\u043d\u043d\u043e \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u043d\u0430 \u0441\u0446\u0435\u043d\u0435 \u043f\u043e\u044f\u0432\u0438\u043b\u0441\u044f TF\u2013IDF.TF\u2013IDF: \u0438\u0434\u0435\u044f \u0432 \u043e\u0434\u043d\u043e\u0439 \u0444\u0440\u0430\u0437\u0435TF\u2013IDF \u0440\u0430\u0441\u0448\u0438\u0444\u0440\u043e\u0432\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u043a\u0430\u043a: Term Frequency \u2013 Inverse Document Frequency\u200b\u0418\u0434\u0435\u044f \u043e\u0447\u0435\u043d\u044c \u043f\u0440\u043e\u0441\u0442\u0430\u044f:\u200b\u0441\u043b\u043e\u0432\u043e \u0432\u0430\u0436\u043d\u043e, \u0435\u0441\u043b\u0438 \u043e\u043d\u043e \u0447\u0430\u0441\u0442\u043e \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u0432 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0435\u043d\u043e \u043e\u043d\u043e \u0442\u0435\u0440\u044f\u0435\u0442 \u0446\u0435\u043d\u043d\u043e\u0441\u0442\u044c, \u0435\u0441\u043b\u0438 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u043f\u043e\u0447\u0442\u0438 \u0432\u043e \u0432\u0441\u0435\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0445TF \u2013 &#171;\u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0447\u0430\u0441\u0442\u043e \u0441\u043b\u043e\u0432\u043e \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u0432 \u0434\u0430\u043d\u043d\u043e\u043c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0435&#187;\u200bIDF \u2013 &#171;\u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u043b\u043e\u0432\u043e \u0440\u0435\u0434\u043a\u043e\u0435 \u0432 \u043a\u043e\u0440\u043f\u0443\u0441\u0435&#187;\u0418\u0442\u043e\u0433\u043e\u0432\u044b\u0439 \u0432\u0435\u0441 \u2013 \u0438\u0445 \u043f\u0440\u043e\u0438\u0437\u0432\u0435\u0434\u0435\u043d\u0438\u0435.TF (Term Frequency) \u2013 \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u043b\u043e\u0432\u043e \u0432\u0430\u0436\u043d\u043e \u0432\u043d\u0443\u0442\u0440\u0438 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0421\u0430\u043c\u0430\u044f \u043f\u0440\u043e\u0441\u0442\u0430\u044f \u0444\u043e\u0440\u043c\u0443\u043b\u0430 TF:\u041d\u043e \u0447\u0430\u0449\u0435 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442 \u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044e:\u0433\u0434\u0435: \u2013 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0441\u043b\u043e\u0432\u0430 \u2013 \u0434\u043b\u0438\u043d\u0430 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0418\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0430\u0446\u0438\u044f \u043f\u0440\u043e\u0441\u0442\u0430: 0 \u2192 \u0441\u043b\u043e\u0432\u0430 \u043d\u0435\u0442 \u0447\u0435\u043c \u0431\u043e\u043b\u044c\u0448\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435, \u0442\u0435\u043c \u0432\u0430\u0436\u043d\u0435\u0435 \u0441\u043b\u043e\u0432\u043e \u0432 \u0440\u0430\u043c\u043a\u0430\u0445 \u0434\u0430\u043d\u043d\u043e\u0433\u043e \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430IDF (Inverse Document Frequency) \u2013 \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u043b\u043e\u0432\u043e \u0440\u0435\u0434\u043a\u043e\u0435IDF \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u043b\u043e\u0432\u043e \u0440\u0435\u0434\u043a\u043e\u0435.\u0430 \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u044d\u0442\u043e \u0441\u043b\u043e\u0432\u043e \u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u043e \u0434\u043b\u044f \u0432\u0441\u0435\u0433\u043e \u043a\u043e\u0440\u043f\u0443\u0441\u0430?\u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f IDF:\u0433\u0434\u0435: \u2013 \u043d\u0430\u0442\u0443\u0440\u0430\u043b\u044c\u043d\u044b\u0439 \u043b\u043e\u0433\u0430\u0440\u0438\u0444\u043c (\u0435\u0433\u043e \u0436\u0435 \u0438 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u0434\u0430\u043b\u0435\u0435) \u2013 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u2013 \u0447\u0438\u0441\u043b\u043e \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432, \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0449\u0438\u0445 \u0441\u043b\u043e\u0432\u043e\u0418\u043d\u043e\u0433\u0434\u0430 \u0435\u0449\u0451 \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u044e\u0442 \u0441\u0433\u043b\u0430\u0436\u0438\u0432\u0430\u043d\u0438\u0435:\u041a\u0430\u043a \u044d\u0442\u043e \u0438\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c:\u0440\u0435\u0434\u043a\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \u2192 \u0432\u044b\u0441\u043e\u043a\u0438\u0439 IDF\u0447\u0430\u0441\u0442\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \u2192 \u043d\u0438\u0437\u043a\u0438\u0439 IDF\u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440: &#171;SMTP&#187; \u043c\u043e\u0436\u0435\u0442 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0442\u044c\u0441\u044f \u0440\u0435\u0434\u043a\u043e, \u0432 \u0442\u043e\u0436\u0435 \u0432\u0440\u0435\u043c\u044f &#171;\u043a\u0430\u043a&#187; \u2013 \u043f\u043e\u0447\u0442\u0438 \u0432\u0435\u0437\u0434\u0435. \u0421\u043b\u0435\u0434\u043e\u0432\u0430\u0442\u0435\u043b\u044c\u043d\u043e:&#187;SMTP&#187; \u0431\u0443\u0434\u0435\u0442 \u0438\u043c\u0435\u0442\u044c \u0432\u044b\u0441\u043e\u043a\u0438\u0439 \u0432\u0435\u0441&#187;\u043a\u0430\u043a&#187; \u2013 \u043f\u043e\u0447\u0442\u0438 \u043d\u0443\u043b\u0435\u0432\u043e\u0439\u041f\u0440\u0438\u043c\u0435\u0440 \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u044f\u0414\u043e\u043f\u0443\u0441\u0442\u0438\u043c, \u0447\u0442\u043e \u0443 \u043d\u0430\u0441 \u0435\u0441\u0442\u044c:\u0432\u0441\u0435\u0433\u043e 3 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0441\u043b\u043e\u0432\u043e &#171;\u043a\u043e\u0442&#187; \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u0432 \u0434\u0432\u0443\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0445\u0422\u043e\u0433\u0434\u0430:\u0410 \u0441\u043b\u043e\u0432\u043e &#171;\u0441\u043e\u0431\u0430\u043a\u0430&#187; \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u0442\u043e\u043b\u044c\u043a\u043e \u043e\u0434\u0438\u043d \u0440\u0430\u0437:\u0414\u0430\u0436\u0435 \u0435\u0441\u043b\u0438 \u0432 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0435 \u043e\u043d\u0438 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u044e\u0442\u0441\u044f \u043f\u043e \u043e\u0434\u043d\u043e\u043c\u0443 \u0440\u0430\u0437\u0443, &#171;\u0441\u043e\u0431\u0430\u043a\u0430&#187; \u0431\u0443\u0434\u0435\u0442 \u0432\u0435\u0441\u0438\u0442\u044c \u0437\u043d\u0430\u0447\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0431\u043e\u043b\u044c\u0448\u0435.\u0424\u0438\u043d\u0430\u043b\u044c\u043d\u0430\u044f \u0444\u043e\u0440\u043c\u0443\u043b\u0430 TF\u2013IDF\u0422\u0435\u043f\u0435\u0440\u044c \u043e\u0431\u044a\u0435\u0434\u0438\u043d\u044f\u0435\u043c TF \u0438 IDF:\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c:\u0447\u0430\u0441\u0442\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \u0432\u043d\u0443\u0442\u0440\u0438 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430 \u2192 \u0432\u0435\u0441 \u0440\u0430\u0441\u0442\u0451\u0442;\u0447\u0430\u0441\u0442\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \u0432\u043e \u0432\u0441\u0451\u043c \u043a\u043e\u0440\u043f\u0443\u0441\u0435 \u2192 \u0432\u0435\u0441 \u043f\u0430\u0434\u0430\u0435\u0442.\u0422\u0435\u043f\u043b\u043e\u0432\u0430\u044f \u043a\u0430\u0440\u0442\u0430, \u043e\u0442\u043e\u0431\u0440\u0430\u0436\u0430\u044e\u0449\u0430\u044f \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f TF-IDF\u200b\u0412\u0435\u043a\u0442\u043e\u0440 TF\u2013IDF\u041a\u0430\u043a \u0438 Bag of Words, TF\u2013IDF \u2013 \u044d\u0442\u043e \u0432\u0435\u043a\u0442\u043e\u0440.\u041e\u0442\u043b\u0438\u0447\u0438\u0435 \u0442\u043e\u043b\u044c\u043a\u043e \u0432 \u0442\u043e\u043c, \u0447\u0442\u043e \u0432\u043c\u0435\u0441\u0442\u043e \u0446\u0435\u043b\u044b\u0445 \u0447\u0438\u0441\u0435\u043b \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0432\u0435\u0449\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0435 \u0432\u0435\u0441\u0430.\u042d\u0442\u043e\u0442 \u0432\u0435\u043a\u0442\u043e\u0440:\u043e\u0431\u044b\u0447\u043d\u043e \u0445\u0440\u0430\u043d\u0438\u0442\u0441\u044f \u0432 \u0440\u0430\u0437\u0440\u0435\u0436\u0435\u043d\u043d\u043e\u043c \u0432\u0438\u0434\u0435 (\u0442\u043e\u043b\u044c\u043a\u043e \u043d\u0435\u043d\u0443\u043b\u0435\u0432\u044b\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f)\u0432\u044b\u0441\u043e\u043a\u043e\u0440\u0430\u0437\u043c\u0435\u0440\u043d\u044b\u0439\u0445\u043e\u0440\u043e\u0448\u043e \u043e\u0442\u0440\u0430\u0436\u0430\u0435\u0442 \u0441\u043c\u044b\u0441\u043b \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430 \u043d\u0430 \u0431\u0430\u0437\u043e\u0432\u043e\u043c \u0443\u0440\u043e\u0432\u043d\u0435\u0421\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432TF\u2013IDF \u0447\u0430\u0441\u0442\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442 \u0432\u043c\u0435\u0441\u0442\u0435 \u0441 \u043a\u043e\u0441\u0438\u043d\u0443\u0441\u043d\u044b\u043c \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u043e\u043c (cosine similarity).\u041f\u043e\u0447\u0435\u043c\u0443? \u041f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e:\u0434\u043b\u0438\u043d\u044b \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0440\u0430\u0437\u043d\u044b\u0435\u0432\u0430\u0436\u043d\u0430 \u043d\u0435 \u0441\u0443\u043c\u043c\u0430 \u0432\u0435\u0441\u043e\u0432, \u0430 \u043d\u0430\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u0430\u200b\u041a\u043e\u0441\u0438\u043d\u0443\u0441\u043d\u043e\u0435 \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u043e \u0438\u0437\u043c\u0435\u0440\u044f\u0435\u0442 \u0443\u0433\u043e\u043b \u043c\u0435\u0436\u0434\u0443 \u0432\u0435\u043a\u0442\u043e\u0440\u0430\u043c\u0438, \u0430 \u043d\u0435 \u0440\u0430\u0441\u0441\u0442\u043e\u044f\u043d\u0438\u0435 \u043c\u0435\u0436\u0434\u0443 \u0442\u043e\u0447\u043a\u0430\u043c\u0438.\u041a\u043e\u0441\u0438\u043d\u0443\u0441\u043d\u043e\u0435 \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u043e \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432\u041f\u043e\u0447\u0435\u043c\u0443 TF\u2013IDF \u0441\u0442\u0430\u043b \u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043e\u043c \u043f\u043e\u0438\u0441\u043a\u0430TF\u2013IDF \u0434\u043e\u043b\u0433\u043e\u0435 \u0432\u0440\u0435\u043c\u044f \u0431\u044b\u043b \u043e\u0441\u043d\u043e\u0432\u043e\u0439 \u043f\u043e\u0438\u0441\u043a\u043e\u0432\u044b\u0445 \u0441\u0438\u0441\u0442\u0435\u043c, \u0438 \u0434\u0430\u0436\u0435 \u0441\u0435\u0433\u043e\u0434\u043d\u044f \u043f\u043e\u0445\u043e\u0436\u0438\u0435 \u0438\u0434\u0435\u0438 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442\u0441\u044f \u0432\u043d\u0443\u0442\u0440\u0438 Elasticsearch, Lucene, \u043a\u043e\u0440\u043f\u043e\u0440\u0430\u0442\u0438\u0432\u043d\u044b\u0445 \u043f\u043e\u0438\u0441\u043a\u043e\u0432\u0438\u043a\u043e\u0432 \u0438 \u0441\u0438\u0441\u0442\u0435\u043c \u0440\u0435\u043a\u043e\u043c\u0435\u043d\u0434\u0430\u0446\u0438\u0439.\u041f\u0440\u0438\u0447\u0438\u043d\u0430 \u043f\u0440\u043e\u0441\u0442\u0430: TF\u2013IDF \u0445\u043e\u0440\u043e\u0448\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0432 \u0437\u0430\u0434\u0430\u0447\u0430\u0445, \u0433\u0434\u0435 \u0442\u0435\u043a\u0441\u0442\u044b \u043e\u0442\u043d\u043e\u0441\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u043a\u043e\u0440\u043e\u0442\u043a\u0438\u0435, \u0432\u0430\u0436\u043d\u0430 \u0442\u0435\u0440\u043c\u0438\u043d\u043e\u043b\u043e\u0433\u0438\u044f \u0438 \u043d\u0443\u0436\u043d\u044b \u0431\u044b\u0441\u0442\u0440\u044b\u0435, \u043f\u043e\u043d\u044f\u0442\u043d\u044b\u0435 \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u044f. \u041c\u043e\u0434\u0435\u043b\u044c \u043b\u0435\u0433\u043a\u043e \u0438\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c, \u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u2013 \u043e\u0431\u044a\u044f\u0441\u043d\u0438\u0442\u044c.\u041e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u044f Bag of Words \u0438 TF\u2013IDF\u200b\u041f\u0440\u0438 \u044d\u0442\u043e\u043c \u0432\u0430\u0436\u043d\u043e \u043f\u043e\u043d\u0438\u043c\u0430\u0442\u044c \u0433\u0440\u0430\u043d\u0438\u0446\u044b \u044d\u0442\u0438\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439. \u041e\u043d\u0438 \u043d\u0435 \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u043e\u0440\u044f\u0434\u043e\u043a \u0441\u043b\u043e\u0432, \u043d\u0435 \u043f\u043e\u043d\u0438\u043c\u0430\u044e\u0442 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 \u0438 \u043d\u0435 \u0437\u043d\u0430\u044e\u0442 \u0441\u0435\u043c\u0430\u043d\u0442\u0438\u043a\u0438. \u0414\u043b\u044f \u043d\u0438\u0445 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u044f \u0432\u0440\u043e\u0434\u0435 river bank \u0438 bank account \u043c\u043e\u0433\u0443\u0442 \u0432\u044b\u0433\u043b\u044f\u0434\u0435\u0442\u044c \u043f\u043e\u0447\u0442\u0438 \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u043e (\u0438\u043b\u0438 \u0434\u043b\u044f \u0440\u0443\u0441\u0441\u043a\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430: \u0437\u0430\u043f\u043b\u0435\u0442\u0451\u043d\u043d\u0430\u044f \u043a\u043e\u0441\u0430 \u0438 \u043d\u0430\u0448\u043b\u0430 \u043a\u043e\u0441\u0430 \u043d\u0430 \u043a\u0430\u043c\u0435\u043d\u044c).\u200b\u041d\u043e \u043d\u0435\u0441\u043c\u043e\u0442\u0440\u044f \u043d\u0430 \u043f\u0440\u043e\u0441\u0442\u043e\u0442\u0443, \u0442\u0430\u043a\u0438\u0435 \u043f\u043e\u0434\u0445\u043e\u0434\u044b \u0434\u043e \u0441\u0438\u0445 \u043f\u043e\u0440 \u043e\u0441\u0442\u0430\u044e\u0442\u0441\u044f \u043f\u043e\u043b\u0435\u0437\u043d\u044b\u043c\u0438. \u041e\u043d\u0438 \u0431\u044b\u0441\u0442\u0440\u044b\u0435, \u0445\u043e\u0440\u043e\u0448\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u043d\u0430 \u043d\u0435\u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u0434\u0430\u043d\u043d\u044b\u0445 \u0438 \u0447\u0430\u0441\u0442\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442\u0441\u044f \u043a\u0430\u043a \u0441\u0438\u043b\u044c\u043d\u044b\u0439 baseline \u043f\u0435\u0440\u0435\u0434 \u0431\u043e\u043b\u0435\u0435 \u0441\u043b\u043e\u0436\u043d\u044b\u043c\u0438 ML-\u043c\u043e\u0434\u0435\u043b\u044f\u043c\u0438.\u041f\u043e\u0447\u0435\u043c\u0443 \u044d\u0442\u043e \u0432\u0441\u0451 \u0435\u0449\u0451 \u0432\u0430\u0436\u043d\u043eBag of Words \u0438 TF\u2013IDF \u2013 \u044d\u0442\u043e \u0444\u0443\u043d\u0434\u0430\u043c\u0435\u043d\u0442 NLP.\u0415\u0441\u043b\u0438 \u0432\u044b \u043f\u043e\u043d\u0438\u043c\u0430\u0435\u0442\u0435, \u043a\u0430\u043a \u0442\u0435\u043a\u0441\u0442 \u043f\u0440\u0435\u0432\u0440\u0430\u0449\u0430\u0435\u0442\u0441\u044f \u0432 \u0432\u0435\u043a\u0442\u043e\u0440, \u043f\u043e\u0447\u0435\u043c\u0443 \u0441\u043b\u043e\u0432\u0430 \u043f\u043e\u043b\u0443\u0447\u0430\u044e\u0442 \u0440\u0430\u0437\u043d\u044b\u0435 \u0432\u0435\u0441\u0430 \u0438 \u043a\u0430\u043a \u0440\u0435\u0434\u043a\u043e\u0441\u0442\u044c \u0432\u043b\u0438\u044f\u0435\u0442 \u043d\u0430 \u0437\u043d\u0430\u0447\u0438\u043c\u043e\u0441\u0442\u044c \u0442\u0435\u0440\u043c\u0438\u043d\u0430, \u0442\u043e embeddings, attention \u0438 transformer-\u043c\u043e\u0434\u0435\u043b\u0438 \u0441\u0442\u0430\u043d\u043e\u0432\u044f\u0442\u0441\u044f \u0433\u043e\u0440\u0430\u0437\u0434\u043e \u043f\u043e\u043d\u044f\u0442\u043d\u0435\u0435.\u041f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0434\u0435\u043b\u0430\u044e\u0442 \u043a\u043e\u043d\u0446\u0435\u043f\u0442\u0443\u0430\u043b\u044c\u043d\u043e \u0442\u043e \u0436\u0435 \u0441\u0430\u043c\u043e\u0435 \u2013 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u044e\u0442 \u0442\u0435\u043a\u0441\u0442 \u0432 \u0432\u0438\u0434\u0435 \u0447\u0438\u0441\u0435\u043b \u0438 \u0438\u0449\u0443\u0442 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438 \u043c\u0435\u0436\u0434\u0443 \u043d\u0438\u043c\u0438, \u2013 \u0442\u043e\u043b\u044c\u043a\u043e \u0437\u043d\u0430\u0447\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0441\u043b\u043e\u0436\u043d\u0435\u0435 \u0438 \u0443\u043c\u043d\u0435\u0435.\u0418\u043c\u0435\u043d\u043d\u043e \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u043c\u044b \u043d\u0430\u0447\u0430\u043b\u0438 \u043e\u0431\u044a\u044f\u0441\u043d\u0435\u043d\u0438\u044f \u0441 \u043c\u0435\u0448\u043a\u0430 \u0441\u043b\u043e\u0432.\u041f\u0440\u043e\u0441\u0442\u043e\u0439 \u043f\u0440\u0438\u043c\u0435\u0440 TF\u2013IDF \u043d\u0430 PHP (\u0431\u0435\u0437 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a) \u041f\u043e\u0438\u0441\u043a \u043f\u043e\u0445\u043e\u0436\u0438\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u043d\u0430 PHP\u0412 \u044d\u0442\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435 \u043c\u044b \u0441\u043e\u0437\u043d\u0430\u0442\u0435\u043b\u044c\u043d\u043e \u043d\u0435 \u0431\u0443\u0434\u0435\u043c \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0433\u043e\u0442\u043e\u0432\u044b\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438 \u0438 \u0440\u0435\u0430\u043b\u0438\u0437\u0443\u0435\u043c \u0432\u0441\u0451 \u043d\u0430 \u0447\u0438\u0441\u0442\u043e\u043c PHP \u2013 \u0438\u0441\u043a\u043b\u044e\u0447\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0432 \u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u0445 \u0446\u0435\u043b\u044f\u0445, \u0447\u0442\u043e\u0431\u044b \u043b\u0443\u0447\u0448\u0435 \u043f\u043e\u043d\u044f\u0442\u044c, \u043a\u0430\u043a \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 Bag of Words \u0438 TF\u2013IDF &#171;\u043f\u043e\u0434 \u043a\u0430\u043f\u043e\u0442\u043e\u043c&#187;.\u0420\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043f\u0440\u043e\u0441\u0442\u043e\u0439 \u043f\u0440\u0438\u043c\u0435\u0440. \u0414\u043e\u043f\u0443\u0441\u0442\u0438\u043c, \u0443 \u043d\u0430\u0441 \u0435\u0441\u0442\u044c \u0431\u0430\u0437\u0430 \u0437\u043d\u0430\u043d\u0438\u0439:$documents = [    1 =&gt; &#8216;\u041a\u0430\u043a \u0441\u0431\u0440\u043e\u0441\u0438\u0442\u044c \u043f\u0430\u0440\u043e\u043b\u044c \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f&#8217;,    2 =&gt; &#8216;\u041e\u0448\u0438\u0431\u043a\u0430 \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0435\u043d\u0438\u044f \u043a \u0431\u0430\u0437\u0435 \u0434\u0430\u043d\u043d\u044b\u0445&#8217;,    3 =&gt; &#8216;\u041d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0430 SMTP \u0434\u043b\u044f \u043e\u0442\u043f\u0440\u0430\u0432\u043a\u0438 \u043f\u043e\u0447\u0442\u044b&#8217;,    4 =&gt; &#8216;\u0412\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d\u0438\u0435 \u0434\u043e\u0441\u0442\u0443\u043f\u0430 \u043a \u0430\u043a\u043a\u0430\u0443\u043d\u0442\u0443 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f&#8217;,];\u041f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044c \u0432\u0432\u043e\u0434\u0438\u0442 \u0437\u0430\u043f\u0440\u043e\u0441:\u043d\u0435 \u043c\u043e\u0433\u0443 \u0432\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u044c \u043f\u0430\u0440\u043e\u043b\u044c \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f\u0417\u0430\u0434\u0430\u0447\u0430 \u0441\u0438\u0441\u0442\u0435\u043c\u044b \u2013 \u043d\u0430\u0439\u0442\u0438 \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u043f\u043e\u0445\u043e\u0436\u0438\u0435 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b.\u0410\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u043f\u043e\u0438\u0441\u043a\u0430Pipeline \u0431\u0443\u0434\u0435\u0442 \u0432\u044b\u0433\u043b\u044f\u0434\u0435\u0442\u044c \u0442\u0430\u043a:\u0414\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b   \u2193\u0422\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u044f   \u2193TF\u2013IDF \u0432\u0435\u043a\u0442\u043e\u0440\u044b   \u2193\u0412\u0435\u043a\u0442\u043e\u0440 \u0437\u0430\u043f\u0440\u043e\u0441\u0430   \u2193Cosine Similarity   \u2193\u0421\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u043a\u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u0432\u041a\u043e\u043d\u0432\u0435\u0439\u0435\u0440 \u043f\u043e\u0438\u0441\u043a\u0430 (pipeline) \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432\u0428\u0430\u0433 1. \u041f\u043e\u0434\u0433\u043e\u0442\u0430\u0432\u043b\u0438\u0432\u0430\u0435\u043c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b$documents = [    1 =&gt; &#8216;\u041a\u0430\u043a \u0441\u0431\u0440\u043e\u0441\u0438\u0442\u044c \u043f\u0430\u0440\u043e\u043b\u044c \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f&#8217;,    2 =&gt; &#8216;\u041e\u0448\u0438\u0431\u043a\u0430 \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0435\u043d\u0438\u044f \u043a \u0431\u0430\u0437\u0435 \u0434\u0430\u043d\u043d\u044b\u0445&#8217;,    3 =&gt; &#8216;\u041d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0430 SMTP \u0434\u043b\u044f \u043e\u0442\u043f\u0440\u0430\u0432\u043a\u0438 \u043f\u043e\u0447\u0442\u044b&#8217;,    4 =&gt; &#8216;\u0412\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d\u0438\u0435 \u0434\u043e\u0441\u0442\u0443\u043f\u0430 \u043a \u0430\u043a\u043a\u0430\u0443\u043d\u0442\u0443 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f&#8217;,];$query = &#8216;\u043d\u0435 \u043c\u043e\u0433\u0443 \u0432\u043e\u0441\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u044c \u043f\u0430\u0440\u043e\u043b\u044c \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f&#8217;; \u0428\u0430\u0433 2. \u0422\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u044f\u0414\u043b\u044f \u043f\u0440\u043e\u0441\u0442\u043e\u0442\u044b \u0437\u0434\u0435\u0441\u044c \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f \u043e\u0447\u0435\u043d\u044c \u043f\u0440\u0438\u043c\u0438\u0442\u0438\u0432\u043d\u0430\u044f \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u044f \u2013 \u043c\u044b \u043f\u0440\u043e\u0441\u0442\u043e \u0440\u0430\u0437\u0431\u0438\u0432\u0430\u0435\u043c \u0441\u0442\u0440\u043e\u043a\u0443 \u043f\u043e \u043f\u0440\u043e\u0431\u0435\u043b\u0430\u043c. \u0412 production-\u0441\u0438\u0441\u0442\u0435\u043c\u0430\u0445 \u043e\u0431\u044b\u0447\u043d\u043e \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u043e:\u0443\u0434\u0430\u043b\u044f\u044e\u0442 \u043f\u0443\u043d\u043a\u0442\u0443\u0430\u0446\u0438\u044e\u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0443\u044e\u0442 \u043f\u0440\u043e\u0431\u0435\u043b\u044b\u0443\u0431\u0438\u0440\u0430\u044e\u0442 stop-words\u043f\u0440\u0438\u0432\u043e\u0434\u044f\u0442 \u0441\u043b\u043e\u0432\u0430 \u043a \u043d\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u043e\u0439 \u0444\u043e\u0440\u043c\u0435function tokenize(string $text): array {    $text = mb_strtolower($text);    return explode(&#8216; &#8216;, $text);}\u041f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u0443\u0435\u043c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b:$tokenizedDocs = array_map(&#8216;tokenize&#8217;, $documents);$queryTokens = tokenize($query);\u0428\u0430\u0433 3. TF (Term Frequency)\u041f\u0440\u0438 \u043f\u043e\u043c\u043e\u0449\u0438 \u044d\u0442\u043e\u0439 \u0444\u0443\u043d\u043a\u0446\u0438\u0438 \u043c\u044b \u0440\u0430\u0441\u0441\u0447\u0438\u0442\u0430\u0435\u043c \u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u043d\u043d\u0443\u044e \u0447\u0430\u0441\u0442\u043e\u0442\u0443 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u043c\u043e\u0441\u0442\u0438 \u0442\u0435\u0440\u043c\u0438\u043d\u0430 \u0432 \u043e\u0434\u043d\u043e\u043c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0435.function termFrequency(array $tokens): array {    $tf = [];    $count = count($tokens);    foreach ($tokens as $token) {        $tf[$token] = ($tf[$token] ?? 0) + 1;    }    foreach ($tf as $word =&gt; $value) {        $tf[$word] = $value \/ $count;    }    return $tf;}\u0428\u0430\u0433 4. IDF (Inverse Document Frequency)\u0422\u0435\u043f\u0435\u0440\u044c \u0441\u0447\u0438\u0442\u0430\u0435\u043c, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u043b\u043e\u0432\u043e \u0440\u0435\u0434\u043a\u043e\u0435 \u0432\u043e \u0432\u0441\u0451\u043c \u043a\u043e\u0440\u043f\u0443\u0441\u0435. \u0412\u044b\u0447\u0438\u0441\u043b\u044f\u0435\u043c \u043e\u0431\u0440\u0430\u0442\u043d\u0443\u044e \u0447\u0430\u0441\u0442\u043e\u0442\u0443 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u043c\u043e\u0441\u0442\u0438 \u0442\u0435\u0440\u043c\u0438\u043d\u0430 \u0432\u043e \u0432\u0441\u0451\u043c \u043a\u043e\u0440\u043f\u0443\u0441\u0435 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432.function inverseDocumentFrequency(array $documents): array {    $df = [];    $N = count($documents);    foreach ($documents as $doc) {        foreach (array_unique($doc) as $word) {            $df[$word] = ($df[$word] ?? 0) + 1;        }    }    $idf = [];    foreach ($df as $word =&gt; $freq) {        $idf[$word] = log($N \/ $freq);        \/\/ \u0422\u0430\u043a\u043e\u0439 \u0432\u0430\u0440\u0438\u0430\u043d\u0442 \u0444\u043e\u0440\u043c\u0443\u043b\u044b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442 smoothing \u0438 \u043f\u043e\u043c\u043e\u0433\u0430\u0435\u0442 \u0438\u0437\u0431\u0435\u0436\u0430\u0442\u044c         \/\/ \u0441\u0438\u0442\u0443\u0430\u0446\u0438\u0439, \u043a\u043e\u0433\u0434\u0430 \u043e\u0447\u0435\u043d\u044c \u0447\u0430\u0441\u0442\u044b\u0435 \u0441\u043b\u043e\u0432\u0430 \u043f\u043e\u043b\u0443\u0447\u0430\u044e\u0442 \u0432\u0435\u0441 \u0440\u043e\u0432\u043d\u043e 0        \/\/ $idf[$word] = log(($N + 1) \/ ($freq + 1)) + 1;    }    return $idf;}\u0428\u0430\u0433 5. TF\u2013IDF \u0432\u0435\u043a\u0442\u043e\u0440\u0421\u043e\u0437\u0434\u0430\u0451\u043c TF-IDF \u0432\u0435\u043a\u0442\u043e\u0440 \u0434\u043b\u044f&#8230;<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-479657","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/479657","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=479657"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/479657\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=479657"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=479657"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=479657"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}