{"id":197238,"date":"2013-11-11T22:51:08","date_gmt":"2013-11-11T18:51:08","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=197238"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=197238","title":{"rendered":"<span class=\"post_title\">\u041b\u0430\u0442\u0435\u043d\u0442\u043d\u043e-\u0441\u0435\u043c\u0430\u043d\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0430\u043d\u0430\u043b\u0438\u0437 \u043d\u0430 python<\/span>"},"content":{"rendered":"<div class=\"content html_format\">   \t<img decoding=\"async\" src=\"http:\/\/habr.habrastorage.org\/post_images\/d0d\/582\/b0c\/d0d582b0cda179c2b9831140ab929525.png\"\/><\/p>\n<p>  \u041d\u0435\u0434\u0430\u0432\u043d\u043e Google \u043e\u0431\u044a\u044f\u0432\u0438\u043b, \u0447\u0442\u043e \u043e\u043d \u043f\u0435\u0440\u0435\u0445\u043e\u0434\u0438\u0442 \u043e\u0442 \u043f\u043e\u0438\u0441\u043a\u0430 \u043f\u043e \u043a\u043b\u044e\u0447\u0435\u0432\u044b\u043c \u0441\u043b\u043e\u0432\u0430\u043c \u043a \u043f\u043e\u043b\u043d\u043e\u0441\u0442\u044c\u044e \u0441\u0435\u043c\u0430\u043d\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u043c\u0443 \u043f\u043e\u0438\u0441\u043a\u0443. \u041d\u0435 \u0437\u043d\u0430\u044e, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u043a\u0440\u0443\u0442\u044b \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u044b \u043f\u043e\u0438\u0441\u043a\u0430 \u0443 \u043c\u0438\u0440\u043e\u0432\u044b\u0445 \u0433\u0438\u0433\u0430\u043d\u0442\u043e\u0432, \u043d\u043e \u043f\u043e\u0438\u0441\u043a \u0432 \u043c\u0430\u043b\u0435\u043d\u044c\u043a\u043e\u0439 \u043f\u0435\u0441\u043e\u0447\u043d\u0438\u0446\u0435 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442\u0441\u044f \u0434\u043e\u0432\u043e\u043b\u044c\u043d\u043e \u0441\u0435\u043c\u0430\u043d\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u043c. \u041a\u043e\u043d\u0435\u0447\u043d\u043e, \u0441 \u043f\u043e\u0438\u0441\u043a\u043e\u043c \u043f\u043e \u0431\u043e\u043b\u0435\u0435 \u043c\u0435\u043d\u0435\u0435 \u043a\u0440\u0443\u043f\u043d\u044b\u043c \u043e\u0431\u044a\u0451\u043c\u0430\u043c \u0434\u0430\u043d\u043d\u044b\u0445 \u0443\u0436\u0435 \u043d\u0435 \u0432\u0441\u0451 \u0442\u0430\u043a \u0440\u0430\u0434\u0443\u0436\u043d\u043e, \u0433\u043e\u0442\u043e\u0432\u0438\u0442\u044c \u0441\u043b\u043e\u0432\u0430 \u043d\u0430\u0434\u043e \u043e\u0447\u0435\u043d\u044c \u0442\u0449\u0430\u0442\u0435\u043b\u044c\u043d\u043e, \u043d\u043e \u0442\u0435\u043c \u043d\u0435 \u043c\u0435\u043d\u0435\u0435.<\/p>\n<p>  \u0421\u0440\u0430\u0437\u0443 \u043e\u0433\u043e\u0432\u043e\u0440\u044e\u0441\u044c: \u043a\u043e\u043c\u0443 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u0430 \u0442\u043e\u043b\u044c\u043a\u043e \u0433\u043e\u043b\u0430\u044f \u0442\u0435\u043e\u0440\u0438\u044f, \u0442\u043e \u043e\u0442\u0441\u044b\u043b\u0430\u044e \u043a \u043e\u0447\u0435\u043d\u044c \u0445\u043e\u0440\u043e\u0448\u0435\u0439 <a href=\"http:\/\/habrahabr.ru\/post\/110078\/\">\u0441\u0442\u0430\u0442\u044c\u0435 \u043d\u0430 \u0445\u0430\u0431\u0440\u0435<\/a>, \u043a\u043e\u043c\u0443 \u043d\u0435 \u043e\u0441\u043e\u0431\u043e \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u043e \u0437\u043d\u0430\u0442\u044c \u043a\u0430\u043a \u0432\u0441\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442, \u0430 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u0443\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u043f\u0440\u043e\u0434\u0430\u043a\u0448\u043d, \u0442\u043e \u043e\u043d \u043c\u043e\u0436\u0435\u0442 \u043f\u043e\u043f\u0440\u043e\u0431\u043e\u0432\u0430\u0442\u044c <a href=\"http:\/\/radimrehurek.com\/gensim\/tutorial.html\"> \u043d\u0435\u043f\u043b\u043e\u0445\u0443\u044e \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443 \u0434\u043b\u044f \u0441\u0435\u043c\u0430\u043d\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0433\u043e \u043f\u043e\u0438\u0441\u043a\u0430 \u043d\u0430 \u043f\u0438\u0442\u043e\u043d\u0435<\/a>.<\/p>\n<p>  <a name=\"habracut\"><\/a><\/p>\n<p>  \u0418\u0442\u0430\u043a, \u0443 \u043d\u0430\u0441 \u0435\u0441\u0442\u044c \u0441\u043f\u0438\u0441\u043e\u043a \u0441 \u0434\u0435\u0441\u044f\u0442\u043a\u043e\u043c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432, \u043f\u043e \u043a\u043e\u0442\u043e\u0440\u044b\u043c \u043c\u044b \u0438 \u0431\u0443\u0434\u0435\u043c \u0438\u0441\u043a\u0430\u0442\u044c:<\/p>\n<pre><code class=\"python\">titles =[  \t&quot;\u0411\u0440\u0438\u0442\u0430\u043d\u0441\u043a\u0430\u044f \u043f\u043e\u043b\u0438\u0446\u0438\u044f \u0437\u043d\u0430\u0435\u0442 \u043e \u043c\u0435\u0441\u0442\u043e\u043d\u0430\u0445\u043e\u0436\u0434\u0435\u043d\u0438\u0438 \u043e\u0441\u043d\u043e\u0432\u0430\u0442\u0435\u043b\u044f WikiLeaks&quot;,  \t&quot;\u0412 \u0441\u0443\u0434\u0435 \u0421\u0428\u0410 \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442\u0441\u044f \u043f\u0440\u043e\u0446\u0435\u0441\u0441 \u043f\u0440\u043e\u0442\u0438\u0432 \u0440\u043e\u0441\u0441\u0438\u044f\u043d\u0438\u043d\u0430, \u0440\u0430\u0441\u0441\u044b\u043b\u0430\u0432\u0448\u0435\u0433\u043e \u0441\u043f\u0430\u043c&quot;,  \t&quot;\u0426\u0435\u0440\u0435\u043c\u043e\u043d\u0438\u044e \u0432\u0440\u0443\u0447\u0435\u043d\u0438\u044f \u041d\u043e\u0431\u0435\u043b\u0435\u0432\u0441\u043a\u043e\u0439 \u043f\u0440\u0435\u043c\u0438\u0438 \u043c\u0438\u0440\u0430 \u0431\u043e\u0439\u043a\u043e\u0442\u0438\u0440\u0443\u044e\u0442 19 \u0441\u0442\u0440\u0430\u043d&quot;,  \t&quot;\u0412 \u0412\u0435\u043b\u0438\u043a\u043e\u0431\u0440\u0438\u0442\u0430\u043d\u0438\u0438 \u0430\u0440\u0435\u0441\u0442\u043e\u0432\u0430\u043d \u043e\u0441\u043d\u043e\u0432\u0430\u0442\u0435\u043b\u044c \u0441\u0430\u0439\u0442\u0430 Wikileaks \u0414\u0436\u0443\u043b\u0438\u0430\u043d \u0410\u0441\u0441\u0430\u043d\u0434\u0436&quot;,  \t&quot;\u0423\u043a\u0440\u0430\u0438\u043d\u0430 \u0438\u0433\u043d\u043e\u0440\u0438\u0440\u0443\u0435\u0442 \u0446\u0435\u0440\u0435\u043c\u043e\u043d\u0438\u044e \u0432\u0440\u0443\u0447\u0435\u043d\u0438\u044f \u041d\u043e\u0431\u0435\u043b\u0435\u0432\u0441\u043a\u043e\u0439 \u043f\u0440\u0435\u043c\u0438\u0438&quot;,  \t&quot;\u0428\u0432\u0435\u0434\u0441\u043a\u0438\u0439 \u0441\u0443\u0434 \u043e\u0442\u043a\u0430\u0437\u0430\u043b\u0441\u044f \u0440\u0430\u0441\u0441\u043c\u0430\u0442\u0440\u0438\u0432\u0430\u0442\u044c \u0430\u043f\u0435\u043b\u043b\u044f\u0446\u0438\u044e \u043e\u0441\u043d\u043e\u0432\u0430\u0442\u0435\u043b\u044f Wikileaks&quot;,  \t&quot;\u041d\u0410\u0422\u041e \u0438 \u0421\u0428\u0410 \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u043b\u0438 \u043f\u043b\u0430\u043d\u044b \u043e\u0431\u043e\u0440\u043e\u043d\u044b \u0441\u0442\u0440\u0430\u043d \u0411\u0430\u043b\u0442\u0438\u0438 \u043f\u0440\u043e\u0442\u0438\u0432 \u0420\u043e\u0441\u0441\u0438\u0438&quot;,  \t&quot;\u041f\u043e\u043b\u0438\u0446\u0438\u044f \u0412\u0435\u043b\u0438\u043a\u043e\u0431\u0440\u0438\u0442\u0430\u043d\u0438\u0438 \u043d\u0430\u0448\u043b\u0430 \u043e\u0441\u043d\u043e\u0432\u0430\u0442\u0435\u043b\u044f WikiLeaks, \u043d\u043e, \u043d\u0435 \u0430\u0440\u0435\u0441\u0442\u043e\u0432\u0430\u043b\u0430&quot;,  \t&quot;\u0412 \u0421\u0442\u043e\u043a\u0433\u043e\u043b\u044c\u043c\u0435 \u0438 \u041e\u0441\u043b\u043e \u0441\u0435\u0433\u043e\u0434\u043d\u044f \u0441\u043e\u0441\u0442\u043e\u0438\u0442\u0441\u044f \u0432\u0440\u0443\u0447\u0435\u043d\u0438\u0435 \u041d\u043e\u0431\u0435\u043b\u0435\u0432\u0441\u043a\u0438\u0445 \u043f\u0440\u0435\u043c\u0438\u0439&quot;  ] <\/code><\/pre>\n<p>  \u0421\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u043e \u044d\u0442\u043e \u0432\u0445\u043e\u0434\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435. \u0422\u0435\u043f\u0435\u0440\u044c \u043d\u0430\u043c \u043d\u0443\u0436\u043d\u043e \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u0442\u0440\u0438 \u043f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0435 \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u0438:<br \/>  1) \u0423\u0434\u0430\u043b\u0438\u0442\u044c \u0440\u0430\u0437\u043d\u044b\u0435 \u0437\u0430\u043f\u044f\u0442\u044b\u0435, \u0442\u043e\u0447\u043a\u0438, \u0434\u0432\u043e\u0435\u0442\u043e\u0447\u0438\u044f, \u0435\u0441\u043b\u0438 \u0435\u0441\u0442\u044c html \u0438 \u043f\u0440\u043e\u0447\u0438\u0439 \u043c\u0443\u0441\u043e\u0440 \u0438\u0437 \u0442\u0435\u043a\u0441\u0442\u0430.<br \/>  2) \u041f\u0440\u0438\u0432\u0435\u0441\u0442\u0438 \u0432\u0441\u0435 \u0432 \u043d\u0438\u0436\u043d\u0438\u0439 \u0440\u0435\u0433\u0438\u0441\u0442\u0440 \u0438 \u0443\u0434\u0430\u043b\u0438\u0442\u044c \u0432\u0441\u0435 \u043f\u0440\u0435\u0434\u043b\u043e\u0433\u0438 \u0432, \u043d\u0430, \u0437\u0430, \u0438 \u0442\u0434.<br \/>  3) \u041f\u0440\u0438\u0432\u0435\u0441\u0442\u0438 \u0441\u043b\u043e\u0432\u0430 \u0432 \u043d\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u0443\u044e \u0444\u043e\u0440\u043c\u0443, \u0442\u043e \u0435\u0441\u0442\u044c \u043f\u043e\u0441\u043a\u043e\u043b\u044c\u043a\u0443 \u0434\u043b\u044f \u043f\u043e\u0438\u0441\u043a\u0430 \u0441\u043b\u043e\u0432\u0430 \u0442\u0438\u043f\u0430 \u041f\u0440\u0435\u043c\u0438\u044f \u043f\u0440\u0435\u043c\u0438\u0439 \u0438 \u043f\u0440\u043e\u0447\u0435\u0435 \u0431\u0443\u0434\u0435\u0442 \u0440\u0430\u0437\u043d\u044b\u043c\u0438 \u0441\u043b\u043e\u0432\u0430\u043c\u0438, \u043d\u0430\u0434\u043e \u044d\u0442\u043e \u0438\u0441\u043f\u0440\u0430\u0432\u0438\u0442\u044c.<br \/>  4) \u0415\u0441\u043b\u0438 \u043c\u044b \u043f\u0440\u043e\u0441\u0442\u043e \u0445\u043e\u0442\u0438\u043c \u043d\u0430\u0439\u0442\u0438 \u043f\u043e\u0445\u043e\u0436\u0438\u0435 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b, \u0442\u043e \u043c\u043e\u0436\u043d\u043e \u0443\u0434\u0430\u043b\u0438\u0442\u044c \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u044e\u0449\u0438\u0435\u0441\u044f \u0432\u0441\u0435\u0433\u043e \u043b\u0438\u0448\u044c \u043e\u0434\u0438\u043d \u0440\u0430\u0437 \u0441\u043b\u043e\u0432\u0430 \u2014 \u0434\u043b\u044f \u0430\u043d\u0430\u043b\u0438\u0437\u0430 \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u0430 \u043e\u043d\u0438 \u0431\u0435\u0441\u043f\u043e\u043b\u0435\u0437\u043d\u044b \u0438 \u0431\u0443\u0434\u0443\u0447\u0438 \u0443\u0434\u0430\u043b\u0451\u043d\u043d\u044b\u043c\u0438 \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0442 \u0441\u0443\u0449\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e \u0441\u044d\u043a\u043e\u043d\u043e\u043c\u0438\u0442\u044c \u043f\u0430\u043c\u044f\u0442\u044c.<\/p>\n<p>  \u0422\u0435\u043f\u0435\u0440\u044c \u0441\u0430\u043c \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c, \u0431\u043b\u0430\u0433\u043e\u0434\u0430\u0440\u044f \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u043c \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430\u043c \u043f\u0438\u0442\u043e\u043d\u0430 \u0442\u0443\u0442 \u0432\u0441\u0435 \u0434\u043e\u0432\u043e\u043b\u044c\u043d\u043e \u043f\u0440\u043e\u0441\u0442\u043e.<br \/>  5) \u041c\u044b \u0441\u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u043c \u043c\u0430\u0442\u0440\u0438\u0446\u0443 \u043d\u043e\u043b\u0435\u0439 \u0438 \u0435\u0434\u0438\u043d\u0438\u0446, \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0435\u043d\u043d\u043e \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u044e\u0449\u0438\u0445 \u043e\u0442\u0441\u0443\u0442\u0441\u0442\u0432\u0438\u0435 \u0438\u043b\u0438 \u043d\u0430\u043b\u0438\u0447\u0438\u0435 \u0441\u043b\u043e\u0432\u0430 \u0432 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0435.<br \/>  6) \u0412\u044b\u043f\u043e\u043b\u043d\u044f\u0435\u043c \u0441\u0438\u043d\u0433\u0443\u043b\u044f\u0440\u043d\u043e\u0435 \u0440\u0430\u0437\u043b\u043e\u0436\u0435\u043d\u0438\u0435 \u044d\u0442\u043e\u0439 \u043c\u0430\u0442\u0440\u0438\u0446\u044b, \u0432 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0435 \u0447\u0435\u0433\u043e \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0442\u0440\u0438 \u0434\u0440\u0443\u0433\u0438\u0435 \u043c\u0430\u0442\u0440\u0438\u0446\u044b, \u0432 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043f\u043e\u043b\u0443\u0447\u0438\u043c \u043a\u043e\u043e\u0440\u0434\u0438\u043d\u0430\u0442\u044b \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0438 \u0441\u043b\u043e\u0432 \u0432 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0435.<\/p>\n<p>  \u041d\u0430 \u043f\u043e\u0441\u043b\u0435\u0434\u043d\u0435\u043c \u044d\u0442\u0430\u043f\u0435 \u0432 \u0443\u043f\u0440\u043e\u0449\u0451\u043d\u043d\u043e\u043c \u0432\u0438\u0434\u0435 \u043d\u0430\u043c \u043e\u0441\u0442\u0430\u0435\u0442\u0441\u044f \u043f\u0440\u043e\u0441\u0442\u043e \u0441\u0440\u0430\u0432\u043d\u0438\u0442\u044c \u043c\u0435\u0436\u0434\u0443 \u0441\u043e\u0431\u043e\u0439 \u043a\u043e\u043e\u0440\u0434\u0438\u043d\u0430\u0442\u044b \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0438\/\u0438\u043b\u0438 \u0441\u043b\u043e\u0432: \u0442\u0435, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043d\u0430\u0445\u043e\u0434\u044f\u0442\u0441\u044f \u0431\u043b\u0438\u0436\u0435 \u0432\u0441\u0435\u0433\u043e \u0434\u0440\u0443\u0433 \u043a \u0434\u0440\u0443\u0433\u0443 \u0438 \u0435\u0441\u0442\u044c \u043d\u0443\u0436\u043d\u044b\u0439 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442, \u0442\u0435 \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043f\u043e\u0434\u0430\u043b\u044c\u0448\u0435 \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0435\u043d\u043d\u043e \u043c\u0435\u043d\u0435\u0435 \u0440\u0435\u043b\u0435\u0432\u0430\u043d\u0442\u043d\u044b.<\/p>\n<p>  \u0412\u0441\u0435 \u043c\u0430\u043d\u0438\u043f\u0443\u043b\u044f\u0446\u0438\u0438 \u0441 \u043c\u0430\u0442\u0440\u0438\u0446\u0430\u043c\u0438 \u043c\u044b \u0431\u0443\u0434\u0435\u043c \u043e\u0441\u0443\u0449\u0435\u0441\u0442\u0432\u043b\u044f\u0442\u044c \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e <code>numpy<\/code> \u0438 <code>scipy<\/code> \u043f\u0440\u0438\u0432\u043e\u0434\u0438\u0442\u044c \u0441\u043b\u043e\u0432\u0430 \u043a \u0438\u0437\u043d\u0430\u0447\u0430\u043b\u044c\u043d\u043e\u0439 \u0444\u043e\u0440\u043c\u0435 \u0431\u0443\u0434\u0435\u043c \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e nltk. \u0423\u0441\u0442\u0430\u043d\u0430\u0432\u043b\u0438\u0432\u0430\u0435\u043c\u2026<br \/>  <code>pip install numpy pip install nltk pip install scipy<\/code><br \/>  \u0415\u0441\u043b\u0438 \u043f\u0440\u0438 \u043f\u043e\u043f\u044b\u0442\u043a\u0435 \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u044c <code>scipy<\/code> \u0432\u043e\u0437\u043d\u0438\u043a\u043d\u0443\u0442 \u043a\u0430\u043a\u0438\u0435 \u0442\u043e \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u044b (\u0431\u0443\u0434\u0435\u0442 \u0442\u0440\u0435\u0431\u043e\u0432\u0430\u0442\u044c \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u044c BLASS) \u0442\u043e \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e \u043f\u043e\u043c\u043e\u0436\u0435\u0442.<br \/>  <code> apt-get install gfortran libopenblas-dev liblapack-dev <\/code><\/p>\n<p>  \u0418\u043d\u0438\u0446\u0438\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044f \u043a\u043b\u0430\u0441\u0441\u0430.<\/p>\n<pre><code class=\"python\">class LSI(object): \tdef __init__(self, stopwords, ignorechars, docs): \t\t# \u0432\u0441\u0435 \u0441\u043b\u043e\u0432\u0430 \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u044e\u0442\u0441\u044f \u0432 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0445, \u0438 \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u043d\u043e\u043c\u0435\u0440\u0430 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0432 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u043a\u0430\u0436\u0434\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \t\tself.wdict = {} \t\t# dictionary - \u041a\u043b\u044e\u0447\u0435\u0432\u044b\u0435 \u0441\u043b\u043e\u0432\u0430 \u0432 \u043c\u0430\u0442\u0440\u0438\u0446\u0435 \u0441\u043b\u0435\u0432\u0430   \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u043a\u043e\u0434\u044b \u0441\u043b\u043e\u0432 \t\tself.dictionary = [] \t\t# \u0441\u043b\u043e\u0432\u0430 \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0438\u0441\u043a\u043b\u044e\u0447\u0430\u0435\u043c \u0438\u0437 \u0430\u043d\u0430\u043b\u0438\u0437\u0430 \u0442\u0438\u043f\u0430 \u0438, \u0432, \u043d\u0430 \t\tself.stopwords = stopwords \t\tif type(ignorechars) == unicode: ignorechars = ignorechars.encode('utf-8') \t\tself.ignorechars = ignorechars \t\t# \u0438\u043d\u0438\u0446\u0438\u0430\u043b\u0438\u0437\u0438\u0440\u0443\u0435\u043c \u0441\u0430\u043c\u0438 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b \t\tfor doc in docs: self.add_doc(doc)  <\/code><\/pre>\n<p>  \u041f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u043a\u0430 \u0441\u043b\u043e\u0432, \u043f\u043e\u043f\u043e\u043b\u043d\u044f\u0435\u043c \u0441\u043b\u043e\u0432\u0430\u0440\u044c, \u0435\u0441\u043b\u0438 \u0441\u043b\u043e\u0432\u043e \u0435\u0441\u0442\u044c \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u0435 \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u043c \u0435\u0433\u043e \u043d\u043e\u043c\u0435\u0440, \u043f\u0440\u0435\u0434\u0432\u0430\u0440\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u043e\u0447\u0438\u0449\u0430\u0435\u043c \u043e\u0442 \u043b\u0438\u0448\u043d\u0438\u0445 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432 \u0438 \u043f\u0440\u0438\u0432\u043e\u0434\u0438\u043c \u0432 \u043d\u0430\u0447\u0430\u043b\u044c\u043d\u0443\u044e \u0444\u043e\u0440\u043c\u0443  <\/p>\n<pre><code class=\"python\">def dic(self, word, add = False): \t\tif type(word) == unicode: word = word.encode('utf-8') \t\t# \u0447\u0438\u0441\u0442\u0438\u043c \u043e\u0442 \u043b\u0438\u0448\u043d\u0438\u0445 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u043c \t\tword = word.lower().translate(None, self.ignorechars) \t\tword = word.decode('utf-8') \t\t# \u043f\u0440\u0438\u0432\u043e\u0434\u0438\u043c \u043a \u043d\u0430\u0447\u0430\u043b\u044c\u043d\u043e\u0439 \u0444\u043e\u0440\u043c\u0435 \t\tword = stemmer.stem(word) \t\t# \u0435\u0441\u043b\u0438 \u0441\u043b\u043e\u0432\u043e \u0435\u0441\u0442\u044c \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u0435 \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u043c \u0435\u0433\u043e \u043d\u043e\u043c\u0435\u0440 \t\tif word in self.dictionary: return self.dictionary.index(word) \t\telse: \t\t\t# \u0435\u0441\u043b\u0438 \u043d\u0435\u0442 \u0438 \u0441\u0442\u043e\u0438\u0442 \u0444\u043b\u0430\u0433 \u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438 \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0442\u044c \u0442\u043e \u043f\u043e\u043f\u043e\u043b\u043d\u044f\u0435\u043c \u0441\u043b\u043e\u0432\u0430\u0440\u0438 \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0432\u0435\u043c \u043a\u043e\u0434 \u0441\u043b\u043e\u0432\u0430 \t\t\tif add: \t\t\t\t#self.ready = False \t\t\t\tself.dictionary.append(word) \t\t\t\treturn len(self.dictionary) - 1 \t\t\telse: return None <\/code><\/pre>\n<p>  \u041f\u043e\u0441\u0442\u0440\u043e\u0435\u043d\u0438\u0435 \u0438\u0441\u0445\u043e\u0434\u043d\u043e\u0439 \u043c\u0430\u0442\u0440\u0438\u0446\u044b  <\/p>\n<pre><code class=\"python\">def build(self): \t\t# \u0443\u0431\u0438\u0440\u0430\u0435\u043c \u043e\u0434\u0438\u043d\u043e\u0447\u043d\u044b\u0435 \u0441\u043b\u043e\u0432\u0430 \t\tself.keys = [k for k in self.wdict.keys() if len(self.wdict[k]) &gt; 0] \t\tself.keys.sort() \t\t# \u0441\u043e\u0437\u0434\u0430\u0451\u043c \u043f\u0443\u0441\u0442\u0443\u044e \u043c\u0430\u0442\u0440\u0438\u0446\u0443    \t\tself.A = zeros([len(self.keys), len(self.docs)]) \t\t# \u043d\u0430\u043f\u043e\u043b\u043d\u044f\u0435\u043c \u044d\u0442\u0443 \u043c\u0430\u0442\u0440\u0438\u0446\u0443 \t\tfor i, k in enumerate(self.keys): \t\t\tfor d in self.wdict[k]: \t\t\t\tself.A[i,d] += 1 <\/code><\/pre>\n<p>  \u041f\u043e\u0441\u0442\u0440\u043e\u0435\u043d\u0438\u0435 \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0445 \u043c\u0430\u0442\u0440\u0438\u0446  <\/p>\n<pre><code class=\"python\">def calc(self): \t\t&quot;&quot;&quot; \u0412\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u0435 U, S Vt - \u043c\u0430\u0442\u0440\u0438\u0446 &quot;&quot;&quot; \t\tself.U, self.S, self.Vt = svd(self.A) <\/code><\/pre>\n<p>  \u041d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044f \u0432\u0435\u0441\u0430 \u0438\u043b\u0438 \u0432\u0430\u0436\u043d\u043e\u0441\u0442\u0438 \u0441\u043b\u043e\u0432 \u0432 \u043c\u0430\u0442\u0440\u0438\u0446\u0435. \u0412\u044b\u0447\u0438\u0441\u043b\u044f\u0435\u043c \u0432\u0430\u0436\u043d\u043e\u0441\u0442\u044c \u0442\u0435\u0440\u043c\u0438\u043d\u0430 \u0432 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438 \u043e\u0442 \u0435\u0433\u043e \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u043c\u043e\u0441\u0442\u0438. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0441\u043b\u043e\u0432\u043e \u00ab\u0438\u00bb \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e \u0447\u0430\u0441\u0442\u043e, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u044d\u0442\u043e \u0441\u043b\u043e\u0432\u043e \u0431\u0443\u0434\u0435\u0442 \u0438\u043c\u0435\u0442\u044c \u043d\u0438\u0437\u043a\u0443\u044e \u0437\u043d\u0430\u0447\u0438\u043c\u043e\u0441\u0442\u044c, \u0430, \u0441\u043a\u0430\u0436\u0435\u043c, \u0441\u043b\u043e\u0432\u043e \u00ab\u0421\u0428\u0410\u00bb \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u0437\u043d\u0430\u0447\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0440\u0435\u0436\u0435\u043c \u0438, \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0435\u043d\u043d\u043e, \u0431\u0443\u0434\u0435\u0442 \u0438\u043c\u0435\u0442\u044c \u0431\u043e\u043b\u044c\u0448\u0443\u044e \u0437\u043d\u0430\u0447\u0438\u043c\u043e\u0441\u0442\u044c. \u0421\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u044b\u0435 \u043e\u0431\u043e\u0440\u043e\u0442\u044b \u0440\u0435\u0447\u0438 \u043e\u0442\u0441\u0435\u0438\u0432\u0430\u044e\u0442\u0441\u044f, \u0430 \u0440\u0435\u0434\u043a\u0438\u0435 \u0442\u0435\u0440\u043c\u0438\u043d\u044b \u043e\u0441\u0442\u0430\u044e\u0442\u0441\u044f.  <\/p>\n<pre><code class=\"python\">\tdef TFIDF(self): \t\t# \u0432\u0441\u0435\u0433\u043e \u043a\u043e\u043b-\u0432\u043e \u0441\u043b\u043e\u0432 \u043d\u0430 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442 \t\twordsPerDoc = sum(self.A, axis=0) \t\t# \u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u043f\u0440\u0438\u0445\u043e\u0434\u0438\u0442\u0441\u044f \u043d\u0430 \u0441\u043b\u043e\u0432\u043e \t\tdocsPerWord = sum(asarray(self.A &gt; 0, 'i'), axis=1) \t\trows, cols = self.A.shape \t\tfor i in range(rows): \t\t\tfor j in range(cols): \t\t\t\tself.A[i,j] = (self.A[i,j] \/ wordsPerDoc[j]) * log(float(cols) \/ docsPerWord[i]) <\/code><\/pre>\n<p>  \u0421\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u043d\u0430 \u043e\u0441\u0438 \u043a\u043e\u043e\u0440\u0434\u0438\u043d\u0430\u0442 \u0438 \u043f\u043e\u0438\u0441\u043a \u043f\u043e \u043d\u0438\u043c.<\/p>\n<pre><code class=\"python\">def find(self, word):                 self.prepare() \t\tidx = self.dic(word) \t\tif not idx: \t\t\tprint '\u0441\u043b\u043e\u0432\u043e \u043d\u0435\u0432\u0441\u0442\u0435\u0440\u0447\u0430\u0435\u0442\u0441\u044f' \t\t\treturn [] \t\tif not idx in self.keys: \t\t\tprint '\u0441\u043b\u043e\u0432\u043e \u043e\u0442\u0431\u0440\u043e\u0448\u0435\u043d\u043e \u043a\u0430\u043a \u043d\u0435 \u0438\u043c\u0435\u044e\u0449\u0435\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u043a\u043e\u0442\u043e\u0440\u043e\u0435 \u0447\u0435\u0440\u0435\u0437 stopwords' \t\t\treturn [] \t\tidx = self.keys.index(idx) \t\tprint 'word --- ', word, '=', self.dictionary[self.keys[idx]], '.\\n' \t\t# \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u043a\u043e\u043e\u0440\u0434\u0438\u043d\u0430\u0442\u044b \u0441\u043b\u043e\u0432\u0430 \t\twx, wy = (-1 * self.U[:, 1:3])[idx] \t\tprint 'word {}\\t{:0.2f}\\t{:0.2f}\\t{}\\n'.format(idx, wx, wy, word) \t\tarts = [] \t\txx, yy = -1 * self.Vt[1:3, :] \t\tfor k, v in enumerate(self.docs): \t\t\t# \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u043a\u043e\u043e\u0440\u0434\u0438\u043d\u0430\u0442\u044b \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430 \t\t\tax, ay = xx[k], yy[k] \t\t\t#\u0432\u044b\u0447\u0438\u0441\u043b\u044f\u0435\u043c \u0440\u0430\u0441\u0441\u0442\u043e\u044f\u043d\u0438\u0435 \u043c\u0435\u0436\u0434\u0443 \u0441\u043b\u043e\u0432\u043e\u043c \u0438 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u043c \t\t\tdx, dy = float(wx - ax), float(wy - ay) \t\t\tarts.append((k, v, ax, ay, sqrt(dx * dx + dy * dy))) \t\t# \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u043c \u043e\u0442\u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0439 \u043f\u043e \u0440\u0430\u0441\u0441\u0442\u043e\u044f\u043d\u0438\u044e \u0441\u043f\u0438\u0441\u043e\u043a \t\treturn sorted(arts, key = lambda a: a[4]) <\/code><\/pre>\n<div class=\"spoiler\"><b class=\"spoiler_title\">\u0412\u0435\u0441\u044c \u043a\u043e\u0434 \u0446\u0435\u043b\u0438\u043a\u043e\u043c<\/b><\/p>\n<div class=\"spoiler_text\">\n<pre><code class=\"python\">class LSI(object): \tdef __init__(self, stopwords, ignorechars, docs): \t\tself.wdict = {} \t\tself.dictionary = [] \t\tself.stopwords = stopwords \t\tif type(ignorechars) == unicode: ignorechars = ignorechars.encode('utf-8') \t\tself.ignorechars = ignorechars \t\tfor doc in docs: self.add_doc(doc)  \tdef prepare(self): \t\tself.build() \t\tself.calc()  \tdef dic(self, word, add = False): \t\tif type(word) == unicode: word = word.encode('utf-8') \t\tword = word.lower().translate(None, self.ignorechars) \t\tword = word.decode('utf-8') \t\tword = stemmer.stem(word) \t\tif word in self.dictionary: return self.dictionary.index(word) \t\telse: \t\t\tif add: \t\t\t\tself.dictionary.append(word) \t\t\t\treturn len(self.dictionary) - 1 \t\t\telse: return None  \tdef add_doc(self, doc): \t\twords = [self.dic(word, True) for word in doc.lower().split()] \t\tself.docs.append(words) \t\tfor word in words: \t\t\tif word in self.stopwords:  continue \t\t\telif word in self.wdict:   self.wdict[word].append(len(self.docs) - 1) \t\t\telse:                      self.wdict[word] = [len(self.docs) - 1]  \tdef build(self): \t\tself.keys = [k for k in self.wdict.keys() if len(self.wdict[k]) &gt; 0] \t\tself.keys.sort() \t\tself.A = zeros([len(self.keys), len(self.docs)]) \t\tfor i, k in enumerate(self.keys): \t\t\tfor d in self.wdict[k]: \t\t\t\tself.A[i,d] += 1  \tdef calc(self): \t\tself.U, self.S, self.Vt = svd(self.A)  \tdef TFIDF(self): \t\twordsPerDoc = sum(self.A, axis=0) \t\tdocsPerWord = sum(asarray(self.A &gt; 0, 'i'), axis=1) \t\trows, cols = self.A.shape \t\tfor i in range(rows): \t\t\tfor j in range(cols): \t\t\t\tself.A[i,j] = (self.A[i,j] \/ wordsPerDoc[j]) * log(float(cols) \/ docsPerWord[i])  \tdef dump_src(self): \t\tself.prepare() \t\tprint '\u0417\u0434\u0435\u0441\u044c \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d \u0440\u0430\u0441\u0447\u0435\u0442 \u043c\u0430\u0442\u0440\u0438\u0446\u044b ' \t\tfor i, row in enumerate(self.A): \t\t\tprint self.dictionary[i], row  \tdef print_svd(self): \t\tself.prepare() \t\tprint '\u0417\u0434\u0435\u0441\u044c \u0441\u0438\u043d\u0433\u0443\u043b\u044f\u0440\u043d\u044b\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f' \t\tprint self.S \t\tprint '\u0417\u0434\u0435\u0441\u044c \u043f\u0435\u0440\u0432\u044b\u0435 3 \u043a\u043e\u043b\u043e\u043d\u043a\u0438 U \u043c\u0430\u0442\u0440\u0438\u0446\u0430 ' \t\tfor i, row in enumerate(self.U): \t\t\tprint self.dictionary[self.keys[i]], row[0:3] \t\tprint '\u0417\u0434\u0435\u0441\u044c \u043f\u0435\u0440\u0432\u044b\u0435 3 \u0441\u0442\u0440\u043e\u0447\u043a\u0438 Vt \u043c\u0430\u0442\u0440\u0438\u0446\u0430' \t\tprint -1*self.Vt[0:3, :]  \tdef find(self, word): \t\tself.prepare() \t\tidx = self.dic(word) \t\tif not idx: \t\t\tprint '\u0441\u043b\u043e\u0432\u043e \u043d\u0435\u0432\u0441\u0442\u0435\u0440\u0447\u0430\u0435\u0442\u0441\u044f' \t\t\treturn [] \t\tif not idx in self.keys: \t\t\tprint '\u0441\u043b\u043e\u0432\u043e \u043e\u0442\u0431\u0440\u043e\u0448\u0435\u043d\u043e \u043a\u0430\u043a \u043d\u0435 \u0438\u043c\u0435\u044e\u0449\u0435\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u043a\u043e\u0442\u043e\u0440\u043e\u0435 \u0447\u0435\u0440\u0435\u0437 stopwords' \t\t\treturn [] \t\tidx = self.keys.index(idx) \t\tprint 'word --- ', word, '=', self.dictionary[self.keys[idx]], '.\\n' \t\t# \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u043a\u043e\u043e\u0440\u0434\u0438\u043d\u0430\u0442\u044b \u0441\u043b\u043e\u0432\u0430 \t\twx, wy = (-1 * self.U[:, 1:3])[idx] \t\tprint 'word {}\\t{:0.2f}\\t{:0.2f}\\t{}\\n'.format(idx, wx, wy, word) \t\tarts = [] \t\txx, yy = -1 * self.Vt[1:3, :] \t\tfor k, v in enumerate(self.docs): \t\t\tax, ay = xx[k], yy[k] \t\t\tdx, dy = float(wx - ax), float(wy - ay) \t\t\tarts.append((k, v, ax, ay, sqrt(dx * dx + dy * dy))) \t\treturn sorted(arts, key = lambda a: a[4])  <\/code><\/pre>\n<\/p><\/div>\n<\/div>\n<p>  \u041e\u0441\u0442\u0430\u043b\u043e\u0441\u044c \u0432\u044b\u0437\u0432\u0430\u0442\u044c \u043f\u0440\u0438\u0432\u0435\u0434\u0435\u043d\u043d\u044b\u0439 \u0432\u044b\u0448\u0435 \u043a\u043e\u0434.<\/p>\n<pre><code class=\"python\">docs =[ \t&quot;\u0411\u0440\u0438\u0442\u0430\u043d\u0441\u043a\u0430\u044f \u043f\u043e\u043b\u0438\u0446\u0438\u044f \u0437\u043d\u0430\u0435\u0442 \u043e \u043c\u0435\u0441\u0442\u043e\u043d\u0430\u0445\u043e\u0436\u0434\u0435\u043d\u0438\u0438 \u043e\u0441\u043d\u043e\u0432\u0430\u0442\u0435\u043b\u044f WikiLeaks&quot;, \t&quot;\u0412 \u0441\u0443\u0434\u0435 \u0421\u0428\u0410 \u0421\u0428\u0410 \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442\u0441\u044f \u043f\u0440\u043e\u0446\u0435\u0441\u0441 \u043f\u0440\u043e\u0442\u0438\u0432 \u0440\u043e\u0441\u0441\u0438\u044f\u043d\u0438\u043d\u0430, \u0440\u0430\u0441\u0441\u044b\u043b\u0430\u0432\u0448\u0435\u0433\u043e \u0441\u043f\u0430\u043c&quot;, \t&quot;\u0426\u0435\u0440\u0435\u043c\u043e\u043d\u0438\u044e \u0432\u0440\u0443\u0447\u0435\u043d\u0438\u044f \u041d\u043e\u0431\u0435\u043b\u0435\u0432\u0441\u043a\u043e\u0439 \u043f\u0440\u0435\u043c\u0438\u0438 \u043c\u0438\u0440\u0430 \u0431\u043e\u0439\u043a\u043e\u0442\u0438\u0440\u0443\u044e\u0442 19 \u0441\u0442\u0440\u0430\u043d&quot;, \t&quot;\u0412 \u0412\u0435\u043b\u0438\u043a\u043e\u0431\u0440\u0438\u0442\u0430\u043d\u0438\u0438 \u0430\u0440\u0435\u0441\u0442\u043e\u0432\u0430\u043d \u043e\u0441\u043d\u043e\u0432\u0430\u0442\u0435\u043b\u044c \u0441\u0430\u0439\u0442\u0430 Wikileaks \u0414\u0436\u0443\u043b\u0438\u0430\u043d \u0410\u0441\u0441\u0430\u043d\u0434\u0436&quot;, \t&quot;\u0423\u043a\u0440\u0430\u0438\u043d\u0430 \u0438\u0433\u043d\u043e\u0440\u0438\u0440\u0443\u0435\u0442 \u0446\u0435\u0440\u0435\u043c\u043e\u043d\u0438\u044e \u0432\u0440\u0443\u0447\u0435\u043d\u0438\u044f \u041d\u043e\u0431\u0435\u043b\u0435\u0432\u0441\u043a\u043e\u0439 \u043f\u0440\u0435\u043c\u0438\u0438&quot;, \t&quot;\u0428\u0432\u0435\u0434\u0441\u043a\u0438\u0439 \u0441\u0443\u0434 \u043e\u0442\u043a\u0430\u0437\u0430\u043b\u0441\u044f \u0440\u0430\u0441\u0441\u043c\u0430\u0442\u0440\u0438\u0432\u0430\u0442\u044c \u0430\u043f\u0435\u043b\u043b\u044f\u0446\u0438\u044e \u043e\u0441\u043d\u043e\u0432\u0430\u0442\u0435\u043b\u044f Wikileaks&quot;, \t&quot;\u041d\u0410\u0422\u041e \u0438 \u0421\u0428\u0410 \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u043b\u0438 \u043f\u043b\u0430\u043d\u044b \u043e\u0431\u043e\u0440\u043e\u043d\u044b \u0441\u0442\u0440\u0430\u043d \u0411\u0430\u043b\u0442\u0438\u0438 \u043f\u0440\u043e\u0442\u0438\u0432 \u0420\u043e\u0441\u0441\u0438\u0438&quot;, \t&quot;\u041f\u043e\u043b\u0438\u0446\u0438\u044f \u0412\u0435\u043b\u0438\u043a\u043e\u0431\u0440\u0438\u0442\u0430\u043d\u0438\u0438 \u043d\u0430\u0448\u043b\u0430 \u043e\u0441\u043d\u043e\u0432\u0430\u0442\u0435\u043b\u044f WikiLeaks, \u043d\u043e, \u043d\u0435 \u0430\u0440\u0435\u0441\u0442\u043e\u0432\u0430\u043b\u0430&quot;, \t&quot;\u0412 \u0421\u0442\u043e\u043a\u0433\u043e\u043b\u044c\u043c\u0435 \u0438 \u041e\u0441\u043b\u043e \u0441\u0435\u0433\u043e\u0434\u043d\u044f \u0441\u043e\u0441\u0442\u043e\u0438\u0442\u0441\u044f \u0432\u0440\u0443\u0447\u0435\u043d\u0438\u0435 \u041d\u043e\u0431\u0435\u043b\u0435\u0432\u0441\u043a\u0438\u0445 \u043f\u0440\u0435\u043c\u0438\u0439&quot; ] ignorechars = ''',:'!''' word = &quot;\u0421\u0428\u0410&quot; lsa = LSI([], ignorechars, docs) lsa.build() lsa.dump_src() lsa.calc() lsa.print_svd()  for res in lsa.find(word): \tprint res[0], res[4], res[1], docs[res[0]] <\/code><\/pre>\n<pre> lsa.dump_src()  \u0431\u0440\u0438\u0442\u0430\u043d\u0441\u043a [ 1.  0.  0.  0.  0.  0.  0.  0.  0.] \u043f\u043e\u043b\u0438\u0446 [ 1.  0.  0.  0.  0.  0.  0.  1.  0.] \u0437\u043d\u0430\u0435\u0442 [ 1.  0.  0.  0.  0.  0.  0.  0.  0.]  ... <\/pre>\n<p>  \u0412 \u0441\u0442\u043e\u043b\u0431\u0446\u0430\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u044b, \u0432 \u0441\u0442\u0440\u043e\u0447\u043a\u0430\u0445 \u0442\u0435\u0440\u043c\u0438\u043d\u044b.<\/p>\n<pre> lsa.print_svd()  \u0437\u0434\u0435\u0441\u044c \u043f\u0435\u0440\u0432\u044b\u0435 3 \u043a\u043e\u043b\u043e\u043d\u043a\u0438 U \u043c\u0430\u0442\u0440\u0438\u0446\u0430  \u0431\u0440\u0438\u0442\u0430\u043d\u0441\u043a [-0.06333698 -0.08969849  0.03023127] \u043f\u043e\u043b\u0438\u0446 [-0.14969793 -0.20853416  0.07106177] \u0437\u043d\u0430\u0435\u0442 [-0.06333698 -0.08969849  0.03023127] ...  \u0417\u0434\u0435\u0441\u044c \u043f\u0435\u0440\u0432\u044b\u0435 3 \u0441\u0442\u0440\u043e\u0447\u043a\u0438 Vt \u043c\u0430\u0442\u0440\u0438\u0446\u0430 [[ 0.25550481  0.47069418  0.27633104  0.39579252  0.21466192  0.26635401 0.32757769  0.3483847   0.3666749 ]  [ 0.34469126 -0.18334417 -0.36995197  0.37444485 -0.29101203  0.27916372 -0.26791709  0.45665895 -0.35715836]  [-0.10950444  0.64280654 -0.39672464 -0.1011325  -0.36012511 -0.01213328 0.38644373 -0.14789727 -0.32579232]] <\/pre>\n<pre> for res in lsa.find(word): \tprint res[0], res[4], res[1], docs[res[0]]  word   9 (\u043a\u043e\u0434 \u0441\u043b\u043e\u0432\u0430 \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u0435)  -0.17(\u043f\u0435\u0440\u0432\u0430\u044f \u043a\u043e\u043e\u0440\u0434\u0438\u043d\u0430\u0442\u0430 \u0441\u043b\u043e\u0432\u0430)  \t0.46(\u0432\u0442\u043e\u0440\u0430\u044f \u043a\u043e\u043e\u0440\u0434\u0438\u043d\u0430\u0442\u0430)\t\u0421\u0428\u0410 (\u0441\u0430\u043c\u043e \u0441\u043b\u043e\u0432\u043e)   \u043d\u043e\u043c\u0435\u0440 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430 \u0432 \u0441\u043f\u0438\u0441\u043a\u0435  | \u0440\u0430\u0441\u0442\u043e\u044f\u043d\u0438\u0435 |  \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442 \u0440\u0430\u0437\u043b\u043e\u0436\u0435\u043d\u044b\u0439 \u043d\u0430 \u043a\u043e\u0434\u044b  |  \u0441\u0430\u043c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442 6 0.127328977215 [35, 36, 9, 37, 38, 39, 23, 40, 12, 41] \u041d\u0410\u0422\u041e \u0438 \u0421\u0428\u0410 \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u043b\u0438 \u043f\u043b\u0430\u043d\u044b \u043e\u0431\u043e\u0440\u043e\u043d\u044b \u0441\u0442\u0440\u0430\u043d \u0411\u0430\u043b\u0442\u0438\u0438 \u043f\u0440\u043e\u0442\u0438\u0432 \u0420\u043e\u0441\u0441\u0438\u0438 1 0.182108022464 [7, 8, 9, 9, 10, 11, 12, 13, 14, 15] \u0412 \u0441\u0443\u0434\u0435 \u0421\u0428\u0410 \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442\u0441\u044f \u043f\u0440\u043e\u0446\u0435\u0441\u0441 \u043f\u0440\u043e\u0442\u0438\u0432 \u0440\u043e\u0441\u0441\u0438\u044f\u043d\u0438\u043d\u0430, \u0440\u0430\u0441\u0441\u044b\u043b\u0430\u0432\u0448\u0435\u0433\u043e \u0441\u043f\u0430\u043c 5 0.649492914495 [31, 8, 32, 33, 34, 5, 6] \u0428\u0432\u0435\u0434\u0441\u043a\u0438\u0439 \u0441\u0443\u0434 \u043e\u0442\u043a\u0430\u0437\u0430\u043b\u0441\u044f \u0440\u0430\u0441\u0441\u043c\u0430\u0442\u0440\u0438\u0432\u0430\u0442\u044c \u0430\u043f\u0435\u043b\u043b\u044f\u0446\u0438\u044e \u043e\u0441\u043d\u043e\u0432\u0430\u0442\u0435\u043b\u044f Wikileaks 0 0.765573367056 [0, 1, 2, 3, 4, 5, 6] \u0411\u0440\u0438\u0442\u0430\u043d\u0441\u043a\u0430\u044f \u043f\u043e\u043b\u0438\u0446\u0438\u044f \u0437\u043d\u0430\u0435\u0442 \u043e \u043c\u0435\u0441\u0442\u043e\u043d\u0430\u0445\u043e\u0436\u0434\u0435\u043d\u0438\u0438 \u043e\u0441\u043d\u043e\u0432\u0430\u0442\u0435\u043b\u044f WikiLeaks 3 0.779637110377 [7, 24, 25, 5, 26, 6, 27, 28] \u0412 \u0412\u0435\u043b\u0438\u043a\u043e\u0431\u0440\u0438\u0442\u0430\u043d\u0438\u0438 \u0430\u0440\u0435\u0441\u0442\u043e\u0432\u0430\u043d \u043e\u0441\u043d\u043e\u0432\u0430\u0442\u0435\u043b\u044c \u0441\u0430\u0439\u0442\u0430 Wikileaks \u0414\u0436\u0443\u043b\u0438\u0430\u043d \u0410\u0441\u0441\u0430\u043d\u0434\u0436 8 0.810477163078 [7, 45, 36, 46, 47, 48, 17, 18, 19] \u0412 \u0421\u0442\u043e\u043a\u0433\u043e\u043b\u044c\u043c\u0435 \u0438 \u041e\u0441\u043b\u043e \u0441\u0435\u0433\u043e\u0434\u043d\u044f \u0441\u043e\u0441\u0442\u043e\u0438\u0442\u0441\u044f \u0432\u0440\u0443\u0447\u0435\u043d\u0438\u0435 \u041d\u043e\u0431\u0435\u043b\u0435\u0432\u0441\u043a\u0438\u0445 \u043f\u0440\u0435\u043c\u0438\u0439 4 0.831319718049 [29, 30, 16, 17, 18, 19] \u0423\u043a\u0440\u0430\u0438\u043d\u0430 \u0438\u0433\u043d\u043e\u0440\u0438\u0440\u0443\u0435\u0442 \u0446\u0435\u0440\u0435\u043c\u043e\u043d\u0438\u044e \u0432\u0440\u0443\u0447\u0435\u043d\u0438\u044f \u041d\u043e\u0431\u0435\u043b\u0435\u0432\u0441\u043a\u043e\u0439 \u043f\u0440\u0435\u043c\u0438\u0438 7 0.870710388156 [1, 24, 42, 5, 6, 43, 44, 25] \u041f\u043e\u043b\u0438\u0446\u0438\u044f \u0412\u0435\u043b\u0438\u043a\u043e\u0431\u0440\u0438\u0442\u0430\u043d\u0438\u0438 \u043d\u0430\u0448\u043b\u0430 \u043e\u0441\u043d\u043e\u0432\u0430\u0442\u0435\u043b\u044f WikiLeaks, \u043d\u043e, \u043d\u0435 \u0430\u0440\u0435\u0441\u0442\u043e\u0432\u0430\u043b\u0430 2 0.88243190531 [16, 17, 18, 19, 20, 21, 22, 23] \u0426\u0435\u0440\u0435\u043c\u043e\u043d\u0438\u044e \u0432\u0440\u0443\u0447\u0435\u043d\u0438\u044f \u041d\u043e\u0431\u0435\u043b\u0435\u0432\u0441\u043a\u043e\u0439 \u043f\u0440\u0435\u043c\u0438\u0438 \u043c\u0438\u0440\u0430 \u0431\u043e\u0439\u043a\u043e\u0442\u0438\u0440\u0443\u044e\u0442 19 \u0441\u0442\u0440\u0430\u043d<\/pre>\n<p>  \u041d\u0430 \u044d\u0442\u043e\u043c \u0432\u0441\u0435, \u0442\u0435\u043c\u0430 \u0434\u043e\u0432\u043e\u043b\u044c\u043d\u043e \u043e\u0431\u0448\u0438\u0440\u043d\u0430\u044f \u0441\u0442\u0430\u0440\u0430\u043b\u0441\u044f \u043a\u0430\u043a \u043c\u043e\u0436\u043d\u043e \u043b\u0430\u043a\u043e\u043d\u0438\u0447\u043d\u0435\u0439.<\/p>\n<h5>\u041f\u043e\u043b\u0435\u0437\u043d\u044b\u0435 \u0441\u0441\u044b\u043b\u043a\u0438<\/h5>\n<p>   \u2014 <a href=\"http:\/\/habrahabr.ru\/post\/110078\/\">\u041a\u0440\u0430\u0442\u043a\u0430\u044f \u0442\u0435\u043e\u0440\u0438\u044f \u043b\u0430\u0442\u0435\u043d\u0442\u043d\u043e-\u0441\u0435\u043c\u0430\u043d\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0433\u043e \u043f\u043e\u0438\u0441\u043a\u0430<\/a> (\u0440\u0443\u0441.)<br \/>   \u2014 <a href=\"http:\/\/radimrehurek.com\/gensim\/tutorial.html\">gensim \u2014 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430 \u0434\u043b\u044f \u041b\u0421\u0410 python<\/a><br \/>   \u2014 <a href=\"http:\/\/nltk.org\/\">nltk \u2014 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430 \u0434\u043b\u044f \u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u0438 \u0441\u043b\u043e\u0432<\/a>    \t<\/p>\n<div class=\"clear\"><\/div>\n<\/p><\/div>\n<p> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"http:\/\/habrahabr.ru\/post\/197238\/\"> http:\/\/habrahabr.ru\/post\/197238\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<div class=\"content html_format\">   \t<img decoding=\"async\" src=\"http:\/\/habr.habrastorage.org\/post_images\/d0d\/582\/b0c\/d0d582b0cda179c2b9831140ab929525.png\"\/><\/p>\n<p>  \u041d\u0435\u0434\u0430\u0432\u043d\u043e Google \u043e\u0431\u044a\u044f\u0432\u0438\u043b, \u0447\u0442\u043e \u043e\u043d \u043f\u0435\u0440\u0435\u0445\u043e\u0434\u0438\u0442 \u043e\u0442 \u043f\u043e\u0438\u0441\u043a\u0430 \u043f\u043e \u043a\u043b\u044e\u0447\u0435\u0432\u044b\u043c \u0441\u043b\u043e\u0432\u0430\u043c \u043a \u043f\u043e\u043b\u043d\u043e\u0441\u0442\u044c\u044e \u0441\u0435\u043c\u0430\u043d\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u043c\u0443 \u043f\u043e\u0438\u0441\u043a\u0443. \u041d\u0435 \u0437\u043d\u0430\u044e, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u043a\u0440\u0443\u0442\u044b \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u044b \u043f\u043e\u0438\u0441\u043a\u0430 \u0443 \u043c\u0438\u0440\u043e\u0432\u044b\u0445 \u0433\u0438\u0433\u0430\u043d\u0442\u043e\u0432, \u043d\u043e \u043f\u043e\u0438\u0441\u043a \u0432 \u043c\u0430\u043b\u0435\u043d\u044c\u043a\u043e\u0439 \u043f\u0435\u0441\u043e\u0447\u043d\u0438\u0446\u0435 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442\u0441\u044f \u0434\u043e\u0432\u043e\u043b\u044c\u043d\u043e \u0441\u0435\u043c\u0430\u043d\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u043c. \u041a\u043e\u043d\u0435\u0447\u043d\u043e, \u0441 \u043f\u043e\u0438\u0441\u043a\u043e\u043c \u043f\u043e \u0431\u043e\u043b\u0435\u0435 \u043c\u0435\u043d\u0435\u0435 \u043a\u0440\u0443\u043f\u043d\u044b\u043c \u043e\u0431\u044a\u0451\u043c\u0430\u043c \u0434\u0430\u043d\u043d\u044b\u0445 \u0443\u0436\u0435 \u043d\u0435 \u0432\u0441\u0451 \u0442\u0430\u043a \u0440\u0430\u0434\u0443\u0436\u043d\u043e, \u0433\u043e\u0442\u043e\u0432\u0438\u0442\u044c \u0441\u043b\u043e\u0432\u0430 \u043d\u0430\u0434\u043e \u043e\u0447\u0435\u043d\u044c \u0442\u0449\u0430\u0442\u0435\u043b\u044c\u043d\u043e, \u043d\u043e \u0442\u0435\u043c \u043d\u0435 \u043c\u0435\u043d\u0435\u0435.<\/p>\n<p>  \u0421\u0440\u0430\u0437\u0443 \u043e\u0433\u043e\u0432\u043e\u0440\u044e\u0441\u044c: \u043a\u043e\u043c\u0443 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u0430 \u0442\u043e\u043b\u044c\u043a\u043e \u0433\u043e\u043b\u0430\u044f \u0442\u0435\u043e\u0440\u0438\u044f, \u0442\u043e \u043e\u0442\u0441\u044b\u043b\u0430\u044e \u043a \u043e\u0447\u0435\u043d\u044c \u0445\u043e\u0440\u043e\u0448\u0435\u0439 <a href=\"http:\/\/habrahabr.ru\/post\/110078\/\">\u0441\u0442\u0430\u0442\u044c\u0435 \u043d\u0430 \u0445\u0430\u0431\u0440\u0435<\/a>, \u043a\u043e\u043c\u0443 \u043d\u0435 \u043e\u0441\u043e\u0431\u043e \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u043e \u0437\u043d\u0430\u0442\u044c \u043a\u0430\u043a \u0432\u0441\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442, \u0430 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u0443\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u043f\u0440\u043e\u0434\u0430\u043a\u0448\u043d, \u0442\u043e \u043e\u043d \u043c\u043e\u0436\u0435\u0442 \u043f\u043e\u043f\u0440\u043e\u0431\u043e\u0432\u0430\u0442\u044c <a href=\"http:\/\/radimrehurek.com\/gensim\/tutorial.html\"> \u043d\u0435\u043f\u043b\u043e\u0445\u0443\u044e \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443 \u0434\u043b\u044f \u0441\u0435\u043c\u0430\u043d\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0433\u043e \u043f\u043e\u0438\u0441\u043a\u0430 \u043d\u0430 \u043f\u0438\u0442\u043e\u043d\u0435<\/a>.<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-197238","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/197238","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=197238"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/197238\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=197238"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=197238"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=197238"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}