{"id":334936,"date":"2022-06-24T15:00:12","date_gmt":"2022-06-24T15:00:12","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=334936"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=334936","title":{"rendered":"<span>\u0421\u043e\u0437\u0434\u0430\u043d\u0438\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u0438\u044f \u043a\u043e\u0434\u0430 \u041c\u041a\u0411-10 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u0442\u0435\u043a\u0441\u0442\u0430 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u044f \u0431\u043e\u043b\u0435\u0437\u043d\u0438<\/span>"},"content":{"rendered":"<div><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>    \u041f\u0440\u0438\u0432\u0435\u0442, \u0425\u0430\u0431\u0440! \u0420\u0435\u0448\u0438\u043b\u0430 \u0441 \u0432\u0430\u043c\u0438 \u043f\u043e\u0434\u0435\u043b\u0438\u0442\u044c\u0441\u044f \u043e\u0434\u043d\u043e\u0439 \u043f\u0440\u043e\u0441\u0442\u043e\u0439 \u0440\u0430\u0431\u043e\u0442\u043e\u0439, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043f\u0440\u0438\u0432\u0435\u043b\u0430 \u043a \u043d\u0435\u043f\u043b\u043e\u0445\u0438\u043c \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0430\u043c. \u0420\u0430\u0441\u0441\u043a\u0430\u0436\u0443 \u043e \u0432\u0441\u0435\u043c \u043f\u043e\u0434\u0440\u043e\u0431\u043d\u043e \u0438 \u043e\u0447\u0435\u043d\u044c \u043f\u0440\u043e\u0441\u0442\u043e:) \u0418\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u043e \u0442\u0435\u043c,  \u043a\u0442\u043e \u0435\u0449\u0435 \u043d\u0435 \u0440\u0435\u0448\u0430\u043b \u0437\u0430\u0434\u0430\u0447\u0438 NLP \u0434\u043e \u044d\u0442\u043e\u0433\u043e \u043c\u043e\u043c\u0435\u043d\u0442\u0430.<\/p>\n<p>    \u041d\u0430 \u043f\u0443\u0442\u0438 \u0440\u0430\u0437\u0432\u0438\u0442\u0438\u044f \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e\u0439 \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u044b \u0432\u043e\u0437\u043d\u0438\u043a\u0430\u044e\u0442 \u043d\u043e\u0432\u044b\u0435 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u044b \u0438 \u0442\u0440\u0443\u0434\u043d\u043e\u0441\u0442\u0438 \u0434\u043b\u044f \u0432\u0440\u0430\u0447\u0430, \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043d\u0435 \u0431\u044b\u043b\u043e \u0440\u0430\u043d\u044c\u0448\u0435. \u041c\u043e\u0436\u043d\u043e \u0441\u043c\u0435\u043b\u043e \u0441\u043a\u0430\u0437\u0430\u0442\u044c, \u0447\u0442\u043e \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0430 \u0442\u043e\u0447\u043d\u043e\u0433\u043e \u0434\u0438\u0430\u0433\u043d\u043e\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f, \u043f\u043e\u0440\u043e\u0436\u0434\u0435\u043d\u0430 \u0432\u044b\u0441\u043e\u043a\u043e\u0439 \u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u0441\u0442\u044c\u044e, \u0430 \u0438\u043d\u043e\u0433\u0434\u0430 \u0432\u044b\u0441\u043e\u043a\u043e\u0439 \u043d\u0430\u0433\u0440\u0443\u0437\u043a\u043e\u0439 \u043d\u0430 \u0432\u0440\u0430\u0447\u0430. \u041d\u0435\u043e\u0441\u0442\u043e\u0440\u043e\u0436\u043d\u0430\u044f \u043d\u0435\u0432\u043d\u0438\u043c\u0430\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u044c \u0447\u0435\u043b\u043e\u0432\u0435\u0447\u0435\u0441\u043a\u043e\u0433\u043e \u0444\u0430\u043a\u0442\u043e\u0440\u0430 \u0438\u043b\u0438 \u043e\u0442\u0441\u0443\u0442\u0441\u0442\u0432\u0438\u0435 \u043e\u0431\u044a\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0439 \u043a\u0430\u0440\u0442\u0438\u043d\u044b \u0441\u043e \u0441\u0442\u043e\u0440\u043e\u043d\u044b \u0431\u043e\u043b\u044c\u043d\u043e\u0433\u043e, \u0430 \u0442\u0430\u043a\u0436\u0435 \u043e\u0433\u0440\u043e\u043c\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0432\u0438\u0434\u043e\u0432 \u0441\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u044e\u0449\u0438\u0445 \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u044e\u0442 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e\u0441\u0442\u044c \u0441\u043e\u0437\u0434\u0430\u043d\u0438\u044f \u043c\u043e\u0434\u0435\u043b\u0438 \u0434\u043b\u044f \u043a\u043e\u043d\u0442\u0440\u043e\u043b\u044f \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u0438 \u043f\u043e\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0438 \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u0430 \u0432 \u043d\u0435\u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u0441\u043b\u0443\u0447\u0430\u044f\u0445, \u0430 \u0438\u043d\u043e\u0433\u0434\u0430 \u043d\u0430\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u0435 \u0434\u0430\u043b\u044c\u043d\u0435\u0439\u0448\u0435\u0433\u043e \u0434\u0438\u0430\u0433\u043d\u043e\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f.<\/p>\n<p>    \u041f\u0440\u043e\u043a\u043e\u043d\u0441\u0443\u043b\u044c\u0442\u0438\u0440\u043e\u0432\u0430\u0432\u0448\u0438\u0441\u044c \u0441 \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u0438\u043c\u0438 \u0440\u0430\u0431\u043e\u0442\u043d\u0438\u043a\u0430\u043c\u0438\u00a0 \u0424\u0413\u0411\u041e\u0423 \u0412\u041e &#171;\u041f\u0418\u041c\u0423&#187; \u041c\u0438\u043d\u0437\u0434\u0440\u0430\u0432\u0430 \u0420\u043e\u0441\u0441\u0438\u0438 \u0418\u043d\u0441\u0442\u0438\u0442\u0443\u0442\u0430 \u0442\u0440\u0430\u0432\u043c\u0430\u0442\u043e\u043b\u043e\u0433\u0438\u0438, \u044f \u0441\u043c\u043e\u0433\u043b\u0430 \u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0446\u0435\u043f\u043e\u0447\u043a\u0443 \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u0439, \u0441\u043e\u0432\u0435\u0440\u0448\u0430\u0435\u043c\u044b\u0435 \u0432\u0440\u0430\u0447\u0430\u043c\u0438 \u0441 \u0446\u0435\u043b\u044c\u044e \u043f\u043e\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0438 \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u0430. \u041c\u043e\u0436\u043d\u043e \u0432\u044b\u0434\u0435\u043b\u0438\u0442\u044c \u0434\u0432\u0430 \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0445 \u043d\u0430\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u044f \u0440\u0430\u0431\u043e\u0442\u044b \u0441 \u043f\u0430\u0446\u0438\u0435\u043d\u0442\u043e\u043c: \u0442\u0435\u0445\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0438 \u0447\u0435\u043b\u043e\u0432\u0435\u0447\u0435\u0441\u043a\u0438\u0439. \u041a \u0447\u0435\u043b\u043e\u0432\u0435\u0447\u0435\u0441\u043a\u0438\u043c \u044f \u043e\u0442\u043d\u043e\u0448\u0443: \u0437\u043d\u0430\u043a\u043e\u043c\u0441\u0442\u0432\u043e \u0441 \u043f\u0430\u0446\u0438\u0435\u043d\u0442\u043e\u043c, \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u0435 \u0441\u0438\u043c\u043f\u0442\u043e\u043c\u0430\u0442\u0438\u043a\u0438, \u0441\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u0435 \u0430\u043d\u0430\u043c\u043d\u0435\u0437\u0430, \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u0435 \u0434\u0430\u043d\u043d\u044b\u0445 \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0445 \u0434\u0438\u0430\u0433\u043d\u043e\u0441\u0442\u0438\u043a, \u043f\u043e\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0430 \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u0430 \u0438 \u043d\u0430\u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 \u043b\u0435\u0447\u0435\u043d\u0438\u044f. \u0422\u0430\u043a \u043a\u0430\u043a \u0432\u0441\u0435 \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0435 \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u0438\u0435 \u0443\u0447\u0440\u0435\u0436\u0434\u0435\u043d\u0438\u044f \u043e\u0441\u043d\u0430\u0449\u0435\u043d\u044b \u043a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440\u043d\u044b\u043c\u0438 \u0441\u0440\u0435\u0434\u0441\u0442\u0432\u0430\u043c\u0438 \u0438 \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u043c\u0438 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0430\u043c\u0438 \u0432 \u043d\u0438\u0445, \u043a \u0442\u0435\u0445\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u043c \u0430\u0441\u043f\u0435\u043a\u0442\u0430\u043c \u0440\u0430\u0431\u043e\u0442\u044b \u0432\u0440\u0430\u0447\u0430 \u044f \u043e\u0442\u043d\u043e\u0448\u0443: \u0441\u043e\u0437\u0434\u0430\u043d\u0438\u0435 \u043a\u0430\u0440\u0442\u043e\u0447\u043a\u0438 \u043f\u0430\u0446\u0438\u0435\u043d\u0442\u0430, \u043e\u0431\u044a\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0435 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0435 \u0430\u043d\u0430\u043c\u043d\u0435\u0437\u0430, \u043f\u0440\u0438\u0441\u0432\u043e\u0435\u043d\u0438\u044f \u043a\u043e\u0434\u0430 \u0431\u043e\u043b\u0435\u0437\u043d\u0438. \u0421\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u044e\u0442 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0432\u0438\u0434\u043e\u0432 \u043a\u043e\u0434\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f \u0431\u043e\u043b\u0435\u0437\u043d\u0438, \u0447\u0430\u0449\u0435 \u0432\u0441\u0435\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f \u043c\u0435\u0436\u0434\u0443\u043d\u0430\u0440\u043e\u0434\u043d\u0430\u044f \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u044f \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 \u0434\u0435\u0441\u044f\u0442\u043e\u0433\u043e \u043f\u0435\u0440\u0435\u0441\u043c\u043e\u0442\u0440\u0430 \u0438\u043b\u0438 \u041c\u041a\u0411-10. \u0421\u043e\u0433\u043b\u0430\u0441\u043d\u043e \u044d\u0442\u043e\u043c\u0443 \u043a\u043e\u0434\u0443 \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u0435\u0442\u0441\u044f \u0434\u0438\u0430\u0433\u043d\u043e\u0437. \u041e\u043d \u0441\u043e\u043f\u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0441 \u0440\u0435\u0435\u0441\u0442\u0440\u043e\u043c ( \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043b\u0438 \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u043e\u0435 \u0443\u0447\u0440\u0435\u0436\u0434\u0435\u043d\u0438\u0435 \u0441 \u0434\u0430\u043d\u043d\u044b\u043c \u0432\u0438\u0434\u043e\u043c \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439), \u043f\u043e\u0434\u0445\u043e\u0434\u0438\u0442 \u043b\u0438 \u0434\u0430\u043d\u043d\u0430\u044f \u0431\u043e\u043b\u0435\u0437\u043d\u044c \u043f\u043e\u0434 \u041e\u041c\u0421 (\u043e\u0431\u044f\u0437\u0430\u0442\u0435\u043b\u044c\u043d\u043e\u0435 \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u043e\u0435 \u0441\u0442\u0440\u0430\u0445\u043e\u0432\u0430\u043d\u0438\u0435 \u0432 \u0420\u043e\u0441\u0441\u0438\u0438), \u0442\u043e \u0435\u0441\u0442\u044c \u0441\u043c\u043e\u0436\u0435\u0442 \u043f\u0430\u0446\u0438\u0435\u043d\u0442 \u043b\u0435\u0447\u0438\u0442\u044c\u0441\u044f \u0431\u0435\u0441\u043f\u043b\u0430\u0442\u043d\u043e \u0438\u043b\u0438 \u043d\u0435\u0442 \u0438\u043b\u0438 \u0438\u043d\u0430\u0447\u0435 \u0433\u043e\u0432\u043e\u0440\u044f \u0444\u0438\u043d\u0430\u043d\u0441\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u043b\u0435\u0447\u0435\u043d\u0438\u0435 \u0434\u0430\u043d\u043d\u043e\u0439 \u0431\u043e\u043b\u0435\u0437\u043d\u0438 \u0437\u0430 \u0441\u0447\u0435\u0442 \u041e\u041c\u0421 \u0438\u043b\u0438 \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0445 \u0441\u0440\u0435\u0434\u0441\u0442\u0432 \u043f\u0430\u0446\u0438\u0435\u043d\u0442\u0430. \u0418\u0437 \u0432\u0441\u0435\u0433\u043e \u0432\u044b\u0448\u0435 \u0441\u043a\u0430\u0437\u0430\u043d\u043d\u043e\u0433\u043e \u043c\u043e\u0436\u043d\u043e \u0432\u044b\u0434\u0435\u043b\u0438\u0442\u044c \u0446\u0435\u043f\u044c \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0439 \u0442\u0435\u0445\u043d\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u043e\u0448\u0438\u0431\u043a\u0438: \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e\u0441\u0442\u044c \u0437\u0430\u043f\u043e\u043b\u043d\u0435\u043d\u0438\u044f \u043a\u0430\u0440\u0442\u043e\u0447\u043a\u0438, \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e\u0435 \u0438 \u0442\u043e\u0447\u043d\u043e\u0435 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0435 \u0430\u043d\u0430\u043c\u043d\u0435\u0437\u0430, \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e\u0441\u0442\u044c \u0432\u044b\u0431\u043e\u0440\u0430 \u043a\u043e\u0434\u0430 \u041c\u041a\u0411-10.<\/p>\n<p>    \u041c\u044b \u043f\u043e\u0441\u0442\u0430\u0440\u0430\u0435\u043c\u0441\u044f \u0440\u0435\u0448\u0438\u0442\u044c \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0443 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438 \u0442\u0435\u043a\u0441\u0442\u0430 \u043d\u0430 \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u044b\u0435 \u0431\u043e\u043b\u0435\u0437\u043d\u0438, \u0442\u0435\u043c \u0441\u0430\u043c\u044b\u043c \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u043e\u043c\u043e\u0436\u0435\u0442 \u0440\u0435\u0448\u0438\u0442\u044c \u043a\u0430\u043a \u0438 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0443 \u0432\u044b\u0431\u043e\u0440\u0430 \u043e\u0434\u043d\u043e\u0433\u043e \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u0430 \u0434\u0440\u0443\u0433\u043e\u043c\u0443. \u0410 \u0432 \u043f\u0435\u0440\u0441\u043f\u0435\u043a\u0442\u0438\u0432\u0435, \u0432\u043d\u0435\u0434\u0440\u0435\u043d\u0438\u0435 \u0442\u0430\u043a\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438 \u0432 \u0441\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u044e\u0449\u0438\u0435 \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u0438\u0435 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u044b \u043f\u043e\u043c\u043e\u0436\u0435\u0442 \u0434\u0430\u0442\u044c \u043f\u043e\u0434\u0441\u043a\u0430\u0437\u043a\u0443 \u0432\u0440\u0430\u0447\u0443, \u043d\u0430 \u043a\u0430\u043a\u0443\u044e \u0431\u043e\u043b\u0435\u0437\u043d\u044c \u043f\u043e\u0445\u043e\u0436\u0435 \u0434\u0430\u043d\u043d\u043e\u0435 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0435, \u0435\u0441\u043b\u0438 \u0432\u0440\u0430\u0447 \u043d\u0435 \u0437\u043d\u0430\u043a\u043e\u043c \u0441 \u0442\u0430\u043a\u0438\u043c \u0440\u043e\u0434\u043e\u043c \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 \u0438\u043b\u0438 \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0435\u0442\u044c \u0430\u043b\u044c\u0442\u0435\u0440\u043d\u0430\u0442\u0438\u0432\u043d\u044b\u0439 \u0434\u0438\u0430\u0433\u043d\u043e\u0437, \u0447\u0442\u043e \u043f\u043e\u0437\u0432\u043e\u043b\u0438\u0442 \u043f\u0440\u043e\u0432\u0435\u0441\u0442\u0438 \u0431\u043e\u043b\u0435\u0435 \u0442\u0449\u0430\u0442\u0435\u043b\u044c\u043d\u0443\u044e \u0434\u0438\u0430\u0433\u043d\u043e\u0441\u0442\u0438\u043a\u0443 \u0432 \u0441\u043f\u043e\u0440\u043d\u043e\u043c \u0441\u043b\u0443\u0447\u0430\u0435 \u0434\u043b\u044f \u043f\u043e\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0438 \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u0430, \u0430 \u0442\u0430\u043a\u0436\u0435 \u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u043f\u0440\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u0435 \u043a\u043e\u0434\u0430 \u0432 \u0433\u0440\u0430\u0444\u0443 \u043c\u043e\u0434\u0435\u043b\u044c\u044e \u043f\u043e\u0437\u0432\u043e\u043b\u0438\u0442 \u0438\u0437\u0431\u0435\u0436\u0430\u0442\u044c \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u044b\u0445 \u043e\u0448\u0438\u0431\u043e\u043a \u0447\u0435\u043b\u043e\u0432\u0435\u0447\u0435\u0441\u043a\u043e\u0433\u043e \u0444\u0430\u043a\u0442\u043e\u0440\u0430 \u043f\u0440\u0438 \u0432\u0435\u0434\u0435\u043d\u0438\u0438 \u043f\u0430\u0446\u0438\u0435\u043d\u0442\u0430.<\/p>\n<p>\u0420\u0435\u0448\u0435\u043d\u0438\u0435 \u0434\u0430\u043d\u043d\u043e\u0439 \u0437\u0430\u0434\u0430\u0447\u0438 \u0441\u043e\u0441\u0442\u043e\u0438\u0442 \u0438\u0437 \u0434\u0432\u0443\u0445 \u044d\u0442\u0430\u043f\u043e\u0432. \u041a \u043f\u0435\u0440\u0432\u043e\u043c\u0443 \u043e\u0442\u043d\u043e\u0441\u044f\u0442\u0441\u044f \u043c\u0435\u0442\u043e\u0434\u044b, \u043e\u0441\u043d\u043e\u0432\u0430\u043d\u043d\u044b\u0435 \u043d\u0430 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0435 \u044f\u0437\u044b\u043a\u0430, \u0430 \u0432\u0442\u043e\u0440\u043e\u0439 &#8212; \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442 \u043f\u0440\u0438\u043c\u0435\u043d\u0435\u043d\u0438\u0435\u00a0 \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u043e\u0432 \u043c\u0430\u0448\u0438\u043d\u043d\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f.<\/p>\n<h2>\u0417\u0430\u0434\u0430\u0447\u0430 \u043f\u043e\u043d\u044f\u0442\u043d\u0430, \u0442\u0435\u043f\u0435\u0440\u044c \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0430:)<\/h2>\n<p>\u0414\u043b\u044f \u0440\u0435\u0448\u0435\u043d\u0438\u044f \u0434\u0430\u043d\u043d\u043e\u0439 \u0437\u0430\u0434\u0430\u0447\u0438 \u044f \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 (\u0441\u0441\u044b\u043b\u043a\u0443 \u043d\u0430 \u0444\u0430\u0439\u043b\u0438\u043a \u0438\u0449\u0438 \u0432 \u043a\u043e\u043c\u043c\u0435\u043d\u0442\u0430\u0440\u0438\u044f\u0445). \u0418\u0441\u0442\u043e\u0447\u043d\u0438\u043a &#8212; \u00a0<a href=\"https:\/\/ru.wikipedia.org\/wiki\/%2525D0%25259A%2525D0%2525B0%2525D1%252582%2525D0%2525B5%2525D0%2525B3%2525D0%2525BE%2525D1%252580%2525D0%2525B8%2525D1%25258F:%2525D0%252597%2525D0%2525B0%2525D0%2525B1%2525D0%2525BE%2525D0%2525BB%2525D0%2525B5%2525D0%2525B2%2525D0%2525B0%2525D0%2525BD%2525D0%2525B8%2525D1%25258F_%2525D0%2525BF%2525D0%2525BE_%2525D0%2525B0%2525D0%2525BB%2525D1%252584%2525D0%2525B0%2525D0%2525B2%2525D0%2525B8%2525D1%252582%2525D1%252583\" rel=\"noopener noreferrer nofollow\"><u>https:\/\/ru.wikipedia.org\/wiki\/\u041a\u0430\u0442\u0435\u0433\u043e\u0440\u0438\u044f:\u0417\u0430\u0431\u043e\u043b\u0435\u0432\u0430\u043d\u0438\u044f_\u043f\u043e_\u0430\u043b\u0444\u0430\u0432\u0438\u0442\u0443<\/u><\/a>. \u042d\u0442\u043e\u0442 \u043d\u0430\u0431\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445 \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u0432\u0441\u0435 \u0442\u0435\u043a\u0441\u0442\u044b, \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0439 \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 \u0441 \u0443\u043a\u0430\u0437\u0430\u043d\u043d\u043e\u0433\u043e \u0438\u0441\u0442\u043e\u0447\u043d\u0438\u043a\u0430, \u0435\u0441\u043b\u0438 \u0443 \u0431\u043e\u043b\u0435\u0437\u043d\u0438 \u0438\u043c\u0435\u043b\u0430\u0441\u044c \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043a\u043e\u0434 \u041c\u041a\u0411-10.\u00a0 \u0414\u0430\u043d\u043d\u044b\u0435 \u0440\u0430\u0437\u0431\u0438\u0442\u044b \u043d\u0430 \u0430\u0431\u0437\u0430\u0446\u044b \u0432 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u0439 \u0438 \u0440\u0430\u0437\u043c\u0435\u0447\u0435\u043d\u044b \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0443\u044e\u0449\u0438\u043c \u043a\u043e\u0434\u043e\u043c \u0438 \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0435\u043c \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u0430. \u041a\u0430\u0436\u0434\u044b\u0439 \u0438\u0437 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u043d\u0430 \u043b\u044e\u0431\u0443\u044e \u0442\u0435\u043c\u0443, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043c\u043e\u0433\u043b\u0430 \u0431\u044b \u0431\u044b\u0442\u044c \u0441\u0432\u044f\u0437\u0430\u043d\u0430 \u0441 \u0442\u0435\u043a\u0443\u0449\u0435\u0439 \u0431\u043e\u043b\u0435\u0437\u043d\u044c\u044e, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440: \u0441\u0438\u043c\u043f\u0442\u043e\u043c\u044b, \u043b\u0435\u0447\u0435\u043d\u0438\u0435, \u0438\u0441\u0442\u043e\u0440\u0438\u044e \u043e\u0442\u043a\u0440\u044b\u0442\u0438\u044f \u0431\u043e\u043b\u0435\u0437\u043d\u0438, \u044d\u0442\u0438\u043e\u043b\u043e\u0433\u0438\u044e, \u0440\u0430\u0441\u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0435\u043d\u043d\u043e\u0441\u0442\u044c, \u043f\u0440\u043e\u0444\u0438\u043b\u0430\u043a\u0442\u0438\u043a\u0443 \u0438 \u043f\u0440\u043e\u0447\u0435\u0435. \u041d\u0430\u043f\u043e\u043b\u043d\u0435\u043d\u043d\u043e\u0441\u0442\u044c \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u043f\u043e \u043b\u044e\u0431\u043e \u0438\u0437 \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 \u0437\u0430\u0432\u0438\u0441\u0438\u0442 \u0432 \u0442\u043e\u043c \u0447\u0438\u0441\u043b\u0435 \u043e\u0442 \u0435\u0435 \u0438\u0437\u0443\u0447\u0435\u043d\u043d\u043e\u0441\u0442\u0438, \u043f\u043e \u044d\u0442\u043e\u043c\u0443 \u043d\u0435\u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0438\u0437 \u043a\u043b\u0430\u0441\u0441\u043e\u0432 \u0438\u043c\u0435\u044e\u0442 \u043c\u0430\u043b\u043e\u0435 \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u043d\u0438\u0435, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u043e\u0434\u0438\u043d \u0442\u0435\u043a\u0441\u0442 \u043d\u0430 \u0434\u0438\u0430\u0433\u043d\u043e\u0437. \u0414\u043b\u044f \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 \u0434\u0430\u043d\u043d\u044b\u0445 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f \u044f\u0437\u044b\u043a \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f python.<\/p>\n<pre><code class=\"python\">import pandas as pd import numpy as np import nltk from nltk.stem.wordnet import WordNetLemmatizer from nltk.stem.porter import PorterStemmer import re import matplotlib.pyplot as plt import seaborn as sns from IPython.display import Image  from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.feature_extraction.text import HashingVectorizer from sklearn.model_selection import train_test_split from sklearn.metrics import balanced_accuracy_score, classification_report, accuracy_score from fuzzywuzzy import process from nltk.stem.snowball import RussianStemmer  from tqdm.notebook import tqdm from pymystem3 import Mystem from gensim.corpora import Dictionary  from sklearn.linear_model import LogisticRegression from sklearn.naive_bayes import GaussianNB from sklearn.svm import SVC  import fasttext.util from timeit import default_timer as timer<\/code><\/pre>\n<h2>\u041e\u0431\u0437\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445<\/h2>\n<pre><code class=\"python\">df = pd.read_csv('\u0418\u0442\u043e\u0433\u043e\u0432\u0430\u044f_\u0411\u0410\u0417\u0410_\u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439.csv') df.sample(5)<\/code><\/pre>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<td data-colwidth=\"175\" width=\"175\">\n<p align=\"left\"><\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>Index<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>\u0421\u0438\u043c\u043f\u0442\u043e\u043c\u044b<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>\u041c\u041a\u0411_10<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"175\" width=\"175\">\n<p align=\"left\"><strong>56<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0410\u043b\u044c\u0432\u0435\u043e\u043b\u044f\u0440\u043d\u044b\u0439 \u043f\u0440\u043e\u0442\u0435\u0438\u043d\u043e\u0437<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0424\u0438\u0437\u0438\u043a\u0430\u043b\u044c\u043d\u043e\u0435 \u043e\u0431\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u043d\u0438\u0435:\u0410\u0443\u0441\u043a\u0443\u043b\u044c\u0442\u0430\u0446\u0438\u044f: \u043e\u0441\u043b\u0430\u0431\u043b\u0435&#8230;<\/p>\n<\/td>\n<td>\n<p align=\"left\">J84.0<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"175\" width=\"175\">\n<p align=\"left\"><strong>2194<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0421\u0432\u0438\u043d\u043e\u0439 \u0433\u0440\u0438\u043f\u043f<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041a\u043b\u0438\u043d\u0438\u0447\u0435\u0441\u043a\u0438 \u0442\u0435\u0447\u0435\u043d\u0438\u0435 \u0434\u0430\u043d\u043d\u043e\u0433\u043e \u0437\u0430\u0431\u043e\u043b\u0435\u0432\u0430\u043d\u0438\u044f \u0432 \u0446\u0435\u043b\u043e\u043c&#8230;<\/p>\n<\/td>\n<td>\n<p align=\"left\">J09.0<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"175\" width=\"175\">\n<p align=\"left\"><strong>2078<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0421\u0430\u0445\u0430\u0440\u043d\u044b\u0439 \u0434\u0438\u0430\u0431\u0435\u0442<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041f\u0440\u0438 \u043d\u0435\u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e\u0441\u0442\u0438 \u0438\u043d\u0441\u0443\u043b\u0438\u043d\u0430 (\u0441\u0430\u0445\u0430\u0440\u043d\u044b\u0439 \u0434\u0438\u0430\u0431\u0435\u0442 &#8230;<\/p>\n<\/td>\n<td>\n<p align=\"left\">E10<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"175\" width=\"175\">\n<p align=\"left\"><strong>2745<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0422\u043e\u0440\u0441\u0438\u043e\u043d\u043d\u0430\u044f \u0434\u0438\u0441\u0442\u043e\u043d\u0438\u044f<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0413\u0438\u043f\u0435\u0440\u043a\u0438\u043d\u0435\u0437\u044b \u0443\u043c\u0435\u043d\u044c\u0448\u0430\u044e\u0442\u0441\u044f \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u043a\u043e\u0440\u0440\u0435\u0433\u0438\u0440\u0443\u044e\u0449\u0438&#8230;<\/p>\n<\/td>\n<td>\n<p align=\"left\">G24<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>    \u0412 \u043f\u0435\u0440\u0432\u0443\u044e \u043e\u0447\u0435\u0440\u0435\u0434\u044c \u043d\u0430\u0441 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u0443\u044e\u0442 \u0431\u043e\u043b\u0435\u0437\u043d\u0438, \u043f\u043e \u043a\u043e\u0442\u043e\u0440\u044b\u043c \u043d\u0430\u043c \u0443\u0434\u0430\u043b\u043e\u0441\u044c \u0441\u043e\u0431\u0440\u0430\u0442\u044c \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u0439 \u0434\u043b\u044f \u0443\u0441\u043f\u0435\u0448\u043d\u043e\u0433\u043e \u043f\u043e\u0441\u0442\u0440\u043e\u0435\u043d\u0438\u0438 \u043c\u043e\u0434\u0435\u043b\u0438. \u0412 \u043d\u0430\u0448\u0435\u043c \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u043e\u0442 1 \u0434\u043e 123 \u043d\u0430 \u043e\u0434\u0438\u043d \u0434\u0438\u0430\u0433\u043d\u043e\u0437. \u0412 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0435 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 \u0431\u0443\u0434\u0443\u0442 \u0443\u0434\u0430\u043b\u0435\u043d\u044b \u0432\u0441\u0435 \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u044b, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043d\u0435 \u0438\u043c\u0435\u044e\u0442 \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e\u0433\u043e \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0430 \u0442\u0435\u043a\u0441\u0442\u043e\u0432. \u041f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435:<\/p>\n<pre><code class=\"python\">df.Index.value_counts()<\/code><\/pre>\n<figure class=\"full-width\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/b33\/1d2\/05d\/b331d205d96154e695dbcab264bb508d.png\" width=\"1100\" height=\"432\" data-src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/b33\/1d2\/05d\/b331d205d96154e695dbcab264bb508d.png\"\/><figcaption><\/figcaption><\/figure>\n<pre><code class=\"python\">pd.DataFrame(df.Index.value_counts()).Index.hist() plt.title('\u0420\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 \u043f\u043e \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0443 \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u0439') plt.show()<\/code><\/pre>\n<figure class=\"full-width\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/6ef\/6c3\/ade\/6ef6c3ade645af444160c4e8a92153b7.png\" width=\"964\" height=\"758\" data-src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/6ef\/6c3\/ade\/6ef6c3ade645af444160c4e8a92153b7.png\"\/><figcaption><\/figcaption><\/figure>\n<p>     \u041a\u0430\u043a \u043c\u044b \u0432\u0438\u0434\u0438\u043c \u0438\u0437 \u0433\u0440\u0430\u0444\u0438\u043a\u0430 \u0432\u00a0 \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u0435 \u043a\u043b\u0430\u0441\u0441\u043e\u0432 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442\u0441\u044f \u043c\u0435\u043d\u0435\u0435 20 \u0442\u0435\u043a\u0441\u0442\u043e\u0432, \u0443\u0434\u0430\u043b\u0435\u043d\u0438\u0435 \u043c\u0430\u043b\u043e\u043d\u0430\u043f\u043e\u043b\u043d\u0435\u043d\u043d\u044b\u0445 \u043a\u043b\u0430\u0441\u0441\u043e\u0432 \u043f\u0440\u0438\u0432\u0435\u0434\u0435\u0442 \u043a \u043f\u043e\u0442\u0435\u0440\u0435 \u0431\u043e\u043b\u044c\u0448\u0435\u0439 \u0447\u0430\u0441\u0442\u0438 \u0438\u043c\u0435\u044e\u0449\u0438\u0445\u0441\u044f \u0434\u0430\u043d\u043d\u044b\u0445. \u0411\u0443\u0434\u0435\u043c \u0441\u0447\u0438\u0442\u0430\u0442\u044c \u043d\u0435\u0440\u0435\u043b\u0435\u0432\u0430\u043d\u0442\u043d\u044b\u043c\u0438 \u043a\u043b\u0430\u0441\u0441\u044b \u0441 \u043c\u0435\u043d\u0435\u0435, \u0447\u0435\u043c 10 \u0442\u0435\u043a\u0441\u0442\u0430\u043c\u0438.\u00a0 \u0422\u0430\u043a\u0436\u0435 \u0438\u0437-\u0437\u0430 \u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u0440\u0430\u0437\u043d\u0438\u0446\u044b \u0432 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0430\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0431\u0443\u0434\u0435\u043c \u043f\u043e\u0434\u0430\u0432\u0430\u0442\u044c \u0440\u0430\u0437\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 \u0432 \u043c\u043e\u0434\u0435\u043b\u044c, \u0447\u0442\u043e\u0431\u044b \u0438\u0437\u0443\u0447\u0438\u0442\u044c \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u044c \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u0432 \u043e\u0442 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0430 \u043a\u043b\u0430\u0441\u0441\u043e\u0432.\u00a0 \u041f\u043e\u0441\u043b\u0435 \u0444\u0438\u043b\u044c\u0442\u0440\u0430\u0446\u0438\u0438 \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 \u043d\u043e\u0432\u044b\u0439 \u0434\u043e\u0442\u0430\u0441\u0435\u0442, \u0441\u043e\u0441\u0442\u043e\u044f\u0449\u0438\u0439 \u0438\u0437 2327 \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u0439 \u0434\u043b\u044f 108 \u043a\u043b\u0430\u0441\u0441\u043e\u0432<\/p>\n<pre><code class=\"python\">df = df[df['\u041c\u041a\u0411_10'].isin(df['\u041c\u041a\u0411_10'].value_counts()[:108].index)] simps = df['\u0421\u0438\u043c\u043f\u0442\u043e\u043c\u044b'].values.tolist()<\/code><\/pre>\n<h2>\u041e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0430 \u0442\u0435\u043a\u0441\u0442\u043e\u0432<\/h2>\n<p>    \u0421\u043e\u0433\u043b\u0430\u0441\u043d\u043e \u043c\u0435\u0442\u043e\u0434\u043e\u043b\u043e\u0433\u0438\u0438 \u0440\u0430\u0431\u043e\u0442\u044b \u0441 \u0442\u0435\u0441\u0442\u0430\u043c\u0438, \u043d\u0430\u0447\u0430\u043b\u044c\u043d\u044b\u043c \u044d\u0442\u0430\u043f\u043e\u043c \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0432\u044b\u043f\u043e\u043b\u043d\u0435\u043d\u0438\u0435 \u0438\u0445 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438.<\/p>\n<pre><code class=\"python\"># \u041f\u0440\u0438\u043c\u0435\u0440 \u0442\u0435\u043a\u0441\u0442\u0430 \u0431\u0435\u0437 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 simps[5]<\/code><\/pre>\n<p>&#8216;\u041a\u043b\u0438\u043d\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u043a\u0430\u0440\u0442\u0438\u043d\u0430 \u0432\u043e \u043c\u043d\u043e\u0433\u043e\u043c \u043d\u0430\u043f\u043e\u043c\u0438\u043d\u0430\u0435\u0442 \u0441\u0438\u043c\u043f\u0442\u043e\u043c\u044b \u0446\u0438\u0442\u043e\u0441\u0442\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u0431\u043e\u043b\u0435\u0437\u043d\u0438 \u0438 \u043f\u0440\u043e\u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0432 \u0432\u0438\u0434\u0435 \u043f\u043e\u0440\u0430\u0436\u0435\u043d\u0438\u044f \u043e\u0440\u0433\u0430\u043d\u0438\u0437\u043c\u0430 \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u043c\u0438 \u0438\u043d\u0444\u0435\u043a\u0446\u0438\u044f\u043c\u0438 \u0432 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0435 \u0441\u043d\u0438\u0436\u0435\u043d\u0438\u044f \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u0438 \u0438\u043c\u043c\u0443\u043d\u043d\u043e\u0433\u043e \u043e\u0442\u0432\u0435\u0442\u0430. \u0425\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u043d\u044b (\u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u043f\u0440\u0438 \u043b\u0435\u043a\u0430\u0440\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u043c \u0430\u0433\u0440\u0430\u043d\u0443\u043b\u043e\u0446\u0438\u0442\u043e\u0437\u0435) \u043e\u0441\u0442\u0440\u043e\u0435 \u043d\u0430\u0447\u0430\u043b\u043e \u0438 \u0431\u044b\u0441\u0442\u0440\u043e\u0435 \u043d\u0430\u0440\u0430\u0441\u0442\u0430\u043d\u0438\u0435 \u043a\u043b\u0438\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0441\u0438\u043c\u043f\u0442\u043e\u043c\u043e\u0432. \u0418\u043d\u043e\u0433\u0434\u0430 \u0432\u043e\u0437\u043d\u0438\u043a\u043d\u043e\u0432\u0435\u043d\u0438\u044e \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0445 \u043f\u0440\u0438\u0437\u043d\u0430\u043a\u043e\u0432 \u0430\u0433\u0440\u0430\u043d\u0443\u043b\u043e\u0446\u0438\u0442\u043e\u0437\u0430 \u043f\u0440\u0435\u0434\u0448\u0435\u0441\u0442\u0432\u0443\u0435\u0442 \u043a\u043e\u0440\u043e\u0442\u043a\u0438\u0439 \u0441\u043a\u0440\u044b\u0442\u044b\u0439 \u043f\u0435\u0440\u0438\u043e\u0434, \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0437\u0443\u044e\u0449\u0438\u0439\u0441\u044f \u0441\u043b\u0430\u0431\u043e\u0441\u0442\u044c\u044e, \u043d\u0435\u0434\u043e\u043c\u043e\u0433\u0430\u043d\u0438\u0435\u043c, \u0433\u043e\u043b\u043e\u0432\u043d\u044b\u043c\u0438 \u0431\u043e\u043b\u044f\u043c\u0438[4]. \u041a \u043f\u0435\u0440\u0432\u044b\u043c \u043a\u043b\u0438\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u043c \u043f\u0440\u043e\u044f\u0432\u043b\u0435\u043d\u0438\u044f\u043c \u0430\u0433\u0440\u0430\u043d\u0443\u043b\u043e\u0446\u0438\u0442\u043e\u0437\u0430 \u043e\u0442\u043d\u043e\u0441\u044f\u0442\u0441\u044f \u043b\u0438\u0445\u043e\u0440\u0430\u0434\u043a\u0430, \u0430\u0444\u0442\u043e\u0437\u043d\u044b\u0439 \u0441\u0442\u043e\u043c\u0430\u0442\u0438\u0442, \u0430\u043d\u0433\u0438\u043d\u0430[4], \u043e\u0437\u043d\u043e\u0431, \u0430\u0440\u0442\u0440\u0430\u043b\u0433\u0438\u044f[2]. \u0420\u0430\u0437\u0432\u0438\u0432\u0430\u044e\u0442\u0441\u044f \u044f\u0437\u0432\u0435\u043d\u043d\u043e-\u043d\u0435\u043a\u0440\u043e\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u043f\u043e\u0440\u0430\u0436\u0435\u043d\u0438\u044f \u0441\u043b\u0438\u0437\u0438\u0441\u0442\u043e\u0439 \u043e\u0431\u043e\u043b\u043e\u0447\u043a\u0438 \u043f\u043e\u043b\u043e\u0441\u0442\u0438 \u0440\u0442\u0430 \u0432 \u0432\u0438\u0434\u0435 \u0438\u0437\u044a\u044f\u0437\u0432\u043b\u0435\u043d\u0438\u0439, \u043f\u043e\u043a\u0440\u044b\u0442\u044b\u0445 \u0441\u0435\u0440\u043e\u0432\u0430\u0442\u044b\u043c \u043d\u0430\u043b\u0451\u0442\u043e\u043c, \u043d\u0435\u043a\u0440\u043e\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0431\u043b\u044f\u0448\u0435\u043a \u0438 \u044f\u0437\u0432 \u0441 \u0433\u0440\u044f\u0437\u043d\u043e-\u0441\u0435\u0440\u044b\u043c \u043d\u0430\u043b\u0451\u0442\u043e\u043c \u043d\u0430 \u043c\u0438\u043d\u0434\u0430\u043b\u0438\u043d\u0430\u0445 (\u0430\u0433\u0440\u0430\u043d\u0443\u043b\u043e\u0446\u0438\u0442\u0430\u0440\u043d\u0430\u044f \u0430\u043d\u0433\u0438\u043d\u0430)&#8217;<\/p>\n<p>    \u0422\u0435\u043a\u0441\u0442 \u043d\u0430\u043f\u0438\u0441\u0430\u043d \u0432 \u0441\u0432\u043e\u0431\u043e\u0434\u043d\u043e\u0439 \u0444\u043e\u0440\u043c\u0435 \u0435\u0441\u0442\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430: \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u043f\u0443\u043d\u043a\u0442\u0443\u0430\u0446\u0438\u044e, \u0441\u0438\u043c\u0432\u043e\u043b\u044b \u0441\u0442\u043e\u0440\u043e\u043d\u043d\u0438\u0445 \u0430\u043b\u0444\u0430\u0432\u0438\u0442\u043e\u0432, \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0439 \u0440\u0435\u0433\u0438\u0441\u0442\u0440, \u0430 \u0442\u0430\u043a\u0436\u0435 \u0441\u043b\u043e\u0432\u0430 \u0438\u043c\u0435\u044e\u0442 \u043f\u0430\u0434\u0435\u0436\u0438, \u0441\u043a\u043b\u043e\u043d\u0435\u043d\u0438\u044f \u0438 \u043f\u0440\u043e\u0447\u0438\u0435 \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e\u0441\u0442\u0438, \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u043d\u044b\u0435 \u0434\u043b\u044f \u0440\u0443\u0441\u0441\u043a\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430. \u041f\u0440\u0438\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u0441\u043b\u043e\u0432 \u043a \u043d\u0430\u0447\u0430\u043b\u044c\u043d\u043e\u0439 \u0444\u043e\u0440\u043c\u0435, \u0443\u0434\u0430\u043b\u0435\u043d\u0438\u0435 \u043b\u0438\u0448\u043d\u0438\u0445 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432 &#8212; \u043e\u0431\u044f\u0437\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0448\u0430\u0433 \u043f\u0440\u0438 \u043f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u043a\u0435 \u0442\u0435\u043a\u0441\u0442\u043e\u0432. \u0421\u043e\u0434\u0435\u0440\u0436\u0430\u043d\u0438\u0435 \u0441\u0430\u043c\u0438\u0445 \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0439 \u0431\u043e\u043b\u0435\u0437\u043d\u0438 \u0432 \u0442\u0435\u043a\u0441\u0442\u0435, \u0430 \u0442\u0430\u043a\u0436\u0435 \u043e\u0434\u043d\u043e\u043a\u043e\u0440\u0435\u043d\u043d\u044b\u0445 \u0441\u043b\u043e\u0432 &#8212; \u043d\u0435\u0434\u043e\u043f\u0443\u0441\u0442\u0438\u043c\u043e, \u0438\u0445 \u0442\u043e\u0436\u0435 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0443\u0434\u0430\u043b\u0438\u0442\u044c. \u041d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0442\u0430\u043a\u0436\u0435 \u0443\u0434\u0430\u043b\u0438\u0442\u044c \u043f\u0440\u0435\u0434\u043b\u043e\u0433\u0438 \u0438 \u0441\u043e\u044e\u0437\u044b, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043d\u0435 \u043d\u0435\u0441\u0443\u0442 \u0441\u043c\u044b\u0441\u043b\u043e\u0432\u043e\u0439 \u043d\u0430\u0433\u0440\u0443\u0437\u043a\u0438 \u0438 \u043d\u0435 \u043c\u043e\u0433\u0443 \u0432\u043b\u0438\u044f\u0442\u044c \u043d\u0430 \u0440\u0435\u0448\u0435\u043d\u0438\u0435 \u043f\u043e\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0438 \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u0430, \u0430 \u0442\u0430\u043a\u0436\u0435 \u0443\u0447\u0435\u0441\u0442\u044c \u0441\u043b\u043e\u0432\u0430 \u043f\u0430\u0440\u0430\u0437\u0438\u0442\u044b, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0435\u0441\u0442\u044c \u0432 \u043b\u044e\u0431\u043e\u043c \u044f\u0437\u044b\u043a\u0435.<\/p>\n<pre><code class=\"python\">lemmatizer = WordNetLemmatizer() #\u0421\u043b\u043e\u0432\u0430 \u043f\u0430\u0440\u0430\u0437\u0438\u0442\u044b stopwords = nltk.corpus.stopwords.words('russian') stopwords.append(['\u043f\u0440\u0430\u0432\u0438\u0442\u044c','\u044d\u0442\u043e'])<\/code><\/pre>\n<pre><code class=\"python\">#\u0441\u043f\u0438\u0441\u043e\u043a \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0439 \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 all_bad = [] for txt in [w.lower() for w in df.Index.unique()]:     for word in txt.split():         all_bad.append(word) #\u0441\u043f\u0438\u0441\u043e\u043a \u043e\u0434\u043d\u043e\u043a\u043e\u0440\u043d\u0435\u0432\u044b\u0445 \u0441\u043b\u043e\u0432 \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 all_bad_2 = [] for i in all_bad:     all_bad_2.append(i[0:4])      alphabet = list('abcdefghijklmnopqrstuvwxyz')<\/code><\/pre>\n<pre><code class=\"python\">def preproc(simps, all_bad, all_bad_2):     corpus = []     stemmer = Mystem()     for simp in tqdm(simps):         tokens = nltk.word_tokenize(simp.lower()) # \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u043a \u043d\u0438\u0436\u043d\u0435\u043c\u0443 \u0440\u0435\u0433\u0438\u0441\u0442\u0440\u0443         tokens = [w for w in tokens if w.isalpha()] # \u0432\u044b\u0431\u043e\u0440 \u0442\u043e\u043b\u044c\u043a\u043e \u0430\u043b\u0444\u0430\u0432\u0438\u0442\u043d\u044b\u0445 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0439         tokens = [w for w in tokens if w not in stopwords] # \u0443\u0434\u0430\u043b\u0435\u043d\u0438\u0435 \u0441\u043b\u043e\u0432 \u043f\u0430\u0440\u0430\u0437\u0438\u0442\u043e\u0432 \u0438 \u043f\u0440\u0435\u0434\u043b\u043e\u0433\u043e\u0432         #return tokens         #tokens = list(filter(lambda w: not re.match(r'[a-zA-Z]+', w), t))# \u0443\u0434\u0430\u043b\u0435\u043d\u0438\u0435 \u0431\u0443\u043a\u0432 \u0430\u043d\u0433\u043b\u0438\u0439\u0441\u043a\u043e\u0433\u043e \u0430\u043b\u0444\u0430\u0432\u0438\u0442\u0430         tokens = [w for w in tokens for i in w if i not in alphabet]                  tokens = [stemmer.lemmatize(w) for w in tokens] # \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u043a \u043d\u0430\u0447\u0430\u043b\u044c\u043d\u043e\u0439 \u0444\u043e\u0440\u043c\u0435 \u0441\u043b\u043e\u0432\u0430         tokens = [tok[0] for tok in tokens]         tokens = [w for w in tokens if w not in all_bad] # \u0443\u0434\u0430\u043b\u0435\u043d\u0438\u0435 \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0439 \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439         tokens = [w for w in tokens if w[0:4] not in all_bad_2] # \u0443\u0434\u0430\u043b\u0435\u043d\u0438\u0435 \u043e\u0434\u043d\u043e\u043a\u043e\u0440\u043d\u0435\u0432\u044b\u0445 \u0441\u043b\u043e\u0432 \u0441 \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u044f\u043c\u0438 \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439         tokens = [w for w in tokens if len(w)>2] # \u0443\u0434\u043b\u0435\u043d\u0438\u0435 \u0441\u043b\u043e\u0432 \u0434\u043b\u0438\u043d\u043e\u0439 \u043c\u0435\u043d\u044c\u0448\u0435 3 \u0441\u0438\u0432\u043e\u043b\u043e\u0432                  tokens = set(tokens) # \u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u043c \u0442\u043e\u043b\u044c\u043a\u043e \u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u044b\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f         corpus.append(' '.join(tokens))     return corpus<\/code><\/pre>\n<pre><code class=\"python\">corpus = preproc(simps, all_bad, all_bad_2) # \u041f\u0440\u0438\u043c\u0435\u0440 \u0442\u043e\u0433\u043e \u0436\u0435 \u0442\u0435\u043a\u0441\u0442\u0430 \u043f\u043e\u0441\u043b\u0435 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 corpus[5]<\/code><\/pre>\n<p>&#8216;\u043f\u0435\u0440\u0432\u044b\u0439 \u043d\u0430\u043f\u043e\u043c\u0438\u043d\u0430\u0442\u044c \u0440\u043e\u0442 \u043b\u0435\u043a\u0430\u0440\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u043e\u0442\u043d\u043e\u0441\u0438\u0442\u044c\u0441\u044f \u043a\u043e\u0440\u043e\u0442\u043a\u0438\u0439 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u044c \u0430\u0444\u0442\u043e\u0437\u043d\u044b\u0439 \u0431\u043b\u044f\u0448\u043a\u0430 \u0441\u043b\u0430\u0431\u043e\u0441\u0442\u044c \u043d\u0435\u043a\u0440\u043e\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u043f\u0440\u043e\u044f\u0432\u043b\u0435\u043d\u0438\u0435 \u043e\u0442\u0432\u0435\u0442 \u0432\u0438\u0434 \u0441\u0442\u043e\u043c\u0430\u0442\u0438\u0442 \u043c\u043d\u043e\u0433\u043e\u0435 \u043c\u0438\u043d\u0434\u0430\u043b\u0438\u043d\u0430 \u0430\u043d\u0433\u0438\u043d\u0430 \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0439 \u043f\u0440\u0435\u0434\u0448\u0435\u0441\u0442\u0432\u043e\u0432\u0430\u0442\u044c \u043d\u0430\u0440\u0430\u0441\u0442\u0430\u043d\u0438\u0435 \u043f\u043e\u043a\u0440\u044b\u0432\u0430\u0442\u044c \u0441\u0435\u0440\u043e\u0432\u0430\u0442\u044b\u0439 \u043f\u0440\u043e\u044f\u0432\u043b\u044f\u0442\u044c\u0441\u044f \u0441\u0438\u043c\u043f\u0442\u043e\u043c \u0441\u043b\u0438\u0437\u0438\u0441\u0442\u044b\u0439 \u043d\u0430\u0447\u0430\u043b\u043e \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u043d\u044b\u0439 \u043d\u0430\u043b\u0435\u0442 \u043a\u0430\u0440\u0442\u0438\u043d\u0430 \u0438\u0437\u044a\u044f\u0437\u0432\u043b\u0435\u043d\u0438\u0435 \u043f\u043e\u043b\u043e\u0441\u0442\u044c \u0438\u043c\u043c\u0443\u043d\u043d\u044b\u0439 \u043f\u0435\u0440\u0438\u043e\u0434 \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u0441\u043a\u0440\u044b\u0442\u044b\u0439 \u0441\u043d\u0438\u0436\u0435\u043d\u0438\u0435 \u043e\u0441\u043d\u043e\u0432\u043d\u043e\u0439 \u0431\u043e\u043b\u044c \u043e\u0437\u043d\u043e\u0431 \u0431\u044b\u0441\u0442\u0440\u044b\u0439 \u043f\u0440\u0438\u0437\u043d\u0430\u043a \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u0432\u043e\u0437\u043d\u0438\u043a\u043d\u043e\u0432\u0435\u043d\u0438\u0435 \u043e\u0431\u043e\u043b\u043e\u0447\u043a\u0430 \u043f\u043e\u0440\u0430\u0436\u0435\u043d\u0438\u0435 \u044f\u0437\u0432\u0430 \u043a\u043b\u0438\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u043e\u0440\u0433\u0430\u043d\u0438\u0437\u043c \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0437\u043e\u0432\u0430\u0442\u044c\u0441\u044f \u0440\u0430\u0437\u0432\u0438\u0432\u0430\u0442\u044c\u0441\u044f&#8217;<\/p>\n<p>\u041d\u0430\u043c \u0443\u0434\u0430\u043b\u043e\u0441\u044c \u0434\u043e\u0441\u0442\u0438\u0447\u044c \u043f\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u043d\u044b\u0445 \u0446\u0435\u043b\u0435\u0439 \u043d\u0430 \u044d\u0442\u043e\u043c \u044d\u0442\u0430\u043f\u0435 \u0438 \u0432\u044b\u043f\u043e\u043b\u043d\u0438\u0442\u044c \u0432\u0441\u0435\u00a0 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u044b\u0435 \u0443\u0441\u043b\u043e\u0432\u0438\u044f \u043f\u0440\u0435\u0434\u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 \u0442\u0435\u043a\u0441\u0442\u043e\u0432.<\/p>\n<h2>\u0412\u0435\u043a\u0442\u043e\u0440\u0438\u0437\u0430\u0446\u0438\u044f \u0442\u0435\u043a\u0441\u0442\u043e\u0432<\/h2>\n<p>\u0414\u043b\u044f \u0432\u044b\u043f\u043e\u043b\u043d\u0435\u043d\u0438\u044f \u0437\u0430\u0434\u0430\u0447\u0438 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u0442\u044c \u043d\u0435\u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u043d\u043e\u0435 \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u043e. \u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u043c\u043e\u0436\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u044f, \u043e\u0441\u043d\u043e\u0432\u0430\u043d\u043d\u044b\u0435 \u043d\u0430 \u043d\u0435\u043a\u043e\u043d\u0442\u0440\u043e\u043b\u0438\u0440\u0443\u0435\u043c\u044b\u0445 \u043c\u0435\u0442\u043e\u0434\u0430\u0445, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0434\u043e\u043f\u0443\u0441\u043a\u0430\u044e\u0442 \u0432\u0435\u043a\u0442\u043e\u0440\u0438\u0437\u0430\u0446\u0438\u044e \u0441\u043b\u043e\u0432, \u0442\u0430\u043a\u0438\u0445 \u043a\u0430\u043a CountVectorizer, TF-IDF, HashingVectorizer \u0438\u043b\u0438 \u0430\u043d\u0430\u043b\u043e\u0433\u0438\u0447\u043d\u044b\u0435 \u043f\u043e\u0434\u0445\u043e\u0434\u044b. \u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043a\u0430\u043a \u043f\u0440\u0438\u043c\u0435\u043d\u0438\u0442\u044c \u043a\u0430\u0436\u0434\u044b\u0439 \u0438\u0437 \u043d\u0438\u0445, \u0441\u0440\u0430\u0432\u043d\u0438\u043c \u0438 \u0432\u044b\u0431\u0435\u0440\u0435\u043c \u043d\u0430\u0438\u043b\u0443\u0447\u0448\u0438\u0439.<\/p>\n<p>    \u041f\u0440\u0438\u043d\u0446\u0438\u043f \u0440\u0430\u0431\u043e\u0442\u044b <strong>CountVectorizer<\/strong> \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e \u043f\u0440\u043e\u0441\u0442 \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u044b\u0432\u0430\u0435\u0442 \u0432\u0445\u043e\u0434\u043d\u043e\u0439 \u0442\u0435\u043a\u0441\u0442 \u0432 \u043c\u0430\u0442\u0440\u0438\u0446\u0443, \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f\u043c\u0438 \u043a\u043e\u0442\u043e\u0440\u043e\u0439, \u044f\u0432\u043b\u044f\u044e\u0442\u0441\u044f \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0430 \u0432\u0445\u043e\u0436\u0434\u0435\u043d\u0438\u044f \u0434\u0430\u043d\u043d\u043e\u0433\u043e \u043a\u043b\u044e\u0447\u0430(\u0441\u043b\u043e\u0432\u0430) \u0432 \u0442\u0435\u043a\u0441\u0442. \u041f\u043e \u0441\u0443\u0442\u0438 \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043c \u043c\u0430\u0442\u0440\u0438\u0446\u0443 \u0440\u0430\u0437\u043c\u0435\u0440\u043d\u043e\u0441\u0442\u044c\u044e: \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0432\u0441\u0435\u0445 \u0441\u043b\u043e\u0432 * \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432, \u044d\u043b\u0435\u043c\u0435\u043d\u0442\u0430\u043c\u0438 \u043c\u0430\u0442\u0440\u0438\u0446\u044b \u0431\u0443\u0434\u0443\u0442 \u044f\u0432\u043b\u044f\u0442\u044c\u0441\u044f \u0447\u0438\u0441\u043b\u0430, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043e\u0437\u043d\u0430\u0447\u0430\u044e\u0442 \u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0440\u0430\u0437 \u0432\u0441\u0435\u0433\u043e \u044d\u0442\u043e \u0441\u043b\u043e\u0432\u043e \u0432\u0441\u0442\u0440\u0435\u0442\u0438\u043b\u043e\u0441\u044c \u0432 \u0442\u0435\u043a\u0441\u0442\u0435.<\/p>\n<pre><code class=\"python\">corpus_cvec = corpus.copy() cv = CountVectorizer(min_df=2, max_df=1.) cv.fit(corpus_cvec) transformed_cvec = cv.transform(corpus_cvec) dense_cvec = transformed_cvec.todense() dense_cvec.shape<\/code><\/pre>\n<p>(2327, 4962)<\/p>\n<pre><code>dense_cvec[0]<\/code><\/pre>\n<p>matrix([[0, 0, 0, &#8230;, 0, 0, 0]])<\/p>\n<p>    \u041c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 \u043c\u0430\u0442\u0440\u0438\u0446\u0443, \u0440\u0430\u0437\u043c\u0435\u0440\u043d\u043e\u0441\u0442\u044c\u044e 2327 (\u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u0439) \u043d\u0430 4962 (\u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u044b\u0445 \u0441\u043b\u043e\u0432), \u0447\u0438\u0441\u0435\u043b, \u043e\u0437\u043d\u0430\u0447\u0430\u044e\u0449\u0438\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u043d\u0438\u0439 \u0434\u0430\u043d\u043d\u043e\u0433\u043e \u0441\u043b\u043e\u0432\u0430 \u0432 \u0442\u0435\u043a\u0441\u0442\u0435.<\/p>\n<pre><code class=\"python\"># \u0420\u0430\u0437\u0431\u0438\u0432\u043a\u0430 \u0432\u044b\u0431\u043e\u0440\u043a\u0438 \u043d\u0430 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043e\u0447\u043d\u0443\u044e \u0438 \u0442\u0435\u0441\u0442\u043e\u0432\u043e\u044e X_tr, X_te, y_tr, y_te = train_test_split(np.array(dense_cvec), df['\u041c\u041a\u0411_10'], random_state=203)<\/code><\/pre>\n<pre><code class=\"python\"># \u041b\u043e\u0433\u0438\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u044f lr = LogisticRegression() lr.fit(X_tr, y_tr)<\/code><\/pre>\n<pre><code class=\"python\">print(balanced_accuracy_score(lr.predict(X_tr), y_tr)) print(balanced_accuracy_score(lr.predict(X_te), y_te))<\/code><\/pre>\n<p>0.9988108599219709 <\/p>\n<p>0.5881197323399867<\/p>\n<p>    \u0420\u0430\u0437\u0431\u0438\u0432 \u0432\u044b\u0431\u043e\u0440\u043a\u0443 \u043d\u0430 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043e\u0447\u043d\u0443\u044e \u0438 \u0442\u0435\u0441\u0442\u043e\u0432\u0443\u044e \u0438 \u043f\u0435\u0440\u0435\u0434\u0430\u0432 \u044d\u043b\u0435\u043c\u0435\u043d\u0442\u044b \u0432 \u043c\u043e\u0434\u0435\u043b\u044c \u043b\u043e\u0433\u0438\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0438, \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b (balanced accuracy): 99,9% \u043d\u0430 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043e\u0447\u043d\u043e\u043c \u0438 58,8 \u043d\u0430 \u0442\u0435\u0441\u0442\u043e\u0432\u043e\u043c.<\/p>\n<h2>\u041d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u044b\u0435 \u043a\u043e\u043c\u043c\u0435\u043d\u0442\u0430\u0440\u0438\u0438.<\/h2>\n<p>   \u0422\u0430\u043a \u0432 \u043d\u0430\u0448\u0438\u0445 \u0434\u0430\u043d\u043d\u044b\u0445 \u0437\u043d\u0430\u0447\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0434\u0438\u0441\u0431\u0430\u043b\u0430\u043d\u0441, \u043d\u0430\u043c \u043d\u0443\u0436\u043d\u0430 \u0432\u0437\u0432\u0435\u0448\u0435\u043d\u043d\u0430\u044f \u043e\u0446\u0435\u043d\u043a\u0430 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0430. <\/p>\n<p><strong>\u0421\u0431\u0430\u043b\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u0430\u044f \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u044c<\/strong> \u044d\u0442\u043e \u0441\u0440\u0435\u0434\u043d\u0435\u0435 \u0430\u0440\u0438\u0444\u043c\u0435\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u0447\u0443\u0432\u0441\u0442\u0432\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u0438 \u0438 \u0441\u043f\u0435\u0446\u0438\u0444\u0438\u0447\u043d\u043e\u0441\u0442\u0438, \u0435\u0435\u0439 \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u044e\u0442 \u0432 \u0440\u0430\u0431\u043e\u0442\u0435 \u0441 \u043d\u0435\u0441\u0431\u0430\u043b\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u043c\u0438 \u0434\u0430\u043d\u043d\u044b\u043c\u0438, \u0442\u043e \u0435\u0441\u0442\u044c \u043a\u043e\u0433\u0434\u0430 \u043e\u0434\u0438\u043d \u0438\u0437 \u0446\u0435\u043b\u0435\u0432\u044b\u0445 \u043a\u043b\u0430\u0441\u0441\u043e\u0432 \u043f\u043e\u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u043d\u0430\u043c\u043d\u043e\u0433\u043e \u0431\u043e\u043b\u044c\u0448\u0435, \u0447\u0435\u043c \u0434\u0440\u0443\u0433\u043e\u0439.<\/p>\n<p>Balanced Accuracy \u043f\u043e\u043b\u0435\u0437\u0435\u043d \u0434\u043b\u044f \u043c\u0443\u043b\u044c\u0442\u0438\u043a\u043b\u0430\u0441\u0441\u043e\u0432\u043e\u0439 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438. \u0417\u0434\u0435\u0441\u044c BA \u2014 \u044d\u0442\u043e \u0441\u0440\u0435\u0434\u043d\u0435\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 \u043e\u0442\u0437\u044b\u0432\u0430, \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u043e\u0435 \u0432 \u043a\u0430\u0436\u0434\u043e\u043c \u043a\u043b\u0430\u0441\u0441\u0435, \u0442.\u0435. \u043c\u0430\u043a\u0440\u043e\u0441\u0440\u0435\u0434\u043d\u0435\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 \u043e\u0442\u0437\u044b\u0432\u0430 \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u043a\u043b\u0430\u0441\u0441\u0430. \u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u0434\u043b\u044f \u0441\u0431\u0430\u043b\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u043e\u0433\u043e \u043d\u0430\u0431\u043e\u0440\u0430 \u0434\u0430\u043d\u043d\u044b\u0445 \u043e\u0446\u0435\u043d\u043a\u0438, \u043a\u0430\u043a \u043f\u0440\u0430\u0432\u0438\u043b\u043e, \u0441\u043e\u0432\u043f\u0430\u0434\u0430\u044e\u0442 \u0441 \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u044c\u044e.<\/p>\n<p>\u0421\u0431\u0430\u043b\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u0430\u044f \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u044c \u044d\u0442\u043e \u0441\u0440\u0435\u0434\u043d\u0435\u0435 \u0430\u0440\u0438\u0444\u043c\u0435\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u043e\u0442 \u043c\u0435\u0442\u0440\u0438 recall, \u043e\u043d\u0430 \u0440\u0430\u0441\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u043e \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u043a\u043b\u0430\u0441\u0441\u0430 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0432\u0435\u0440\u043d\u043e \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u043d\u044b\u0445 \u044d\u043b\u0435\u043c\u0435\u043d\u0442\u043e\u0432 \u0438\u0441\u0442\u0438\u043d\u043d\u043e\u0439 \u043f\u0440\u0438\u043d\u0430\u0434\u043b\u0435\u0436\u043d\u043e\u0441\u0442\u0438 (TP) \/ (TP) + \u043b\u043e\u0436\u043d\u043e \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u043d\u044b\u0435 \u044d\u0442\u0438\u043c \u043a\u043b\u0430\u0441\u0441\u043e\u043c (FN). \u0418\u0437 \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0433\u043e \u043e\u0431\u043e\u0441\u043d\u043e\u0432\u0430\u043d\u0438\u044f \u043c\u044b \u043c\u043e\u0436\u0435\u043c \u0433\u043e\u0432\u043e\u0440\u0438\u0442\u044c \u043e \u0442\u043e\u043c, \u0447\u0442\u043e \u0434\u0430\u043d\u043d\u0430\u044f \u043c\u0435\u0442\u0440\u0438\u043a\u0430 \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u043e\u043f\u0442\u0438\u043c\u0430\u043b\u044c\u043d\u043e\u0439 \u0434\u043b\u044f \u043e\u0446\u0435\u043d\u043a\u0438 \u043d\u0435\u0441\u0431\u0430\u043b\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445, \u043c\u044b \u043e\u0442\u0434\u0430\u0435\u043c \u043f\u0440\u0435\u0434\u043f\u043e\u0447\u0442\u0435\u043d\u0438\u0435 \u0435\u0439.<\/p>\n<p>   <strong>\u041b\u043e\u0433\u0438\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u044f<\/strong> &#8212; \u044d\u0442\u043e\u0442 \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u043f\u0440\u0435\u0434\u043f\u043e\u0447\u0442\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u043c \u0434\u043b\u044f \u043d\u0430\u0441, \u0442\u0430\u043a \u043a\u0430\u043a \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u043e\u0441\u044c\u044e \u0435\u0435 \u043c\u044b \u043c\u043e\u0436\u0435\u043c \u043f\u043e\u043b\u0443\u0447\u0430\u0442\u044c \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u0438 \u043f\u0440\u0438 \u043f\u0440\u043e\u0433\u043d\u043e\u0437\u0435 ( \u043d\u0430\u043c \u043c\u043e\u0433\u043b\u043e \u0431\u044b \u0431\u044b\u0442\u044c \u044d\u0442\u043e \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u043e ), \u0430 \u0442\u0430\u043a\u0436\u0435 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u043a\u043e\u044d\u0444\u0444\u0438\u0446\u0438\u0435\u043d\u0442\u044b, \u0447\u0442\u043e \u043f\u043e\u043c\u043e\u0433\u043b\u043e \u0431\u044b \u043f\u043e\u043c\u043e\u0447\u044c \u0438\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0430\u0446\u0438\u0438 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u0432, \u043f\u043e\u043b\u0443\u0447\u0438\u0432\u0448\u0435\u0439\u0441\u044f \u043c\u043e\u0434\u0435\u043b\u0438. <strong>\u041d\u041e<\/strong> \u0442\u0430\u043a \u0432 \u0436\u0438\u0437\u043d\u0438 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u044c \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u0438\u0445 \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u043e\u0432 \u0441\u0447\u0438\u0442\u0430\u0435\u0442\u0441\u044f \u0433\u043e\u0440\u0430\u0437\u0434\u043e \u0441\u043b\u043e\u0436\u043d\u0435\u0435 (\u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u0442\u044c \u0440\u0430\u0441\u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0435\u043d\u043d\u043e\u0441\u0442\u044c \u0438\u043b\u0438 \u0447\u0430\u0441\u0442\u043e\u0442\u0443 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u043d\u0438\u044f), \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u0438 \u0432 \u0442\u043e\u043c \u0432\u0438\u0434\u0435, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0431\u0443\u0434\u0435\u0442 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d \u043c\u043e\u0434\u0435\u043b\u044c\u044e \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u043d\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0438 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u0438\u0442\u044c \u0432 \u0432\u0438\u0434\u0435 \u043d\u0435\u043a\u043e\u0442\u043e\u0440\u043e\u0433\u043e \u0434\u0440\u0443\u0433\u043e\u0433\u043e \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u0438 \u0438\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043a\u0430\u043a \u043e\u0446\u0435\u043d\u043a\u0430 \u0444\u0443\u043d\u043a\u0446\u0438\u0438. \u0422\u0430\u043a\u0436\u0435, \u0441\u043a\u043e\u0440\u0435\u0435 \u0432\u0441\u0435\u0433\u043e, \u0432 \u043d\u0430\u0448\u0435\u0439 \u0437\u0430\u0434\u0430\u0447\u0435 \u0438\u0437-\u0437\u0430 \u0434\u0438\u0441\u0431\u0430\u043b\u0430\u043d\u0441\u0430 \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u0439 \u0432 \u043a\u043b\u0430\u0441\u0441\u0435, \u0442\u0435\u043c \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u0430\u043c \u0433\u0434\u0435 \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0435 \u0441\u043c\u043e\u0436\u0435\u0442 \u043d\u0430\u0443\u0447\u0438\u0442\u044c\u0441\u044f \u0434\u0430\u0432\u0430\u0442\u044c \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e\u0435 \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u0438\u0435, \u0431\u0443\u0434\u0435\u0442 \u0441\u0442\u0430\u0432\u0438\u0442\u044c\u0441\u044f \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0435, \u0430 \u0441\u0443\u0434\u044f \u0438\u0437 \u0442\u043e\u0433\u043e \u043a\u0430\u043a \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043c\u043e\u0434\u0435\u043b\u044c, \u044d\u0442\u043e \u0431\u0443\u0434\u0435\u0442 \u043a\u043b\u0430\u0441\u0441 \u0441 \u043d\u0430\u0438\u0431\u043e\u043b\u044c\u0448\u0438\u043c \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e\u043c \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u0439. \u0422\u0430\u043a \u0447\u0442\u043e \u044d\u0442\u043e \u043d\u0435 \u043a\u043e\u043d\u0435\u0447\u043d\u044b\u0439 \u0432\u044b\u0432\u043e\u0434.<\/p>\n<h2>\u0415\u0449\u0435 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u043f\u043e\u0441\u043e\u0431\u043e\u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u0438\u0437\u0430\u0446\u0438\u0438<\/h2>\n<p>    \u041c\u0435\u0442\u043e\u0434 <strong>TF-IDF<\/strong> \u043e\u0441\u043d\u043e\u0432\u0430\u043d \u043d\u0430 \u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u0438 \u0434\u0432\u0443\u0445 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0442\u043e\u043a\u0435\u043d\u0430. TF &#8212; \u044d\u0442\u043e \u0447\u0430\u0441\u0442\u043e\u0442\u043d\u043e\u0441\u0442\u044c \u0442\u0435\u0440\u043c\u0438\u043d\u0430, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0438\u0437\u043c\u0435\u0440\u044f\u0435\u0442, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0447\u0430\u0441\u0442\u043e \u0442\u0435\u0440\u043c\u0438\u043d \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u0432 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0435 (\u043a\u0430\u043a \u0432 CountVectorizer). \u041b\u043e\u0433\u0438\u0447\u043d\u043e \u043f\u0440\u0435\u0434\u043f\u043e\u043b\u043e\u0436\u0438\u0442\u044c, \u0447\u0442\u043e \u0432 \u0434\u043b\u0438\u043d\u043d\u044b\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0445 \u0442\u0435\u0440\u043c\u0438\u043d \u043c\u043e\u0436\u0435\u0442 \u0432\u0441\u0442\u0440\u0435\u0442\u0438\u0442\u044c\u0441\u044f \u0432 \u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0430\u0445, \u0447\u0435\u043c \u0432 \u043a\u043e\u0440\u043e\u0442\u043a\u0438\u0445. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u044e\u0442 \u043e\u0442\u043d\u043e\u0441\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0435, \u0441\u0432\u043e\u0435\u0433\u043e \u0440\u043e\u0434\u0430 \u043d\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u043a\u0430 \u2014 \u0434\u0435\u043b\u044f\u0442 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0440\u0430\u0437, \u043a\u043e\u0433\u0434\u0430 \u043d\u0443\u0436\u043d\u044b\u0439 \u0442\u0435\u0440\u043c\u0438\u043d \u0432\u0441\u0442\u0440\u0435\u0442\u0438\u043b\u0441\u044f \u0432 \u0442\u0435\u043a\u0441\u0442\u0435, \u043d\u0430 \u043e\u0431\u0449\u0435\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0441\u043b\u043e\u0432 \u0432 \u0442\u0435\u043a\u0441\u0442\u0435. IDF &#8212; \u044d\u0442\u043e \u043e\u0431\u0440\u0430\u0442\u043d\u0430\u044f \u0447\u0430\u0441\u0442\u043e\u0442\u043d\u043e\u0441\u0442\u044c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432. \u041e\u043d\u0430 \u0438\u0437\u043c\u0435\u0440\u044f\u0435\u0442 \u043d\u0435\u043f\u043e\u0441\u0440\u0435\u0434\u0441\u0442\u0432\u0435\u043d\u043d\u043e \u0432\u0430\u0436\u043d\u043e\u0441\u0442\u044c \u0442\u0435\u0440\u043c\u0438\u043d\u0430. \u041a\u043e\u0433\u0434\u0430 \u043c\u044b \u0441\u0447\u0438\u0442\u0430\u043b\u0438 TF, \u0432\u0441\u0435 \u0442\u0435\u0440\u043c\u0438\u043d\u044b \u0441\u0447\u0438\u0442\u0430\u043b\u0438\u0441\u044c \u0443\u0441\u043b\u043e\u0432\u043d\u043e \u0440\u0430\u0432\u043d\u044b\u043c\u0438 \u043f\u043e \u0432\u0430\u0436\u043d\u043e\u0441\u0442\u0438 \u0434\u0440\u0443\u0433 \u0434\u0440\u0443\u0433\u0443. \u041d\u043e \u0432\u0441\u0435\u043c \u0438\u0437\u0432\u0435\u0441\u0442\u043d\u043e, \u0447\u0442\u043e, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u043f\u0440\u0435\u0434\u043b\u043e\u0433\u0438 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u044e\u0442\u0441\u044f \u043e\u0447\u0435\u043d\u044c \u0447\u0430\u0441\u0442\u043e, \u0445\u043e\u0442\u044f \u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438 \u043d\u0435 \u0432\u043b\u0438\u044f\u044e\u0442 \u043d\u0430 \u0441\u043c\u044b\u0441\u043b \u0442\u0435\u043a\u0441\u0442\u0430. IDF \u0441\u0447\u0438\u0442\u0430\u0435\u0442\u0441\u044f \u043a\u0430\u043a \u043b\u043e\u0433\u0430\u0440\u0438\u0444\u043c \u043e\u0442 \u043e\u0431\u0449\u0435\u0433\u043e \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0430 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432, \u0434\u0435\u043b\u0451\u043d\u043d\u043e\u0433\u043e \u043d\u0430 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432, \u0432 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u0442\u0435\u0440\u043c\u0438\u043d. \u0410 \u0437\u0430\u0442\u0435\u043c \u043c\u044b \u0443\u043c\u043d\u043e\u0436\u0430\u0435\u043c TF \u043d\u0430 IDF \u0438 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c TF-IDF.   <\/p>\n<p>\u0411\u0430\u043b\u043b\u044b \u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0443\u044e\u0442\u0441\u044f \u0434\u043e \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0439 \u043e\u0442 0 \u0434\u043e 1, \u0438 \u0437\u0430\u043a\u043e\u0434\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u043c\u043e\u0433\u0443\u0442 \u0437\u0430\u0442\u0435\u043c \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c\u0441\u044f \u043d\u0435\u043f\u043e\u0441\u0440\u0435\u0434\u0441\u0442\u0432\u0435\u043d\u043d\u043e \u0441 \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e\u043c \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u043e\u0432 \u043c\u0430\u0448\u0438\u043d\u043d\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f.<\/p>\n<pre><code class=\"python\"># \u0432\u0435\u043a\u0442\u043e\u0440\u0438\u0437\u0430\u0446\u0438\u044f TF\/IDF corpus_tf = corpus.copy()  tf = TfidfVectorizer(min_df=2, max_df=1.) tf.fit(corpus_tf) transformed_tf = tf.transform(corpus_tf) dense_tf = transformed_tf.todense() dense_tf.shape<\/code><\/pre>\n<p>(2327, 4962)<\/p>\n<pre><code class=\"python\">pd.DataFrame(dense_tf)[1].unique()<\/code><\/pre>\n<p>array([0.        , 0.15152024, 0.12289763, 0.2538578 , 0.18524786])<\/p>\n<pre><code class=\"python\"># \u0420\u0430\u0437\u0431\u0438\u0432\u043a\u0430 \u0432\u044b\u0431\u043e\u0440\u043a\u0438 \u043d\u0430 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043e\u0447\u043d\u0443\u044e \u0438 \u0442\u0435\u0441\u0442\u043e\u0432\u043e\u044e X_tr, X_te, y_tr, y_te = train_test_split(np.array(dense_tf), df['\u041c\u041a\u0411_10'], random_state=203)<\/code><\/pre>\n<pre><code class=\"python\"># \u041b\u043e\u0433\u0438\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u044f lr = LogisticRegression() lr.fit(X_tr, y_tr)<\/code><\/pre>\n<pre><code class=\"python\">print(balanced_accuracy_score(lr.predict(X_tr), y_tr)) print(balanced_accuracy_score(lr.predict(X_te), y_te))<\/code><\/pre>\n<p>0.9495468027236211 <\/p>\n<p>0.6754541916289634<\/p>\n<p>    \u0420\u0430\u0437\u0431\u0438\u0432 \u0432\u044b\u0431\u043e\u0440\u043a\u0443 \u043d\u0430 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043e\u0447\u043d\u0443\u044e \u0438 \u0442\u0435\u0441\u0442\u043e\u0432\u0443\u044e \u0438 \u043f\u0435\u0440\u0435\u0434\u0430\u0432 \u044d\u043b\u0435\u043c\u0435\u043d\u0442\u044b \u0432 \u043c\u043e\u0434\u0435\u043b\u044c \u043b\u043e\u0433\u0438\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0438, \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b (balanced accuracy): 94,9% \u043d\u0430 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043e\u0447\u043d\u043e\u043c \u0438 67,5% \u043d\u0430 \u0442\u0435\u0441\u0442\u043e\u0432\u043e\u043c.<\/p>\n<p>    \u041f\u0440\u0438 \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u043d\u043e\u0439 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0435 \u0442\u0435\u043a\u0441\u0442\u043e\u0432, \u0440\u0430\u0437\u043c\u0435\u0440\u043d\u043e\u0441\u0442\u044c \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445 \u043c\u043e\u0436\u0435\u0442 \u0441\u0442\u0430\u0442\u044c \u043e\u0433\u0440\u043e\u043c\u043d\u043e\u0439. \u0412 \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e\u0435 \u0432\u0440\u0435\u043c\u044f, \u0447\u0430\u0441\u0442\u043e \u0442\u0440\u0435\u0431\u0443\u0435\u0442\u0441\u044f \u0443\u043c\u0435\u043d\u044c\u0448\u0435\u043d\u0438\u0435 \u0440\u0430\u0437\u043c\u0435\u0440\u043d\u043e\u0441\u0442\u0438, \u0438 \u043c\u0435\u0442\u043e\u0434 \u0432\u0435\u043a\u0442\u043e\u0440\u0438\u0437\u0430\u0446\u0438\u0438, \u043e\u043f\u0438\u0441\u0430\u043d\u043d\u044b\u0439 \u0432 \u043f\u0440\u0435\u0434\u044b\u0434\u0443\u0449\u0435\u043c \u0440\u0430\u0437\u0434\u0435\u043b\u0435, \u043d\u0435\u043b\u044c\u0437\u044f \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u043d\u0430\u043f\u0440\u044f\u043c\u0443\u044e. \u041d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0447\u0430\u0441\u0442\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c\u044b\u0439 \u043c\u0435\u0442\u043e\u0434 \u0443\u043c\u0435\u043d\u044c\u0448\u0435\u043d\u0438\u044f \u0440\u0430\u0437\u043c\u0435\u0440\u043d\u043e\u0441\u0442\u0438 \u0442\u0435\u043a\u0441\u0442\u0430 &#8212; \u044d\u0442\u043e Hash Trick \u0438\u043b\u0438 <strong>HashingVectorizer<\/strong>. \u0417\u043d\u0430\u0447\u0435\u043d\u0438\u0435 Hash \u0437\u0434\u0435\u0441\u044c \u0430\u043d\u0430\u043b\u043e\u0433\u0438\u0447\u043d\u043e \u0438\u0437\u0432\u0435\u0441\u0442\u043d\u043e\u043c\u0443 \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u044e \u0438\u0437 \u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u044b \u0434\u0430\u043d\u043d\u044b\u0445 (\u0412\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u044f: \u0425\u0435\u0448-\u0442\u0430\u0431\u043b\u0438\u0301\u0446\u0430 (\u0430\u043d\u0433\u043b. hash-table) \u2014 \u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0430 \u0434\u0430\u043d\u043d\u044b\u0445, \u0440\u0435\u0430\u043b\u0438\u0437\u0443\u044e\u0449\u0430\u044f \u0438\u043d\u0442\u0435\u0440\u0444\u0435\u0439\u0441 \u0430\u0441\u0441\u043e\u0446\u0438\u0430\u0442\u0438\u0432\u043d\u043e\u0433\u043e \u043c\u0430\u0441\u0441\u0438\u0432\u0430. \u0412 \u043e\u0442\u043b\u0438\u0447\u0438\u0435 \u043e\u0442 \u0434\u0435\u0440\u0435\u0432\u044c\u0435\u0432 \u043f\u043e\u0438\u0441\u043a\u0430, \u0440\u0435\u0430\u043b\u0438\u0437\u0443\u044e\u0449\u0438\u0445 \u0442\u043e\u0442 \u0436\u0435 \u0438\u043d\u0442\u0435\u0440\u0444\u0435\u0439\u0441, \u043e\u0431\u0435\u0441\u043f\u0435\u0447\u0438\u0432\u0430\u044e\u0442 \u043c\u0435\u043d\u044c\u0448\u0435\u0435 \u0432\u0440\u0435\u043c\u044f \u043e\u0442\u043a\u043b\u0438\u043a\u0430 \u0432 \u0441\u0440\u0435\u0434\u043d\u0435\u043c. \u041f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u043e\u0431\u043e\u0439 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u0443\u044e \u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0443 \u0434\u0430\u043d\u043d\u044b\u0445 \u0434\u043b\u044f \u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u0438 \u0441\u043b\u043e\u0432\u0430\u0440\u0435\u0439, \u0430 \u0438\u043c\u0435\u043d\u043d\u043e, \u043e\u043d\u0430 \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u0445\u0440\u0430\u043d\u0438\u0442\u044c \u043f\u0430\u0440\u044b (\u043a\u043b\u044e\u0447, \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435) \u0438 \u0432\u044b\u043f\u043e\u043b\u043d\u044f\u0442\u044c \u0442\u0440\u0438 \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u0438: \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u044e \u0434\u043e\u0431\u0430\u0432\u043b\u0435\u043d\u0438\u044f \u043d\u043e\u0432\u043e\u0439 \u043f\u0430\u0440\u044b, \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u044e \u043f\u043e\u0438\u0441\u043a\u0430 \u0438 \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u044e \u0443\u0434\u0430\u043b\u0435\u043d\u0438\u044f \u043f\u0430\u0440\u044b \u043f\u043e \u043a\u043b\u044e\u0447\u0443).<\/p>\n<p>\u0412 HashingVectorizer \u043c\u044b \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0438\u043c \u0440\u0430\u0437\u043c\u0435\u0440 \u0445\u044d\u0448-\u0442\u0430\u0431\u043b\u0438\u0446\u044b, \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0443\u044e\u0449\u0435\u0439 \u0445\u0435\u0448-\u0444\u0443\u043d\u043a\u0446\u0438\u0438. \u0420\u0430\u0437\u043c\u0435\u0440 \u044d\u0442\u043e\u0439 \u0442\u0430\u0431\u043b\u0438\u0446\u044b \u0431\u0443\u0434\u0435\u0442 \u043c\u043d\u043e\u0433\u043e \u043c\u0435\u043d\u044c\u0448\u0435, \u0447\u0435\u043c \u0440\u0430\u0437\u043c\u0435\u0440\u043d\u043e\u0441\u0442\u044c \u0444\u0443\u043d\u043a\u0446\u0438\u0438 \u0441\u043b\u043e\u0432\u0430\u0440\u044f, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u043c\u044b \u0435\u0435 \u0438 \u0440\u0430\u0441\u0441\u043c\u0430\u0442\u0440\u0438\u0432\u0430\u0435\u043c \u043a\u0430\u043a \u0443\u043c\u0435\u043d\u044c\u0448\u0435\u043d\u0438\u0435 \u0440\u0430\u0437\u043c\u0435\u0440\u043d\u043e\u0441\u0442\u0438. \u041a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u044b\u0439 \u043c\u0435\u0442\u043e\u0434 \u0434\u043e\u043b\u0436\u0435\u043d \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u043e\u0432\u0430\u0442\u044c \u043b\u044e\u0431\u043e\u043c\u0443 \u0438\u043c\u0435\u043d\u0438 \u0444\u0443\u043d\u043a\u0446\u0438\u0438, \u0444\u0443\u043d\u043a\u0446\u0438\u044f \u0445\u0435\u0448\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f, \u043d\u0430\u0445\u043e\u0434\u0438\u0442 \u043c\u0435\u0441\u0442\u043e\u043f\u043e\u043b\u043e\u0436\u0435\u043d\u0438\u0435 \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0443\u044e\u0449\u0435\u0439 \u0445\u0435\u0448-\u0442\u0430\u0431\u043b\u0438\u0446\u044b, \u0430 \u0437\u0430\u0442\u0435\u043c \u043d\u0430\u043a\u0430\u043f\u043b\u0438\u0432\u0430\u0435\u0442 \u0441\u0442\u0430\u0442\u0438\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 \u0447\u0430\u0441\u0442\u043e\u0442\u044b \u0441\u043b\u043e\u0432, \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0443\u044e\u0449\u0435\u0435 \u0438\u043c\u0435\u043d\u0438 \u0444\u0443\u043d\u043a\u0446\u0438\u0438, \u0432 \u043c\u0435\u0441\u0442\u043e\u043f\u043e\u043b\u043e\u0436\u0435\u043d\u0438\u0438 \u0445\u0435\u0448-\u0442\u0430\u0431\u043b\u0438\u0446\u044b.<\/p>\n<p>\u0417\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u0437\u0430\u043a\u043e\u0434\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u043e\u0433\u043e \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430 \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0443\u044e\u0442 \u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u043d\u043d\u043e\u043c\u0443 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0443 \u0441\u043b\u043e\u0432 \u043f\u043e \u0443\u043c\u043e\u043b\u0447\u0430\u043d\u0438\u044e \u0432 \u0434\u0438\u0430\u043f\u0430\u0437\u043e\u043d\u0435 \u043e\u0442 -1 \u0434\u043e 1, \u043d\u043e \u043c\u043e\u0433\u0443\u0442 \u0431\u044b\u0442\u044c \u0441\u0434\u0435\u043b\u0430\u043d\u044b \u043f\u0440\u043e\u0441\u0442\u044b\u0435 \u0446\u0435\u043b\u043e\u0447\u0438\u0441\u043b\u0435\u043d\u043d\u044b\u0435 \u0441\u0447\u0435\u0442\u0447\u0438\u043a\u0438 \u043f\u0443\u0442\u0435\u043c \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u0438 \u043f\u043e \u0443\u043c\u043e\u043b\u0447\u0430\u043d\u0438\u044e.<\/p>\n<pre><code class=\"python\"># \u0432\u0435\u043a\u0442\u043e\u0440\u0438\u0437\u0430\u0446\u0438\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u043c\u0435\u0442\u043e\u0434 HashingVectorizer corpus_hv = corpus.copy()  hv = HashingVectorizer(n_features=20) hv.fit(corpus_hv) transformed_hv = hv.transform(corpus_hv) dense_hv = transformed_hv.todense() dense_hv.shape<\/code><\/pre>\n<p>(2327, 20)<\/p>\n<pre><code class=\"python\">dense_hv[0]<\/code><\/pre>\n<figure class=\"full-width\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/764\/53d\/d06\/76453dd06ef78d893b71023a28257528.png\" width=\"1382\" height=\"166\" data-src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/764\/53d\/d06\/76453dd06ef78d893b71023a28257528.png\"\/><figcaption><\/figcaption><\/figure>\n<pre><code class=\"python\"># \u0420\u0430\u0437\u0431\u0438\u0432\u043a\u0430 \u0432\u044b\u0431\u043e\u0440\u043a\u0438 \u043d\u0430 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043e\u0447\u043d\u0443\u044e \u0438 \u0442\u0435\u0441\u0442\u043e\u0432\u043e\u044e X_tr, X_te, y_tr, y_te = train_test_split(np.array(dense_hv), df['\u041c\u041a\u0411_10'], random_state=203)<\/code><\/pre>\n<pre><code class=\"python\"># \u041b\u043e\u0433\u0438\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u044f lr = LogisticRegression() lr.fit(X_tr, y_tr)<\/code><\/pre>\n<pre><code class=\"python\">print(balanced_accuracy_score(lr.predict(X_tr), y_tr)) print(balanced_accuracy_score(lr.predict(X_te), y_te))<\/code><\/pre>\n<p>0.2509569568858903<\/p>\n<p> 0.04868499685846096<\/p>\n<p>    \u0420\u0430\u0437\u0431\u0438\u0432 \u0432\u044b\u0431\u043e\u0440\u043a\u0443 \u043d\u0430 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043e\u0447\u043d\u0443\u044e \u0438 \u0442\u0435\u0441\u0442\u043e\u0432\u0443\u044e \u0438 \u043f\u0435\u0440\u0435\u0434\u0430\u0432 \u044d\u043b\u0435\u043c\u0435\u043d\u0442\u044b \u0432 \u043c\u043e\u0434\u0435\u043b\u044c \u043b\u043e\u0433\u0438\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0438, \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b (balanced accuracy): 25,1% \u043d\u0430 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043e\u0447\u043d\u043e\u043c \u0438 4,8% \u043d\u0430 \u0442\u0435\u0441\u0442\u043e\u0432\u043e\u043c.<\/p>\n<p>    \u0422\u0430\u043a \u043a\u0430\u043a \u043c\u044b \u0432\u0438\u0434\u0438\u043c, \u043d\u0430\u0438\u043b\u0443\u0447\u0448\u0438\u0439 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u043b\u043e\u0433\u0438\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0438 \u043f\u043e\u043a\u0430\u0437\u0430\u043b\u0430 \u0432\u0435\u043a\u0442\u043e\u0440\u0438\u0437\u0430\u0446\u0438\u044f \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 TF-IDF. 67,5%, \u043f\u0440\u0438 \u0443\u0441\u043b\u043e\u0432\u0438\u0438 \u043c\u0443\u043b\u044c\u0442\u0438\u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438 \u0432 108 \u043a\u043b\u0430\u0441\u0441\u043e\u0432, \u0445\u043e\u0440\u043e\u0448\u0438\u0439 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442. \u0422\u0435\u043a\u0441\u0442\u044b \u043d\u0430 \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u0438\u0435 \u0442\u0435\u043c\u044b \u0432\u0441\u0435\u0433\u0434\u0430 \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0442 \u043c\u043d\u043e\u0436\u0435\u0441\u0442\u0432\u043e \u0442\u0435\u0440\u043c\u0438\u043d\u043e\u0432, \u0430 \u0442\u0435\u0440\u043c\u0438\u043d\u044b \u043f\u043e\u043c\u043e\u0433\u0430\u044e\u0442 \u0442\u043e\u0447\u043d\u043e \u0444\u043e\u0440\u043c\u0443\u043b\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0441\u043c\u044b\u0441\u043b, \u043f\u043e \u044d\u0442\u043e\u043c\u0443, \u0432 \u0442\u0435\u043e\u0440\u0438\u0438, \u043c\u044b \u043c\u043e\u0436\u0435\u043c \u043e\u0431\u0443\u0447\u0438\u0442\u044c \u0445\u043e\u0440\u043e\u0448\u0438\u0439 \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u0438\u0439 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0442\u043e\u0440, \u0434\u0430\u0436\u0435 \u043f\u0440\u0438 \u043d\u0435\u0431\u043e\u043b\u044c\u0448\u043e\u043c \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0435 \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u0439. \u0414\u0430\u043b\u0435\u0435 \u043c\u044b \u043e\u0446\u0435\u043d\u0438\u043b\u0438 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u044f \u0434\u0440\u0443\u0433\u0438\u0445 \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u043e\u0432 \u043c\u0430\u0448\u0438\u043d\u043d\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f.<\/p>\n<h2>\u0412\u044b\u0431\u043e\u0440 \u043e\u043f\u0442\u0438\u043c\u0430\u043b\u044c\u043d\u043e\u0433\u043e \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u0430 \u0434\u043b\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f<\/h2>\n<pre><code class=\"python\"># \u0420\u0430\u0437\u0431\u0438\u0432\u043a\u0430 \u0432\u044b\u0431\u043e\u0440\u043a\u0438 \u043d\u0430 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043e\u0447\u043d\u0443\u044e \u0438 \u0442\u0435\u0441\u0442\u043e\u0432\u043e\u044e X_tr, X_te, y_tr, y_te = train_test_split(np.array(dense_tf), df['\u041c\u041a\u0411_10'], random_state=203)<\/code><\/pre>\n<pre><code class=\"python\"># \u041d\u0430\u0438\u0432\u043d\u044b\u0439 \u0411\u0430\u0439\u0435\u0441 nb = GaussianNB() nb.fit(X_tr, y_tr)<\/code><\/pre>\n<pre><code class=\"python\">print(balanced_accuracy_score(nb.predict(X_tr), y_tr)) print(balanced_accuracy_score(nb.predict(X_te), y_te))<\/code><\/pre>\n<p>0.9797164650460575<\/p>\n<p> 0.5644975477681466<\/p>\n<pre><code class=\"python\">svc = SVC() svc.fit(X_tr, y_tr)<\/code><\/pre>\n<pre><code class=\"python\">print(balanced_accuracy_score(svc.predict(X_tr), y_tr)) print(balanced_accuracy_score(svc.predict(X_te), y_te))<\/code><\/pre>\n<p>0.9942186225425265 <\/p>\n<p>0.7848107770320787<\/p>\n<p>   \u0420\u0430\u0437\u0431\u0438\u0432 \u0432\u044b\u0431\u043e\u0440\u043a\u0443 \u043d\u0430 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043e\u0447\u043d\u0443\u044e \u0438 \u0442\u0435\u0441\u0442\u043e\u0432\u0443\u044e \u0438 \u043f\u0435\u0440\u0435\u0434\u0430\u0432 \u044d\u043b\u0435\u043c\u0435\u043d\u0442\u044b ( TF-IDF) \u0432 \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0430\u0438\u0432\u043d\u043e\u0433\u043e \u0411\u0430\u0439\u0435\u0441\u0430, \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b (balanced accuracy): 98,0% \u043d\u0430 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043e\u0447\u043d\u043e\u043c \u0438 56,4% \u043d\u0430 \u0442\u0435\u0441\u0442\u043e\u0432\u043e\u043c. \u0410 \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u043c\u0435\u0442\u043e\u0434\u0430 \u043e\u043f\u043e\u0440\u043d\u044b\u0445 \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432 \u0443\u0434\u0430\u043b\u043e\u0441\u044c \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u043d\u0430\u0438\u043b\u0443\u0447\u0448\u0438\u0435 \u043e\u0446\u0435\u043d\u043a\u0438 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0430 : 99,4% \u0438 78,4% \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0435\u043d\u043d\u043e.<\/p>\n<p>\u041a\u0430\u043a \u043c\u044b \u0432\u0438\u0434\u0438\u043c, \u043c\u0435\u0442\u043e\u0434 \u043e\u043f\u043e\u0440\u043d\u044b\u0445 \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043b\u0443\u0447\u0448\u0435 \u0434\u043b\u044f \u043d\u0430\u0448\u0438\u0445 \u0434\u0430\u043d\u043d\u044b\u0445. \u0414\u0430\u043b\u0435\u0435 \u043c\u044b \u043f\u043e\u043f\u0440\u043e\u0431\u0443\u0435\u043c \u0443\u043b\u0443\u0447\u0448\u0438\u0442\u044c \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u0438 \u043f\u0440\u043e\u0432\u0435\u0434\u0435\u043c \u0430\u0443\u0433\u043c\u0435\u043d\u0442\u0430\u0446\u0438\u044e \u0434\u0430\u043d\u043d\u044b\u0445.<\/p>\n<h2>\u0410\u0443\u0433\u043c\u0435\u043d\u0442\u0430\u0446\u0438\u044f \u0434\u0430\u043d\u043d\u044b\u0445<\/h2>\n<p>   FastText \u2014 \u044d\u0442\u043e \u0440\u0435\u0448\u0435\u043d\u0438\u0435 \u0434\u043b\u044f \u043f\u0440\u0435\u0434\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u044f \u0433\u043e\u0442\u043e\u0432\u044b\u0445 \u0432\u0435\u043a\u0442\u043e\u0440\u043d\u044b\u0445 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u0439 \u0441\u043b\u043e\u0432, \u0434\u043b\u044f \u0440\u0435\u0448\u0435\u043d\u0438\u044f \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0445 \u0437\u0430\u0434\u0430\u0447 \u0432 \u043e\u0431\u043b\u0430\u0441\u0442\u0438 ML \u0438 NLP. \u041d\u043e \u0443 \u0434\u0430\u043d\u043d\u044b\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439, \u0435\u0441\u0442\u044c \u043d\u0435\u0434\u043e\u0441\u0442\u0430\u0442\u043e\u043a. \u041d\u0430 \u0442\u0435\u043a\u0443\u0449\u0438\u0439 \u043c\u043e\u043c\u0435\u043d\u0442 \u043e\u0431\u0443\u0447\u0435\u043d\u043d\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c FastText \u043d\u0430 \u0440\u0443\u0441\u0441\u043a\u043e\u044f\u0437\u044b\u0447\u043d\u043e\u043c \u043a\u043e\u0440\u043f\u0443\u0441\u0435 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0412\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u0438 \u0437\u0430\u043d\u0438\u043c\u0430\u0435\u0442 \u0431\u043e\u043b\u0435\u0435 16\u0413\u0438\u0433\u0430\u0431\u0430\u0439\u0442, \u0447\u0442\u043e \u043a \u0441\u043e\u0436\u0430\u043b\u0435\u043d\u0438\u044e, \u0441\u0443\u0436\u0430\u0435\u0442 \u043e\u0431\u043b\u0430\u0441\u0442\u044c \u043f\u0440\u0438\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u0434\u0430\u043d\u043d\u043e\u0439 \u0442\u0438\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0438 \u0438 \u0437\u0430\u043c\u0435\u0434\u043b\u044f\u0435\u0442 \u043f\u0440\u043e\u0446\u0435\u0441\u0441 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f. \u0421 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u044d\u0442\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438, \u043c\u043e\u0436\u043d\u043e \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0441\u0445\u043e\u0436\u0438\u0435 \u0441\u043b\u043e\u0432\u0430 \u043f\u043e \u0441\u043c\u044b\u0441\u043b\u0443. \u041f\u0440\u0438\u043c\u0435\u0440 \u043d\u0438\u0436\u0435:<\/p>\n<pre><code class=\"python\">fasttext.util.download_model('ru', if_exists='ignore') ft = fasttext.load_model('cc.ru.300.bin')<\/code><\/pre>\n<p>\u041e\u0445, \u0431\u043e\u043b\u044c\u0448\u0430\u044f \u0438 \u0434\u043e\u043b\u0433\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c&#8230;. \u041c\u043e\u0436\u0435\u0442 \u0435\u0441\u0442\u044c \u0435\u0449\u0435 \u0447\u0442\u043e-\u0442\u043e, \u0447\u0442\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0441 \u0440\u0443\u0441\u0441\u043a\u0438\u043c \u044f\u0437\u044b\u043a\u043e\u043c?<\/p>\n<pre><code class=\"python\">ft.get_nearest_neighbors('\u0441\u043c\u0435\u0445',k=1)<\/code><\/pre>\n<p>[(0.8175902366638184, &#8216;\u0445\u043e\u0445\u043e\u0442&#8217;)]<\/p>\n<p>    \u041f\u0435\u0440\u0435\u0434\u0430\u0432 \u0441\u043b\u043e\u0432\u043e \u0441\u043c\u0435\u0445 \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 \u0441\u0438\u043d\u043e\u043d\u0438\u043c \u043a \u0441\u043b\u043e\u0432\u0443 &#8212; \u0445\u043e\u0445\u043e\u0442. \u0414\u0430\u043b\u0435\u0435 \u043f\u0440\u043e\u043f\u0443\u0441\u0442\u0438\u043c \u0442\u043e\u043b\u044c\u043a\u043e \u0442\u0435 \u043a\u043b\u0430\u0441\u0441\u044b, \u0433\u0434\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u0439 \u043c\u0435\u043d\u044c\u0448\u0435 20 \u0447\u0435\u0440\u0435\u0437 \u044d\u0442\u0443 \u0444\u0443\u043d\u043a\u0446\u0438\u044e, \u043f\u043e\u043b\u0443\u0447\u0430\u044f \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u043d\u044b\u0435, \u0441 \u0437\u0430\u043c\u0435\u043d\u043e\u0439 \u0441\u043b\u043e\u0432 \u043d\u0430 \u0441\u0438\u043d\u043e\u043d\u0438\u043c\u044b. \u041a \u0441\u043e\u0436\u0430\u043b\u0435\u043d\u0438\u044e, \u0434\u0430\u043d\u043d\u0430\u044f \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430 \u043d\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0438\u0434\u0435\u0430\u043b\u044c\u043d\u043e, \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u044f \u043d\u0435 \u0442\u043e\u043b\u044c\u043a\u043e \u0441\u0438\u043d\u043e\u043d\u0438\u043c\u044b, \u0430 \u0432 \u0442\u043e\u043c \u0447\u0438\u0441\u043b\u0435 \u043f\u0440\u043e\u0447\u0438\u0435 \u0441\u043b\u043e\u0432\u0430: \u0442\u043e \u0436\u0435 \u0441\u043b\u043e\u0432\u043e \u0432 \u0443\u043c\u0435\u043d\u044c\u0448\u0438\u0442\u0435\u043b\u044c\u043d\u043e-\u043b\u0430\u0441\u043a\u0430\u0442\u0435\u043b\u044c\u043d\u043e\u0439 \u0444\u043e\u0440\u043c\u0435, \u0442\u043e-\u0436\u0435 \u0441\u043b\u043e\u0432\u043e \u0441 \u0433\u0440\u0430\u043c\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u043e\u0448\u0438\u0431\u043a\u043e\u0439, \u0442\u043e \u0436\u0435 \u0441\u043b\u043e\u0432\u043e \u0432 \u043d\u0435\u043a\u043e\u0442\u043e\u0440\u043e\u043c \u0441\u043a\u043b\u043e\u043d\u0435\u043d\u0438\u0438, \u0442\u043e \u0436\u0435 \u0441\u043b\u043e\u0432\u043e \u0432 \u0434\u0440\u0443\u0433\u043e\u043c \u0440\u0435\u0433\u0438\u0441\u0442\u0440\u0435.<\/p>\n<p>\u041c\u043e\u0439 \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442 10\u00a0 \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u044b\u0445 \u0441\u0438\u043d\u043e\u043d\u0438\u043c\u043e\u0432, \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u0435\u0442 \u043d\u0430 \u0441\u043e\u0432\u043f\u0430\u0434\u0435\u043d\u0438\u044f \u044d\u043b\u0435\u043c\u0435\u043d\u0442\u0430 \u0441\u043b\u043e\u0432\u0430\u00a0 \u0441 \u0442\u0435\u043a\u0443\u0449\u0438\u043c \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435\u043c \u0435\u0441\u043b\u0438 \u043d\u0435\u0442 &#8212; \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0435\u043c \u043d\u043e\u0432\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \u0432 \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u0435, \u0438\u043d\u0430\u0447\u0435 &#8212; \u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u043c \u043f\u0440\u0435\u0436\u043d\u0435\u0435.<\/p>\n<pre><code class=\"python\"># \u041e\u0442\u0431\u043e\u0440 \u0442\u043e\u0449\u0438\u0445 \u043a\u043b\u0430\u0441\u0441\u043e\u0432 skinny = pd.DataFrame(df['\u041c\u041a\u0411_10'].value_counts()) skinny = skinny[skinny.\u041c\u041a\u0411_10 &lt; 20].reset_index() df1 = df[df['\u041c\u041a\u0411_10'].isin(skinny['index'])] simps_1 = df1['\u0421\u0438\u043c\u043f\u0442\u043e\u043c\u044b'].values.tolist()<\/code><\/pre>\n<pre><code class=\"python\">corpus_1 = preproc(simps_1, all_bad, all_bad_2)<\/code><\/pre>\n<pre><code class=\"python\"># \u041f\u0440\u0438\u0432\u043e\u0434\u0438\u043c \u043a \u0444\u043e\u0440\u043c\u0430\u0442\u0443, \u0441 \u043a\u043e\u0442\u043e\u0440\u044b\u043c \u0441\u043c\u043e\u0436\u0435\u0442 \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c Fasttext words = [] new_tokens = []  for simp in corpus_1:     words = []     tokens = nltk.word_tokenize(simp)     for word in tokens:         words.append(word)     new_tokens.append(words)<\/code><\/pre>\n<pre><code class=\"python\">#\u041f\u043e\u0434\u0431\u0438\u0440\u0430\u0435\u043c 10 \u0431\u043b\u0438\u0436\u0430\u0439\u0448\u0438\u0445 \u0441\u043b\u043e\u0432, \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u0435\u043c \u0441\u043e\u0432\u043f\u0430\u0434\u0430\u0435\u0442 \u043b\u0438 \u0441\u043b\u043e\u0432\u043e \u0441 \u0438\u0437\u043d\u0430\u0447\u0430\u043b\u044c\u043d\u044b\u043c, #\u0435\u0441\u043b\u0438 \u043d\u0435\u0442 - \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0435\u043c \u043d\u043e\u0432\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \u0432 \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u0435, \u0438\u043d\u0430\u0447\u0435 - \u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u043c \u043f\u0440\u0435\u0436\u043d\u0435\u0435 new_corpus = [] for corp in tqdm(new_tokens[622:]):        symptoms = []     for word in corp:         cort = ft.get_nearest_neighbors(word,k=10)         syn_list = []         end_syn_list = []         for i in cort:             x,y = i                    y = preproc([y], all_bad, all_bad_2)             if y[0] != '' and word[:3] not in y[0]:                 syn_list.append(y[0])                  if  len(syn_list) != 0:                            end_syn_list.append(syn_list[0])         else:             end_syn_list.append(word)         symptoms.append(end_syn_list)     new_corpus.append(symptoms)<\/code><\/pre>\n<p>    \u041d\u0430\u043c \u0443\u0434\u0430\u043b\u043e\u0441\u044c \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u043d\u043e\u0432\u044b\u0435 \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u044f \u0434\u043b\u044f \u043a\u043b\u0430\u0441\u0441\u043e\u0432 \u0443 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043c\u0435\u043d\u0435\u0435 20 \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u0439, \u043f\u0443\u0442\u0435\u043c \u043f\u043e\u0434\u0431\u043e\u0440\u0430 \u0441\u043b\u043e\u0432 \u0441\u0438\u043d\u043e\u043d\u0438\u043c\u043e\u0432. \u041a \u0441\u043e\u0436\u0430\u043b\u0435\u043d\u0438\u044e \u043a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440 \u043d\u0435 \u0432\u0441\u0435\u0433\u0434\u0430 \u0431\u0435\u0441\u043f\u0435\u0440\u0435\u0431\u043e\u0439\u043d\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0441 \u044d\u0442\u043e\u0439 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u043e\u0439, \u043d\u0430\u043c \u043d\u0435 \u0443\u0434\u0430\u043b\u043e\u0441\u044c \u0442\u043e\u0447\u043d\u043e \u0437\u0430\u0444\u0438\u043a\u0441\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043f\u043e\u0442\u0440\u0430\u0447\u0435\u043d\u043d\u043e\u0435 \u0432\u0440\u0435\u043c\u044f \u043d\u0430 \u0430\u0443\u0433\u043c\u0435\u043d\u0442\u0430\u0446\u0438\u044e, \u0442\u0430\u043a \u043a\u0430\u043a \u0444\u0443\u043d\u043a\u0446\u0438\u044f \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0440\u0430\u0437 &#171;\u0432\u044b\u043b\u0435\u0442\u0430\u043b\u0430&#187; \u043f\u043e\u0441\u043b\u0435 6-7 \u0447\u0430\u0441\u043e\u0432 \u043d\u0435\u043f\u0440\u0435\u0440\u044b\u0432\u043d\u043e\u0439 \u0440\u0430\u0431\u043e\u0442\u044b, \u043d\u043e \u043d\u0430\u043c \u0443\u0434\u0430\u043b\u043e\u0441\u044c \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u0442\u044c 843 \u0442\u0435\u043a\u0441\u0442\u0430 (\u041f\u0420\u0418\u041c\u0415\u0420\u041d\u041e \u0417\u0410 30 \u0427\u0410\u0421\u041e\u0412!!!!) \u0422\u0430\u043a \u043a\u0430\u043a \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u044f \u0434\u0430\u043d\u043d\u044b\u0445 \u043d\u0435 \u043a\u043e\u043d\u0435\u0447\u043d\u0430\u044f \u0446\u0435\u043b\u044c \u0440\u0430\u0431\u043e\u0442\u044b, \u0430 \u043c\u0435\u0442\u043e\u0434 \u0434\u043b\u044f \u0443\u043b\u0443\u0447\u0448\u0435\u043d\u0438\u044f \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u0438 \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u0438\u0439 \u043c\u043e\u0434\u0435\u043b\u0438, \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u0442\u043e\u043b\u044c\u043a\u043e \u0442\u043e, \u0447\u0442\u043e \u0443\u0434\u0430\u043b\u043e\u0441\u044c \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c. \u041f\u043e\u0432\u0442\u043e\u0440\u0438\u043c \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u044f \u043f\u043e \u0432\u0435\u043a\u0442\u043e\u0440\u0438\u0437\u0430\u0446\u0438\u0438 \u0438 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044e.<\/p>\n<pre><code class=\"python\"># \u0420\u0430\u0441\u043f\u0430\u043a\u043e\u0432\u043a\u0430 \u0441\u043f\u0438\u0441\u043a\u0430 \u0441\u043f\u0438\u0441\u043a\u043e\u0432, \u043f\u0440\u0438\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u043a \u0444\u043e\u0440\u043c\u0430\u0442\u0443 \u0443\u0434\u043e\u0431\u043d\u043e\u0433\u043e \u0434\u043b\u044f \u0440\u0430\u0431\u043e\u0442\u044b \u0434\u0430\u043b\u0435\u0435. a=[] for z in new_corpus:     tok= []     for item in z:            for i in item:              tok.append(i)     a.append(tok) b = [] for item in a:     tok= []     tok.append(' '.join(item))     b += tok <\/code><\/pre>\n<p>\u0421\u0440\u0430\u0432\u043d\u0438\u043c \u0442\u0435\u043a\u0441\u0442 \u0434\u043e &#8212; \u043f\u043e\u0441\u043b\u0435.<\/p>\n<pre><code class=\"python\">print('\u041d\u0430\u0447\u0430\u043b\u044c\u043d\u0430\u044f \u0444\u043e\u0440\u043c\u0430: ', new_tokens[4]) print('\u0418\u0437\u043c\u0435\u043d\u0435\u043d\u043d\u0430\u044f \u0444\u043e\u0440\u043c\u0430: ', b[4])<\/code><\/pre>\n<p>    \u041d\u0430\u0447\u0430\u043b\u044c\u043d\u0430\u044f \u0444\u043e\u0440\u043c\u0430:  [&#8216;\u043f\u0440\u043e\u0438\u0441\u0445\u043e\u0434\u0438\u0442\u044c&#8217;, &#8216;\u0433\u0438\u0431\u0435\u043b\u044c&#8217;, &#8216;\u043f\u0440\u0435\u043f\u0430\u0440\u0430\u0442&#8217;, &#8216;\u0438\u0437\u0443\u0447\u0430\u0442\u044c&#8217;, &#8216;\u0440\u0435\u0430\u043a\u0446\u0438\u044f&#8217;, &#8216;\u0433\u0440\u0430\u043d\u0443\u043b\u043e\u0446\u0438\u0442&#8217;, &#8216;\u043f\u043e\u0440\u0430\u0436\u0435\u043d\u0438\u0435&#8217;, &#8216;\u0433\u0430\u043f\u0442\u0435\u043d&#8217;, &#8216;\u0438\u043d\u0434\u0438\u0432\u0438\u0434\u0443\u0430\u043b\u044c\u043d\u044b\u0439&#8217;, &#8216;\u043f\u043e\u0432\u0442\u043e\u0440\u044f\u0442\u044c\u0441\u044f&#8217;, &#8216;\u0432\u043e\u0437\u043d\u0438\u043a\u0430\u0442\u044c&#8217;, &#8216;\u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442&#8217;, &#8216;\u043c\u0435\u0445\u0430\u043d\u0438\u0437\u043c&#8217;, &#8216;\u043d\u0435\u0438\u0437\u043c\u0435\u043d\u043d\u043e&#8217;, &#8216;\u043e\u0440\u0433\u0430\u043d\u0438\u0437\u043c&#8217;, &#8216;\u043f\u0430\u0442\u043e\u0433\u0435\u043d\u0435\u0437&#8217;, &#8216;\u043c\u043d\u043e\u0433\u0438\u0439&#8217;, &#8216;\u0432\u0432\u0435\u0434\u0435\u043d\u0438\u0435&#8217;, &#8216;\u043a\u043e\u043d\u0435\u0446&#8217;, &#8216;\u0433\u0430\u043f\u0442\u0435\u043d\u043e\u0432\u044b\u0439&#8217;, &#8216;\u043e\u0434\u043d\u0430\u0436\u0434\u044b&#8217;, &#8216;\u0444\u043e\u0440\u043c\u0430&#8217;, &#8216;\u043c\u0435\u0434\u0438\u043a\u0430\u043c\u0435\u043d\u0442&#8217;] <\/p>\n<p>    \u0418\u0437\u043c\u0435\u043d\u0435\u043d\u043d\u0430\u044f \u0444\u043e\u0440\u043c\u0430:  \u0441\u043e\u0432\u0435\u0440\u0448\u0430\u0442\u044c\u0441\u044f \u0441\u043c\u0435\u0440\u0442\u044c \u0430\u043d\u0442\u0438\u0431\u0438\u043e\u0442\u0438\u043a \u0438\u0441\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u0442\u044c \u0430\u0433\u0440\u0435\u0441\u0441\u0438\u044f \u0442\u0440\u043e\u043c\u0431\u043e\u0446\u0438\u0442 \u0440\u0430\u0437\u0433\u0440\u043e\u043c\u043d\u044b\u0439 \u043d\u0438\u043a\u043e\u0442\u0438\u043d\u0430\u043c\u0438\u0434\u0430\u0434\u0435\u043d\u0438\u043d\u0434\u0438\u043d\u0443\u043a\u043b\u0435\u043e\u0442\u0438\u0434 \u043f\u0435\u0440\u0441\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0439 \u043e\u043f\u0438\u0441\u044b\u0432\u0430\u0442\u044c\u0441\u044f \u043f\u043e\u044f\u0432\u043b\u044f\u0442\u044c\u0441\u044f \u0438\u0442\u043e\u0433 \u043f\u0440\u0438\u043d\u0446\u0438\u043f \u0438\u0437\u043c\u0435\u043d\u043d\u043e \u043a\u0438\u0448\u0435\u0447\u043d\u0438\u043a \u044d\u0442\u0438\u043e\u043b\u043e\u0433\u0438\u044f \u0431\u0435\u0441\u0447\u0438\u0441\u043b\u0435\u043d\u043d\u044b\u0439 \u0432\u043d\u0435\u0434\u0440\u0435\u043d\u0438\u0435 \u043d\u0430\u0447\u0430\u043b\u043e \u0438\u043c\u043c\u0443\u043d\u043e\u0433\u043b\u043e\u0431\u0443\u043b\u0438\u043d\u043e\u0432\u044b\u0439 \u0435\u0434\u0438\u043d\u043e\u0436\u0434\u044b \u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0430 \u043f\u0440\u0435\u043f\u0430\u0440\u0430\u0442<\/p>\n<p>    \u041a\u0430\u043a \u043c\u044b \u0432\u0438\u0434\u0438\u043c, \u0437\u0430\u043c\u0435\u043d\u0438\u043b\u043e\u0441\u044c \u0431\u043e\u043b\u044c\u0448\u0430\u044f \u0447\u0430\u0441\u0442\u044c \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044f \u0438 \u043c\u043e\u0436\u043d\u043e \u0441\u043a\u0430\u0437\u0430\u0442\u044c, \u0447\u0442\u043e \u0441\u043b\u043e\u0432\u0430 \u043f\u043e\u0434\u043e\u0431\u0440\u0430\u043d\u044b \u0431\u043b\u0438\u0437\u043a\u043e \u0441\u0435\u043c\u0430\u043d\u0442\u0438\u0447\u0435\u0441\u043a\u0438. \u0414\u043e\u0431\u0430\u0432\u0438\u043c \u0441\u0433\u0435\u043d\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 \u0432 \u043d\u0430\u0448 \u0438\u0437\u043d\u0430\u0447\u0430\u043b\u044c\u043d\u044b\u0439 \u043a\u043e\u0440\u043f\u0443\u0441 \u0438 \u043f\u0440\u043e\u0432\u0435\u0440\u0438\u043c, \u043a\u0430\u043a \u0438\u0437\u043c\u0435\u043d\u0438\u0442\u0441\u044f \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u043c\u043e\u0434\u0435\u043b\u0438.<\/p>\n<pre><code class=\"python\">corpus += b predict = list(df['\u041c\u041a\u0411_10'].append(df1['\u041c\u041a\u0411_10']).reset_index()['\u041c\u041a\u0411_10'])<\/code><\/pre>\n<p>\u041d\u0443, \u043a\u043e\u043d\u0435\u0447\u043d\u043e, \u044f \u0432\u0430\u0441 \u043d\u0435 \u0437\u0430\u0441\u0442\u0430\u0432\u043b\u044e \u0436\u0434\u0430\u0442\u044c 30 \u0447\u0430\u0441\u043e\u0432 \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u0438 \u0434\u0430\u043d\u043d\u044b\u0445 LoL. \u0412\u0442\u043e\u0440\u043e\u0439 \u0444\u0430\u0439\u043b\u0438\u043a \u043f\u043e \u0441\u0441\u044b\u043b\u043a\u0435 \u044d\u0442\u043e \u043e\u043d\u0438))<\/p>\n<pre><code class=\"python\"># corpus += b corpus = list(pd.read_csv('gener_data.csv')['0']) predict = list(df['\u041c\u041a\u0411_10'].append(df1['\u041c\u041a\u0411_10']).reset_index()['\u041c\u041a\u0411_10'])<\/code><\/pre>\n<p>    \u0422\u043e\u043b\u044c\u043a\u043e \u0443\u0434\u0430\u043b\u0438\u0442\u0435 \u044d\u0442\u0438 \u0441\u0442\u0440\u043e\u043a\u0438, \u043c\u0430\u043b\u0435\u043d\u044c\u043a\u043e \u043f\u043e\u0440\u0447\u0435\u043d\u043d\u044b\u0439 \u0444\u0430\u0439\u043b\u0438\u043a.<\/p>\n<pre><code class=\"python\">corpus.pop(1274) predict.pop(1274) corpus.pop(1644) predict.pop(1644)<\/code><\/pre>\n<p>   \u0414\u0430\u043b\u0435\u0435 \u043f\u043e\u0432\u0442\u043e\u0440\u0438\u043c:  \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0430, \u0432\u0435\u043a\u0442\u043e\u0440\u0438\u0437\u0430\u0446\u0438\u044f, \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435.<\/p>\n<pre><code class=\"python\">corpus = preproc(corpus, all_bad, all_bad_2)<\/code><\/pre>\n<pre><code class=\"python\">tf = TfidfVectorizer(min_df=2, max_df=1.) tf.fit(corpus) transformed_tf = tf.transform(corpus) dense_tf = transformed_tf.todense()  X_tr, X_te, y_tr, y_te = train_test_split(np.array(dense_tf), predict,                                            random_state=203)  svc.fit(X_tr, y_tr)                                            print(balanced_accuracy_score(svc.predict(X_tr), y_tr)) print(balanced_accuracy_score(svc.predict(X_te), y_te)) <\/code><\/pre>\n<p>0.9987236196386523 <\/p>\n<p>0.8213375263292584<\/p>\n<p>    \u0420\u0430\u0437\u0431\u0438\u0432 \u0432\u044b\u0431\u043e\u0440\u043a\u0443 \u043d\u0430 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043e\u0447\u043d\u0443\u044e \u0438 \u0442\u0435\u0441\u0442\u043e\u0432\u0443\u044e \u0438 \u043f\u0435\u0440\u0435\u0434\u0430\u0432 \u044d\u043b\u0435\u043c\u0435\u043d\u0442\u044b \u0432 \u043c\u043e\u0434\u0435\u043b\u044c \u043e\u043f\u043e\u0440\u043d\u044b\u0445 \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432, \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b (balanced accuracy): 99,9% \u043d\u0430 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043e\u0447\u043d\u043e\u043c \u0438 82,1% \u043d\u0430 \u0442\u0435\u0441\u0442\u043e\u0432\u043e\u043c. \u0422\u043e \u0435\u0441\u0442\u044c \u043c\u044b \u0443\u0432\u0435\u043b\u0438\u0447\u0438\u043b\u0438 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u043c\u043e\u0434\u0435\u043b\u0438 \u0441 78,4% \u0434\u043e 82,1% ( \u0440\u0430\u0437\u043d\u0438\u0446\u0430 3,6%).<\/p>\n<p>   \u0412\u043e\u0442 \u043d\u0430\u0433\u043b\u044f\u0434\u043d\u043e \u043d\u0430\u0448\u0438 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b)<\/p>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<td data-colwidth=\"148\" width=\"148\">\n<p align=\"left\"><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041b\u043e\u0433\u0438\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u044f<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041d\u0430\u0438\u0432\u043d\u044b\u0439 \u0411\u0430\u0439\u0435\u0441<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041c\u0435\u0442\u043e\u0434 \u043e\u043f\u043e\u0440\u043d\u044b\u0445 \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041c\u0435\u0442\u043e\u0434 \u043e\u043f\u043e\u0440\u043d\u044b\u0445 \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432 \u043f\u043e\u0441\u043b\u0435 \u0430\u0443\u0433\u043c\u0435\u043d\u0442\u0430\u0446\u0438\u0438<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"148\" width=\"148\">\n<p align=\"left\">CountVectorizer<\/p>\n<\/td>\n<td>\n<p align=\"left\">58,8\u00a0%<\/p>\n<\/td>\n<td>\n<p align=\"left\">&#8212;<\/p>\n<\/td>\n<td>\n<p align=\"left\">&#8212;<\/p>\n<\/td>\n<td>\n<p align=\"left\">&#8212;<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"148\" width=\"148\">\n<p align=\"left\">TF-IDF<\/p>\n<\/td>\n<td>\n<p align=\"left\">67,5\u00a0%<\/p>\n<\/td>\n<td>\n<p align=\"left\">56,4\u00a0%<\/p>\n<\/td>\n<td>\n<p align=\"left\">78,4\u00a0%<\/p>\n<\/td>\n<td>\n<p align=\"left\">82,1\u00a0%<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"148\" width=\"148\">\n<p align=\"left\">HashingVectorizer<\/p>\n<\/td>\n<td>\n<p align=\"left\">4,8\u00a0%<\/p>\n<\/td>\n<td>\n<p align=\"left\">&#8212;<\/p>\n<\/td>\n<td>\n<p align=\"left\">&#8212;<\/p>\n<\/td>\n<td>\n<p align=\"left\">&#8212;<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>    \u041c\u043e\u0436\u0435\u043c \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u0447\u0430\u0442-\u0431\u043e\u0442\u0430 \u0441 \u043d\u0430\u0448\u0435\u0439 \u043c\u043e\u0434\u0435\u043b\u044c\u044e, \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u043e?<\/p>\n<\/div>\n<\/div>\n<\/div>\n<div class=\"v-portal\" style=\"display:none;\"><\/div>\n<\/div>\n<p> <!----> <!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/post\/673312\/\"> https:\/\/habr.com\/ru\/post\/673312\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<div><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>    \u041f\u0440\u0438\u0432\u0435\u0442, \u0425\u0430\u0431\u0440! \u0420\u0435\u0448\u0438\u043b\u0430 \u0441 \u0432\u0430\u043c\u0438 \u043f\u043e\u0434\u0435\u043b\u0438\u0442\u044c\u0441\u044f \u043e\u0434\u043d\u043e\u0439 \u043f\u0440\u043e\u0441\u0442\u043e\u0439 \u0440\u0430\u0431\u043e\u0442\u043e\u0439, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043f\u0440\u0438\u0432\u0435\u043b\u0430 \u043a \u043d\u0435\u043f\u043b\u043e\u0445\u0438\u043c \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0430\u043c. \u0420\u0430\u0441\u0441\u043a\u0430\u0436\u0443 \u043e \u0432\u0441\u0435\u043c \u043f\u043e\u0434\u0440\u043e\u0431\u043d\u043e \u0438 \u043e\u0447\u0435\u043d\u044c \u043f\u0440\u043e\u0441\u0442\u043e:) \u0418\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u043e \u0442\u0435\u043c,  \u043a\u0442\u043e \u0435\u0449\u0435 \u043d\u0435 \u0440\u0435\u0448\u0430\u043b \u0437\u0430\u0434\u0430\u0447\u0438 NLP \u0434\u043e \u044d\u0442\u043e\u0433\u043e \u043c\u043e\u043c\u0435\u043d\u0442\u0430.<\/p>\n<p>    \u041d\u0430 \u043f\u0443\u0442\u0438 \u0440\u0430\u0437\u0432\u0438\u0442\u0438\u044f \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e\u0439 \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u044b \u0432\u043e\u0437\u043d\u0438\u043a\u0430\u044e\u0442 \u043d\u043e\u0432\u044b\u0435 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u044b \u0438 \u0442\u0440\u0443\u0434\u043d\u043e\u0441\u0442\u0438 \u0434\u043b\u044f \u0432\u0440\u0430\u0447\u0430, \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043d\u0435 \u0431\u044b\u043b\u043e \u0440\u0430\u043d\u044c\u0448\u0435. \u041c\u043e\u0436\u043d\u043e \u0441\u043c\u0435\u043b\u043e \u0441\u043a\u0430\u0437\u0430\u0442\u044c, \u0447\u0442\u043e \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0430 \u0442\u043e\u0447\u043d\u043e\u0433\u043e \u0434\u0438\u0430\u0433\u043d\u043e\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f, \u043f\u043e\u0440\u043e\u0436\u0434\u0435\u043d\u0430 \u0432\u044b\u0441\u043e\u043a\u043e\u0439 \u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u0441\u0442\u044c\u044e, \u0430 \u0438\u043d\u043e\u0433\u0434\u0430 \u0432\u044b\u0441\u043e\u043a\u043e\u0439 \u043d\u0430\u0433\u0440\u0443\u0437\u043a\u043e\u0439 \u043d\u0430 \u0432\u0440\u0430\u0447\u0430. \u041d\u0435\u043e\u0441\u0442\u043e\u0440\u043e\u0436\u043d\u0430\u044f \u043d\u0435\u0432\u043d\u0438\u043c\u0430\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u044c \u0447\u0435\u043b\u043e\u0432\u0435\u0447\u0435\u0441\u043a\u043e\u0433\u043e \u0444\u0430\u043a\u0442\u043e\u0440\u0430 \u0438\u043b\u0438 \u043e\u0442\u0441\u0443\u0442\u0441\u0442\u0432\u0438\u0435 \u043e\u0431\u044a\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0439 \u043a\u0430\u0440\u0442\u0438\u043d\u044b \u0441\u043e \u0441\u0442\u043e\u0440\u043e\u043d\u044b \u0431\u043e\u043b\u044c\u043d\u043e\u0433\u043e, \u0430 \u0442\u0430\u043a\u0436\u0435 \u043e\u0433\u0440\u043e\u043c\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0432\u0438\u0434\u043e\u0432 \u0441\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u044e\u0449\u0438\u0445 \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u044e\u0442 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e\u0441\u0442\u044c \u0441\u043e\u0437\u0434\u0430\u043d\u0438\u044f \u043c\u043e\u0434\u0435\u043b\u0438 \u0434\u043b\u044f \u043a\u043e\u043d\u0442\u0440\u043e\u043b\u044f \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u0438 \u043f\u043e\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0438 \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u0430 \u0432 \u043d\u0435\u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u0441\u043b\u0443\u0447\u0430\u044f\u0445, \u0430 \u0438\u043d\u043e\u0433\u0434\u0430 \u043d\u0430\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u0435 \u0434\u0430\u043b\u044c\u043d\u0435\u0439\u0448\u0435\u0433\u043e \u0434\u0438\u0430\u0433\u043d\u043e\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f.<\/p>\n<p>    \u041f\u0440\u043e\u043a\u043e\u043d\u0441\u0443\u043b\u044c\u0442\u0438\u0440\u043e\u0432\u0430\u0432\u0448\u0438\u0441\u044c \u0441 \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u0438\u043c\u0438 \u0440\u0430\u0431\u043e\u0442\u043d\u0438\u043a\u0430\u043c\u0438\u00a0 \u0424\u0413\u0411\u041e\u0423 \u0412\u041e &#171;\u041f\u0418\u041c\u0423&#187; \u041c\u0438\u043d\u0437\u0434\u0440\u0430\u0432\u0430 \u0420\u043e\u0441\u0441\u0438\u0438 \u0418\u043d\u0441\u0442\u0438\u0442\u0443\u0442\u0430 \u0442\u0440\u0430\u0432\u043c\u0430\u0442\u043e\u043b\u043e\u0433\u0438\u0438, \u044f \u0441\u043c\u043e\u0433\u043b\u0430 \u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0446\u0435\u043f\u043e\u0447\u043a\u0443 \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u0439, \u0441\u043e\u0432\u0435\u0440\u0448\u0430\u0435\u043c\u044b\u0435 \u0432\u0440\u0430\u0447\u0430\u043c\u0438 \u0441 \u0446\u0435\u043b\u044c\u044e \u043f\u043e\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0438 \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u0430. \u041c\u043e\u0436\u043d\u043e \u0432\u044b\u0434\u0435\u043b\u0438\u0442\u044c \u0434\u0432\u0430 \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0445 \u043d\u0430\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u044f \u0440\u0430\u0431\u043e\u0442\u044b \u0441 \u043f\u0430\u0446\u0438\u0435\u043d\u0442\u043e\u043c: \u0442\u0435\u0445\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0438 \u0447\u0435\u043b\u043e\u0432\u0435\u0447\u0435\u0441\u043a\u0438\u0439. \u041a \u0447\u0435\u043b\u043e\u0432\u0435\u0447\u0435\u0441\u043a\u0438\u043c \u044f \u043e\u0442\u043d\u043e\u0448\u0443: \u0437\u043d\u0430\u043a\u043e\u043c\u0441\u0442\u0432\u043e \u0441 \u043f\u0430\u0446\u0438\u0435\u043d\u0442\u043e\u043c, \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u0435 \u0441\u0438\u043c\u043f\u0442\u043e\u043c\u0430\u0442\u0438\u043a\u0438, \u0441\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u0435 \u0430\u043d\u0430\u043c\u043d\u0435\u0437\u0430, \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u0435 \u0434\u0430\u043d\u043d\u044b\u0445 \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0445 \u0434\u0438\u0430\u0433\u043d\u043e\u0441\u0442\u0438\u043a, \u043f\u043e\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0430 \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u0430 \u0438 \u043d\u0430\u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 \u043b\u0435\u0447\u0435\u043d\u0438\u044f. \u0422\u0430\u043a \u043a\u0430\u043a \u0432\u0441\u0435 \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0435 \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u0438\u0435 \u0443\u0447\u0440\u0435\u0436\u0434\u0435\u043d\u0438\u044f \u043e\u0441\u043d\u0430\u0449\u0435\u043d\u044b \u043a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440\u043d\u044b\u043c\u0438 \u0441\u0440\u0435\u0434\u0441\u0442\u0432\u0430\u043c\u0438 \u0438 \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u043c\u0438 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0430\u043c\u0438 \u0432 \u043d\u0438\u0445, \u043a \u0442\u0435\u0445\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u043c \u0430\u0441\u043f\u0435\u043a\u0442\u0430\u043c \u0440\u0430\u0431\u043e\u0442\u044b \u0432\u0440\u0430\u0447\u0430 \u044f \u043e\u0442\u043d\u043e\u0448\u0443: \u0441\u043e\u0437\u0434\u0430\u043d\u0438\u0435 \u043a\u0430\u0440\u0442\u043e\u0447\u043a\u0438 \u043f\u0430\u0446\u0438\u0435\u043d\u0442\u0430, \u043e\u0431\u044a\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0435 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0435 \u0430\u043d\u0430\u043c\u043d\u0435\u0437\u0430, \u043f\u0440\u0438\u0441\u0432\u043e\u0435\u043d\u0438\u044f \u043a\u043e\u0434\u0430 \u0431\u043e\u043b\u0435\u0437\u043d\u0438. \u0421\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u044e\u0442 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0432\u0438\u0434\u043e\u0432 \u043a\u043e\u0434\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f \u0431\u043e\u043b\u0435\u0437\u043d\u0438, \u0447\u0430\u0449\u0435 \u0432\u0441\u0435\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f \u043c\u0435\u0436\u0434\u0443\u043d\u0430\u0440\u043e\u0434\u043d\u0430\u044f \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u044f \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 \u0434\u0435\u0441\u044f\u0442\u043e\u0433\u043e \u043f\u0435\u0440\u0435\u0441\u043c\u043e\u0442\u0440\u0430 \u0438\u043b\u0438 \u041c\u041a\u0411-10. \u0421\u043e\u0433\u043b\u0430\u0441\u043d\u043e \u044d\u0442\u043e\u043c\u0443 \u043a\u043e\u0434\u0443 \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u0435\u0442\u0441\u044f \u0434\u0438\u0430\u0433\u043d\u043e\u0437. \u041e\u043d \u0441\u043e\u043f\u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0441 \u0440\u0435\u0435\u0441\u0442\u0440\u043e\u043c ( \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043b\u0438 \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u043e\u0435 \u0443\u0447\u0440\u0435\u0436\u0434\u0435\u043d\u0438\u0435 \u0441 \u0434\u0430\u043d\u043d\u044b\u043c \u0432\u0438\u0434\u043e\u043c \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439), \u043f\u043e\u0434\u0445\u043e\u0434\u0438\u0442 \u043b\u0438 \u0434\u0430\u043d\u043d\u0430\u044f \u0431\u043e\u043b\u0435\u0437\u043d\u044c \u043f\u043e\u0434 \u041e\u041c\u0421 (\u043e\u0431\u044f\u0437\u0430\u0442\u0435\u043b\u044c\u043d\u043e\u0435 \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u043e\u0435 \u0441\u0442\u0440\u0430\u0445\u043e\u0432\u0430\u043d\u0438\u0435 \u0432 \u0420\u043e\u0441\u0441\u0438\u0438), \u0442\u043e \u0435\u0441\u0442\u044c \u0441\u043c\u043e\u0436\u0435\u0442 \u043f\u0430\u0446\u0438\u0435\u043d\u0442 \u043b\u0435\u0447\u0438\u0442\u044c\u0441\u044f \u0431\u0435\u0441\u043f\u043b\u0430\u0442\u043d\u043e \u0438\u043b\u0438 \u043d\u0435\u0442 \u0438\u043b\u0438 \u0438\u043d\u0430\u0447\u0435 \u0433\u043e\u0432\u043e\u0440\u044f \u0444\u0438\u043d\u0430\u043d\u0441\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u043b\u0435\u0447\u0435\u043d\u0438\u0435 \u0434\u0430\u043d\u043d\u043e\u0439 \u0431\u043e\u043b\u0435\u0437\u043d\u0438 \u0437\u0430 \u0441\u0447\u0435\u0442 \u041e\u041c\u0421 \u0438\u043b\u0438 \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0445 \u0441\u0440\u0435\u0434\u0441\u0442\u0432 \u043f\u0430\u0446\u0438\u0435\u043d\u0442\u0430. \u0418\u0437 \u0432\u0441\u0435\u0433\u043e \u0432\u044b\u0448\u0435 \u0441\u043a\u0430\u0437\u0430\u043d\u043d\u043e\u0433\u043e \u043c\u043e\u0436\u043d\u043e \u0432\u044b\u0434\u0435\u043b\u0438\u0442\u044c \u0446\u0435\u043f\u044c \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0439 \u0442\u0435\u0445\u043d\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u043e\u0448\u0438\u0431\u043a\u0438: \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e\u0441\u0442\u044c \u0437\u0430\u043f\u043e\u043b\u043d\u0435\u043d\u0438\u044f \u043a\u0430\u0440\u0442\u043e\u0447\u043a\u0438, \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e\u0435 \u0438 \u0442\u043e\u0447\u043d\u043e\u0435 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0435 \u0430\u043d\u0430\u043c\u043d\u0435\u0437\u0430, \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e\u0441\u0442\u044c \u0432\u044b\u0431\u043e\u0440\u0430 \u043a\u043e\u0434\u0430 \u041c\u041a\u0411-10.<\/p>\n<p>    \u041c\u044b \u043f\u043e\u0441\u0442\u0430\u0440\u0430\u0435\u043c\u0441\u044f \u0440\u0435\u0448\u0438\u0442\u044c \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0443 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438 \u0442\u0435\u043a\u0441\u0442\u0430 \u043d\u0430 \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u044b\u0435 \u0431\u043e\u043b\u0435\u0437\u043d\u0438, \u0442\u0435\u043c \u0441\u0430\u043c\u044b\u043c \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u043e\u043c\u043e\u0436\u0435\u0442 \u0440\u0435\u0448\u0438\u0442\u044c \u043a\u0430\u043a \u0438 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0443 \u0432\u044b\u0431\u043e\u0440\u0430 \u043e\u0434\u043d\u043e\u0433\u043e \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u0430 \u0434\u0440\u0443\u0433\u043e\u043c\u0443. \u0410 \u0432 \u043f\u0435\u0440\u0441\u043f\u0435\u043a\u0442\u0438\u0432\u0435, \u0432\u043d\u0435\u0434\u0440\u0435\u043d\u0438\u0435 \u0442\u0430\u043a\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438 \u0432 \u0441\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u044e\u0449\u0438\u0435 \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u0438\u0435 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u044b \u043f\u043e\u043c\u043e\u0436\u0435\u0442 \u0434\u0430\u0442\u044c \u043f\u043e\u0434\u0441\u043a\u0430\u0437\u043a\u0443 \u0432\u0440\u0430\u0447\u0443, \u043d\u0430 \u043a\u0430\u043a\u0443\u044e \u0431\u043e\u043b\u0435\u0437\u043d\u044c \u043f\u043e\u0445\u043e\u0436\u0435 \u0434\u0430\u043d\u043d\u043e\u0435 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0435, \u0435\u0441\u043b\u0438 \u0432\u0440\u0430\u0447 \u043d\u0435 \u0437\u043d\u0430\u043a\u043e\u043c \u0441 \u0442\u0430\u043a\u0438\u043c \u0440\u043e\u0434\u043e\u043c \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 \u0438\u043b\u0438 \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0435\u0442\u044c \u0430\u043b\u044c\u0442\u0435\u0440\u043d\u0430\u0442\u0438\u0432\u043d\u044b\u0439 \u0434\u0438\u0430\u0433\u043d\u043e\u0437, \u0447\u0442\u043e \u043f\u043e\u0437\u0432\u043e\u043b\u0438\u0442 \u043f\u0440\u043e\u0432\u0435\u0441\u0442\u0438 \u0431\u043e\u043b\u0435\u0435 \u0442\u0449\u0430\u0442\u0435\u043b\u044c\u043d\u0443\u044e \u0434\u0438\u0430\u0433\u043d\u043e\u0441\u0442\u0438\u043a\u0443 \u0432 \u0441\u043f\u043e\u0440\u043d\u043e\u043c \u0441\u043b\u0443\u0447\u0430\u0435 \u0434\u043b\u044f \u043f\u043e\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0438 \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u0430, \u0430 \u0442\u0430\u043a\u0436\u0435 \u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u043f\u0440\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u0435 \u043a\u043e\u0434\u0430 \u0432 \u0433\u0440\u0430\u0444\u0443 \u043c\u043e\u0434\u0435\u043b\u044c\u044e \u043f\u043e\u0437\u0432\u043e\u043b\u0438\u0442 \u0438\u0437\u0431\u0435\u0436\u0430\u0442\u044c \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u044b\u0445 \u043e\u0448\u0438\u0431\u043e\u043a \u0447\u0435\u043b\u043e\u0432\u0435\u0447\u0435\u0441\u043a\u043e\u0433\u043e \u0444\u0430\u043a\u0442\u043e\u0440\u0430 \u043f\u0440\u0438 \u0432\u0435\u0434\u0435\u043d\u0438\u0438 \u043f\u0430\u0446\u0438\u0435\u043d\u0442\u0430.<\/p>\n<p>\u0420\u0435\u0448\u0435\u043d\u0438\u0435 \u0434\u0430\u043d\u043d\u043e\u0439 \u0437\u0430\u0434\u0430\u0447\u0438 \u0441\u043e\u0441\u0442\u043e\u0438\u0442 \u0438\u0437 \u0434\u0432\u0443\u0445 \u044d\u0442\u0430\u043f\u043e\u0432. \u041a \u043f\u0435\u0440\u0432\u043e\u043c\u0443 \u043e\u0442\u043d\u043e\u0441\u044f\u0442\u0441\u044f \u043c\u0435\u0442\u043e\u0434\u044b, \u043e\u0441\u043d\u043e\u0432\u0430\u043d\u043d\u044b\u0435 \u043d\u0430 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0435 \u044f\u0437\u044b\u043a\u0430, \u0430 \u0432\u0442\u043e\u0440\u043e\u0439 &#8212; \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442 \u043f\u0440\u0438\u043c\u0435\u043d\u0435\u043d\u0438\u0435\u00a0 \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u043e\u0432 \u043c\u0430\u0448\u0438\u043d\u043d\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f.<\/p>\n<h2>\u0417\u0430\u0434\u0430\u0447\u0430 \u043f\u043e\u043d\u044f\u0442\u043d\u0430, \u0442\u0435\u043f\u0435\u0440\u044c \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0430:)<\/h2>\n<p>\u0414\u043b\u044f \u0440\u0435\u0448\u0435\u043d\u0438\u044f \u0434\u0430\u043d\u043d\u043e\u0439 \u0437\u0430\u0434\u0430\u0447\u0438 \u044f \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 (\u0441\u0441\u044b\u043b\u043a\u0443 \u043d\u0430 \u0444\u0430\u0439\u043b\u0438\u043a \u0438\u0449\u0438 \u0432 \u043a\u043e\u043c\u043c\u0435\u043d\u0442\u0430\u0440\u0438\u044f\u0445). \u0418\u0441\u0442\u043e\u0447\u043d\u0438\u043a &#8212; \u00a0<a href=\"https:\/\/ru.wikipedia.org\/wiki\/%2525D0%25259A%2525D0%2525B0%2525D1%252582%2525D0%2525B5%2525D0%2525B3%2525D0%2525BE%2525D1%252580%2525D0%2525B8%2525D1%25258F:%2525D0%252597%2525D0%2525B0%2525D0%2525B1%2525D0%2525BE%2525D0%2525BB%2525D0%2525B5%2525D0%2525B2%2525D0%2525B0%2525D0%2525BD%2525D0%2525B8%2525D1%25258F_%2525D0%2525BF%2525D0%2525BE_%2525D0%2525B0%2525D0%2525BB%2525D1%252584%2525D0%2525B0%2525D0%2525B2%2525D0%2525B8%2525D1%252582%2525D1%252583\" rel=\"noopener noreferrer nofollow\"><u>https:\/\/ru.wikipedia.org\/wiki\/\u041a\u0430\u0442\u0435\u0433\u043e\u0440\u0438\u044f:\u0417\u0430\u0431\u043e\u043b\u0435\u0432\u0430\u043d\u0438\u044f_\u043f\u043e_\u0430\u043b\u0444\u0430\u0432\u0438\u0442\u0443<\/u><\/a>. \u042d\u0442\u043e\u0442 \u043d\u0430\u0431\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445 \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u0432\u0441\u0435 \u0442\u0435\u043a\u0441\u0442\u044b, \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0439 \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 \u0441 \u0443\u043a\u0430\u0437\u0430\u043d\u043d\u043e\u0433\u043e \u0438\u0441\u0442\u043e\u0447\u043d\u0438\u043a\u0430, \u0435\u0441\u043b\u0438 \u0443 \u0431\u043e\u043b\u0435\u0437\u043d\u0438 \u0438\u043c\u0435\u043b\u0430\u0441\u044c \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043a\u043e\u0434 \u041c\u041a\u0411-10.\u00a0 \u0414\u0430\u043d\u043d\u044b\u0435 \u0440\u0430\u0437\u0431\u0438\u0442\u044b \u043d\u0430 \u0430\u0431\u0437\u0430\u0446\u044b \u0432 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u0439 \u0438 \u0440\u0430\u0437\u043c\u0435\u0447\u0435\u043d\u044b \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0443\u044e\u0449\u0438\u043c \u043a\u043e\u0434\u043e\u043c \u0438 \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0435\u043c \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u0430. \u041a\u0430\u0436\u0434\u044b\u0439 \u0438\u0437 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u043d\u0430 \u043b\u044e\u0431\u0443\u044e \u0442\u0435\u043c\u0443, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043c\u043e\u0433\u043b\u0430 \u0431\u044b \u0431\u044b\u0442\u044c \u0441\u0432\u044f\u0437\u0430\u043d\u0430 \u0441 \u0442\u0435\u043a\u0443\u0449\u0435\u0439 \u0431\u043e\u043b\u0435\u0437\u043d\u044c\u044e, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440: \u0441\u0438\u043c\u043f\u0442\u043e\u043c\u044b, \u043b\u0435\u0447\u0435\u043d\u0438\u0435, \u0438\u0441\u0442\u043e\u0440\u0438\u044e \u043e\u0442\u043a\u0440\u044b\u0442\u0438\u044f \u0431\u043e\u043b\u0435\u0437\u043d\u0438, \u044d\u0442\u0438\u043e\u043b\u043e\u0433\u0438\u044e, \u0440\u0430\u0441\u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0435\u043d\u043d\u043e\u0441\u0442\u044c, \u043f\u0440\u043e\u0444\u0438\u043b\u0430\u043a\u0442\u0438\u043a\u0443 \u0438 \u043f\u0440\u043e\u0447\u0435\u0435. \u041d\u0430\u043f\u043e\u043b\u043d\u0435\u043d\u043d\u043e\u0441\u0442\u044c \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u043f\u043e \u043b\u044e\u0431\u043e \u0438\u0437 \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 \u0437\u0430\u0432\u0438\u0441\u0438\u0442 \u0432 \u0442\u043e\u043c \u0447\u0438\u0441\u043b\u0435 \u043e\u0442 \u0435\u0435 \u0438\u0437\u0443\u0447\u0435\u043d\u043d\u043e\u0441\u0442\u0438, \u043f\u043e \u044d\u0442\u043e\u043c\u0443 \u043d\u0435\u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0438\u0437 \u043a\u043b\u0430\u0441\u0441\u043e\u0432 \u0438\u043c\u0435\u044e\u0442 \u043c\u0430\u043b\u043e\u0435 \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u043d\u0438\u0435, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u043e\u0434\u0438\u043d \u0442\u0435\u043a\u0441\u0442 \u043d\u0430 \u0434\u0438\u0430\u0433\u043d\u043e\u0437. \u0414\u043b\u044f \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 \u0434\u0430\u043d\u043d\u044b\u0445 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f \u044f\u0437\u044b\u043a \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f python.<\/p>\n<pre><code class=\"python\">import pandas as pd import numpy as np import nltk from nltk.stem.wordnet import WordNetLemmatizer from nltk.stem.porter import PorterStemmer import re import matplotlib.pyplot as plt import seaborn as sns from IPython.display import Image  from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.feature_extraction.text import HashingVectorizer from sklearn.model_selection import train_test_split from sklearn.metrics import balanced_accuracy_score, classification_report, accuracy_score from fuzzywuzzy import process from nltk.stem.snowball import RussianStemmer  from tqdm.notebook import tqdm from pymystem3 import Mystem from gensim.corpora import Dictionary  from sklearn.linear_model import LogisticRegression from sklearn.naive_bayes import GaussianNB from sklearn.svm import SVC  import fasttext.util from timeit import default_timer as timer<\/code><\/pre>\n<h2>\u041e\u0431\u0437\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445<\/h2>\n<pre><code class=\"python\">df = pd.read_csv('\u0418\u0442\u043e\u0433\u043e\u0432\u0430\u044f_\u0411\u0410\u0417\u0410_\u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439.csv') df.sample(5)<\/code><\/pre>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<td data-colwidth=\"175\" width=\"175\">\n<p align=\"left\"><\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>Index<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>\u0421\u0438\u043c\u043f\u0442\u043e\u043c\u044b<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>\u041c\u041a\u0411_10<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"175\" width=\"175\">\n<p align=\"left\"><strong>56<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0410\u043b\u044c\u0432\u0435\u043e\u043b\u044f\u0440\u043d\u044b\u0439 \u043f\u0440\u043e\u0442\u0435\u0438\u043d\u043e\u0437<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0424\u0438\u0437\u0438\u043a\u0430\u043b\u044c\u043d\u043e\u0435 \u043e\u0431\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u043d\u0438\u0435:\u0410\u0443\u0441\u043a\u0443\u043b\u044c\u0442\u0430\u0446\u0438\u044f: \u043e\u0441\u043b\u0430\u0431\u043b\u0435&#8230;<\/p>\n<\/td>\n<td>\n<p align=\"left\">J84.0<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"175\" width=\"175\">\n<p align=\"left\"><strong>2194<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0421\u0432\u0438\u043d\u043e\u0439 \u0433\u0440\u0438\u043f\u043f<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041a\u043b\u0438\u043d\u0438\u0447\u0435\u0441\u043a\u0438 \u0442\u0435\u0447\u0435\u043d\u0438\u0435 \u0434\u0430\u043d\u043d\u043e\u0433\u043e \u0437\u0430\u0431\u043e\u043b\u0435\u0432\u0430\u043d\u0438\u044f \u0432 \u0446\u0435\u043b\u043e\u043c&#8230;<\/p>\n<\/td>\n<td>\n<p align=\"left\">J09.0<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"175\" width=\"175\">\n<p align=\"left\"><strong>2078<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0421\u0430\u0445\u0430\u0440\u043d\u044b\u0439 \u0434\u0438\u0430\u0431\u0435\u0442<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041f\u0440\u0438 \u043d\u0435\u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e\u0441\u0442\u0438 \u0438\u043d\u0441\u0443\u043b\u0438\u043d\u0430 (\u0441\u0430\u0445\u0430\u0440\u043d\u044b\u0439 \u0434\u0438\u0430\u0431\u0435\u0442 &#8230;<\/p>\n<\/td>\n<td>\n<p align=\"left\">E10<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"175\" width=\"175\">\n<p align=\"left\"><strong>2745<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0422\u043e\u0440\u0441\u0438\u043e\u043d\u043d\u0430\u044f \u0434\u0438\u0441\u0442\u043e\u043d\u0438\u044f<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0413\u0438\u043f\u0435\u0440\u043a\u0438\u043d\u0435\u0437\u044b \u0443\u043c\u0435\u043d\u044c\u0448\u0430\u044e\u0442\u0441\u044f \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u043a\u043e\u0440\u0440\u0435\u0433\u0438\u0440\u0443\u044e\u0449\u0438&#8230;<\/p>\n<\/td>\n<td>\n<p align=\"left\">G24<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>    \u0412 \u043f\u0435\u0440\u0432\u0443\u044e \u043e\u0447\u0435\u0440\u0435\u0434\u044c \u043d\u0430\u0441 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u0443\u044e\u0442 \u0431\u043e\u043b\u0435\u0437\u043d\u0438, \u043f\u043e \u043a\u043e\u0442\u043e\u0440\u044b\u043c \u043d\u0430\u043c \u0443\u0434\u0430\u043b\u043e\u0441\u044c \u0441\u043e\u0431\u0440\u0430\u0442\u044c \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u0439 \u0434\u043b\u044f \u0443\u0441\u043f\u0435\u0448\u043d\u043e\u0433\u043e \u043f\u043e\u0441\u0442\u0440\u043e\u0435\u043d\u0438\u0438 \u043c\u043e\u0434\u0435\u043b\u0438. \u0412 \u043d\u0430\u0448\u0435\u043c \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u043e\u0442 1 \u0434\u043e 123 \u043d\u0430 \u043e\u0434\u0438\u043d \u0434\u0438\u0430\u0433\u043d\u043e\u0437. \u0412 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0435 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 \u0431\u0443\u0434\u0443\u0442 \u0443\u0434\u0430\u043b\u0435\u043d\u044b \u0432\u0441\u0435 \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u044b, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043d\u0435 \u0438\u043c\u0435\u044e\u0442 \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e\u0433\u043e \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0430 \u0442\u0435\u043a\u0441\u0442\u043e\u0432. \u041f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435:<\/p>\n<pre><code class=\"python\">df.Index.value_counts()<\/code><\/pre>\n<figure class=\"full-width\"><figcaption><\/figcaption><\/figure>\n<pre><code class=\"python\">pd.DataFrame(df.Index.value_counts()).Index.hist() plt.title('\u0420\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 \u043f\u043e \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0443 \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u0439') plt.show()<\/code><\/pre>\n<figure class=\"full-width\"><figcaption><\/figcaption><\/figure>\n<p>     \u041a\u0430\u043a \u043c\u044b \u0432\u0438\u0434\u0438\u043c \u0438\u0437 \u0433\u0440\u0430\u0444\u0438\u043a\u0430 \u0432\u00a0 \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u0435 \u043a\u043b\u0430\u0441\u0441\u043e\u0432 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442\u0441\u044f \u043c\u0435\u043d\u0435\u0435 20 \u0442\u0435\u043a\u0441\u0442\u043e\u0432, \u0443\u0434\u0430\u043b\u0435\u043d\u0438\u0435 \u043c\u0430\u043b\u043e\u043d\u0430\u043f\u043e\u043b\u043d\u0435\u043d\u043d\u044b\u0445 \u043a\u043b\u0430\u0441\u0441\u043e\u0432 \u043f\u0440\u0438\u0432\u0435\u0434\u0435\u0442 \u043a \u043f\u043e\u0442\u0435\u0440\u0435 \u0431\u043e\u043b\u044c\u0448\u0435\u0439 \u0447\u0430\u0441\u0442\u0438 \u0438\u043c\u0435\u044e\u0449\u0438\u0445\u0441\u044f \u0434\u0430\u043d\u043d\u044b\u0445. \u0411\u0443\u0434\u0435\u043c \u0441\u0447\u0438\u0442\u0430\u0442\u044c \u043d\u0435\u0440\u0435\u043b\u0435\u0432\u0430\u043d\u0442\u043d\u044b\u043c\u0438 \u043a\u043b\u0430\u0441\u0441\u044b \u0441 \u043c\u0435\u043d\u0435\u0435, \u0447\u0435\u043c 10 \u0442\u0435\u043a\u0441\u0442\u0430\u043c\u0438.\u00a0 \u0422\u0430\u043a\u0436\u0435 \u0438\u0437-\u0437\u0430 \u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u0440\u0430\u0437\u043d\u0438\u0446\u044b \u0432 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0430\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0431\u0443\u0434\u0435\u043c \u043f\u043e\u0434\u0430\u0432\u0430\u0442\u044c \u0440\u0430\u0437\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 \u0432 \u043c\u043e\u0434\u0435\u043b\u044c, \u0447\u0442\u043e\u0431\u044b \u0438\u0437\u0443\u0447\u0438\u0442\u044c \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u044c \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u0432 \u043e\u0442 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0430 \u043a\u043b\u0430\u0441\u0441\u043e\u0432.\u00a0 \u041f\u043e\u0441\u043b\u0435 \u0444\u0438\u043b\u044c\u0442\u0440\u0430\u0446\u0438\u0438 \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 \u043d\u043e\u0432\u044b\u0439 \u0434\u043e\u0442\u0430\u0441\u0435\u0442, \u0441\u043e\u0441\u0442\u043e\u044f\u0449\u0438\u0439 \u0438\u0437 2327 \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u0439 \u0434\u043b\u044f 108 \u043a\u043b\u0430\u0441\u0441\u043e\u0432<\/p>\n<pre><code class=\"python\">df = df[df['\u041c\u041a\u0411_10'].isin(df['\u041c\u041a\u0411_10'].value_counts()[:108].index)] simps = df['\u0421\u0438\u043c\u043f\u0442\u043e\u043c\u044b'].values.tolist()<\/code><\/pre>\n<h2>\u041e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0430 \u0442\u0435\u043a\u0441\u0442\u043e\u0432<\/h2>\n<p>    \u0421\u043e\u0433\u043b\u0430\u0441\u043d\u043e \u043c\u0435\u0442\u043e\u0434\u043e\u043b\u043e\u0433\u0438\u0438 \u0440\u0430\u0431\u043e\u0442\u044b \u0441 \u0442\u0435\u0441\u0442\u0430\u043c\u0438, \u043d\u0430\u0447\u0430\u043b\u044c\u043d\u044b\u043c \u044d\u0442\u0430\u043f\u043e\u043c \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0432\u044b\u043f\u043e\u043b\u043d\u0435\u043d\u0438\u0435 \u0438\u0445 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438.<\/p>\n<pre><code class=\"python\"># \u041f\u0440\u0438\u043c\u0435\u0440 \u0442\u0435\u043a\u0441\u0442\u0430 \u0431\u0435\u0437 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 simps[5]<\/code><\/pre>\n<p>&#8216;\u041a\u043b\u0438\u043d\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u043a\u0430\u0440\u0442\u0438\u043d\u0430 \u0432\u043e \u043c\u043d\u043e\u0433\u043e\u043c \u043d\u0430\u043f\u043e\u043c\u0438\u043d\u0430\u0435\u0442 \u0441\u0438\u043c\u043f\u0442\u043e\u043c\u044b \u0446\u0438\u0442\u043e\u0441\u0442\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u0431\u043e\u043b\u0435\u0437\u043d\u0438 \u0438 \u043f\u0440\u043e\u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0432 \u0432\u0438\u0434\u0435 \u043f\u043e\u0440\u0430\u0436\u0435\u043d\u0438\u044f \u043e\u0440\u0433\u0430\u043d\u0438\u0437\u043c\u0430 \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u043c\u0438 \u0438\u043d\u0444\u0435\u043a\u0446\u0438\u044f\u043c\u0438 \u0432 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0435 \u0441\u043d\u0438\u0436\u0435\u043d\u0438\u044f \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u0438 \u0438\u043c\u043c\u0443\u043d\u043d\u043e\u0433\u043e \u043e\u0442\u0432\u0435\u0442\u0430. \u0425\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u043d\u044b (\u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u043f\u0440\u0438 \u043b\u0435\u043a\u0430\u0440\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u043c \u0430\u0433\u0440\u0430\u043d\u0443\u043b\u043e\u0446\u0438\u0442\u043e\u0437\u0435) \u043e\u0441\u0442\u0440\u043e\u0435 \u043d\u0430\u0447\u0430\u043b\u043e \u0438 \u0431\u044b\u0441\u0442\u0440\u043e\u0435 \u043d\u0430\u0440\u0430\u0441\u0442\u0430\u043d\u0438\u0435 \u043a\u043b\u0438\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0441\u0438\u043c\u043f\u0442\u043e\u043c\u043e\u0432. \u0418\u043d\u043e\u0433\u0434\u0430 \u0432\u043e\u0437\u043d\u0438\u043a\u043d\u043e\u0432\u0435\u043d\u0438\u044e \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0445 \u043f\u0440\u0438\u0437\u043d\u0430\u043a\u043e\u0432 \u0430\u0433\u0440\u0430\u043d\u0443\u043b\u043e\u0446\u0438\u0442\u043e\u0437\u0430 \u043f\u0440\u0435\u0434\u0448\u0435\u0441\u0442\u0432\u0443\u0435\u0442 \u043a\u043e\u0440\u043e\u0442\u043a\u0438\u0439 \u0441\u043a\u0440\u044b\u0442\u044b\u0439 \u043f\u0435\u0440\u0438\u043e\u0434, \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0437\u0443\u044e\u0449\u0438\u0439\u0441\u044f \u0441\u043b\u0430\u0431\u043e\u0441\u0442\u044c\u044e, \u043d\u0435\u0434\u043e\u043c\u043e\u0433\u0430\u043d\u0438\u0435\u043c, \u0433\u043e\u043b\u043e\u0432\u043d\u044b\u043c\u0438 \u0431\u043e\u043b\u044f\u043c\u0438[4]. \u041a \u043f\u0435\u0440\u0432\u044b\u043c \u043a\u043b\u0438\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u043c \u043f\u0440\u043e\u044f\u0432\u043b\u0435\u043d\u0438\u044f\u043c \u0430\u0433\u0440\u0430\u043d\u0443\u043b\u043e\u0446\u0438\u0442\u043e\u0437\u0430 \u043e\u0442\u043d\u043e\u0441\u044f\u0442\u0441\u044f \u043b\u0438\u0445\u043e\u0440\u0430\u0434\u043a\u0430, \u0430\u0444\u0442\u043e\u0437\u043d\u044b\u0439 \u0441\u0442\u043e\u043c\u0430\u0442\u0438\u0442, \u0430\u043d\u0433\u0438\u043d\u0430[4], \u043e\u0437\u043d\u043e\u0431, \u0430\u0440\u0442\u0440\u0430\u043b\u0433\u0438\u044f[2]. \u0420\u0430\u0437\u0432\u0438\u0432\u0430\u044e\u0442\u0441\u044f \u044f\u0437\u0432\u0435\u043d\u043d\u043e-\u043d\u0435\u043a\u0440\u043e\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u043f\u043e\u0440\u0430\u0436\u0435\u043d\u0438\u044f \u0441\u043b\u0438\u0437\u0438\u0441\u0442\u043e\u0439 \u043e\u0431\u043e\u043b\u043e\u0447\u043a\u0438 \u043f\u043e\u043b\u043e\u0441\u0442\u0438 \u0440\u0442\u0430 \u0432 \u0432\u0438\u0434\u0435 \u0438\u0437\u044a\u044f\u0437\u0432\u043b\u0435\u043d\u0438\u0439, \u043f\u043e\u043a\u0440\u044b\u0442\u044b\u0445 \u0441\u0435\u0440\u043e\u0432\u0430\u0442\u044b\u043c \u043d\u0430\u043b\u0451\u0442\u043e\u043c, \u043d\u0435\u043a\u0440\u043e\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0431\u043b\u044f\u0448\u0435\u043a \u0438 \u044f\u0437\u0432 \u0441 \u0433\u0440\u044f\u0437\u043d\u043e-\u0441\u0435\u0440\u044b\u043c \u043d\u0430\u043b\u0451\u0442\u043e\u043c \u043d\u0430 \u043c\u0438\u043d\u0434\u0430\u043b\u0438\u043d\u0430\u0445 (\u0430\u0433\u0440\u0430\u043d\u0443\u043b\u043e\u0446\u0438\u0442\u0430\u0440\u043d\u0430\u044f \u0430\u043d\u0433\u0438\u043d\u0430)&#8217;<\/p>\n<p>    \u0422\u0435\u043a\u0441\u0442 \u043d\u0430\u043f\u0438\u0441\u0430\u043d \u0432 \u0441\u0432\u043e\u0431\u043e\u0434\u043d\u043e\u0439 \u0444\u043e\u0440\u043c\u0435 \u0435\u0441\u0442\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430: \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u043f\u0443\u043d\u043a\u0442\u0443\u0430\u0446\u0438\u044e, \u0441\u0438\u043c\u0432\u043e\u043b\u044b \u0441\u0442\u043e\u0440\u043e\u043d\u043d\u0438\u0445 \u0430\u043b\u0444\u0430\u0432\u0438\u0442\u043e\u0432, \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0439 \u0440\u0435\u0433\u0438\u0441\u0442\u0440, \u0430 \u0442\u0430\u043a\u0436\u0435 \u0441\u043b\u043e\u0432\u0430 \u0438\u043c\u0435\u044e\u0442 \u043f\u0430\u0434\u0435\u0436\u0438, \u0441\u043a\u043b\u043e\u043d\u0435\u043d\u0438\u044f \u0438 \u043f\u0440\u043e\u0447\u0438\u0435 \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e\u0441\u0442\u0438, \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u043d\u044b\u0435 \u0434\u043b\u044f \u0440\u0443\u0441\u0441\u043a\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430. \u041f\u0440\u0438\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u0441\u043b\u043e\u0432 \u043a \u043d\u0430\u0447\u0430\u043b\u044c\u043d\u043e\u0439 \u0444\u043e\u0440\u043c\u0435, \u0443\u0434\u0430\u043b\u0435\u043d\u0438\u0435 \u043b\u0438\u0448\u043d\u0438\u0445 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432 &#8212; \u043e\u0431\u044f\u0437\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0448\u0430\u0433 \u043f\u0440\u0438 \u043f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u043a\u0435 \u0442\u0435\u043a\u0441\u0442\u043e\u0432. \u0421\u043e\u0434\u0435\u0440\u0436\u0430\u043d\u0438\u0435 \u0441\u0430\u043c\u0438\u0445 \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0439 \u0431\u043e\u043b\u0435\u0437\u043d\u0438 \u0432 \u0442\u0435\u043a\u0441\u0442\u0435, \u0430 \u0442\u0430\u043a\u0436\u0435 \u043e\u0434\u043d\u043e\u043a\u043e\u0440\u0435\u043d\u043d\u044b\u0445 \u0441\u043b\u043e\u0432 &#8212; \u043d\u0435\u0434\u043e\u043f\u0443\u0441\u0442\u0438\u043c\u043e, \u0438\u0445 \u0442\u043e\u0436\u0435 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0443\u0434\u0430\u043b\u0438\u0442\u044c. \u041d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0442\u0430\u043a\u0436\u0435 \u0443\u0434\u0430\u043b\u0438\u0442\u044c \u043f\u0440\u0435\u0434\u043b\u043e\u0433\u0438 \u0438 \u0441\u043e\u044e\u0437\u044b, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043d\u0435 \u043d\u0435\u0441\u0443\u0442 \u0441\u043c\u044b\u0441\u043b\u043e\u0432\u043e\u0439 \u043d\u0430\u0433\u0440\u0443\u0437\u043a\u0438 \u0438 \u043d\u0435 \u043c\u043e\u0433\u0443 \u0432\u043b\u0438\u044f\u0442\u044c \u043d\u0430 \u0440\u0435\u0448\u0435\u043d\u0438\u0435 \u043f\u043e\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0438 \u0434\u0438\u0430\u0433\u043d\u043e\u0437\u0430, \u0430 \u0442\u0430\u043a\u0436\u0435 \u0443\u0447\u0435\u0441\u0442\u044c \u0441\u043b\u043e\u0432\u0430 \u043f\u0430\u0440\u0430\u0437\u0438\u0442\u044b, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0435\u0441\u0442\u044c \u0432 \u043b\u044e\u0431\u043e\u043c \u044f\u0437\u044b\u043a\u0435.<\/p>\n<pre><code class=\"python\">lemmatizer = WordNetLemmatizer() #\u0421\u043b\u043e\u0432\u0430 \u043f\u0430\u0440\u0430\u0437\u0438\u0442\u044b stopwords = nltk.corpus.stopwords.words('russian') stopwords.append(['\u043f\u0440\u0430\u0432\u0438\u0442\u044c','\u044d\u0442\u043e'])<\/code><\/pre>\n<pre><code class=\"python\">#\u0441\u043f\u0438\u0441\u043e\u043a \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0439 \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 all_bad = [] for txt in [w.lower() for w in df.Index.unique()]:     for word in txt.split():         all_bad.append(word) #\u0441\u043f\u0438\u0441\u043e\u043a \u043e\u0434\u043d\u043e\u043a\u043e\u0440\u043d\u0435\u0432\u044b\u0445 \u0441\u043b\u043e\u0432 \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439 all_bad_2 = [] for i in all_bad:     all_bad_2.append(i[0:4])      alphabet = list('abcdefghijklmnopqrstuvwxyz')<\/code><\/pre>\n<pre><code class=\"python\">def preproc(simps, all_bad, all_bad_2):     corpus = []     stemmer = Mystem()     for simp in tqdm(simps):         tokens = nltk.word_tokenize(simp.lower()) # \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u043a \u043d\u0438\u0436\u043d\u0435\u043c\u0443 \u0440\u0435\u0433\u0438\u0441\u0442\u0440\u0443         tokens = [w for w in tokens if w.isalpha()] # \u0432\u044b\u0431\u043e\u0440 \u0442\u043e\u043b\u044c\u043a\u043e \u0430\u043b\u0444\u0430\u0432\u0438\u0442\u043d\u044b\u0445 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0439         tokens = [w for w in tokens if w not in stopwords] # \u0443\u0434\u0430\u043b\u0435\u043d\u0438\u0435 \u0441\u043b\u043e\u0432 \u043f\u0430\u0440\u0430\u0437\u0438\u0442\u043e\u0432 \u0438 \u043f\u0440\u0435\u0434\u043b\u043e\u0433\u043e\u0432         #return tokens         #tokens = list(filter(lambda w: not re.match(r'[a-zA-Z]+', w), t))# \u0443\u0434\u0430\u043b\u0435\u043d\u0438\u0435 \u0431\u0443\u043a\u0432 \u0430\u043d\u0433\u043b\u0438\u0439\u0441\u043a\u043e\u0433\u043e \u0430\u043b\u0444\u0430\u0432\u0438\u0442\u0430         tokens = [w for w in tokens for i in w if i not in alphabet]                  tokens = [stemmer.lemmatize(w) for w in tokens] # \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u043a \u043d\u0430\u0447\u0430\u043b\u044c\u043d\u043e\u0439 \u0444\u043e\u0440\u043c\u0435 \u0441\u043b\u043e\u0432\u0430         tokens = [tok[0] for tok in tokens]         tokens = [w for w in tokens if w not in all_bad] # \u0443\u0434\u0430\u043b\u0435\u043d\u0438\u0435 \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0439 \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439         tokens = [w for w in tokens if w[0:4] not in all_bad_2] # \u0443\u0434\u0430\u043b\u0435\u043d\u0438\u0435 \u043e\u0434\u043d\u043e\u043a\u043e\u0440\u043d\u0435\u0432\u044b\u0445 \u0441\u043b\u043e\u0432 \u0441 \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u044f\u043c\u0438 \u0431\u043e\u043b\u0435\u0437\u043d\u0435\u0439         tokens = [w for w in tokens if len(w)>2] # \u0443\u0434\u043b\u0435\u043d\u0438\u0435 \u0441\u043b\u043e\u0432 \u0434\u043b\u0438\u043d\u043e\u0439 \u043c\u0435\u043d\u044c\u0448\u0435 3 \u0441\u0438\u0432\u043e\u043b\u043e\u0432                  tokens = set(tokens) # \u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u043c \u0442\u043e\u043b\u044c\u043a\u043e \u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u044b\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f         corpus.append(' '.join(tokens))     return corpus<\/code><\/pre>\n<pre><code class=\"python\">corpus = preproc(simps, all_bad, all_bad_2) # \u041f\u0440\u0438\u043c\u0435\u0440 \u0442\u043e\u0433\u043e \u0436\u0435 \u0442\u0435\u043a\u0441\u0442\u0430 \u043f\u043e\u0441\u043b\u0435 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 corpus[5]<\/code><\/pre>\n<p>&#8216;\u043f\u0435\u0440\u0432\u044b\u0439 \u043d\u0430\u043f\u043e\u043c\u0438\u043d\u0430\u0442\u044c \u0440\u043e\u0442 \u043b\u0435\u043a\u0430\u0440\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u043e\u0442\u043d\u043e\u0441\u0438\u0442\u044c\u0441\u044f \u043a\u043e\u0440\u043e\u0442\u043a\u0438\u0439 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u044c \u0430\u0444\u0442\u043e\u0437\u043d\u044b\u0439 \u0431\u043b\u044f\u0448\u043a\u0430 \u0441\u043b\u0430\u0431\u043e\u0441\u0442\u044c \u043d\u0435\u043a\u0440\u043e\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u043f\u0440\u043e\u044f\u0432\u043b\u0435\u043d\u0438\u0435 \u043e\u0442\u0432\u0435\u0442 \u0432\u0438\u0434 \u0441\u0442\u043e\u043c\u0430\u0442\u0438\u0442 \u043c\u043d\u043e\u0433\u043e\u0435 \u043c\u0438\u043d\u0434\u0430\u043b\u0438\u043d\u0430 \u0430\u043d\u0433\u0438\u043d\u0430 \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0439 \u043f\u0440\u0435\u0434\u0448\u0435\u0441\u0442\u0432\u043e\u0432\u0430\u0442\u044c \u043d\u0430\u0440\u0430\u0441\u0442\u0430\u043d\u0438\u0435 \u043f\u043e\u043a\u0440\u044b\u0432\u0430\u0442\u044c \u0441\u0435\u0440\u043e\u0432\u0430\u0442\u044b\u0439 \u043f\u0440\u043e\u044f\u0432\u043b\u044f\u0442\u044c\u0441\u044f \u0441\u0438\u043c\u043f\u0442\u043e\u043c \u0441\u043b\u0438\u0437\u0438\u0441\u0442\u044b\u0439 \u043d\u0430\u0447\u0430\u043b\u043e \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u043d\u044b\u0439 \u043d\u0430\u043b\u0435\u0442 \u043a\u0430\u0440\u0442\u0438\u043d\u0430 \u0438\u0437\u044a\u044f\u0437\u0432\u043b\u0435\u043d\u0438\u0435 \u043f\u043e\u043b\u043e\u0441\u0442\u044c \u0438\u043c\u043c\u0443\u043d\u043d\u044b\u0439 \u043f\u0435\u0440\u0438\u043e\u0434 \u043e\u0441\u043e\u0431\u0435\u043d\u043d\u043e \u0441\u043a\u0440\u044b\u0442\u044b\u0439 \u0441\u043d\u0438\u0436\u0435\u043d\u0438\u0435 \u043e\u0441\u043d\u043e\u0432\u043d\u043e\u0439 \u0431\u043e\u043b\u044c \u043e\u0437\u043d\u043e\u0431 \u0431\u044b\u0441\u0442\u0440\u044b\u0439 \u043f\u0440\u0438\u0437\u043d\u0430\u043a \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u0432\u043e\u0437\u043d\u0438\u043a\u043d\u043e\u0432\u0435\u043d\u0438\u0435 \u043e\u0431\u043e\u043b\u043e\u0447\u043a\u0430 \u043f\u043e\u0440\u0430\u0436\u0435\u043d\u0438\u0435 \u044f\u0437\u0432\u0430 \u043a\u043b\u0438\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u043e\u0440\u0433\u0430\u043d\u0438\u0437\u043c \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0437\u043e\u0432\u0430\u0442\u044c\u0441\u044f \u0440\u0430\u0437\u0432\u0438\u0432\u0430\u0442\u044c\u0441\u044f&#8217;<\/p>\n<p>\u041d\u0430\u043c \u0443\u0434\u0430\u043b\u043e\u0441\u044c \u0434\u043e\u0441\u0442\u0438\u0447\u044c<\/p>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-334936","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/334936","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=334936"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/334936\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=334936"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=334936"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=334936"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}