{"id":317900,"date":"2021-02-12T09:01:41","date_gmt":"2021-02-12T09:01:41","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=317900"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=317900","title":{"rendered":"\u0420\u0430\u043d\u0436\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u043f\u043e \u043f\u043e\u0445\u043e\u0436\u0435\u0441\u0442\u0438 \u043d\u0430 \u043e\u043f\u043e\u0440\u043d\u044b\u0435 \u0442\u0435\u043a\u0441\u0442\u044b \u043f\u0440\u0438 \u043f\u043e\u043c\u043e\u0449\u0438 \u043c\u043e\u0434\u0435\u043b\u0438 TF-IDF \u0432 \u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u0438 GENSM"},"content":{"rendered":"\n<div class=\"post__text post__text_v2\" id=\"post-content-body\">\n<figure class=\"full-width\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/c79\/0d2\/331\/c790d2331bd6b5cb34f02dd4d1be4062.jpg\" width=\"1280\" height=\"720\"><figcaption><\/figcaption><\/figure>\n<p>\u0411\u044b\u0432\u0430\u0435\u0442 \u0442\u0430\u043a, \u0447\u0442\u043e \u043a\u0440\u0438\u0442\u0435\u0440\u0438\u0438 \u043f\u043e\u0438\u0441\u043a\u0430 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u0441\u043b\u043e\u0436\u043d\u044b, \u0447\u0442\u043e\u0431\u044b \u043e\u0431\u043e\u0439\u0442\u0438\u0441\u044c \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u044b\u043c\u0438 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u044f\u043c\u0438. \u0412 \u0442\u0430\u043a\u0438\u0445 \u0441\u043b\u0443\u0447\u0430\u044f\u0445 \u043d\u0430 \u043f\u043e\u043c\u043e\u0449\u044c \u043f\u0440\u0438\u0445\u043e\u0434\u0438\u0442 ML. \u0415\u0441\u043b\u0438 \u0438\u0437 \u0441\u043f\u0438\u0441\u043a\u0430 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0432\u044b\u0431\u0440\u0430\u0442\u044c \u0441\u0430\u043c\u044b\u0439 \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0438\u0439 \u0434\u043b\u044f \u043d\u0430\u0441, \u043c\u043e\u0436\u043d\u043e \u0432\u044b\u044f\u0441\u043d\u0438\u0442\u044c \u043f\u043e\u0445\u043e\u0436\u0435\u0441\u0442\u044c \u0432\u0441\u0435\u0445 \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u043d\u0430 \u044d\u0442\u043e\u0442. \u041f\u043e\u0445\u043e\u0436\u0435\u0441\u0442\u044c(similarity) \u044d\u0442\u043e \u0447\u0438\u0441\u043b\u0435\u043d\u043d\u0430\u044f \u043c\u0435\u0440\u0430, \u0447\u0435\u043c \u0432\u044b\u0448\u0435 \u2013 \u0442\u0435\u043c \u0431\u043e\u043b\u0435\u0435 \u0442\u0435\u043a\u0441\u0442 \u043f\u043e\u0445\u043e\u0436, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u043f\u0440\u0438 \u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u043a\u0435 \u043f\u043e \u0443\u0431\u044b\u0432\u0430\u043d\u0438\u044e \u043f\u043e \u044d\u0442\u043e\u043c\u0443 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0443 \u043c\u044b \u0443\u0432\u0438\u0434\u0438\u043c \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0438\u0435 \u043d\u0430\u043c \u0442\u0435\u043a\u0441\u0442\u044b \u0438\u0437 \u0432\u044b\u0431\u043e\u0440\u043a\u0438.<\/p>\n<p>\u0412 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u043f\u0440\u0438\u043c\u0435\u0440\u0430 \u0432\u043e\u0437\u044c\u043c\u0435\u043c \u043b\u044e\u0431\u043e\u0439 \u043d\u0430\u0431\u043e\u0440 \u0442\u0435\u043a\u0441\u0442\u043e\u0432. \u0417\u0434\u0435\u0441\u044c&nbsp;<a href=\"http:\/\/study.mokoron.com\/\" rel=\"noopener noreferrer nofollow\">http:\/\/study.mokoron.com\/<\/a> \u043c\u043e\u0436\u043d\u043e \u0441\u043a\u0430\u0447\u0430\u0442\u044c \u043d\u0435\u0431\u043e\u043b\u044c\u0448\u043e\u0435 csv \u0441 \u0442\u0432\u0438\u0442\u0430\u043c\u0438.&nbsp; \u0412 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u0439 \u0440\u0430\u0431\u043e\u0442\u0435 \u044d\u0442\u043e \u043c\u043e\u0433\u0443\u0442 \u0431\u044b\u0442\u044c \u0440\u0430\u0437\u043d\u043e\u0433\u043e \u0440\u043e\u0434\u0430 \u043a\u043e\u043c\u043c\u0435\u043d\u0442\u0430\u0440\u0438\u0438, \u043e\u0442\u0432\u0435\u0442\u044b \u043e\u0442 \u0442\u0435\u0445\u043f\u043e\u0434\u0434\u0435\u0440\u0436\u043a\u0438, \u0437\u0430\u043f\u0440\u043e\u0441\u044b \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u0435\u0439. \u0422\u0430\u043a \u0438\u043b\u0438 \u0438\u043d\u0430\u0447\u0435, \u0438\u043c\u043f\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u0430\u0432 \u0432\u0441\u0435 \u043d\u0443\u0436\u043d\u044b\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438, \u0437\u0430\u0433\u0440\u0443\u0437\u0438\u043c \u0432 pandas \u043d\u0430\u0448 \u0441\u043f\u0438\u0441\u043e\u043a \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0438 \u0432\u0437\u0433\u043b\u044f\u043d\u0435\u043c \u043d\u0430 \u043f\u0435\u0440\u0432\u044b\u0435 \u0438\u0437 \u043d\u0438\u0445:<\/p>\n<pre><code class=\"python\">import pandas as pd import re from gensim import corpora,models,similarities from gensim.utils import tokenize df = pd.read_csv('positive.csv',sep=\";\",names = [1,2,3,\"text\",4,5,6,7,8,9,10,11])[[\"text\"]] list(df.head(5)[\"text\"].values)  ['@first_timee \u0445\u043e\u0442\u044c \u044f \u0438 \u0448\u043a\u043e\u043b\u043e\u0442\u0430, \u043d\u043e \u043f\u043e\u0432\u0435\u0440\u044c, \u0443 \u043d\u0430\u0441 \u0442\u043e \u0436\u0435 \u0441\u0430\u043c\u043e\u0435 :D \u043e\u0431\u0449\u0435\u0441\u0442\u0432\u043e \u043f\u0440\u043e\u0444\u0438\u043b\u0438\u0440\u0443\u044e\u0449\u0438\u0439 \u043f\u0440\u0435\u0434\u043c\u0435\u0442 \u0442\u0438\u043f\u0430)',  '\u0414\u0430, \u0432\u0441\u0435-\u0442\u0430\u043a\u0438 \u043e\u043d \u043d\u0435\u043c\u043d\u043e\u0433\u043e \u043f\u043e\u0445\u043e\u0436 \u043d\u0430 \u043d\u0435\u0433\u043e. \u041d\u043e \u043c\u043e\u0439 \u043c\u0430\u043b\u044c\u0447\u0438\u043a \u0432\u0441\u0435 \u0440\u0430\u0432\u043d\u043e \u043b\u0443\u0447\u0448\u0435:D',  'RT @KatiaCheh: \u041d\u0443 \u0442\u044b \u0438\u0434\u0438\u043e\u0442\u043a\u0430) \u044f \u0438\u0441\u043f\u0443\u0433\u0430\u043b\u0430\u0441\u044c \u0437\u0430 \u0442\u0435\u0431\u044f!!!',  'RT @digger2912: \"\u041a\u0442\u043e \u0442\u043e \u0432 \u0443\u0433\u043b\u0443 \u0441\u0438\u0434\u0438\u0442 \u0438 \u043f\u043e\u0433\u0438\u0431\u0430\u0435\u0442 \u043e\u0442 \u0433\u043e\u043b\u043e\u0434\u0430, \u0430 \u043c\u044b \u0435\u0449\u0451 2 \u043f\u043e\u0440\u0446\u0438\u0438 \u0432\u0437\u044f\u043b\u0438, \u0445\u043e\u0442\u044f \u0443\u0436\u0435 \u0438 \u0442\u0430\u043a \u0436\u0440\u0430\u0442\u044c \u043d\u0435 \u0445\u043e\u0442\u0438\u043c\" :DD http:\/\/t.co\/GqG6iuE2\u2026',<\/code><\/pre>\n<p>\u0421\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u044b\u0439 \u0438 \u043f\u0440\u0438\u0432\u044b\u0447\u043d\u044b\u0439 \u0441\u043f\u043e\u0441\u043e\u0431 \u043f\u043e\u0438\u0441\u043a\u0430 \u043d\u0443\u0436\u043d\u044b\u0445 \u043d\u0430\u043c \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u2013 \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u044b\u0435 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u044f. \u041e\u043d\u0438 \u043e\u0447\u0435\u043d\u044c \u0431\u044b\u0441\u0442\u0440\u043e \u0432\u044b\u043f\u043e\u043b\u043d\u044f\u044e\u0442\u0441\u044f \u0434\u0430\u0436\u0435 \u043d\u0430 \u0433\u0438\u0433\u0430\u043d\u0442\u0441\u043a\u0438\u0445 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430\u0445 \u0438 \u043e\u0442\u043b\u0438\u0447\u043d\u043e \u043f\u043e\u0441\u043b\u0443\u0436\u0430\u0442 \u043d\u0430\u043c \u0432 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u0444\u0438\u043b\u044c\u0442\u0440\u043e\u0432. \u0414\u043b\u044f \u043f\u0440\u0438\u043c\u0435\u0440\u0430 \u0432\u044b\u0431\u0435\u0440\u0435\u043c \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u044b\u0435 \u0441\u043b\u043e\u0432\u0430 \u0438\u0437 \u0442\u0435\u0445, \u0447\u0442\u043e \u043c\u044b \u0442\u043e\u043b\u044c\u043a\u043e \u0447\u0442\u043e \u0432\u0438\u0434\u0435\u043b\u0438 \u0438 \u043f\u0440\u0435\u0432\u0440\u0430\u0442\u0438\u043c \u0438\u0445 \u0432 \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043a\u0438:<\/p>\n<pre><code class=\"python\">regex_queries = [\"\u0448\u043a\u043e\u043b.*\",\"\u0433\u043e\u043b\u043e\u0434.*\",\"\u0441\u0442\u0440\u0430\u0448.*\",'[^\u0430-\u044f\u0410-\u042f]\u043c\u0438[^\u0430-\u044f\u0410-\u042f]']  for word in regex_queries:     df[word] = df[\"text\"].str.count(word,flags=re.IGNORECASE)<\/code><\/pre>\n<p>\u0417\u0432\u0435\u0437\u0434\u043e\u0447\u043a\u0430 \u0441 \u0442\u043e\u0447\u043a\u043e\u0439 .* \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u0447\u0442\u043e \u043f\u043e\u0441\u043b\u0435 \u043d\u0443\u0436\u043d\u043e\u0433\u043e \u043d\u0430\u043c \u0444\u0440\u0430\u0433\u043c\u0435\u043d\u0442\u0430 \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u043b\u044e\u0431\u043e\u0439 \u043d\u0430\u0431\u043e\u0440 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432. [^\u0430-\u044f\u0410-\u042f] \u043e\u0437\u043d\u0430\u0447\u0430\u0435\u0442 \u00ab\u043b\u044e\u0431\u043e\u0439 \u0441\u0438\u043c\u0432\u043e\u043b, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043d\u0435 \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0440\u0443\u0441\u0441\u043a\u043e\u0439 \u0431\u0443\u043a\u0432\u043e\u0439\u00bb.&nbsp; \u0412\u043e\u043e\u0431\u0449\u0435 \u0434\u043b\u044f \u0441\u043e\u0437\u0434\u0430\u043d\u0438\u044f \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u044b\u0445 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u0439 \u0443\u0434\u043e\u0431\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0441\u0430\u0439\u0442 regex. \u041c\u0435\u0442\u043e\u0434 str.count \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438 pandas \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0435\u0442 \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u043e\u0435 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u0435 \u043c\u0430\u0441\u0441\u043e\u0432\u043e \u043d\u0430 \u0432\u0435\u0441\u044c \u0434\u0430\u0442\u0430\u0441\u0435\u0442, \u0432\u044b\u0434\u0430\u0432\u0430\u044f \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u043d\u0430\u0439\u0434\u0435\u043d\u043d\u044b\u0445 \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043e\u043a. \u0424\u043b\u0430\u0433 re.IGNORECASE \u044d\u0442\u043e \u0447\u0430\u0441\u0442\u044c \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u0438 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438 \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u044b\u0445 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u0439 regex, \u0437\u0430\u0441\u0442\u0430\u0432\u043b\u044f\u044e\u0449\u0430\u044f \u0435\u0435 \u0438\u0441\u043a\u0430\u0442\u044c \u0432\u043d\u0435 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438 \u043e\u0442 \u0442\u043e\u0433\u043e, \u0437\u0430\u0433\u043b\u0430\u0432\u043d\u044b\u0435 \u0432 \u0442\u0435\u043a\u0441\u0442\u0435 \u0431\u0443\u043a\u0432\u044b \u0438\u043b\u0438 \u0441\u0442\u0440\u043e\u0447\u043d\u044b\u0435.<\/p>\n<p>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u0432\u044b\u043f\u043e\u043b\u043d\u0435\u043d\u0438\u044f \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u0442\u0430\u043a:<\/p>\n<figure class=\"\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/0d3\/cb6\/9e1\/0d3cb69e11716ae4a0f15f0784f12aea.png\" width=\"464\" height=\"212\"><figcaption><\/figcaption><\/figure>\n<p>\u042d\u0442\u043e\u0433\u043e \u0438\u043d\u043e\u0433\u0434\u0430 \u0431\u044b\u0432\u0430\u0435\u0442 \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e, \u043d\u043e \u0434\u0430\u0436\u0435 \u0435\u0441\u043b\u0438 \u043d\u0435\u0442, \u0442\u0430\u043a\u0443\u044e \u043f\u0440\u0435\u0434\u0432\u0430\u0440\u0438\u0442\u0435\u043b\u044c\u043d\u0443\u044e \u0440\u0430\u0431\u043e\u0442\u0443 \u0432\u0441\u0435\u0433\u0434\u0430 \u0441\u0442\u043e\u0438\u0442 \u043f\u0440\u043e\u0432\u043e\u0434\u0438\u0442\u044c \u0434\u043b\u044f \u043e\u0431\u043b\u0435\u0433\u0447\u0435\u043d\u0438\u044f \u0444\u0438\u043b\u044c\u0442\u0440\u0430\u0446\u0438\u0438. \u0415\u0441\u043b\u0438 \u043c\u044b \u0442\u043e\u0447\u043d\u043e \u0437\u043d\u0430\u0435\u043c, \u0447\u0442\u043e \u0432 \u0442\u0435\u043a\u0441\u0442\u0435 \u0432\u0441\u0442\u0440\u0435\u0442\u044f\u0442\u0441\u044f \u0441\u043b\u043e\u0432\u0430 \u00ab\u0431\u0443\u043c\u0430\u0436\u043d\u044b\u0439 \u043d\u043e\u0441\u0438\u0442\u0435\u043b\u044c\u00bb, \u043d\u043e \u043d\u0430\u043c \u0442\u043e\u0447\u043d\u043e \u043d\u0435 \u043f\u043e\u0434\u043e\u0439\u0434\u0435\u0442 \u00ab\u043f\u043b\u0430\u0442\u0435\u0436\u043d\u044b\u0439 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u00bb, \u043c\u044b \u0434\u043e\u0431\u0430\u0432\u0438\u043c \u00ab\u0431\u0443\u043c\u0430.*\u043d\u043e\u0441\u0438\u0442\u00bb \u0438 \u00ab\u043f\u043b\u0430\u0442\u0435\u0436\u043d.*\u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u00bb \u0438 \u0432 \u0434\u0430\u043b\u044c\u043d\u0435\u0439\u0448\u0435\u043c \u043e\u0442\u0444\u0438\u043b\u044c\u0442\u0440\u0443\u0435\u043c \u0438\u0445 \u0442\u0430\u043a, \u043a\u0430\u043a \u043d\u0430\u043c \u043d\u0430\u0434\u043e.<\/p>\n<p>\u0414\u043b\u044f \u043d\u0435\u043f\u043e\u0441\u0440\u0435\u0434\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u0433\u043e \u043f\u043e\u0438\u0441\u043a\u0430 \u043f\u043e\u0445\u043e\u0436\u0438\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0441\u0442\u043e\u0438\u0442 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044e doc2bow \u0438\u0437 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438 genism, \u043f\u043e\u0441\u043a\u043e\u043b\u044c\u043a\u0443 \u043f\u043e\u043c\u0438\u043c\u043e \u043d\u0443\u0436\u043d\u044b\u0445 \u043d\u0430\u043c \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u043e\u043d\u0430 \u043f\u0440\u0435\u0434\u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u043c\u043d\u043e\u0436\u0435\u0441\u0442\u0432\u043e \u0434\u0440\u0443\u0433\u0438\u0445 \u043f\u043e\u043b\u0435\u0437\u043d\u044b\u0445 \u0444\u0443\u043d\u043a\u0446\u0438\u0439, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u044e \u0441\u043e \u0432\u0441\u0442\u0440\u043e\u0435\u043d\u043d\u043e\u0439 \u043b\u0435\u043c\u043c\u0430\u0442\u0438\u0437\u0430\u0446\u0438\u0435\u0439, \u0447\u0442\u043e \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u043f\u043e\u043b\u0435\u0437\u043d\u043e \u0432 \u0441\u043b\u0443\u0447\u0430\u0435, \u0435\u0441\u043b\u0438 \u043f\u0440\u0435\u0434\u0432\u0430\u0440\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u043d\u044b\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0434\u043b\u044f \u043b\u0435\u043c\u043c\u0430\u0442\u0438\u0437\u0430\u0446\u0438\u0438 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u043d\u0435\u043b\u044c\u0437\u044f.<\/p>\n<p>\u041f\u0435\u0440\u0432\u044b\u043c \u0434\u0435\u043b\u043e\u043c \u0432\u044b\u0434\u0435\u043b\u0438\u043c \u0442\u0435\u043a\u0441\u0442\u044b, \u043f\u043e \u043a\u043e\u0442\u043e\u0440\u044b\u043c \u0431\u0443\u0434\u0435\u0442 \u043f\u0440\u043e\u0432\u043e\u0434\u0438\u0442\u044c\u0441\u044f \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435, \u0434\u0430\u043b\u0435\u0435 \u043d\u0430\u0437\u044b\u0432\u0430\u044f \u0438\u0445 \u00ab\u043e\u043f\u043e\u0440\u043d\u044b\u0435 \u0442\u0435\u043a\u0441\u0442\u044b\u00bb.&nbsp; \u0421\u043a\u043e\u0440\u0435\u0435 \u0432\u0441\u0435\u0433\u043e, \u043f\u043e\u0441\u043b\u0435 \u043f\u0435\u0440\u0432\u043e\u0433\u043e \u044d\u0442\u0430\u043f\u0430 \u043f\u043e\u0438\u0441\u043a\u043e\u0432 \u044d\u0442\u043e\u0442 \u0441\u043f\u0438\u0441\u043e\u043a \u0440\u0430\u0441\u0448\u0438\u0440\u0438\u0442\u0441\u044f, \u043f\u043e\u0441\u043a\u043e\u043b\u044c\u043a\u0443 \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0438\u0442 \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0435 \u0432\u0430\u0440\u0438\u0430\u043d\u0442\u044b \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0438\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432. \u0412 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u043f\u0440\u0438\u043c\u0435\u0440\u0430 \u043f\u0440\u043e\u0441\u0442\u043e \u0432\u043e\u0437\u044c\u043c\u0435\u043c \u043f\u0435\u0440\u0432\u044b\u0435 5 \u0442\u0432\u0438\u0442\u043e\u0432, \u0433\u043b\u0430\u0432\u043d\u043e\u0435 \u043f\u043e\u043c\u043d\u0438\u0442\u044c, \u0447\u0442\u043e \u044d\u0442\u0438 \u0442\u0435\u043a\u0441\u0442\u044b \u0442\u0430\u043a \u0436\u0435 \u0434\u043e\u043b\u0436\u043d\u044b \u0431\u044b\u0442\u044c \u0432 \u043e\u0431\u0449\u0435\u043c \u043d\u0430\u0431\u043e\u0440\u0435.<\/p>\n<pre><code class=\"python\">texts_to_compare = list(df.head(5)[\"text\"])  ['@first_timee \u0445\u043e\u0442\u044c \u044f \u0438 \u0448\u043a\u043e\u043b\u043e\u0442\u0430, \u043d\u043e \u043f\u043e\u0432\u0435\u0440\u044c, \u0443 \u043d\u0430\u0441 \u0442\u043e \u0436\u0435 \u0441\u0430\u043c\u043e\u0435 :D \u043e\u0431\u0449\u0435\u0441\u0442\u0432\u043e \u043f\u0440\u043e\u0444\u0438\u043b\u0438\u0440\u0443\u044e\u0449\u0438\u0439 \u043f\u0440\u0435\u0434\u043c\u0435\u0442 \u0442\u0438\u043f\u0430)',  '\u0414\u0430, \u0432\u0441\u0435-\u0442\u0430\u043a\u0438 \u043e\u043d \u043d\u0435\u043c\u043d\u043e\u0433\u043e \u043f\u043e\u0445\u043e\u0436 \u043d\u0430 \u043d\u0435\u0433\u043e. \u041d\u043e \u043c\u043e\u0439 \u043c\u0430\u043b\u044c\u0447\u0438\u043a \u0432\u0441\u0435 \u0440\u0430\u0432\u043d\u043e \u043b\u0443\u0447\u0448\u0435:D',  'RT @KatiaCheh: \u041d\u0443 \u0442\u044b \u0438\u0434\u0438\u043e\u0442\u043a\u0430) \u044f \u0438\u0441\u043f\u0443\u0433\u0430\u043b\u0430\u0441\u044c \u0437\u0430 \u0442\u0435\u0431\u044f!!!',  'RT @digger2912: \"\u041a\u0442\u043e \u0442\u043e \u0432 \u0443\u0433\u043b\u0443 \u0441\u0438\u0434\u0438\u0442 \u0438 \u043f\u043e\u0433\u0438\u0431\u0430\u0435\u0442 \u043e\u0442 \u0433\u043e\u043b\u043e\u0434\u0430, \u0430 \u043c\u044b \u0435\u0449\u0451 2 \u043f\u043e\u0440\u0446\u0438\u0438 \u0432\u0437\u044f\u043b\u0438, \u0445\u043e\u0442\u044f \u0443\u0436\u0435 \u0438 \u0442\u0430\u043a \u0436\u0440\u0430\u0442\u044c \u043d\u0435 \u0445\u043e\u0442\u0438\u043c\" :DD http:\/\/t.co\/GqG6iuE2\u2026',  '@irina_dyshkant \u0412\u043e\u0442 \u0447\u0442\u043e \u0437\u043d\u0430\u0447\u0438\u0442 \u0441\u0442\u0440\u0430\u0448\u0438\u043b\u043a\u0430 :D\\n\u041d\u043e \u0431\u043b\u0438\u043d,\u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0435\u0432 \u0432\u0441\u0435 \u0447\u0430\u0441\u0442\u0438,\u0443 \u0442\u0435\u0431\u044f \u0441\u043e\u0437\u0434\u0430\u0441\u0442\u0441\u044f \u043e\u0449\u0443\u0449\u0435\u043d\u0438\u0435,\u0447\u0442\u043e \u0430\u0432\u0442\u043e\u0440\u044b \u043a\u0443\u0440\u0438\u043b\u0438 \u0447\u0442\u043e-\u0442\u043e :D']<\/code><\/pre>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0438\u0440\u0443\u0435\u043c \u0432\u0441\u0435 \u0442\u0435\u043a\u0441\u0442\u044b \u0432 \u043d\u0430\u0448\u0435\u043c \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0435. \u041d\u0430 \u044d\u0442\u043e\u043c \u044d\u0442\u0430\u043f\u0435 \u043e\u0441\u0443\u0449\u0435\u0441\u0442\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0430 \u0442\u0435\u043a\u0441\u0442\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043c\u043e\u0436\u043d\u043e \u043f\u0440\u043e\u0432\u0435\u0441\u0442\u0438 \u043c\u043d\u043e\u0436\u0435\u0441\u0442\u0432\u043e\u043c \u0441\u043f\u043e\u0441\u043e\u0431\u043e\u0432 \u043f\u0440\u0438 \u043f\u043e\u043c\u043e\u0449\u0438 \u043c\u043d\u043e\u0436\u0435\u0441\u0442\u0432\u0430 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a. \u0421\u0430\u043c\u044b\u0435 \u0440\u0430\u0441\u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0451\u043d\u043d\u044b\u0435 \u0441\u043f\u043e\u0441\u043e\u0431\u044b \u0432\u043a\u043b\u044e\u0447\u0430\u044e\u0442 \u0432 \u0441\u0435\u0431\u044f:<\/p>\n<ul>\n<li>\n<p>\u0423\u0434\u0430\u043b\u0435\u043d\u0438\u0435 \u0441\u0442\u043e\u043f \u0441\u043b\u043e\u0432, \u0442\u0430\u043a\u0438\u0445 \u043a\u0430\u043a \u00ab\u0430\u00bb, \u00ab\u0438\u00bb, \u00ab\u043d\u043e\u00bb \u0438 \u043f\u0440\u043e\u0447\u0435\u0435. \u041e\u0431\u044b\u0447\u043d\u043e \u0434\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442\u0441\u044f \u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u0441\u043e\u0431\u0440\u0430\u043d\u043d\u044b\u0435 \u0441\u043b\u043e\u0432\u0430\u0440\u0438. \u041c\u043e\u0436\u043d\u043e \u0432\u044b\u043f\u043e\u043b\u043d\u0438\u0442\u044c \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u043e\u0439 NLTK<\/p>\n<\/li>\n<li>\n<p>\u041f\u043e\u043d\u0438\u0436\u0435\u043d\u0438\u0435 \u0440\u0435\u0433\u0438\u0441\u0442\u0440\u0430 \u0441\u043b\u043e\u0432 \u0434\u043e \u0441\u0442\u0440\u043e\u0447\u043d\u044b\u0445. \u0411\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a \u0438 \u0447\u0438\u0441\u0442\u044b\u0439 python \u0441\u0430\u043c \u043f\u043e \u0441\u0435\u0431\u0435 \u043c\u043e\u0433\u0443\u0442 \u044d\u0442\u043e \u0434\u0435\u043b\u0430\u0442\u044c. \u041d\u0435\u043a\u043e\u0442\u043e\u0440\u044b\u0435, \u043c\u043e\u0433\u0443\u0442 \u0435\u0449\u0435 \u0438 \u0443\u0434\u0430\u043b\u0438\u0442\u044c \u0434\u0438\u0430\u043a\u0440\u0438\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u0437\u043d\u0430\u043a\u0438, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 gensim.<\/p>\n<\/li>\n<li>\n<p>\u041b\u0435\u043c\u043c\u0430\u0442\u0438\u0437\u0430\u0446\u0438\u044f, \u0442\u043e \u0435\u0441\u0442\u044c \u043f\u0440\u0438\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u0441\u043b\u043e\u0432\u0430 \u043a \u0441\u043b\u043e\u0432\u0430\u0440\u043d\u043e\u0439 \u0444\u043e\u0440\u043c\u0435. \u0421\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u044c \u044d\u0442\u043e\u0433\u043e \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u044f \u0437\u0430\u0432\u0438\u0441\u0438\u0442 \u043e\u0442 \u044f\u0437\u044b\u043a\u0430, \u0434\u043b\u044f \u0440\u0443\u0441\u0441\u043a\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430 \u044d\u0442\u043e\u0442 \u043f\u0440\u043e\u0446\u0435\u0441\u0441 \u043d\u0435 \u043f\u0440\u043e\u0441\u0442 \u0438 \u0442\u0440\u0435\u0431\u0443\u0435\u0442 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u0445 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a. pymystem3 \u043f\u043e\u0434\u043e\u0439\u0434\u0435\u0442, \u043d\u043e \u0432\u0430\u0436\u043d\u043e \u0432\u0441\u0435\u0433\u0434\u0430 \u043a\u043e\u043d\u0442\u0440\u043e\u043b\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e.<\/p>\n<\/li>\n<li>\n<p>\u0421\u0442\u0435\u043c\u043c\u0438\u043d\u0433, \u0438\u043b\u0438 \u043e\u0431\u0440\u0435\u0437\u043a\u0430 \u0441\u043b\u043e\u0432 \u0434\u043e \u043a\u043e\u0440\u043d\u044f. \u042d\u0442\u043e \u0431\u043e\u043b\u0435\u0435 \u044d\u043a\u0441\u0442\u0440\u0435\u043c\u0430\u043b\u044c\u043d\u044b\u0439 \u0432\u0430\u0440\u0438\u0430\u043d\u0442 \u043b\u0435\u043c\u043c\u0430\u0442\u0438\u0437\u0430\u0446\u0438\u0438, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u00ab\u0447\u0430\u0439\u043d\u0438\u043a\u00bb \u043c\u043e\u0436\u0435\u0442 \u043f\u0440\u0435\u0432\u0440\u0430\u0442\u0438\u0442\u044c \u0432 \u00ab\u0447\u0430\u0439\u00bb. \u0412\u044b\u043f\u043e\u043b\u043d\u044f\u0435\u0442\u0441\u044f \u0435\u0441\u043b\u0438 \u043f\u043e\u0442\u0435\u0440\u044f \u0441\u043c\u044b\u0441\u043b\u0430 \u043d\u0435 \u0441\u0442\u0440\u0430\u0448\u043d\u0430. \u041f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0430\u044f \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430 pymorphy \u0438 \u043d\u0430\u043f\u0438\u0441\u0430\u043d\u043d\u044b\u0435 \u043f\u043e\u0434 \u043d\u0435\u0435 \u0441\u043a\u0440\u0438\u043f\u0442\u044b \u0434\u043b\u044f \u0440\u0443\u0441\u0441\u043a\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430 \u0432 \u0434\u0443\u0445\u0435 \u0421\u0442\u0435\u043c\u043c\u0435\u0440\u0430 \u041f\u043e\u0440\u0442\u0435\u0440\u0430.<\/p>\n<\/li>\n<\/ul>\n<pre><code class=\"python\">def tokenize_in_df(strin):     try:         return list(tokenize(strin,lowercase=True, deacc=True,))     except:         return \"\" df[\"tokens\"] = df[\"text\"].apply(tokenize_in_df) df.head(5)[\"tokens\"].values  array([list(['first_timee', '\u0445\u043e\u0442\u044c', '\u044f', '\u0438', '\u0448\u043a\u043e\u043b\u043e\u0442\u0430', '\u043d\u043e', '\u043f\u043e\u0432\u0435\u0440\u044c', '\u0443', '\u043d\u0430\u0441', '\u0442\u043e', '\u0436\u0435', '\u0441\u0430\u043c\u043e\u0435', 'd', '\u043e\u0431\u0449\u0435\u0441\u0442\u0432\u043e', '\u043f\u0440\u043e\u0444\u0438\u043b\u0438\u0440\u0443\u044e\u0449\u0438\u0438', '\u043f\u0440\u0435\u0434\u043c\u0435\u0442', '\u0442\u0438\u043f\u0430']),        list(['\u0434\u0430', '\u0432\u0441\u0435', '\u0442\u0430\u043a\u0438', '\u043e\u043d', '\u043d\u0435\u043c\u043d\u043e\u0433\u043e', '\u043f\u043e\u0445\u043e\u0436', '\u043d\u0430', '\u043d\u0435\u0433\u043e', '\u043d\u043e', '\u043c\u043e\u0438', '\u043c\u0430\u043b\u044c\u0447\u0438\u043a', '\u0432\u0441\u0435', '\u0440\u0430\u0432\u043d\u043e', '\u043b\u0443\u0447\u0448\u0435', 'd']),        list(['rt', 'katiacheh', '\u043d\u0443', '\u0442\u044b', '\u0438\u0434\u0438\u043e\u0442\u043a\u0430', '\u044f', '\u0438\u0441\u043f\u0443\u0433\u0430\u043b\u0430\u0441\u044c', '\u0437\u0430', '\u0442\u0435\u0431\u044f']),        list(['rt', 'digger', '\u043a\u0442\u043e', '\u0442\u043e', '\u0432', '\u0443\u0433\u043b\u0443', '\u0441\u0438\u0434\u0438\u0442', '\u0438', '\u043f\u043e\u0433\u0438\u0431\u0430\u0435\u0442', '\u043e\u0442', '\u0433\u043e\u043b\u043e\u0434\u0430', '\u0430', '\u043c\u044b', '\u0435\u0449\u0435', '\u043f\u043e\u0440\u0446\u0438\u0438', '\u0432\u0437\u044f\u043b\u0438', '\u0445\u043e\u0442\u044f', '\u0443\u0436\u0435', '\u0438', '\u0442\u0430\u043a', '\u0436\u0440\u0430\u0442\u044c', '\u043d\u0435', '\u0445\u043e\u0442\u0438\u043c', 'dd', 'http', 't', 'co', 'gqg', 'iue']),        list(['irina_dyshkant', '\u0432\u043e\u0442', '\u0447\u0442\u043e', '\u0437\u043d\u0430\u0447\u0438\u0442', '\u0441\u0442\u0440\u0430\u0448\u0438\u043b\u043a\u0430', 'd', '\u043d\u043e', '\u0431\u043b\u0438\u043d', '\u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0435\u0432', '\u0432\u0441\u0435', '\u0447\u0430\u0441\u0442\u0438', '\u0443', '\u0442\u0435\u0431\u044f', '\u0441\u043e\u0437\u0434\u0430\u0441\u0442\u0441\u044f', '\u043e\u0449\u0443\u0449\u0435\u043d\u0438\u0435', '\u0447\u0442\u043e', '\u0430\u0432\u0442\u043e\u0440\u044b', '\u043a\u0443\u0440\u0438\u043b\u0438', '\u0447\u0442\u043e', '\u0442\u043e', 'd'])],       dtype=object) <\/code><\/pre>\n<p>\u0412 \u043d\u0430\u0448\u0435\u043c \u043f\u0440\u0438\u043c\u0435\u0440\u0435 \u043c\u044b \u043f\u0440\u0438\u043c\u0435\u043d\u0438\u043b\u0438 \u0442\u043e\u043b\u044c\u043a\u043e \u043f\u0440\u0438\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u043a \u0441\u0442\u0440\u043e\u0447\u043d\u044b\u043c \u0431\u0443\u043a\u0432\u0430\u043c \u0438 \u0443\u0434\u0430\u043b\u0435\u043d\u0438\u0435 \u0443\u0434\u0430\u0440\u0435\u043d\u0438\u0439 \u0432 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u0445 \u0444\u0443\u043d\u043a\u0446\u0438\u0438 gensim.tokenize: lowercase=True, deacc=True.<\/p>\n<p>\u0421\u043e\u0437\u0434\u0430\u0434\u0438\u043c \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0441\u043b\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0435\u0441\u0442\u044c \u0432\u043e \u0432\u0441\u0435\u043c \u043d\u0430\u0448\u0435\u043c \u043d\u0430\u0431\u043e\u0440\u0435 \u0442\u0435\u043a\u0441\u0442\u043e\u0432:<\/p>\n<pre><code class=\"python\">dictionary = corpora.Dictionary(df[\"tokens\"]) feature_cnt = len(dictionary.token2id) dictionary.token2id  {'d': 0,  'first_timee': 1,  '\u0436\u0435': 2,  '\u0438': 3,  '\u043d\u0430\u0441': 4,  '\u043d\u043e': 5,  '\u043e\u0431\u0449\u0435\u0441\u0442\u0432\u043e': 6,  '\u043f\u043e\u0432\u0435\u0440\u044c': 7,  '\u043f\u0440\u0435\u0434\u043c\u0435\u0442': 8,  '\u043f\u0440\u043e\u0444\u0438\u043b\u0438\u0440\u0443\u044e\u0449\u0438\u0438': 9,  '\u0441\u0430\u043c\u043e\u0435': 10,  '\u0442\u0438\u043f\u0430': 11,  '\u0442\u043e': 12,  '\u0443': 13,  '\u0445\u043e\u0442\u044c': 14,  '\u0448\u043a\u043e\u043b\u043e\u0442\u0430': 15,  '\u044f': 16,  '\u0432\u0441\u0435': 17,  '\u0434\u0430': 18,  '\u043b\u0443\u0447\u0448\u0435': 19, \u2026 <\/code><\/pre>\n<p>\u041a\u0430\u0436\u0434\u043e\u0435 \u043d\u043e\u0432\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442 \u0441\u0432\u043e\u0439 \u043d\u043e\u043c\u0435\u0440. \u0414\u043b\u044f \u0434\u0430\u043b\u044c\u043d\u0435\u0439\u0448\u0435\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u044f \u043d\u043e\u043c\u0435\u0440\u0430 \u0441\u043b\u043e\u0432 \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u0435 \u043f\u043e\u0445\u043e\u0434\u044f\u0442 \u043d\u0430\u043c\u043d\u043e\u0433\u043e \u043b\u0443\u0447\u0448\u0435, \u0447\u0435\u043c \u0441\u0430\u043c\u0438 \u0441\u043b\u043e\u0432\u0430. \u0422\u0435\u043f\u0435\u0440\u044c \u043d\u0443\u0436\u043d\u043e \u0441\u043e\u0437\u0434\u0430\u0442\u044c \u043a\u043e\u0440\u043f\u0443\u0441, \u043f\u0440\u0435\u0432\u0440\u0430\u0442\u0438\u0432 \u043d\u0430\u0448\u0438 \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0435 \u0442\u0435\u043a\u0441\u0442\u044b \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u044b (\u043d\u0430\u0437\u044b\u0432\u0430\u044e\u0442\u0441\u044f bow \u2013 bag of words \u2013 \u043c\u0435\u0448\u043e\u043a \u0441\u043b\u043e\u0432). \u0412\u0435\u043a\u0442\u043e\u0440 \u0432 \u0434\u0430\u043d\u043d\u043e\u043c \u0441\u043b\u0443\u0447\u0430\u0435 \u2014 \u0441\u043f\u0438\u0441\u043e\u043a \u043f\u0430\u0440 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0439 \u00ab\u043d\u043e\u043c\u0435\u0440 \u0441\u043b\u043e\u0432\u0430 \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u0435 : \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0442\u0430\u043a\u0438\u0445 \u0441\u043b\u043e\u0432 \u0432 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u043e\u043c \u0442\u0435\u043a\u0441\u0442\u0435\u00bb.<\/p>\n<pre><code class=\"python\">corpus = [dictionary.doc2bow(text) for text in df[\"tokens\"]] corpus  [[(0, 1),   (1, 1),   (2, 1),   (3, 3),   (4, 1),   (5, 1),   (6, 1),   (7, 1),   (8, 1),   (9, 2),   (10, 1),   (11, 1),   (12, 1),   (13, 1),   (14, 2),   (15, 1),   (16, 1), \u2026 <\/code><\/pre>\n<p>\u041f\u0440\u0435\u043b\u0435\u0441\u0442\u044c \u0442\u0430\u043a\u043e\u0433\u043e \u0432\u0435\u043a\u0442\u043e\u0440\u0430 \u0432 \u0442\u043e\u043c, \u0447\u0442\u043e, \u0432 \u043e\u0442\u043b\u0438\u0447\u0438\u0435 \u043e\u0442 \u0442\u0435\u043a\u0441\u0442\u043e\u0432, \u0441 \u043d\u0438\u043c \u043c\u043e\u0436\u043d\u043e \u043f\u0440\u043e\u0432\u043e\u0434\u0438\u0442\u044c \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u0438 \u043c\u0430\u0442\u0440\u0438\u0447\u043d\u043e\u0433\u043e \u0443\u043c\u043d\u043e\u0436\u0435\u043d\u0438\u044f, \u043f\u043e\u0434 \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0438\u0434\u0435\u0430\u043b\u044c\u043d\u043e \u0437\u0430\u0442\u043e\u0447\u0435\u043d\u044b \u0432\u044b\u0447\u0438\u0441\u043b\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0435 \u043c\u043e\u0449\u043d\u043e\u0441\u0442\u0438 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u043e\u0440\u0430 \u0438 \u0432\u0438\u0434\u0435\u043e\u043a\u0430\u0440\u0442\u044b, \u0447\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0443 \u0434\u0430\u0436\u0435 \u0441\u0430\u043c\u044b\u0445 \u043e\u0433\u0440\u043e\u043c\u043d\u044b\u0445 \u043d\u0430\u0431\u043e\u0440\u043e\u0432 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u043e\u0447\u0435\u043d\u044c \u0431\u044b\u0441\u0442\u0440\u043e\u0439.<\/p>\n<p>\u0418\u043c\u0435\u043d\u043d\u043e \u044d\u0442\u0438\u043c \u0437\u0430\u0439\u043c\u0435\u0442\u0441\u044f \u043c\u043e\u0434\u0435\u043b\u044c tf-idf. \u0421\u0430\u043c\u0430 \u043f\u043e \u0441\u0435\u0431\u0435 \u0430\u0431\u0431\u0440\u0435\u0432\u0438\u0430\u0442\u0443\u0440\u0430 TF-IDF \u0440\u0430\u0441\u0448\u0438\u0444\u0440\u043e\u0432\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u043a\u0430\u043a TF \u2014 term frequency, IDF \u2014 inverse document frequency, \u0442\u043e \u0435\u0441\u0442\u044c \u043e\u0442\u043d\u043e\u0448\u0435\u043d\u0438\u0435 \u0447\u0430\u0441\u0442\u043e\u0442\u044b \u0443\u043f\u043e\u0442\u0440\u0435\u0431\u043b\u0435\u043d\u0438\u044f \u0441\u043b\u043e\u0432\u0430 \u0432 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u043e\u043c \u0442\u0435\u043a\u0441\u0442\u0435 \u043a \u0447\u0430\u0441\u0442\u043e\u0442\u0435 \u0443\u043f\u043e\u0442\u0440\u0435\u0431\u043b\u0435\u043d\u0438\u044f \u0441\u043b\u043e\u0432\u0430 \u0432\u043e \u0432\u0441\u0435\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0445. \u041f\u043e\u0441\u0442\u0440\u043e\u0435\u043d\u043d\u0430\u044f \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u0442\u0430\u043a\u043e\u0439 \u043c\u0435\u0440\u044b \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u0440\u0435\u043a\u0440\u0430\u0441\u043d\u043e \u043f\u043e\u0434\u0445\u043e\u0434\u0438\u0442 \u0434\u043b\u044f \u043f\u043e\u0438\u0441\u043a\u0430 \u043f\u043e\u0445\u043e\u0436\u0438\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432, \u043f\u043e\u0441\u043a\u043e\u043b\u044c\u043a\u0443 \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u0441\u0440\u0430\u0432\u043d\u0438\u0432\u0430\u0442\u044c \u0441\u043e\u0432\u043e\u043a\u0443\u043f\u043d\u044b\u0435 \u043c\u0435\u0440\u044b \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u043c\u0435\u0436\u0434\u0443 \u0441\u043e\u0431\u043e\u0439, \u0441\u0442\u0440\u043e\u044f \u043c\u0430\u0442\u0440\u0438\u0446\u0443 \u043f\u043e\u0445\u043e\u0436\u0435\u0441\u0442\u0438.<\/p>\n<pre><code class=\"python\">tfidf = models.TfidfModel(corpus) index = similarities.SparseMatrixSimilarity(tfidf[corpus],num_features = feature_cnt)<\/code><\/pre>\n<p>\u041a\u0430\u043a \u0438\u043c\u0435\u043d\u043d\u043e \u043e\u0442\u0440\u0430\u0431\u043e\u0442\u0430\u043b\u0430 \u044d\u0442\u0430 \u043c\u043e\u0434\u0435\u043b\u044c \u043c\u044b \u0441\u043c\u043e\u0436\u0435\u043c \u0443\u0432\u0438\u0434\u0435\u0442\u044c \u043d\u0430 \u043f\u0440\u0438\u043c\u0435\u0440\u0435, \u043f\u043e\u0441\u0442\u0440\u043e\u0438\u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u043d\u0430\u0448\u0438\u0445 \u043e\u043f\u043e\u0440\u043d\u044b\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0438 \u043f\u043e\u043b\u0443\u0447\u0438\u0432 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u0438\u0445 \u043f\u043e\u0445\u043e\u0436\u0435\u0441\u0442\u0435\u0439 \u0438\u0437 \u043c\u0430\u0442\u0440\u0438\u0446\u044b.<\/p>\n<pre><code class=\"python\">for text in texts_to_compare:     kw_vector = dictionary.doc2bow(tokenize(text))     df[text] = index[tfidf[kw_vector]]<\/code><\/pre>\n<figure class=\"full-width\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/2b6\/9d1\/dea\/2b69d1dead11c1409a795d4c8c16cbbe.png\" width=\"1024\" height=\"494\"><figcaption><\/figcaption><\/figure>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043c\u044b \u043c\u043e\u0436\u0435\u043c \u0438\u0437\u0431\u0430\u0432\u0438\u0442\u044c\u0441\u044f \u043e\u0442 \u0437\u0430\u0432\u0435\u0434\u043e\u043c\u043e \u043d\u0435\u043f\u043e\u0445\u043e\u0436\u0438\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432, \u043f\u043e\u0441\u0447\u0438\u0442\u0430\u0432 \u0441\u0443\u043c\u043c\u0443 \u0432\u0435\u0441\u043e\u0432 \u0438 \u043e\u0441\u0442\u0430\u0432\u0438\u0432 \u0442\u0435\u043a\u0441\u0442\u044b \u0441 \u0441\u0430\u043c\u044b\u043c\u0438 \u0432\u044b\u0441\u043e\u043a\u0438\u043c\u0438 \u0441\u0443\u043c\u043c\u0430\u043c\u0438. \u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u043f\u043e\u0438\u0441\u043a\u0430 \u0441\u043b\u043e\u0432 \u043f\u0440\u0438 \u043f\u043e\u043c\u043e\u0449\u0438 \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u044b\u0445 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u0439, \u043c\u0435\u0436\u0434\u0443 \u043f\u0440\u043e\u0447\u0438\u043c, \u0442\u043e\u0436\u0435 \u043c\u043e\u0436\u043d\u043e \u0432\u043a\u043b\u044e\u0447\u0438\u0442\u044c \u0432 \u044d\u0442\u0443 \u0441\u0443\u043c\u043c\u0443, \u0443\u043c\u0435\u043d\u044c\u0448\u0438\u0432 \u0438\u0445 \u0437\u043d\u0430\u0447\u0438\u043c\u043e\u0441\u0442\u044c.<\/p>\n<pre><code class=\"python\">df[\"sum\"] = 0 for text in texts_to_compare:     df[\"sum\"] = df[\"sum\"]+df[text] for word in regex_queries:     df[\"sum\"] = df[\"sum\"]+df[word]\/5  <\/code><\/pre>\n<p>\u0418\u0437\u0431\u0430\u0432\u043b\u044f\u0442\u044c\u0441\u044f \u043e\u0442 \u043b\u0438\u0448\u043d\u0438\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u043c\u043e\u0436\u043d\u043e \u043e\u0431\u0440\u0435\u0437\u0430\u0432 \u043f\u043e \u043f\u043e\u0440\u043e\u0433\u0443 \u0441\u0443\u043c\u043c\u044b, \u0438\u043b\u0438 \u043e\u0442\u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u0430\u0432 \u043f\u043e \u0441\u0443\u043c\u043c\u0435 \u0438 \u043e\u0431\u0440\u0435\u0437\u0430\u0432 \u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u043f\u043e \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0443 \u0442\u0435\u043a\u0441\u0442\u043e\u0432.<\/p>\n<pre><code class=\"python\">df[\"sum\"].value_counts(bins=5) (-0.0022700000000000003, 0.254]    113040 (0.254, 0.508]                       1829 (0.508, 0.762]                         31 (0.762, 1.016]                          7 (1.016, 1.269]                          4<\/code><\/pre>\n<p>\u041d\u0430 \u044d\u0442\u043e\u043c \u044d\u0442\u0430\u043f\u0435 python \u0443\u0436\u0435 \u043d\u0435 \u043d\u0443\u0436\u0435\u043d, \u043f\u0440\u043e\u0434\u043e\u043b\u0436\u0430\u0442\u044c \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u0443\u0434\u043e\u0431\u043d\u0435\u0435 \u0432 excel:<\/p>\n<pre><code class=\"python\">df[df[\"sum\"]&gt;0.250].to_excel(\"\u043f\u043e\u0445\u043e\u0436\u0438\u0435 \u0442\u0435\u043a\u0441\u0442\u044b.xlsx\")<\/code><\/pre>\n<figure class=\"full-width\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/0b8\/8be\/518\/0b88be518887c97f9fb4a59c916b4cec.png\" width=\"1024\" height=\"367\"><figcaption><\/figcaption><\/figure>\n<p>\u041f\u0440\u043e\u0432\u0435\u0440\u043a\u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0430 \u0438 \u043f\u043e\u0438\u0441\u043a \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0438 \u0441\u043b\u043e\u0432 \u0434\u043b\u044f \u0443\u043b\u0443\u0447\u0448\u0435\u043d\u0438\u044f \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u0430 \u043a\u043e\u043c\u0444\u043e\u0440\u0442\u043d\u043e \u043f\u0440\u043e\u0445\u043e\u0434\u0438\u0442 \u0432 Excel, \u0437\u0430 \u0441\u0447\u0435\u0442 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u044f \u0444\u0438\u043b\u044c\u0442\u0440\u043e\u0432 \u0438 \u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u043e\u043a.<\/p>\n<p>\u0412\u043e\u0442 \u043f\u0440\u0438\u043c\u0435\u0440, \u043e\u0442\u0441\u043e\u0440\u0442\u0438\u0440\u0443\u0435\u043c \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043f\u043e \u043f\u043e\u0445\u043e\u0436\u0435\u0441\u0442\u0438 \u043d\u0430 \u0441\u0430\u043c\u044b\u0439 \u043f\u0435\u0440\u0432\u044b\u0439 \u043e\u043f\u043e\u0440\u043d\u044b\u0439 \u0442\u0435\u043a\u0441\u0442 (\u043e\u043d, \u0440\u0430\u0437\u0443\u043c\u0435\u0435\u0442\u0441\u044f, \u043e\u043a\u0430\u0436\u0435\u0442\u0441\u044f \u043d\u0430 \u0441\u0430\u043c\u043e\u043c \u043f\u0435\u0440\u0432\u043e\u043c \u043c\u0435\u0441\u0442\u0435 \u043f\u0440\u0438 \u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u043a\u0435):<\/p>\n<figure class=\"full-width\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/a73\/192\/d0d\/a73192d0da6b045616f23103c48bb700.png\" width=\"1024\" height=\"441\"><figcaption><\/figcaption><\/figure>\n<p>\u0412\u0438\u0434\u043d\u043e, \u0447\u0442\u043e \u0445\u043e\u0442\u044c \u043c\u044b \u0438 \u043d\u0435 \u0443\u043a\u0430\u0437\u044b\u0432\u0430\u043b\u0438 \u043c\u043e\u0434\u0435\u043b\u0438 \u044f\u0432\u043d\u043e \u0442\u0430\u043a\u0438\u0435 \u0441\u043b\u043e\u0432\u0430 \u043a\u0430\u043a \u00ab\u0448\u043a\u043e\u043b\u043e\u0442\u0430\u00bb, \u00ab\u043e\u0431\u0449\u0435\u0441\u0442\u0432\u043e\u00bb \u0438 \u00ab\u043f\u0440\u0435\u0434\u043c\u0435\u0442\u00bb, \u043e\u043d\u0430 \u043d\u0430\u0448\u043b\u0430 \u043f\u043e \u043d\u0438\u043c \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0435 \u0442\u0435\u043a\u0441\u0442\u044b, \u043f\u043e\u0441\u043a\u043e\u043b\u044c\u043a\u0443 \u044d\u0442\u0438 \u0441\u043b\u043e\u0432\u0430 \u043e\u043a\u0430\u0437\u0430\u043b\u0438\u0441\u044c \u0441\u0430\u043c\u044b\u043c\u0438 \u0437\u043d\u0430\u0447\u0438\u043c\u044b\u043c\u0438.<\/p>\n<p>\u041f\u043e\u0441\u043b\u0435 \u043d\u0430\u0445\u043e\u0436\u0434\u0435\u043d\u0438\u044f \u043d\u0443\u0436\u043d\u044b\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0441\u0430\u043c\u044b\u0435 \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0438\u0435 \u0438\u0437 \u043d\u0438\u0445 \u043c\u043e\u0436\u043d\u043e \u043e\u0442\u043f\u0440\u0430\u0432\u0438\u0442\u044c \u0432 \u043d\u0430\u0447\u0430\u043b\u043e \u0441\u043a\u0440\u0438\u043f\u0442\u0430, \u0434\u043e\u0431\u0430\u0432\u0438\u0432 \u0432 \u0441\u043f\u0438\u0441\u043e\u043a texts_to_compare, \u0443\u0442\u043e\u0447\u043d\u044f\u044f \u0438\u043b\u0438 \u0443\u0433\u043b\u0443\u0431\u043b\u044f\u044f \u043f\u043e\u0438\u0441\u043a.<\/p>\n<p><a href=\"https:\/\/github.com\/RomanKrekhno\/gensim_example\" rel=\"noopener noreferrer nofollow\">\u0421\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043a\u043e\u0434&nbsp;<\/a><\/p>\n<\/div>\n<p> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/post\/542048\/\"> https:\/\/habr.com\/ru\/post\/542048\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"\n<div class=\"post__text post__text_v2\" id=\"post-content-body\">\n<figure class=\"full-width\"><figcaption><\/figcaption><\/figure>\n<p>\u0411\u044b\u0432\u0430\u0435\u0442 \u0442\u0430\u043a, \u0447\u0442\u043e \u043a\u0440\u0438\u0442\u0435\u0440\u0438\u0438 \u043f\u043e\u0438\u0441\u043a\u0430 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u0441\u043b\u043e\u0436\u043d\u044b, \u0447\u0442\u043e\u0431\u044b \u043e\u0431\u043e\u0439\u0442\u0438\u0441\u044c \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u044b\u043c\u0438 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u044f\u043c\u0438. \u0412 \u0442\u0430\u043a\u0438\u0445 \u0441\u043b\u0443\u0447\u0430\u044f\u0445 \u043d\u0430 \u043f\u043e\u043c\u043e\u0449\u044c \u043f\u0440\u0438\u0445\u043e\u0434\u0438\u0442 ML. \u0415\u0441\u043b\u0438 \u0438\u0437 \u0441\u043f\u0438\u0441\u043a\u0430 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0432\u044b\u0431\u0440\u0430\u0442\u044c \u0441\u0430\u043c\u044b\u0439 \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0438\u0439 \u0434\u043b\u044f \u043d\u0430\u0441, \u043c\u043e\u0436\u043d\u043e \u0432\u044b\u044f\u0441\u043d\u0438\u0442\u044c \u043f\u043e\u0445\u043e\u0436\u0435\u0441\u0442\u044c \u0432\u0441\u0435\u0445 \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u043d\u0430 \u044d\u0442\u043e\u0442. \u041f\u043e\u0445\u043e\u0436\u0435\u0441\u0442\u044c(similarity) \u044d\u0442\u043e \u0447\u0438\u0441\u043b\u0435\u043d\u043d\u0430\u044f \u043c\u0435\u0440\u0430, \u0447\u0435\u043c \u0432\u044b\u0448\u0435 \u2013 \u0442\u0435\u043c \u0431\u043e\u043b\u0435\u0435 \u0442\u0435\u043a\u0441\u0442 \u043f\u043e\u0445\u043e\u0436, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u043f\u0440\u0438 \u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u043a\u0435 \u043f\u043e \u0443\u0431\u044b\u0432\u0430\u043d\u0438\u044e \u043f\u043e \u044d\u0442\u043e\u043c\u0443 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0443 \u043c\u044b \u0443\u0432\u0438\u0434\u0438\u043c \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0438\u0435 \u043d\u0430\u043c \u0442\u0435\u043a\u0441\u0442\u044b \u0438\u0437 \u0432\u044b\u0431\u043e\u0440\u043a\u0438.<\/p>\n<p>\u0412 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u043f\u0440\u0438\u043c\u0435\u0440\u0430 \u0432\u043e\u0437\u044c\u043c\u0435\u043c \u043b\u044e\u0431\u043e\u0439 \u043d\u0430\u0431\u043e\u0440 \u0442\u0435\u043a\u0441\u0442\u043e\u0432. \u0417\u0434\u0435\u0441\u044c&nbsp;<a href=\"http:\/\/study.mokoron.com\/\" rel=\"noopener noreferrer nofollow\">http:\/\/study.mokoron.com\/<\/a> \u043c\u043e\u0436\u043d\u043e \u0441\u043a\u0430\u0447\u0430\u0442\u044c \u043d\u0435\u0431\u043e\u043b\u044c\u0448\u043e\u0435 csv \u0441 \u0442\u0432\u0438\u0442\u0430\u043c\u0438.&nbsp; \u0412 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u0439 \u0440\u0430\u0431\u043e\u0442\u0435 \u044d\u0442\u043e \u043c\u043e\u0433\u0443\u0442 \u0431\u044b\u0442\u044c \u0440\u0430\u0437\u043d\u043e\u0433\u043e \u0440\u043e\u0434\u0430 \u043a\u043e\u043c\u043c\u0435\u043d\u0442\u0430\u0440\u0438\u0438, \u043e\u0442\u0432\u0435\u0442\u044b \u043e\u0442 \u0442\u0435\u0445\u043f\u043e\u0434\u0434\u0435\u0440\u0436\u043a\u0438, \u0437\u0430\u043f\u0440\u043e\u0441\u044b \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u0435\u0439. \u0422\u0430\u043a \u0438\u043b\u0438 \u0438\u043d\u0430\u0447\u0435, \u0438\u043c\u043f\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u0430\u0432 \u0432\u0441\u0435 \u043d\u0443\u0436\u043d\u044b\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438, \u0437\u0430\u0433\u0440\u0443\u0437\u0438\u043c \u0432 pandas \u043d\u0430\u0448 \u0441\u043f\u0438\u0441\u043e\u043a \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0438 \u0432\u0437\u0433\u043b\u044f\u043d\u0435\u043c \u043d\u0430 \u043f\u0435\u0440\u0432\u044b\u0435 \u0438\u0437 \u043d\u0438\u0445:<\/p>\n<pre><code class=\"python\">import pandas as pd import re from gensim import corpora,models,similarities from gensim.utils import tokenize df = pd.read_csv('positive.csv',sep=\";\",names = [1,2,3,\"text\",4,5,6,7,8,9,10,11])[[\"text\"]] list(df.head(5)[\"text\"].values)  ['@first_timee \u0445\u043e\u0442\u044c \u044f \u0438 \u0448\u043a\u043e\u043b\u043e\u0442\u0430, \u043d\u043e \u043f\u043e\u0432\u0435\u0440\u044c, \u0443 \u043d\u0430\u0441 \u0442\u043e \u0436\u0435 \u0441\u0430\u043c\u043e\u0435 :D \u043e\u0431\u0449\u0435\u0441\u0442\u0432\u043e \u043f\u0440\u043e\u0444\u0438\u043b\u0438\u0440\u0443\u044e\u0449\u0438\u0439 \u043f\u0440\u0435\u0434\u043c\u0435\u0442 \u0442\u0438\u043f\u0430)',  '\u0414\u0430, \u0432\u0441\u0435-\u0442\u0430\u043a\u0438 \u043e\u043d \u043d\u0435\u043c\u043d\u043e\u0433\u043e \u043f\u043e\u0445\u043e\u0436 \u043d\u0430 \u043d\u0435\u0433\u043e. \u041d\u043e \u043c\u043e\u0439 \u043c\u0430\u043b\u044c\u0447\u0438\u043a \u0432\u0441\u0435 \u0440\u0430\u0432\u043d\u043e \u043b\u0443\u0447\u0448\u0435:D',  'RT @KatiaCheh: \u041d\u0443 \u0442\u044b \u0438\u0434\u0438\u043e\u0442\u043a\u0430) \u044f \u0438\u0441\u043f\u0443\u0433\u0430\u043b\u0430\u0441\u044c \u0437\u0430 \u0442\u0435\u0431\u044f!!!',  'RT @digger2912: \"\u041a\u0442\u043e \u0442\u043e \u0432 \u0443\u0433\u043b\u0443 \u0441\u0438\u0434\u0438\u0442 \u0438 \u043f\u043e\u0433\u0438\u0431\u0430\u0435\u0442 \u043e\u0442 \u0433\u043e\u043b\u043e\u0434\u0430, \u0430 \u043c\u044b \u0435\u0449\u0451 2 \u043f\u043e\u0440\u0446\u0438\u0438 \u0432\u0437\u044f\u043b\u0438, \u0445\u043e\u0442\u044f \u0443\u0436\u0435 \u0438 \u0442\u0430\u043a \u0436\u0440\u0430\u0442\u044c \u043d\u0435 \u0445\u043e\u0442\u0438\u043c\" :DD http:\/\/t.co\/GqG6iuE2\u2026',<\/code><\/pre>\n<p>\u0421\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u044b\u0439 \u0438 \u043f\u0440\u0438\u0432\u044b\u0447\u043d\u044b\u0439 \u0441\u043f\u043e\u0441\u043e\u0431 \u043f\u043e\u0438\u0441\u043a\u0430 \u043d\u0443\u0436\u043d\u044b\u0445 \u043d\u0430\u043c \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u2013 \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u044b\u0435 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u044f. \u041e\u043d\u0438 \u043e\u0447\u0435\u043d\u044c \u0431\u044b\u0441\u0442\u0440\u043e \u0432\u044b\u043f\u043e\u043b\u043d\u044f\u044e\u0442\u0441\u044f \u0434\u0430\u0436\u0435 \u043d\u0430 \u0433\u0438\u0433\u0430\u043d\u0442\u0441\u043a\u0438\u0445 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430\u0445 \u0438 \u043e\u0442\u043b\u0438\u0447\u043d\u043e \u043f\u043e\u0441\u043b\u0443\u0436\u0430\u0442 \u043d\u0430\u043c \u0432 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u0444\u0438\u043b\u044c\u0442\u0440\u043e\u0432. \u0414\u043b\u044f \u043f\u0440\u0438\u043c\u0435\u0440\u0430 \u0432\u044b\u0431\u0435\u0440\u0435\u043c \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u044b\u0435 \u0441\u043b\u043e\u0432\u0430 \u0438\u0437 \u0442\u0435\u0445, \u0447\u0442\u043e \u043c\u044b \u0442\u043e\u043b\u044c\u043a\u043e \u0447\u0442\u043e \u0432\u0438\u0434\u0435\u043b\u0438 \u0438 \u043f\u0440\u0435\u0432\u0440\u0430\u0442\u0438\u043c \u0438\u0445 \u0432 \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043a\u0438:<\/p>\n<pre><code class=\"python\">regex_queries = [\"\u0448\u043a\u043e\u043b.*\",\"\u0433\u043e\u043b\u043e\u0434.*\",\"\u0441\u0442\u0440\u0430\u0448.*\",'[^\u0430-\u044f\u0410-\u042f]\u043c\u0438[^\u0430-\u044f\u0410-\u042f]']  for word in regex_queries:     df[word] = df[\"text\"].str.count(word,flags=re.IGNORECASE)<\/code><\/pre>\n<p>\u0417\u0432\u0435\u0437\u0434\u043e\u0447\u043a\u0430 \u0441 \u0442\u043e\u0447\u043a\u043e\u0439 .* \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u0447\u0442\u043e \u043f\u043e\u0441\u043b\u0435 \u043d\u0443\u0436\u043d\u043e\u0433\u043e \u043d\u0430\u043c \u0444\u0440\u0430\u0433\u043c\u0435\u043d\u0442\u0430 \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u043b\u044e\u0431\u043e\u0439 \u043d\u0430\u0431\u043e\u0440 \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432. [^\u0430-\u044f\u0410-\u042f] \u043e\u0437\u043d\u0430\u0447\u0430\u0435\u0442 \u00ab\u043b\u044e\u0431\u043e\u0439 \u0441\u0438\u043c\u0432\u043e\u043b, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043d\u0435 \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0440\u0443\u0441\u0441\u043a\u043e\u0439 \u0431\u0443\u043a\u0432\u043e\u0439\u00bb.&nbsp; \u0412\u043e\u043e\u0431\u0449\u0435 \u0434\u043b\u044f \u0441\u043e\u0437\u0434\u0430\u043d\u0438\u044f \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u044b\u0445 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u0439 \u0443\u0434\u043e\u0431\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0441\u0430\u0439\u0442 regex. \u041c\u0435\u0442\u043e\u0434 str.count \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438 pandas \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0435\u0442 \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u043e\u0435 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u0435 \u043c\u0430\u0441\u0441\u043e\u0432\u043e \u043d\u0430 \u0432\u0435\u0441\u044c \u0434\u0430\u0442\u0430\u0441\u0435\u0442, \u0432\u044b\u0434\u0430\u0432\u0430\u044f \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u043d\u0430\u0439\u0434\u0435\u043d\u043d\u044b\u0445 \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043e\u043a. \u0424\u043b\u0430\u0433 re.IGNORECASE \u044d\u0442\u043e \u0447\u0430\u0441\u0442\u044c \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u0438 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438 \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u044b\u0445 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u0439 regex, \u0437\u0430\u0441\u0442\u0430\u0432\u043b\u044f\u044e\u0449\u0430\u044f \u0435\u0435 \u0438\u0441\u043a\u0430\u0442\u044c \u0432\u043d\u0435 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438 \u043e\u0442 \u0442\u043e\u0433\u043e, \u0437\u0430\u0433\u043b\u0430\u0432\u043d\u044b\u0435 \u0432 \u0442\u0435\u043a\u0441\u0442\u0435 \u0431\u0443\u043a\u0432\u044b \u0438\u043b\u0438 \u0441\u0442\u0440\u043e\u0447\u043d\u044b\u0435.<\/p>\n<p>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u0432\u044b\u043f\u043e\u043b\u043d\u0435\u043d\u0438\u044f \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u0442\u0430\u043a:<\/p>\n<figure class=\"\"><figcaption><\/figcaption><\/figure>\n<p>\u042d\u0442\u043e\u0433\u043e \u0438\u043d\u043e\u0433\u0434\u0430 \u0431\u044b\u0432\u0430\u0435\u0442 \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e, \u043d\u043e \u0434\u0430\u0436\u0435 \u0435\u0441\u043b\u0438 \u043d\u0435\u0442, \u0442\u0430\u043a\u0443\u044e \u043f\u0440\u0435\u0434\u0432\u0430\u0440\u0438\u0442\u0435\u043b\u044c\u043d\u0443\u044e \u0440\u0430\u0431\u043e\u0442\u0443 \u0432\u0441\u0435\u0433\u0434\u0430 \u0441\u0442\u043e\u0438\u0442 \u043f\u0440\u043e\u0432\u043e\u0434\u0438\u0442\u044c \u0434\u043b\u044f \u043e\u0431\u043b\u0435\u0433\u0447\u0435\u043d\u0438\u044f \u0444\u0438\u043b\u044c\u0442\u0440\u0430\u0446\u0438\u0438. \u0415\u0441\u043b\u0438 \u043c\u044b \u0442\u043e\u0447\u043d\u043e \u0437\u043d\u0430\u0435\u043c, \u0447\u0442\u043e \u0432 \u0442\u0435\u043a\u0441\u0442\u0435 \u0432\u0441\u0442\u0440\u0435\u0442\u044f\u0442\u0441\u044f \u0441\u043b\u043e\u0432\u0430 \u00ab\u0431\u0443\u043c\u0430\u0436\u043d\u044b\u0439 \u043d\u043e\u0441\u0438\u0442\u0435\u043b\u044c\u00bb, \u043d\u043e \u043d\u0430\u043c \u0442\u043e\u0447\u043d\u043e \u043d\u0435 \u043f\u043e\u0434\u043e\u0439\u0434\u0435\u0442 \u00ab\u043f\u043b\u0430\u0442\u0435\u0436\u043d\u044b\u0439 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u00bb, \u043c\u044b \u0434\u043e\u0431\u0430\u0432\u0438\u043c \u00ab\u0431\u0443\u043c\u0430.*\u043d\u043e\u0441\u0438\u0442\u00bb \u0438 \u00ab\u043f\u043b\u0430\u0442\u0435\u0436\u043d.*\u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u00bb \u0438 \u0432 \u0434\u0430\u043b\u044c\u043d\u0435\u0439\u0448\u0435\u043c \u043e\u0442\u0444\u0438\u043b\u044c\u0442\u0440\u0443\u0435\u043c \u0438\u0445 \u0442\u0430\u043a, \u043a\u0430\u043a \u043d\u0430\u043c \u043d\u0430\u0434\u043e.<\/p>\n<p>\u0414\u043b\u044f \u043d\u0435\u043f\u043e\u0441\u0440\u0435\u0434\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u0433\u043e \u043f\u043e\u0438\u0441\u043a\u0430 \u043f\u043e\u0445\u043e\u0436\u0438\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0441\u0442\u043e\u0438\u0442 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044e doc2bow \u0438\u0437 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438 genism, \u043f\u043e\u0441\u043a\u043e\u043b\u044c\u043a\u0443 \u043f\u043e\u043c\u0438\u043c\u043e \u043d\u0443\u0436\u043d\u044b\u0445 \u043d\u0430\u043c \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u043e\u043d\u0430 \u043f\u0440\u0435\u0434\u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u043c\u043d\u043e\u0436\u0435\u0441\u0442\u0432\u043e \u0434\u0440\u0443\u0433\u0438\u0445 \u043f\u043e\u043b\u0435\u0437\u043d\u044b\u0445 \u0444\u0443\u043d\u043a\u0446\u0438\u0439, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u044e \u0441\u043e \u0432\u0441\u0442\u0440\u043e\u0435\u043d\u043d\u043e\u0439 \u043b\u0435\u043c\u043c\u0430\u0442\u0438\u0437\u0430\u0446\u0438\u0435\u0439, \u0447\u0442\u043e \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u043f\u043e\u043b\u0435\u0437\u043d\u043e \u0432 \u0441\u043b\u0443\u0447\u0430\u0435, \u0435\u0441\u043b\u0438 \u043f\u0440\u0435\u0434\u0432\u0430\u0440\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u043d\u044b\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0434\u043b\u044f \u043b\u0435\u043c\u043c\u0430\u0442\u0438\u0437\u0430\u0446\u0438\u0438 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u043d\u0435\u043b\u044c\u0437\u044f.<\/p>\n<p>\u041f\u0435\u0440\u0432\u044b\u043c \u0434\u0435\u043b\u043e\u043c \u0432\u044b\u0434\u0435\u043b\u0438\u043c \u0442\u0435\u043a\u0441\u0442\u044b, \u043f\u043e \u043a\u043e\u0442\u043e\u0440\u044b\u043c \u0431\u0443\u0434\u0435\u0442 \u043f\u0440\u043e\u0432\u043e\u0434\u0438\u0442\u044c\u0441\u044f \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435, \u0434\u0430\u043b\u0435\u0435 \u043d\u0430\u0437\u044b\u0432\u0430\u044f \u0438\u0445 \u00ab\u043e\u043f\u043e\u0440\u043d\u044b\u0435 \u0442\u0435\u043a\u0441\u0442\u044b\u00bb.&nbsp; \u0421\u043a\u043e\u0440\u0435\u0435 \u0432\u0441\u0435\u0433\u043e, \u043f\u043e\u0441\u043b\u0435 \u043f\u0435\u0440\u0432\u043e\u0433\u043e \u044d\u0442\u0430\u043f\u0430 \u043f\u043e\u0438\u0441\u043a\u043e\u0432 \u044d\u0442\u043e\u0442 \u0441\u043f\u0438\u0441\u043e\u043a \u0440\u0430\u0441\u0448\u0438\u0440\u0438\u0442\u0441\u044f, \u043f\u043e\u0441\u043a\u043e\u043b\u044c\u043a\u0443 \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0438\u0442 \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0435 \u0432\u0430\u0440\u0438\u0430\u043d\u0442\u044b \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0438\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432. \u0412 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u043f\u0440\u0438\u043c\u0435\u0440\u0430 \u043f\u0440\u043e\u0441\u0442\u043e \u0432\u043e\u0437\u044c\u043c\u0435\u043c \u043f\u0435\u0440\u0432\u044b\u0435 5 \u0442\u0432\u0438\u0442\u043e\u0432, \u0433\u043b\u0430\u0432\u043d\u043e\u0435 \u043f\u043e\u043c\u043d\u0438\u0442\u044c, \u0447\u0442\u043e \u044d\u0442\u0438 \u0442\u0435\u043a\u0441\u0442\u044b \u0442\u0430\u043a \u0436\u0435 \u0434\u043e\u043b\u0436\u043d\u044b \u0431\u044b\u0442\u044c \u0432 \u043e\u0431\u0449\u0435\u043c \u043d\u0430\u0431\u043e\u0440\u0435.<\/p>\n<pre><code class=\"python\">texts_to_compare = list(df.head(5)[\"text\"])  ['@first_timee \u0445\u043e\u0442\u044c \u044f \u0438 \u0448\u043a\u043e\u043b\u043e\u0442\u0430, \u043d\u043e \u043f\u043e\u0432\u0435\u0440\u044c, \u0443 \u043d\u0430\u0441 \u0442\u043e \u0436\u0435 \u0441\u0430\u043c\u043e\u0435 :D \u043e\u0431\u0449\u0435\u0441\u0442\u0432\u043e \u043f\u0440\u043e\u0444\u0438\u043b\u0438\u0440\u0443\u044e\u0449\u0438\u0439 \u043f\u0440\u0435\u0434\u043c\u0435\u0442 \u0442\u0438\u043f\u0430)',  '\u0414\u0430, \u0432\u0441\u0435-\u0442\u0430\u043a\u0438 \u043e\u043d \u043d\u0435\u043c\u043d\u043e\u0433\u043e \u043f\u043e\u0445\u043e\u0436 \u043d\u0430 \u043d\u0435\u0433\u043e. \u041d\u043e \u043c\u043e\u0439 \u043c\u0430\u043b\u044c\u0447\u0438\u043a \u0432\u0441\u0435 \u0440\u0430\u0432\u043d\u043e \u043b\u0443\u0447\u0448\u0435:D',  'RT @KatiaCheh: \u041d\u0443 \u0442\u044b \u0438\u0434\u0438\u043e\u0442\u043a\u0430) \u044f \u0438\u0441\u043f\u0443\u0433\u0430\u043b\u0430\u0441\u044c \u0437\u0430 \u0442\u0435\u0431\u044f!!!',  'RT @digger2912: \"\u041a\u0442\u043e \u0442\u043e \u0432 \u0443\u0433\u043b\u0443 \u0441\u0438\u0434\u0438\u0442 \u0438 \u043f\u043e\u0433\u0438\u0431\u0430\u0435\u0442 \u043e\u0442 \u0433\u043e\u043b\u043e\u0434\u0430, \u0430 \u043c\u044b \u0435\u0449\u0451 2 \u043f\u043e\u0440\u0446\u0438\u0438 \u0432\u0437\u044f\u043b\u0438, \u0445\u043e\u0442\u044f \u0443\u0436\u0435 \u0438 \u0442\u0430\u043a \u0436\u0440\u0430\u0442\u044c \u043d\u0435 \u0445\u043e\u0442\u0438\u043c\" :DD http:\/\/t.co\/GqG6iuE2\u2026',  '@irina_dyshkant \u0412\u043e\u0442 \u0447\u0442\u043e \u0437\u043d\u0430\u0447\u0438\u0442 \u0441\u0442\u0440\u0430\u0448\u0438\u043b\u043a\u0430 :D\\n\u041d\u043e \u0431\u043b\u0438\u043d,\u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0435\u0432 \u0432\u0441\u0435 \u0447\u0430\u0441\u0442\u0438,\u0443 \u0442\u0435\u0431\u044f \u0441\u043e\u0437\u0434\u0430\u0441\u0442\u0441\u044f \u043e\u0449\u0443\u0449\u0435\u043d\u0438\u0435,\u0447\u0442\u043e \u0430\u0432\u0442\u043e\u0440\u044b \u043a\u0443\u0440\u0438\u043b\u0438 \u0447\u0442\u043e-\u0442\u043e :D']<\/code><\/pre>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0438\u0440\u0443\u0435\u043c \u0432\u0441\u0435 \u0442\u0435\u043a\u0441\u0442\u044b \u0432 \u043d\u0430\u0448\u0435\u043c \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0435. \u041d\u0430 \u044d\u0442\u043e\u043c \u044d\u0442\u0430\u043f\u0435 \u043e\u0441\u0443\u0449\u0435\u0441\u0442\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0430 \u0442\u0435\u043a\u0441\u0442\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043c\u043e\u0436\u043d\u043e \u043f\u0440\u043e\u0432\u0435\u0441\u0442\u0438 \u043c\u043d\u043e\u0436\u0435\u0441\u0442\u0432\u043e\u043c \u0441\u043f\u043e\u0441\u043e\u0431\u043e\u0432 \u043f\u0440\u0438 \u043f\u043e\u043c\u043e\u0449\u0438 \u043c\u043d\u043e\u0436\u0435\u0441\u0442\u0432\u0430 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a. \u0421\u0430\u043c\u044b\u0435 \u0440\u0430\u0441\u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0451\u043d\u043d\u044b\u0435 \u0441\u043f\u043e\u0441\u043e\u0431\u044b \u0432\u043a\u043b\u044e\u0447\u0430\u044e\u0442 \u0432 \u0441\u0435\u0431\u044f:<\/p>\n<ul>\n<li>\n<p>\u0423\u0434\u0430\u043b\u0435\u043d\u0438\u0435 \u0441\u0442\u043e\u043f \u0441\u043b\u043e\u0432, \u0442\u0430\u043a\u0438\u0445 \u043a\u0430\u043a \u00ab\u0430\u00bb, \u00ab\u0438\u00bb, \u00ab\u043d\u043e\u00bb \u0438 \u043f\u0440\u043e\u0447\u0435\u0435. \u041e\u0431\u044b\u0447\u043d\u043e \u0434\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442\u0441\u044f \u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u0441\u043e\u0431\u0440\u0430\u043d\u043d\u044b\u0435 \u0441\u043b\u043e\u0432\u0430\u0440\u0438. \u041c\u043e\u0436\u043d\u043e \u0432\u044b\u043f\u043e\u043b\u043d\u0438\u0442\u044c \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u043e\u0439 NLTK<\/p>\n<\/li>\n<li>\n<p>\u041f\u043e\u043d\u0438\u0436\u0435\u043d\u0438\u0435 \u0440\u0435\u0433\u0438\u0441\u0442\u0440\u0430 \u0441\u043b\u043e\u0432 \u0434\u043e \u0441\u0442\u0440\u043e\u0447\u043d\u044b\u0445. \u0411\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a \u0438 \u0447\u0438\u0441\u0442\u044b\u0439 python \u0441\u0430\u043c \u043f\u043e \u0441\u0435\u0431\u0435 \u043c\u043e\u0433\u0443\u0442 \u044d\u0442\u043e \u0434\u0435\u043b\u0430\u0442\u044c. \u041d\u0435\u043a\u043e\u0442\u043e\u0440\u044b\u0435, \u043c\u043e\u0433\u0443\u0442 \u0435\u0449\u0435 \u0438 \u0443\u0434\u0430\u043b\u0438\u0442\u044c \u0434\u0438\u0430\u043a\u0440\u0438\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u0437\u043d\u0430\u043a\u0438, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 gensim.<\/p>\n<\/li>\n<li>\n<p>\u041b\u0435\u043c\u043c\u0430\u0442\u0438\u0437\u0430\u0446\u0438\u044f, \u0442\u043e \u0435\u0441\u0442\u044c \u043f\u0440\u0438\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u0441\u043b\u043e\u0432\u0430 \u043a \u0441\u043b\u043e\u0432\u0430\u0440\u043d\u043e\u0439 \u0444\u043e\u0440\u043c\u0435. \u0421\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u044c \u044d\u0442\u043e\u0433\u043e \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u044f \u0437\u0430\u0432\u0438\u0441\u0438\u0442 \u043e\u0442 \u044f\u0437\u044b\u043a\u0430, \u0434\u043b\u044f \u0440\u0443\u0441\u0441\u043a\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430 \u044d\u0442\u043e\u0442 \u043f\u0440\u043e\u0446\u0435\u0441\u0441 \u043d\u0435 \u043f\u0440\u043e\u0441\u0442 \u0438 \u0442\u0440\u0435\u0431\u0443\u0435\u0442 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u0445 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a. pymystem3 \u043f\u043e\u0434\u043e\u0439\u0434\u0435\u0442, \u043d\u043e \u0432\u0430\u0436\u043d\u043e \u0432\u0441\u0435\u0433\u0434\u0430 \u043a\u043e\u043d\u0442\u0440\u043e\u043b\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e.<\/p>\n<\/li>\n<li>\n<p>\u0421\u0442\u0435\u043c\u043c\u0438\u043d\u0433, \u0438\u043b\u0438 \u043e\u0431\u0440\u0435\u0437\u043a\u0430 \u0441\u043b\u043e\u0432 \u0434\u043e \u043a\u043e\u0440\u043d\u044f. \u042d\u0442\u043e \u0431\u043e\u043b\u0435\u0435 \u044d\u043a\u0441\u0442\u0440\u0435\u043c\u0430\u043b\u044c\u043d\u044b\u0439 \u0432\u0430\u0440\u0438\u0430\u043d\u0442 \u043b\u0435\u043c\u043c\u0430\u0442\u0438\u0437\u0430\u0446\u0438\u0438, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u00ab\u0447\u0430\u0439\u043d\u0438\u043a\u00bb \u043c\u043e\u0436\u0435\u0442 \u043f\u0440\u0435\u0432\u0440\u0430\u0442\u0438\u0442\u044c \u0432 \u00ab\u0447\u0430\u0439\u00bb. \u0412\u044b\u043f\u043e\u043b\u043d\u044f\u0435\u0442\u0441\u044f \u0435\u0441\u043b\u0438 \u043f\u043e\u0442\u0435\u0440\u044f \u0441\u043c\u044b\u0441\u043b\u0430 \u043d\u0435 \u0441\u0442\u0440\u0430\u0448\u043d\u0430. \u041f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0430\u044f \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430 pymorphy \u0438 \u043d\u0430\u043f\u0438\u0441\u0430\u043d\u043d\u044b\u0435 \u043f\u043e\u0434 \u043d\u0435\u0435 \u0441\u043a\u0440\u0438\u043f\u0442\u044b \u0434\u043b\u044f \u0440\u0443\u0441\u0441\u043a\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430 \u0432 \u0434\u0443\u0445\u0435 \u0421\u0442\u0435\u043c\u043c\u0435\u0440\u0430 \u041f\u043e\u0440\u0442\u0435\u0440\u0430.<\/p>\n<\/li>\n<\/ul>\n<pre><code class=\"python\">def tokenize_in_df(strin):     try:         return list(tokenize(strin,lowercase=True, deacc=True,))     except:         return \"\" df[\"tokens\"] = df[\"text\"].apply(tokenize_in_df) df.head(5)[\"tokens\"].values  array([list(['first_timee', '\u0445\u043e\u0442\u044c', '\u044f', '\u0438', '\u0448\u043a\u043e\u043b\u043e\u0442\u0430', '\u043d\u043e', '\u043f\u043e\u0432\u0435\u0440\u044c', '\u0443', '\u043d\u0430\u0441', '\u0442\u043e', '\u0436\u0435', '\u0441\u0430\u043c\u043e\u0435', 'd', '\u043e\u0431\u0449\u0435\u0441\u0442\u0432\u043e', '\u043f\u0440\u043e\u0444\u0438\u043b\u0438\u0440\u0443\u044e\u0449\u0438\u0438', '\u043f\u0440\u0435\u0434\u043c\u0435\u0442', '\u0442\u0438\u043f\u0430']),        list(['\u0434\u0430', '\u0432\u0441\u0435', '\u0442\u0430\u043a\u0438', '\u043e\u043d', '\u043d\u0435\u043c\u043d\u043e\u0433\u043e', '\u043f\u043e\u0445\u043e\u0436', '\u043d\u0430', '\u043d\u0435\u0433\u043e', '\u043d\u043e', '\u043c\u043e\u0438', '\u043c\u0430\u043b\u044c\u0447\u0438\u043a', '\u0432\u0441\u0435', '\u0440\u0430\u0432\u043d\u043e', '\u043b\u0443\u0447\u0448\u0435', 'd']),        list(['rt', 'katiacheh', '\u043d\u0443', '\u0442\u044b', '\u0438\u0434\u0438\u043e\u0442\u043a\u0430', '\u044f', '\u0438\u0441\u043f\u0443\u0433\u0430\u043b\u0430\u0441\u044c', '\u0437\u0430', '\u0442\u0435\u0431\u044f']),        list(['rt', 'digger', '\u043a\u0442\u043e', '\u0442\u043e', '\u0432', '\u0443\u0433\u043b\u0443', '\u0441\u0438\u0434\u0438\u0442', '\u0438', '\u043f\u043e\u0433\u0438\u0431\u0430\u0435\u0442', '\u043e\u0442', '\u0433\u043e\u043b\u043e\u0434\u0430', '\u0430', '\u043c\u044b', '\u0435\u0449\u0435', '\u043f\u043e\u0440\u0446\u0438\u0438', '\u0432\u0437\u044f\u043b\u0438', '\u0445\u043e\u0442\u044f', '\u0443\u0436\u0435', '\u0438', '\u0442\u0430\u043a', '\u0436\u0440\u0430\u0442\u044c', '\u043d\u0435', '\u0445\u043e\u0442\u0438\u043c', 'dd', 'http', 't', 'co', 'gqg', 'iue']),        list(['irina_dyshkant', '\u0432\u043e\u0442', '\u0447\u0442\u043e', '\u0437\u043d\u0430\u0447\u0438\u0442', '\u0441\u0442\u0440\u0430\u0448\u0438\u043b\u043a\u0430', 'd', '\u043d\u043e', '\u0431\u043b\u0438\u043d', '\u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0435\u0432', '\u0432\u0441\u0435', '\u0447\u0430\u0441\u0442\u0438', '\u0443', '\u0442\u0435\u0431\u044f', '\u0441\u043e\u0437\u0434\u0430\u0441\u0442\u0441\u044f', '\u043e\u0449\u0443\u0449\u0435\u043d\u0438\u0435', '\u0447\u0442\u043e', '\u0430\u0432\u0442\u043e\u0440\u044b', '\u043a\u0443\u0440\u0438\u043b\u0438', '\u0447\u0442\u043e', '\u0442\u043e', 'd'])],       dtype=object) <\/code><\/pre>\n<p>\u0412 \u043d\u0430\u0448\u0435\u043c \u043f\u0440\u0438\u043c\u0435\u0440\u0435 \u043c\u044b \u043f\u0440\u0438\u043c\u0435\u043d\u0438\u043b\u0438 \u0442\u043e\u043b\u044c\u043a\u043e \u043f\u0440\u0438\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u043a \u0441\u0442\u0440\u043e\u0447\u043d\u044b\u043c \u0431\u0443\u043a\u0432\u0430\u043c \u0438 \u0443\u0434\u0430\u043b\u0435\u043d\u0438\u0435 \u0443\u0434\u0430\u0440\u0435\u043d\u0438\u0439 \u0432 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u0430\u0445 \u0444\u0443\u043d\u043a\u0446\u0438\u0438 gensim.tokenize: lowercase=True, deacc=True.<\/p>\n<p>\u0421\u043e\u0437\u0434\u0430\u0434\u0438\u043c \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u0441\u043b\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0435\u0441\u0442\u044c \u0432\u043e \u0432\u0441\u0435\u043c \u043d\u0430\u0448\u0435\u043c \u043d\u0430\u0431\u043e\u0440\u0435 \u0442\u0435\u043a\u0441\u0442\u043e\u0432:<\/p>\n<pre><code class=\"python\">dictionary = corpora.Dictionary(df[\"tokens\"]) feature_cnt = len(dictionary.token2id) dictionary.token2id  {'d': 0,  'first_timee': 1,  '\u0436\u0435': 2,  '\u0438': 3,  '\u043d\u0430\u0441': 4,  '\u043d\u043e': 5,  '\u043e\u0431\u0449\u0435\u0441\u0442\u0432\u043e': 6,  '\u043f\u043e\u0432\u0435\u0440\u044c': 7,  '\u043f\u0440\u0435\u0434\u043c\u0435\u0442': 8,  '\u043f\u0440\u043e\u0444\u0438\u043b\u0438\u0440\u0443\u044e\u0449\u0438\u0438': 9,  '\u0441\u0430\u043c\u043e\u0435': 10,  '\u0442\u0438\u043f\u0430': 11,  '\u0442\u043e': 12,  '\u0443': 13,  '\u0445\u043e\u0442\u044c': 14,  '\u0448\u043a\u043e\u043b\u043e\u0442\u0430': 15,  '\u044f': 16,  '\u0432\u0441\u0435': 17,  '\u0434\u0430': 18,  '\u043b\u0443\u0447\u0448\u0435': 19, \u2026 <\/code><\/pre>\n<p>\u041a\u0430\u0436\u0434\u043e\u0435 \u043d\u043e\u0432\u043e\u0435 \u0441\u043b\u043e\u0432\u043e \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442 \u0441\u0432\u043e\u0439 \u043d\u043e\u043c\u0435\u0440. \u0414\u043b\u044f \u0434\u0430\u043b\u044c\u043d\u0435\u0439\u0448\u0435\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u044f \u043d\u043e\u043c\u0435\u0440\u0430 \u0441\u043b\u043e\u0432 \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u0435 \u043f\u043e\u0445\u043e\u0434\u044f\u0442 \u043d\u0430\u043c\u043d\u043e\u0433\u043e \u043b\u0443\u0447\u0448\u0435, \u0447\u0435\u043c \u0441\u0430\u043c\u0438 \u0441\u043b\u043e\u0432\u0430. \u0422\u0435\u043f\u0435\u0440\u044c \u043d\u0443\u0436\u043d\u043e \u0441\u043e\u0437\u0434\u0430\u0442\u044c \u043a\u043e\u0440\u043f\u0443\u0441, \u043f\u0440\u0435\u0432\u0440\u0430\u0442\u0438\u0432 \u043d\u0430\u0448\u0438 \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0435 \u0442\u0435\u043a\u0441\u0442\u044b \u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u044b (\u043d\u0430\u0437\u044b\u0432\u0430\u044e\u0442\u0441\u044f bow \u2013 bag of words \u2013 \u043c\u0435\u0448\u043e\u043a \u0441\u043b\u043e\u0432). \u0412\u0435\u043a\u0442\u043e\u0440 \u0432 \u0434\u0430\u043d\u043d\u043e\u043c \u0441\u043b\u0443\u0447\u0430\u0435 \u2014 \u0441\u043f\u0438\u0441\u043e\u043a \u043f\u0430\u0440 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0439 \u00ab\u043d\u043e\u043c\u0435\u0440 \u0441\u043b\u043e\u0432\u0430 \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u0435 : \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0442\u0430\u043a\u0438\u0445 \u0441\u043b\u043e\u0432 \u0432 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u043e\u043c \u0442\u0435\u043a\u0441\u0442\u0435\u00bb.<\/p>\n<pre><code class=\"python\">corpus = [dictionary.doc2bow(text) for text in df[\"tokens\"]] corpus  [[(0, 1),   (1, 1),   (2, 1),   (3, 3),   (4, 1),   (5, 1),   (6, 1),   (7, 1),   (8, 1),   (9, 2),   (10, 1),   (11, 1),   (12, 1),   (13, 1),   (14, 2),   (15, 1),   (16, 1), \u2026 <\/code><\/pre>\n<p>\u041f\u0440\u0435\u043b\u0435\u0441\u0442\u044c \u0442\u0430\u043a\u043e\u0433\u043e \u0432\u0435\u043a\u0442\u043e\u0440\u0430 \u0432 \u0442\u043e\u043c, \u0447\u0442\u043e, \u0432 \u043e\u0442\u043b\u0438\u0447\u0438\u0435 \u043e\u0442 \u0442\u0435\u043a\u0441\u0442\u043e\u0432, \u0441 \u043d\u0438\u043c \u043c\u043e\u0436\u043d\u043e \u043f\u0440\u043e\u0432\u043e\u0434\u0438\u0442\u044c \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u0438 \u043c\u0430\u0442\u0440\u0438\u0447\u043d\u043e\u0433\u043e \u0443\u043c\u043d\u043e\u0436\u0435\u043d\u0438\u044f, \u043f\u043e\u0434 \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0438\u0434\u0435\u0430\u043b\u044c\u043d\u043e \u0437\u0430\u0442\u043e\u0447\u0435\u043d\u044b \u0432\u044b\u0447\u0438\u0441\u043b\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0435 \u043c\u043e\u0449\u043d\u043e\u0441\u0442\u0438 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u043e\u0440\u0430 \u0438 \u0432\u0438\u0434\u0435\u043e\u043a\u0430\u0440\u0442\u044b, \u0447\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0443 \u0434\u0430\u0436\u0435 \u0441\u0430\u043c\u044b\u0445 \u043e\u0433\u0440\u043e\u043c\u043d\u044b\u0445 \u043d\u0430\u0431\u043e\u0440\u043e\u0432 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u043e\u0447\u0435\u043d\u044c \u0431\u044b\u0441\u0442\u0440\u043e\u0439.<\/p>\n<p>\u0418\u043c\u0435\u043d\u043d\u043e \u044d\u0442\u0438\u043c \u0437\u0430\u0439\u043c\u0435\u0442\u0441\u044f \u043c\u043e\u0434\u0435\u043b\u044c tf-idf. \u0421\u0430\u043c\u0430 \u043f\u043e \u0441\u0435\u0431\u0435 \u0430\u0431\u0431\u0440\u0435\u0432\u0438\u0430\u0442\u0443\u0440\u0430 TF-IDF \u0440\u0430\u0441\u0448\u0438\u0444\u0440\u043e\u0432\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u043a\u0430\u043a TF \u2014 term frequency, IDF \u2014 inverse document frequency, \u0442\u043e \u0435\u0441\u0442\u044c \u043e\u0442\u043d\u043e\u0448\u0435\u043d\u0438\u0435 \u0447\u0430\u0441\u0442\u043e\u0442\u044b \u0443\u043f\u043e\u0442\u0440\u0435\u0431\u043b\u0435\u043d\u0438\u044f \u0441\u043b\u043e\u0432\u0430 \u0432 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u043e\u043c \u0442\u0435\u043a\u0441\u0442\u0435 \u043a \u0447\u0430\u0441\u0442\u043e\u0442\u0435 \u0443\u043f\u043e\u0442\u0440\u0435\u0431\u043b\u0435\u043d\u0438\u044f \u0441\u043b\u043e\u0432\u0430 \u0432\u043e \u0432\u0441\u0435\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0445. \u041f\u043e\u0441\u0442\u0440\u043e\u0435\u043d\u043d\u0430\u044f \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u0442\u0430\u043a\u043e\u0439 \u043c\u0435\u0440\u044b \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u0440\u0435\u043a\u0440\u0430\u0441\u043d\u043e \u043f\u043e\u0434\u0445\u043e\u0434\u0438\u0442 \u0434\u043b\u044f \u043f\u043e\u0438\u0441\u043a\u0430 \u043f\u043e\u0445\u043e\u0436\u0438\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432, \u043f\u043e\u0441\u043a\u043e\u043b\u044c\u043a\u0443 \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u0441\u0440\u0430\u0432\u043d\u0438\u0432\u0430\u0442\u044c \u0441\u043e\u0432\u043e\u043a\u0443\u043f\u043d\u044b\u0435 \u043c\u0435\u0440\u044b \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u043c\u0435\u0436\u0434\u0443 \u0441\u043e\u0431\u043e\u0439, \u0441\u0442\u0440\u043e\u044f \u043c\u0430\u0442\u0440\u0438\u0446\u0443 \u043f\u043e\u0445\u043e\u0436\u0435\u0441\u0442\u0438.<\/p>\n<pre><code class=\"python\">tfidf = models.TfidfModel(corpus) index = similarities.SparseMatrixSimilarity(tfidf[corpus],num_features = feature_cnt)<\/code><\/pre>\n<p>\u041a\u0430\u043a \u0438\u043c\u0435\u043d\u043d\u043e \u043e\u0442\u0440\u0430\u0431\u043e\u0442\u0430\u043b\u0430 \u044d\u0442\u0430 \u043c\u043e\u0434\u0435\u043b\u044c \u043c\u044b \u0441\u043c\u043e\u0436\u0435\u043c \u0443\u0432\u0438\u0434\u0435\u0442\u044c \u043d\u0430 \u043f\u0440\u0438\u043c\u0435\u0440\u0435, \u043f\u043e\u0441\u0442\u0440\u043e\u0438\u0432 \u0432\u0435\u043a\u0442\u043e\u0440\u044b \u043d\u0430\u0448\u0438\u0445 \u043e\u043f\u043e\u0440\u043d\u044b\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0438 \u043f\u043e\u043b\u0443\u0447\u0438\u0432 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u0438\u0445 \u043f\u043e\u0445\u043e\u0436\u0435\u0441\u0442\u0435\u0439 \u0438\u0437 \u043c\u0430\u0442\u0440\u0438\u0446\u044b.<\/p>\n<pre><code class=\"python\">for text in texts_to_compare:     kw_vector = dictionary.doc2bow(tokenize(text))     df[text] = index[tfidf[kw_vector]]<\/code><\/pre>\n<figure class=\"full-width\"><figcaption><\/figcaption><\/figure>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043c\u044b \u043c\u043e\u0436\u0435\u043c \u0438\u0437\u0431\u0430\u0432\u0438\u0442\u044c\u0441\u044f \u043e\u0442 \u0437\u0430\u0432\u0435\u0434\u043e\u043c\u043e \u043d\u0435\u043f\u043e\u0445\u043e\u0436\u0438\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432, \u043f\u043e\u0441\u0447\u0438\u0442\u0430\u0432 \u0441\u0443\u043c\u043c\u0443 \u0432\u0435\u0441\u043e\u0432 \u0438 \u043e\u0441\u0442\u0430\u0432\u0438\u0432 \u0442\u0435\u043a\u0441\u0442\u044b \u0441 \u0441\u0430\u043c\u044b\u043c\u0438 \u0432\u044b\u0441\u043e\u043a\u0438\u043c\u0438 \u0441\u0443\u043c\u043c\u0430\u043c\u0438. \u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u043f\u043e\u0438\u0441\u043a\u0430 \u0441\u043b\u043e\u0432 \u043f\u0440\u0438 \u043f\u043e\u043c\u043e\u0449\u0438 \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u044b\u0445 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u0439, \u043c\u0435\u0436\u0434\u0443 \u043f\u0440\u043e\u0447\u0438\u043c, \u0442\u043e\u0436\u0435 \u043c\u043e\u0436\u043d\u043e \u0432\u043a\u043b\u044e\u0447\u0438\u0442\u044c \u0432 \u044d\u0442\u0443 \u0441\u0443\u043c\u043c\u0443, \u0443\u043c\u0435\u043d\u044c\u0448\u0438\u0432 \u0438\u0445 \u0437\u043d\u0430\u0447\u0438\u043c\u043e\u0441\u0442\u044c.<\/p>\n<pre><code class=\"python\">df[\"sum\"] = 0 for text in texts_to_compare:     df[\"sum\"] = df[\"sum\"]+df[text] for word in regex_queries:     df[\"sum\"] = df[\"sum\"]+df[word]\/5  <\/code><\/pre>\n<p>\u0418\u0437\u0431\u0430\u0432\u043b\u044f\u0442\u044c\u0441\u044f \u043e\u0442 \u043b\u0438\u0448\u043d\u0438\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u043c\u043e\u0436\u043d\u043e \u043e\u0431\u0440\u0435\u0437\u0430\u0432 \u043f\u043e \u043f\u043e\u0440\u043e\u0433\u0443 \u0441\u0443\u043c\u043c\u044b, \u0438\u043b\u0438 \u043e\u0442\u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u0430\u0432 \u043f\u043e \u0441\u0443\u043c\u043c\u0435 \u0438 \u043e\u0431\u0440\u0435\u0437\u0430\u0432 \u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u043f\u043e \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0443 \u0442\u0435\u043a\u0441\u0442\u043e\u0432.<\/p>\n<pre><code class=\"python\">df[\"sum\"].value_counts(bins=5) (-0.0022700000000000003, 0.254]    113040 (0.254, 0.508]                       1829 (0.508, 0.762]                         31 (0.762, 1.016]                          7 (1.016, 1.269]                          4<\/code><\/pre>\n<p>\u041d\u0430 \u044d\u0442\u043e\u043c \u044d\u0442\u0430\u043f\u0435 python \u0443\u0436\u0435 \u043d\u0435 \u043d\u0443\u0436\u0435\u043d, \u043f\u0440\u043e\u0434\u043e\u043b\u0436\u0430\u0442\u044c \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u0443\u0434\u043e\u0431\u043d\u0435\u0435 \u0432 excel:<\/p>\n<pre><code class=\"python\">df[df[\"sum\"]&gt;0.250].to_excel(\"\u043f\u043e\u0445\u043e\u0436\u0438\u0435 \u0442\u0435\u043a\u0441\u0442\u044b.xlsx\")<\/code><\/pre>\n<figure class=\"full-width\"><figcaption><\/figcaption><\/figure>\n<p>\u041f\u0440\u043e\u0432\u0435\u0440\u043a\u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0430 \u0438 \u043f\u043e\u0438\u0441\u043a \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0438 \u0441\u043b\u043e\u0432 \u0434\u043b\u044f \u0443\u043b\u0443\u0447\u0448\u0435\u043d\u0438\u044f \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u0430 \u043a\u043e\u043c\u0444\u043e\u0440\u0442\u043d\u043e \u043f\u0440\u043e\u0445\u043e\u0434\u0438\u0442 \u0432 Excel, \u0437\u0430 \u0441\u0447\u0435\u0442 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u044f \u0444\u0438\u043b\u044c\u0442\u0440\u043e\u0432 \u0438 \u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u043e\u043a.<\/p>\n<p>\u0412\u043e\u0442 \u043f\u0440\u0438\u043c\u0435\u0440, \u043e\u0442\u0441\u043e\u0440\u0442\u0438\u0440\u0443\u0435\u043c \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043f\u043e \u043f\u043e\u0445\u043e\u0436\u0435\u0441\u0442\u0438 \u043d\u0430 \u0441\u0430\u043c\u044b\u0439 \u043f\u0435\u0440\u0432\u044b\u0439 \u043e\u043f\u043e\u0440\u043d\u044b\u0439 \u0442\u0435\u043a\u0441\u0442 (\u043e\u043d, \u0440\u0430\u0437\u0443\u043c\u0435\u0435\u0442\u0441\u044f, \u043e\u043a\u0430\u0436\u0435\u0442\u0441\u044f \u043d\u0430 \u0441\u0430\u043c\u043e\u043c \u043f\u0435\u0440\u0432\u043e\u043c \u043c\u0435\u0441\u0442\u0435 \u043f\u0440\u0438 \u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u043a\u0435):<\/p>\n<figure class=\"full-width\"><figcaption><\/figcaption><\/figure>\n<p>\u0412\u0438\u0434\u043d\u043e, \u0447\u0442\u043e \u0445\u043e\u0442\u044c \u043c\u044b \u0438 \u043d\u0435 \u0443\u043a\u0430\u0437\u044b\u0432\u0430\u043b\u0438 \u043c\u043e\u0434\u0435\u043b\u0438 \u044f\u0432\u043d\u043e \u0442\u0430\u043a\u0438\u0435 \u0441\u043b\u043e\u0432\u0430 \u043a\u0430\u043a \u00ab\u0448\u043a\u043e\u043b\u043e\u0442\u0430\u00bb, \u00ab\u043e\u0431\u0449\u0435\u0441\u0442\u0432\u043e\u00bb \u0438 \u00ab\u043f\u0440\u0435\u0434\u043c\u0435\u0442\u00bb, \u043e\u043d\u0430 \u043d\u0430\u0448\u043b\u0430 \u043f\u043e \u043d\u0438\u043c \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0435 \u0442\u0435\u043a\u0441\u0442\u044b, \u043f\u043e\u0441\u043a\u043e\u043b\u044c\u043a\u0443 \u044d\u0442\u0438 \u0441\u043b\u043e\u0432\u0430 \u043e\u043a\u0430\u0437\u0430\u043b\u0438\u0441\u044c \u0441\u0430\u043c\u044b\u043c\u0438 \u0437\u043d\u0430\u0447\u0438\u043c\u044b\u043c\u0438.<\/p>\n<p>\u041f\u043e\u0441\u043b\u0435 \u043d\u0430\u0445\u043e\u0436\u0434\u0435\u043d\u0438\u044f \u043d\u0443\u0436\u043d\u044b\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432 \u0441\u0430\u043c\u044b\u0435 \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0438\u0435 \u0438\u0437 \u043d\u0438\u0445 \u043c\u043e\u0436\u043d\u043e \u043e\u0442\u043f\u0440\u0430\u0432\u0438\u0442\u044c \u0432 \u043d\u0430\u0447\u0430\u043b\u043e \u0441\u043a\u0440\u0438\u043f\u0442\u0430, \u0434\u043e\u0431\u0430\u0432\u0438\u0432 \u0432 \u0441\u043f\u0438\u0441\u043e\u043a texts_to_compare, \u0443\u0442\u043e\u0447\u043d\u044f\u044f \u0438\u043b\u0438 \u0443\u0433\u043b\u0443\u0431\u043b\u044f\u044f \u043f\u043e\u0438\u0441\u043a.<\/p>\n<p><a href=\"https:\/\/github.com\/RomanKrekhno\/gensim_example\" rel=\"noopener noreferrer nofollow\">\u0421\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043a\u043e\u0434&nbsp;<\/a><\/p>\n<\/div>\n<p> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/post\/542048\/\"> https:\/\/habr.com\/ru\/post\/542048\/<\/a><br \/><\/br><\/br><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-317900","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/317900","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=317900"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/317900\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=317900"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=317900"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=317900"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}