{"id":333469,"date":"2022-05-21T15:00:36","date_gmt":"2022-05-21T15:00:36","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=333469"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=333469","title":{"rendered":"<span>\u0421\u0430\u043c\u043e\u043e\u0431\u0443\u0447\u0430\u0435\u043c\u044b\u0439 \u0447\u0430\u0442-\u0431\u043e\u0442 python, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0443\u043c\u0435\u0435\u0442 \u0438\u0441\u043a\u0430\u0442\u044c \u043e\u0442\u0432\u0435\u0442\u044b \u0432 Wikipedia<\/span>"},"content":{"rendered":"<div><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u0412\u0441\u0435\u043c \u043f\u0440\u0438\u0432\u0435\u0442!<\/p>\n<p>\u0414\u0430\u0432\u043d\u043e \u0445\u043e\u0442\u0435\u043b \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u0441\u0432\u043e\u0435\u0433\u043e \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u0433\u043e Jarvis. \u041d\u0435\u0434\u0430\u0432\u043d\u043e \u0443\u0434\u0430\u043b\u0430\u0441\u044c \u0441\u0432\u043e\u0431\u043e\u0434\u043d\u0430\u044f \u043c\u0438\u043d\u0443\u0442\u043a\u0430 \u0438 \u044f \u0435\u0433\u043e \u0441\u0434\u0435\u043b\u0430\u043b. \u041e\u043d \u0443\u043c\u0435\u0435\u0442 \u043f\u0435\u0440\u0435\u043f\u0438\u0441\u044b\u0432\u0430\u0442\u044c\u0441\u044f \u0441 \u0412\u0430\u043c\u0438, \u0430 \u0442\u0430\u043a\u0436\u0435 \u0438\u0441\u043a\u0430\u0442\u044c \u043e\u0442\u0432\u0435\u0442\u044b \u043d\u0430 \u0412\u0430\u0448\u0438 \u0432\u043e\u043f\u0440\u043e\u0441\u044b \u0432 Wikipedia. \u0414\u043b\u044f \u0435\u0433\u043e \u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u0438 \u044f \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043b \u044f\u0437\u044b\u043a Python.<\/p>\n<p>\u0414\u043b\u044f \u043d\u0430\u0447\u0430\u043b\u0430 \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u043c \u0432\u0441\u0435 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u044b\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438. \u0418\u0445 \u0442\u0440\u0438: pyTelegramBotAPI, scikit-learn, \u0430 \u0442\u0430\u043a\u0436\u0435 Wikipedia. \u0423\u0441\u0442\u0430\u043d\u0430\u0432\u043b\u0438\u0432\u0430\u044e\u0442\u0441\u044f \u043e\u043d\u0438 \u043f\u0440\u043e\u0441\u0442\u043e:<\/p>\n<pre><code class=\"python\">pip install pyTelegramBotAPI<\/code><\/pre>\n<pre><code class=\"python\">pip install Wikipedia<\/code><\/pre>\n<pre><code class=\"python\">pip install scikit-learn<\/code><\/pre>\n<p>\u041f\u043e\u0441\u043b\u0435 \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0438 \u0432\u0441\u0435\u0445 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a \u043f\u0440\u0438\u0441\u0442\u0443\u043f\u0430\u0435\u043c \u043a \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u043a\u0435. \u0414\u043b\u044f \u043d\u0430\u0447\u0430\u043b\u0430 \u0438\u043c\u043f\u043e\u0440\u0442\u0438\u0440\u0443\u0435\u043c \u0432\u0441\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438, \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u043c \u044f\u0437\u044b\u043a \u0434\u043b\u044f \u0412\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u0438 \u0438 \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0438\u043c \u0442\u0435\u043b\u0435\u0433\u0440\u0430\u043c\u043c \u0431\u043e\u0442\u0430<\/p>\n<pre><code class=\"python\">import telebot, wikipedia, re from sklearn.feature_extraction.text import CountVectorizer from sklearn.linear_model import LogisticRegression  wikipedia.set_lang(\"ru\") bot = telebot.TeleBot('\u0412\u0430\u0448 \u043a\u043b\u044e\u0447, \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u0439 \u043e\u0442 BotFather')<\/code><\/pre>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043d\u0430\u043f\u0438\u0448\u0435\u043c \u043a\u043e\u0434, \u0434\u043b\u044f \u043e\u0447\u0438\u0441\u0442\u043a\u0438 \u0432\u0441\u0435\u0445 \u043d\u0435\u043d\u0443\u0436\u043d\u044b\u0445 \u043d\u0430\u043c \u0437\u043d\u0430\u043a\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0432\u0432\u043e\u0434\u0438\u0442 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044c:<\/p>\n<pre><code class=\"python\">def clean_str(r): r = r.lower() r = [c for c in r if c in alphabet] return ''.join(r)  alphabet = ' 1234567890-\u0439\u0446\u0443\u043a\u0435\u043d\u0433\u0448\u0449\u0437\u0445\u044a\u0444\u044b\u0432\u0430\u043f\u0440\u043e\u043b\u0434\u0436\u044d\u044f\u0447\u0441\u043c\u0438\u0442\u044c\u0431\u044e\u0451qwertyuiopasdfghjklzxcvbnm?%.,()!:;'<\/code><\/pre>\n<p>\u0422\u0430\u043a\u0436\u0435 \u0412\u0430\u043c \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0441\u043e\u0437\u0434\u0430\u0442\u044c \u0432 \u043f\u0430\u043f\u043a\u0435, \u0433\u0434\u0435 \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u0441\u044f \u0412\u0430\u0448 \u043a\u043e\u0434 \u0444\u0430\u0439\u043b dialogues.txt, \u0432 \u043d\u0435\u043c \u043c\u044b \u0431\u0443\u0434\u0435\u043c \u0441\u043e\u0437\u0434\u0430\u0432\u0430\u0442\u044c \u0440\u0435\u043f\u043b\u0438\u043a\u0438 \u043d\u0430 \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0434\u043e\u043b\u0436\u0435\u043d \u043e\u0442\u0432\u0435\u0447\u0430\u0442\u044c \u0431\u043e\u0442. \u0412\u043e\u0442 \u043f\u0440\u0438\u043c\u0435\u0440 \u0434\u0430\u043d\u043d\u043e\u0433\u043e \u0444\u0430\u0439\u043b\u0430:<\/p>\n<pre><code>\u043f\u0440\u0438\u0432\u0435\u0442\\\u0437\u0434\u0440\u0430\u0432\u0441\u0442\u0432\u0443\u0439\u0442\u0435! \u043a\u0430\u043a \u0434\u0435\u043b\u0430\\\u0445\u043e\u0440\u043e\u0448\u043e. \u043a\u0442\u043e \u0442\u044b\\\u044f \u0414\u0436\u0430\u0440\u0432\u0438\u0441.<\/code><\/pre>\n<p>\u0421\u0442\u0440\u043e\u043a\u0430 \u0434\u043e \u0437\u043d\u0430\u043a\u0430 <strong>\\<\/strong> \u043e\u0437\u043d\u0430\u0447\u0430\u0435\u0442 \u0432\u043e\u043f\u0440\u043e\u0441 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f, \u0430 \u043f\u043e\u0441\u043b\u0435 \u043e\u0442\u0432\u0435\u0442 \u043d\u0430\u0448\u0435\u0433\u043e \u0431\u043e\u0442\u0430. \u041f\u043e\u0441\u043b\u0435 \u0447\u0435\u0433\u043e \u043d\u0430\u043f\u0438\u0448\u0435\u043c \u0442\u0430\u043a\u043e\u0439 \u043a\u043e\u0434 \u0432 \u043d\u0430\u0448 \u0444\u0430\u0439\u043b \u0441 \u0431\u043e\u0442\u043e\u043c:<\/p>\n<pre><code class=\"python\">def update(): with open('dialogues.txt', encoding='utf-8') as f: content = f.read()  blocks = content.split('\\n') dataset = []  for block in blocks: replicas = block.split('\\\\')[:2] if len(replicas) == 2: pair = [clean_str(replicas[0]), clean_str(replicas[1])] if pair[0] and pair[1]: dataset.append(pair)  X_text = [] y = []  for question, answer in dataset[:10000]: X_text.append(question) y += [answer]  global vectorizer vectorizer = CountVectorizer() X = vectorizer.fit_transform(X_text)  global clf clf = LogisticRegression() clf.fit(X, y)  update()<\/code><\/pre>\n<p>\u042d\u0442\u043e\u0442 \u043a\u0443\u0441\u043e\u043a \u043a\u043e\u0434\u0430 \u0447\u0438\u0442\u0430\u0435\u0442 \u0444\u0430\u0439\u043b dialogues.txt, \u043f\u043e\u0442\u043e\u043c \u043f\u0440\u0435\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u0440\u0435\u043f\u043b\u0438\u043a\u0438 \u0432 \u0442\u0430\u043a \u043d\u0430\u0437\u044b\u0432\u0430\u0435\u043c\u044b\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u0430, \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043d\u0430\u0448 \u0431\u043e\u0442 \u0431\u0443\u0434\u0435\u0442 \u0438\u0441\u043a\u0430\u0442\u044c \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0438\u0439 \u043e\u0442\u0432\u0435\u0442 \u043a \u0437\u0430\u0434\u0430\u043d\u043d\u043e\u043c\u0443 \u043d\u0430\u043c\u0438 \u0432\u043e\u043f\u0440\u043e\u0441\u0443. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0435\u0441\u043b\u0438 \u0412\u044b \u043d\u0430\u043f\u0438\u0441\u0430\u043b\u0438 \u0432 \u0444\u0430\u0439\u043b\u0435 dialogues.txt \u0432\u043e\u043f\u0440\u043e\u0441 &#171;\u0422\u044b \u0437\u043d\u0430\u0435\u0448\u044c \u0410\u043d\u044e&#187;, \u0430 \u043e\u0442\u0432\u0435\u0442 \u043d\u0430 \u043d\u0435\u0433\u043e &#171;\u0414\u0430, \u043a\u043e\u043d\u0435\u0447\u043d\u043e&#187;, \u0442\u043e \u0431\u043e\u0442 \u0431\u0443\u0434\u0435\u0442 \u043e\u0442\u0432\u0435\u0447\u0430\u0442\u044c \u0442\u0430\u043a\u0436\u0435 \u0438 \u043d\u0430 \u043f\u043e\u0445\u043e\u0436\u0438\u0435 \u0432\u043e\u043f\u0440\u043e\u0441\u044b, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 &#171;\u0422\u044b \u0437\u043d\u0430\u0435\u0448\u044c \u0412\u0430\u0441\u044e&#187;.<\/p>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043d\u0430\u043f\u0438\u0448\u0435\u043c \u043a\u0443\u0441\u043e\u043a \u043a\u043e\u0434\u0430, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0431\u0443\u0434\u0435\u0442 \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043e\u0442\u0432\u0435\u0442\u044b \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432:<\/p>\n<pre><code class=\"python\">def get_generative_replica(text): text_vector = vectorizer.transform([text]).toarray()[0] question = clf.predict([text_vector])[0] return question<\/code><\/pre>\n<p>\u042d\u0442\u043e\u0442 \u043a\u0443\u0441\u043e\u043a \u043a\u043e\u0434\u0430 \u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0435\u0442 \u0432\u043e\u043f\u0440\u043e\u0441 \u043e\u0442 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f \u0438 \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u043e\u0442\u0432\u0435\u0442 \u043e\u0442 \u0431\u043e\u0442\u0430.<\/p>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043d\u0430\u043f\u0438\u0448\u0435\u043c \u0444\u0443\u043d\u043a\u0446\u0438\u044e \u0434\u043b\u044f \u043f\u043e\u0438\u0441\u043a\u0430 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u0432 \u0412\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u0438:<\/p>\n<pre><code class=\"python\">def getwiki(s):     try:         ny = wikipedia.page(s)         wikitext=ny.content[:1000]         wikimas=wikitext.split('.')         wikimas = wikimas[:-1]         wikitext2 = ''         for x in wikimas:             if not('==' in x):                 if(len((x.strip()))>3):                    wikitext2=wikitext2+x+'.'             else:                 break         wikitext2=re.sub('\\([^()]*\\)', '', wikitext2)         wikitext2=re.sub('\\([^()]*\\)', '', wikitext2)         wikitext2=re.sub('\\{[^\\{\\}]*\\}', '', wikitext2)         return wikitext2     except Exception as e:         return '\u0412 \u0412\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u0438 \u043d\u0435\u0442 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u043e\u0431 \u044d\u0442\u043e\u043c'<\/code><\/pre>\n<p>\u042d\u0442\u043e\u0442 \u043a\u0443\u0441\u043e\u043a \u043a\u043e\u0434\u0430 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442 \u0432\u043e\u043f\u0440\u043e\u0441 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f, \u043f\u043e\u0442\u043e\u043c \u0438\u0449\u0435\u0442 \u043e\u0442\u0432\u0435\u0442 \u043d\u0430 \u043d\u0435\u0433\u043e \u0432 \u0412\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u0438 \u0438 \u0435\u0441\u043b\u0438 \u043e\u0442\u0432\u0435\u0442 \u043d\u0430\u0439\u0434\u0435\u043d, \u0442\u043e \u043e\u0442\u0434\u0430\u0435\u0442 \u0435\u0433\u043e \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044e, \u0430 \u0435\u0441\u043b\u0438 \u043e\u0442\u0432\u0435\u0442 \u043d\u0435 \u043d\u0430\u0439\u0434\u0435\u043d, \u0442\u043e \u043f\u0438\u0448\u0435\u0442, \u0447\u0442\u043e &#171;\u0412 \u0412\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u0438 \u043d\u0435\u0442 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u043e\u0431 \u044d\u0442\u043e\u043c&#187;.<\/p>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043f\u0438\u0448\u0435\u043c \u043f\u043e\u0441\u043b\u0435\u0434\u043d\u0438\u0439 \u043a\u0443\u0441\u043e\u043a \u043a\u043e\u0434\u0430:<\/p>\n<pre><code class=\"python\">@bot.message_handler(commands=['start']) def start_message(message): bot.send_message(message.chat.id,\"\u0417\u0434\u0440\u0430\u0432\u0441\u0442\u0432\u0443\u0439\u0442\u0435, \u0421\u044d\u0440.\")  question = \"\"  @bot.message_handler(content_types=['text']) def get_text_messages(message): command = message.text.lower() if command ==\"\u043d\u0435 \u0442\u0430\u043a\": bot.send_message(message.from_user.id, \"\u0430 \u043a\u0430\u043a?\") bot.register_next_step_handler(message, wrong) else: global question question = command reply = get_generative_replica(command) if reply==\"\u0432\u0438\u043a\u0438 \": bot.send_message(message.from_user.id, getwiki(command)) else: bot.send_message(message.from_user.id, reply)  def wrong(message): a = f\"{question}\\{message.text.lower()} \\n\" with open('dialogues.txt', \"a\", encoding='utf-8') as f: f.write(a) bot.send_message(message.from_user.id, \"\u0413\u043e\u0442\u043e\u0432\u043e\") update()<\/code><\/pre>\n<p>\u0412 \u044d\u0442\u043e\u043c \u043a\u0443\u0441\u043a\u0435 \u043a\u043e\u0434\u0430 \u0442\u0435\u043b\u0435\u0433\u0440\u0430\u043c\u043c \u0431\u043e\u0442 \u043f\u0440\u0438 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u0438 \u0441\u043e\u043e\u0431\u0449\u0435\u043d\u0438\u044f \u043e\u0442 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f \u043e\u0442\u0432\u0435\u0447\u0430\u0435\u0442 \u043d\u0430 \u043d\u0435\u0433\u043e \u0438 \u0435\u0441\u043b\u0438 \u043e\u0442\u0432\u0435\u0442 \u043d\u0435 \u0432\u0435\u0440\u043d\u044b\u0439, \u0442\u043e \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044c \u043f\u0438\u0448\u0435\u0442 &#171;\u043d\u0435 \u0442\u0430\u043a&#187;. \u0415\u0441\u043b\u0438 \u0431\u043e\u0442 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442 \u0441\u043e\u043e\u0431\u0449\u0435\u043d\u0438\u0435 &#171;\u043d\u0435 \u0442\u0430\u043a&#187;, \u0442\u043e \u043e\u043d \u0431\u0435\u0440\u0435\u0442 \u043f\u043e\u0441\u043b\u0435\u0434\u043d\u0438\u0439 \u0432\u043e\u043f\u0440\u043e\u0441 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f \u0438 \u0441\u043f\u0440\u0430\u0448\u0438\u0432\u0430\u0435\u0442 &#171;\u0430 \u043a\u0430\u043a?&#187;, \u043f\u043e\u0441\u043b\u0435 \u0447\u0435\u0433\u043e \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044c \u0434\u043e\u043b\u0436\u0435\u043d \u043e\u0442\u043f\u0440\u0430\u0432\u0438\u0442\u044c \u0435\u043c\u0443 \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0439 \u043e\u0442\u0432\u0435\u0442. \u041f\u043e\u0441\u043b\u0435 \u044d\u0442\u043e\u0433\u043e \u0431\u043e\u0442 \u043e\u0431\u043d\u043e\u0432\u043b\u044f\u0435\u0442 \u0441\u0432\u043e\u044e \u0431\u0430\u0437\u0443 \u0434\u0430\u043d\u043d\u044b\u0445 \u0432\u043e\u043f\u0440\u043e\u0441\u043e\u0432 \u0438 \u043e\u0442\u0432\u0435\u0442\u043e\u0432 \u0438 \u043f\u0440\u0438 \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0445 \u0432\u043e\u043f\u0440\u043e\u0441\u0430\u0445 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f \u043e\u0442\u0432\u0435\u0447\u0430\u0435\u0442 \u043d\u0430 \u043d\u0438\u0445 \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e. \u0418 \u0435\u0441\u043b\u0438 \u043e\u0442\u0432\u0435\u0442 \u043d\u0430 \u0432\u043e\u043f\u0440\u043e\u0441 \u0431\u043e\u0442 \u0434\u043e\u043b\u0436\u0435\u043d \u0431\u044b\u043b \u0432\u0437\u044f\u0442\u044c \u0438\u0437 \u0412\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u0438, \u0442\u043e \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044c \u0432 \u043e\u0442\u0432\u0435\u0442 \u043d\u0430 \u0432\u043e\u043f\u0440\u043e\u0441 &#171;\u0430 \u043a\u0430\u043a?&#187;, \u0434\u043e\u043b\u0436\u0435\u043d \u043d\u0430\u043f\u0438\u0441\u0430\u0442\u044c &#171;wiki&#187;. \u041e\u0441\u0442\u0430\u043b\u043e\u0441\u044c \u0432 \u043a\u043e\u043d\u0446\u0435 \u043f\u0440\u0438\u043f\u0438\u0441\u0430\u0442\u044c \u0441\u0442\u0440\u043e\u0447\u043a\u0443:<\/p>\n<pre><code class=\"python\">bot.polling(none_stop=True)<\/code><\/pre>\n<p>\u0418 \u043c\u043e\u0436\u043d\u043e \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u0442\u044c \u0438 \u0442\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0431\u043e\u0442\u0430.<\/p>\n<p>\u0412\u0435\u0441\u044c \u043a\u043e\u0434 \u0444\u0430\u0439\u043b\u0430 \u0441 \u0431\u043e\u0442\u043e\u043c \u043f\u0440\u0438\u043b\u0430\u0433\u0430\u044e \u043d\u0438\u0436\u0435:<\/p>\n<pre><code class=\"python\">import telebot, wikipedia, re from sklearn.feature_extraction.text import CountVectorizer from sklearn.linear_model import LogisticRegression  bot = telebot.TeleBot('\u0412\u0430\u0448 \u043a\u043b\u044e\u0447 \u043e\u0442 BotFather')  wikipedia.set_lang(\"ru\")  def clean_str(r): r = r.lower() r = [c for c in r if c in alphabet] return ''.join(r)  alphabet = ' 1234567890-\u0439\u0446\u0443\u043a\u0435\u043d\u0433\u0448\u0449\u0437\u0445\u044a\u0444\u044b\u0432\u0430\u043f\u0440\u043e\u043b\u0434\u0436\u044d\u044f\u0447\u0441\u043c\u0438\u0442\u044c\u0431\u044e\u0451qwertyuiopasdfghjklzxcvbnm?%.,()!:;'  def update(): with open('dialogues.txt', encoding='utf-8') as f: content = f.read()  blocks = content.split('\\n') dataset = []  for block in blocks: replicas = block.split('\\\\')[:2] if len(replicas) == 2: pair = [clean_str(replicas[0]), clean_str(replicas[1])] if pair[0] and pair[1]: dataset.append(pair)  X_text = [] y = []  for question, answer in dataset[:10000]: X_text.append(question) y += [answer]  global vectorizer vectorizer = CountVectorizer() X = vectorizer.fit_transform(X_text)  global clf clf = LogisticRegression() clf.fit(X, y)  update()  def get_generative_replica(text): text_vector = vectorizer.transform([text]).toarray()[0] question = clf.predict([text_vector])[0] return question  def getwiki(s):     try:         ny = wikipedia.page(s)         wikitext=ny.content[:1000]         wikimas=wikitext.split('.')         wikimas = wikimas[:-1]         wikitext2 = ''         for x in wikimas:             if not('==' in x):                 if(len((x.strip()))>3):                    wikitext2=wikitext2+x+'.'             else:                 break         wikitext2=re.sub('\\([^()]*\\)', '', wikitext2)         wikitext2=re.sub('\\([^()]*\\)', '', wikitext2)         wikitext2=re.sub('\\{[^\\{\\}]*\\}', '', wikitext2)         return wikitext2     except Exception as e:         return '\u0412 \u044d\u043d\u0446\u0438\u043a\u043b\u043e\u043f\u0435\u0434\u0438\u0438 \u043d\u0435\u0442 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u043e\u0431 \u044d\u0442\u043e\u043c'  @bot.message_handler(commands=['start']) def start_message(message): bot.send_message(message.chat.id,\"\u0417\u0434\u0440\u0430\u0432\u0441\u0442\u0432\u0443\u0439\u0442\u0435, \u0421\u044d\u0440.\")  question = \"\"  @bot.message_handler(content_types=['text']) def get_text_messages(message): command = message.text.lower() if command ==\"\u043d\u0435 \u0442\u0430\u043a\": bot.send_message(message.from_user.id, \"\u0430 \u043a\u0430\u043a?\") bot.register_next_step_handler(message, wrong) else: global question question = command reply = get_generative_replica(command) if reply==\"\u0432\u0438\u043a\u0438 \": bot.send_message(message.from_user.id, getwiki(command)) else: bot.send_message(message.from_user.id, reply)  def wrong(message): a = f\"{question}\\{message.text.lower()} \\n\" with open('dialogues.txt', \"a\", encoding='utf-8') as f: f.write(a) bot.send_message(message.from_user.id, \"\u0413\u043e\u0442\u043e\u0432\u043e\") update()  bot.polling(none_stop=True)<\/code><\/pre>\n<p>\u041d\u0430\u0434\u0435\u044e\u0441\u044c, \u0441\u0442\u0430\u0442\u044c\u044f \u0412\u0430\u043c \u043f\u043e\u043d\u0440\u0430\u0432\u0438\u043b\u0430\u0441\u044c \ud83d\ude42<\/p>\n<\/div>\n<\/div>\n<\/div>\n<div class=\"v-portal\" style=\"display:none;\"><\/div>\n<\/div>\n<p> <!----> <!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/post\/667008\/\"> https:\/\/habr.com\/ru\/post\/667008\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<div><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u0412\u0441\u0435\u043c \u043f\u0440\u0438\u0432\u0435\u0442!<\/p>\n<p>\u0414\u0430\u0432\u043d\u043e \u0445\u043e\u0442\u0435\u043b \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u0441\u0432\u043e\u0435\u0433\u043e \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u0433\u043e Jarvis. \u041d\u0435\u0434\u0430\u0432\u043d\u043e \u0443\u0434\u0430\u043b\u0430\u0441\u044c \u0441\u0432\u043e\u0431\u043e\u0434\u043d\u0430\u044f \u043c\u0438\u043d\u0443\u0442\u043a\u0430 \u0438 \u044f \u0435\u0433\u043e \u0441\u0434\u0435\u043b\u0430\u043b. \u041e\u043d \u0443\u043c\u0435\u0435\u0442 \u043f\u0435\u0440\u0435\u043f\u0438\u0441\u044b\u0432\u0430\u0442\u044c\u0441\u044f \u0441 \u0412\u0430\u043c\u0438, \u0430 \u0442\u0430\u043a\u0436\u0435 \u0438\u0441\u043a\u0430\u0442\u044c \u043e\u0442\u0432\u0435\u0442\u044b \u043d\u0430 \u0412\u0430\u0448\u0438 \u0432\u043e\u043f\u0440\u043e\u0441\u044b \u0432 Wikipedia. \u0414\u043b\u044f \u0435\u0433\u043e \u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u0438 \u044f \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043b \u044f\u0437\u044b\u043a Python.<\/p>\n<p>\u0414\u043b\u044f \u043d\u0430\u0447\u0430\u043b\u0430 \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u043c \u0432\u0441\u0435 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u044b\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438. \u0418\u0445 \u0442\u0440\u0438: pyTelegramBotAPI, scikit-learn, \u0430 \u0442\u0430\u043a\u0436\u0435 Wikipedia. \u0423\u0441\u0442\u0430\u043d\u0430\u0432\u043b\u0438\u0432\u0430\u044e\u0442\u0441\u044f \u043e\u043d\u0438 \u043f\u0440\u043e\u0441\u0442\u043e:<\/p>\n<pre><code class=\"python\">pip install pyTelegramBotAPI<\/code><\/pre>\n<pre><code class=\"python\">pip install Wikipedia<\/code><\/pre>\n<pre><code class=\"python\">pip install scikit-learn<\/code><\/pre>\n<p>\u041f\u043e\u0441\u043b\u0435 \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0438 \u0432\u0441\u0435\u0445 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a \u043f\u0440\u0438\u0441\u0442\u0443\u043f\u0430\u0435\u043c \u043a \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u043a\u0435. \u0414\u043b\u044f \u043d\u0430\u0447\u0430\u043b\u0430 \u0438\u043c\u043f\u043e\u0440\u0442\u0438\u0440\u0443\u0435\u043c \u0432\u0441\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438, \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u043c \u044f\u0437\u044b\u043a \u0434\u043b\u044f \u0412\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u0438 \u0438 \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0438\u043c \u0442\u0435\u043b\u0435\u0433\u0440\u0430\u043c\u043c \u0431\u043e\u0442\u0430<\/p>\n<pre><code class=\"python\">import telebot, wikipedia, re from sklearn.feature_extraction.text import CountVectorizer from sklearn.linear_model import LogisticRegression  wikipedia.set_lang(\"ru\") bot = telebot.TeleBot('\u0412\u0430\u0448 \u043a\u043b\u044e\u0447, \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u0439 \u043e\u0442 BotFather')<\/code><\/pre>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043d\u0430\u043f\u0438\u0448\u0435\u043c \u043a\u043e\u0434, \u0434\u043b\u044f \u043e\u0447\u0438\u0441\u0442\u043a\u0438 \u0432\u0441\u0435\u0445 \u043d\u0435\u043d\u0443\u0436\u043d\u044b\u0445 \u043d\u0430\u043c \u0437\u043d\u0430\u043a\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0432\u0432\u043e\u0434\u0438\u0442 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044c:<\/p>\n<pre><code class=\"python\">def clean_str(r): r = r.lower() r = [c for c in r if c in alphabet] return ''.join(r)  alphabet = ' 1234567890-\u0439\u0446\u0443\u043a\u0435\u043d\u0433\u0448\u0449\u0437\u0445\u044a\u0444\u044b\u0432\u0430\u043f\u0440\u043e\u043b\u0434\u0436\u044d\u044f\u0447\u0441\u043c\u0438\u0442\u044c\u0431\u044e\u0451qwertyuiopasdfghjklzxcvbnm?%.,()!:;'<\/code><\/pre>\n<p>\u0422\u0430\u043a\u0436\u0435 \u0412\u0430\u043c \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0441\u043e\u0437\u0434\u0430\u0442\u044c \u0432 \u043f\u0430\u043f\u043a\u0435, \u0433\u0434\u0435 \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u0441\u044f \u0412\u0430\u0448 \u043a\u043e\u0434 \u0444\u0430\u0439\u043b dialogues.txt, \u0432 \u043d\u0435\u043c \u043c\u044b \u0431\u0443\u0434\u0435\u043c \u0441\u043e\u0437\u0434\u0430\u0432\u0430\u0442\u044c \u0440\u0435\u043f\u043b\u0438\u043a\u0438 \u043d\u0430 \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0434\u043e\u043b\u0436\u0435\u043d \u043e\u0442\u0432\u0435\u0447\u0430\u0442\u044c \u0431\u043e\u0442. \u0412\u043e\u0442 \u043f\u0440\u0438\u043c\u0435\u0440 \u0434\u0430\u043d\u043d\u043e\u0433\u043e \u0444\u0430\u0439\u043b\u0430:<\/p>\n<pre><code>\u043f\u0440\u0438\u0432\u0435\u0442\\\u0437\u0434\u0440\u0430\u0432\u0441\u0442\u0432\u0443\u0439\u0442\u0435! \u043a\u0430\u043a \u0434\u0435\u043b\u0430\\\u0445\u043e\u0440\u043e\u0448\u043e. \u043a\u0442\u043e \u0442\u044b\\\u044f \u0414\u0436\u0430\u0440\u0432\u0438\u0441.<\/code><\/pre>\n<p>\u0421\u0442\u0440\u043e\u043a\u0430 \u0434\u043e \u0437\u043d\u0430\u043a\u0430 <strong>\\<\/strong> \u043e\u0437\u043d\u0430\u0447\u0430\u0435\u0442 \u0432\u043e\u043f\u0440\u043e\u0441 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f, \u0430 \u043f\u043e\u0441\u043b\u0435 \u043e\u0442\u0432\u0435\u0442 \u043d\u0430\u0448\u0435\u0433\u043e \u0431\u043e\u0442\u0430. \u041f\u043e\u0441\u043b\u0435 \u0447\u0435\u0433\u043e \u043d\u0430\u043f\u0438\u0448\u0435\u043c \u0442\u0430\u043a\u043e\u0439 \u043a\u043e\u0434 \u0432 \u043d\u0430\u0448 \u0444\u0430\u0439\u043b \u0441 \u0431\u043e\u0442\u043e\u043c:<\/p>\n<pre><code class=\"python\">def update(): with open('dialogues.txt', encoding='utf-8') as f: content = f.read()  blocks = content.split('\\n') dataset = []  for block in blocks: replicas = block.split('\\\\')[:2] if len(replicas) == 2: pair = [clean_str(replicas[0]), clean_str(replicas[1])] if pair[0] and pair[1]: dataset.append(pair)  X_text = [] y = []  for question, answer in dataset[:10000]: X_text.append(question) y += [answer]  global vectorizer vectorizer = CountVectorizer() X = vectorizer.fit_transform(X_text)  global clf clf = LogisticRegression() clf.fit(X, y)  update()<\/code><\/pre>\n<p>\u042d\u0442\u043e\u0442 \u043a\u0443\u0441\u043e\u043a \u043a\u043e\u0434\u0430 \u0447\u0438\u0442\u0430\u0435\u0442 \u0444\u0430\u0439\u043b dialogues.txt, \u043f\u043e\u0442\u043e\u043c \u043f\u0440\u0435\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u0440\u0435\u043f\u043b\u0438\u043a\u0438 \u0432 \u0442\u0430\u043a \u043d\u0430\u0437\u044b\u0432\u0430\u0435\u043c\u044b\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u0430, \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043d\u0430\u0448 \u0431\u043e\u0442 \u0431\u0443\u0434\u0435\u0442 \u0438\u0441\u043a\u0430\u0442\u044c \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0438\u0439 \u043e\u0442\u0432\u0435\u0442 \u043a \u0437\u0430\u0434\u0430\u043d\u043d\u043e\u043c\u0443 \u043d\u0430\u043c\u0438 \u0432\u043e\u043f\u0440\u043e\u0441\u0443. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0435\u0441\u043b\u0438 \u0412\u044b \u043d\u0430\u043f\u0438\u0441\u0430\u043b\u0438 \u0432 \u0444\u0430\u0439\u043b\u0435 dialogues.txt \u0432\u043e\u043f\u0440\u043e\u0441 &#171;\u0422\u044b \u0437\u043d\u0430\u0435\u0448\u044c \u0410\u043d\u044e&#187;, \u0430 \u043e\u0442\u0432\u0435\u0442 \u043d\u0430 \u043d\u0435\u0433\u043e &#171;\u0414\u0430, \u043a\u043e\u043d\u0435\u0447\u043d\u043e&#187;, \u0442\u043e \u0431\u043e\u0442 \u0431\u0443\u0434\u0435\u0442 \u043e\u0442\u0432\u0435\u0447\u0430\u0442\u044c \u0442\u0430\u043a\u0436\u0435 \u0438 \u043d\u0430 \u043f\u043e\u0445\u043e\u0436\u0438\u0435 \u0432\u043e\u043f\u0440\u043e\u0441\u044b, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 &#171;\u0422\u044b \u0437\u043d\u0430\u0435\u0448\u044c \u0412\u0430\u0441\u044e&#187;.<\/p>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043d\u0430\u043f\u0438\u0448\u0435\u043c \u043a\u0443\u0441\u043e\u043a \u043a\u043e\u0434\u0430, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0431\u0443\u0434\u0435\u0442 \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043e\u0442\u0432\u0435\u0442\u044b \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u0432\u0435\u043a\u0442\u043e\u0440\u043e\u0432:<\/p>\n<pre><code class=\"python\">def get_generative_replica(text): text_vector = vectorizer.transform([text]).toarray()[0] question = clf.predict([text_vector])[0] return question<\/code><\/pre>\n<p>\u042d\u0442\u043e\u0442 \u043a\u0443\u0441\u043e\u043a \u043a\u043e\u0434\u0430 \u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0435\u0442 \u0432\u043e\u043f\u0440\u043e\u0441 \u043e\u0442 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f \u0438 \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u043e\u0442\u0432\u0435\u0442 \u043e\u0442 \u0431\u043e\u0442\u0430.<\/p>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043d\u0430\u043f\u0438\u0448\u0435\u043c \u0444\u0443\u043d\u043a\u0446\u0438\u044e \u0434\u043b\u044f \u043f\u043e\u0438\u0441\u043a\u0430 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u0432 \u0412\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u0438:<\/p>\n<pre><code class=\"python\">def getwiki(s):     try:         ny = wikipedia.page(s)         wikitext=ny.content[:1000]         wikimas=wikitext.split('.')         wikimas = wikimas[:-1]         wikitext2 = ''         for x in wikimas:             if not('==' in x):                 if(len((x.strip()))>3):                    wikitext2=wikitext2+x+'.'             else:                 break         wikitext2=re.sub('\\([^()]*\\)', '', wikitext2)         wikitext2=re.sub('\\([^()]*\\)', '', wikitext2)         wikitext2=re.sub('\\{[^\\{\\}]*\\}', '', wikitext2)         return wikitext2     except Exception as e:         return '\u0412 \u0412\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u0438 \u043d\u0435\u0442 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u043e\u0431 \u044d\u0442\u043e\u043c'<\/code><\/pre>\n<p>\u042d\u0442\u043e\u0442 \u043a\u0443\u0441\u043e\u043a \u043a\u043e\u0434\u0430 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442 \u0432\u043e\u043f\u0440\u043e\u0441 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f, \u043f\u043e\u0442\u043e\u043c \u0438\u0449\u0435\u0442 \u043e\u0442\u0432\u0435\u0442 \u043d\u0430 \u043d\u0435\u0433\u043e \u0432 \u0412\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u0438 \u0438 \u0435\u0441\u043b\u0438 \u043e\u0442\u0432\u0435\u0442 \u043d\u0430\u0439\u0434\u0435\u043d, \u0442\u043e \u043e\u0442\u0434\u0430\u0435\u0442 \u0435\u0433\u043e \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044e, \u0430 \u0435\u0441\u043b\u0438 \u043e\u0442\u0432\u0435\u0442 \u043d\u0435 \u043d\u0430\u0439\u0434\u0435\u043d, \u0442\u043e \u043f\u0438\u0448\u0435\u0442, \u0447\u0442\u043e &#171;\u0412 \u0412\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u0438 \u043d\u0435\u0442 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u043e\u0431 \u044d\u0442\u043e\u043c&#187;.<\/p>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043f\u0438\u0448\u0435\u043c \u043f\u043e\u0441\u043b\u0435\u0434\u043d\u0438\u0439 \u043a\u0443\u0441\u043e\u043a \u043a\u043e\u0434\u0430:<\/p>\n<pre><code class=\"python\">@bot.message_handler(commands=['start']) def start_message(message): bot.send_message(message.chat.id,\"\u0417\u0434\u0440\u0430\u0432\u0441\u0442\u0432\u0443\u0439\u0442\u0435, \u0421\u044d\u0440.\")  question = \"\"  @bot.message_handler(content_types=['text']) def get_text_messages(message): command = message.text.lower() if command ==\"\u043d\u0435 \u0442\u0430\u043a\": bot.send_message(message.from_user.id, \"\u0430 \u043a\u0430\u043a?\") bot.register_next_step_handler(message, wrong) else: global question question = command reply = get_generative_replica(command) if reply==\"\u0432\u0438\u043a\u0438 \": bot.send_message(message.from_user.id, getwiki(command)) else: bot.send_message(message.from_user.id, reply)  def wrong(message): a = f\"{question}\\{message.text.lower()} \\n\" with open('dialogues.txt', \"a\", encoding='utf-8') as f: f.write(a) bot.send_message(message.from_user.id, \"\u0413\u043e\u0442\u043e\u0432\u043e\") update()<\/code><\/pre>\n<p>\u0412 \u044d\u0442\u043e\u043c \u043a\u0443\u0441\u043a\u0435 \u043a\u043e\u0434\u0430 \u0442\u0435\u043b\u0435\u0433\u0440\u0430\u043c\u043c \u0431\u043e\u0442 \u043f\u0440\u0438 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u0438 \u0441\u043e\u043e\u0431\u0449\u0435\u043d\u0438\u044f \u043e\u0442 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f \u043e\u0442\u0432\u0435\u0447\u0430\u0435\u0442 \u043d\u0430 \u043d\u0435\u0433\u043e \u0438 \u0435\u0441\u043b\u0438 \u043e\u0442\u0432\u0435\u0442 \u043d\u0435 \u0432\u0435\u0440\u043d\u044b\u0439, \u0442\u043e \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044c \u043f\u0438\u0448\u0435\u0442 &#171;\u043d\u0435 \u0442\u0430\u043a&#187;. \u0415\u0441\u043b\u0438 \u0431\u043e\u0442 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442 \u0441\u043e\u043e\u0431\u0449\u0435\u043d\u0438\u0435 &#171;\u043d\u0435 \u0442\u0430\u043a&#187;, \u0442\u043e \u043e\u043d \u0431\u0435\u0440\u0435\u0442 \u043f\u043e\u0441\u043b\u0435\u0434\u043d\u0438\u0439 \u0432\u043e\u043f\u0440\u043e\u0441 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f \u0438 \u0441\u043f\u0440\u0430\u0448\u0438\u0432\u0430\u0435\u0442 &#171;\u0430 \u043a\u0430\u043a?&#187;, \u043f\u043e\u0441\u043b\u0435 \u0447\u0435\u0433\u043e \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044c \u0434\u043e\u043b\u0436\u0435\u043d \u043e\u0442\u043f\u0440\u0430\u0432\u0438\u0442\u044c \u0435\u043c\u0443 \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0439 \u043e\u0442\u0432\u0435\u0442. \u041f\u043e\u0441\u043b\u0435 \u044d\u0442\u043e\u0433\u043e \u0431\u043e\u0442 \u043e\u0431\u043d\u043e\u0432\u043b\u044f\u0435\u0442 \u0441\u0432\u043e\u044e \u0431\u0430\u0437\u0443 \u0434\u0430\u043d\u043d\u044b\u0445 \u0432\u043e\u043f\u0440\u043e\u0441\u043e\u0432 \u0438 \u043e\u0442\u0432\u0435\u0442\u043e\u0432 \u0438 \u043f\u0440\u0438 \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0445 \u0432\u043e\u043f\u0440\u043e\u0441\u0430\u0445 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f \u043e\u0442\u0432\u0435\u0447\u0430\u0435\u0442 \u043d\u0430 \u043d\u0438\u0445 \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e. \u0418 \u0435\u0441\u043b\u0438 \u043e\u0442\u0432\u0435\u0442 \u043d\u0430 \u0432\u043e\u043f\u0440\u043e\u0441 \u0431\u043e\u0442 \u0434\u043e\u043b\u0436\u0435\u043d \u0431\u044b\u043b \u0432\u0437\u044f\u0442\u044c \u0438\u0437 \u0412\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u0438, \u0442\u043e \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044c \u0432 \u043e\u0442\u0432\u0435\u0442 \u043d\u0430 \u0432\u043e\u043f\u0440\u043e\u0441 &#171;\u0430 \u043a\u0430\u043a?&#187;, \u0434\u043e\u043b\u0436\u0435\u043d \u043d\u0430\u043f\u0438\u0441\u0430\u0442\u044c &#171;wiki&#187;. \u041e\u0441\u0442\u0430\u043b\u043e\u0441\u044c \u0432 \u043a\u043e\u043d\u0446\u0435 \u043f\u0440\u0438\u043f\u0438\u0441\u0430\u0442\u044c \u0441\u0442\u0440\u043e\u0447\u043a\u0443:<\/p>\n<pre><code class=\"python\">bot.polling(none_stop=True)<\/code><\/pre>\n<p>\u0418 \u043c\u043e\u0436\u043d\u043e \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u0442\u044c \u0438 \u0442\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0431\u043e\u0442\u0430.<\/p>\n<p>\u0412\u0435\u0441\u044c \u043a\u043e\u0434 \u0444\u0430\u0439\u043b\u0430 \u0441 \u0431\u043e\u0442\u043e\u043c \u043f\u0440\u0438\u043b\u0430\u0433\u0430\u044e \u043d\u0438\u0436\u0435:<\/p>\n<pre><code class=\"python\">import telebot, wikipedia, re from sklearn.feature_extraction.text import CountVectorizer from sklearn.linear_model import LogisticRegression  bot = telebot.TeleBot('\u0412\u0430\u0448 \u043a\u043b\u044e\u0447 \u043e\u0442 BotFather')  wikipedia.set_lang(\"ru\")  def clean_str(r): r = r.lower() r = [c for c in r if c in alphabet] return ''.join(r)  alphabet = ' 1234567890-\u0439\u0446\u0443\u043a\u0435\u043d\u0433\u0448\u0449\u0437\u0445\u044a\u0444\u044b\u0432\u0430\u043f\u0440\u043e\u043b\u0434\u0436\u044d\u044f\u0447\u0441\u043c\u0438\u0442\u044c\u0431\u044e\u0451qwertyuiopasdfghjklzxcvbnm?%.,()!:;'  def update(): with open('dialogues.txt', encoding='utf-8') as f: content = f.read()  blocks = content.split('\\n') dataset = []  for block in blocks: replicas = block.split('\\\\')[:2] if len(replicas) == 2: pair = [clean_str(replicas[0]), clean_str(replicas[1])] if pair[0] and pair[1]: dataset.append(pair)  X_text = [] y = []  for question, answer in dataset[:10000]: X_text.append(question) y += [answer]  global vectorizer vectorizer = CountVectorizer() X = vectorizer.fit_transform(X_text)  global clf clf = LogisticRegression() clf.fit(X, y)  update()  def get_generative_replica(text): text_vector = vectorizer.transform([text]).toarray()[0] question = clf.predict([text_vector])[0] return question  def getwiki(s):     try:         ny = wikipedia.page(s)         wikitext=ny.content[:1000]         wikimas=wikitext.split('.')         wikimas = wikimas[:-1]         wikitext2 = ''         for x in wikimas:             if not('==' in x):                 if(len((x.strip()))>3):                    wikitext2=wikitext2+x+'.'             else:                 break         wikitext2=re.sub('\\([^()]*\\)', '', wikitext2)         wikitext2=re.sub('\\([^()]*\\)', '', wikitext2)         wikitext2=re.sub('\\{[^\\{\\}]*\\}', '', wikitext2)         return wikitext2     except Exception as e:         return '\u0412 \u044d\u043d\u0446\u0438\u043a\u043b\u043e\u043f\u0435\u0434\u0438\u0438 \u043d\u0435\u0442 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u043e\u0431 \u044d\u0442\u043e\u043c'  @bot.message_handler(commands=['start']) def start_message(message): bot.send_message(message.chat.id,\"\u0417\u0434\u0440\u0430\u0432\u0441\u0442\u0432\u0443\u0439\u0442\u0435, \u0421\u044d\u0440.\")  question = \"\"  @bot.message_handler(content_types=['text']) def get_text_messages(message): command = message.text.lower() if command ==\"\u043d\u0435 \u0442\u0430\u043a\": bot.send_message(message.from_user.id, \"\u0430 \u043a\u0430\u043a?\") bot.register_next_step_handler(message, wrong) else: global question question = command reply = get_generative_replica(command) if reply==\"\u0432\u0438\u043a\u0438 \": bot.send_message(message.from_user.id, getwiki(command)) else: bot.send_message(message.from_user.id, reply)  def wrong(message): a = f\"{question}\\{message.text.lower()} \\n\" with open('dialogues.txt', \"a\", encoding='utf-8') as f: f.write(a) bot.send_message(message.from_user.id, \"\u0413\u043e\u0442\u043e\u0432\u043e\") update()  bot.polling(none_stop=True)<\/code><\/pre>\n<p>\u041d\u0430\u0434\u0435\u044e\u0441\u044c, \u0441\u0442\u0430\u0442\u044c\u044f \u0412\u0430\u043c \u043f\u043e\u043d\u0440\u0430\u0432\u0438\u043b\u0430\u0441\u044c \ud83d\ude42<\/p>\n<\/div>\n<\/div>\n<\/div>\n<div class=\"v-portal\" style=\"display:none;\"><\/div>\n<\/div>\n<p> <!----> <!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/post\/667008\/\"> https:\/\/habr.com\/ru\/post\/667008\/<\/a><br \/><\/br><\/br><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-333469","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/333469","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=333469"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/333469\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=333469"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=333469"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=333469"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}