{"id":335081,"date":"2022-06-28T09:00:42","date_gmt":"2022-06-28T09:00:42","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=335081"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=335081","title":{"rendered":"<span>\u041d\u0430\u0439\u0442\u0438 \u0432\u0441\u0451. Text Mining<\/span>"},"content":{"rendered":"<div><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u041f\u0440\u0438\u0432\u0435\u0442, \u0425\u0430\u0431\u0440! \u0425\u043e\u0447\u0443 \u043f\u043e\u0434\u0435\u043b\u0438\u0442\u044c\u0441\u044f \u043e\u043f\u044b\u0442\u043e\u043c \u0430\u043d\u0430\u043b\u0438\u0437\u0430 \u0442\u0435\u043a\u0441\u0442\u0430. \u0412\u043e\u0437\u044c\u043c\u0443 \u0440\u0430\u0431\u043e\u0447\u0438\u0439 \u043f\u0440\u0438\u043c\u0435\u0440 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0432 \u043e\u0442\u043d\u043e\u0448\u0435\u043d\u0438\u0438 \u0433\u0440\u0430\u0436\u0434\u0430\u043d, \u043f\u0440\u043e\u0445\u043e\u0434\u044f\u0449\u0438\u0445 \u043f\u0440\u043e\u0446\u0435\u0434\u0443\u0440\u0443 \u0431\u0430\u043d\u043a\u0440\u043e\u0442\u0441\u0442\u0432\u0430. \u0417\u0430\u0434\u0430\u0447\u0430 \u0437\u0430\u043a\u043b\u044e\u0447\u0430\u0435\u0442\u0441\u044f \u0432 \u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u043e\u043c \u0441\u0431\u043e\u0440\u0435 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u0438\u0437 \u0442\u0435\u043a\u0441\u0442\u0430 300 \u0442\u044b\u0441. \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0442\u0430\u043a\u043e\u0439 \u043a\u0430\u043a: \u043d\u043e\u043c\u0435\u0440 \u0441\u0447\u0435\u0442\u0430, \u0441 \u043a\u043e\u0442\u043e\u0440\u043e\u0433\u043e \u043c\u043e\u0436\u043d\u043e \u0441\u043d\u044f\u0442\u044c \u0441\u0440\u0435\u0434\u0441\u0442\u0432\u0430, \u0440\u0430\u0437\u0440\u0435\u0448\u0435\u043d\u043d\u0430\u044f \u0441\u0443\u043c\u043c\u0430, \u043f\u0435\u0440\u0438\u043e\u0434 \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u044f. \u041f\u0440\u0438\u043c\u0435\u0440 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u0443\u044e\u0449\u0435\u0439 \u043c\u0435\u043d\u044f \u0447\u0430\u0441\u0442\u0438 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430:<\/p>\n<figure class=\"full-width\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/eb3\/45d\/7c7\/eb345d7c7bab6cd85f0234f0229bd6ad.png\" width=\"936\" height=\"183\" data-src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/eb3\/45d\/7c7\/eb345d7c7bab6cd85f0234f0229bd6ad.png\"\/><figcaption><\/figcaption><\/figure>\n<p>\u041d\u0435\u043c\u043d\u043e\u0433\u043e \u0441\u043a\u0443\u0447\u043d\u043e\u0439 \u0442\u0435\u043e\u0440\u0438\u0438: \u0444\u043e\u0440\u043c\u0443\u043b\u0438\u0440\u043e\u0432\u043a\u0430 \u0437\u0430\u043a\u043b\u044e\u0447\u0435\u043d\u0438\u0439 \u0444\u0438\u043d\u0430\u043d\u0441\u043e\u0432\u044b\u0445 \u0443\u043f\u0440\u0430\u0432\u043b\u044f\u044e\u0449\u0438\u0445 \u043d\u0435 \u0440\u0435\u0433\u043b\u0430\u043c\u0435\u043d\u0442\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u043c\u0438 \u043f\u0440\u0430\u0432\u0438\u043b\u0430\u043c\u0438 \u0438 \u043f\u043e\u0442\u043e\u043c\u0443 \u043c\u043e\u0436\u0435\u0442 \u0432\u044b\u0433\u043b\u044f\u0434\u0435\u0442\u044c \u043f\u043e-\u0440\u0430\u0437\u043d\u043e\u043c\u0443 \u0438 \u043c\u043e\u0436\u0435\u0442 \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u0441\u044f \u0432 \u0440\u0430\u0437\u043d\u044b\u0445 \u0447\u0430\u0441\u0442\u044f\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430. \u041d\u043e \u0432 \u043f\u043e\u0434\u043e\u0431\u043d\u044b\u0445 \u0437\u0430\u043a\u043b\u044e\u0447\u0435\u043d\u0438\u044f\u0445 (\u0435\u0441\u043b\u0438 \u043e\u043d\u0438 \u0438\u043c\u0435\u044e\u0442\u0441\u044f) \u0432\u0441\u0435\u0433\u0434\u0430 \u0431\u0443\u0434\u0443\u0442 \u0443\u043f\u043e\u043c\u0438\u043d\u0430\u0442\u044c\u0441\u044f \u043d\u043e\u043c\u0435\u0440 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u044c\u043d\u043e\u0433\u043e \u0441\u0447\u0435\u0442\u0430 (\u0434\u043b\u044f \u0444\u0438\u0437. \u043b\u0438\u0446\u0430 \u043e\u043d \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442\u0441\u044f \u0441 4), \u0441\u0443\u043c\u043c\u0430 \u0438 \u0444\u0440\u0430\u0437\u044b, \u043f\u043e\u0434\u0440\u0430\u0437\u0443\u043c\u0435\u0432\u0430\u044e\u0449\u0438\u0435 \u0440\u0430\u0437\u0440\u0435\u0448\u0435\u043d\u0438\u0435 \u043d\u0430 \u0441\u043d\u044f\u0442\u0438\u0435 \u0434\u0435\u043d\u0435\u0436\u043d\u044b\u0445 \u0441\u0440\u0435\u0434\u0441\u0442\u0432. \u0421 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u0434\u0430\u043d\u043d\u044b\u0445 \u044d\u0432\u0440\u0438\u0441\u0442\u0438\u043a \u043c\u043e\u0436\u043d\u043e \u043b\u043e\u043a\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u0442\u044c \u043d\u0443\u0436\u043d\u044b\u0439 \u043d\u0430\u043c \u043a\u0443\u0441\u043e\u043a \u0442\u0435\u043a\u0441\u0442\u0430!<\/p>\n<p>\u0412\u043e\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0441\u044c python \u0438 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430\u043c\u0438 regex \u0438 Natasha. \u0421 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u044b\u0445 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u0439 \u043b\u043e\u043a\u0430\u043b\u0438\u0437\u0438\u0440\u0443\u044e \u043d\u0443\u0436\u043d\u044b\u0435 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044f, \u0430 \u0440\u0430\u0437\u0431\u0438\u0432\u0430\u0442\u044c \u0442\u0435\u043a\u0441\u0442 \u043d\u0430 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044f \u0438 \u0432\u044b\u0442\u0430\u0441\u043a\u0438\u0432\u0430\u0442\u044c \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u044b\u0435 \u043f\u043e\u043b\u044f \u0431\u0443\u0434\u0443 \u0441 Natasha. \u041c\u043d\u043e\u0433\u0438\u0435 \u0437\u043d\u0430\u043a\u043e\u043c\u044b \u0441 \u043e\u0442\u043b\u0438\u0447\u043d\u044b\u043c\u0438 \u0441\u043f\u043e\u0441\u043e\u0431\u043d\u043e\u0441\u0442\u044f\u043c\u0438 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438 Natasha \u043a \u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u043d\u0438\u044e \u0438\u043c\u0435\u043d\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0435\u0439 (\u0438\u043c\u0435\u043d\u0430, \u0433\u043e\u0440\u043e\u0434\u0430, \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u044f \u043a\u043e\u043c\u043f\u0430\u043d\u0438\u0439 \u0438 \u0442.\u0434.). \u041d\u043e, \u043f\u043e\u043c\u0438\u043c\u043e \u044d\u0442\u043e\u0433\u043e, \u043e\u043d\u0430 \u0443\u043c\u0435\u0435\u0442 \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u044c \u0434\u0430\u0442\u044b, \u0441\u0443\u043c\u043c\u044b \u0434\u0435\u043d\u0435\u0433 \u0438 \u0434\u0430\u0436\u0435 \u0430\u0434\u0440\u0435\u0441\u0430! <\/p>\n<p>\u0418\u043c\u043f\u043e\u0440\u0442\u0438\u0440\u0443\u044e \u043d\u0443\u0436\u043d\u044b\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438:<\/p>\n<pre><code>import os import pandas as pd from natasha import (Doc, Segmenter, NewsEmbedding, NewsMorphTagger,                      NewsSyntaxParser, MorphVocab, NewsNERTagger,                      DatesExtractor, MoneyExtractor) import re from collections import Counter import openpyxl import datetime pd.options.display.max_columns = 100 pd.options.display.max_rows = 100 import warnings  warnings.filterwarnings('ignore')<\/code><\/pre>\n<p>\u041d\u0430\u043f\u0438\u0448\u0443 \u0444\u0443\u043d\u043a\u0446\u0438\u044e get_info, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043d\u0430 \u0432\u0445\u043e\u0434 \u0431\u0443\u0434\u0435\u0442 \u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0442\u044c \u0442\u0435\u043a\u0441\u0442 \u0438 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044f, \u0430 \u043d\u0430 \u0432\u044b\u0445\u043e\u0434\u0435 \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u043d\u043e\u043c\u0435\u0440 \u0441\u0447\u0435\u0442\u0430, \u0441\u0443\u043c\u043c\u0443 \u0438 \u043f\u0435\u0440\u0438\u043e\u0434. \u0421\u043d\u0430\u0447\u0430\u043b\u0430 \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u044b\u0445 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u0439 \u043d\u0430\u0445\u043e\u0436\u0443 \u0446\u0435\u043d\u0442\u0440\u0430\u043b\u044c\u043d\u043e\u0435 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u0435 \u0438 \u0431\u0435\u0440\u0443 \u0441\u043e\u0441\u0435\u0434\u043d\u0438\u0435 2 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044f. <\/p>\n<pre><code>def get_info(text, sents):   try:     match = re.finditer('4\\d{19}', text)      marks = [m.start() for m in match]     bill = None     money = None     date1 = None     date2 = None      for ind, i in enumerate(sents):       for mark in marks:    if i.start &lt;= mark and i.stop > mark:        mini_sents = [sents[ind-1], i ,sents[ind+1]] # \u0431\u0435\u0440\u0435\u043c 3 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044f       bill_text = ' '.join([x.text for x in mini_sents]) <\/code><\/pre>\n<p>\u0414\u0430\u043b\u0435\u0435 \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u044e, \u0435\u0441\u043b\u0438 \u0442\u0430\u043c \u0438\u0434\u0435\u0442 \u0440\u0435\u0447\u044c \u043e \u0440\u0430\u0437\u0440\u0435\u0448\u0435\u043d\u0438\u0438 \u043d\u0430 \u0441\u043d\u044f\u0442\u0438\u044f \u0438\u043b\u0438 \u043e \u0434\u0435\u043d\u0435\u0436\u043d\u044b\u0445 \u043b\u0438\u043c\u0438\u0442\u0430\u0445, \u0442\u043e \u0437\u0430\u0431\u0438\u0440\u0430\u0435\u043c \u043d\u0443\u0436\u043d\u044b\u0435 \u043f\u043e\u043b\u044f.<\/p>\n<pre><code>patterns = ['\u043d\u0435 \u0431\u043e\u043b\u0435\u0435', '\u0432 \u043f\u0440\u0435\u0434\u0435\u043b\u0430\u0445', '\u0440\u0430\u0437\u0431\u043b\u043e\u043a\u0438\u0440\\w+', '\u043d\u0435 \u043c\u043e\u0436\u0435\u0442 \u043f\u0440\u0435\u0432\u044b\u0448\u0430\u0442\u044c', '\u043f\u0440\u0435\u0432\u044b\u0448\u0430\\w+', '\u0441\u0430\u043c\u043e\u0441\u0442\u043e\u044f\u0442\u0435\u043b\u044c\u043d\u043e', '\u0438\u043c\u0435\u0435\u0442 \u043f\u0440\u0430\u0432\u043e', '\u0440\u0430\u0441\u043f\u043e\u0440\u044f\u0436\\w+', '[\u0414\u0434]\u0435\u043d\u044c\u0433\u0438 \u0441\u043d\u0438\u043c\u0430\u044e\u0442\u0441\u044f']                     matches = []       [matches.extend(re.findall(pattern, bill_text)) for pattern in patterns]      if matches:        matches = money_extractor(bill_text) # \u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u043d\u0438\u0435 \u0434\u0435\u043d\u0435\u0433         facts = [i.fact.as_json for i in matches]        facts = [f.get('amount') for f in facts]        money = facts        bill = re.search('4\\d{19}',bill_text) # \u0437\u0430\u0431\u0438\u0440\u0430\u0435\u043c \u0441\u0447\u0435\u0442    try:     start = [m.start() for m in  re.finditer('\\s+\u0441\\s+\\d{2}', bill_text)][0]    # \u043d\u0430\u0445\u043e\u0434\u0438\u043c \u0443\u043f\u043e\u043c\u0438\u043d\u0430\u043d\u0438\u0435 \u043f\u0435\u0440\u0438\u043e\u0434\u0430          dates = dates_extractor(bill_text[start:]) # \u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u043d\u0438\u0435 \u0434\u0430\u0442           dates = [datetime.date(d.fact.as_json.get('year'),                                  d.fact.as_json.get('month'),                                  d.fact.as_json.get('day'))                   for d in dates]          date1 = dates[0]          date2 = dates[1]                        except:          pass                                     if money:          money = [0]                     return bill, money, date1, date2     except:        return None, None, None, None<\/code><\/pre>\n<p>\u0421\u043e\u0437\u0434\u0430\u044e \u0434\u0430\u0442\u0430\u0444\u0440\u0435\u0439\u043c:<\/p>\n<pre><code>data = pd.DataFrame({'\u0417\u041d\u041e':[], '\u041d\u043e\u043c\u0435\u0440 \u0441\u0447\u0435\u0442\u0430' : [], '\u0414\u0430\u0442\u0430 1' : [],                        '\u0414\u0430\u0442\u0430 2' : [], '\u0421\u0443\u043c\u043c\u0430' : []})<\/code><\/pre>\n<p>\u0412 \u0446\u0438\u043a\u043b\u0435 \u043e\u0442\u043a\u0440\u044b\u0432\u0430\u044e \u0438 \u0441\u0447\u0438\u0442\u0430\u044e \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u0438\u0437 \u0444\u0430\u0439\u043b\u043e\u0432, \u0443\u0431\u0438\u0440\u0430\u044e \u0441\u0438\u043c\u0432\u043e\u043b\u044b \u043f\u0435\u0440\u0435\u043d\u043e\u0441\u0430 \u0438 \u0442\u0430\u0431\u0443\u043b\u044f\u0446\u0438\u0438. \u0417\u0430\u0442\u0435\u043c \u043f\u0435\u0440\u0435\u0434\u0430\u044e \u0442\u0435\u043a\u0441\u0442 \u0432 Natasha \u0434\u043b\u044f \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u0438 \u0438 \u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u043d\u0438\u044f \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0435\u0439. \u0412\u044b\u0437\u044b\u0432\u0430\u044e \u043d\u0430\u043f\u0438\u0441\u0430\u043d\u043d\u0443\u044e \u043c\u043d\u043e\u0439 \u0444\u0443\u043d\u043a\u0446\u0438\u044e get_info \u0438 \u0434\u043e\u043f\u0438\u0441\u044b\u0432\u0430\u044e \u0432 \u0434\u0430\u0442\u0430\u0444\u0440\u0435\u0439\u043c \u043d\u0430\u0439\u0434\u0435\u043d\u043d\u0443\u044e \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e.<\/p>\n<pre><code>segmenter = Segmenter() emb = NewsEmbedding() morph_tagger = NewsMorphTagger(emb) syntax_parser = NewsSyntaxParser(emb) morph_vocab = MorphVocab() ner_tagger = NewsNERTagger(emb)  path = 'docs\/' filenames = os.listdir(path)  for filename in filenames:   with open(path + filename, 'r') as file:     text += file.read()   text = text.replace('\\n', ' ')   text = text.replace('\\t', ' ')   doc = Doc(text)   dates_extractor = DatesExtractor(morph_vocab)   money_extractor = MoneyExtractor(morph_vocab)   doc.segment(segmenter)   doc.tag_morph(morph_tagger)   doc.parse_syntax(syntax_parser)   doc.tag_ner(ner_tagger)     num, money, date1, date2 = get_info(doc.text, doc.sents)   data = pd.concat([pd.DataFrame({     '\u0417\u041d\u041e':[filename.split('.')[0].split('_')[0]],  # \u0417\u041d\u041e \u0432 \u043d\u0430\u0448\u0435\u043c \u0441\u043b\u0443\u0447\u0430\u0435 \u044f\u0432\u043b\u044f\u043b\u043e\u0441\u044c \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0435 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430                '\u041d\u043e\u043c\u0435\u0440 \u0441\u0447\u0435\u0442\u0430' : [num], '\u0414\u0430\u0442\u0430 1' : [date1],                 '\u0414\u0430\u0442\u0430 2' : [date2], '\u0421\u0443\u043c\u043c\u0430' : [money]}), data])<\/code><\/pre>\n<p>\u041d\u0430 \u0432\u044b\u0445\u043e\u0434\u0435 \u043f\u043e\u043b\u0443\u0447\u0430\u044e \u0436\u0435\u043b\u0430\u0435\u043c\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 \u0432 \u0432\u0438\u0434\u0435 \u0442\u0430\u0431\u043b\u0438\u0446\u044b:<\/p>\n<figure class=\"\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/01d\/0bc\/5ec\/01d0bc5ecae649ed099618db6bd2a027.png\" width=\"424\" height=\"226\" data-src=\"https:\/\/habrastorage.org\/getpro\/habr\/upload_files\/01d\/0bc\/5ec\/01d0bc5ecae649ed099618db6bd2a027.png\"\/><figcaption><\/figcaption><\/figure>\n<p>\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u0445 \u044d\u0432\u0440\u0438\u0441\u0442\u0438\u043a \u0438 \u0443\u0436\u0435 \u0441\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u044e\u0449\u0438\u0445 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u043c\u043d\u0435 \u0443\u0434\u0430\u043b\u043e\u0441\u044c \u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u043d\u043e \u0438 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0436\u0435\u043b\u0430\u0435\u043c\u0443\u044e \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u0438\u0437 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u0438\u0445 \u0441\u043e\u0442\u0435\u043d \u0442\u044b\u0441\u044f\u0447 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0438, \u043f\u0440\u0438 \u044d\u0442\u043e\u043c, \u043d\u0435 \u0438\u0437\u043e\u0431\u0440\u0435\u0442\u0430\u0442\u044c \u043a\u043e\u043b\u0435\u0441\u043e. \u041d\u0430 \u044d\u0442\u043e\u043c \u0432\u0441\u0451, \u043d\u0430\u0434\u0435\u044e\u0441\u044c \u0431\u044b\u043b\u0430 \u043f\u043e\u043b\u0435\u0437\u043d\u0430, \u0432\u0441\u0435\u043c \u0443\u0441\u043f\u0435\u0445\u043e\u0432!<\/p>\n<\/p>\n<\/div>\n<\/div>\n<\/div>\n<div class=\"v-portal\" style=\"display:none;\"><\/div>\n<\/div>\n<p> <!----> <!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/post\/673726\/\"> https:\/\/habr.com\/ru\/post\/673726\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<div><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u041f\u0440\u0438\u0432\u0435\u0442, \u0425\u0430\u0431\u0440! \u0425\u043e\u0447\u0443 \u043f\u043e\u0434\u0435\u043b\u0438\u0442\u044c\u0441\u044f \u043e\u043f\u044b\u0442\u043e\u043c \u0430\u043d\u0430\u043b\u0438\u0437\u0430 \u0442\u0435\u043a\u0441\u0442\u0430. \u0412\u043e\u0437\u044c\u043c\u0443 \u0440\u0430\u0431\u043e\u0447\u0438\u0439 \u043f\u0440\u0438\u043c\u0435\u0440 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0432 \u043e\u0442\u043d\u043e\u0448\u0435\u043d\u0438\u0438 \u0433\u0440\u0430\u0436\u0434\u0430\u043d, \u043f\u0440\u043e\u0445\u043e\u0434\u044f\u0449\u0438\u0445 \u043f\u0440\u043e\u0446\u0435\u0434\u0443\u0440\u0443 \u0431\u0430\u043d\u043a\u0440\u043e\u0442\u0441\u0442\u0432\u0430. \u0417\u0430\u0434\u0430\u0447\u0430 \u0437\u0430\u043a\u043b\u044e\u0447\u0430\u0435\u0442\u0441\u044f \u0432 \u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u043e\u043c \u0441\u0431\u043e\u0440\u0435 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u0438\u0437 \u0442\u0435\u043a\u0441\u0442\u0430 300 \u0442\u044b\u0441. \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0442\u0430\u043a\u043e\u0439 \u043a\u0430\u043a: \u043d\u043e\u043c\u0435\u0440 \u0441\u0447\u0435\u0442\u0430, \u0441 \u043a\u043e\u0442\u043e\u0440\u043e\u0433\u043e \u043c\u043e\u0436\u043d\u043e \u0441\u043d\u044f\u0442\u044c \u0441\u0440\u0435\u0434\u0441\u0442\u0432\u0430, \u0440\u0430\u0437\u0440\u0435\u0448\u0435\u043d\u043d\u0430\u044f \u0441\u0443\u043c\u043c\u0430, \u043f\u0435\u0440\u0438\u043e\u0434 \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u044f. \u041f\u0440\u0438\u043c\u0435\u0440 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u0443\u044e\u0449\u0435\u0439 \u043c\u0435\u043d\u044f \u0447\u0430\u0441\u0442\u0438 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430:<\/p>\n<figure class=\"full-width\"><figcaption><\/figcaption><\/figure>\n<p>\u041d\u0435\u043c\u043d\u043e\u0433\u043e \u0441\u043a\u0443\u0447\u043d\u043e\u0439 \u0442\u0435\u043e\u0440\u0438\u0438: \u0444\u043e\u0440\u043c\u0443\u043b\u0438\u0440\u043e\u0432\u043a\u0430 \u0437\u0430\u043a\u043b\u044e\u0447\u0435\u043d\u0438\u0439 \u0444\u0438\u043d\u0430\u043d\u0441\u043e\u0432\u044b\u0445 \u0443\u043f\u0440\u0430\u0432\u043b\u044f\u044e\u0449\u0438\u0445 \u043d\u0435 \u0440\u0435\u0433\u043b\u0430\u043c\u0435\u043d\u0442\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u043c\u0438 \u043f\u0440\u0430\u0432\u0438\u043b\u0430\u043c\u0438 \u0438 \u043f\u043e\u0442\u043e\u043c\u0443 \u043c\u043e\u0436\u0435\u0442 \u0432\u044b\u0433\u043b\u044f\u0434\u0435\u0442\u044c \u043f\u043e-\u0440\u0430\u0437\u043d\u043e\u043c\u0443 \u0438 \u043c\u043e\u0436\u0435\u0442 \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u0441\u044f \u0432 \u0440\u0430\u0437\u043d\u044b\u0445 \u0447\u0430\u0441\u0442\u044f\u0445 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430. \u041d\u043e \u0432 \u043f\u043e\u0434\u043e\u0431\u043d\u044b\u0445 \u0437\u0430\u043a\u043b\u044e\u0447\u0435\u043d\u0438\u044f\u0445 (\u0435\u0441\u043b\u0438 \u043e\u043d\u0438 \u0438\u043c\u0435\u044e\u0442\u0441\u044f) \u0432\u0441\u0435\u0433\u0434\u0430 \u0431\u0443\u0434\u0443\u0442 \u0443\u043f\u043e\u043c\u0438\u043d\u0430\u0442\u044c\u0441\u044f \u043d\u043e\u043c\u0435\u0440 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u044c\u043d\u043e\u0433\u043e \u0441\u0447\u0435\u0442\u0430 (\u0434\u043b\u044f \u0444\u0438\u0437. \u043b\u0438\u0446\u0430 \u043e\u043d \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442\u0441\u044f \u0441 4), \u0441\u0443\u043c\u043c\u0430 \u0438 \u0444\u0440\u0430\u0437\u044b, \u043f\u043e\u0434\u0440\u0430\u0437\u0443\u043c\u0435\u0432\u0430\u044e\u0449\u0438\u0435 \u0440\u0430\u0437\u0440\u0435\u0448\u0435\u043d\u0438\u0435 \u043d\u0430 \u0441\u043d\u044f\u0442\u0438\u0435 \u0434\u0435\u043d\u0435\u0436\u043d\u044b\u0445 \u0441\u0440\u0435\u0434\u0441\u0442\u0432. \u0421 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u0434\u0430\u043d\u043d\u044b\u0445 \u044d\u0432\u0440\u0438\u0441\u0442\u0438\u043a \u043c\u043e\u0436\u043d\u043e \u043b\u043e\u043a\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u0442\u044c \u043d\u0443\u0436\u043d\u044b\u0439 \u043d\u0430\u043c \u043a\u0443\u0441\u043e\u043a \u0442\u0435\u043a\u0441\u0442\u0430!<\/p>\n<p>\u0412\u043e\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0441\u044c python \u0438 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430\u043c\u0438 regex \u0438 Natasha. \u0421 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u044b\u0445 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u0439 \u043b\u043e\u043a\u0430\u043b\u0438\u0437\u0438\u0440\u0443\u044e \u043d\u0443\u0436\u043d\u044b\u0435 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044f, \u0430 \u0440\u0430\u0437\u0431\u0438\u0432\u0430\u0442\u044c \u0442\u0435\u043a\u0441\u0442 \u043d\u0430 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044f \u0438 \u0432\u044b\u0442\u0430\u0441\u043a\u0438\u0432\u0430\u0442\u044c \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u044b\u0435 \u043f\u043e\u043b\u044f \u0431\u0443\u0434\u0443 \u0441 Natasha. \u041c\u043d\u043e\u0433\u0438\u0435 \u0437\u043d\u0430\u043a\u043e\u043c\u044b \u0441 \u043e\u0442\u043b\u0438\u0447\u043d\u044b\u043c\u0438 \u0441\u043f\u043e\u0441\u043e\u0431\u043d\u043e\u0441\u0442\u044f\u043c\u0438 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438 Natasha \u043a \u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u043d\u0438\u044e \u0438\u043c\u0435\u043d\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0435\u0439 (\u0438\u043c\u0435\u043d\u0430, \u0433\u043e\u0440\u043e\u0434\u0430, \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u044f \u043a\u043e\u043c\u043f\u0430\u043d\u0438\u0439 \u0438 \u0442.\u0434.). \u041d\u043e, \u043f\u043e\u043c\u0438\u043c\u043e \u044d\u0442\u043e\u0433\u043e, \u043e\u043d\u0430 \u0443\u043c\u0435\u0435\u0442 \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u044c \u0434\u0430\u0442\u044b, \u0441\u0443\u043c\u043c\u044b \u0434\u0435\u043d\u0435\u0433 \u0438 \u0434\u0430\u0436\u0435 \u0430\u0434\u0440\u0435\u0441\u0430! <\/p>\n<p>\u0418\u043c\u043f\u043e\u0440\u0442\u0438\u0440\u0443\u044e \u043d\u0443\u0436\u043d\u044b\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438:<\/p>\n<pre><code>import os import pandas as pd from natasha import (Doc, Segmenter, NewsEmbedding, NewsMorphTagger,                      NewsSyntaxParser, MorphVocab, NewsNERTagger,                      DatesExtractor, MoneyExtractor) import re from collections import Counter import openpyxl import datetime pd.options.display.max_columns = 100 pd.options.display.max_rows = 100 import warnings  warnings.filterwarnings('ignore')<\/code><\/pre>\n<p>\u041d\u0430\u043f\u0438\u0448\u0443 \u0444\u0443\u043d\u043a\u0446\u0438\u044e get_info, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043d\u0430 \u0432\u0445\u043e\u0434 \u0431\u0443\u0434\u0435\u0442 \u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0442\u044c \u0442\u0435\u043a\u0441\u0442 \u0438 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044f, \u0430 \u043d\u0430 \u0432\u044b\u0445\u043e\u0434\u0435 \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u043d\u043e\u043c\u0435\u0440 \u0441\u0447\u0435\u0442\u0430, \u0441\u0443\u043c\u043c\u0443 \u0438 \u043f\u0435\u0440\u0438\u043e\u0434. \u0421\u043d\u0430\u0447\u0430\u043b\u0430 \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u044b\u0445 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u0439 \u043d\u0430\u0445\u043e\u0436\u0443 \u0446\u0435\u043d\u0442\u0440\u0430\u043b\u044c\u043d\u043e\u0435 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u0435 \u0438 \u0431\u0435\u0440\u0443 \u0441\u043e\u0441\u0435\u0434\u043d\u0438\u0435 2 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044f. <\/p>\n<pre><code>def get_info(text, sents):   try:     match = re.finditer('4\\d{19}', text)      marks = [m.start() for m in match]     bill = None     money = None     date1 = None     date2 = None      for ind, i in enumerate(sents):       for mark in marks:    if i.start &lt;= mark and i.stop > mark:        mini_sents = [sents[ind-1], i ,sents[ind+1]] # \u0431\u0435\u0440\u0435\u043c 3 \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u0438\u044f       bill_text = ' '.join([x.text for x in mini_sents]) <\/code><\/pre>\n<p>\u0414\u0430\u043b\u0435\u0435 \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u044e, \u0435\u0441\u043b\u0438 \u0442\u0430\u043c \u0438\u0434\u0435\u0442 \u0440\u0435\u0447\u044c \u043e \u0440\u0430\u0437\u0440\u0435\u0448\u0435\u043d\u0438\u0438 \u043d\u0430 \u0441\u043d\u044f\u0442\u0438\u044f \u0438\u043b\u0438 \u043e \u0434\u0435\u043d\u0435\u0436\u043d\u044b\u0445 \u043b\u0438\u043c\u0438\u0442\u0430\u0445, \u0442\u043e \u0437\u0430\u0431\u0438\u0440\u0430\u0435\u043c \u043d\u0443\u0436\u043d\u044b\u0435 \u043f\u043e\u043b\u044f.<\/p>\n<pre><code>patterns = ['\u043d\u0435 \u0431\u043e\u043b\u0435\u0435', '\u0432 \u043f\u0440\u0435\u0434\u0435\u043b\u0430\u0445', '\u0440\u0430\u0437\u0431\u043b\u043e\u043a\u0438\u0440\\w+', '\u043d\u0435 \u043c\u043e\u0436\u0435\u0442 \u043f\u0440\u0435\u0432\u044b\u0448\u0430\u0442\u044c', '\u043f\u0440\u0435\u0432\u044b\u0448\u0430\\w+', '\u0441\u0430\u043c\u043e\u0441\u0442\u043e\u044f\u0442\u0435\u043b\u044c\u043d\u043e', '\u0438\u043c\u0435\u0435\u0442 \u043f\u0440\u0430\u0432\u043e', '\u0440\u0430\u0441\u043f\u043e\u0440\u044f\u0436\\w+', '[\u0414\u0434]\u0435\u043d\u044c\u0433\u0438 \u0441\u043d\u0438\u043c\u0430\u044e\u0442\u0441\u044f']                     matches = []       [matches.extend(re.findall(pattern, bill_text)) for pattern in patterns]      if matches:        matches = money_extractor(bill_text) # \u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u043d\u0438\u0435 \u0434\u0435\u043d\u0435\u0433         facts = [i.fact.as_json for i in matches]        facts = [f.get('amount') for f in facts]        money = facts        bill = re.search('4\\d{19}',bill_text) # \u0437\u0430\u0431\u0438\u0440\u0430\u0435\u043c \u0441\u0447\u0435\u0442    try:     start = [m.start() for m in  re.finditer('\\s+\u0441\\s+\\d{2}', bill_text)][0]    # \u043d\u0430\u0445\u043e\u0434\u0438\u043c \u0443\u043f\u043e\u043c\u0438\u043d\u0430\u043d\u0438\u0435 \u043f\u0435\u0440\u0438\u043e\u0434\u0430          dates = dates_extractor(bill_text[start:]) # \u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u043d\u0438\u0435 \u0434\u0430\u0442           dates = [datetime.date(d.fact.as_json.get('year'),                                  d.fact.as_json.get('month'),                                  d.fact.as_json.get('day'))                   for d in dates]          date1 = dates[0]          date2 = dates[1]                        except:          pass                                     if money:          money = [0]                     return bill, money, date1, date2     except:        return None, None, None, None<\/code><\/pre>\n<p>\u0421\u043e\u0437\u0434\u0430\u044e \u0434\u0430\u0442\u0430\u0444\u0440\u0435\u0439\u043c:<\/p>\n<pre><code>data = pd.DataFrame({'\u0417\u041d\u041e':[], '\u041d\u043e\u043c\u0435\u0440 \u0441\u0447\u0435\u0442\u0430' : [], '\u0414\u0430\u0442\u0430 1' : [],                        '\u0414\u0430\u0442\u0430 2' : [], '\u0421\u0443\u043c\u043c\u0430' : []})<\/code><\/pre>\n<p>\u0412 \u0446\u0438\u043a\u043b\u0435 \u043e\u0442\u043a\u0440\u044b\u0432\u0430\u044e \u0438 \u0441\u0447\u0438\u0442\u0430\u044e \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u0438\u0437 \u0444\u0430\u0439\u043b\u043e\u0432, \u0443\u0431\u0438\u0440\u0430\u044e \u0441\u0438\u043c\u0432\u043e\u043b\u044b \u043f\u0435\u0440\u0435\u043d\u043e\u0441\u0430 \u0438 \u0442\u0430\u0431\u0443\u043b\u044f\u0446\u0438\u0438. \u0417\u0430\u0442\u0435\u043c \u043f\u0435\u0440\u0435\u0434\u0430\u044e \u0442\u0435\u043a\u0441\u0442 \u0432 Natasha \u0434\u043b\u044f \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u0438 \u0438 \u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u043d\u0438\u044f \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0435\u0439. \u0412\u044b\u0437\u044b\u0432\u0430\u044e \u043d\u0430\u043f\u0438\u0441\u0430\u043d\u043d\u0443\u044e \u043c\u043d\u043e\u0439 \u0444\u0443\u043d\u043a\u0446\u0438\u044e get_info \u0438 \u0434\u043e\u043f\u0438\u0441\u044b\u0432\u0430\u044e \u0432 \u0434\u0430\u0442\u0430\u0444\u0440\u0435\u0439\u043c \u043d\u0430\u0439\u0434\u0435\u043d\u043d\u0443\u044e \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e.<\/p>\n<pre><code>segmenter = Segmenter() emb = NewsEmbedding() morph_tagger = NewsMorphTagger(emb) syntax_parser = NewsSyntaxParser(emb) morph_vocab = MorphVocab() ner_tagger = NewsNERTagger(emb)  path = 'docs\/' filenames = os.listdir(path)  for filename in filenames:   with open(path + filename, 'r') as file:     text += file.read()   text = text.replace('\\n', ' ')   text = text.replace('\\t', ' ')   doc = Doc(text)   dates_extractor = DatesExtractor(morph_vocab)   money_extractor = MoneyExtractor(morph_vocab)   doc.segment(segmenter)   doc.tag_morph(morph_tagger)   doc.parse_syntax(syntax_parser)   doc.tag_ner(ner_tagger)     num, money, date1, date2 = get_info(doc.text, doc.sents)   data = pd.concat([pd.DataFrame({     '\u0417\u041d\u041e':[filename.split('.')[0].split('_')[0]],  # \u0417\u041d\u041e \u0432 \u043d\u0430\u0448\u0435\u043c \u0441\u043b\u0443\u0447\u0430\u0435 \u044f\u0432\u043b\u044f\u043b\u043e\u0441\u044c \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0435 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430                '\u041d\u043e\u043c\u0435\u0440 \u0441\u0447\u0435\u0442\u0430' : [num], '\u0414\u0430\u0442\u0430 1' : [date1],                 '\u0414\u0430\u0442\u0430 2' : [date2], '\u0421\u0443\u043c\u043c\u0430' : [money]}), data])<\/code><\/pre>\n<p>\u041d\u0430 \u0432\u044b\u0445\u043e\u0434\u0435 \u043f\u043e\u043b\u0443\u0447\u0430\u044e \u0436\u0435\u043b\u0430\u0435\u043c\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 \u0432 \u0432\u0438\u0434\u0435 \u0442\u0430\u0431\u043b\u0438\u0446\u044b:<\/p>\n<figure class=\"\"><figcaption><\/figcaption><\/figure>\n<p>\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u0445 \u044d\u0432\u0440\u0438\u0441\u0442\u0438\u043a \u0438 \u0443\u0436\u0435 \u0441\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u044e\u0449\u0438\u0445 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u043c\u043d\u0435 \u0443\u0434\u0430\u043b\u043e\u0441\u044c \u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u043d\u043e \u0438 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0436\u0435\u043b\u0430\u0435\u043c\u0443\u044e \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u0438\u0437 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u0438\u0445 \u0441\u043e\u0442\u0435\u043d \u0442\u044b\u0441\u044f\u0447 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0438, \u043f\u0440\u0438 \u044d\u0442\u043e\u043c, \u043d\u0435 \u0438\u0437\u043e\u0431\u0440\u0435\u0442\u0430\u0442\u044c \u043a\u043e\u043b\u0435\u0441\u043e. \u041d\u0430 \u044d\u0442\u043e\u043c \u0432\u0441\u0451, \u043d\u0430\u0434\u0435\u044e\u0441\u044c \u0431\u044b\u043b\u0430 \u043f\u043e\u043b\u0435\u0437\u043d\u0430, \u0432\u0441\u0435\u043c \u0443\u0441\u043f\u0435\u0445\u043e\u0432!<\/p>\n<\/p>\n<\/div>\n<\/div>\n<\/div>\n<div class=\"v-portal\" style=\"display:none;\"><\/div>\n<\/div>\n<p> <!----> <!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/post\/673726\/\"> https:\/\/habr.com\/ru\/post\/673726\/<\/a><br \/><\/br><\/br><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-335081","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/335081","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=335081"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/335081\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=335081"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=335081"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=335081"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}