{"id":468278,"date":"2025-07-23T15:00:08","date_gmt":"2025-07-23T15:00:08","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=468278"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=468278","title":{"rendered":"<span>\u041f\u0430\u0440\u0441\u0438\u043d\u0433 \u0440\u043e\u0441\u0441\u0438\u0439\u0441\u043a\u0438\u0445 \u0421\u041c\u0418<\/span>"},"content":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<h3>\u0420\u0430\u0437\u0431\u0438\u0440\u0430\u0435\u043c \u043d\u0430 \u043f\u0440\u0438\u043c\u0435\u0440\u0435 Russia Today, \u041a\u043e\u043c\u043c\u0435\u0440\u0441\u0430\u043d\u0442 \u0438 Meduza*<\/h3>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/ee9\/00f\/6c1\/ee900f6c1b57a8efb867a47025441010.png\" width=\"1500\" height=\"700\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/ee9\/00f\/6c1\/ee900f6c1b57a8efb867a47025441010.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/ee9\/00f\/6c1\/ee900f6c1b57a8efb867a47025441010.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u0412\u043e\u0437\u043c\u043e\u0436\u043d\u043e \u0434\u043b\u044f \u0432\u0430\u0448\u0435\u0433\u043e \u043f\u0440\u043e\u0435\u043a\u0442\u0430\/\u0440\u0435\u0441\u0435\u0440\u0447\u0430 \u0438\u043d\u043e\u0433\u0434\u0430 \u0442\u0440\u0435\u0431\u043e\u0432\u0430\u043b\u043e\u0441\u044c \u0441\u043e\u0431\u0440\u0430\u0442\u044c \u0431\u043e\u043b\u044c\u0448\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0441\u0442\u0430\u0442\u0435\u0439 \u0438\u0437 \u043a\u0430\u043a\u0438\u0445-\u043b\u0438\u0431\u043e \u0438\u0441\u0442\u043e\u0447\u043d\u0438\u043a\u043e\u0432 \u0432 \u0432\u0438\u0434\u0435 \u0432\u0435\u0431-\u0441\u0430\u0439\u0442\u043e\u0432. \u0412 \u044d\u043f\u043e\u0445\u0443 \u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u044f\u0437\u044b\u043a\u043e\u0432\u044b\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u043f\u043e\u043b\u043d\u043e\u0446\u0435\u043d\u043d\u044b\u0439 \u0441\u0431\u043e\u0440 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u0441 \u0441\u0430\u0439\u0442\u043e\u0432 \u0432\u0441\u0435 \u0435\u0449\u0435 \u043d\u0435 \u0441\u0430\u043c\u044b\u0439 \u043e\u0447\u0435\u0432\u0438\u0434\u043d\u044b\u0439 \u0441\u0446\u0435\u043d\u0430\u0440\u0438\u0439, \u0442\u0440\u0435\u0431\u0443\u044e\u0449\u0438\u0439 \u0443\u0447\u0435\u0442\u0430 \u043c\u043d\u043e\u0433\u0438\u0445 \u043c\u0435\u043b\u043a\u0438\u0445 \u0434\u0435\u0442\u0430\u043b\u0435\u0439, \u0430 \u0442\u0430\u043a\u0436\u0435 \u043f\u043e\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u043f\u0440\u0438\u043d\u0446\u0438\u043f\u043e\u0432 \u0440\u0430\u0431\u043e\u0442\u044b \u0441\u0430\u0439\u0442\u0430 \u0438 \u0432\u0437\u0430\u0438\u043c\u043e\u0434\u0435\u0439\u0441\u0442\u0432\u0438\u044f \u0441 \u043d\u0438\u043c. \u0412 \u044d\u0442\u043e\u043c \u0441\u043b\u0443\u0447\u0430\u0435 \u0435\u0434\u0438\u043d\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u043e\u043f\u0442\u0438\u043c\u0430\u043b\u044c\u043d\u044b\u0439 \u043c\u0435\u0442\u043e\u0434 \u0441\u0431\u043e\u0440\u0430 \u0442\u0430\u043a\u043e\u0439 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 &#8212; \u044d\u0442\u043e \u043f\u0430\u0440\u0441\u0438\u043d\u0433.<\/p>\n<p>\u0412 \u0434\u0430\u043d\u043d\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435 \u043c\u044b \u0441\u0444\u043e\u043a\u0443\u0441\u0438\u0440\u0443\u0435\u043c\u0441\u044f \u043d\u0430 \u043f\u0430\u0440\u0441\u0438\u043d\u0433\u0435 \u0441\u0430\u0439\u0442\u043e\u0432 \u0440\u043e\u0441\u0441\u0438\u0439\u0441\u043a\u0438\u0445 \u0421\u041c\u0418, \u0432 \u0447\u0438\u0441\u043b\u0435 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 <strong>Meduza<\/strong>,* \u043a\u0430\u043a \u043e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u043e \u0437\u0430\u043f\u0440\u0435\u0449\u0435\u043d\u043d\u043e\u0435 \u0432 \u0420\u0424 \u0438 \u0431\u043e\u043b\u0435\u0435 \u0433\u043e\u0441\u0443\u0434\u0430\u0440\u0441\u0442\u0432\u0435\u043d\u043d\u043e-\u043f\u043e\u0434\u043a\u043e\u043d\u0442\u0440\u043e\u043b\u044c\u043d\u044b\u0445 <strong>RussiaToday<\/strong> \u0438 <strong>\u041a\u043e\u043c\u043c\u0435\u0440\u0441\u0430\u043d\u0442\u0430<\/strong>. \u041a\u0430\u043a \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0435 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u044b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438 \u0432 Python: <strong>requests, BeautifulSoup, Selenium<\/strong>. \u041d\u0435\u0441\u043c\u043e\u0442\u0440\u044f \u043d\u0430 \u0442\u043e, \u0447\u0442\u043e \u0441\u0435\u0439\u0447\u0430\u0441 \u0432\u043e \u043c\u043d\u043e\u0433\u043e\u043c \u043c\u043e\u0436\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0438\u0445 \u0431\u043e\u043b\u0435\u0435 \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0435 \u0430\u043d\u0430\u043b\u043e\u0433\u0438 \u043f\u043e \u0442\u0438\u043f\u0443 <strong>Playwrite<\/strong>, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043d\u0435\u043f\u043b\u043e\u0445\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0441 \u0438\u043c\u0438\u0442\u0430\u0446\u0438\u0435\u0439 \u043f\u043e\u0432\u0435\u0434\u0435\u043d\u0438\u044f \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f \u0432 \u0431\u0440\u0430\u0443\u0437\u0435\u0440\u0435, \u0434\u043b\u044f \u0443\u0434\u043e\u0431\u0441\u0442\u0432\u0430 \u043f\u043e\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u043a\u043e\u0434\u0430 \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e\u043c \u0447\u0438\u0442\u0430\u0442\u0435\u043b\u0435\u0439 \u0441\u0434\u0435\u043b\u0430\u0435\u043c \u0443\u043f\u043e\u0440 \u043d\u0430 \u043a\u043b\u0430\u0441\u0441\u0438\u043a\u0443.<\/p>\n<p><em> *\u043f\u0440\u0438\u0437\u043d\u0430\u043d \u0438\u043d\u043e\u0430\u0433\u0435\u043d\u0442\u043e\u043c \u043d\u0430 \u0442\u0435\u0440\u0440\u0438\u0442\u043e\u0440\u0438\u0438 \u0420\u0424.<\/em><\/p>\n<p>\u0421\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u044b\u0439 \u043f\u0443\u0442\u044c \u0432\u044b\u0431\u043e\u0440\u0430 \u043c\u0435\u0442\u043e\u0434\u0430 \u0438 \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0445 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0434\u043b\u044f \u043f\u0430\u0440\u0441\u0438\u043d\u0433\u0430 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u043e\u0431\u043e\u0439 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u044d\u0442\u0430\u043f\u043e\u0432:<\/p>\n<ol>\n<li>\n<p><strong>\u0412\u043b\u0430\u0434\u0435\u043b\u0435\u0446 \u0441\u0430\u0439\u0442\u0430 \u043f\u0440\u0435\u0434\u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0439 API.<\/strong><\/p>\n<p> <strong>Application Programming Interface<\/strong> &#8212; \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u043d\u044b\u0439 \u0438\u043d\u0442\u0435\u0440\u0444\u0435\u0439\u0441, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u043f\u0435\u0440\u0435\u0434\u0430\u0432\u0430\u0442\u044c \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u043c\u0435\u0436\u0434\u0443 \u0434\u0432\u0443\u043c\u044f \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0430\u043c\u0438. \u0412 \u043d\u0430\u0448\u0435\u043c \u0441\u043b\u0443\u0447\u0430\u0435 \u043f\u0440\u043e\u0449\u0435 \u044d\u0442\u043e \u043e\u043f\u0438\u0441\u0430\u0442\u044c \u0442\u0430\u043a: \u043c\u044b \u0434\u0435\u043b\u0430\u0435\u043c \u0437\u0430\u043f\u0440\u043e\u0441 \u043d\u0430 API, \u0438 \u0432 \u044d\u0442\u043e\u043c \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0435 \u0432\u0430\u0448 \u043a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440 \u043e\u0431\u0440\u0430\u0449\u0430\u0435\u0442\u0441\u044f \u043a \u0441\u0430\u0439\u0442\u0443, \u0447\u0442\u043e\u0431\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0447\u0442\u043e\u0431\u044b \u043e\u0442\u043e\u0431\u0440\u0430\u0437\u0438\u0442\u044c \u043a\u0430\u0440\u0442\u0443 \u043d\u0430 \u0441\u0430\u0439\u0442\u0435, \u0441\u0432\u044f\u0437\u0430\u043d\u043d\u043e\u043c\u0443 \u0441 \u043d\u0435\u0434\u0432\u0438\u0436\u0438\u043c\u043e\u0441\u0442\u044c\u044e, \u0442\u0430\u043c \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0435\u043d API \u042f\u043d\u0434\u0435\u043a\u0441 \u041a\u0430\u0440\u0442. \u0412 \u044d\u0442\u043e\u043c \u0441 \u0441\u043b\u0443\u0447\u0430\u0435, \u043f\u0440\u043e\u0446\u0435\u0441\u0441 \u043f\u0430\u0440\u0441\u0438\u043d\u0433\u0430 \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u0441\u044f \u043a\u0440\u0430\u0439\u043d\u0435 \u043f\u0440\u043e\u0441\u0442\u044b\u043c \u0438 \u0441\u0432\u043e\u0434\u0438\u0442\u0441\u044f \u043a \u0437\u0430\u043f\u0440\u043e\u0441\u0443 \u0438 \u0432\u044b\u0431\u043e\u0440\u0443 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e\u0439 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u0438\u0437 json-\u0444\u0430\u0439\u043b\u0430.<\/p>\n<\/li>\n<li>\n<p><strong>\u041e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u043e\u0433\u043e API \u043d\u0435\u0442. \u041d\u0443\u0436\u043d\u043e \u0438\u0441\u043a\u0430\u0442\u044c \u0441\u043a\u0440\u044b\u0442\u044b\u0439.<\/strong><\/p>\n<p> \u041d\u0435 \u0441\u0430\u043c\u044b\u0439 \u0442\u0440\u0438\u0432\u0438\u0430\u043b\u044c\u043d\u044b\u0439 \u0441\u043f\u043e\u0441\u043e\u0431, \u0442.\u043a. \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e \u0435\u0441\u043b\u0438 \u0432\u044b \u0442\u043e\u043b\u044c\u043a\u043e \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442\u0435 \u0441\u0432\u043e\u0439 \u043f\u0443\u0442\u044c \u0432 \u043f\u0430\u0440\u0441\u0438\u043d\u0433\u0435, \u0442\u043e \u0441\u043a\u043e\u0440\u0435\u0435 \u0432\u0441\u0435\u0433\u043e \u043f\u0440\u043e\u043f\u0443\u0441\u0442\u0438\u0442\u0435 \u0442\u0430\u043a\u0443\u044e \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u044c. \u041e\u043d \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043f\u043e \u0442\u0430\u043a\u043e\u043c\u0443 \u0436\u0435 \u043f\u0440\u0438\u043d\u0446\u0438\u043f\u0443, \u043a\u0430\u043a \u0438 \u043e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u0439, \u043d\u043e \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442\u0441\u044f \u0432 \u0431\u0435\u043a\u0435\u043d\u0434 \u0447\u0430\u0441\u0442\u0438 \u0441\u0430\u0439\u0442\u0430.<br \/> \u041d\u0430\u0439\u0442\u0438 \u0435\u0433\u043e \u043d\u0435 \u0442\u0430\u043a \u0441\u043b\u043e\u0436\u043d\u043e. \u041f\u0430\u0440\u0443 \u043a\u043b\u0438\u043a\u043e\u0432 \u0432 \u043f\u0430\u043d\u0435\u043b\u0438 \u0434\u043b\u044f \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u043e\u0432 (\u0432\u043a\u043b\u0430\u0434\u043a\u0430 <code>Network<\/code>) \u0438 \u0432\u043d\u0438\u043c\u0430\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u044c.<br \/> \u0414\u0430\u043b\u0435\u0435 \u043c\u044b \u0440\u0430\u0437\u0431\u0435\u0440\u0435\u043c \u043f\u0440\u043e\u0446\u0435\u0441\u0441 \u043f\u043e\u0438\u0441\u043a\u0430 \u043d\u0430 \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u043e\u043c \u043f\u0440\u0438\u043c\u0435\u0440\u0435.<\/p>\n<\/li>\n<li>\n<p><strong>BeautifulSoup: \u043f\u0430\u0440\u0441\u0438\u043c \u043e\u0431\u044b\u0447\u043d\u0443\u044e HTML-\u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0443.<\/strong><\/p>\n<p> \u0421\u0442\u0440\u0430\u043d\u0438\u0446\u044b \u043d\u0430\u0448\u0435\u0433\u043e \u0441\u0430\u0439\u0442\u0430 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u044e\u0442 \u0441\u043e\u0431\u043e\u0439 \u043d\u0435\u0434\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0441\u0430\u0439\u0442, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043c\u043e\u0436\u043d\u043e \u0440\u0430\u0437\u043e\u0431\u0440\u0430\u0442\u044c \u043f\u043e \u0447\u0430\u0441\u0442\u044f\u043c \u043a\u0430\u043a \u043a\u043e\u043d\u0441\u0442\u0440\u0443\u043a\u0442\u043e\u0440, \u0432\u044b\u0442\u0430\u0449\u0438\u0432 \u0438\u0437 \u043a\u043e\u0434\u0430 \u043d\u0443\u0436\u043d\u0443\u044e \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e. \u041e\u0442\u043f\u0440\u0430\u0432\u043b\u044f\u0435\u043c \u0437\u0430\u043f\u0440\u043e\u0441 \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e <code>requests<\/code> \u0438 \u043f\u0430\u0440\u0441\u0438\u043c \u043d\u0430\u0448 html. \u0411\u043e\u043b\u044c\u0448\u043e\u0439 \u043c\u0438\u043d\u0443\u0441 \u0437\u0430\u043a\u043b\u044e\u0447\u0430\u0435\u0442\u0441\u044f \u0432 \u0442\u043e\u043c, \u0447\u0442\u043e \u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0430 \u0441\u0430\u0439\u0442\u0430 \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0441\u0442\u0440\u043e \u043c\u0435\u043d\u044f\u0442\u044c\u0441\u044f: \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u044f \u043a\u043b\u0430\u0441\u0441\u043e\u0432 \u0438 css-\u0441\u0435\u043b\u0435\u043a\u0442\u043e\u0440\u043e\u0432, \u043f\u043e \u043a\u043e\u0442\u043e\u0440\u044b\u043c \u043c\u044b \u0432\u044b\u0431\u0438\u0440\u0430\u0435\u043c \u0443\u0441\u043b\u043e\u0432\u043d\u044b\u0439 \u0437\u0430\u0433\u043e\u043b\u043e\u0432\u043e\u043a, \u0434\u0430\u0442\u0443 \u0438 \u0442\u0434. \u041d\u043e \u044d\u0442\u043e \u043d\u0435 \u0441\u0430\u043c\u044b\u0439 \u0441\u043b\u043e\u0436\u043d\u044b\u0439 \u043f\u0443\u0442\u044c \u0440\u0430\u0437\u0432\u0438\u0442\u0438\u044f.<\/p>\n<\/li>\n<li>\n<p><strong>Selenium: \u0434\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0441\u0430\u0439\u0442 \u0441 JS-\u044d\u043b\u0435\u043c\u0435\u043d\u0442\u0430\u043c\u0438.<\/strong><\/p>\n<p> \u0412 \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e\u043c \u0438\u043d\u0442\u0435\u0440\u043d\u0435\u0442\u0435 \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e \u0441\u0430\u0439\u0442\u043e\u0432 \u0438\u043c\u0435\u043d\u043d\u043e \u0442\u0430\u043a\u0438\u0435. \u0421\u043e\u0434\u0435\u0440\u0436\u0438\u043c\u043e\u0435 \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u044b \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438 \u0441 JavaScript \u043a\u043e\u0434\u043e\u043c. \u041f\u0440\u0438 \u043e\u0442\u043f\u0440\u0430\u0432\u043a\u0438 \u0437\u0430\u043f\u0440\u043e\u0441\u0430 \u043d\u0430 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u0435 html \u043c\u044b \u0443\u0436\u0435 \u0441\u0442\u0430\u043b\u043a\u0438\u0432\u0430\u0435\u043c\u0441\u044f \u0441 \u0442\u0435\u043c, \u0447\u0442\u043e \u0437\u0430\u0449\u0438\u0442\u0430 \u0441\u0430\u0439\u0442\u0430 \u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0435\u0442 \u0440\u043e\u0431\u043e\u0442\u0430 \u0438 \u043d\u0435 \u043f\u043e\u0434\u0433\u0440\u0443\u0436\u0430\u0435\u0442 \u043d\u0430\u043c \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0443. \u0412 \u044d\u0442\u043e\u043c \u0441\u043b\u0443\u0447\u0430\u0435, \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0438\u043c\u0438\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043f\u043e\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f, \u0438 \u0441\u0430\u043c\u0430\u044f \u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430, \u043f\u043e\u043c\u043e\u0433\u0430\u044e\u0449\u0430\u044f \u044d\u0442\u043e \u0440\u0435\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u0442\u044c &#8212; Selenium. \u041f\u0440\u0438 \u043f\u043e\u043c\u043e\u0449\u0438 Chrome-\u0434\u0440\u0430\u0439\u0432\u0435\u0440\u0430 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430 \u043f\u043e\u0434\u0433\u0440\u0443\u0436\u0430\u0435\u0442 \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0443 \u0441\u0430\u0439\u0442\u0430 \u0438 \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0445 \u043e\u043f\u0446\u0438\u0439 \u043f\u043e \u0443\u0441\u0442\u0440\u0430\u043d\u0435\u043d\u0438\u044e \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u0431\u044b\u0442\u044c \u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u043d\u043d\u044b\u043c \u0441\u0430\u0439\u0442\u043e\u043c \u043a\u0430\u043a \u0440\u043e\u0431\u043e\u0442 \u0432 \u0438\u0442\u043e\u0433\u0435 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c html \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0443, \u043a\u043e\u0442\u043e\u0440\u0443\u044e \u0434\u0430\u043b\u0435\u0435 \u043f\u0430\u0440\u0441\u0438\u043c \u0441 BeautifulSoup.<\/p>\n<\/li>\n<\/ol>\n<hr\/>\n<p>\u041d\u0430\u0447\u043d\u0435\u043c \u0441 \u043a\u0435\u0439\u0441\u0430 \u041c\u0435\u0434\u0443\u0437\u044b*.<\/p>\n<p>\u041c\u0435\u0434\u0443\u0437\u0430* \u043d\u0435\u00a0\u043f\u0440\u0435\u0434\u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u043e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u0439 API, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u043c \u043f\u043e\u0438\u0441\u043a \u0441\u043a\u0440\u044b\u0442\u043e\u0433\u043e.<br \/>\u0417\u0430\u0445\u043e\u0434\u0438\u043c \u043d\u0430\u00a0\u0441\u0430\u0439\u0442 \u0438 \u0432\u0431\u0438\u0432\u0430\u0435\u043c \u0432\u00a0\u043f\u043e\u0438\u0441\u043a \u043a\u043b\u044e\u0447\u0435\u0432\u044b\u0435 \u0441\u043b\u043e\u0432\u0430 \u043d\u0443\u0436\u043d\u044b\u0445 \u0441\u0442\u0430\u0442\u0435\u0439. \u0422\u0440\u0430\u0434\u0438\u0446\u0438\u043e\u043d\u043d\u043e \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u043c \u0438\u0441\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u043d\u0438\u0435 \u0441\u00a0\u043a\u043b\u0438\u043a\u0430 \u043b\u0435\u0432\u043e\u0439 \u043a\u043d\u043e\u043f\u043a\u0438 \u043c\u044b\u0448\u0438 \u0438 \u043d\u0430\u0436\u0430\u0442\u0438\u044e \u043d\u0430 <code>'inspect'<\/code>. \u041f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0438\u0441\u0445\u043e\u0434\u043d\u044b\u0439 \u043a\u043e\u0434 HTML\u2011\u0441\u0442\u0440\u0430\u043d\u0438\u0446\u044b.<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/7c8\/0fa\/5c7\/7c80fa5c7c343ade9ff730611769cb2a.png\" width=\"2144\" height=\"1382\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/7c8\/0fa\/5c7\/7c80fa5c7c343ade9ff730611769cb2a.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/7c8\/0fa\/5c7\/7c80fa5c7c343ade9ff730611769cb2a.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u0412 \u0432\u0435\u0440\u0445\u043d\u0435\u0439 \u043f\u0430\u043d\u0435\u043b\u0438 \u0438\u0449\u0435\u043c \u0432\u043a\u043b\u0430\u0434\u043a\u0443 <code>Network<\/code> , \u0437\u0434\u0435\u0441\u044c \u043e\u0442\u043a\u0440\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u0432\u0435\u0441\u044c \u0431\u0435\u043a\u0435\u043d\u0434 \u0441\u0430\u0439\u0442\u0430 \u0438 \u0435\u0433\u043e \u043c\u0435\u0445\u0430\u043d\u0438\u0437\u043c \u0440\u0430\u0431\u043e\u0442\u044b.<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/814\/795\/d49\/814795d49faee82f8c5195c239d71331.png\" width=\"1016\" height=\"398\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/814\/795\/d49\/814795d49faee82f8c5195c239d71331.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/814\/795\/d49\/814795d49faee82f8c5195c239d71331.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043d\u0430\u043c \u0434\u043e\u0441\u0442\u0443\u043f\u0435\u043d \u0441\u043f\u0438\u0441\u043e\u043a \u0437\u0430\u043f\u0440\u043e\u0441\u043e\u0432 \u043a \u0441\u0430\u0439\u0442\u0443 (\u043a\u043e\u043b\u043e\u043d\u043a\u0430 \u043f\u043e\u0434 Name), \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043e\u0431\u044f\u0437\u0430\u0442\u0435\u043b\u044c\u043d\u043e \u0432\u044b\u043f\u043e\u043b\u043d\u044f\u044e\u0442\u0441\u044f \u043f\u0440\u0438 \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0438 \u0441\u0430\u0439\u0442\u0430. \u0421\u0440\u0435\u0434\u0438 \u043d\u0438\u0445 \u043f\u043e \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u044e \u043c\u043e\u0436\u043d\u043e \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u043f\u043e\u043d\u044f\u0442\u044c, \u0447\u0442\u043e \u043e\u043d \u0434\u0435\u043b\u0430\u0435\u0442 \u0438 \u043d\u0430\u0439\u0442\u0438 \u043d\u0443\u0436\u043d\u044b\u0439 \u043d\u0430\u043c API \u0437\u0430\u043f\u0440\u043e\u0441. \u041e\u0431\u044b\u0447\u043d\u043e \u044d\u0442\u043e \u0447\u0442\u043e-\u0442\u043e \u0442\u0438\u043f\u043e <code>search,<\/code> <code>news<\/code> \u0441 \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u043c\u044b\u043c json \u0444\u0430\u0439\u043b\u043e\u043c \u0432 response.<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/cf3\/aa9\/d5c\/cf3aa9d5ca6471cfbfec78516fecc29f.png\" width=\"1028\" height=\"574\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/cf3\/aa9\/d5c\/cf3aa9d5ca6471cfbfec78516fecc29f.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/cf3\/aa9\/d5c\/cf3aa9d5ca6471cfbfec78516fecc29f.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u0412\u043d\u0438\u043c\u0430\u0442\u0435\u043b\u044c\u043d\u043e \u043f\u043e\u0438\u0449\u0435\u043c \u0436\u0435\u043b\u0430\u043d\u043d\u044b\u0439, \u0441\u043a\u0440\u044b\u0442\u044b\u0439 API, \u043d\u0430\u0445\u043e\u0434\u0438\u043c get-\u0437\u0430\u043f\u0440\u043e\u0441 <code>new_search,<\/code>\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b \u0438 response,  \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043e\u043d \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442. \u0412 \u043d\u0435\u043c \u0432\u0438\u0434\u0438\u043c json-\u043e\u0442\u0432\u0435\u0442, \u044d\u0442\u043e \u0442\u043e, \u0447\u0442\u043e \u043d\u0430\u043c \u043d\u0443\u0436\u043d\u043e.<\/p>\n<p>\u0421\u043e\u0437\u0434\u0430\u0435\u043c \u043a\u043b\u0430\u0441\u0441 <code>MeduzaParser<\/code> \u0432 Python, \u043e\u043d \u0431\u0443\u0434\u0435\u0442 \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0442\u044c \u0432\u0441\u0435 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u044b\u0435 \u043c\u0435\u0442\u043e\u0434\u044b \u0434\u043b\u044f \u043f\u0430\u0440\u0441\u0438\u043d\u0433\u0430 \u043d\u043e\u0432\u043e\u0441\u0442\u0435\u0439.<\/p>\n<p>\u0418\u043d\u0438\u0446\u0438\u0430\u043b\u0438\u0437\u0438\u0440\u0443\u0435\u043c \u043d\u0430\u0448\u0438 \u0430\u0440\u0433\u0443\u043c\u0435\u043d\u0442\u044b \u0432 \u043c\u0435\u0442\u043e\u0434\u0435 <code><strong>init<\/strong><\/code>.<\/p>\n<pre><code class=\"python\">class MeduzaParser:     def __init__(self, phrase_search: str):         self.phrase_search = phrase_search         self.headers = {'User-Agent': random.choice(user_agents)}         self.api = 'https:\/\/meduza.io\/api\/w5\/new_search'         self.proxies = {                     'http': proxy,                     'https': proxy,         }         self.request_body = {'term': self.phrase_search,                              'per_page': 15,                              'locale': 'ru'} <\/code><\/pre>\n<p>\u0412 <code>self.headers<\/code>  \u0434\u043b\u044f \u0443\u043c\u0435\u043d\u044c\u0448\u0435\u043d\u0438\u044f \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u0438 \u0431\u044b\u0442\u044c \u0437\u0430\u0431\u043b\u043e\u043a\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u043c \u0441\u043f\u0443\u0441\u0442\u044f \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0437\u0430\u043f\u0440\u043e\u0441\u043e\u0432 \u043f\u0440\u043e\u043f\u0438\u0441\u044b\u0432\u0430\u0435\u043c  <code>User-Agent<\/code>, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043f\u043e\u043c\u043e\u0436\u0435\u0442 \u043c\u0430\u0441\u043a\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0435 \u043d\u0430\u0448\u0435\u0433\u043e \u0431\u0440\u0430\u0443\u0437\u0435\u0440\u0430 \u043f\u0440\u0438 \u043e\u0442\u043f\u0440\u0430\u0432\u043a\u0438 \u0437\u0430\u043f\u0440\u043e\u0441\u0430. \u041f\u0440\u0435\u0434\u0432\u0430\u0440\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0437\u0430\u0433\u0440\u0443\u0436\u0430\u0435\u043c \u0441\u043f\u0438\u0441\u043e\u043a \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u044b\u0445 \u044e\u0437\u0435\u0440-\u0430\u0433\u0435\u043d\u0442\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043c\u043e\u0436\u043d\u043e \u043d\u0430\u0439\u0442\u0438 \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u0432 <a href=\"https:\/\/gist.github.com\/pzb\/b4b6f57144aea7827ae4\" rel=\"noopener noreferrer nofollow\">\u044d\u0442\u043e\u043c \u0440\u0435\u043f\u043e\u0437\u0438\u0442\u043e\u0440\u0438\u0438<\/a>. \u0418\u0437 \u043d\u0438\u0445 \u0440\u0430\u043d\u0434\u043e\u043c\u043d\u043e \u0432\u044b\u0431\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u043e\u0434\u0438\u043d \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u044b\u0439, \u0438 \u0442\u0430\u043a \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0437\u0430\u043f\u0440\u043e\u0441\u0430.  \u0412 <code>self.request_body<\/code> \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u0435\u043c \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b \u0437\u0430\u043f\u0440\u043e\u0441\u0430: \u043a\u043b\u044e\u0447\u0435\u0432\u0430\u044f \u0444\u0440\u0430\u0437\u0430\/\u0441\u043b\u043e\u0432\u043e \u043f\u043e \u043a\u043e\u0442\u043e\u0440\u043e\u043c\u0443 \u0431\u0443\u0434\u0435\u043c \u0438\u0441\u043a\u0430\u0442\u044c, \u0447\u0438\u0441\u043b\u043e \u0441\u0442\u0430\u0442\u0435\u0439 \u043f\u0440\u0438 \u043e\u0434\u043d\u043e\u043c \u0437\u0430\u043f\u0440\u043e\u0441\u0435 \u0438 \u044f\u0437\u044b\u043a.<\/p>\n<p>\u041c\u0435\u0434\u0443\u0437\u0430 \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0437\u0430\u043f\u0440\u0435\u0449\u0435\u043d\u043d\u043e\u0439 \u0432 \u0420\u043e\u0441\u0441\u0438\u0438 \u043e\u0440\u0433\u0430\u043d\u0438\u0437\u0430\u0446\u0438\u0435\u0439, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0434\u043b\u044f \u043e\u0442\u043f\u0440\u0430\u0432\u043a\u0438 \u0437\u0430\u043f\u0440\u043e\u0441\u0430 \u043d\u0435\u043c\u0430\u043b\u043e\u0432\u0430\u0436\u043d\u044b\u043c \u0430\u0441\u043f\u0435\u043a\u0442\u043e\u043c \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u043f\u0440\u043e\u043a\u0441\u0438-\u0441\u0435\u0440\u0432\u0435\u0440\u0430. \u0421 \u0440\u043e\u0441\u0441\u0438\u0439\u0441\u043a\u043e\u0433\u043e API-\u0430\u0434\u0440\u0435\u0441\u0430 \u0432\u044b \u043d\u0435 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u0435 \u043e\u0442\u0432\u0435\u0442 \u043f\u043e\u0441\u043b\u0435 \u043e\u0442\u043f\u0440\u0430\u0432\u043a\u0438 \u0437\u0430\u043f\u0440\u043e\u0441\u0430. \u041e\u043f\u0442\u0438\u043c\u0430\u043b\u044c\u043d\u044b\u0439 \u0432\u0430\u0440\u0438\u0430\u043d\u0442 &#8212; \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u043f\u0443\u043b\u0430 \u043f\u0440\u043e\u043a\u0441\u0438-\u0441\u0435\u0440\u0432\u0435\u0440\u043e\u0432 \u0441 \u0438\u0445 \u0434\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u0441\u043c\u0435\u043d\u043e\u0439, \u0447\u0442\u043e\u0431\u044b \u0441\u043d\u0438\u0437\u0438\u0442\u044c \u0440\u0438\u0441\u043a \u0431\u043b\u043e\u043a\u0438\u0440\u043e\u0432\u043a\u0438.<\/p>\n<p>\u0414\u0430\u043b\u0435\u0435 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0434\u043e\u0431\u0430\u0432\u0438\u0442\u044c \u043c\u0435\u0442\u043e\u0434 \u0434\u043b\u044f \u043e\u0442\u043f\u0440\u0430\u0432\u043a\u0438 \u0437\u0430\u043f\u0440\u043e\u0441\u0430 \u043d\u0430 API \u0447\u0435\u0440\u0435\u0437 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443 requests. \u0422\u0430\u043a \u043a\u0430\u043a \u043c\u0430\u043a\u0441\u0438\u043c\u0430\u043b\u044c\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0441\u0442\u0430\u0442\u0435\u0439 \u0432 \u0437\u0430\u043f\u0440\u043e\u0441\u0435 &#8212; 15, \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u0430 \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u044f \u043f\u043e \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0430\u043c, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u043d\u0430 \u0432\u0445\u043e\u0434 \u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0435\u043c \u0430\u0440\u0433\u0443\u043c\u0435\u043d\u0442 <code>page<\/code>.<br \/> \u0421 \u0431\u043b\u043e\u043a\u043e\u043c <code>try - except<\/code> \u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u043c \u043f\u044f\u0442\u044c \u043f\u043e\u043f\u044b\u0442\u043e\u043a \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u043e\u0442\u0432\u0435\u0442 \u0432 \u0432\u0438\u0434\u0435 <code>json<\/code> \u043e\u0431\u044a\u0435\u043a\u0442\u0430 c \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u043c\u0438 \u043a\u043b\u044e\u0447\u0430\u043c\u0438 <code>_count<\/code> &#8212; \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0441\u0442\u0430\u0442\u0435\u0439 \u0432 \u0437\u0430\u043f\u0440\u043e\u0441\u0435, <code>collection<\/code> &#8212; \u0441\u0441\u044b\u043b\u043a\u0438 \u043d\u0430 \u0432\u0441\u0435 \u0441\u0442\u0430\u0442\u044c\u0438 \u0438 <code>documents<\/code> &#8212; \u043c\u0435\u0442\u0430\u0434\u0430\u043d\u043d\u044b\u0435 \u043f\u043e \u0441\u0442\u0430\u0442\u044c\u044f\u043c.<\/p>\n<pre><code class=\"python\">def send_request(self, page: int) -&gt; Optional[tuple]:     '''Get the json response from the Meduza     hidden API.     '''     params = {         **self.request_body,         'page': page     }     for attempt in range(5):         try:             response = requests.get(self.api, params=params,                                      proxies=self.proxies, headers=self.headers,                                      verify=False).json()             print('Got a response')             return response['documents'], response['_count']                      except Exception as e:             print(f\"Can't get a response for api request - {e}\")             continue                  return None <\/code><\/pre>\n<p>\u041a\u0430\u043a \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u043c\u044b\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u043c\u0435\u0442\u043e\u0434\u0430 \u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u043c \u043c\u0435\u0442\u0430\u0434\u0430\u043d\u043d\u044b\u0435 \u0438 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0441\u0442\u0430\u0442\u0435\u0439.<br \/> Documents \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u043e\u0447\u0435\u043d\u044c \u043f\u043e\u0434\u0440\u043e\u0431\u043d\u0443\u044e \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u043e \u0441\u0442\u0430\u0442\u044c\u044f\u0445, \u0435\u0441\u043b\u0438 \u0432 \u0441\u0442\u0430\u0442\u044c\u0435 \u0435\u0441\u0442\u044c \u0430\u0443\u0434\u0438\u043e, \u043a\u0430\u0440\u0442\u0438\u043d\u043a\u0438, \u0442\u043e \u044d\u0442\u043e \u0432\u0441\u0435 \u043c\u043e\u0436\u043d\u043e \u043d\u0430\u0439\u0442\u0438 \u0432 \u043e\u0442\u0432\u0435\u0442\u0435, \u0432\u043e\u0442 \u0442\u0430\u043a \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u043e\u0447\u0435\u043d\u044c \u0441\u043a\u0440\u043e\u043c\u043d\u044b\u0439 \u043e\u0442\u0432\u0435\u0442:<\/p>\n<pre><code class=\"json\">{'datetime': 1730966709,  'layout': 'simple',  'mobile_layout': 'simple',  'source': {'trust': 0},  'title': '\u0417\u0435\u043b\u0435\u043d\u0441\u043a\u0438\u0439 \u0440\u0430\u0441\u0441\u043a\u0430\u0437\u0430\u043b, \u0447\u0442\u043e \u0441\u043e\u0437\u0432\u043e\u043d\u0438\u043b\u0441\u044f \u0441\\xa0\u0422\u0440\u0430\u043c\u043f\u043e\u043c',  'url': 'news\/2024\/11\/07\/zelenskiy-rasskazal-chto-sozvonilsya-s-trampom',  'version': 3} <\/code><\/pre>\n<p>\u0418 \u0442\u0430\u043a \u043e\u0442\u0432\u0435\u0442, \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0449\u0438\u0439 \u043c\u0435\u0442\u0430\u0434\u0430\u043d\u043d\u044b\u0435 \u043e \u0432\u0441\u0435\u0445 \u0444\u0430\u0439\u043b\u0430\u0445 \u0432 \u0441\u0442\u0430\u0442\u044c\u0435:<\/p>\n<details class=\"spoiler\">\n<summary>\u0421\u043a\u0440\u044b\u0442\u044b\u0439 \u0442\u0435\u043a\u0441\u0442<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"json\">{'datetime': 1730712566,  'image': {'base_urls': {'elarge_url': '\/image\/attachments\/images\/010\/580\/173\/elarge\/jErsR06_OK513LOROdBzmA.jpg',                          'is1to2': '\/image\/attachment_overrides\/images\/010\/580\/173\/ov\/ujms6916u68Ql64Av-qOgQ.jpg',                          'is1to3': '\/image\/attachments\/images\/010\/580\/173\/wh_810_540\/jErsR06_OK513LOROdBzmA.jpg',                          'is1to4': '\/image\/attachments\/images\/010\/580\/173\/wh_810_540\/jErsR06_OK513LOROdBzmA.jpg',                          'isMobile': '\/impro\/yMxV8ai5e8gtkOeFaQl8_Oo16DkSTO50yiB9sBoO2_Y\/resizing_type:fit\/width:782\/height:0\/enlarge:1\/quality:80\/aHR0cHM6Ly9tZWR1\/emEuaW8vaW1hZ2Uv\/YXR0YWNobWVudHMv\/aW1hZ2VzLzAxMC81\/ODAvMTczL2xhcmdl\/L2pFcnNSMDZfT0s1\/MTNMT1JPZEJ6bUEu\/anBn.jpg',                          'wh_300_200_url': '\/image\/attachments\/images\/010\/580\/173\/wh_300_200\/jErsR06_OK513LOROdBzmA.jpg',                          'wh_405_270_url': '\/image\/attachments\/images\/010\/580\/173\/wh_405_270\/jErsR06_OK513LOROdBzmA.jpg'},            'cc': 'default',            'credit': 'Chip Somodevilla \/ Getty Images',            'display': 'default',            'elarge_url': '\/image\/attachments\/images\/010\/580\/173\/elarge\/jErsR06_OK513LOROdBzmA.jpg',            'gradients': {'bg_rgb': '0,0,0', 'text_rgb': '255,255,255'},            'height': 890,            'is1to1': '\/image\/attachment_overrides\/images\/010\/580\/173\/ov\/eYU01BuHD8uQXl7fyONPRA.jpg',            'is1to2': '\/image\/attachment_overrides\/images\/010\/580\/173\/ov\/ujms6916u68Ql64Av-qOgQ.jpg',            'is1to3': '\/image\/attachments\/images\/010\/580\/173\/wh_810_540\/jErsR06_OK513LOROdBzmA.jpg',            'is1to4': '\/image\/attachments\/images\/010\/580\/173\/wh_810_540\/jErsR06_OK513LOROdBzmA.jpg',            'isMobile': '\/impro\/yMxV8ai5e8gtkOeFaQl8_Oo16DkSTO50yiB9sBoO2_Y\/resizing_type:fit\/width:782\/height:0\/enlarge:1\/quality:80\/aHR0cHM6Ly9tZWR1\/emEuaW8vaW1hZ2Uv\/YXR0YWNobWVudHMv\/aW1hZ2VzLzAxMC81\/ODAvMTczL2xhcmdl\/L2pFcnNSMDZfT0s1\/MTNMT1JPZEJ6bUEu\/anBn.jpg',            'mobile_ratio': 1.5,            'optimised_urls': {'elarge_url': '\/impro\/CGnSJrpx94CGYSVB0j-fJs9sWbbgasIZu8vWxkuXQ9g\/resizing_type:fit\/width:0\/height:0\/enlarge:1\/quality:80\/aHR0cHM6Ly9tZWR1\/emEuaW8vaW1hZ2Uv\/YXR0YWNobWVudHMv\/aW1hZ2VzLzAxMC81\/ODAvMTczL2VsYXJn\/ZS9qRXJzUjA2X09L\/NTEzTE9ST2RCem1B\/LmpwZw.webp',                               'is1to2': '\/impro\/JRRhxXheqdVXhOGWMqCUjaTnN38eRZktbG3PWBzbrHo\/resizing_type:fit\/width:0\/height:0\/enlarge:1\/quality:80\/aHR0cHM6Ly9tZWR1\/emEuaW8vaW1hZ2Uv\/YXR0YWNobWVudF9v\/dmVycmlkZXMvaW1h\/Z2VzLzAxMC81ODAv\/MTczL292L3VqbXM2\/OTE2dTY4UWw2NEF2\/LXFPZ1EuanBn.webp',                               'is1to3': '\/impro\/FnOI0FOccrlOdodgEMg16-8XwitHiGEQXGfWx-9KpUg\/resizing_type:fit\/width:0\/height:0\/enlarge:1\/quality:80\/aHR0cHM6Ly9tZWR1\/emEuaW8vaW1hZ2Uv\/YXR0YWNobWVudHMv\/aW1hZ2VzLzAxMC81\/ODAvMTczL3doXzgx\/MF81NDAvakVyc1Iw\/Nl9PSzUxM0xPUk9k\/QnptQS5qcGc.webp',                               'is1to4': '\/impro\/FnOI0FOccrlOdodgEMg16-8XwitHiGEQXGfWx-9KpUg\/resizing_type:fit\/width:0\/height:0\/enlarge:1\/quality:80\/aHR0cHM6Ly9tZWR1\/emEuaW8vaW1hZ2Uv\/YXR0YWNobWVudHMv\/aW1hZ2VzLzAxMC81\/ODAvMTczL3doXzgx\/MF81NDAvakVyc1Iw\/Nl9PSzUxM0xPUk9k\/QnptQS5qcGc.webp',                               'isMobile': '\/impro\/A3SRAMBVlzsLmMAArkNbFtHqIqGx8pB8DuyG7GJzvjc\/resizing_type:fit\/width:782\/height:0\/enlarge:1\/quality:80\/aHR0cHM6Ly9tZWR1\/emEuaW8vaW1hZ2Uv\/YXR0YWNobWVudHMv\/aW1hZ2VzLzAxMC81\/ODAvMTczL2xhcmdl\/L2pFcnNSMDZfT0s1\/MTNMT1JPZEJ6bUEu\/anBn.webp',                               'wh_300_200_url': '\/impro\/6c6c9Re0Lbi_sSLgqEHC5oQBbnLE_9QlzT6Afoq3Og0\/resizing_type:fit\/width:0\/height:0\/enlarge:1\/quality:80\/aHR0cHM6Ly9tZWR1\/emEuaW8vaW1hZ2Uv\/YXR0YWNobWVudHMv\/aW1hZ2VzLzAxMC81\/ODAvMTczL3doXzMw\/MF8yMDAvakVyc1Iw\/Nl9PSzUxM0xPUk9k\/QnptQS5qcGc.webp',                               'wh_405_270_url': '\/impro\/FBtTpPfA2tzXzdFqpOW1mUF9pVHS7EMzUHFG1nB_01I\/resizing_type:fit\/width:0\/height:0\/enlarge:1\/quality:80\/aHR0cHM6Ly9tZWR1\/emEuaW8vaW1hZ2Uv\/YXR0YWNobWVudHMv\/aW1hZ2VzLzAxMC81\/ODAvMTczL3doXzQw\/NV8yNzAvakVyc1Iw\/Nl9PSzUxM0xPUk9k\/QnptQS5qcGc.webp'},            'show': True,            'wh_1245_500_url': '\/image\/attachments\/images\/010\/580\/173\/wh_1245_500\/jErsR06_OK513LOROdBzmA.jpg',            'wh_300_200_url': '\/image\/attachments\/images\/010\/580\/173\/wh_300_200\/jErsR06_OK513LOROdBzmA.jpg',            'wh_405_270_url': '\/image\/attachments\/images\/010\/580\/173\/wh_405_270\/jErsR06_OK513LOROdBzmA.jpg',            'wh_810_540_url': '\/image\/attachments\/images\/010\/580\/173\/wh_810_540\/jErsR06_OK513LOROdBzmA.jpg',            'width': 1335},  'layout': 'rich',  'mobile_layout': 'rich',  'mobile_theme': '255,255,255',  'second_title': '\u0412\u044b\u043f\u0443\u0441\u043a \u0440\u0430\u0441\u0441\u044b\u043b\u043a\u0438 \u00ab\u0421\u0438\u0433\u043d\u0430\u043b\u00bb \u043d\u0430\\xa0\u00ab\u041c\u0435\u0434\u0443\u0437\u0435\u00bb',  'tag': {'name': '\u0438\u0441\u0442\u043e\u0440\u0438\u0438', 'path': 'articles'},  'title': '\u0414\u043e\u043d\u0430\u043b\u044c\u0434 \u0422\u0440\u0430\u043c\u043f \u0442\u0440\u0435\u0431\u0443\u0435\u0442 \u0447\u0435\u0441\u0442\u043d\u044b\u0445 \u0432\u044b\u0431\u043e\u0440\u043e\u0432\\xa0\u2014 \u0430\\xa0\u0435\u0433\u043e \u043e\u0431\u0432\u0438\u043d\u044f\u044e\u0442 \u0432\\xa0'           '\u043f\u043e\u0434\u0440\u044b\u0432\u0435 \u0434\u0435\u043c\u043e\u043a\u0440\u0430\u0442\u0438\u0438. \u0422\u0430\u043a \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u044b\\xa0\u043b\u0438 \u0444\u0430\u043b\u044c\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438 \u0432\\xa0\u0421\u0428\u0410?',  'url': 'feature\/2024\/11\/04\/donald-tramp-trebuet-chestnyh-vyborov-a-ego-obvinyayut-v-podryve-demokratii-tak-vozmozhny-li-falsifikatsii-v-ssha',  'version': 3}<\/code><\/pre>\n<\/div>\n<\/details>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u043f\u0440\u043e\u043f\u0430\u0440\u0441\u0438\u0442\u044c <code>json<\/code> \u0438 \u0432\u044b\u0442\u0430\u0449\u0438\u0442\u044c \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u043e \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0438, \u0434\u0430\u0442\u0435, \u0442\u0438\u043f\u0435 \u0441\u0442\u0430\u0442\u044c\u0438 \u0438 \u0441\u0430\u043c\u0443 \u0441\u0441\u044b\u043b\u043a\u0443 \u043d\u0430 \u0441\u0442\u0430\u0442\u044c\u044e.<\/p>\n<p>\u041f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u043e \u0434\u0430\u0442\u0435 \u0431\u0443\u0434\u0435\u0442 \u0434\u043e\u0432\u043e\u043b\u044c\u043d\u043e \u0442\u0440\u0443\u0434\u043e\u0435\u043c\u043a\u0438\u043c \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u043e\u043c, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0435\u0435, \u043a\u0430\u043a \u0438 \u043e\u0441\u043d\u043e\u0432\u043d\u043e\u0439 \u0442\u0435\u043a\u0441\u0442 \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u044b \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043c \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u043f\u0430\u0440\u0441\u0438\u043d\u0433\u0430 html-\u0441\u0442\u0440\u0430\u043d\u0438\u0446\u044b.<\/p>\n<p>\u0421\u043e\u0437\u0434\u0430\u0435\u043c \u043d\u043e\u0432\u044b\u0439 \u043c\u0435\u0442\u043e\u0434 <code>parse_article<\/code>, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043d\u0430 \u0432\u0445\u043e\u0434 \u043f\u0440\u0438\u043c\u0435\u0442 \u0441\u0441\u044b\u043b\u043a\u0443 \u043d\u0430 \u0441\u0442\u0430\u0442\u044c\u044e \u0438 \u0434\u0430\u043d\u043d\u044b\u0435 \u0432 \u0432\u0438\u0434\u0435 \u0441\u043b\u043e\u0432\u0430\u0440\u044f.<\/p>\n<p>\u0421\u043d\u0430\u0447\u0430\u043b\u0430 \u0432\u044b\u0431\u0438\u0440\u0430\u0435\u043c \u043a\u043b\u044e\u0447 &#8216;tag&#8217; \u0438\u0437 \u0441\u043b\u043e\u0432\u0430\u0440\u044f, \u043e\u043d \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d \u043d\u0435 \u0432 \u043a\u0430\u0436\u0434\u043e\u043c \u0431\u043b\u043e\u043a\u0435 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u043e \u0441\u0442\u0430\u0442\u044c\u0435, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u043e\u0431\u043e\u0440\u0430\u0447\u0438\u0432\u0430\u0435\u043c \u0432 <code>try-except<\/code>. \u041f\u043e \u043d\u0430\u0431\u043b\u044e\u0434\u0435\u043d\u0438\u044e \u043c\u043e\u0436\u043d\u043e \u043f\u043e\u043d\u044f\u0442\u044c, \u0447\u0442\u043e \u0442\u0435\u0433 \u043e\u0442\u0441\u0443\u0442\u0441\u0442\u0432\u0443\u0435\u0442 \u0432 \u0440\u0443\u0431\u043b\u0438\u043a\u0435 &#8216;news&#8217; \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0434\u0430\u0434\u0438\u043c \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 \u0441\u0430\u043c\u043e\u0441\u0442\u043e\u044f\u0442\u0435\u043b\u044c\u043d\u043e.<br \/>\u0412\u044b\u043d\u0438\u043c\u0430\u0435\u043c \u0437\u0430\u0433\u043e\u043b\u043e\u0432\u043e\u043a \u0438 \u0447\u0438\u0441\u0442\u0438\u043c \u043e\u0442 \u0441\u0438\u043c\u0432\u043e\u043b\u0430-\u0437\u043d\u0430\u043a\u0430 \u043f\u0440\u043e\u0431\u0435\u043b\u0430.<\/p>\n<pre><code class=\"python\">def parse_article(self, link: str, data: dict) -&gt; Optional[dict]:     '''Get article metadata and main text.     Using BeautifulSoup to parse html page.     '''     try:         tag = data['tag']     except KeyError:         tag = '\u043d\u043e\u0432\u043e\u0441\u0442\u0438'              title = data['title'].replace('\\xa0', ' ')      url = 'https:\/\/meduza.io\/' + link     html = self.get_page(url)     if not html:         return None              soup = BeautifulSoup(html, 'html.parser')              date = None     date_tag = soup.find('time',                           attrs={'data-testid': 'timestamp'})     if date_tag:         date_str = date_tag.text         if '\u043d\u0430\u0437\u0430\u0434' not in date_str:             date = str(datetime.strptime(date_str.split(', ')[1],                                               '%d %B %Y').date())     text = None     text_tag = soup.find('div', class_=[         'GeneralMaterial-module-article',          'SlidesMaterial-module-slides'     ])     if text_tag:         text = text_tag.text.replace('\\xa0', ' ')       article_data = {         'title': title,         'tag': tag,         'date': date,          'link': url,         'text': text     }                       return article_data <\/code><\/pre>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043d\u0443\u0436\u043d\u043e \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0434\u0430\u0442\u0443 \u0438 \u0442\u0435\u043a\u0441\u0442 \u0441\u0442\u0430\u0442\u044c\u0438. \u0412 \u0445\u043e\u0434 \u0438\u0434\u0435\u0442 BeautifulSoup. \u0421\u043e\u0437\u0434\u0430\u0434\u0438\u043c \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u0439 \u043c\u0435\u0442\u043e\u0434 <code>get_page<\/code> \u0434\u043b\u044f \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u044f \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u044b \u0438 \u043f\u0435\u0440\u0435\u0434\u0430\u0434\u0438\u043c \u0432 \u043e\u0431\u044a\u0435\u043a\u0442 <code>soup<\/code>.<\/p>\n<pre><code class=\"python\"> def get_page(self, link: str) -&gt; Optional[str]:         '''Get the html page of article         from url request.         '''         try:             html = requests.get(link, proxies=self.proxies,                                                  headers=self.headers).text             return html                      except Exception as e:             print(f\"Can't get a response from page\")             return None <\/code><\/pre>\n<p>\u0418\u0449\u0435\u043c \u0434\u0430\u0442\u0443 \u043d\u0430 \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0435 \u043f\u043e \u0442\u0435\u0433\u0443 <code>time<\/code> \u0438 \u0430\u0442\u0440\u0438\u0431\u0443\u0442\u0443 <code>data-testid<\/code>. \u0412 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0435 \u043d\u0430\u043f\u0438\u0441\u0430\u043d\u0438\u044f \u043f\u0430\u0440\u0441\u0435\u0440\u0430 \u043e\u0431\u044a\u0435\u043a\u0442 \u0441\u0443\u043f\u0430 \u043d\u0435 \u0441\u0440\u0430\u0437\u0443 \u043d\u0430\u0445\u043e\u0434\u0438\u043b \u043d\u0443\u0436\u043d\u044b\u0439 \u0442\u0435\u0433, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0432 \u044d\u0442\u043e\u043c \u0441\u043b\u0443\u0447\u0430\u0435 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u0430 \u0442\u0449\u0430\u0442\u0435\u043b\u044c\u043d\u0430\u044f \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0430 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f. \u0415\u0441\u043b\u0438 \u0434\u0430\u0442\u0430 \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u0441\u044f, \u0442\u043e \u0432 \u043d\u0435\u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u0441\u0442\u0430\u0442\u044c\u044f\u0445 \u043c\u0435\u0434\u0443\u0437\u044b, \u0430 \u0442\u043e\u0447\u043d\u0435\u0435 \u0432 \u043f\u043e\u0434\u043a\u0430\u0441\u0442\u0430\u0445 \u0434\u0430\u0442\u0430 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0430 \u043d\u0435 \u0432 \u0444\u043e\u0440\u043c\u0430\u0442\u0435 &#8216;dd-mm-YYYY&#8217;, \u0430 \u0441\u0442\u0440\u043e\u043a\u043e\u0439 &#8216;n \u043c\u0435\u0441\u044f\u0446\u0435\u0432 \u043d\u0430\u0437\u0430\u0434&#8217;, \u0442\u043e\u0447\u043d\u043e\u0439 \u0434\u0430\u0442\u044b \u043d\u0435 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0432 \u0442\u0430\u043a\u0438\u0445 \u0442\u0438\u043f\u0430\u0445 \u0441\u0442\u0430\u0442\u0435\u0439 \u0432\u043c\u0435\u0441\u0442\u043e \u0434\u0430\u0442\u044b \u043e\u0441\u0442\u0430\u0432\u0438\u043c \u043f\u0440\u043e\u043f\u0443\u0449\u0435\u043d\u043d\u043e\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435.<\/p>\n<p>\u041d\u0430\u0445\u043e\u0434\u0438\u043c \u0442\u0435\u043a\u0441\u0442 \u0441\u0442\u0430\u0442\u044c\u0438 \u043f\u043e \u043e\u0434\u043d\u043e\u043c\u0443 \u0438\u0437 \u043a\u043b\u0430\u0441\u0441\u043e\u0432, \u0438\u0437-\u0437\u0430 \u0440\u0430\u0437\u043d\u044b\u0445 \u0440\u0443\u0431\u0440\u0438\u043a \u0441\u0442\u0430\u0442\u0435\u0439, \u0442\u0435\u043a\u0441\u0442 \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u043b\u0438\u0431\u043e \u0432 <code>'GeneralMaterial-module-article'<\/code> \u043b\u0438\u0431\u043e \u0432 <code>'SlidesMaterial-module-slides'<\/code>.<\/p>\n<pre><code class=\"python\">... # \u043f\u0440\u043e\u0434\u043e\u043b\u0436\u0435\u043d\u0438\u0435 \u043c\u0435\u0442\u043e\u0434\u0430 parse_article  url = 'https:\/\/meduza.io\/' + link     html = self.get_page(url)     if not html:         return None              soup = BeautifulSoup(html, 'html.parser')              date = None     date_tag = soup.find('time',                           attrs={'data-testid': 'timestamp'})     if date_tag:         date_str = date_tag.text         if '\u043d\u0430\u0437\u0430\u0434' not in date_str:             date = str(datetime.strptime(date_str.split(', ')[1],                                               '%d %B %Y').date())     text = None     text_tag = soup.find('div', class_=[         'GeneralMaterial-module-article',          'SlidesMaterial-module-slides'     ])     if text_tag:         text = text_tag.text.replace('\\xa0', ' ')       article_data = {         'title': title,         'tag': tag,         'date': date,          'link': url,         'text': text     }                       return article_data <\/code><\/pre>\n<p>\u0421\u043e\u0445\u0440\u0430\u043d\u044f\u0435\u043c \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 \u0432 \u0441\u043b\u043e\u0432\u0430\u0440\u044c <code>article_data<\/code>  \u0438 \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u043c \u0435\u0433\u043e.<\/p>\n<p>\u0412 \u043c\u0435\u0442\u043e\u0434\u0435 <code>page_iterate<\/code> \u0431\u0443\u0434\u0435\u0442 \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0442\u044c\u0441\u044f \u0432\u0435\u0441\u044c \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c \u0440\u0430\u0431\u043e\u0442\u044b \u043f\u0430\u0440\u0441\u0435\u0440\u0430. \u0415\u0433\u043e \u0437\u0430\u0434\u0430\u0447\u0430 &#8212; \u0438\u0442\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c\u0441\u044f \u043f\u043e \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0430\u043c \u0438 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0434\u0430\u043d\u043d\u044b\u0435 \u0437\u0430\u043f\u0440\u043e\u0441\u0430 \u043f\u043e \u043a\u0430\u0436\u0434\u043e\u0439 \u0438\u0437 \u043d\u0438\u0445, \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0438 \u0437\u0430\u043f\u0440\u043e\u0441\u0430 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0434\u0430\u043d\u043d\u044b\u0435 \u043f\u043e \u043d\u0435\u0439 \u0438 \u0441\u043e\u0445\u0440\u0430\u043d\u0438\u0442\u044c \u0432 \u043b\u0438\u0441\u0442 <code>articles_data<\/code>.<\/p>\n<p>\u0421\u043e\u0437\u0434\u0430\u0435\u043c \u0431\u0435\u0441\u043a\u043e\u043d\u0435\u0447\u043d\u044b\u0439 \u0446\u0438\u043a\u043b <code>while True<\/code>, \u0433\u0434\u0435 \u0441 \u043a\u0430\u0436\u0434\u043e\u0439 \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u0435\u0439 \u0447\u0438\u0441\u043b\u043e \u0441\u0442\u0440\u0430\u043d\u0438\u0446 \u0431\u0443\u0434\u0435\u0442 \u0432\u043e\u0437\u0440\u0430\u0441\u0442\u0430\u0442\u044c \u043d\u0430 \u043e\u0434\u0438\u043d \u0438 \u0446\u0438\u043a\u043b \u0431\u0443\u0434\u0435\u0442 \u043e\u0431\u0440\u044b\u0432\u0430\u0442\u044c\u0441\u044f \u0442\u043e\u043b\u044c\u043a\u043e \u0432 \u043c\u043e\u043c\u0435\u043d\u0442 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u044f \u043e\u0442\u0432\u0435\u0442\u0430 \u043e\u0442 \u0437\u0430\u043f\u0440\u043e\u0441\u0430, \u0433\u0434\u0435 \u0441\u0442\u0430\u0442\u0435\u0439 \u0443\u0436\u0435 \u043d\u0435\u0442. \u0422\u043e \u0435\u0441\u0442\u044c \u0432 \u044d\u0442\u043e\u0442 \u043c\u043e\u043c\u0435\u043d\u0442 \u043f\u0430\u0440\u0441\u0435\u0440 \u0441\u043e\u0431\u0440\u0430\u043b \u0432\u0441\u0435 \u0441\u0442\u0430\u0442\u044c\u0438 \u0438 \u0438\u0445 \u0431\u043e\u043b\u044c\u0448\u0435 \u043d\u0435\u0442.<\/p>\n<pre><code class=\"python\">def page_iterate(self) -&gt; list:   '''Get all articles as a DataFrame with    the use of page iteration.   '''      articles_data = []   articles_total = 0   page = 0      while True:       data = self.send_request(page)        if data is None:           print(f'Got None for this request on page {page}')           page += 1           continue        article_data, articles_num = data                  if  articles_num == 0:           print('No more articles found')           break              for link, metadata in article_data.items():           parsed_data = self.parse_article(link, metadata)           if parsed_data:               articles_data.append(parsed_data)                  articles_total += articles_num       page += 1                  print(f'Parsed {articles_total} articles')              return pd.DataFrame(articles_data) <\/code><\/pre>\n<p>\u041f\u043e \u0438\u0442\u043e\u0433\u0443 \u0441\u043e\u0445\u0440\u0430\u043d\u044f\u0435\u043c \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u0439 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u0432 DataFrame. \u0421\u043e\u0437\u0434\u0430\u0435\u043c \u043e\u0431\u044a\u0435\u043a\u0442 \u043a\u043b\u0430\u0441\u0441\u0430, \u0432\u044b\u0437\u044b\u0432\u0430\u0435\u043c \u0444\u0438\u043d\u0430\u043b\u044c\u043d\u044b\u0439 \u043c\u0435\u0442\u043e\u0434 <code>page_iterate<\/code> \u0438 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0442\u0430\u043a\u043e\u0439 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442.<\/p>\n<pre><code>CPU times: user 21.9 s, sys: 1.89 s, total: 23.8 s Wall time: 3min 27s <\/code><\/pre>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/c30\/5a9\/062\/c305a906259fa59fb8a06badc96be586.png\" width=\"1690\" height=\"1182\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/c30\/5a9\/062\/c305a906259fa59fb8a06badc96be586.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/c30\/5a9\/062\/c305a906259fa59fb8a06badc96be586.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u041f\u043e \u0437\u0430\u043f\u0440\u043e\u0441\u0443 &#8216;\u0432\u044b\u0431\u043e\u0440\u044b \u0432 \u0441\u0448\u0430&#8217; \u0443 \u043d\u0430\u0441 \u0441\u043e\u0431\u0440\u0430\u043b\u043e\u0441\u044c 486 \u0441\u0442\u0430\u0442\u0435\u0439 \u0437\u0430 3.5 \u043c\u0438\u043d\u0443\u0442\u044b.<\/p>\n<hr\/>\n<p>\u0412 \u0441\u043b\u0443\u0447\u0430\u0435 RussiaToday, \u043e\u0442\u043a\u0440\u044b\u0432 \u0432\u043a\u043b\u0430\u0434\u043a\u0443 \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u0430 \u0432 \u043f\u043e\u0438\u0441\u043a\u0430\u0445 \u043d\u0443\u0436\u043d\u043e\u0433\u043e \u0437\u0430\u043f\u0440\u043e\u0441\u0430 \u0435\u0434\u0438\u043d\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u043c \u043f\u043e\u0445\u043e\u0436\u0438\u043c \u043d\u0430 \u0447\u0442\u043e-\u0442\u043e, \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0449\u0435\u0435 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u043e \u0441\u0442\u0430\u0442\u044c\u044f\u0445 \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0437\u0430\u043f\u0440\u043e\u0441 <code>search?<\/code>.  \u041d\u043e \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u043e\u043d \u043d\u0435 \u0441\u044b\u0440\u043e\u0439 json, a html \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0443, \u0447\u0442\u043e \u043d\u0435 \u0441\u043e\u0432\u0441\u0435\u043c \u0443\u0434\u043e\u0431\u043d\u043e \u0434\u043b\u044f \u043d\u0430\u0441. \u0422\u0443\u0442 \u043c\u043e\u0436\u043d\u043e \u043f\u0440\u0438\u043d\u044f\u0442\u044c \u0444\u0430\u043a\u0442 \u043e\u0442\u0441\u0443\u0442\u0441\u0442\u0432\u0438\u044f \u0443\u0434\u043e\u0431\u043d\u043e\u0433\u043e \u0444\u043e\u0440\u043c\u0430\u0442\u0430 \u0438 \u0432\u043e\u043e\u0440\u0443\u0436\u0438\u0442\u044c\u0441\u044f BeautifulSoup, \u043d\u043e \u0435\u0441\u043b\u0438 \u043f\u0440\u0438\u0441\u043c\u043e\u0442\u0440\u0435\u0442\u044c\u0441\u044f \u0432\u043d\u0438\u043c\u0430\u0442\u0435\u043b\u044c\u043d\u0435\u0435, \u0432 payload \u043c\u043e\u0436\u043d\u043e \u0443\u0432\u0438\u0434\u0435\u0442\u044c \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440 API \u0437\u0430\u043f\u0440\u043e\u0441\u0430 &#8216;format&#8217;, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043a\u0430\u043a \u0440\u0430\u0437 \u0438 \u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0435\u0442 \u0430\u0440\u0433\u0443\u043c\u0435\u043d\u0442\u043e\u043c &#8216;json&#8217;. \u042d\u0442\u043e \u043d\u0430\u0448\u0435 \u0440\u0435\u0448\u0435\u043d\u0438\u0435.<\/p>\n<figure class=\"full-width\"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/e78\/558\/ae5\/e78558ae5442dd224563052a40b5cd7e.png\" width=\"2268\" height=\"1054\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/e78\/558\/ae5\/e78558ae5442dd224563052a40b5cd7e.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/e78\/558\/ae5\/e78558ae5442dd224563052a40b5cd7e.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<div class=\"floating-image\">\n<p>\u041f\u043e \u0430\u043d\u0430\u043b\u043e\u0433\u0438\u0438 \u0441 \u043f\u0430\u0440\u0441\u0435\u0440\u043e\u043c \u043c\u0435\u0434\u0443\u0437\u044b \u0441\u043e\u0437\u0434\u0430\u0434\u0438\u043c <code>class RussiaTodayParser<\/code> \u0441 \u0442\u0435\u043c\u0438 \u0436\u0435 \u0430\u0442\u0440\u0438\u0431\u0443\u0442\u0430\u043c\u0438 \u043c\u0435\u0442\u043e\u0434\u0430 <strong>init<\/strong>, \u0437\u0430 \u0438\u0441\u043a\u043b\u044e\u0447\u0435\u043d\u0438\u0435\u043c \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u0437\u0430\u043f\u0440\u043e\u0441\u0430 \u0438 \u043f\u0440\u043e\u043a\u0441\u0438-\u0441\u0435\u0440\u0432\u0435\u0440\u0430, \u0442\u0443\u0442 \u043e\u043d \u043d\u0435 \u043f\u043e\u043d\u0430\u0434\u043e\u0431\u0438\u0442\u0441\u044f. \u0417\u0434\u0435\u0441\u044c \u043a \u043d\u0435\u043c\u0443 \u0434\u043e\u0431\u0430\u0432\u044f\u0442\u0441\u044f \u0442\u0430\u043a\u0438\u0435 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b \u043a\u0430\u043a df \u0438 dt, \u043e\u0442\u0432\u0435\u0447\u0430\u044e\u0449\u0438\u0435 \u0437\u0430 \u0434\u0430\u0442\u044b \u0441 \u043a\u043e\u0442\u043e\u0440\u043e\u0439 \u043f\u043e \u043a\u0430\u043a\u043e\u0435 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0441\u0442\u0430\u0442\u044c\u0438, \u0438 format, \u0433\u0434\u0435 \u0443\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u043c json.<\/p>\n<\/div>\n<pre><code class=\"python\">self.params = {             'q': query,             'df': date_from,             'dt': date_to,             'pageSize': 100,             'format': 'json'         } <\/code><\/pre>\n<pre><code class=\"python\"> def get_metadata(self, article: dict) -&gt; dict:     '''Get metadata of article'''     link = f'{self.base_url}{article['href']}'     text = self.get_article_text(link)          category = article['category'] if 'category' in article else None     date = str(datetime.fromtimestamp(             int(article['date'])).date())          article_data = {         'id': article['id'],         'link': link,         'date': date,         'type': article['type'],         'category': category,         'title': article['title'],         'summary': article['summary'],         'text': text      }      return article_data <\/code><\/pre>\n<p>\u0422\u0435\u043a\u0441\u0442 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0432 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u043e\u043c \u043c\u0435\u0442\u043e\u0434\u0435, \u0433\u0434\u0435 \u043e\u043d \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u0441\u044f \u043f\u043e \u043a\u043b\u0430\u0441\u0441\u0443 \u043d\u0430 HTML-\u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0435. \u041d\u0435 \u0437\u0430\u0431\u044b\u0432\u0430\u0435\u043c \u043f\u0435\u0440\u0435\u0432\u0435\u0441\u0442\u0438 \u0434\u0430\u0442\u0443 \u0438\u0437 \u0444\u043e\u0440\u043c\u0430\u0442\u0430 <code>timestamp.<\/code> \u041f\u043e\u0441\u043b\u0435\u0434\u043d\u0438\u0439 \u043c\u0435\u0442\u043e\u0434 <code>iterate_pages<\/code>, \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u044e\u0449\u0438\u0439 \u0441\u043e\u0431\u0440\u0430\u0442\u044c \u0432\u0435\u0441\u044c \u043c\u0435\u0445\u0430\u043d\u0438\u0437\u043c \u0440\u0430\u0431\u043e\u0442\u044b \u043f\u0430\u0440\u0441\u0435\u0440\u0430 \u043c\u043e\u0436\u043d\u043e \u0443\u0432\u0438\u0434\u0435\u0442\u044c \u0432 <a href=\"https:\/\/github.com\/dianteroph\/russian_smi_parsers\" rel=\"noopener noreferrer nofollow\">\u0433\u0438\u0442\u0445\u0430\u0431 \u0440\u0435\u043f\u043e\u0437\u0438\u0442\u043e\u0440\u0438\u0438<\/a>, \u0435\u0433\u043e \u043c\u0435\u0445\u0430\u043d\u0438\u0437\u043c \u0442\u0430\u043a\u0436\u0435 \u043f\u043e\u0445\u043e\u0436 \u043d\u0430 \u0442\u043e\u0442, \u0447\u0442\u043e \u043c\u044b \u0432\u0438\u0434\u0435\u043b\u0438 \u0432 \u043f\u0440\u0435\u0434\u044b\u0434\u0443\u0449\u0435\u043c \u043f\u0430\u0440\u0441\u0435\u0440\u0435.<\/p>\n<hr\/>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043f\u0440\u0438\u0448\u043b\u0430 \u043e\u0447\u0435\u0440\u0435\u0434\u044c \u041a\u043e\u043c\u043c\u0435\u0440\u0441\u0430\u043d\u0442\u0430. \u0422\u0449\u0430\u0442\u0435\u043b\u044c\u043d\u043e \u0438\u0437\u0443\u0447\u0438\u0432 \u0432\u0441\u0435 \u0434\u043e\u0441\u0442\u0443\u043f\u043d\u044b\u0435 \u0437\u0430\u043f\u0440\u043e\u0441\u044b \u0432 \u043f\u0430\u043d\u0435\u043b\u0438 \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u0430 \u043d\u0430 \u0441\u0430\u0439\u0442\u0435, \u0437\u0430\u043f\u0440\u043e\u0441\u0430, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0441\u043c\u043e\u0433 \u0431\u044b \u0432\u0435\u0440\u043d\u0443\u0442\u044c \u043d\u0430\u043c \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u0443\u044e \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u043e \u0441\u0442\u0430\u0442\u044c\u044f\u0445 \u043d\u0435 \u043d\u0430\u0448\u043b\u043e\u0441\u044c. \u041a \u0442\u043e\u043c\u0443 \u0436\u0435, \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0443 \u0441\u043e \u0441\u0442\u0430\u0442\u044c\u044f\u043c\u0438 \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u043e\u0431\u044b\u0447\u043d\u043e\u0433\u043e \u0437\u0430\u043f\u0440\u043e\u0441\u0430 <code>requests<\/code> \u043d\u0435 \u0432\u044b\u0439\u0434\u0435\u0442. \u0421\u0438\u0441\u0442\u0435\u043c\u0430 \u0437\u0430\u0449\u0438\u0442\u044b \u0441\u0430\u0439\u0442\u0430 \u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0435\u0442 \u0440\u0430\u0431\u043e\u0442\u0443 \u0440\u043e\u0431\u043e\u0442\u0430, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u043d\u0430\u043c \u0441\u043b\u0435\u0434\u0443\u0435\u0442 \u0441\u044b\u043c\u0438\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u0435 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f \u043f\u0440\u0438 \u043f\u043e\u043c\u043e\u0449\u0438 Selenium.<\/p>\n<p>\u0412 \u043a\u043b\u0430\u0441\u0441\u0435 <code>KommersantParser<\/code> \u0441\u043e\u0437\u0434\u0430\u0435\u043c \u043c\u0435\u0442\u043e\u0434 <code>get_driver<\/code>, \u0433\u0434\u0435 \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0438\u043c \u0431\u0430\u0437\u043e\u0432\u044b\u0435 \u043e\u043f\u0446\u0438\u0438 ChromeDriver.<br \/> \u041f\u0440\u0438 \u0438\u043d\u0438\u0446\u0438\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u0438 \u0434\u0440\u0430\u0439\u0432\u0435\u0440\u0430 \u0447\u0442\u043e\u0431\u044b \u043c\u0438\u043d\u0438\u043c\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043e\u0448\u0438\u0431\u043a\u0438 \u0438 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u044c \u043e\u0431\u043d\u0430\u0440\u0443\u0436\u0435\u043d\u0438\u044f \u0440\u043e\u0431\u043e\u0442\u0430 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u0434\u043e\u043f\u043e\u043b\u043d\u0435\u043d\u0443\u044e \u0432\u0435\u0440\u0441\u0438\u044e ChromeDriver &#8212; <code>undetected chrome-driver<\/code> , \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438 \u043f\u0440\u0435\u0434\u043e\u0442\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u0431\u044b\u0442\u044c \u043f\u043e\u0439\u043c\u0430\u043d\u043d\u044b\u043c \u0442\u0430\u043a\u0438\u043c\u0438 \u0441\u0438\u0441\u0442\u0435\u043c\u0430\u043c\u0438 \u0437\u0430\u0449\u0438\u0442\u044b \u043a\u0430\u043a: <strong>Cloudflare, Distil Networks<\/strong>.<\/p>\n<p>\u041e\u043f\u0446\u0438\u044f <code>'--no-sandbox'<\/code> \u043f\u043e\u043c\u043e\u0436\u0435\u0442 \u0441\u043d\u0438\u0437\u0438\u0442\u044c \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u044c \u043e\u0448\u0438\u0431\u043e\u043a \u0438\u043b\u0438 \u0441\u0431\u043e\u0435\u0432, \u0432\u044b\u0437\u0432\u0430\u043d\u043d\u044b\u0445 \u043f\u0435\u0441\u043e\u0447\u043d\u0438\u0446\u0435\u0439 &#8212; \u043c\u0435\u0441\u0442\u0430, \u0433\u0434\u0435 \u0431\u0440\u0430\u0443\u0437\u0435\u0440 \u043f\u0440\u043e\u0445\u043e\u0434\u0438\u0442 \u043f\u0440\u043e\u0432\u0435\u0440\u043a\u0438 \u0431\u0435\u0437\u043e\u043f\u0430\u0441\u043d\u043e\u0441\u0442\u0438 \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u043e\u043d\u043d\u043e\u0439 \u0441\u0438\u0441\u0442\u0435\u043c\u044b. <code>--headless=new<\/code> \u043e\u0442\u043a\u043b\u044e\u0447\u0438\u0442 \u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0432\u044b\u0437\u043e\u0432 \u043e\u043a\u043d\u0430 \u0431\u0440\u0430\u0443\u0437\u0435\u0440\u0430 \u043f\u0440\u0438 \u043a\u0430\u0436\u0434\u043e\u0439 \u043f\u043e\u043f\u044b\u0442\u043a\u0435 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u044f \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u044b \u0434\u0440\u0430\u0439\u0432\u0435\u0440\u043e\u043c.<\/p>\n<pre><code class=\"python\"> def get_driver(self):     '''Getting ChromeDriver to imitate      user behaviour in browser.     '''     options = uc.ChromeOptions()     options.add_argument(\"--no-sandbox\")     options.add_argument(\"--headless=new\")     options.add_argument(f'--user-agent={random.choice(user_agents)}')     driver = uc.Chrome(version_main=138, options=options)     return driver <\/code><\/pre>\n<p>\u0412 \u043f\u0435\u0440\u0432\u0443\u044e \u043e\u0447\u0435\u0440\u0435\u0434\u044c, \u043d\u0443\u0436\u043d\u043e \u0441\u043e\u0431\u0440\u0430\u0442\u044c \u0441\u0441\u044b\u043b\u043a\u0438 \u0441\u043e \u0432\u0441\u0435\u0445 \u0441\u0442\u0440\u0430\u043d\u0438\u0446, \u0434\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u0435 \u0434\u0440\u0430\u0439\u0432\u0435\u0440\u043e\u043c \u0432\u0441\u0435\u0445 \u0434\u043e\u0441\u0442\u0443\u043f\u043d\u044b\u0445 \u0441\u0442\u0440\u0430\u043d\u0438\u0446 \u0437\u0430\u043f\u0440\u043e\u0441\u0430.<br \/> \u0421\u043e\u0437\u0434\u0430\u0435\u043c \u043c\u0435\u0442\u043e\u0434 <code>get_links<\/code>, \u043f\u0435\u0440\u0435\u0434 \u0442\u0435\u043c, \u043a\u0430\u043a \u0434\u0430\u0442\u044c \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u044c \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0443, \u043f\u0440\u043e\u043f\u0438\u0448\u0435\u043c \u0444\u0443\u043d\u043a\u0446\u0438\u044e <code>delete_all_cookies()<\/code>, \u043e\u043d\u0430 \u043f\u043e\u043c\u043e\u0436\u0435\u0442 \u0438\u0437\u0431\u0435\u0436\u0430\u0442\u044c \u043e\u0448\u0438\u0431\u043a\u0438 <code>\u201cno such window: target window already closed\u201d<\/code>, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0441\u0432\u044f\u0437\u0430\u043d\u043d\u0430 \u0441 \u043d\u0430\u043b\u0438\u0447\u0438\u0435\u043c \u0444\u0430\u0439\u043b\u043e\u0432 \u043a\u0443\u043a\u0438 \u043e\u0442 \u043f\u0440\u043e\u0448\u043b\u043e\u0433\u043e \u0437\u0430\u043f\u0440\u043e\u0441\u0430. \u0422.\u043a. \u043c\u044b \u043d\u0435\u043e\u0434\u043d\u043e\u043a\u0440\u0430\u0442\u043d\u043e \u043e\u0442\u043f\u0440\u0430\u0432\u043b\u044f\u0435\u043c \u0437\u0430\u043f\u0440\u043e\u0441\u044b, \u0442\u043e \u043d\u0435 \u043e\u0447\u0438\u0449\u0435\u043d\u043d\u044b\u0435 \u043a\u0443\u043a\u0438 \u0441 \u043f\u0440\u043e\u0448\u043b\u043e\u0433\u043e \u044f\u0432\u043b\u044f\u044e\u0442\u0441\u044f \u043f\u043e\u043c\u0435\u0445\u043e\u0439.<\/p>\n<p>\u041f\u0440\u043e\u043f\u0438\u0441\u044b\u0432\u0430\u0435\u043c \u0444\u0443\u043d\u043a\u0446\u0438\u044e wait \u0434\u043b\u044f \u043f\u0440\u043e\u0433\u0440\u0443\u0437\u043a\u0438 \u0432\u0441\u0435\u0433\u043e \u0431\u043b\u043e\u043a\u0430 \u0441\u0442\u0430\u0442\u0435\u0439 \u0438 \u0438\u0449\u0435\u043c \u0435\u0433\u043e \u043f\u043e css-\u0441\u0435\u043b\u0435\u043a\u0442\u043e\u0440\u0443.<\/p>\n<pre><code class=\"python\">def get_links(self, url: str) -&gt; Optional[list]:     '''Getting articles links on website      page.     '''     links = []     driver = self.get_driver()          try:         driver.delete_all_cookies()          driver.get(url)         wait(driver, 10).until(             EC.visibility_of_element_located((By.CSS_SELECTOR,                                                'article.uho')))         articles = driver.find_elements(             By.CSS_SELECTOR, 'article.uho')              except TimeoutException:         return None          for article in articles:         link = article.find_element(             By.CSS_SELECTOR, 'a.uho__link').get_attribute('href')         links.append(link)          driver.close()        return links <\/code><\/pre>\n<p>\u0414\u0430\u043b\u0435\u0435 \u0438\u0437 \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0431\u043b\u043e\u043a\u0430 html-\u043a\u043e\u0434\u0430 \u0441\u0442\u0430\u0442\u044c\u0438 \u0432\u044b\u043d\u0438\u043c\u0430\u0435\u043c \u0441\u0441\u044b\u043b\u043a\u0443.<\/p>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043f\u0440\u0438 \u043f\u043e\u043c\u043e\u0449\u0438 <code>BeautifulSoup<\/code> \u043f\u0440\u043e\u043f\u0438\u0441\u044b\u0432\u0430\u0435\u043c \u043c\u0435\u0442\u043e\u0434 \u043f\u0430\u0440\u0441\u0438\u043d\u0433\u0430 \u0441\u0442\u0430\u0442\u0435\u0439 \u0438\u0441\u0445\u043e\u0434\u044f \u0438\u0437 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u0445 \u0441\u0441\u044b\u043b\u043e\u043a, \u0437\u0434\u0435\u0441\u044c \u043d\u0438\u0447\u0435\u0433\u043e \u043d\u043e\u0432\u043e\u0433\u043e:<\/p>\n<pre><code class=\"python\">def select_part(self, soup, css_selector: str) -&gt; Optional[str]:     page_object = soup.select_one(         css_selector).text.strip()     return page_object if page_object else ''           def get_metadata(self, article_link: str) -&gt; dict:     '''Getting the metadata and article      text.     '''     html = requests.get(article_link).text     soup = BeautifulSoup(html, 'html.parser')      title = self.select_part(soup,                               'h1.doc_header__name')     date = self.select_part(soup,                               'time.doc_header__publish_time')     text = self.select_part(soup,                               'div.doc__body')          article_data = {         'title': title,         'date': date,         'link': article_link,         'text': text     }          return article_data <\/code><\/pre>\n<p>\u0423 \u043a\u043e\u043c\u043c\u0435\u0440\u0441\u0430\u043d\u0442\u0430 \u043c\u0430\u043a\u0441\u0438\u043c\u0430\u043b\u044c\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0441\u0442\u0440\u0430\u043d\u0438\u0446 \u0441 \u0441\u0441\u044b\u043b\u043a\u0430\u043c\u0438 \u043d\u0430 \u0441\u0442\u0430\u0442\u044c\u0438, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043c\u044b \u043c\u043e\u0436\u0435\u043c \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u044d\u0442\u043e &#8212; 100. \u0427\u0442\u043e\u0431\u044b \u043d\u0435 \u043f\u043e\u0442\u0435\u0440\u044f\u0442\u044c \u043d\u0430\u0448\u0438 \u0441\u0442\u0430\u0442\u044c\u0438, \u0441\u043d\u0430\u0447\u0430\u043b\u0430 \u0440\u0430\u0437\u043e\u0431\u044a\u0435\u043c \u043d\u0430\u0448 \u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e\u0439 \u043f\u0440\u043e\u043c\u0435\u0436\u0443\u0442\u043e\u043a \u043d\u0430 \u0431\u043e\u043b\u0435\u0435 \u043c\u0435\u043b\u043a\u0438\u0435 \u0441 \u0434\u0435\u043b\u044c\u0442\u043e\u0439 \u0440\u0430\u0432\u043d\u043e\u0439 \u043c\u0435\u0441\u044f\u0446\u0443. \u0418 \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u043c\u0435\u0441\u044f\u0446\u0430 \u0431\u0443\u0434\u0435\u043c \u0434\u0435\u043b\u0430\u0442\u044c \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u0439 \u0437\u0430\u043f\u0440\u043e\u0441.<br \/> \u0412 \u044d\u0442\u043e\u043c \u0436\u0435 \u0446\u0438\u043a\u043b\u0435 \u0443 \u043d\u0430\u0441 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442\u0441\u044f \u0432\u0442\u043e\u0440\u043e\u0439 \u0432\u043b\u043e\u0436\u0435\u043d\u043d\u044b\u0439, \u0433\u0434\u0435 \u0443\u0436\u0435 \u0438\u0434\u0435\u0442 \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u044f \u043f\u043e \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0430\u043c. \u041d\u0430 \u0432\u044b\u0445\u043e\u0434\u0435 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0441\u043f\u0438\u0441\u043e\u043a \u0438\u0437 \u0432\u0441\u0435\u0445 \u0441\u0441\u044b\u043b\u043e\u043a \u043d\u0430 \u0441\u0442\u0430\u0442\u044c\u0438.<\/p>\n<pre><code class=\"python\">def iterate_pages(self) -&gt; list:     '''Iteration through the date      range and pages     '''     article_links = []     dates = pd.date_range(         self.df, self.dt, freq='31D')     dates = dates.strftime('%Y-%m-%d').tolist()          for i in tqdm(range(1, len(dates))):         print(dates[i])         params = {             **self.params,             'datestart': dates[i-1],             'dateend': dates[i]         }          for page in range(1, 101):             request_payload = {                 **params,                 'page': page             }             url = self.base_url + urllib.parse.urlencode(                 request_payload)             links = self.get_links(url)                          if links:                 article_links.extend(links)             else:                 break                      print(f'Found {len(article_links)} article links.')               return article_links <\/code><\/pre>\n<p>\u0418 \u043d\u0430\u043a\u043e\u043d\u0435\u0446 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u0435 \u0432\u0441\u0435\u0445 \u0434\u0430\u043d\u043d\u044b\u0445 \u043e \u0441\u0442\u0430\u0442\u044c\u044f\u0445 \u043f\u0440\u0438 \u043f\u043e\u043c\u043e\u0449\u0438 \u043f\u043e\u0441\u043b\u0435\u0434\u043d\u0435\u0433\u043e \u043c\u0435\u0442\u043e\u0434\u0430 <code>get_articles<\/code>:<\/p>\n<pre><code class=\"python\">def get_articles(self) -&gt; pd.DataFrame:     '''Getting the final results     with articles in DataFrame     '''     articles_data = []     article_links = self.iterate_pages()     for link in article_links:         data = self.get_metadata(link)         if data:             articles_data.append(data)              return pd.DataFrame(articles_data) <\/code><\/pre>\n<p>\u0418\u0442\u0430\u043a, \u0432 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0435 \u043d\u0430\u043c \u0443\u0434\u0430\u043b\u043e\u0441\u044c \u0441\u043f\u0430\u0440\u0441\u0438\u0442\u044c \u0441\u0442\u0430\u0442\u044c\u0438 \u0438\u0437 \u0442\u0440\u0435\u0445 \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0438\u0437\u0432\u0435\u0441\u0442\u043d\u044b\u0445 \u0440\u043e\u0441\u0441\u0438\u0439\u0441\u043a\u0438\u0445 \u0421\u041c\u0418. \u0422\u0435\u043f\u0435\u0440\u044c \u043c\u043e\u0436\u043d\u043e \u0438 \u0443\u0437\u043d\u0430\u0442\u044c \u043a\u0430\u043a \u0442\u0430\u043a\u0438\u0435 \u0432\u043b\u0438\u044f\u0442\u0435\u043b\u044c\u043d\u044b\u0435 \u043c\u0435\u0434\u0438\u0430-\u0440\u0435\u0441\u0443\u0440\u0441\u044b \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u044e\u0442 \u0438 \u043f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u0438\u0440\u0443\u044e\u0442 \u0432\u044b\u0431\u043e\u0440\u044b \u0432 \u0421\u0428\u0410 \u0438 \u0434\u0440\u0443\u0433\u0438\u0435 \u0436\u0438\u0432\u043e\u0442\u0440\u0435\u043f\u0435\u0449\u0443\u0449\u0438\u0435 \u0442\u0435\u043c\u044b, \u0442\u0430\u043a\u0436\u0435 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044f \u0432\u0435\u0441\u044c \u0444\u0443\u043d\u043a\u0446\u0438\u043e\u043d\u0430\u043b \u043f\u0438\u0442\u043e\u043d\u0430 \u0438 \u0435\u0433\u043e \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a.<\/p>\n<p>\u0418\u0441\u0445\u043e\u0434\u043d\u044b\u0439 \u043a\u043e\u0434 \u043f\u0430\u0440\u0441\u0435\u0440\u043e\u0432 \u043c\u043e\u0436\u043d\u043e \u043d\u0430\u0439\u0442\u0438 \u0432\u00a0<a href=\"https:\/\/github.com\/dianteroph\/russian_smi_parsers\" rel=\"noopener noreferrer nofollow\">\u044d\u0442\u043e\u043c \u0440\u0435\u043f\u043e\u0437\u0438\u0442\u043e\u0440\u0438\u0438<\/a>.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<p><!----><!----><\/div>\n<p><!----><!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/930188\/\"> https:\/\/habr.com\/ru\/articles\/930188\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<h3>\u0420\u0430\u0437\u0431\u0438\u0440\u0430\u0435\u043c \u043d\u0430 \u043f\u0440\u0438\u043c\u0435\u0440\u0435 Russia Today, \u041a\u043e\u043c\u043c\u0435\u0440\u0441\u0430\u043d\u0442 \u0438 Meduza*<\/h3>\n<figure class=\"full-width\"><\/figure>\n<p>\u0412\u043e\u0437\u043c\u043e\u0436\u043d\u043e \u0434\u043b\u044f \u0432\u0430\u0448\u0435\u0433\u043e \u043f\u0440\u043e\u0435\u043a\u0442\u0430\/\u0440\u0435\u0441\u0435\u0440\u0447\u0430 \u0438\u043d\u043e\u0433\u0434\u0430 \u0442\u0440\u0435\u0431\u043e\u0432\u0430\u043b\u043e\u0441\u044c \u0441\u043e\u0431\u0440\u0430\u0442\u044c \u0431\u043e\u043b\u044c\u0448\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0441\u0442\u0430\u0442\u0435\u0439 \u0438\u0437 \u043a\u0430\u043a\u0438\u0445-\u043b\u0438\u0431\u043e \u0438\u0441\u0442\u043e\u0447\u043d\u0438\u043a\u043e\u0432 \u0432 \u0432\u0438\u0434\u0435 \u0432\u0435\u0431-\u0441\u0430\u0439\u0442\u043e\u0432. \u0412 \u044d\u043f\u043e\u0445\u0443 \u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u044f\u0437\u044b\u043a\u043e\u0432\u044b\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u043f\u043e\u043b\u043d\u043e\u0446\u0435\u043d\u043d\u044b\u0439 \u0441\u0431\u043e\u0440 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u0441 \u0441\u0430\u0439\u0442\u043e\u0432 \u0432\u0441\u0435 \u0435\u0449\u0435 \u043d\u0435 \u0441\u0430\u043c\u044b\u0439 \u043e\u0447\u0435\u0432\u0438\u0434\u043d\u044b\u0439 \u0441\u0446\u0435\u043d\u0430\u0440\u0438\u0439, \u0442\u0440\u0435\u0431\u0443\u044e\u0449\u0438\u0439 \u0443\u0447\u0435\u0442\u0430 \u043c\u043d\u043e\u0433\u0438\u0445 \u043c\u0435\u043b\u043a\u0438\u0445 \u0434\u0435\u0442\u0430\u043b\u0435\u0439, \u0430 \u0442\u0430\u043a\u0436\u0435 \u043f\u043e\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u043f\u0440\u0438\u043d\u0446\u0438\u043f\u043e\u0432 \u0440\u0430\u0431\u043e\u0442\u044b \u0441\u0430\u0439\u0442\u0430 \u0438 \u0432\u0437\u0430\u0438\u043c\u043e\u0434\u0435\u0439\u0441\u0442\u0432\u0438\u044f \u0441 \u043d\u0438\u043c. \u0412 \u044d\u0442\u043e\u043c \u0441\u043b\u0443\u0447\u0430\u0435 \u0435\u0434\u0438\u043d\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u043e\u043f\u0442\u0438\u043c\u0430\u043b\u044c\u043d\u044b\u0439 \u043c\u0435\u0442\u043e\u0434 \u0441\u0431\u043e\u0440\u0430 \u0442\u0430\u043a\u043e\u0439 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 &#8212; \u044d\u0442\u043e \u043f\u0430\u0440\u0441\u0438\u043d\u0433.<\/p>\n<p>\u0412 \u0434\u0430\u043d\u043d\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435 \u043c\u044b \u0441\u0444\u043e\u043a\u0443\u0441\u0438\u0440\u0443\u0435\u043c\u0441\u044f \u043d\u0430 \u043f\u0430\u0440\u0441\u0438\u043d\u0433\u0435 \u0441\u0430\u0439\u0442\u043e\u0432 \u0440\u043e\u0441\u0441\u0438\u0439\u0441\u043a\u0438\u0445 \u0421\u041c\u0418, \u0432 \u0447\u0438\u0441\u043b\u0435 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 <strong>Meduza<\/strong>,* \u043a\u0430\u043a \u043e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u043e \u0437\u0430\u043f\u0440\u0435\u0449\u0435\u043d\u043d\u043e\u0435 \u0432 \u0420\u0424 \u0438 \u0431\u043e\u043b\u0435\u0435 \u0433\u043e\u0441\u0443\u0434\u0430\u0440\u0441\u0442\u0432\u0435\u043d\u043d\u043e-\u043f\u043e\u0434\u043a\u043e\u043d\u0442\u0440\u043e\u043b\u044c\u043d\u044b\u0445 <strong>RussiaToday<\/strong> \u0438 <strong>\u041a\u043e\u043c\u043c\u0435\u0440\u0441\u0430\u043d\u0442\u0430<\/strong>. \u041a\u0430\u043a \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0435 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u044b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438 \u0432 Python: <strong>requests, BeautifulSoup, Selenium<\/strong>. \u041d\u0435\u0441\u043c\u043e\u0442\u0440\u044f \u043d\u0430 \u0442\u043e, \u0447\u0442\u043e \u0441\u0435\u0439\u0447\u0430\u0441 \u0432\u043e \u043c\u043d\u043e\u0433\u043e\u043c \u043c\u043e\u0436\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0438\u0445 \u0431\u043e\u043b\u0435\u0435 \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0435 \u0430\u043d\u0430\u043b\u043e\u0433\u0438 \u043f\u043e \u0442\u0438\u043f\u0443 <strong>Playwrite<\/strong>, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043d\u0435\u043f\u043b\u043e\u0445\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0441 \u0438\u043c\u0438\u0442\u0430\u0446\u0438\u0435\u0439 \u043f\u043e\u0432\u0435\u0434\u0435\u043d\u0438\u044f \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f \u0432 \u0431\u0440\u0430\u0443\u0437\u0435\u0440\u0435, \u0434\u043b\u044f \u0443\u0434\u043e\u0431\u0441\u0442\u0432\u0430 \u043f\u043e\u043d\u0438\u043c\u0430\u043d\u0438\u044f \u043a\u043e\u0434\u0430 \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e\u043c \u0447\u0438\u0442\u0430\u0442\u0435\u043b\u0435\u0439 \u0441\u0434\u0435\u043b\u0430\u0435\u043c \u0443\u043f\u043e\u0440 \u043d\u0430 \u043a\u043b\u0430\u0441\u0441\u0438\u043a\u0443.<\/p>\n<p><em> *\u043f\u0440\u0438\u0437\u043d\u0430\u043d \u0438\u043d\u043e\u0430\u0433\u0435\u043d\u0442\u043e\u043c \u043d\u0430 \u0442\u0435\u0440\u0440\u0438\u0442\u043e\u0440\u0438\u0438 \u0420\u0424.<\/em><\/p>\n<p>\u0421\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u044b\u0439 \u043f\u0443\u0442\u044c \u0432\u044b\u0431\u043e\u0440\u0430 \u043c\u0435\u0442\u043e\u0434\u0430 \u0438 \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0445 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0434\u043b\u044f \u043f\u0430\u0440\u0441\u0438\u043d\u0433\u0430 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u043e\u0431\u043e\u0439 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u044d\u0442\u0430\u043f\u043e\u0432:<\/p>\n<ol>\n<li>\n<p><strong>\u0412\u043b\u0430\u0434\u0435\u043b\u0435\u0446 \u0441\u0430\u0439\u0442\u0430 \u043f\u0440\u0435\u0434\u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0439 API.<\/strong><\/p>\n<p> <strong>Application Programming Interface<\/strong> &#8212; \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u043d\u044b\u0439 \u0438\u043d\u0442\u0435\u0440\u0444\u0435\u0439\u0441, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u043f\u0435\u0440\u0435\u0434\u0430\u0432\u0430\u0442\u044c \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u043c\u0435\u0436\u0434\u0443 \u0434\u0432\u0443\u043c\u044f \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0430\u043c\u0438. \u0412 \u043d\u0430\u0448\u0435\u043c \u0441\u043b\u0443\u0447\u0430\u0435 \u043f\u0440\u043e\u0449\u0435 \u044d\u0442\u043e \u043e\u043f\u0438\u0441\u0430\u0442\u044c \u0442\u0430\u043a: \u043c\u044b \u0434\u0435\u043b\u0430\u0435\u043c \u0437\u0430\u043f\u0440\u043e\u0441 \u043d\u0430 API, \u0438 \u0432 \u044d\u0442\u043e\u043c \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0435 \u0432\u0430\u0448 \u043a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440 \u043e\u0431\u0440\u0430\u0449\u0430\u0435\u0442\u0441\u044f \u043a \u0441\u0430\u0439\u0442\u0443, \u0447\u0442\u043e\u0431\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0447\u0442\u043e\u0431\u044b \u043e\u0442\u043e\u0431\u0440\u0430\u0437\u0438\u0442\u044c \u043a\u0430\u0440\u0442\u0443 \u043d\u0430 \u0441\u0430\u0439\u0442\u0435, \u0441\u0432\u044f\u0437\u0430\u043d\u043d\u043e\u043c\u0443 \u0441 \u043d\u0435\u0434\u0432\u0438\u0436\u0438\u043c\u043e\u0441\u0442\u044c\u044e, \u0442\u0430\u043c \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0435\u043d API \u042f\u043d\u0434\u0435\u043a\u0441 \u041a\u0430\u0440\u0442. \u0412 \u044d\u0442\u043e\u043c \u0441 \u0441\u043b\u0443\u0447\u0430\u0435, \u043f\u0440\u043e\u0446\u0435\u0441\u0441 \u043f\u0430\u0440\u0441\u0438\u043d\u0433\u0430 \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u0441\u044f \u043a\u0440\u0430\u0439\u043d\u0435 \u043f\u0440\u043e\u0441\u0442\u044b\u043c \u0438 \u0441\u0432\u043e\u0434\u0438\u0442\u0441\u044f \u043a \u0437\u0430\u043f\u0440\u043e\u0441\u0443 \u0438 \u0432\u044b\u0431\u043e\u0440\u0443 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e\u0439 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438 \u0438\u0437 json-\u0444\u0430\u0439\u043b\u0430.<\/p>\n<\/li>\n<li>\n<p><strong>\u041e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u043e\u0433\u043e API \u043d\u0435\u0442. \u041d\u0443\u0436\u043d\u043e \u0438\u0441\u043a\u0430\u0442\u044c \u0441\u043a\u0440\u044b\u0442\u044b\u0439.<\/strong><\/p>\n<p> \u041d\u0435 \u0441\u0430\u043c\u044b\u0439 \u0442\u0440\u0438\u0432\u0438\u0430\u043b\u044c\u043d\u044b\u0439 \u0441\u043f\u043e\u0441\u043e\u0431, \u0442.\u043a. \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e \u0435\u0441\u043b\u0438 \u0432\u044b \u0442\u043e\u043b\u044c\u043a\u043e \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442\u0435 \u0441\u0432\u043e\u0439 \u043f\u0443\u0442\u044c \u0432 \u043f\u0430\u0440\u0441\u0438\u043d\u0433\u0435, \u0442\u043e \u0441\u043a\u043e\u0440\u0435\u0435 \u0432\u0441\u0435\u0433\u043e \u043f\u0440\u043e\u043f\u0443\u0441\u0442\u0438\u0442\u0435 \u0442\u0430\u043a\u0443\u044e \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u044c. \u041e\u043d \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043f\u043e \u0442\u0430\u043a\u043e\u043c\u0443 \u0436\u0435 \u043f\u0440\u0438\u043d\u0446\u0438\u043f\u0443, \u043a\u0430\u043a \u0438 \u043e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u0439, \u043d\u043e \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442\u0441\u044f \u0432 \u0431\u0435\u043a\u0435\u043d\u0434 \u0447\u0430\u0441\u0442\u0438 \u0441\u0430\u0439\u0442\u0430.<br \/> \u041d\u0430\u0439\u0442\u0438 \u0435\u0433\u043e \u043d\u0435 \u0442\u0430\u043a \u0441\u043b\u043e\u0436\u043d\u043e. \u041f\u0430\u0440\u0443 \u043a\u043b\u0438\u043a\u043e\u0432 \u0432 \u043f\u0430\u043d\u0435\u043b\u0438 \u0434\u043b\u044f \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u043e\u0432 (\u0432\u043a\u043b\u0430\u0434\u043a\u0430 <code>Network<\/code>) \u0438 \u0432\u043d\u0438\u043c\u0430\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u044c.<br \/> \u0414\u0430\u043b\u0435\u0435 \u043c\u044b \u0440\u0430\u0437\u0431\u0435\u0440\u0435\u043c \u043f\u0440\u043e\u0446\u0435\u0441\u0441 \u043f\u043e\u0438\u0441\u043a\u0430 \u043d\u0430 \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u043e\u043c \u043f\u0440\u0438\u043c\u0435\u0440\u0435.<\/p>\n<\/li>\n<li>\n<p><strong>BeautifulSoup: \u043f\u0430\u0440\u0441\u0438\u043c \u043e\u0431\u044b\u0447\u043d\u0443\u044e HTML-\u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0443.<\/strong><\/p>\n<p> \u0421\u0442\u0440\u0430\u043d\u0438\u0446\u044b \u043d\u0430\u0448\u0435\u0433\u043e \u0441\u0430\u0439\u0442\u0430 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u044e\u0442 \u0441\u043e\u0431\u043e\u0439 \u043d\u0435\u0434\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0441\u0430\u0439\u0442, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043c\u043e\u0436\u043d\u043e \u0440\u0430\u0437\u043e\u0431\u0440\u0430\u0442\u044c \u043f\u043e \u0447\u0430\u0441\u0442\u044f\u043c \u043a\u0430\u043a \u043a\u043e\u043d\u0441\u0442\u0440\u0443\u043a\u0442\u043e\u0440, \u0432\u044b\u0442\u0430\u0449\u0438\u0432 \u0438\u0437 \u043a\u043e\u0434\u0430 \u043d\u0443\u0436\u043d\u0443\u044e \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e. \u041e\u0442\u043f\u0440\u0430\u0432\u043b\u044f\u0435\u043c \u0437\u0430\u043f\u0440\u043e\u0441 \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e <code>requests<\/code> \u0438 \u043f\u0430\u0440\u0441\u0438\u043c \u043d\u0430\u0448 html. \u0411\u043e\u043b\u044c\u0448\u043e\u0439 \u043c\u0438\u043d\u0443\u0441 \u0437\u0430\u043a\u043b\u044e\u0447\u0430\u0435\u0442\u0441\u044f \u0432 \u0442\u043e\u043c, \u0447\u0442\u043e \u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0430 \u0441\u0430\u0439\u0442\u0430 \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0441\u0442\u0440\u043e \u043c\u0435\u043d\u044f\u0442\u044c\u0441\u044f: \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u044f \u043a\u043b\u0430\u0441\u0441\u043e\u0432 \u0438 css-\u0441\u0435\u043b\u0435\u043a\u0442\u043e\u0440\u043e\u0432, \u043f\u043e \u043a\u043e\u0442\u043e\u0440\u044b\u043c \u043c\u044b \u0432\u044b\u0431\u0438\u0440\u0430\u0435\u043c \u0443\u0441\u043b\u043e\u0432\u043d\u044b\u0439 \u0437\u0430\u0433\u043e\u043b\u043e\u0432\u043e\u043a, \u0434\u0430\u0442\u0443 \u0438 \u0442\u0434. \u041d\u043e \u044d\u0442\u043e \u043d\u0435 \u0441\u0430\u043c\u044b\u0439 \u0441\u043b\u043e\u0436\u043d\u044b\u0439 \u043f\u0443\u0442\u044c \u0440\u0430\u0437\u0432\u0438\u0442\u0438\u044f.<\/p>\n<\/li>\n<li>\n<p><strong>Selenium: \u0434\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0441\u0430\u0439\u0442 \u0441 JS-\u044d\u043b\u0435\u043c\u0435\u043d\u0442\u0430\u043c\u0438.<\/strong><\/p>\n<p> \u0412 \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e\u043c \u0438\u043d\u0442\u0435\u0440\u043d\u0435\u0442\u0435 \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e \u0441\u0430\u0439\u0442\u043e\u0432 \u0438\u043c\u0435\u043d\u043d\u043e \u0442\u0430\u043a\u0438\u0435. \u0421\u043e\u0434\u0435\u0440\u0436\u0438\u043c\u043e\u0435 \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u044b \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438 \u0441 JavaScript \u043a\u043e\u0434\u043e\u043c. \u041f\u0440\u0438 \u043e\u0442\u043f\u0440\u0430\u0432\u043a\u0438 \u0437\u0430\u043f\u0440\u043e\u0441\u0430 \u043d\u0430 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u0435 html \u043c\u044b \u0443\u0436\u0435 \u0441\u0442\u0430\u043b\u043a\u0438\u0432\u0430\u0435\u043c\u0441\u044f \u0441 \u0442\u0435\u043c, \u0447\u0442\u043e \u0437\u0430\u0449\u0438\u0442\u0430 \u0441\u0430\u0439\u0442\u0430 \u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0435\u0442 \u0440\u043e\u0431\u043e\u0442\u0430 \u0438 \u043d\u0435 \u043f\u043e\u0434\u0433\u0440\u0443\u0436\u0430\u0435\u0442 \u043d\u0430\u043c \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0443. \u0412 \u044d\u0442\u043e\u043c \u0441\u043b\u0443\u0447\u0430\u0435, \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0438\u043c\u0438\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043f\u043e\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f, \u0438 \u0441\u0430\u043c\u0430\u044f \u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430, \u043f\u043e\u043c\u043e\u0433\u0430\u044e\u0449\u0430\u044f \u044d\u0442\u043e \u0440\u0435\u0430\u043b\u0438\u0437\u043e\u0432\u0430\u0442\u044c &#8212; Selenium. \u041f\u0440\u0438 \u043f\u043e\u043c\u043e\u0449\u0438 Chrome-\u0434\u0440\u0430\u0439\u0432\u0435\u0440\u0430 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430 \u043f\u043e\u0434\u0433\u0440\u0443\u0436\u0430\u0435\u0442 \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0443 \u0441\u0430\u0439\u0442\u0430 \u0438 \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0445 \u043e\u043f\u0446\u0438\u0439 \u043f\u043e \u0443\u0441\u0442\u0440\u0430\u043d\u0435\u043d\u0438\u044e \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u0438 \u0431\u044b\u0442\u044c \u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u043d\u043d\u044b\u043c \u0441\u0430\u0439\u0442\u043e\u043c \u043a\u0430\u043a \u0440\u043e\u0431\u043e\u0442 \u0432 \u0438\u0442\u043e\u0433\u0435 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c html \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0443, \u043a\u043e\u0442\u043e\u0440\u0443\u044e \u0434\u0430\u043b\u0435\u0435 \u043f\u0430\u0440\u0441\u0438\u043c \u0441 BeautifulSoup.<\/p>\n<\/li>\n<\/ol>\n<hr\/>\n<p>\u041d\u0430\u0447\u043d\u0435\u043c \u0441 \u043a\u0435\u0439\u0441\u0430 \u041c\u0435\u0434\u0443\u0437\u044b*.<\/p>\n<p>\u041c\u0435\u0434\u0443\u0437\u0430* \u043d\u0435\u00a0\u043f\u0440\u0435\u0434\u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u043e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u0439 API, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u043c \u043f\u043e\u0438\u0441\u043a \u0441\u043a\u0440\u044b\u0442\u043e\u0433\u043e.<br \/>\u0417\u0430\u0445\u043e\u0434\u0438\u043c \u043d\u0430\u00a0\u0441\u0430\u0439\u0442 \u0438 \u0432\u0431\u0438\u0432\u0430\u0435\u043c \u0432\u00a0\u043f\u043e\u0438\u0441\u043a \u043a\u043b\u044e\u0447\u0435\u0432\u044b\u0435 \u0441\u043b\u043e\u0432\u0430 \u043d\u0443\u0436\u043d\u044b\u0445 \u0441\u0442\u0430\u0442\u0435\u0439. \u0422\u0440\u0430\u0434\u0438\u0446\u0438\u043e\u043d\u043d\u043e \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u043c \u0438\u0441\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u043d\u0438\u0435 \u0441\u00a0\u043a\u043b\u0438\u043a\u0430 \u043b\u0435\u0432\u043e\u0439 \u043a\u043d\u043e\u043f\u043a\u0438 \u043c\u044b\u0448\u0438 \u0438 \u043d\u0430\u0436\u0430\u0442\u0438\u044e \u043d\u0430 <code>'inspect'<\/code>. \u041f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0438\u0441\u0445\u043e\u0434\u043d\u044b\u0439 \u043a\u043e\u0434 HTML\u2011\u0441\u0442\u0440\u0430\u043d\u0438\u0446\u044b.<\/p>\n<figure class=\"full-width\"><\/figure>\n<p>\u0412 \u0432\u0435\u0440\u0445\u043d\u0435\u0439 \u043f\u0430\u043d\u0435\u043b\u0438 \u0438\u0449\u0435\u043c \u0432\u043a\u043b\u0430\u0434\u043a\u0443 <code>Network<\/code> , \u0437\u0434\u0435\u0441\u044c \u043e\u0442\u043a\u0440\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u0432\u0435\u0441\u044c \u0431\u0435\u043a\u0435\u043d\u0434 \u0441\u0430\u0439\u0442\u0430 \u0438 \u0435\u0433\u043e \u043c\u0435\u0445\u0430\u043d\u0438\u0437\u043c \u0440\u0430\u0431\u043e\u0442\u044b.<\/p>\n<figure class=\"full-width\"><\/figure>\n<p>\u0422\u0435\u043f\u0435\u0440\u044c \u043d\u0430\u043c \u0434\u043e\u0441\u0442\u0443\u043f\u0435\u043d \u0441\u043f\u0438\u0441\u043e\u043a \u0437\u0430\u043f\u0440\u043e\u0441\u043e\u0432 \u043a \u0441\u0430\u0439\u0442\u0443 (\u043a\u043e\u043b\u043e\u043d\u043a\u0430 \u043f\u043e\u0434 Name), \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043e\u0431\u044f\u0437\u0430\u0442\u0435\u043b\u044c\u043d\u043e \u0432\u044b\u043f\u043e\u043b\u043d\u044f\u044e\u0442\u0441\u044f \u043f\u0440\u0438 \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0438 \u0441\u0430\u0439\u0442\u0430. \u0421\u0440\u0435\u0434\u0438 \u043d\u0438\u0445 \u043f\u043e \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u044e \u043c\u043e\u0436\u043d\u043e \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u043f\u043e\u043d\u044f\u0442\u044c, \u0447\u0442\u043e \u043e\u043d \u0434\u0435\u043b\u0430\u0435\u0442 \u0438 \u043d\u0430\u0439\u0442\u0438 \u043d\u0443\u0436\u043d\u044b\u0439 \u043d\u0430\u043c API \u0437\u0430\u043f\u0440\u043e\u0441. \u041e\u0431\u044b\u0447\u043d\u043e \u044d\u0442\u043e \u0447\u0442\u043e-\u0442\u043e \u0442\u0438\u043f\u043e <code>search,<\/code> <code>news<\/code> \u0441 \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u043c\u044b\u043c json \u0444\u0430\u0439\u043b\u043e\u043c \u0432 response.<\/p>\n<figure class=\"full-width\"><\/figure>\n<p>\u0412\u043d\u0438\u043c\u0430\u0442\u0435\u043b\u044c\u043d\u043e \u043f\u043e\u0438\u0449\u0435\u043c \u0436\u0435\u043b\u0430\u043d\u043d\u044b\u0439, \u0441\u043a\u0440\u044b\u0442\u044b\u0439 API, \u043d\u0430\u0445\u043e\u0434\u0438\u043c get-\u0437\u0430\u043f\u0440\u043e\u0441 <code>new_search,<\/code>\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b \u0438 response,  \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043e\u043d \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442. \u0412 \u043d\u0435\u043c \u0432\u0438\u0434\u0438\u043c json-\u043e\u0442\u0432\u0435\u0442, \u044d\u0442\u043e \u0442\u043e, \u0447\u0442\u043e \u043d\u0430\u043c \u043d\u0443\u0436\u043d\u043e.<\/p>\n<p>\u0421\u043e\u0437\u0434\u0430\u0435\u043c \u043a\u043b\u0430\u0441\u0441 <code>MeduzaParser<\/code> \u0432 Python, \u043e\u043d \u0431\u0443\u0434\u0435\u0442 \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0442\u044c \u0432\u0441\u0435 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u044b\u0435 \u043c\u0435\u0442\u043e\u0434\u044b \u0434\u043b\u044f \u043f\u0430\u0440\u0441\u0438\u043d\u0433\u0430 \u043d\u043e\u0432\u043e\u0441\u0442\u0435\u0439.<\/p>\n<p>\u0418\u043d\u0438\u0446\u0438\u0430\u043b\u0438\u0437\u0438\u0440\u0443\u0435\u043c \u043d\u0430\u0448\u0438 \u0430\u0440\u0433\u0443\u043c\u0435\u043d\u0442\u044b \u0432 \u043c\u0435\u0442\u043e\u0434\u0435 <code><strong>init<\/strong><\/code>.<\/p>\n<pre><code class=\"python\">class MeduzaParser:     def __init__(self, phrase_search: str):         self.phrase_search = phrase_search         self.headers = {'User-Agent': random.choice(user_agents)}         self.api = 'https:\/\/meduza.io\/api\/w5\/new_search'         self.proxies = {                     'http': proxy,                     'https': proxy,         }         self.request_body = {'term': self.phrase_search,                              'per_page': 15,                              'locale': 'ru'} <\/code><\/pre>\n<p>\u0412 <code>self.headers<\/code>  \u0434\u043b\u044f \u0443\u043c\u0435\u043d\u044c\u0448\u0435\u043d\u0438\u044f \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u0438 \u0431\u044b\u0442\u044c \u0437\u0430\u0431\u043b\u043e\u043a\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u043c \u0441\u043f\u0443\u0441\u0442\u044f \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0437\u0430\u043f\u0440\u043e\u0441\u043e\u0432 \u043f\u0440\u043e\u043f\u0438\u0441\u044b\u0432\u0430\u0435\u043c  <code>User-Agent<\/code>, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043f\u043e\u043c\u043e\u0436\u0435\u0442 \u043c\u0430\u0441\u043a\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0435 \u043d\u0430\u0448\u0435\u0433\u043e \u0431\u0440\u0430\u0443\u0437\u0435\u0440\u0430 \u043f\u0440\u0438 \u043e\u0442\u043f\u0440\u0430\u0432\u043a\u0438 \u0437\u0430\u043f\u0440\u043e\u0441\u0430. \u041f\u0440\u0435\u0434\u0432\u0430\u0440\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0437\u0430\u0433\u0440\u0443\u0436\u0430\u0435\u043c \u0441\u043f\u0438\u0441\u043e\u043a \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u044b\u0445 \u044e\u0437\u0435\u0440-\u0430\u0433\u0435\u043d\u0442\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043c\u043e\u0436\u043d\u043e \u043d\u0430\u0439\u0442\u0438 \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u0432 <a href=\"https:\/\/gist.github.com\/pzb\/b4b6f57144aea7827ae4\" rel=\"noopener noreferrer nofollow\">\u044d\u0442\u043e\u043c \u0440\u0435\u043f\u043e\u0437\u0438\u0442\u043e\u0440\u0438\u0438<\/a>. \u0418\u0437 \u043d\u0438\u0445 \u0440\u0430\u043d\u0434\u043e\u043c\u043d\u043e \u0432\u044b\u0431\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u043e\u0434\u0438\u043d \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u044b\u0439, \u0438 \u0442\u0430\u043a \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0437\u0430\u043f\u0440\u043e\u0441\u0430.  \u0412 <code>self.request_body<\/code> \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u0435\u043c \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b \u0437\u0430\u043f\u0440\u043e\u0441\u0430: \u043a\u043b\u044e\u0447\u0435\u0432\u0430\u044f \u0444\u0440\u0430\u0437\u0430\/\u0441\u043b\u043e\u0432\u043e \u043f\u043e \u043a\u043e\u0442\u043e\u0440\u043e\u043c\u0443 \u0431\u0443\u0434\u0435\u043c \u0438\u0441\u043a\u0430\u0442\u044c, \u0447\u0438\u0441\u043b\u043e \u0441\u0442\u0430\u0442\u0435\u0439 \u043f\u0440\u0438 \u043e\u0434\u043d\u043e\u043c \u0437\u0430\u043f\u0440\u043e\u0441\u0435 \u0438 \u044f\u0437\u044b\u043a.<\/p>\n<p>\u041c\u0435\u0434\u0443\u0437\u0430 \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0437\u0430\u043f\u0440\u0435\u0449\u0435\u043d\u043d\u043e\u0439 \u0432 \u0420\u043e\u0441\u0441\u0438\u0438 \u043e\u0440\u0433\u0430\u043d\u0438\u0437\u0430\u0446\u0438\u0435\u0439, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0434\u043b\u044f \u043e\u0442\u043f\u0440\u0430\u0432\u043a\u0438 \u0437\u0430\u043f\u0440\u043e\u0441\u0430 \u043d\u0435\u043c\u0430\u043b\u043e\u0432\u0430\u0436\u043d\u044b\u043c \u0430\u0441\u043f\u0435\u043a\u0442\u043e\u043c \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u043f\u0440\u043e\u043a\u0441\u0438-\u0441\u0435\u0440\u0432\u0435\u0440\u0430. \u0421 \u0440\u043e\u0441\u0441\u0438\u0439\u0441\u043a\u043e\u0433\u043e API-\u0430\u0434\u0440\u0435\u0441\u0430 \u0432\u044b \u043d\u0435 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u0435 \u043e\u0442\u0432\u0435\u0442 \u043f\u043e\u0441\u043b\u0435 \u043e\u0442\u043f\u0440\u0430\u0432\u043a\u0438 \u0437\u0430\u043f\u0440\u043e\u0441\u0430. \u041e\u043f\u0442\u0438\u043c\u0430\u043b\u044c\u043d\u044b\u0439 \u0432\u0430\u0440\u0438\u0430\u043d\u0442 &#8212; \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u0438\u0435 \u043f\u0443\u043b\u0430 \u043f\u0440\u043e\u043a\u0441\u0438-\u0441\u0435\u0440\u0432\u0435\u0440\u043e\u0432 \u0441 \u0438\u0445 \u0434\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u0441\u043c\u0435\u043d\u043e\u0439, \u0447\u0442\u043e\u0431\u044b \u0441\u043d\u0438\u0437\u0438\u0442\u044c \u0440\u0438\u0441\u043a \u0431\u043b\u043e\u043a\u0438\u0440\u043e\u0432\u043a\u0438.<\/p>\n<p>\u0414\u0430\u043b\u0435\u0435 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0434\u043e\u0431\u0430\u0432\u0438\u0442\u044c \u043c\u0435\u0442\u043e\u0434 \u0434\u043b\u044f \u043e\u0442\u043f\u0440\u0430\u0432\u043a\u0438 \u0437\u0430\u043f\u0440\u043e\u0441\u0430 \u043d\u0430 API \u0447\u0435\u0440\u0435\u0437 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443 requests. \u0422\u0430\u043a \u043a\u0430\u043a \u043c\u0430\u043a\u0441\u0438\u043c\u0430\u043b\u044c\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0441\u0442\u0430\u0442\u0435\u0439 \u0432 \u0437\u0430\u043f\u0440\u043e\u0441\u0435 &#8212; 15, \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u0430 \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u044f \u043f\u043e \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0430\u043c, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u043d\u0430 \u0432\u0445\u043e\u0434 \u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0435\u043c \u0430\u0440\u0433\u0443\u043c\u0435\u043d\u0442 <code>page<\/code>.<br \/> \u0421 \u0431\u043b\u043e\u043a\u043e\u043c <code>try - except<\/code> \u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u043c \u043f\u044f\u0442\u044c \u043f\u043e\u043f\u044b\u0442\u043e\u043a \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u043e\u0442\u0432\u0435\u0442 \u0432 \u0432\u0438\u0434\u0435 <code>json<\/code> \u043e\u0431\u044a\u0435\u043a\u0442\u0430 c \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u043c\u0438 \u043a\u043b\u044e\u0447\u0430\u043c\u0438 <code>_count<\/code> &#8212; \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0441\u0442\u0430\u0442\u0435\u0439 \u0432 \u0437\u0430\u043f\u0440\u043e\u0441\u0435, <code>collection<\/code> &#8212; \u0441\u0441\u044b\u043b\u043a\u0438 \u043d\u0430 \u0432\u0441\u0435 \u0441\u0442\u0430\u0442\u044c\u0438 \u0438 <code>documents<\/code> &#8212; \u043c\u0435\u0442\u0430\u0434\u0430\u043d\u043d\u044b\u0435 \u043f\u043e \u0441\u0442\u0430\u0442\u044c\u044f\u043c.<\/p>\n<pre><code class=\"python\">def send_request(self, page: int) -&gt; Optional[tuple]:     '''Get the json response from the Meduza     hidden API.     '''     params = {         **self.request_body,         'page': page     }     for attempt in range(5):         try:             response = requests.get(self.api, params=params,                                      proxies=self.proxies, headers=self.headers,                                      verify=False).json()             print('Got a response')             return response['documents'], response['_count']                      except Exception as e:             print(f\"Can't get a response for api request - {e}\")             continue                  return None <\/code><\/pre>\n<p>\u041a\u0430\u043a \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u043c\u044b\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u043c\u0435\u0442\u043e\u0434\u0430 \u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u043c \u043c\u0435\u0442\u0430\u0434\u0430\u043d\u043d\u044b\u0435 \u0438 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0441\u0442\u0430\u0442\u0435\u0439.<br \/> Documents \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u043e\u0447\u0435\u043d\u044c \u043f\u043e\u0434\u0440\u043e\u0431\u043d\u0443\u044e \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u043e \u0441\u0442\u0430\u0442\u044c\u044f\u0445, \u0435\u0441\u043b\u0438 \u0432 \u0441\u0442\u0430\u0442\u044c\u0435 \u0435\u0441\u0442\u044c \u0430\u0443\u0434\u0438\u043e, \u043a\u0430\u0440\u0442\u0438\u043d\u043a\u0438, \u0442\u043e \u044d\u0442\u043e \u0432\u0441\u0435 \u043c\u043e\u0436\u043d\u043e \u043d\u0430\u0439\u0442\u0438 \u0432 \u043e\u0442\u0432\u0435\u0442\u0435, \u0432\u043e\u0442 \u0442\u0430\u043a \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u043e\u0447\u0435\u043d\u044c \u0441\u043a\u0440\u043e\u043c\u043d\u044b\u0439 \u043e\u0442\u0432\u0435\u0442:<\/p>\n<pre><code class=\"json\">{'datetime': 1730966709,  'layout': 'simple',  'mobile_layout': 'simple',  'source': {'trust': 0},  'title': '\u0417\u0435\u043b\u0435\u043d\u0441\u043a\u0438\u0439 \u0440\u0430\u0441\u0441\u043a\u0430\u0437\u0430\u043b, \u0447\u0442\u043e \u0441\u043e\u0437\u0432\u043e\u043d\u0438\u043b\u0441\u044f \u0441\\xa0\u0422\u0440\u0430\u043c\u043f\u043e\u043c',  'url': 'news\/2024\/11\/07\/zelenskiy-rasskazal-chto-sozvonilsya-s-trampom',  'version': 3} <\/code><\/pre>\n<p>\u0418 \u0442\u0430\u043a \u043e\u0442\u0432\u0435\u0442, \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0449\u0438\u0439 \u043c\u0435\u0442\u0430\u0434\u0430\u043d\u043d\u044b\u0435 \u043e \u0432\u0441\u0435\u0445 \u0444\u0430\u0439\u043b\u0430\u0445 \u0432 \u0441\u0442\u0430\u0442\u044c\u0435:<\/p>\n<details class=\"spoiler\">\n<summary>\u0421\u043a\u0440\u044b\u0442\u044b\u0439 \u0442\u0435\u043a\u0441\u0442<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"json\">{'datetime': 1730712566,  'image': {'base_urls': {'elarge_url': '\/image\/attachments\/images\/010\/580\/173\/elarge\/jErsR06_OK513LOROdBzmA.jpg',                          'is1to2': '\/image\/attachment_overrides\/images\/010\/580\/173\/ov\/ujms6916u68Ql64Av-qOgQ.jpg',                          'is1to3': '\/image\/attachments\/images\/010\/580\/173\/wh_810_540\/jErsR06_OK513LOROdBzmA.jpg',                          'is1to4': '\/image\/attachments\/images\/010\/580\/173\/wh_810_540\/jErsR06_OK513LOROdBzmA.jpg',                          'isMobile': '\/impro\/yMxV8ai5e8gtkOeFaQl8_Oo16DkSTO50yiB9sBoO2_Y\/resizing_type:fit\/width:782\/height:0\/enlarge:1\/quality:80\/aHR0cHM6Ly9tZWR1\/emEuaW8vaW1hZ2Uv\/YXR0YWNobWVudHMv\/aW1hZ2VzLzAxMC81\/ODAvMTczL2xhcmdl\/L2pFcnNSMDZfT0s1\/MTNMT1JPZEJ6bUEu\/anBn.jpg',                          'wh_300_200_url': '\/image\/attachments\/images\/010\/580\/173\/wh_300_200\/jErsR06_OK513LOROdBzmA.jpg',                          'wh_405_270_url': '\/image\/attachments\/images\/010\/580\/173\/wh_405_270\/jErsR06_OK513LOROdBzmA.jpg'},            'cc': 'default',            'credit': 'Chip Somodevilla \/ Getty Images',            'display': 'default',            'elarge_url': '\/image\/attachments\/images\/010\/580\/173\/elarge\/jErsR06_OK513LOROdBzmA.jpg',            'gradients': {'bg_rgb': '0,0,0', 'text_rgb': '255,255,255'},            'height': 890,            'is1to1': '\/image\/attachment_overrides\/images\/010\/580\/173\/ov\/eYU01BuHD8uQXl7fyONPRA.jpg',            'is1to2': '\/image\/attachment_overrides\/images\/010\/580\/173\/ov\/ujms6916u68Ql64Av-qOgQ.jpg',            'is1to3': '\/image\/attachments\/images\/010\/580\/173\/wh_810_540\/jErsR06_OK513LOROdBzmA.jpg',            'is1to4': '\/image\/attachments\/images\/010\/580\/173\/wh_810_540\/jErsR06_OK513LOROdBzmA.jpg',            'isMobile': '\/impro\/yMxV8ai5e8gtkOeFaQl8_Oo16DkSTO50yiB9sBoO2_Y\/resizing_type:fit\/width:782\/height:0\/enlarge:1\/quality:80\/aHR0cHM6Ly9tZWR1\/emEuaW8vaW1hZ2Uv\/YXR0YWNobWVudHMv\/aW1hZ2VzLzAxMC81\/ODAvMTczL2xhcmdl\/L2pFcnNSMDZfT0s1\/MTNMT1JPZEJ6bUEu\/anBn.jpg',            'mobile_ratio': 1.5,            'optimised_urls': {'elarge_url': '\/impro\/CGnSJrpx94CGYSVB0j-fJs9sWbbgasIZu8vWxkuXQ9g\/resizing_type:fit\/width:0\/height:0\/enlarge:1\/quality:80\/aHR0cHM6Ly9tZWR1\/emEuaW8vaW1hZ2Uv\/YXR0YWNobWVudHMv\/aW1hZ2VzLzAxMC81\/ODAvMTczL2VsYXJn\/ZS9qRXJzUjA2X09L\/NTEzTE9ST2RCem1B\/LmpwZw.webp',                               'is1to2': '\/impro\/JRRhxXheqdVXhOGWMqCUjaTnN38eRZktbG3PWBzbrHo\/resizing_type:fit\/width:0\/height:0\/enlarge:1\/quality:80\/aHR0cHM6Ly9tZWR1\/emEuaW8vaW1hZ2Uv\/YXR0YWNobWVudF9v\/dmVycmlkZXMvaW1h\/Z2VzLzAxMC81ODAv\/MTczL292L3VqbXM2\/OTE2dTY4UWw2NEF2\/LXFPZ1EuanBn.webp',                               'is1to3':<\/code><\/pre>\n<\/div>\n<\/details>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-468278","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/468278","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=468278"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/468278\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=468278"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=468278"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=468278"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}