{"id":475967,"date":"2026-04-14T20:03:23","date_gmt":"2026-04-14T20:03:23","guid":{"rendered":"https:\/\/savepearlharbor.com\/?p=475967"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=475967","title":{"rendered":"\u041a\u0430\u043a\u00a0\u0440\u0435\u0448\u0430\u0442\u044c \u0437\u0430\u0434\u0430\u0447\u0443 NER \u043d\u0430\u00a0\u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435"},"content":{"rendered":"<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u0412\u0441\u0435\u043c \u043f\u0440\u0438\u0432\u0435\u0442! \u041c\u0435\u043d\u044f \u0437\u043e\u0432\u0443\u0442 \u041c\u0430\u043a\u0441\u0438\u043c. \u042f NLP\u2011\u0438\u043d\u0436\u0435\u043d\u0435\u0440 \u0432\u00a0red_mad_robot \u0438 \u0430\u0432\u0442\u043e\u0440 <a href=\"https:\/\/t.me\/+TLnsXnf2dTE4ZDFi\" rel=\"noopener noreferrer nofollow\">Telegram\u2011\u043a\u0430\u043d\u0430\u043b\u0430 \u041c\u0430\u043a\u0441\u0438\u043c \u041c\u0430\u043a\u0441\u0438\u043c\u043e\u0432 \/\/ IT, AI<\/a>. \u0421\u0435\u0433\u043e\u0434\u043d\u044f \u044f \u0440\u0430\u0441\u0441\u043a\u0430\u0436\u0443 \u043e\u00a0\u0442\u043e\u043c, \u043a\u0430\u043a\u00a0\u0440\u0435\u0448\u0430\u0442\u044c \u0437\u0430\u0434\u0430\u0447\u0443 NER \u043d\u0430\u00a0\u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435. \u0422\u0435\u043e\u0440\u0438\u0438 \u0431\u0443\u0434\u0435\u0442 \u043f\u043e\u00a0\u043c\u0438\u043d\u0438\u043c\u0443\u043c\u0443\u00a0\u2014 \u0432\u043c\u0435\u0441\u0442\u043e \u043d\u0435\u0451 \u0440\u0430\u0437\u0431\u0435\u0440\u0451\u043c\u0441\u044f, \u043a\u0430\u043a\u00a0\u0440\u0435\u0448\u0430\u0442\u044c \u0437\u0430\u0434\u0430\u0447\u0443 \u0440\u0443\u043a\u0430\u043c\u0438: \u043f\u043e\u0434\u0445\u043e\u0434\u044b, \u0440\u0435\u0441\u0443\u0440\u0441\u044b, \u043a\u043e\u0434 \u043d\u0430\u00a0Python. <\/p>\n<p>\u0421\u0435\u0433\u043e\u0434\u043d\u044f \u0432 \u043c\u0435\u043d\u044e:<\/p>\n<ul>\n<li>\n<p><a href=\"#1\" rel=\"noopener noreferrer nofollow\">\u0427\u0442\u043e \u0442\u0430\u043a\u043e\u0435 NER<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"#2\" rel=\"noopener noreferrer nofollow\">\u041f\u043e\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u0446\u0435\u043b\u0435\u0439 \u0438 \u0437\u0430\u0434\u0430\u0447<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"#3\" rel=\"noopener noreferrer nofollow\">\u0420\u0430\u0431\u043e\u0442\u0430 \u0441\u00a0\u0434\u0430\u043d\u043d\u044b\u043c\u0438<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"#4\" rel=\"noopener noreferrer nofollow\">\u041c\u043e\u0434\u0435\u043b\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"#5\" rel=\"noopener noreferrer nofollow\">\u0421\u043e\u0437\u0434\u0430\u043d\u0438\u0435 \u0441\u0435\u0440\u0432\u0438\u0441\u0430 \u043d\u0430\u00a0\u043e\u0441\u043d\u043e\u0432\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 <\/a><\/p>\n<\/li>\n<\/ul>\n<p>\u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u043d\u0430\u0447\u0438\u043d\u0430\u0442\u044c!<\/p>\n<p><a class=\"anchor\" name=\"1\" id=\"1\"><\/a><\/p>\n<h2>\u0427\u0442\u043e\u00a0\u0442\u0430\u043a\u043e\u0435 NER <\/h2>\n<p>\u041d\u0430\u0447\u043d\u0435\u043c \u0441\u00a0\u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u044f.\u00a0<\/p>\n<p>Named Entity Recognition (NER)\u00a0\u2014 \u0437\u0430\u0434\u0430\u0447\u0430 \u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u043d\u0438\u044f \u0438\u043c\u0435\u043d\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0435\u0439. \u042d\u0442\u043e \u0437\u0430\u0434\u0430\u0447\u0430 \u0438\u0437\u00a0\u043e\u0431\u043b\u0430\u0441\u0442\u0438 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 \u0435\u0441\u0442\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430 (NLP), \u0441\u0443\u0442\u044c \u043a\u043e\u0442\u043e\u0440\u043e\u0439\u00a0\u2014 \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u044c \u0438 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u0446\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0438\u043c\u0435\u043d\u043e\u0432\u0430\u043d\u043d\u044b\u0435 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438 \u0432\u00a0\u0442\u0435\u043a\u0441\u0442\u0435. \u041f\u0440\u0438\u043c\u0435\u0440\u0430\u043c\u0438 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0435\u0439 \u043c\u043e\u0433\u0443\u0442\u00a0\u0431\u044b\u0442\u044c: \u043b\u043e\u043a\u0430\u0446\u0438\u0438, \u0424\u0418\u041e \u0447\u0435\u043b\u043e\u0432\u0435\u043a\u0430, \u0434\u0430\u0442\u044b, \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0435 \u043f\u0435\u0440\u0441\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 (\u0418\u041d\u041d, \u043f\u0430\u0441\u043f\u043e\u0440\u0442,&#8230;).\u00a0<\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/8ed\/191\/8ca\/8ed1918ca16a758a6db664da533b86bc.png\" alt=\"\u0417\u0430\u0434\u0430\u0447\u0430 NER\" title=\"\u0417\u0430\u0434\u0430\u0447\u0430 NER\" width=\"1107\" height=\"612\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/8ed\/191\/8ca\/8ed1918ca16a758a6db664da533b86bc.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/8ed\/191\/8ca\/8ed1918ca16a758a6db664da533b86bc.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0417\u0430\u0434\u0430\u0447\u0430 NER<\/figcaption><\/div>\n<\/figure>\n<p>\u042d\u0442\u0430 NLP\u2011\u0437\u0430\u0434\u0430\u0447\u0430 \u0438\u043c\u0435\u0435\u0442 \u043c\u043d\u043e\u0436\u0435\u0441\u0442\u0432\u043e \u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u043f\u0440\u0438\u043c\u0435\u043d\u0435\u043d\u0438\u0439. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440: <\/p>\n<ul>\n<li>\n<p>\u041e\u0431\u043d\u0430\u0440\u0443\u0436\u0435\u043d\u0438\u0435 \u043f\u0435\u0440\u0441\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445 \u0432\u00a0\u0442\u0435\u043a\u0441\u0442\u0435 (\u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u0441\u043a\u0440\u044b\u0442\u0438\u0435 \u0438\u043c\u0451\u043d \u0438 \u0430\u0434\u0440\u0435\u0441\u043e\u0432 \u0432\u00a0\u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0445 \u043f\u0435\u0440\u0435\u0434 \u0438\u0445 \u043f\u0443\u0431\u043b\u0438\u043a\u0430\u0446\u0438\u0435\u0439 (\u043e\u0431\u0435\u0437\u043b\u0438\u0447\u0438\u0432\u0430\u043d\u0438\u0435 \u043f\u043e 152-\u0424\u0417));<\/p>\n<\/li>\n<\/ul>\n<ul>\n<li>\n<p>\u041f\u043e\u0438\u0441\u043a \u043a\u043b\u044e\u0447\u0435\u0432\u044b\u0445 \u043d\u0430\u0432\u044b\u043a\u043e\u0432 \u0432\u00a0\u0440\u0435\u0437\u044e\u043c\u0435, \u043f\u043e\u00a0\u043a\u043e\u0442\u043e\u0440\u044b\u043c \u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u043f\u043e\u0439\u043c\u0451\u0442, \u043f\u043e\u0434\u0445\u043e\u0434\u0438\u0442\u0435\u00a0\u043b\u0438 \u0432\u044b \u043f\u043e\u0434\u00a0\u0432\u0430\u043a\u0430\u043d\u0441\u0438\u044e;<\/p>\n<\/li>\n<li>\n<p>\u0418\u0437\u0432\u043b\u0435\u0447\u0435\u043d\u0438\u0435 \u043d\u043e\u043c\u0435\u0440\u0430 \u0437\u0430\u043a\u0430\u0437\u0430 \u0438 \u0433\u043e\u0440\u043e\u0434\u0430 \u0434\u043e\u0441\u0442\u0430\u0432\u043a\u0438 \u0432\u00a0\u0447\u0430\u0442\u2011\u0431\u043e\u0442\u0430\u0445 \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u043a\u0438 \u0434\u043b\u044f\u00a0\u0431\u044b\u0441\u0442\u0440\u043e\u0439 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 \u043e\u0431\u0440\u0430\u0449\u0435\u043d\u0438\u0439;<\/p>\n<\/li>\n<\/ul>\n<p>\u041e\u0442\u043b\u0438\u0447\u043d\u043e, \u043c\u044b \u0441\u00a0\u0432\u0430\u043c\u0438 \u043a\u0440\u0430\u0442\u043a\u043e \u0440\u0430\u0437\u043e\u0431\u0440\u0430\u043b\u0438\u0441\u044c, \u0447\u0442\u043e\u00a0\u0442\u0430\u043a\u043e\u0435 NER \u0438 \u0441\u00a0\u0447\u0435\u043c \u0435\u0433\u043e \u0435\u0434\u044f\u0442. \u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u0442\u0435\u043f\u0435\u0440\u044c \u043d\u0430\u00a0\u0440\u0435\u0430\u043b\u044c\u043d\u043e\u043c \u043f\u0440\u0438\u043c\u0435\u0440\u0435 \u043f\u0440\u043e\u0439\u0434\u0451\u043c \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0435 \u044d\u0442\u0430\u043f\u044b \u0440\u0435\u0448\u0435\u043d\u0438\u044f \u044d\u0442\u043e\u0439 \u0437\u0430\u0434\u0430\u0447\u0438. <\/p>\n<p><a class=\"anchor\" name=\"2\" id=\"2\"><\/a><\/p>\n<h2>\u041f\u043e\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u0446\u0435\u043b\u0435\u0439 \u0438 \u0437\u0430\u0434\u0430\u0447<\/h2>\n<p>\u041f\u0440\u0435\u0436\u0434\u0435 \u0447\u0435\u043c \u0432\u043e\u0440\u043e\u0448\u0438\u0442\u044c \u0434\u0430\u043d\u043d\u044b\u0435 \u0438 \u043f\u0438\u0441\u0430\u0442\u044c \u043a\u043e\u0434, \u0441\u0442\u043e\u0438\u0442 \u0440\u0430\u0437\u043e\u0431\u0440\u0430\u0442\u044c\u0441\u044f \u0432\u00a0\u0437\u0430\u0434\u0430\u0447\u0435: \u043f\u043e\u043d\u044f\u0442\u044c \u0434\u043e\u043c\u0435\u043d, \u0444\u043e\u0440\u043c\u0430\u0442 \u0434\u0430\u043d\u043d\u044b\u0445 \u0438 \u043e\u0436\u0438\u0434\u0430\u043d\u0438\u044f \u0437\u0430\u043a\u0430\u0437\u0447\u0438\u043a\u0430. \u042d\u0442\u043e \u0441\u044d\u043a\u043e\u043d\u043e\u043c\u0438\u0442 \u0432\u0440\u0435\u043c\u044f \u043d\u0430\u00a0\u0432\u0441\u0435\u0445 \u043f\u043e\u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0445 \u044d\u0442\u0430\u043f\u0430\u0445. <\/p>\n<p><em>\u041f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u0438\u043c: \u043a\u00a0\u043d\u0430\u043c \u043f\u0440\u0438\u0448\u0451\u043b \u043a\u043b\u0438\u0435\u043d\u0442 \u0441\u00a0\u043f\u0440\u043e\u0441\u044c\u0431\u043e\u0439 \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u043c\u043e\u0434\u0443\u043b\u044c \u0434\u043b\u044f\u00a0HR\u2011\u0441\u0438\u0441\u0442\u0435\u043c\u044b, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043f\u043e\u043c\u043e\u0436\u0435\u0442 \u0440\u0435\u043a\u0440\u0443\u0442\u0435\u0440\u0430\u043c \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u044c \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0440\u0435\u043b\u0435\u0432\u0430\u043d\u0442\u043d\u044b\u0445 \u043a\u0430\u043d\u0434\u0438\u0434\u0430\u0442\u043e\u0432 \u043f\u043e\u00a0\u0432\u0445\u043e\u0434\u044f\u0449\u0438\u043c \u0440\u0435\u0437\u044e\u043c\u0435 \u0438 \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0442\u044c \u0438\u0445 \u0432\u00a0\u0431\u0430\u0437\u0443.<\/em><\/p>\n<p><em>\u041f\u043e\u043e\u0431\u0449\u0430\u0432\u0448\u0438\u0441\u044c \u0441\u00a0\u0440\u0435\u043a\u0440\u0443\u0442\u0435\u0440\u0430\u043c\u0438, \u043c\u044b \u043f\u043e\u043d\u044f\u043b\u0438, \u0447\u0442\u043e\u00a0\u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0440\u0435\u043b\u0435\u0432\u0430\u043d\u0442\u043d\u044b\u043c\u0438 \u0441\u0447\u0438\u0442\u0430\u044e\u0442\u0441\u044f \u0440\u0435\u0437\u044e\u043c\u0435, \u0432\u00a0\u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u0443\u043a\u0430\u0437\u0430\u043d\u044b \u043d\u0443\u0436\u043d\u044b\u0435 \u043d\u0430\u0432\u044b\u043a\u0438 \u0438 \u043e\u0436\u0438\u0434\u0430\u0435\u043c\u0430\u044f \u0437\u0430\u0440\u043f\u043b\u0430\u0442\u0430.<\/em><\/p>\n<p><em>\u041f\u043e\u0441\u043b\u0435 \u043e\u0431\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0439 \u0432\u00a0\u043a\u043e\u043c\u0430\u043d\u0434\u0435 \u0440\u0435\u0448\u0438\u043b\u0438 \u043f\u0440\u043e\u0431\u043e\u0432\u0430\u0442\u044c \u0440\u0435\u0448\u0430\u0442\u044c \u0437\u0430\u0434\u0430\u0447\u0443 \u0447\u0435\u0440\u0435\u0437 NER.<\/em><\/p>\n<p>\u041f\u043e\u043e\u0431\u0449\u0430\u0432\u0448\u0438\u0441\u044c \u0441\u00a0\u0440\u0435\u043a\u0440\u0443\u0442\u0435\u0440\u0430\u043c\u0438, \u043c\u044b \u0432\u044b\u044f\u0441\u043d\u0438\u043b\u0438, \u0447\u0442\u043e\u00a0\u043d\u0430\u00a0\u0432\u0445\u043e\u0434 \u0431\u0443\u0434\u0443\u0442 \u043f\u043e\u0441\u0442\u0443\u043f\u0430\u0442\u044c \u0440\u0435\u0437\u044e\u043c\u0435 \u043a\u0430\u043d\u0434\u0438\u0434\u0430\u0442\u043e\u0432 \u0432\u00a0\u0444\u043e\u0440\u043c\u0430\u0442\u0430\u0445 PDF \u0438 DOC. <\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/749\/e2f\/a05\/749e2fa0551f234944cf328344e2106c.png\" alt=\"\u041f\u0440\u0438\u043c\u0435\u0440 \u0432\u0445\u043e\u0434\u044f\u0449\u0435\u0433\u043e \u0440\u0435\u0437\u044e\u043c\u0435 (*\u0432\u0441\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 \u0432\u044b\u043c\u044b\u0448\u043b\u0435\u043d\u044b, \u0441\u043e\u0432\u043f\u0430\u0434\u0435\u043d\u0438\u044f \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u044b) \" title=\"\u041f\u0440\u0438\u043c\u0435\u0440 \u0432\u0445\u043e\u0434\u044f\u0449\u0435\u0433\u043e \u0440\u0435\u0437\u044e\u043c\u0435 (*\u0432\u0441\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 \u0432\u044b\u043c\u044b\u0448\u043b\u0435\u043d\u044b, \u0441\u043e\u0432\u043f\u0430\u0434\u0435\u043d\u0438\u044f \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u044b) \" width=\"755\" height=\"808\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/749\/e2f\/a05\/749e2fa0551f234944cf328344e2106c.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/749\/e2f\/a05\/749e2fa0551f234944cf328344e2106c.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u041f\u0440\u0438\u043c\u0435\u0440 \u0432\u0445\u043e\u0434\u044f\u0449\u0435\u0433\u043e \u0440\u0435\u0437\u044e\u043c\u0435 (*\u0432\u0441\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 \u0432\u044b\u043c\u044b\u0448\u043b\u0435\u043d\u044b, \u0441\u043e\u0432\u043f\u0430\u0434\u0435\u043d\u0438\u044f \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u044b) <\/figcaption><\/div>\n<\/figure>\n<p>\u0414\u0430\u043b\u0435\u0435 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0437\u0430\u0434\u0430\u0442\u044c \u043d\u0430\u0448\u0438\u043c \u0437\u0430\u043a\u0430\u0437\u0447\u0438\u043a\u0430\u043c \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0432\u043e\u043f\u0440\u043e\u0441\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0442 \u043d\u0430\u043c \u043b\u0443\u0447\u0448\u0435 \u0440\u0435\u0448\u0438\u0442\u044c \u0437\u0430\u0434\u0430\u0447\u0443. <\/p>\n<p><strong>\u0412\u043e\u043f\u0440\u043e\u0441 \u043f\u0440\u043e\u00a0\u0434\u043e\u043c\u0435\u043d. <\/strong>\u0418\u0437\u00a0\u043d\u0430\u0447\u0430\u043b\u044c\u043d\u043e\u0433\u043e \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u044f \u044d\u0442\u043e \u043f\u043e\u043d\u044f\u0442\u043d\u043e\u00a0\u2014 \u044d\u0442\u043e \u0431\u0443\u0434\u0443\u0442 \u0442\u0435\u043a\u0441\u0442\u043e\u0432\u044b\u0435 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u044f \u0440\u0435\u0437\u044e\u043c\u0435, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0442 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u043e\u00a0\u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u043e\u043c \u043e\u043f\u044b\u0442\u0435 \u043a\u0430\u043d\u0434\u0438\u0434\u0430\u0442\u0430. \u0412\u00a0\u043d\u0438\u0445 \u0431\u0443\u0434\u0435\u0442 \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0442\u044c\u0441\u044f \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044f \u043e\u00a0\u0447\u0435\u043b\u043e\u0432\u0435\u043a\u0435 (\u0424\u0418\u041e, \u043c\u0435\u0441\u0442\u043e \u043f\u0440\u043e\u0436\u0438\u0432\u0430\u043d\u0438\u044f), \u043e\u00a0\u0442\u043e\u043c, \u0433\u0434\u0435 \u0447\u0435\u043b\u043e\u0432\u0435\u043a \u0440\u0430\u0431\u043e\u0442\u0430\u043b, \u043a\u0430\u043a\u0438\u0435 \u0437\u0430\u0434\u0430\u0447\u0438 \u0432\u044b\u043f\u043e\u043b\u043d\u044f\u043b, \u0441\u00a0\u043a\u0430\u043a\u0438\u043c\u0438 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u044f\u043c\u0438 \u0440\u0430\u0431\u043e\u0442\u0430\u043b, \u043e\u0436\u0438\u0434\u0430\u0435\u043c\u0430\u044f \u0434\u043e\u043b\u0436\u043d\u043e\u0441\u0442\u044c, \u043e\u0436\u0438\u0434\u0430\u0435\u043c\u0430\u044f \u0417\u041f. <\/p>\n<p><strong>\u0412\u043e\u043f\u0440\u043e\u0441 \u043f\u0440\u043e\u00a0\u044f\u0437\u044b\u043a.<\/strong> \u041f\u043e\u043e\u0431\u0449\u0430\u0432\u0448\u0438\u0441\u044c \u0441\u00a0\u043a\u043b\u0438\u0435\u043d\u0442\u043e\u043c, \u043c\u044b \u0443\u0437\u043d\u0430\u043b\u0438, \u0447\u0442\u043e\u00a0\u0440\u0435\u0437\u044e\u043c\u0435 \u0431\u0443\u0434\u0443\u0442 \u043f\u0440\u0438\u0445\u043e\u0434\u0438\u0442\u044c \u0442\u043e\u043b\u044c\u043a\u043e \u043d\u0430\u00a0\u0440\u0443\u0441\u0441\u043a\u043e\u043c \u044f\u0437\u044b\u043a\u0435. <\/p>\n<p>\u0422\u0430\u043a\u0436\u0435 \u043c\u044b \u0443\u0442\u043e\u0447\u043d\u0438\u043b\u0438, \u0432\u00a0\u043a\u0430\u043a\u043e\u043c \u0444\u043e\u0440\u043c\u0430\u0442\u0435 \u0438\u043c \u043d\u0443\u0436\u043d\u044b \u0432\u044b\u0445\u043e\u0434\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 \u0438\u0437 \u0441\u0435\u0440\u0432\u0438\u0441\u0430. \u0417\u0430\u043a\u0430\u0437\u0447\u0438\u043a \u0441\u043a\u0430\u0437\u0430\u043b, \u0447\u0442\u043e\u00a0\u0438\u043c \u0442\u0440\u0435\u0431\u0443\u0435\u0442\u0441\u044f \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0430\u044f \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044f \u043e\u00a0\u043f\u043e\u0442\u0435\u043d\u0446\u0438\u0430\u043b\u044c\u043d\u043e\u043c \u043a\u0430\u043d\u0434\u0438\u0434\u0430\u0442\u0435: \u0438\u043c\u044f, \u0444\u0430\u043c\u0438\u043b\u0438\u044f, email, \u043d\u043e\u043c\u0435\u0440, \u0441\u043f\u0438\u0441\u043e\u043a \u043d\u0430\u0432\u044b\u043a\u043e\u0432, \u043e\u0436\u0438\u0434\u0430\u0435\u043c\u0430\u044f \u0417\u041f. <\/p>\n<p>\u0418\u0442\u0430\u043a, \u0443\u00a0\u043d\u0430\u0441 \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438, \u0447\u0442\u043e\u0431\u044b \u0437\u0430\u0444\u0438\u043a\u0441\u0438\u0440\u043e\u0432\u0430\u0442\u044c, \u0441\u00a0\u0447\u0435\u043c \u043c\u044b \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u043c:<\/p>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<td>\n<p align=\"left\"><strong>\u041f\u0430\u0440\u0430\u043c\u0435\u0442\u0440<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>\u041e\u043f\u0438\u0441\u0430\u043d\u0438\u0435<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\u0414\u043e\u043c\u0435\u043d<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0420\u0435\u0437\u044e\u043c\u0435 \u043a\u0430\u043d\u0434\u0438\u0434\u0430\u0442\u043e\u0432 (\u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0439 \u043e\u043f\u044b\u0442, \u043d\u0430\u0432\u044b\u043a\u0438, \u043a\u043e\u043d\u0442\u0430\u043a\u0442\u044b)<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\u042f\u0437\u044b\u043a<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0420\u0443\u0441\u0441\u043a\u0438\u0439<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\u0424\u043e\u0440\u043c\u0430\u0442 \u0432\u0445\u043e\u0434\u043d\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445<\/p>\n<\/td>\n<td>\n<p align=\"left\">PDF, DOC<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\u0418\u0437\u0432\u043b\u0435\u043a\u0430\u0435\u043c\u044b\u0435 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0418\u043c\u044f, \u0424\u0430\u043c\u0438\u043b\u0438\u044f, Email, \u0422\u0435\u043b\u0435\u0444\u043e\u043d, \u041d\u0430\u0432\u044b\u043a\u0438, \u041e\u0436\u0438\u0434\u0430\u0435\u043c\u0430\u044f \u0417\u041f<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>\u0412\u043e\u043f\u0440\u043e\u0441\u043e\u0432 \u043f\u043e\u00a0\u0437\u0430\u0434\u0430\u0447\u0435 \u0435\u0449\u0435 \u043c\u043e\u0436\u043d\u043e \u0437\u0430\u0434\u0430\u0442\u044c \u043c\u043d\u043e\u0433\u043e: \u043e\u0431\u044a\u0435\u043c \u043e\u0431\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u0435\u043c\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445, \u043a\u0430\u043a\u0438\u0435 \u0438\u043d\u0442\u0435\u0433\u0440\u0430\u0446\u0438\u0438 \u0434\u043e\u043b\u0436\u043d\u044b\u00a0\u0431\u044b\u0442\u044c \u0443\u00a0\u043c\u043e\u0434\u0443\u043b\u044f \u0438 \u0442\u0430\u043a \u0434\u0430\u043b\u0435\u0435. \u0417\u0434\u0435\u0441\u044c \u043c\u044b \u0441\u043e\u0441\u0440\u0435\u0434\u043e\u0442\u043e\u0447\u0438\u043b\u0438\u0441\u044c \u043d\u0430\u00a0\u0442\u0435\u0445 \u0432\u0435\u0449\u0430\u0445, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043c\u043e\u0433\u0443\u0442 \u043f\u043e\u0442\u0440\u0435\u0431\u043e\u0432\u0430\u0442\u044c\u0441\u044f \u0434\u043b\u044f\u00a0\u0440\u0435\u0448\u0435\u043d\u0438\u044f \u0437\u0430\u0434\u0430\u0447\u0438 NER.\u00a0<\/p>\n<p>\u0424\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0443\u0435\u043c \u0437\u0430\u0434\u0430\u0447\u0443. \u041d\u0430\u00a0\u0432\u0445\u043e\u0434 \u043f\u043e\u0441\u0442\u0443\u043f\u0430\u0435\u0442 \u0444\u0430\u0439\u043b \u0440\u0435\u0437\u044e\u043c\u0435 \u0432\u00a0\u0444\u043e\u0440\u043c\u0430\u0442\u0435 PDF \u0438\u043b\u0438\u00a0DOC. \u0418\u0437\u00a0\u043d\u0435\u0433\u043e \u043c\u044b \u0438\u0437\u0432\u043b\u0435\u043a\u0430\u0435\u043c \u0442\u0435\u043a\u0441\u0442, \u0430\u00a0\u0437\u0430\u0442\u0435\u043c \u0441\u00a0\u043f\u043e\u043c\u043e\u0449\u044c\u044e NER\u2011\u043c\u043e\u0434\u0435\u043b\u0438 \u043d\u0430\u0445\u043e\u0434\u0438\u043c \u0432\u00a0\u043d\u0451\u043c \u043d\u0443\u0436\u043d\u044b\u0435 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438: \u0438\u043c\u044f, \u0444\u0430\u043c\u0438\u043b\u0438\u044e, email, \u0442\u0435\u043b\u0435\u0444\u043e\u043d, \u043d\u0430\u0432\u044b\u043a\u0438 \u0438 \u043e\u0436\u0438\u0434\u0430\u0435\u043c\u0443\u044e \u0437\u0430\u0440\u0430\u0431\u043e\u0442\u043d\u0443\u044e \u043f\u043b\u0430\u0442\u0443. \u0412\u00a0\u043a\u043e\u043d\u0435\u0447\u043d\u043e\u043c \u0438\u0442\u043e\u0433\u0435 \u043c\u043e\u0434\u0443\u043b\u044c \u043e\u0442\u0434\u0430\u0435\u0442 \u043d\u0430\u0439\u0434\u0435\u043d\u043d\u044b\u0435 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438 \u043d\u0430\u00a0\u0434\u0430\u043b\u044c\u043d\u0435\u0439\u0448\u0443\u044e \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0443.<\/p>\n<p><a class=\"anchor\" name=\"3\" id=\"3\"><\/a><\/p>\n<h2>\u0420\u0430\u0431\u043e\u0442\u0430 \u0441\u00a0\u0434\u0430\u043d\u043d\u044b\u043c\u0438<\/h2>\n<p>\u0414\u0430\u043b\u0435\u0435 \u043c\u044b \u043f\u0435\u0440\u0435\u0445\u043e\u0434\u0438\u043c \u043a\u00a0\u0440\u0430\u0431\u043e\u0442\u0435 \u0441\u00a0\u0434\u0430\u043d\u043d\u044b\u043c\u0438. \u042d\u0442\u043e \u0441\u0430\u043c\u044b\u0439 \u0432\u0430\u0436\u043d\u044b\u0439 \u044d\u0442\u0430\u043f \u043f\u0440\u0438\u00a0\u0440\u0435\u0448\u0435\u043d\u0438\u0438 \u0437\u0430\u0434\u0430\u0447\u0438 NER (\u0434\u0430 \u0438 \u0432\u00a0\u0446\u0435\u043b\u043e\u043c \u043b\u044e\u0431\u043e\u0439 NLP-\u0437\u0430\u0434\u0430\u0447\u0438). \u0412\u0441\u0435\u0433\u0434\u0430 \u0441\u0442\u043e\u0438\u0442 \u043f\u043e\u043c\u043d\u0438\u0442\u044c \u0444\u0440\u0430\u0437\u0443: \u00abGarbage in\u00a0\u2014 garbage out\u00bb. <\/p>\n<p>\u041d\u0430\u00a0\u043f\u0440\u043e\u0448\u043b\u043e\u043c \u0448\u0430\u0433\u0435 \u043c\u044b \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0435\u043b\u0438 \u0437\u0430\u0434\u0430\u0447\u0443 \u0438 \u043f\u043e\u043d\u044f\u043b\u0438, \u0447\u0442\u043e\u00a0\u043d\u0430\u043c \u0442\u0440\u0435\u0431\u0443\u0435\u0442\u0441\u044f. \u041e\u0431\u0440\u0430\u0442\u0438\u043c \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u043d\u0430\u00a0\u0442\u0435 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043d\u0430\u043c \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0438\u0437\u0432\u043b\u0435\u0447\u044c: \u0438\u043c\u044f, \u0444\u0430\u043c\u0438\u043b\u0438\u044f, email, \u0442\u0435\u043b\u0435\u0444\u043e\u043d, \u043d\u0430\u0432\u044b\u043a\u0438, \u043e\u0436\u0438\u0434\u0430\u0435\u043c\u0430\u044f \u0417\u041f. \u0418\u043c\u0435\u043d\u043d\u043e \u044d\u0442\u0438 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438 \u0438 \u0431\u0443\u0434\u0435\u0442 \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u044c \u0432\u00a0\u0442\u0435\u043a\u0441\u0442\u0435. <\/p>\n<p>\u0412\u0430\u0436\u043d\u043e \u0437\u0430\u0444\u0438\u043a\u0441\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0442\u043e\u0447\u043d\u044b\u0435 \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u044f \u0434\u043b\u044f\u00a0\u043a\u0430\u0436\u0434\u043e\u0439 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438, \u0447\u0442\u043e\u0431\u044b \u0432\u00a0\u0434\u0430\u043b\u044c\u043d\u0435\u0439\u0448\u0435\u043c \u043e\u0434\u043d\u043e\u0437\u043d\u0430\u0447\u043d\u043e \u0440\u0430\u0437\u043c\u0435\u0447\u0430\u0442\u044c \u0438\u0445 \u0432\u00a0\u0442\u0435\u043a\u0441\u0442\u0435. <\/p>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<td data-colwidth=\"185\" width=\"185\">\n<p align=\"left\"><strong>\u0422\u0435\u0433<\/strong><\/p>\n<\/td>\n<td data-colwidth=\"219\" width=\"219\">\n<p align=\"left\"><strong>\u0421\u0443\u0449\u043d\u043e\u0441\u0442\u044c<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>\u041e\u043f\u0438\u0441\u0430\u043d\u0438\u0435<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"185\" width=\"185\">\n<p align=\"left\">NAME<\/p>\n<\/td>\n<td data-colwidth=\"219\" width=\"219\">\n<p align=\"left\">\u0418\u043c\u044f<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041b\u0438\u0447\u043d\u043e\u0435 \u0438\u043c\u044f \u043a\u0430\u043d\u0434\u0438\u0434\u0430\u0442\u0430<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"185\" width=\"185\">\n<p align=\"left\">SURNAME<\/p>\n<\/td>\n<td data-colwidth=\"219\" width=\"219\">\n<p align=\"left\">\u0424\u0430\u043c\u0438\u043b\u0438\u044f<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0424\u0430\u043c\u0438\u043b\u0438\u044f \u043a\u0430\u043d\u0434\u0438\u0434\u0430\u0442\u0430<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"185\" width=\"185\">\n<p align=\"left\">EMAIL<\/p>\n<\/td>\n<td data-colwidth=\"219\" width=\"219\">\n<p align=\"left\">Email<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0410\u0434\u0440\u0435\u0441 \u044d\u043b\u0435\u043a\u0442\u0440\u043e\u043d\u043d\u043e\u0439 \u043f\u043e\u0447\u0442\u044b<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"185\" width=\"185\">\n<p align=\"left\">PHONE<\/p>\n<\/td>\n<td data-colwidth=\"219\" width=\"219\">\n<p align=\"left\">\u0422\u0435\u043b\u0435\u0444\u043e\u043d<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041d\u043e\u043c\u0435\u0440 \u0442\u0435\u043b\u0435\u0444\u043e\u043d\u0430 (\u0432 \u043b\u044e\u0431\u043e\u043c \u0444\u043e\u0440\u043c\u0430\u0442\u0435)<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"185\" width=\"185\">\n<p align=\"left\">SKILL<\/p>\n<\/td>\n<td data-colwidth=\"219\" width=\"219\">\n<p align=\"left\">\u041d\u0430\u0432\u044b\u043a\u0438<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u041f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043d\u0430\u0432\u044b\u043a\u0438, \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0438, \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u044b<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"185\" width=\"185\">\n<p align=\"left\">SALARY<\/p>\n<\/td>\n<td data-colwidth=\"219\" width=\"219\">\n<p align=\"left\">\u041e\u0436\u0438\u0434\u0430\u0435\u043c\u0430\u044f \u0417\u041f<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0416\u0435\u043b\u0430\u0435\u043c\u044b\u0439 \u0443\u0440\u043e\u0432\u0435\u043d\u044c \u0437\u0430\u0440\u0430\u0431\u043e\u0442\u043d\u043e\u0439 \u043f\u043b\u0430\u0442\u044b (\u0432\u043a\u043b\u044e\u0447\u0430\u044f \u0441\u0443\u043c\u043c\u0443 \u0438 \u0432\u0430\u043b\u044e\u0442\u0443)<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>\u041a\u0430\u043a\u00a0\u0432\u044b \u043c\u043e\u0433\u043b\u0438 \u0437\u0430\u043c\u0435\u0442\u0438\u0442\u044c, \u043c\u044b \u0434\u043e\u0431\u0430\u0432\u0438\u043b\u0438 \u0441\u0442\u043e\u043b\u0431\u0435\u0446 \u00ab\u0422\u0435\u0433\u00bb. \u042d\u0442\u0438 \u0442\u0435\u0433\u0438 \u043c\u044b \u0437\u0430\u0434\u0430\u0434\u0438\u043c \u0434\u043b\u044f\u00a0NER\u2011\u043c\u043e\u0434\u0435\u043b\u0438, \u0447\u0442\u043e\u0431\u044b \u043e\u043d\u0430 \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u043b\u0430 \u0438\u0445 \u0434\u043b\u044f\u00a0\u043d\u0430\u0439\u0434\u0435\u043d\u043d\u044b\u0445 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0435\u0439 \u0432\u00a0\u0442\u0435\u043a\u0441\u0442\u0435. <\/p>\n<p>\u041f\u0435\u0440\u0435\u0445\u043e\u0434\u0438\u043c \u043a\u00a0\u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u043e\u043c\u0443 \u0444\u043e\u0440\u043c\u0430\u0442\u0443 \u0434\u0430\u043d\u043d\u044b\u0445, \u0441\u00a0\u043a\u043e\u0442\u043e\u0440\u044b\u043c\u0438 \u0431\u0443\u0434\u0435\u0442 \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u044c. \u0421\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u044e\u0442 \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0435 \u0444\u043e\u0440\u043c\u0430\u0442\u044b \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438: <\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/c58\/a14\/fee\/c58a14fee6c0cab9a298c2fa82739e73.png\" alt=\"\u0412\u043e\u0437\u043c\u043e\u0436\u043d\u044b\u0435 \u0444\u043e\u0440\u043c\u0430\u0442\u044b NER \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438\" title=\"\u0412\u043e\u0437\u043c\u043e\u0436\u043d\u044b\u0435 \u0444\u043e\u0440\u043c\u0430\u0442\u044b NER \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438\" width=\"1186\" height=\"726\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/c58\/a14\/fee\/c58a14fee6c0cab9a298c2fa82739e73.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/c58\/a14\/fee\/c58a14fee6c0cab9a298c2fa82739e73.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0412\u043e\u0437\u043c\u043e\u0436\u043d\u044b\u0435 \u0444\u043e\u0440\u043c\u0430\u0442\u044b NER \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438<\/figcaption><\/div>\n<\/figure>\n<p>\u041c\u044b \u0431\u0443\u0434\u0435\u043c \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0441\u0445\u0435\u043c\u0443 <strong>BIO<\/strong>, \u0442\u0430\u043a \u043a\u0430\u043a\u00a0\u0432\u00a0\u0440\u0435\u0437\u044e\u043c\u0435 \u043d\u0430\u0432\u044b\u043a\u0438 \u0447\u0430\u0441\u0442\u043e \u043f\u0435\u0440\u0435\u0447\u0438\u0441\u043b\u044f\u044e\u0442\u0441\u044f \u043f\u043e\u0434\u0440\u044f\u0434 \u0431\u0435\u0437\u00a0\u0440\u0430\u0437\u0434\u0435\u043b\u0438\u0442\u0435\u043b\u0435\u0439\u00a0\u2014 \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u00abPython SQL Docker\u00bb\u00a0\u2014 \u0438 \u0442\u0435\u0433 B\u2011SKILL \u043d\u0430\u00a0\u043a\u0430\u0436\u0434\u043e\u043c \u0441\u043b\u043e\u0432\u0435 \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u043c\u043e\u0434\u0435\u043b\u0438 \u043f\u043e\u043d\u044f\u0442\u044c, \u0447\u0442\u043e\u00a0\u044d\u0442\u043e \u0442\u0440\u0438 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u0445 \u043d\u0430\u0432\u044b\u043a\u0430, \u0430\u00a0\u043d\u0435\u00a0\u043e\u0434\u0438\u043d (\u043a\u0430\u043a \u0441\u00a0IO \u0444\u043e\u0440\u043c\u0430\u0442\u043e\u043c). <\/p>\n<h3>\u041f\u043e\u0438\u0441\u043a \u0433\u043e\u0442\u043e\u0432\u043e\u0433\u043e \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430 <\/h3>\n<p>\u041f\u0435\u0440\u0432\u044b\u043c \u0448\u0430\u0433\u043e\u043c \u043f\u043e\u043f\u0440\u043e\u0431\u0443\u0435\u043c \u043d\u0430\u0439\u0442\u0438 \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0438\u0439 \u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u0434\u043b\u044f\u00a0\u043d\u0430\u0448\u0435\u0439 \u0437\u0430\u0434\u0430\u0447\u0438 \u0432 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0445 \u0438\u0441\u0442\u043e\u0447\u043d\u0438\u043a\u0430\u0445. \u0414\u043b\u044f\u00a0\u044d\u0442\u043e\u0433\u043e \u043c\u043e\u0436\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c. <\/p>\n<p>\u041d\u0430\u0447\u043d\u0451\u043c \u0441 <a href=\"https:\/\/huggingface.co\/\" rel=\"noopener noreferrer nofollow\">Hugging Face<\/a>. \u0414\u043b\u044f\u00a0\u0442\u0435\u0445, \u043a\u0442\u043e \u043d\u0435\u00a0\u0437\u043d\u0430\u0435\u0442: Hugging Face\u00a0\u2014 \u044d\u0442\u043e \u043f\u043e\u043f\u0443\u043b\u044f\u0440\u043d\u0430\u044f \u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c\u0430 \u0432\u00a0\u043e\u0431\u043b\u0430\u0441\u0442\u0438 \u0418\u0418, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u0431\u043e\u043b\u044c\u0448\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e open\u2011source\u2011\u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u0438 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u043e\u0432 \u0434\u043b\u044f\u00a0\u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0445 \u0437\u0430\u0434\u0430\u0447. <\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/bb0\/6b1\/f3b\/bb06b1f3b9ce494c640cd52b7c1e7b24.png\" alt=\"Hugging Face\" title=\"Hugging Face\" width=\"1717\" height=\"890\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/bb0\/6b1\/f3b\/bb06b1f3b9ce494c640cd52b7c1e7b24.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/bb0\/6b1\/f3b\/bb06b1f3b9ce494c640cd52b7c1e7b24.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>Hugging Face<\/figcaption><\/div>\n<\/figure>\n<p>\u041f\u043e\u043f\u0440\u043e\u0431\u0443\u0435\u043c \u043d\u0430\u0439\u0442\u0438 \u0437\u0434\u0435\u0441\u044c \u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u0434\u043b\u044f\u00a0\u043d\u0430\u0448\u0435\u0439 \u0437\u0430\u0434\u0430\u0447\u0438. <\/p>\n<p>\u0412\u0441\u0435 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u044b \u043c\u043e\u0436\u043d\u043e \u0443\u0432\u0438\u0434\u0435\u0442\u044c \u0432\u043e\u00a0\u0432\u043a\u043b\u0430\u0434\u043a\u0435 Datasets. \u041d\u0430\u0441\u0442\u0440\u043e\u0438\u043c \u043d\u0435\u043c\u043d\u043e\u0433\u043e \u0444\u0438\u043b\u044c\u0442\u0440\u044b \u0434\u043b\u044f\u00a0\u043d\u0430\u0448\u0435\u0439 \u0437\u0430\u0434\u0430\u0447\u0438. \u041c\u044b \u0440\u0435\u0448\u0430\u0435\u043c \u0447\u0435\u0440\u0435\u0437 NER\u00a0\u2014 \u0437\u043d\u0430\u0447\u0438\u0442, \u0432\u00a0\u0444\u0438\u043b\u044c\u0442\u0440\u0435 Task \u0441\u043b\u0435\u0434\u0443\u0435\u0442 \u0432\u044b\u0431\u0440\u0430\u0442\u044c \u00abToken Classification\u00bb. \u0414\u0430\u043b\u0435\u0435, \u0442\u0430\u043a \u043a\u0430\u043a\u00a0\u043d\u0430\u0448\u0438 \u0440\u0435\u0437\u044e\u043c\u0435 \u0431\u0443\u0434\u0443\u0442 \u043d\u0430\u00a0\u0440\u0443\u0441\u0441\u043a\u043e\u043c\u00a0\u2014 \u0432\u044b\u0441\u0442\u0430\u0432\u0438\u043c \u0440\u0443\u0441\u0441\u043a\u0438\u0439 \u044f\u0437\u044b\u043a \u0432\u043e\u00a0\u0432\u043a\u043b\u0430\u0434\u043a\u0435 \u00abLanguages\u00bb. \u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043c \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u044b \u043d\u0430\u00a0\u0440\u0443\u0441\u0441\u043a\u043e\u043c \u044f\u0437\u044b\u043a\u0435 \u0434\u043b\u044f\u00a0\u0437\u0430\u0434\u0430\u0447\u0438 NER. \u0414\u0430\u043b\u0435\u0435 \u044f \u043f\u043e\u043f\u044b\u0442\u0430\u043b\u0441\u044f \u0447\u0435\u0440\u0435\u0437 \u043f\u043e\u0438\u0441\u043a \u043d\u0430\u0439\u0442\u0438 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u044b \u043f\u043e\u00a0\u0440\u0435\u0437\u044e\u043c\u0435, \u043d\u043e\u00a0\u0442\u0430\u043a\u0438\u0445 \u043d\u0435\u00a0\u043e\u043a\u0430\u0437\u0430\u043b\u043e\u0441\u044c. <\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/fa1\/0d4\/551\/fa10d45510b3d86029591f2c3f0e471f.png\" alt=\"\u041f\u043e\u0438\u0441\u043a \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u043e\u0432 \u0432 Hugging Face\" title=\"\u041f\u043e\u0438\u0441\u043a \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u043e\u0432 \u0432 Hugging Face\" width=\"1616\" height=\"556\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/fa1\/0d4\/551\/fa10d45510b3d86029591f2c3f0e471f.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/fa1\/0d4\/551\/fa10d45510b3d86029591f2c3f0e471f.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u041f\u043e\u0438\u0441\u043a \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u043e\u0432 \u0432\u00a0Hugging Face<\/figcaption><\/div>\n<\/figure>\n<p>\u0415\u0441\u043b\u0438\u00a0\u0436\u0435 \u0443\u0431\u0440\u0430\u0442\u044c \u0444\u0438\u043b\u044c\u0442\u0440 \u043d\u0430\u00a0\u044f\u0437\u044b\u043a, \u0432\u0441\u0435\u0433\u043e \u043e\u0441\u0442\u0430\u043d\u0435\u0442\u0441\u044f 16\u00a0\u0434\u0430\u0442\u0430\u0441\u0435\u0442\u043e\u0432 \u043f\u043e\u00a0\u0437\u0430\u043f\u0440\u043e\u0441\u0443 resume<\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/fac\/56c\/dcc\/fac56cdcc3466ff39ae749159323c687.png\" width=\"1328\" height=\"594\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/fac\/56c\/dcc\/fac56cdcc3466ff39ae749159323c687.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/fac\/56c\/dcc\/fac56cdcc3466ff39ae749159323c687.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u0414\u0430\u043b\u0435\u0435 \u044f \u043f\u043e\u043f\u0440\u043e\u0431\u043e\u0432\u0430\u043b \u0441\u0434\u0435\u043b\u0430\u0442\u044c DeepResearch \u0447\u0435\u0440\u0435\u0437 Claude, \u0447\u0442\u043e\u0431\u044b \u043e\u043d \u0442\u0430\u043a\u0436\u0435 \u043f\u043e\u043f\u0440\u043e\u0431\u043e\u0432\u0430\u043b \u043f\u043e\u0438\u0441\u043a\u0430\u0442\u044c \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u044b \u043d\u0430\u00a0Hugging Face. \u041d\u0438\u0447\u0435\u0433\u043e \u043d\u0430\u00a0\u0440\u0443\u0441\u0441\u043a\u043e\u043c \u044f\u0437\u044b\u043a\u0435 \u043e\u043d \u043d\u0435\u00a0\u043d\u0430\u0448\u0451\u043b. \u041d\u043e\u00a0\u0432\u0441\u0451\u00a0\u0436\u0435 \u044f \u0437\u0430\u043f\u0440\u0438\u043c\u0435\u0442\u0438\u043b \u043e\u0434\u0438\u043d \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u044b\u0439 <a href=\"https:\/\/huggingface.co\/datasets\/Mehyaar\/Annotated_NER_PDF_Resumes\" rel=\"noopener noreferrer nofollow\">\u0434\u0430\u0442\u0430\u0441\u0435\u0442<\/a>. <\/p>\n<p>\u042d\u0442\u043e \u0434\u0430\u0442\u0430\u0441\u0435\u0442, \u0432\u00a0\u043a\u043e\u0442\u043e\u0440\u043e\u043c \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0442\u0441\u044f 5000\u00a0\u0440\u0435\u0437\u044e\u043c\u0435 \u043d\u0430\u00a0\u0430\u043d\u0433\u043b\u0438\u0439\u0441\u043a\u043e\u043c, \u0430\u00a0\u0442\u0430\u043a\u0436\u0435 \u0440\u0430\u0437\u043c\u0435\u0447\u0435\u043d\u043d\u044b\u0435 \u043d\u0430\u0432\u044b\u043a\u0438 (SKILLS) \u0434\u043b\u044f\u00a0\u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0438\u0437\u00a0\u043d\u0438\u0445. \u0420\u0435\u0448\u0438\u043b \u043f\u0440\u0438\u0431\u0435\u0440\u0435\u0447\u044c \u0435\u0433\u043e, \u0447\u0442\u043e\u0431\u044b \u043f\u043e\u043f\u0440\u043e\u0431\u043e\u0432\u0430\u0442\u044c \u043f\u0435\u0440\u0435\u0432\u0435\u0441\u0442\u0438 \u0447\u0430\u0441\u0442\u044c \u043d\u0430\u00a0\u0440\u0443\u0441\u0441\u043a\u0438\u0439 \u0434\u043b\u044f\u00a0\u0441\u0432\u043e\u0435\u0439 \u0437\u0430\u0434\u0430\u0447\u0438. <\/p>\n<p>\u0414\u0430\u043b\u0435\u0435 \u044f \u043f\u0440\u043e\u0432\u0451\u043b \u0442\u0435\u00a0\u0436\u0435 \u043f\u043e\u0438\u0441\u043a\u0438 \u043d\u0430: <\/p>\n<ul>\n<li>\n<p><a href=\"https:\/\/www.kaggle.com\/\" rel=\"noopener noreferrer nofollow\">Kaggle<\/a> <\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/zenodo.org\/\" rel=\"noopener noreferrer nofollow\">Zenodo\u00a0<\/a> <\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/datasetsearch.research.google.com\/\" rel=\"noopener noreferrer nofollow\">Google Dataset Search<\/a><\/p>\n<\/li>\n<\/ul>\n<p>\u0415\u0441\u0442\u044c \u0435\u0449\u0451 \u043c\u043d\u043e\u0433\u043e \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0445 \u043f\u043b\u043e\u0449\u0430\u0434\u043e\u043a \u0441\u00a0\u0434\u0430\u043d\u043d\u044b\u043c\u0438. \u042d\u0442\u043e \u043e\u0434\u043d\u0438 \u0438\u0437\u00a0\u0441\u0430\u043c\u044b\u0445 \u043f\u043e\u043f\u0443\u043b\u044f\u0440\u043d\u044b\u0445. \u0412\u00a0\u0438\u0442\u043e\u0433\u0435 \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u043e \u0434\u043b\u044f\u00a0\u0441\u0432\u043e\u0435\u0439 \u0437\u0430\u0434\u0430\u0447\u0438 \u044f \u0442\u0430\u043a \u0438 \u043d\u0435\u00a0\u043d\u0430\u0448\u0451\u043b \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430\u00a0\u2014 \u0442\u043e\u043b\u044c\u043a\u043e \u0441\u0445\u043e\u0436\u0438\u0439 \u043d\u0430\u00a0\u0430\u043d\u0433\u043b\u0438\u0439\u0441\u043a\u043e\u043c, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0443\u043f\u043e\u043c\u0438\u043d\u0430\u043b \u0432\u044b\u0448\u0435. \u0412\u00a0\u0446\u0435\u043b\u043e\u043c, \u0442\u0430\u043a \u0447\u0430\u0449\u0435 \u0432\u0441\u0435\u0433\u043e \u0438 \u043f\u0440\u043e\u0438\u0441\u0445\u043e\u0434\u0438\u0442. \u0427\u0435\u043c \u0441\u043f\u0435\u0446\u0438\u0444\u0438\u0447\u043d\u0435\u0435 \u0437\u0430\u0434\u0430\u0447\u0430, \u0442\u0435\u043c \u043c\u0435\u043d\u044c\u0448\u0435 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u044c, \u0447\u0442\u043e\u00a0\u0431\u0443\u0434\u0443\u0442 \u043d\u0430\u0439\u0434\u0435\u043d\u044b \u0434\u0430\u043d\u043d\u044b\u0435. \u041d\u043e\u00a0\u0432\u0441\u0435\u0433\u0434\u0430 \u0435\u0441\u0442\u044c \u0448\u0430\u043d\u0441 \u043d\u0430\u0439\u0442\u0438 \u0441\u0445\u043e\u0436\u0438\u0439 \u0434\u0430\u0442\u0430\u0441\u0435\u0442, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043c\u043e\u0436\u043d\u043e \u0431\u0443\u0434\u0435\u0442 \u043c\u043e\u0434\u0435\u0440\u043d\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0438\u043b\u0438 \u043f\u0435\u0440\u0435\u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c. <\/p>\n<p>\u0414\u0430\u043b\u0435\u0435 \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u0432\u0430\u0440\u0438\u0430\u043d\u0442 \u043f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u043a\u0438 \u0434\u0430\u043d\u043d\u044b\u0445, \u043a\u043e\u0433\u0434\u0430 \u043c\u044b \u0438\u0445 \u0440\u0430\u0437\u043c\u0435\u0447\u0430\u0435\u043c \u0432\u0440\u0443\u0447\u043d\u0443\u044e. <\/p>\n<h3>\u0420\u0430\u0437\u043c\u0435\u0442\u043a\u0430 \u0432\u00a0Label Studio<\/h3>\n<p>\u0412\u00a0\u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u0430 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u043c\u043e\u0436\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c <a href=\"https:\/\/github.com\/HumanSignal\/label-studio\/\" rel=\"noopener noreferrer nofollow\"><strong>Label Studio<\/strong><\/a><strong>.<\/strong> <\/p>\n<p>\u042d\u0442\u043e \u043f\u043e\u043f\u0443\u043b\u044f\u0440\u043d\u0430\u044f open\u2011source\u2011\u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c\u0430 \u0434\u043b\u044f\u00a0\u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u0434\u0430\u043d\u043d\u044b\u0445. \u041e\u043d\u0430 \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u0440\u0430\u0437\u043c\u0435\u0447\u0430\u0442\u044c \u0434\u0430\u043d\u043d\u044b\u0435 \u0434\u043b\u044f\u00a0\u0431\u043e\u043b\u044c\u0448\u043e\u0433\u043e \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0430 \u0437\u0430\u0434\u0430\u0447: <\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/815\/3d9\/527\/8153d95274d5ecae1ee4d982faafaa2e.png\" alt=\"\u0412\u0438\u0434\u044b \u0430\u043d\u043d\u043e\u0442\u0430\u0446\u0438\u0439 \u0432 Label Studio\" title=\"\u0412\u0438\u0434\u044b \u0430\u043d\u043d\u043e\u0442\u0430\u0446\u0438\u0439 \u0432 Label Studio\" width=\"1880\" height=\"517\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/815\/3d9\/527\/8153d95274d5ecae1ee4d982faafaa2e.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/815\/3d9\/527\/8153d95274d5ecae1ee4d982faafaa2e.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0412\u0438\u0434\u044b \u0430\u043d\u043d\u043e\u0442\u0430\u0446\u0438\u0439 \u0432\u00a0Label Studio<\/figcaption><\/div>\n<\/figure>\n<p>\u041e\u043d\u0430\u00a0\u0436\u0435 \u0432\u043a\u043b\u044e\u0447\u0430\u0435\u0442 \u0441\u0440\u0435\u0434\u0441\u0442\u0432\u0430 \u0434\u043b\u044f\u00a0\u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 NER\u2011\u0434\u0430\u0442\u0430\u0441\u0435\u0442\u043e\u0432\u00a0\u2014 \u0447\u0442\u043e\u00a0\u043d\u0430\u043c \u0438 \u043f\u043e\u0434\u0445\u043e\u0434\u0438\u0442. <\/p>\n<p>\u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043f\u0440\u043e\u0446\u0435\u0441\u0441 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438. <\/p>\n<p><em>\u0412\u00a0\u0441\u0432\u044f\u0437\u0438 \u0441\u00a0\u043d\u0435\u043a\u043e\u0442\u043e\u0440\u044b\u043c\u0438 \u043d\u044e\u0430\u043d\u0441\u0430\u043c\u0438 \u043f\u043e\u00a0\u0440\u0430\u0431\u043e\u0442\u0435 \u0441\u00a0\u0440\u0435\u0430\u043b\u044c\u043d\u044b\u043c\u0438 \u0440\u0435\u0437\u044e\u043c\u0435 (\u043f\u0435\u0440\u0441\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435) \u044f \u0440\u0435\u0448\u0438\u043b \u043f\u0440\u043e\u0434\u0435\u043c\u043e\u043d\u0441\u0442\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0441\u0430\u043c \u043f\u043e\u0434\u0445\u043e\u0434 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438. \u042d\u0442\u0438 \u0440\u0435\u0437\u044e\u043c\u0435 \u0432\u00a0\u043f\u0440\u0438\u043c\u0435\u0440\u0430\u0445 \u044f \u0441\u0433\u0435\u043d\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u043b \u0438\u043b\u0438\u00a0\u0432\u0437\u044f\u043b \u0438\u0437\u00a0\u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0445 \u0438\u0441\u0442\u043e\u0447\u043d\u0438\u043a\u043e\u0432 (\u043f\u0438\u0441\u0430\u043b \u0432\u044b\u0448\u0435). \u0413\u043b\u0430\u0432\u043d\u0430\u044f \u0446\u0435\u043b\u044c\u00a0\u2014 \u043f\u043e\u043a\u0430\u0437\u0430\u0442\u044c, \u043a\u0430\u043a\u00a0\u0432\u044b \u043c\u043e\u0436\u0435\u0442\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u0441\u00a0\u0440\u0430\u0437\u043c\u0435\u0442\u043a\u043e\u0439, \u043a\u043e\u0433\u0434\u0430 \u0443\u00a0\u0432\u0430\u0441 \u0431\u0443\u0434\u0443\u0442 \u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435. <\/em><\/p>\n<p>\u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u044f \u043f\u043e\u043a\u0430\u0436\u0443, \u043a\u0430\u043a\u00a0\u043d\u0430\u0441\u0442\u0440\u043e\u0438\u0442\u044c \u0440\u0430\u0431\u043e\u0442\u0443 Label Studio \u0434\u043b\u044f\u00a0NER. <\/p>\n<p>\u041f\u0435\u0440\u0432\u044b\u043c \u0434\u0435\u043b\u043e\u043c \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0435\u0451 \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u044c. \u0421\u0434\u0435\u043b\u0430\u0442\u044c \u044d\u0442\u043e \u043c\u043e\u0436\u043d\u043e \u0447\u0435\u0440\u0435\u0437 pip. \u041f\u0440\u043e\u0434\u0435\u043c\u043e\u043d\u0441\u0442\u0440\u0438\u0440\u0443\u044e \u044d\u0442\u043e\u0442 \u043f\u0440\u043e\u0446\u0435\u0441\u0441 \u043d\u0430\u00a0Windows. \u0423\u00a0\u0432\u0430\u0441 \u0434\u043e\u043b\u0436\u0435\u043d\u00a0\u0431\u044b\u0442\u044c \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d Python.<\/p>\n<p>\u0414\u043b\u044f\u00a0\u044d\u0442\u043e\u0433\u043e \u0441\u043e\u0437\u0434\u0430\u0439\u0442\u0435 \u043d\u043e\u0432\u0443\u044e \u0432\u0438\u0440\u0442\u0443\u0430\u043b\u044c\u043d\u0443\u044e \u0441\u0440\u0435\u0434\u0443. \u041e\u0442\u043a\u0440\u043e\u0439\u0442\u0435 \u043a\u043e\u043c\u0430\u043d\u0434\u043d\u0443\u044e \u0441\u0442\u0440\u043e\u043a\u0443 \u0438 \u0432\u0432\u0435\u0434\u0438\u0442\u0435 \u043a\u043e\u043c\u0430\u043d\u0434\u0443<\/p>\n<pre><code class=\"powershell\">python -m venv venv<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:87px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0410\u043a\u0442\u0438\u0432\u0438\u0440\u0443\u0439\u0442\u0435 \u0441\u0440\u0435\u0434\u0443<\/p>\n<pre><code class=\"powershell\">.\/venv\/Scripts\/activate<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0414\u0430\u043b\u0435\u0435 \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u043c Label Studio \u043a\u043e\u043c\u0430\u043d\u0434\u043e\u0439<\/p>\n<pre><code class=\"powershell\">pip install -U label-studio<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041f\u043e\u0441\u043b\u0435 \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0438 \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u044c Label Studio \u043c\u043e\u0436\u043d\u043e \u043a\u043e\u043c\u0430\u043d\u0434\u043e\u0439<\/p>\n<pre><code class=\"powershell\">label-studio<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0417\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u0441\u044f \u0441\u0435\u0440\u0432\u0438\u0441 Label Studio. \u0414\u043e\u0441\u0442\u0443\u043f \u043a\u00a0\u043d\u0435\u043c\u0443 \u043c\u043e\u0436\u043d\u043e \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u043f\u0435\u0440\u0435\u0439\u0434\u044f \u043f\u043e\u00a0\u0441\u0441\u044b\u043b\u043a\u0435 <a href=\"http:\/\/localhost:8080\/\" rel=\"noopener noreferrer nofollow\">http:\/\/localhost:8080\/<\/a>. \u041e\u0442\u043a\u0440\u043e\u0435\u0442\u0441\u044f \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0430 \u0430\u0432\u0442\u043e\u0440\u0438\u0437\u0430\u0446\u0438\u0438:<\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/bb8\/7ac\/90a\/bb87ac90a562a9e6ac20aec60ddc3b58.png\" alt=\"\u0421\u0442\u0440\u0430\u043d\u0438\u0446\u0430 \u0430\u0432\u0442\u043e\u0440\u0438\u0437\u0430\u0446\u0438\u0438 Label Studio\" title=\"\u0421\u0442\u0440\u0430\u043d\u0438\u0446\u0430 \u0430\u0432\u0442\u043e\u0440\u0438\u0437\u0430\u0446\u0438\u0438 Label Studio\" width=\"1809\" height=\"748\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/bb8\/7ac\/90a\/bb87ac90a562a9e6ac20aec60ddc3b58.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/bb8\/7ac\/90a\/bb87ac90a562a9e6ac20aec60ddc3b58.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0421\u0442\u0440\u0430\u043d\u0438\u0446\u0430 \u0430\u0432\u0442\u043e\u0440\u0438\u0437\u0430\u0446\u0438\u0438 Label Studio<\/figcaption><\/div>\n<\/figure>\n<p>\u041d\u0430\u0436\u043c\u0438\u0442\u0435 \u043d\u0430\u00a0Sign Up, \u0441\u043e\u0437\u0434\u0430\u0439\u0442\u0435 \u0430\u043a\u043a\u0430\u0443\u043d\u0442, \u0430\u00a0\u043f\u043e\u0441\u043b\u0435 \u0430\u0432\u0442\u043e\u0440\u0438\u0437\u0443\u0439\u0442\u0435\u0441\u044c.\u00a0<\/p>\n<p>\u0412\u044b \u043f\u043e\u043f\u0430\u0434\u0435\u0442\u0435 \u043d\u0430\u00a0\u0433\u043b\u0430\u0432\u043d\u0443\u044e \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0443 Label Studio.\u00a0<\/p>\n<p>\u0414\u0430\u043b\u0435\u0435 \u0441\u043e\u0437\u0434\u0430\u0434\u0438\u043c \u043f\u0440\u043e\u0435\u043a\u0442 \u0434\u043b\u044f\u00a0\u043d\u0430\u0448\u0435\u0439 \u0437\u0430\u0434\u0430\u0447\u0438. \u041d\u0430\u0436\u043c\u0438\u0442\u0435 \u043d\u0430 \u00abCreate Project\u00bb<\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/93c\/945\/4bc\/93c9454bc167e989f4093b57aafbbb40.png\" alt=\"\u0421\u043e\u0437\u0434\u0430\u043d\u0438\u0435 \u043f\u0440\u043e\u0435\u043a\u0442\u0430 \u0432 Label Studio\" title=\"\u0421\u043e\u0437\u0434\u0430\u043d\u0438\u0435 \u043f\u0440\u043e\u0435\u043a\u0442\u0430 \u0432 Label Studio\" width=\"956\" height=\"261\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/93c\/945\/4bc\/93c9454bc167e989f4093b57aafbbb40.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/93c\/945\/4bc\/93c9454bc167e989f4093b57aafbbb40.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0421\u043e\u0437\u0434\u0430\u043d\u0438\u0435 \u043f\u0440\u043e\u0435\u043a\u0442\u0430 \u0432\u00a0Label Studio<\/figcaption><\/div>\n<\/figure>\n<p>\u041f\u043e\u0441\u043b\u0435 \u044d\u0442\u043e\u0433\u043e \u0432\u044b \u043c\u043e\u0436\u0435\u0442\u0435 \u0432\u0432\u0435\u0441\u0442\u0438 \u0438\u043c\u044f \u043f\u0440\u043e\u0435\u043a\u0442\u0430 \u0438 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0435 (\u043e\u043f\u0446\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u043e) <\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/6d9\/096\/8ba\/6d90968ba024d41de5a6e58cc4d06a6c.png\" alt=\"\u041d\u0430\u0437\u0432\u0430\u043d\u0438\u0435 \u043f\u0440\u043e\u0435\u043a\u0442\u0430\" title=\"\u041d\u0430\u0437\u0432\u0430\u043d\u0438\u0435 \u043f\u0440\u043e\u0435\u043a\u0442\u0430\" width=\"1806\" height=\"394\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/6d9\/096\/8ba\/6d90968ba024d41de5a6e58cc4d06a6c.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/6d9\/096\/8ba\/6d90968ba024d41de5a6e58cc4d06a6c.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u041d\u0430\u0437\u0432\u0430\u043d\u0438\u0435 \u043f\u0440\u043e\u0435\u043a\u0442\u0430<\/figcaption><\/div>\n<\/figure>\n<p>\u0414\u0430\u043b\u0435\u0435 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0437\u0430\u0433\u0440\u0443\u0437\u0438\u0442\u044c \u0434\u0430\u043d\u043d\u044b\u0435. \u042f \u0441\u0442\u043e\u043b\u043a\u043d\u0443\u043b\u0441\u044f \u0441\u043e \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u043c\u0438 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0430\u043c\u0438:<\/p>\n<ul>\n<li>\n<p>Label Studio \u043d\u0435\u00a0\u043f\u0440\u0435\u0434\u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0432\u0441\u0442\u0440\u043e\u0435\u043d\u043d\u043e\u0433\u043e \u043f\u0430\u0440\u0441\u0435\u0440\u0430 \u0442\u0435\u043a\u0441\u0442\u0430 \u0438\u0437\u00a0PDF\u00a0\u2014 \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0441\u0430\u043c\u0438\u043c \u0432\u044b\u0442\u0430\u0449\u0438\u0442\u044c \u0442\u0435\u043a\u0441\u0442 \u043e\u0442\u0442\u0443\u0434\u0430.<\/p>\n<\/li>\n<li>\n<p>\u0415\u0441\u043b\u0438 \u0437\u0430\u0433\u0440\u0443\u0436\u0430\u0442\u044c \u0432\u00a0Label Studio.txt\u2011\u0444\u0430\u0439\u043b\u044b, \u0442\u043e \u043e\u043d \u043d\u0435\u00a0\u043c\u043e\u0436\u0435\u0442 \u0438\u0445 \u043f\u0440\u043e\u0447\u0438\u0442\u0430\u0442\u044c, \u0430\u00a0\u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u043f\u0440\u043e\u0441\u0442\u043e \u0441\u0441\u044b\u043b\u043a\u0443.<\/p>\n<\/li>\n<\/ul>\n<p>\u0420\u0435\u0448\u0438\u043b \u044f \u044d\u0442\u0438 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u044b \u0442\u0435\u043c, \u0447\u0442\u043e\u00a0\u043d\u0430\u043f\u0438\u0441\u0430\u043b \u043f\u0440\u043e\u0441\u0442\u0435\u043d\u044c\u043a\u0438\u0439 \u043f\u0430\u0440\u0441\u0435\u0440 \u0442\u0435\u043a\u0441\u0442\u0430 \u0438\u0437\u00a0PDF, \u0430\u00a0\u043f\u043e\u0441\u043b\u0435 \u043f\u0435\u0440\u0435\u0432\u0451\u043b \u0438\u0445 \u0432\u00a0\u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0451\u043d\u043d\u044b\u0439 \u0444\u043e\u0440\u043c\u0430\u0442 JSON, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0435\u0442 Label Studio \u0438 \u0445\u043e\u0440\u043e\u0448\u043e \u0441\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u0442.<\/p>\n<p>\u0421\u043a\u0438\u0434\u044b\u0432\u0430\u044e \u0432\u0430\u043c \u0441\u043a\u0440\u0438\u043f\u0442 \u0434\u043b\u044f\u00a0\u044d\u0442\u043e\u0433\u043e: <\/p>\n<details class=\"spoiler\">\n<summary>Python \u043a\u043e\u0434 \u0434\u043b\u044f \u043f\u0435\u0440\u0435\u0432\u043e\u0434\u0430 pdf \u0444\u0430\u0439\u043b\u043e\u0432 \u0432 json \u0434\u043b\u044f Label Studio<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\"># pip install pdfplumberimport pdfplumberimport jsonimport osimport sysdef extract_text_from_pdf(pdf_path: str) -&gt; str:    \"\"\"\u0418\u0437\u0432\u043b\u0435\u043a\u0430\u0435\u0442 \u0442\u0435\u043a\u0441\u0442 \u0438\u0437 PDF \u0444\u0430\u0439\u043b\u0430.\"\"\"    pages = []    with pdfplumber.open(pdf_path) as pdf:        for page in pdf.pages:            text = page.extract_text()            if text:                pages.append(text)    return \"\\n\\n\".join(pages)def pdfs_to_label_studio_json(pdf_dir: str, output_path: str = \"label_studio_import.json\"):    \"\"\"\u0421\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u0442 \u0432\u0441\u0435 PDF \u0438\u0437 \u043f\u0430\u043f\u043a\u0438 \u0438 \u0444\u043e\u0440\u043c\u0438\u0440\u0443\u0435\u0442 JSON \u0434\u043b\u044f Label Studio.\"\"\"    tasks = []    for filename in sorted(os.listdir(pdf_dir)):        if not filename.lower().endswith(\".pdf\"):            continue        pdf_path = os.path.join(pdf_dir, filename)        text = extract_text_from_pdf(pdf_path)        if not text.strip():            print(f\"[!] \u041f\u0443\u0441\u0442\u043e\u0439 \u0442\u0435\u043a\u0441\u0442: {filename}\")            continue        tasks.append({\"text\": text})        print(f\"[+] {filename} \u2014 {len(text)} \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432\")    with open(output_path, \"w\", encoding=\"utf-8\") as f:        json.dump(tasks, f, ensure_ascii=False, indent=2)    print(f\"\\n\u0413\u043e\u0442\u043e\u0432\u043e: {len(tasks)} \u0437\u0430\u0434\u0430\u0447 \u2192 {output_path}\")if __name__ == \"__main__\":    pdf_dir = sys.argv[1] if len(sys.argv) &gt; 1 else \"pdfs\"    output = sys.argv[2] if len(sys.argv) &gt; 2 else \"label_studio_import.json\"    pdfs_to_label_studio_json(pdf_dir, output)<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u041f\u0435\u0440\u0435\u0434 \u0437\u0430\u043f\u0443\u0441\u043a\u043e\u043c, \u043f\u043e\u043c\u0435\u0441\u0442\u0438\u0442\u0435 \u0432\u0441\u0435 \u0432\u0430\u0448\u0438 pdf \u0444\u0430\u0439\u043b\u044b \u0432\u00a0\u043f\u0430\u043f\u043a\u0443, \u0430\u00a0\u043f\u043e\u0441\u043b\u0435 \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u0435 \u0435\u0433\u043e \u043a\u043e\u043c\u0430\u043d\u0434\u043e\u0439<\/p>\n<pre><code class=\"powershell\">python .\/script.py path\/to\/pdfs<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041f\u043e\u0441\u043b\u0435 \u044d\u0442\u043e\u0433\u043e \u0441\u043e\u0437\u0434\u0430\u0441\u0442\u0441\u044f JSON, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0437\u0430\u0433\u0440\u0443\u0436\u0430\u0435\u0442\u0441\u044f \u0432\u00a0Label Studio \u043d\u0430\u00a0\u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0435 \u00abData Import\u00bb<\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/b3e\/b20\/261\/b3eb20261633b55f5dd06f31a546dff6.png\" alt=\"\u0417\u0430\u0433\u0440\u0443\u0437\u043a\u0430 \u0434\u0430\u043d\u043d\u044b\u0445 \u0432 Label Studio\" title=\"\u0417\u0430\u0433\u0440\u0443\u0437\u043a\u0430 \u0434\u0430\u043d\u043d\u044b\u0445 \u0432 Label Studio\" width=\"1772\" height=\"346\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/b3e\/b20\/261\/b3eb20261633b55f5dd06f31a546dff6.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/b3e\/b20\/261\/b3eb20261633b55f5dd06f31a546dff6.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0417\u0430\u0433\u0440\u0443\u0437\u043a\u0430 \u0434\u0430\u043d\u043d\u044b\u0445 \u0432\u00a0Label Studio<\/figcaption><\/div>\n<\/figure>\n<p>\u0414\u0430\u043b\u0435\u0435 \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0438\u043c \u0444\u043e\u0440\u043c\u0430\u0442 \u0434\u0430\u043d\u043d\u044b\u0445. \u0414\u043b\u044f\u00a0\u044d\u0442\u043e\u0433\u043e \u043f\u0435\u0440\u0435\u0439\u0434\u0438\u0442\u0435 \u0432 \u00abLabeling Setup\u00bb. \u0412\u00a0\u043d\u0435\u0439 \u0432\u044b\u0431\u0435\u0440\u0435\u0442\u0435 \u043e\u0431\u043b\u0430\u0441\u0442\u044c \u00abNatural Language Processing\u00bb, \u0430\u00a0\u043f\u043e\u0441\u043b\u0435 \u0437\u0430\u0434\u0430\u0447\u0443 \u00abNamed Entity Recognition\u00bb. <\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/1b1\/58b\/bd2\/1b158bbd2f39cecaeacfeba4ec399cf0.png\" alt=\"\u0412\u044b\u0431\u043e\u0440 NER \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u0432 Label Studio\" title=\"\u0412\u044b\u0431\u043e\u0440 NER \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u0432 Label Studio\" width=\"1794\" height=\"391\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/1b1\/58b\/bd2\/1b158bbd2f39cecaeacfeba4ec399cf0.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/1b1\/58b\/bd2\/1b158bbd2f39cecaeacfeba4ec399cf0.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0412\u044b\u0431\u043e\u0440 NER \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u0432\u00a0Label Studio<\/figcaption><\/div>\n<\/figure>\n<p>\u0414\u0430\u043b\u0435\u0435 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0434\u043e\u0431\u0430\u0432\u0438\u0442\u044c \u0442\u0435\u0433\u0438 \u0434\u043b\u044f\u00a0\u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438. \u041d\u0430\u0448\u0438 \u0442\u0435\u0433\u0438: NAME, SURNAME, EMAIL, PHONE, SKILL, SALARY. \u0427\u0442\u043e\u0431\u044b \u0442\u0435\u0433\u0438 \u0434\u043e\u0431\u0430\u0432\u0438\u043b\u0438\u0441\u044c \u0432\u00a0\u043f\u0440\u043e\u0435\u043a\u0442\u00a0\u2014 \u0432\u0432\u0435\u0434\u0438\u0442\u0435 \u0438\u0445 \u0432\u00a0\u043f\u043e\u043b\u0435 \u00abAdd label names\u00bb \u043a\u0430\u0436\u0434\u044b\u0439 \u0441\u00a0\u043d\u043e\u0432\u043e\u0439 \u0441\u0442\u0440\u043e\u043a\u0438 \u0438 \u043d\u0430\u0436\u043c\u0438\u0442\u0435 \u00abAdd\u00bb. <\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/5d0\/07f\/69f\/5d007f69fd0cbce5f84594d2c0fc487c.png\" alt=\"\u0414\u043e\u0431\u0430\u0432\u043b\u0435\u043d\u0438\u0435 NER \u0442\u0435\u0433\u043e\u0432 \u0432 Label Studio\" title=\"\u0414\u043e\u0431\u0430\u0432\u043b\u0435\u043d\u0438\u0435 NER \u0442\u0435\u0433\u043e\u0432 \u0432 Label Studio\" width=\"582\" height=\"564\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/5d0\/07f\/69f\/5d007f69fd0cbce5f84594d2c0fc487c.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/5d0\/07f\/69f\/5d007f69fd0cbce5f84594d2c0fc487c.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0414\u043e\u0431\u0430\u0432\u043b\u0435\u043d\u0438\u0435 NER \u0442\u0435\u0433\u043e\u0432 \u0432\u00a0Label Studio<\/figcaption><\/div>\n<\/figure>\n<p>\u041f\u043e\u0441\u043b\u0435 \u0434\u043e\u0431\u0430\u0432\u043b\u0435\u043d\u0438\u044f \u0434\u043b\u044f\u00a0\u0443\u0434\u043e\u0431\u0441\u0442\u0432\u0430 \u043c\u043e\u0436\u043d\u043e \u0434\u043e\u0431\u0430\u0432\u0438\u0442\u044c \u0446\u0432\u0435\u0442\u0430 \u0434\u043b\u044f\u00a0\u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0442\u0435\u0433\u0430. \u041e\u0431\u044b\u0447\u043d\u043e \u044f \u0432\u044b\u0441\u0442\u0430\u0432\u043b\u044f\u044e \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0435 \u0446\u0432\u0435\u0442\u0430, \u0447\u0442\u043e\u0431\u044b \u043e\u043d\u0438 \u043d\u0435\u00a0\u0441\u043c\u0435\u0448\u0438\u0432\u0430\u043b\u0438\u0441\u044c \u043f\u0440\u0438\u00a0\u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0435 \u0438 \u0438\u0445 \u043c\u043e\u0436\u043d\u043e\u00a0\u0431\u044b\u043b\u043e\u00a0\u0431\u044b\u0441\u0442\u0440\u043e \u043e\u0442\u043b\u0438\u0447\u0438\u0442\u044c, \u0438 \u0432\u0430\u043c \u0441\u043e\u0432\u0435\u0442\u0443\u044e. <\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/a21\/ff7\/c16\/a21ff7c16737ee449a2d5681ccae921b.png\" alt=\"\u041d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0430 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438\" title=\"\u041d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0430 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438\" width=\"1637\" height=\"651\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/a21\/ff7\/c16\/a21ff7c16737ee449a2d5681ccae921b.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/a21\/ff7\/c16\/a21ff7c16737ee449a2d5681ccae921b.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u041d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0430 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438<\/figcaption><\/div>\n<\/figure>\n<p>\u041f\u043e\u0441\u043b\u0435 \u044d\u0442\u043e\u0433\u043e \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442\u0441\u044f \u00ab\u0441\u0430\u043c\u043e\u0435 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u043e\u0435\u00bb\u00a0\u2014 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0430. \u0427\u0442\u043e\u0431\u044b \u0440\u0430\u0437\u043c\u0435\u0442\u0438\u0442\u044c \u0432\u00a0\u0442\u0435\u043a\u0441\u0442\u0435 \u043d\u0443\u0436\u043d\u044b\u0435 \u0442\u0435\u0433\u0438\u00a0\u2014 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0432\u044b\u0431\u0440\u0430\u0442\u044c \u043d\u0443\u0436\u043d\u044b\u0435 \u0442\u0435\u0433 (\u043a\u043b\u0438\u043a\u043d\u0443\u0442\u044c \u043d\u0430\u00a0\u043d\u0435\u0433\u043e), \u0430\u00a0\u043f\u043e\u0441\u043b\u0435 \u0432\u044b\u0434\u0435\u043b\u0438\u0442\u044c \u043d\u0443\u0436\u043d\u044b\u0439 \u0444\u0440\u0430\u0433\u043c\u0435\u043d\u0442 \u0432\u00a0\u0442\u0435\u043a\u0441\u0442\u0435 \u043f\u043e\u0434\u00a0\u044d\u0442\u043e\u0442 \u0442\u0435\u0433. \u0414\u043b\u044f\u00a0\u0443\u0441\u043a\u043e\u0440\u0435\u043d\u0438\u044f \u044f \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e \u043a\u043b\u0430\u0432\u0438\u0430\u0442\u0443\u0440\u0443\u00a0\u2014 \u043d\u0430\u0436\u0438\u043c\u0430\u044f \u00ab1\u00bb, \u00ab2\u00bb,&#8230;\u00a0\u2014 \u043c\u043e\u0436\u043d\u043e \u043f\u0435\u0440\u0435\u043a\u043b\u044e\u0447\u0430\u0442\u044c\u0441\u044f \u043c\u0435\u0436\u0434\u0443 \u0442\u0435\u0433\u0430\u043c\u0438. <\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/bdd\/3ef\/b4e\/bdd3efb4e79eae459679f0ec2484f4f1.png\" alt=\"NER \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0430 \u0432 Label Studio\" title=\"NER \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0430 \u0432 Label Studio\" width=\"1900\" height=\"855\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/bdd\/3ef\/b4e\/bdd3efb4e79eae459679f0ec2484f4f1.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/bdd\/3ef\/b4e\/bdd3efb4e79eae459679f0ec2484f4f1.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>NER \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0430 \u0432\u00a0Label Studio<\/figcaption><\/div>\n<\/figure>\n<p>\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u0448\u0430\u0433 \u0437\u0430\u00a0\u0448\u0430\u0433\u043e\u043c \u043f\u0440\u043e\u0438\u0441\u0445\u043e\u0434\u0438\u0442 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0430 \u0432\u0441\u0435\u0445 \u0442\u0435\u043a\u0441\u0442\u043e\u0432\u044b\u0445 \u043f\u0440\u0438\u043c\u0435\u0440\u043e\u0432 \u043f\u043e\u00a0\u043d\u0443\u0436\u043d\u044b\u043c \u0442\u0435\u0433\u0430\u043c. <\/p>\n<p>\u041f\u043e\u0441\u043b\u0435 \u043a\u0430\u0436\u0434\u043e\u0439 \u0438\u0442\u0435\u0440\u0430\u0446\u0438\u0438 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 (\u0430 \u043b\u0443\u0447\u0448\u0435 \u0440\u0430\u0437 \u0432\u00a0\u043c\u0438\u043d\u0443\u0442\u0443) \u043d\u0435\u00a0\u0437\u0430\u0431\u044b\u0432\u0430\u0439\u0442\u0435 \u043d\u0430\u0436\u0438\u043c\u0430\u0442\u044c \u00abSubmit\u00bb, \u0447\u0442\u043e\u0431\u044b \u0441\u043e\u0445\u0440\u0430\u043d\u0438\u0442\u044c \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0443. <\/p>\n<p>\u0414\u0430\u043b\u0435\u0435. \u041f\u043e\u0441\u043b\u0435 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0435\u0433\u043e \u0432\u044b\u0433\u0440\u0443\u0437\u0438\u0442\u044c. <\/p>\n<p>\u041a\u0430\u043a\u00a0\u043e\u0431\u0441\u0443\u0436\u0434\u0430\u043b\u0438 \u0432\u044b\u0448\u0435, \u043d\u0430\u043c \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u044b \u0434\u0430\u043d\u043d\u044b\u0435 \u0432\u00a0\u0444\u043e\u0440\u043c\u0430\u0442\u0435 BIO. \u0412\u00a0Label Studio \u043d\u0435\u0442 \u0432\u0441\u0442\u0440\u043e\u0435\u043d\u043d\u043e\u0433\u043e \u0444\u0443\u043d\u043a\u0446\u0438\u043e\u043d\u0430\u043b\u0430 \u0434\u043b\u044f\u00a0\u0432\u044b\u0433\u0440\u0443\u0437\u043a\u0438 \u0434\u0430\u043d\u043d\u044b\u0445 \u0432\u00a0\u0442\u0430\u043a\u043e\u043c \u0444\u043e\u0440\u043c\u0430\u0442\u0435. <\/p>\n<p>\u041c\u044b\u00a0\u0431\u044b \u043c\u043e\u0433\u043b\u0438 \u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u0432\u044b\u0431\u0440\u0430\u0442\u044c \u0442\u0435\u0433\u0438 \u0432\u00a0\u0442\u0430\u043a\u043e\u043c \u0444\u043e\u0440\u043c\u0430\u0442\u0435 \u0438 \u0440\u0430\u0437\u043c\u0435\u0447\u0430\u0442\u044c: <\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/7db\/151\/a69\/7db151a69a87086358c8b06f3d8e3084.png\" alt=\"\" title=\"\" width=\"591\" height=\"735\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/7db\/151\/a69\/7db151a69a87086358c8b06f3d8e3084.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/7db\/151\/a69\/7db151a69a87086358c8b06f3d8e3084.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u041c\u043d\u0435 \u043f\u043e\u043a\u0430\u0437\u0430\u043b\u043e\u0441\u044c \u044d\u0442\u043e \u043d\u0435\u0443\u0434\u043e\u0431\u043d\u044b\u043c \u0438 \u0437\u0430\u043c\u0435\u0434\u043b\u044f\u044e\u0449\u0438\u043c \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0443. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u044f \u043f\u0440\u0438\u0448\u0451\u043b \u043a\u00a0\u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0435\u043c\u0443 \u0440\u0435\u0448\u0435\u043d\u0438\u044e\u00a0\u2014 \u043e\u0441\u0442\u0430\u0432\u0438\u0442\u044c \u0442\u0435\u0433\u0438 \u0432 Label Studio \u043a\u0430\u043a \u0435\u0441\u0442\u044c \u0438 \u0432\u044b\u0433\u0440\u0443\u0436\u0430\u0442\u044c \u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u0432\u00a0\u0434\u043e\u0441\u0442\u0443\u043f\u043d\u043e\u043c \u0444\u043e\u0440\u043c\u0430\u0442\u0435, \u0441\u043a\u0440\u0438\u043f\u0442\u043e\u043c \u043f\u0435\u0440\u0435\u0432\u0435\u0434\u044f \u0435\u0433\u043e \u0432\u00a0\u0444\u043e\u0440\u043c\u0430\u0442 BIO. <\/p>\n<p>\u0427\u0442\u043e\u0431\u044b \u0432\u044b\u0433\u0440\u0443\u0437\u0438\u0442\u044c \u0434\u0430\u043d\u043d\u044b\u0435, \u043d\u0443\u0436\u043d\u043e \u043d\u0430\u00a0\u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0435 \u043f\u0440\u043e\u0435\u043a\u0442\u0430 \u043d\u0430\u0436\u0430\u0442\u044c \u043a\u043d\u043e\u043f\u043a\u0443 &#171;Export&#187;, \u0430\u00a0\u043f\u043e\u0441\u043b\u0435 \u0432\u044b\u0431\u0440\u0430\u0442\u044c \u043d\u0443\u0436\u043d\u044b\u0439 \u0444\u043e\u0440\u043c\u0430\u0442. \u042f \u0432\u044b\u0431\u0435\u0440\u0443 JSON. <\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/46c\/7ac\/2e4\/46c7ac2e4d93193704895badd803409d.png\" alt=\"\u042d\u043a\u0441\u043f\u043e\u0440\u0442 \u0434\u0430\u043d\u043d\u044b\u0445 \u0438\u0437 Label Studio\" title=\"\u042d\u043a\u0441\u043f\u043e\u0440\u0442 \u0434\u0430\u043d\u043d\u044b\u0445 \u0438\u0437 Label Studio\" width=\"1226\" height=\"647\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/46c\/7ac\/2e4\/46c7ac2e4d93193704895badd803409d.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/46c\/7ac\/2e4\/46c7ac2e4d93193704895badd803409d.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u042d\u043a\u0441\u043f\u043e\u0440\u0442 \u0434\u0430\u043d\u043d\u044b\u0445 \u0438\u0437\u00a0Label Studio<\/figcaption><\/div>\n<\/figure>\n<p>\u041f\u043e\u0441\u043b\u0435 \u044d\u0442\u043e\u0433\u043e \u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u043c\u043e\u0436\u043d\u043e \u0444\u043e\u0440\u043c\u0430\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432\u00a0BIO \u043f\u0440\u0438\u00a0\u043f\u043e\u043c\u043e\u0449\u0438 \u0441\u043a\u0440\u0438\u043f\u0442\u0430: <\/p>\n<details class=\"spoiler\">\n<summary>Python \u0441\u043a\u0440\u0438\u043f\u0442 \u0434\u043b\u044f \u043f\u0435\u0440\u0435\u0432\u043e\u0434\u0430 JSON \u0438\u0437 Label Studio \u0432 BIO \u0444\u043e\u0440\u043c\u0430\u0442<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\"># pip install openpyxlimport jsonimport argparsefrom openpyxl import Workbookfrom openpyxl.styles import Font, Alignment, PatternFilldef tokenize_simple(text: str):    tokens = []    i = 0    while i &lt; len(text):        if text[i].isspace():            i += 1            continue        j = i        while j &lt; len(text) and not text[j].isspace():            j += 1        tokens.append((text[i:j], i, j))        i = j    return tokensdef spans_to_bio(text: str, spans: list[dict]) -&gt; list[str]:    tokens = tokenize_simple(text)    spans = sorted(spans, key=lambda s: s[\"start\"])    tags = []    for tok_text, tok_start, tok_end in tokens:        tag = \"O\"        for span in spans:            s, e = span[\"start\"], span[\"end\"]            label = span[\"labels\"][0]            if tok_start &gt;= s and tok_end &lt;= e:                tag = f\"B-{label}\" if tok_start == s else f\"I-{label}\"                break            elif tok_start &lt; e and tok_end &gt; s:                tag = f\"B-{label}\" if tok_start &lt;= s else f\"I-{label}\"                break        tags.append(tag)    return tagsdef convert(input_path: str, output_path: str):    with open(input_path, \"r\", encoding=\"utf-8\") as f:        data = json.load(f)    wb = Workbook()    ws = wb.active    ws.title = \"BIO Tags\"    # \u0417\u0430\u0433\u043e\u043b\u043e\u0432\u043a\u0438    ws[\"A1\"] = \"text\"    ws[\"B1\"] = \"bio_tags\"    for cell in [ws[\"A1\"], ws[\"B1\"]]:        cell.font = Font(bold=True, name=\"Arial\", size=11)        cell.fill = PatternFill(\"solid\", fgColor=\"D9E2F3\")        cell.alignment = Alignment(horizontal=\"center\")    row = 2    for task in data:        text = task.get(\"data\", {}).get(\"text\", \"\")        if not text:            for key in task.get(\"data\", {}):                val = task[\"data\"][key]                if isinstance(val, str) and len(val) &gt; 10:                    text = val                    break        if not text:            continue        spans = []        annotations = task.get(\"annotations\", []) or task.get(\"completions\", [])        for ann in annotations:            for result in ann.get(\"result\", []):                if result.get(\"type\") == \"labels\":                    v = result[\"value\"]                    spans.append({\"start\": v[\"start\"], \"end\": v[\"end\"], \"labels\": v[\"labels\"]})        tags = spans_to_bio(text, spans)        ws.cell(row=row, column=1, value=text).font = Font(name=\"Arial\", size=10)        ws.cell(row=row, column=2, value=str(tags)).font = Font(name=\"Arial\", size=10)        row += 1    ws.column_dimensions[\"A\"].width = 60    ws.column_dimensions[\"B\"].width = 80    ws.auto_filter.ref = ws.dimensions    wb.save(output_path)    print(f\"\u0413\u043e\u0442\u043e\u0432\u043e! \u0421\u0442\u0440\u043e\u043a: {row - 2}. \u0421\u043e\u0445\u0440\u0430\u043d\u0435\u043d\u043e: {output_path}\")if __name__ == \"__main__\":    parser = argparse.ArgumentParser(description=\"Label Studio JSON \u0432 Excel BIO\")    parser.add_argument(\"input\", help=\"JSON-\u044d\u043a\u0441\u043f\u043e\u0440\u0442 \u0438\u0437 Label Studio\")    parser.add_argument(\"output\", help=\"\u0412\u044b\u0445\u043e\u0434\u043d\u043e\u0439 .xlsx \u0444\u0430\u0439\u043b\")    args = parser.parse_args()    convert(args.input, args.output)<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u042d\u0442\u043e \u043c\u043e\u0436\u043d\u043e \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u043a\u043e\u043c\u0430\u043d\u0434\u043e\u0439 <\/p>\n<pre><code class=\"powershell\">json2bio.py .\/annotation.json output.xlsx<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043c Excel \u0442\u0430\u0431\u043b\u0438\u0447\u043a\u0443 \u0441\u00a0\u0440\u0430\u0437\u043c\u0435\u0442\u043a\u043e\u0439 \u0432\u00a0\u0444\u043e\u0440\u043c\u0430\u0442\u0435:<\/p>\n<ul>\n<li>\n<p>text: \u00ab\u0410\u043b\u0435\u043a\u0441\u0435\u0439 \u0421\u043c\u0438\u0440\u043d\u043e\u0432 \u0437\u043d\u0430\u0435\u0442 Python \u0437\u043f 150000\u00bb <\/p>\n<\/li>\n<\/ul>\n<ul>\n<li>\n<p>bio_tags: [&#8216;B\u2011NAME&#8217;, &#8216;B\u2011SURNAME&#8217;, &#8216;O&#8217;, &#8216;B\u2011SKILL&#8217;, &#8216;O&#8217;, &#8216;B\u2011SALARY&#8217;] <\/p>\n<\/li>\n<\/ul>\n<p>\u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u0441\u0434\u0435\u043b\u0430\u0435\u043c \u043d\u0435\u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u043f\u0440\u043e\u043c\u0435\u0436\u0443\u0442\u043e\u0447\u043d\u044b\u0439 \u0438\u0442\u043e\u0433\u00a0\u2014 \u044d\u0442\u043e\u0442 \u043f\u043e\u0434\u0445\u043e\u0434 \u0441\u00a0\u0440\u0443\u0447\u043d\u043e\u0439 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u043e\u0439 \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0441\u0430\u043c\u044b\u043c \u0440\u0435\u0441\u0443\u0440\u0441\u043e\u0437\u0430\u0442\u0440\u0430\u0442\u043d\u044b\u043c, \u043d\u043e\u00a0\u0432\u00a0\u0442\u043e\u00a0\u0436\u0435 \u0432\u0440\u0435\u043c\u044f \u0441\u0430\u043c\u044b\u043c \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u043c \u043f\u043e\u0434\u0445\u043e\u0434\u043e\u043c \u043a\u00a0\u043f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u043a\u0435 \u0434\u0430\u043d\u043d\u044b\u0445. \u0412\u044b\u0448\u0435 \u044f \u043f\u0440\u043e\u0434\u0435\u043c\u043e\u043d\u0441\u0442\u0440\u0438\u0440\u043e\u0432\u0430\u043b, \u043a\u0430\u043a\u00a0\u044d\u0442\u043e \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u043f\u0440\u0438\u00a0\u043f\u043e\u043c\u043e\u0449\u0438 Label Studio. \u0414\u0430\u043b\u0435\u0435 \u043f\u0435\u0440\u0435\u0439\u0434\u0451\u043c \u043a\u00a0\u043f\u043e\u0434\u0445\u043e\u0434\u0443 \u0441\u043e\u0437\u0434\u0430\u043d\u0438\u044f \u0441\u0438\u043d\u0442\u0435\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0434\u0430\u043d\u043d\u044b\u0445. <\/p>\n<h3>\u0413\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u044f \u0434\u0430\u043d\u043d\u044b\u0445<\/h3>\n<p>\u0412\u00a0\u044d\u0442\u043e\u043c \u0440\u0430\u0437\u0434\u0435\u043b\u0435 \u043c\u044b \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043f\u043e\u0434\u0445\u043e\u0434\u044b \u043a\u00a0\u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u0438 \u0434\u0430\u043d\u043d\u044b\u0445 \u0434\u043b\u044f\u00a0\u043d\u0430\u0448\u0435\u0439 \u0437\u0430\u0434\u0430\u0447\u0438. <\/p>\n<p>\u041f\u0435\u0440\u0432\u044b\u0439 \u0441\u043f\u043e\u0441\u043e\u0431, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u044f \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043b\u00a0\u2014 \u044d\u0442\u043e \u043f\u0435\u0440\u0435\u0432\u043e\u0434 \u043d\u0430\u0439\u0434\u0435\u043d\u043d\u044b\u0445 \u0440\u0430\u043d\u0435\u0435 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u043e\u0432 \u0441\u00a0\u0430\u043d\u0433\u043b\u0438\u0439\u0441\u043a\u043e\u0433\u043e \u043d\u0430\u00a0\u0440\u0443\u0441\u0441\u043a\u0438\u0439 \u044f\u0437\u044b\u043a \u0438 \u043f\u043e\u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0439 \u043f\u0440\u043e\u0433\u043e\u043d \u044d\u0442\u0438\u0445 \u0434\u0430\u043d\u043d\u044b\u0445 \u0447\u0435\u0440\u0435\u0437 LLM \u0434\u043b\u044f\u00a0\u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438. <\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/167\/fb5\/755\/167fb5755d7d6177bf827ab95462afe8.png\" alt=\"\u0413\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u044f NER \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u0438\u0437 \u0441\u0445\u043e\u0436\u0435\u0433\u043e \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430 \u043d\u0430 \u0434\u0440\u0443\u0433\u043e\u043c \u044f\u0437\u044b\u043a\u0435.\" title=\"\u0413\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u044f NER \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u0438\u0437 \u0441\u0445\u043e\u0436\u0435\u0433\u043e \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430 \u043d\u0430 \u0434\u0440\u0443\u0433\u043e\u043c \u044f\u0437\u044b\u043a\u0435.\" width=\"1695\" height=\"246\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/167\/fb5\/755\/167fb5755d7d6177bf827ab95462afe8.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/167\/fb5\/755\/167fb5755d7d6177bf827ab95462afe8.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0413\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u044f NER \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u0438\u0437\u00a0\u0441\u0445\u043e\u0436\u0435\u0433\u043e \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430 \u043d\u0430\u00a0\u0434\u0440\u0443\u0433\u043e\u043c \u044f\u0437\u044b\u043a\u0435.<\/figcaption><\/div>\n<\/figure>\n<p>\u042f \u0432\u0437\u044f\u043b \u043d\u0435\u0431\u043e\u043b\u044c\u0448\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0440\u0435\u0437\u044e\u043c\u0435 \u0438\u0437\u00a0<a href=\"https:\/\/huggingface.co\/datasets\/Mehyaar\/Annotated_NER_PDF_Resumes\" rel=\"noopener noreferrer nofollow\">\u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430 <\/a>\u043d\u0430 \u0430\u043d\u0433\u043b\u0438\u0439\u0441\u043a\u043e\u043c \u044f\u0437\u044b\u043a\u0435, \u043f\u0435\u0440\u0435\u0432\u0451\u043b \u0438\u0445 \u043d\u0430\u00a0\u0440\u0443\u0441\u0441\u043a\u0438\u0439 \u044f\u0437\u044b\u043a. \u0422\u0430\u043a \u043a\u0430\u043a\u00a0\u043c\u044b \u0440\u0435\u0448\u0430\u043b\u0438 \u0437\u0430\u0434\u0430\u0447\u0443 \u0434\u043b\u044f\u00a0\u0440\u0443\u0441\u0441\u043a\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430, \u043f\u043e\u043c\u0438\u043c\u043e \u043f\u0435\u0440\u0435\u0432\u043e\u0434\u0430 \u0441\u0430\u043c\u043e\u0433\u043e \u0442\u0435\u043a\u0441\u0442\u0430 \u0437\u0430\u043c\u0435\u043d\u044f\u043b\u0438 \u0438\u043d\u043e\u0441\u0442\u0440\u0430\u043d\u043d\u044b\u0435 \u0438\u043c\u0435\u043d\u0430 \u0438 \u0444\u0430\u043c\u0438\u043b\u0438\u0438 \u043d\u0430\u00a0\u0440\u0443\u0441\u0441\u043a\u0438\u0435. \u041f\u0440\u0438\u00a0\u043f\u0435\u0440\u0435\u0432\u043e\u0434\u0435 \u0432\u043e\u0437\u043d\u0438\u043a\u0430\u043b\u0438 \u0438 \u0434\u0440\u0443\u0433\u0438\u0435 \u043f\u043e\u0442\u0435\u0440\u0438\u00a0\u2014 email \u0438 \u0442\u0435\u043b\u0435\u0444\u043e\u043d\u044b \u0438\u043d\u043e\u0433\u0434\u0430 \u043a\u043e\u0432\u0435\u0440\u043a\u0430\u043b\u0438\u0441\u044c, \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0435 \u043d\u0435\u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0439 \u0442\u043e\u0436\u0435 \u043f\u0435\u0440\u0435\u0432\u043e\u0434\u0438\u043b\u0438\u0441\u044c (\u043f\u0438\u0442\u043e\u043d). \u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u043f\u043e\u0441\u043b\u0435 \u043f\u0435\u0440\u0435\u0432\u043e\u0434\u0430 \u0442\u0440\u0435\u0431\u043e\u0432\u0430\u043b\u0430\u0441\u044c \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u0430\u044f \u0432\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u044f (\u0442\u043e\u0436\u0435 LLM). \u0414\u0430\u043b\u0435\u0435 \u0438\u0437\u00a0\u043f\u0435\u0440\u0435\u0432\u0435\u0434\u0451\u043d\u043d\u044b\u0445 \u0440\u0435\u0437\u044e\u043c\u0435 \u044f \u0438\u0437\u0432\u043b\u0451\u043a \u043d\u0443\u0436\u043d\u044b\u0435 \u043c\u043d\u0435 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438 (NAME, SURNAME, EMAIL, PHONE, SKILL, SALARY). \u041f\u043e\u0441\u043b\u0435 \u044d\u0442\u043e\u0433\u043e \u043d\u0430\u00a0\u043e\u0441\u043d\u043e\u0432\u0435 \u043d\u0430\u0439\u0434\u0435\u043d\u043d\u044b\u0445 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0435\u0439 \u044f \u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u043b BIO\u2011\u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0443 \u0432\u00a0\u0444\u043e\u0440\u043c\u0430\u0442\u0435: [\u00abword\u00bb, \u00abword\u00bb, \u2026]\u00a0\u2014 [\u00abO\u00bb, \u00abB\u2011&#8230;\u00bb, \u2026]<\/p>\n<p>\u0414\u043b\u044f\u00a0\u043f\u0435\u0440\u0435\u0432\u043e\u0434\u0430 \u0438 \u0438\u0437\u0432\u043b\u0435\u0447\u0435\u043d\u0438\u044f \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0435\u0439 \u044f \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043b gpt-4o\u2011mini \u043f\u043e\u00a0API. \u0412\u00a0\u0446\u0435\u043b\u043e\u043c, \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u043e\u043a\u0430\u0437\u0430\u043b\u0430 \u0445\u043e\u0440\u043e\u0448\u0435\u0435 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u0438\u0437\u0432\u043b\u0435\u0447\u0435\u043d\u0438\u044f \u0438 \u043d\u0435\u00a0\u0434\u043e\u043f\u0443\u0441\u043a\u0430\u043b\u0430 \u043c\u043d\u043e\u0433\u043e \u043e\u0448\u0438\u0431\u043e\u043a. \u041a\u0441\u0442\u0430\u0442\u0438, \u043d\u0430\u0441\u0447\u0451\u0442 \u043e\u0448\u0438\u0431\u043e\u043a\u00a0\u2014 \u0432\u043e\u0437\u043d\u0438\u043a\u0430\u043b\u0438 \u043c\u043e\u043c\u0435\u043d\u0442\u044b, \u043a\u043e\u0433\u0434\u0430 LLM \u043d\u0435\u00a0\u0440\u0430\u0437\u043c\u0435\u0447\u0430\u043b\u0430 \u043a\u0430\u043a\u0438\u0435\u2011\u0442\u043e \u0442\u0435\u0433\u0438 \u0438\u043b\u0438\u00a0\u0440\u0430\u0437\u043c\u0435\u0447\u0430\u043b\u0430\u00a0\u043b\u0438\u0448\u043d\u0435\u0433\u043e. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u043e\u0440\u0433\u0430\u043d\u0438\u0437\u0430\u0446\u0438\u0438 \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u043b\u0438\u0441\u044c \u0432\u00a0SKILL (Oracle \u043a\u0430\u043a\u00a0\u0440\u0430\u0431\u043e\u0442\u043e\u0434\u0430\u0442\u0435\u043b\u044c, \u0430\u00a0\u043d\u0435\u00a0\u043a\u0430\u043a\u00a0\u043f\u0440\u043e\u0434\u0443\u043a\u0442), \u0447\u0435\u043b\u043e\u0432\u0435\u0447\u0435\u0441\u043a\u0438\u0435 \u044f\u0437\u044b\u043a\u0438 \u0440\u0430\u0437\u043c\u0435\u0447\u0430\u043b\u0438\u0441\u044c \u043a\u0430\u043a\u00a0\u043d\u0430\u0432\u044b\u043a\u0438 (\u0410\u043d\u0433\u043b\u0438\u0439\u0441\u043a\u0438\u0439, \u0425\u0438\u043d\u0434\u0438), \u0432\u00a0\u0442\u043e\u043a\u0435\u043d\u044b \u043f\u043e\u043f\u0430\u0434\u0430\u043b\u0438 markdown\u2011\u0430\u0440\u0442\u0435\u0444\u0430\u043a\u0442\u044b. \u0422\u0430\u043a\u0436\u0435\u00a0\u0431\u044b\u043b\u0430 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0430\u00a0\u2014 \u043e\u0434\u043d\u0430 \u0438 \u0442\u0430\u00a0\u0436\u0435 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u044f (\u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 Java) \u0432\u00a0\u043e\u0434\u043d\u043e\u043c \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0435 \u043f\u043e\u043c\u0435\u0447\u0430\u043b\u0430\u0441\u044c \u043a\u0430\u043a\u00a0SKILL, \u0430\u00a0\u0432\u00a0\u0434\u0440\u0443\u0433\u043e\u043c \u043e\u0441\u0442\u0430\u0432\u0430\u043b\u0430\u0441\u044c \u0431\u0435\u0437\u00a0\u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438. \u0417\u0434\u0435\u0441\u044c \u044f \u0440\u0435\u0448\u0430\u043b \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0443 \u0447\u0430\u0441\u0442\u0438\u0447\u043d\u044b\u043c \u0440\u0443\u0447\u043d\u044b\u043c \u043f\u0440\u043e\u0441\u043c\u043e\u0442\u0440\u043e\u043c \u0434\u0430\u043d\u043d\u044b\u0445 \u0438 \u0438\u0445 \u0438\u0441\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u0435\u043c, \u0430\u00a0\u0442\u0430\u043a\u0436\u0435 \u043f\u0440\u043e\u0441\u0438\u043b Claude \u043f\u0440\u043e\u0430\u043d\u0430\u043b\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u0438 \u0438\u0441\u043f\u0440\u0430\u0432\u0438\u0442\u044c \u043e\u0448\u0438\u0431\u043a\u0438.<\/p>\n<p>\u0412\u00a0\u0446\u0435\u043b\u043e\u043c \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u044f NER\u2011\u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430\u00a0\u2014 \u043d\u0435\u043f\u0440\u043e\u0441\u0442\u0430\u044f \u0437\u0430\u0434\u0430\u0447\u0430 \u0434\u043b\u044f\u00a0LLM. \u041d\u0430\u00a0\u043c\u043e\u0435\u0439 \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435 \u043f\u0440\u0438\u00a0\u0441\u043e\u0437\u0434\u0430\u043d\u0438\u0438 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430 \u0442\u0430\u043a\u043e\u0433\u043e \u0440\u043e\u0434\u0430 \u043c\u043e\u0434\u0435\u043b\u044c \u0447\u0430\u0441\u0442\u043e \u043e\u0448\u0438\u0431\u0430\u0435\u0442\u0441\u044f, \u043f\u0440\u043e\u043f\u0443\u0441\u043a\u0430\u0435\u0442 \u043a\u0430\u043a\u0438\u0435\u2011\u0442\u043e \u043c\u0435\u0442\u043a\u0438 \u0438\u043b\u0438\u00a0\u0434\u0435\u043b\u0430\u0435\u0442 \u043d\u0435\u0432\u0435\u0440\u043d\u0443\u044e \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0443. \u0420\u0435\u0448\u0430\u043b \u044f \u044d\u0442\u043e \u0440\u0443\u0447\u043d\u044b\u043c \u043f\u0440\u043e\u0441\u043c\u043e\u0442\u0440\u043e\u043c \u0438 \u0438\u0441\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u0435\u043c \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u0441\u00a0\u043f\u043e\u043c\u043e\u0449\u044c\u044e \u0442\u043e\u0439\u00a0\u0436\u0435 LLM. \u041f\u043e\u043c\u0438\u043c\u043e \u044d\u0442\u043e\u0433\u043e, \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043b regex \u0434\u043b\u044f\u00a0\u0434\u043e\u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u043f\u0440\u043e\u043f\u0443\u0449\u0435\u043d\u043d\u044b\u0445 EMAIL \u0438 PHONE\u00a0\u2014 LLM \u0438\u0445 \u0438\u043d\u043e\u0433\u0434\u0430 \u043f\u0440\u043e\u0441\u0442\u043e \u043d\u0435\u00a0\u0437\u0430\u043c\u0435\u0447\u0430\u043b\u0430, \u0430\u00a0\u0440\u0435\u0433\u0443\u043b\u044f\u0440\u043d\u043e\u0435 \u0432\u044b\u0440\u0430\u0436\u0435\u043d\u0438\u0435 \u043b\u043e\u0432\u0438\u0442 100% (\u0435\u0441\u043b\u0438 \u043d\u0435\u00a0\u0441\u0438\u043b\u044c\u043d\u043e \u043a\u043e\u0432\u0435\u0440\u043a\u0430\u044e\u0442\u0441\u044f \u044d\u0442\u0438 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f). \u0422\u0430\u043a\u0436\u0435 \u0432\u0430\u0436\u043d\u044b\u043c \u0448\u0430\u0433\u043e\u043c\u00a0\u0431\u044b\u043b\u043e \u0440\u0430\u0437\u043c\u0435\u0447\u0430\u0442\u044c \u043d\u0430\u0432\u044b\u043a\u0438 (SKILL) \u0432\u0435\u0437\u0434\u0435 \u0432\u00a0\u0442\u0435\u043a\u0441\u0442\u0435 (\u0438 \u0432\u00a0\u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0438 \u043e\u043f\u044b\u0442\u0430, \u0438 \u0432\u00a0\u0441\u0435\u043a\u0446\u0438\u0438 \u043d\u0430\u0432\u044b\u043a\u043e\u0432), \u0430\u00a0\u043d\u0435\u00a0\u0442\u043e\u043b\u044c\u043a\u043e \u0432\u00a0\u0441\u0435\u043a\u0446\u0438\u0438 \u00ab\u041d\u0430\u0432\u044b\u043a\u0438\u00bb\u00a0\u2014 \u0438\u043d\u0430\u0447\u0435 \u043c\u043e\u0434\u0435\u043b\u044c \u0443\u0447\u0438\u0442\u0441\u044f \u043d\u0435 \u00ab\u0447\u0442\u043e \u0442\u0430\u043a\u043e\u0435 \u0441\u043a\u0438\u043b\u043b\u00bb, \u0430 \u00ab\u0447\u0442\u043e \u0441\u0442\u043e\u0438\u0442 \u043f\u043e\u0441\u043b\u0435 \u0441\u043b\u043e\u0432\u0430 \u041d\u0430\u0432\u044b\u043a\u0438\u00bb.<\/p>\n<p>\u0412\u0442\u043e\u0440\u0443\u044e \u0447\u0430\u0441\u0442\u044c \u0434\u0430\u043d\u043d\u044b\u0445 \u044f \u043f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u0438\u043b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044f \u0434\u0440\u0443\u0433\u043e\u0439 \u043f\u043e\u0434\u0445\u043e\u0434\u00a0\u2014 \u043f\u0440\u043e\u0441\u0438\u043b LLM \u0441\u0433\u0435\u043d\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0442\u0435\u043a\u0441\u0442 \u0434\u043b\u044f\u00a0\u0440\u0435\u0437\u044e\u043c\u0435 \u0441\u00a0\u043d\u0443\u0436\u043d\u044b\u043c\u0438 \u043c\u043d\u0435 \u0442\u0435\u0433\u0430\u043c\u0438 (NAME, SURNAME, EMAIL, PHONE, SKILL, SALARY), \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u044f \u0441\u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u043b \u0434\u043b\u044f\u00a0\u043d\u0435\u0451 \u0437\u0430\u0440\u0430\u043d\u0435\u0435.<\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/2be\/9b9\/80c\/2be9b980c4855186b7fab66272952b55.png\" alt=\"\u0413\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u044f NER \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u0438\u0437 \u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u043f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u043b\u0435\u043d\u043d\u044b\u0445 \u0442\u0435\u0433\u043e\u0432\" title=\"\u0413\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u044f NER \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u0438\u0437 \u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u043f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u043b\u0435\u043d\u043d\u044b\u0445 \u0442\u0435\u0433\u043e\u0432\" width=\"1520\" height=\"764\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/2be\/9b9\/80c\/2be9b980c4855186b7fab66272952b55.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/2be\/9b9\/80c\/2be9b980c4855186b7fab66272952b55.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0413\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u044f NER \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u0438\u0437\u00a0\u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u043f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u043b\u0435\u043d\u043d\u044b\u0445 \u0442\u0435\u0433\u043e\u0432<\/figcaption><\/div>\n<\/figure>\n<p>\u0410\u00a0\u0438\u043c\u0435\u043d\u043d\u043e\u00a0\u2014\u00a0\u0431\u044b\u043b\u0438 \u0441\u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u043d\u044b \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0435 \u0440\u043e\u043b\u0438 (DevOps, QA, Data Scientist\u2026) \u0438 \u043f\u043e\u0434\u00a0\u043a\u0430\u0436\u0434\u0443\u044e \u0440\u043e\u043b\u044c\u00a0\u0431\u044b\u043b\u0438 \u0441\u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u043d\u044b \u0441\u0432\u043e\u0438 SKILLS. \u0414\u043b\u044f\u00a0\u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0445 \u0442\u0435\u0433\u043e\u0432 \u044f \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043b \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443 <a href=\"https:\/\/github.com\/joke2k\/faker\" rel=\"noopener noreferrer nofollow\">Faker\u00a0<\/a>\u2014 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430 \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0443\u043f\u0440\u043e\u0449\u0430\u0435\u0442 \u0441\u043e\u0437\u0434\u0430\u043d\u0438\u0435 \u0444\u0438\u043a\u0442\u0438\u0432\u043d\u044b\u0445 \u043f\u0435\u0440\u0441\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445 (\u043f\u043e\u0447\u0442\u0430, \u043d\u043e\u043c\u0435\u0440, \u0438\u043c\u044f..). \u0414\u043b\u044f\u00a0\u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u043d\u043e\u0433\u043e \u0440\u0430\u0437\u043d\u043e\u043e\u0431\u0440\u0430\u0437\u0438\u044f \u044f \u043f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u0438\u043b 6\u00a0\u0440\u0430\u0437\u043d\u044b\u0445 \u0448\u0430\u0431\u043b\u043e\u043d\u043e\u0432 \u0440\u0435\u0437\u044e\u043c\u0435 (\u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u043e\u0435, \u043c\u0438\u043d\u0438\u043c\u0430\u043b\u0438\u0441\u0442\u0438\u0447\u043d\u043e\u0435, \u043d\u0430\u0432\u044b\u043a\u0438 \u0432\u00a0\u0446\u0435\u043d\u0442\u0440\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f, \u043f\u0440\u043e\u0444\u0438\u043b\u044c\u2011\u043e\u0440\u0438\u0435\u043d\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u043e\u0435 \u0438 \u0434\u0440.)\u00a0\u2014 \u0447\u0442\u043e\u0431\u044b \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0435\u00a0\u043f\u0435\u0440\u0435\u043e\u0431\u0443\u0447\u0430\u043b\u0430\u0441\u044c \u043d\u0430\u00a0\u043e\u0434\u043d\u0443 \u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0443 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430.<\/p>\n<p>\u0412\u00a0\u043a\u043e\u043d\u0435\u0447\u043d\u043e\u043c \u0438\u0442\u043e\u0433\u0435 \u044f \u0441\u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u043b 114\u00a0\u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0438 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0443 \u0434\u043b\u044f\u00a0\u043a\u0430\u0436\u0434\u043e\u0433\u043e. \u0414\u043b\u044f\u00a0production\u2011\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u044d\u0442\u043e\u0433\u043e \u043e\u0431\u044a\u0451\u043c\u0430 \u043d\u0435\u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e\u00a0\u2014 \u043d\u0430\u00a0\u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435 \u0440\u0435\u0447\u044c \u0438\u0434\u0451\u0442 \u043e\u00a0\u0442\u044b\u0441\u044f\u0447\u0430\u0445 \u0440\u0430\u0437\u043c\u0435\u0447\u0435\u043d\u043d\u044b\u0445 \u043f\u0440\u0438\u043c\u0435\u0440\u043e\u0432,\u00a0\u2014 \u043d\u043e\u00a0\u0434\u043b\u044f\u00a0\u0434\u0435\u043c\u043e\u043d\u0441\u0442\u0440\u0430\u0446\u0438\u0438 \u044d\u0442\u043e\u0433\u043e \u0445\u0432\u0430\u0442\u0438\u0442. \u0420\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u0442\u0435\u0433\u043e\u0432\u00a0\u0431\u044b\u043b\u043e \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0435\u0435:<\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/892\/8ab\/883\/8928ab88310953d1e0e928eb9c0fc241.png\" alt=\"\u0420\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u0442\u0435\u0433\u043e\u0432\" title=\"\u0420\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u0442\u0435\u0433\u043e\u0432\" width=\"670\" height=\"489\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/892\/8ab\/883\/8928ab88310953d1e0e928eb9c0fc241.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/892\/8ab\/883\/8928ab88310953d1e0e928eb9c0fc241.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0420\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u0442\u0435\u0433\u043e\u0432<\/figcaption><\/div>\n<\/figure>\n<p>\u0412\u0438\u0434\u0438\u043c \u0441\u0438\u043b\u044c\u043d\u044b\u0439 \u0434\u0438\u0441\u0431\u0430\u043b\u0430\u043d\u0441\u00a0\u2014 \u0442\u0435\u0433 SKILL \u0441\u0438\u043b\u044c\u043d\u043e \u043f\u0440\u0435\u043e\u0431\u043b\u0430\u0434\u0430\u0435\u0442 \u043d\u0430\u0434 \u0434\u0440\u0443\u0433\u0438\u043c\u0438. \u041d\u043e\u00a0\u0432\u00a0\u0446\u0435\u043b\u043e\u043c, \u0434\u043b\u044f\u00a0\u0440\u0435\u0437\u044e\u043c\u0435 \u044d\u0442\u043e \u043d\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u043e, \u043f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e\u00a0\u0440\u0435\u0437\u044e\u043c\u0435 \u0432\u00a0\u043e\u0441\u043d\u043e\u0432\u043d\u043e\u043c \u0441\u043e\u0441\u0442\u043e\u0438\u0442 \u0438\u0437\u00a0\u043e\u043f\u0438\u0441\u0430\u043d\u0438\u044f \u043d\u0430\u0432\u044b\u043a\u043e\u0432 \u0447\u0435\u043b\u043e\u0432\u0435\u043a\u0430. <\/p>\n<p>\u0417\u0430\u043a\u043e\u043d\u0447\u0443 \u044d\u0442\u0443 \u0447\u0430\u0441\u0442\u044c \u043d\u0430\u043f\u043e\u043c\u0438\u043d\u0430\u043d\u0438\u0435\u043c, \u0447\u0442\u043e\u00a0\u044f\u00a0\u043b\u0438\u0448\u044c \u0434\u0435\u043c\u043e\u043d\u0441\u0442\u0440\u0438\u0440\u0443\u044e \u043f\u043e\u0434\u0445\u043e\u0434\u044b, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043c\u043e\u0436\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0434\u043b\u044f\u00a0\u0441\u043e\u0437\u0434\u0430\u043d\u0438\u044f \u0442\u0430\u043a\u043e\u0433\u043e \u0440\u043e\u0434\u0430 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u043e\u0432. \u0417\u0434\u0435\u0441\u044c \u044f \u0445\u043e\u0442\u0435\u043b\u00a0\u0431\u044b \u0432\u044b\u0434\u0435\u043b\u0438\u0442\u044c \u0442\u043e, \u0447\u0442\u043e\u00a0\u0435\u0441\u043b\u0438 \u0432\u0441\u0451\u00a0\u0436\u0435 \u0432\u044b \u0433\u0435\u043d\u0435\u0440\u0438\u0440\u0443\u0435\u0442\u0435 \u0434\u0430\u043d\u043d\u044b\u0435, \u0442\u043e \u0443\u0434\u0435\u043b\u044f\u0439\u0442\u0435 \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e \u0432\u0440\u0435\u043c\u0435\u043d\u0438 \u043f\u0440\u043e\u0432\u0435\u0440\u043a\u0435 \u0438\u0445 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0430. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0434\u043b\u044f\u00a0\u044d\u0442\u043e\u0433\u043e \u044f \u0434\u0435\u043b\u0430\u043b \u0441\u0435\u0431\u0435 \u043d\u0435\u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u0441\u0435\u0440\u0432\u0438\u0441, \u0432\u00a0\u043a\u043e\u0442\u043e\u0440\u043e\u043c \u043f\u0440\u043e\u0441\u043c\u0430\u0442\u0440\u0438\u0432\u0430\u043b \u0447\u0430\u0441\u0442\u044c \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u043f\u043e\u0441\u043b\u0435 \u0433\u0435\u043d\u0435\u0440\u0430\u0446\u0438\u0438 \u0438 \u043f\u043e\u0434\u043f\u0440\u0430\u0432\u043b\u044f\u043b \u0432\u00a0\u043c\u0435\u0441\u0442\u0430\u0445, \u0433\u0434\u0435\u00a0\u0431\u044b\u043b\u0438 \u043e\u0448\u0438\u0431\u043a\u0438. \u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u043b\u0441\u044f \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u0435\u0435. <\/p>\n<p><a class=\"anchor\" name=\"4\" id=\"4\"><\/a><\/p>\n<h2>\u041c\u043e\u0434\u0435\u043b\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435<\/h2>\n<p>\u0414\u0430\u043b\u0435\u0435 \u043f\u0435\u0440\u0435\u0439\u0434\u0451\u043c \u043a\u00a0\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044e \u043c\u043e\u0434\u0435\u043b\u0438. \u0414\u043b\u044f\u00a0\u0440\u0435\u0448\u0435\u043d\u0438\u044f \u0437\u0430\u0434\u0430\u0447\u0438 NER \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u043f\u043e\u043f\u0443\u043b\u044f\u0440\u043d\u043e\u0439 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u043e\u0439 \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f BERT. \u042f \u0440\u0435\u0448\u0438\u043b \u0432\u00a0\u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u0430 \u043e\u0431\u0443\u0447\u0438\u0442\u044c \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0435 BERT\u2011\u043c\u043e\u0434\u0435\u043b\u0438 \u0438 \u0441\u0440\u0430\u0432\u043d\u0438\u0442\u044c \u0438\u0445 \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u044c.<\/p>\n<p><em>\u041d\u0430\u00a0\u0432\u0441\u044f\u043a\u0438\u0439 \u0441\u043b\u0443\u0447\u0430\u0439 \u0441\u0434\u0435\u043b\u0430\u044e \u0440\u0435\u043c\u0430\u0440\u043a\u0443: \u0437\u0434\u0435\u0441\u044c \u044f \u043e\u043f\u0438\u0441\u044b\u0432\u0430\u044e \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0435 \u044d\u0442\u0430\u043f\u044b \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0432\u00a0\u0443\u043f\u0440\u043e\u0449\u0451\u043d\u043d\u043e\u043c \u0432\u0438\u0434\u0435. \u041d\u0430\u00a0\u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435, \u043a\u0430\u043a\u00a0\u043f\u0440\u0430\u0432\u0438\u043b\u043e, \u0442\u0440\u0435\u0431\u0443\u0435\u0442\u0441\u044f \u0431\u043e\u043b\u0435\u0435 \u0442\u0449\u0430\u0442\u0435\u043b\u044c\u043d\u0430\u044f \u043d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0430 \u0433\u0438\u043f\u0435\u0440\u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432, \u043f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u043a\u0438 \u0434\u0430\u043d\u043d\u044b\u0445 \u0438 \u0432\u044b\u0431\u043e\u0440\u0430 \u043c\u0435\u0442\u0440\u0438\u043a.<\/em><\/p>\n<p>\u0414\u043b\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u043c\u043e\u0436\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0431\u0435\u0441\u043f\u043b\u0430\u0442\u043d\u044b\u0435 \u0441\u0435\u0440\u0432\u0438\u0441\u044b \u0432\u0440\u043e\u0434\u0435 Kaggle \u0438\u043b\u0438 Google Colab, \u043b\u0438\u0431\u043e \u0430\u0440\u0435\u043d\u0434\u043e\u0432\u0430\u0442\u044c GPU \u0432 <a href=\"https:\/\/immers.cloud\/\" rel=\"noopener noreferrer nofollow\">\u043e\u0431\u043b\u0430\u043a\u0435<\/a>. \u0414\u043b\u044f \u043d\u0430\u0448\u0435\u0433\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u0430 \u0431\u044b\u043b \u0432\u044b\u0431\u0440\u0430\u043d \u0432\u0442\u043e\u0440\u043e\u0439 \u0432\u0430\u0440\u0438\u0430\u043d\u0442. \u0412 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 GPU \u0432\u0437\u044f\u043b RTX 3090 \u043d\u0430 24 \u0413\u0431 VRAM.  <\/p>\n<p>\u042f \u0440\u0435\u0448\u0438\u043b \u0441\u0440\u0430\u0432\u043d\u0438\u0442\u044c \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0434\u043b\u044f\u00a0\u0440\u0435\u0448\u0435\u043d\u0438\u044f \u043d\u0430\u0448\u0435\u0439 \u0437\u0430\u0434\u0430\u0447\u0438: <\/p>\n<ul>\n<li>\n<p>google\u2011bert\/bert\u2011base\u2011multilingual\u2011cased<\/p>\n<\/li>\n<li>\n<p>xlm\u2011roberta\u2011base<\/p>\n<\/li>\n<li>\n<p>xlm\u2011roberta\u2011large<\/p>\n<\/li>\n<li>\n<p>ai\u2011forever\/ruBert\u2011base<\/p>\n<\/li>\n<li>\n<p>ai\u2011forever\/ruRoberta\u2011large<\/p>\n<\/li>\n<li>\n<p>distilbert\/distilbert\u2011base\u2011multilingual\u2011cased<\/p>\n<\/li>\n<\/ul>\n<p>\u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u0448\u0430\u0433 \u0437\u0430\u00a0\u0448\u0430\u0433\u043e\u043c \u043f\u0440\u043e\u0439\u0434\u0435\u043c\u0441\u044f \u043f\u043e\u00a0\u043a\u043e\u0434\u0443 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f.<\/p>\n<p>\u0421\u043d\u0430\u0447\u0430\u043b\u0430 \u0438\u043c\u043f\u043e\u0440\u0442\u0438\u0440\u0443\u0435\u043c \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u044b\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438<\/p>\n<details class=\"spoiler\">\n<summary>\u0418\u043c\u043f\u043e\u0440\u0442 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\">import jsonimport timeimport gcimport numpy as npimport pandas as pdimport openpyxlfrom collections import Counterfrom datasets import Dataset, DatasetDictfrom transformers import (    AutoTokenizer,    AutoModelForTokenClassification,    TrainingArguments,    Trainer,    DataCollatorForTokenClassification,)from seqeval.metrics import classification_report, f1_scorefrom seqeval.metrics import precision_score, recall_scoreimport torchimport matplotlib.pyplot as plt# \u0443\u0441\u0442\u0430\u043d\u0430\u0432\u043b\u0438\u0432\u0430\u0435\u043c device \u0434\u043b\u044f \u0434\u0430\u043b\u044c\u043d\u0435\u0439\u0448\u0435\u0439 \u0440\u0430\u0431\u043e\u0442\u044bdevice = \"cuda\" if torch.cuda.is_available() else \"cpu\"<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u0418\u0437\u00a0\u043e\u0441\u043d\u043e\u0432\u043d\u043e\u0433\u043e\u00a0\u2014 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u044f \u0431\u0443\u0434\u0443 \u043f\u0440\u043e\u0432\u043e\u0434\u0438\u0442\u044c \u043f\u0440\u0438\u00a0\u043f\u043e\u043c\u043e\u0449\u0438 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438 transformers, \u043c\u0435\u0442\u0440\u0438\u043a\u0438 \u0431\u0443\u0434\u0443\u0442 \u0431\u0440\u0430\u0442\u044c\u0441\u044f \u0438\u0437\u00a0seqeval.<\/p>\n<p>\u0414\u0430\u043b\u0435\u0435 \u0432\u044b\u0433\u0440\u0443\u0437\u0438\u043c \u043d\u0430\u0448\u0438 \u0434\u0430\u043d\u043d\u044b\u0435 \u0438\u0437\u00a0excel \u0432\u00a0\u0443\u0434\u043e\u0431\u043d\u044b\u0439 \u0444\u043e\u0440\u043c\u0430\u0442<\/p>\n<details class=\"spoiler\">\n<summary>\u0412\u044b\u0433\u0440\u0443\u0437\u043a\u0430 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\">DATASET_PATH = \"ner_bio_dataset.xlsx\"wb = openpyxl.load_workbook(DATASET_PATH)ws = wb.activedocuments = []for row in ws.iter_rows(min_row=2, max_row=ws.max_row, values_only=True):    fname, tokens_str, tags_str = row    if tokens_str and tags_str:        documents.append({            \"file\": fname,            \"tokens\": json.loads(tokens_str),            \"tags\": json.loads(tags_str),        })<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u041f\u043e\u0441\u043b\u0435 \u044d\u0442\u043e\u0433\u043e \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u043c \u043c\u0430\u043f\u043f\u0438\u043d\u0433 \u0442\u0435\u0433\u043e\u0432. <\/p>\n<details class=\"spoiler\">\n<summary>\u041c\u0430\u043f\u043f\u0438\u043d\u0433 \u0442\u0435\u0433\u043e\u0432<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\">all_tags = sorted(set(tag for doc in documents for tag in doc[\"tags\"]))tag2id = {tag: i for i, tag in enumerate(all_tags)}id2tag = {i: tag for tag, i in tag2id.items()}<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u042d\u0442\u043e \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0434\u043b\u044f\u00a0\u0442\u043e\u0433\u043e, \u0447\u0442\u043e\u0431\u044b \u043f\u0435\u0440\u0435\u0432\u0435\u0441\u0442\u0438 \u043d\u0430\u0448\u0438 \u0442\u0435\u0433\u0438 \u0432\u00a0\u0447\u0438\u0441\u043b\u043e\u0432\u043e\u0439 \u0432\u0438\u0434\u00a0\u2014 \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043f\u043e\u043d\u0438\u043c\u0430\u0435\u0442 \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044c (tag2id), \u0430\u00a0\u0442\u0430\u043a\u0436\u0435 \u0434\u043b\u044f\u00a0\u0442\u043e\u0433\u043e, \u0447\u0442\u043e\u0431\u044b \u043f\u0435\u0440\u0435\u0432\u0435\u0441\u0442\u0438 \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u0438\u044f \u043c\u043e\u0434\u0435\u043b\u0438 \u0432\u00a0\u043f\u043e\u043d\u044f\u0442\u043d\u044b\u0435 \u043d\u0430\u043c \u0442\u0435\u0433\u0438 (id2tag). <\/p>\n<p>\u041f\u043e\u0441\u043b\u0435 \u044d\u0442\u043e\u0433\u043e \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u0442\u0441\u044f \u0447\u0430\u043d\u043a\u043e\u0432\u0430\u043d\u0438\u0435. \u042d\u0442\u043e \u043d\u0443\u0436\u043d\u043e \u043f\u043e\u0442\u043e\u043c\u0443, \u0447\u0442\u043e\u00a0\u0438\u043d\u043e\u0433\u0434\u0430 \u0440\u0435\u0437\u044e\u043c\u0435 \u043c\u043e\u0436\u0435\u0442 \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0442\u044c \u0431\u043e\u043b\u044c\u0448\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0442\u0435\u043a\u0441\u0442\u0430, \u043a\u043e\u0442\u043e\u0440\u043e\u0435 \u043f\u0440\u043e\u0441\u0442\u043e \u043d\u0435\u00a0\u043f\u043e\u043c\u0435\u0441\u0442\u0438\u0442\u0441\u044f \u0432\u00a0\u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u043d\u043e\u0435 \u043e\u043a\u043d\u043e BERT.<\/p>\n<details class=\"spoiler\">\n<summary>\u0427\u0430\u043d\u043a\u043e\u0432\u0430\u043d\u0438\u0435<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\"># \u0427\u0430\u043d\u043a\u043e\u0432\u0430\u043d\u0438\u0435MAX_WORDS = 380OVERLAP = 40def chunk_document(tokens, tags):    if len(tokens) &lt;= MAX_WORDS:        return [(tokens, tags)]    chunks = []    start = 0    while start &lt; len(tokens):        end = min(start + MAX_WORDS, len(tokens))        chunks.append((tokens[start:end], tags[start:end]))        if end &gt;= len(tokens):            break        start += MAX_WORDS - OVERLAP    return chunksall_chunks = []for doc in documents:    all_chunks.extend(chunk_document(doc[\"tokens\"], doc[\"tags\"]))print(f\"\u0427\u0430\u043d\u043a\u043e\u0432: {len(all_chunks)}\")<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u0414\u0430\u043b\u0435\u0435 \u0440\u0430\u0437\u0431\u0438\u0432\u0430\u0435\u043c \u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u043d\u0430\u00a0\u043e\u0431\u0443\u0447\u0430\u044e\u0449\u0443\u044e \u0438 \u0432\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u043e\u043d\u043d\u0443\u044e \u0432\u044b\u0431\u043e\u0440\u043a\u0438. <\/p>\n<details class=\"spoiler\">\n<summary>train_test_split<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\">train_chunks, val_chunks = train_test_split(    all_chunks, test_size=0.15, random_state=42)<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u041f\u0435\u0440\u0435\u0432\u043e\u0434\u0438\u043c \u043d\u0430\u0448\u0438 \u0434\u0430\u043d\u043d\u044b\u0435 \u0432\u00a0Dataset \u0444\u043e\u0440\u043c\u0430\u0442 <\/p>\n<details class=\"spoiler\">\n<summary>\u041f\u0435\u0440\u0435\u0432\u043e\u0434 \u0434\u0430\u043d\u043d\u044b\u0445 \u0432 Dataset Transformers<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\">def chunks_to_dataset(chunks):    return Dataset.from_dict({        \"tokens\": [c[0] for c in chunks],        \"ner_tags\": [[tag2id[t] for t in c[1]] for c in chunks],    })ds_train = chunks_to_dataset(train_chunks)ds_val = chunks_to_dataset(val_chunks)print(f\"Train: {len(ds_train)}, Val: {len(ds_val)}\")<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u041e\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u0435\u043c \u043c\u043e\u0434\u0435\u043b\u0438, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0431\u0443\u0434\u0435\u043c \u043e\u0431\u0443\u0447\u0430\u0442\u044c<\/p>\n<details class=\"spoiler\">\n<summary>\u041c\u043e\u0434\u0435\u043b\u0438 \u0434\u043b\u044f \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u0430<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\">MODELS = {    \"mBERT\": \"google-bert\/bert-base-multilingual-cased\",    \"XLM-RoBERTa-base\": \"xlm-roberta-base\",    \"XLM-RoBERTa-large\": \"xlm-roberta-large\",    \"ruBERT\": \"ai-forever\/ruBert-base\",    \"ruRoBERTa-large\": \"ai-forever\/ruRoberta-large\",    \"DistilBERT-multi\": \"distilbert\/distilbert-base-multilingual-cased\",}<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u041f\u043e\u0441\u043b\u0435 \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u044e \u0432\u0441\u043f\u043e\u043c\u043e\u0433\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u0435 \u0444\u0443\u043d\u043a\u0446\u0438\u0438: <\/p>\n<details class=\"spoiler\">\n<summary>\u0412\u044b\u0440\u0430\u0432\u043d\u0438\u0432\u0430\u043d\u0438\u0435<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\">def tokenize_and_align(examples, tokenizer):    tokenized = tokenizer(        examples[\"tokens\"],        truncation=True,        is_split_into_words=True,        max_length=512,        padding=False,    )    all_labels = []    for i, labels in enumerate(examples[\"ner_tags\"]):        word_ids = tokenized.word_ids(batch_index=i)        label_ids = []        prev_word_id = None        for word_id in word_ids:            if word_id is None:                label_ids.append(-100)            elif word_id != prev_word_id:                label_ids.append(labels[word_id])            else:                label_ids.append(-100)            prev_word_id = word_id        all_labels.append(label_ids)    tokenized[\"labels\"] = all_labels    return tokenized<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u042d\u0442\u0430 \u0444\u0443\u043d\u043a\u0446\u0438\u044f \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u0442 \u0432\u044b\u0440\u0430\u0432\u043d\u0438\u0432\u0430\u043d\u0438\u0435 \u043c\u0435\u0436\u0434\u0443 \u0438\u0441\u0445\u043e\u0434\u043d\u043e\u0439 \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u0435\u0439 \u0432\u00a0\u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0435 \u0438 \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0442\u043e\u0440\u043e\u043c \u043c\u043e\u0434\u0435\u043b\u0438, \u043f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e\u00a0\u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u044f \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430 \u043c\u043e\u0436\u0435\u0442 \u0441\u043e\u0432\u0435\u0440\u0448\u0435\u043d\u043d\u043e \u043d\u0435\u00a0\u0441\u043e\u0432\u043f\u0430\u0434\u0430\u0442\u044c \u0441\u00a0\u0442\u0435\u043c, \u043a\u0430\u043a\u00a0\u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0438\u0440\u0443\u0435\u0442 \u043c\u043e\u0434\u0435\u043b\u044c. <\/p>\n<details class=\"spoiler\">\n<summary>\u0412\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u0435 \u043c\u0435\u0442\u0440\u0438\u043a<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\">def compute_metrics(eval_pred):    logits, labels = eval_pred    predictions = np.argmax(logits, axis=-1)    true_labels, true_preds = [], []    for pred_seq, label_seq in zip(predictions, labels):        pred_tags, label_tags = [], []        for p, l in zip(pred_seq, label_seq):            if l != -100:                pred_tags.append(id2tag[int(p)])                label_tags.append(id2tag[int(l)])        true_preds.append(pred_tags)        true_labels.append(label_tags)    return {\"f1\": f1_score(true_labels, true_preds)}<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u0424\u0443\u043d\u043a\u0446\u0438\u044f \u0434\u043b\u044f\u00a0\u043f\u043e\u0434\u0441\u0447\u0451\u0442\u0430 \u043c\u0435\u0442\u0440\u0438\u043a. \u0412\u00a0\u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u043c\u0435\u0442\u0440\u0438\u043a\u0438 \u043c\u044b \u0431\u0443\u0434\u0435\u043c \u043e\u0442\u0441\u043b\u0435\u0436\u0438\u0432\u0430\u0442\u044c F1. \u0414\u043b\u044f\u00a0\u044d\u0442\u043e\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u0444\u0443\u043d\u043a\u0446\u0438\u044e f1_score \u0438\u0437\u00a0\u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438 seqeval. \u0415\u0441\u043b\u0438 \u0432\u044b \u0445\u043e\u0442\u0438\u0442\u0435 \u043f\u043e\u0434\u0440\u043e\u0431\u043d\u0435\u0435 \u0443\u0437\u043d\u0430\u0442\u044c \u043e\u00a0\u043c\u0435\u0442\u0440\u0438\u043a\u0430\u0445 NER\u00a0\u2014 \u0437\u0430\u0433\u043b\u044f\u043d\u0438\u0442\u0435 \u0432\u00a0\u043c\u043e\u044e \u043f\u0440\u0435\u0434\u044b\u0434\u0443\u0449\u0443\u044e <a href=\"https:\/\/habr.com\/ru\/articles\/979164\/\" rel=\"noopener noreferrer nofollow\">\u0441\u0442\u0430\u0442\u044c\u044e<\/a>. <\/p>\n<details class=\"spoiler\">\n<summary>classification_report<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\">def evaluate_detailed(trainer, tokenized_val):    \"\"\"\u0412\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u043f\u043e\u0434\u0440\u043e\u0431\u043d\u044b\u0435 \u043c\u0435\u0442\u0440\u0438\u043a\u0438 \u043f\u043e \u043a\u0430\u0436\u0434\u043e\u0439 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438.\"\"\"    predictions, labels, _ = trainer.predict(tokenized_val)    predictions = np.argmax(predictions, axis=-1)    true_labels, true_preds = [], []    for pred_seq, label_seq in zip(predictions, labels):        pred_tags, label_tags = [], []        for p, l in zip(pred_seq, label_seq):            if l != -100:                pred_tags.append(id2tag[int(p)])                label_tags.append(id2tag[int(l)])        true_preds.append(pred_tags)        true_labels.append(label_tags)    report = classification_report(true_labels, true_preds, output_dict=True)    f1_overall = f1_score(true_labels, true_preds)    p_overall = precision_score(true_labels, true_preds)    r_overall = recall_score(true_labels, true_preds)    return {        \"report\": report,        \"f1\": f1_overall,        \"precision\": p_overall,        \"recall\": r_overall,        \"report_text\": classification_report(true_labels, true_preds),    }<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u0424\u0443\u043d\u043a\u0446\u0438\u044f, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u0431\u043e\u043b\u0435\u0435 \u043f\u043e\u0434\u0440\u043e\u0431\u043d\u0443\u044e \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u043f\u043e\u00a0\u043c\u0435\u0442\u0440\u0438\u043a\u0430\u043c (classification report).<\/p>\n<p>\u0414\u0430\u043b\u0435\u0435 \u043a\u043e\u0434 \u0446\u0438\u043a\u043b\u0430 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f<\/p>\n<details class=\"spoiler\">\n<summary>\u041a\u043e\u0434 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u043c\u043e\u0434\u0435\u043b\u0435\u0439<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\">results = {}for model_name, model_id in MODELS.items():    print(f\"\\n{'='*70}\")    print(f\"  {model_name} ({model_id})\")    print(f\"{'='*70}\")    try:        # \u0422\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0442\u043e\u0440        tokenizer = AutoTokenizer.from_pretrained(model_id)        # \u0422\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u044f \u0434\u0430\u043d\u043d\u044b\u0445        tok_fn = lambda examples: tokenize_and_align(examples, tokenizer)        tokenized_train = ds_train.map(tok_fn, batched=True, remove_columns=ds_train.column_names)        tokenized_val = ds_val.map(tok_fn, batched=True, remove_columns=ds_val.column_names)        # \u041c\u043e\u0434\u0435\u043b\u044c        model = AutoModelForTokenClassification.from_pretrained(            model_id,            num_labels=len(tag2id),            id2label=id2tag,            label2id=tag2id,        )        n_params = model.num_parameters() \/ 1e6        print(f\"  Parameters: {n_params:.0f}M\")        # Batch size \u2014 \u043c\u0435\u043d\u044c\u0448\u0435 \u0434\u043b\u044f large \u043c\u043e\u0434\u0435\u043b\u0435\u0439        batch_size = 8 if \"large\" in model_id else 16        training_args = TrainingArguments(            output_dir=f\".\/ner-{model_name}\",            num_train_epochs=10,            per_device_train_batch_size=batch_size,            per_device_eval_batch_size=batch_size * 2,            learning_rate=3e-5,            weight_decay=0.01,            warmup_ratio=0.1,            eval_strategy=\"epoch\",            save_strategy=\"epoch\",            logging_steps=20,            load_best_model_at_end=True,            metric_for_best_model=\"f1\",            greater_is_better=True,            save_total_limit=2,            fp16=torch.cuda.is_available(),            report_to=\"none\",            seed=42,        )        data_collator = DataCollatorForTokenClassification(tokenizer=tokenizer)        trainer = Trainer(            model=model,            args=training_args,            train_dataset=tokenized_train,            eval_dataset=tokenized_val,            processing_class=tokenizer,            data_collator=data_collator,            compute_metrics=compute_metrics,        )        # \u041e\u0431\u0443\u0447\u0435\u043d\u0438\u0435        start_time = time.time()        trainer.train()        train_time = time.time() - start_time        # \u041e\u0446\u0435\u043d\u043a\u0430        metrics = evaluate_detailed(trainer, tokenized_val)        metrics[\"train_time\"] = train_time        metrics[\"params_m\"] = n_params        metrics[\"model_id\"] = model_id        results[model_name] = metrics        print(f\"\\n  F1: {metrics['f1']:.4f}  |  Time: {train_time:.0f}s  |  Params: {n_params:.0f}M\")        print(metrics[\"report_text\"])    except Exception as e:        print(f\"  \u041e\u0428\u0418\u0411\u041a\u0410: {e}\")        results[model_name] = {\"f1\": 0, \"error\": str(e)}    finally:        # \u041e\u0441\u0432\u043e\u0431\u043e\u0436\u0434\u0430\u0435\u043c GPU \u043f\u0430\u043c\u044f\u0442\u044c        del model, trainer, tokenizer        del tokenized_train, tokenized_val        gc.collect()        if torch.cuda.is_available():            torch.cuda.empty_cache()print(\"\\n\" + \"=\"*70)print(\"  \u0412\u0421\u0415 \u041c\u041e\u0414\u0415\u041b\u0418 \u041e\u0411\u0423\u0427\u0415\u041d\u042b\")print(\"=\"*70)<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u041e\u0441\u043d\u043e\u0432\u043d\u044b\u0435 \u044d\u0442\u0430\u043f\u044b \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f: <\/p>\n<ol>\n<li>\n<p>\u0412\u00a0\u0446\u0438\u043a\u043b\u0435 \u043f\u0435\u0440\u0435\u0431\u0438\u0440\u0430\u0435\u043c \u043a\u0430\u0436\u0434\u0443\u044e \u0432\u044b\u0431\u0440\u0430\u043d\u043d\u0443\u044e \u043f\u0440\u0435\u0434\u043e\u0431\u0443\u0447\u0435\u043d\u043d\u0443\u044e \u043c\u043e\u0434\u0435\u043b\u044c.<\/p>\n<\/li>\n<li>\n<p>\u0414\u043b\u044f\u00a0\u043a\u0430\u0436\u0434\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438 \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0438\u0440\u0443\u0435\u043c \u0434\u0430\u043d\u043d\u044b\u0435 \u0438 \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u043c \u0432\u044b\u0440\u0430\u0432\u043d\u0438\u0432\u0430\u043d\u0438\u0435. <\/p>\n<\/li>\n<li>\n<p>\u0417\u0430\u0434\u0430\u0451\u043c \u043d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0438 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f: \u0440\u0430\u0437\u043c\u0435\u0440 \u0431\u0430\u0442\u0447\u0430, \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u044d\u043f\u043e\u0445, \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f, \u0432\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u044f \u043f\u043e\u0441\u043b\u0435 \u043a\u0430\u0436\u0434\u043e\u0439 \u044d\u043f\u043e\u0445\u0438, \u043f\u0430\u043f\u043a\u0430 \u0434\u043b\u044f\u00a0\u0441\u043e\u0445\u0440\u0430\u043d\u0435\u043d\u0438\u044f \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u0432,&#8230;<\/p>\n<\/li>\n<li>\n<p>\u041e\u0431\u0443\u0447\u0430\u0435\u043c \u043c\u043e\u0434\u0435\u043b\u044c \u0447\u0435\u0440\u0435\u0437 \u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u044b\u0439 Trainer \u0438\u0437\u00a0Hugging Face. <\/p>\n<\/li>\n<li>\n<p>\u041f\u043e\u0441\u043b\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0441\u0447\u0438\u0442\u0430\u0435\u043c F1-\u043c\u0435\u0440\u0443. <\/p>\n<\/li>\n<li>\n<p>\u041e\u0441\u0432\u043e\u0431\u043e\u0436\u0434\u0430\u0435\u043c \u043f\u0430\u043c\u044f\u0442\u044c GPU, \u0447\u0442\u043e\u0431\u044b \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0435\u00a0\u0443\u043f\u0430\u043b\u0430. <\/p>\n<\/li>\n<\/ol>\n<p>\u041f\u043e\u0441\u043b\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u044f \u043f\u043e\u043b\u0443\u0447\u0438\u043b \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0439 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442. <\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/9b5\/e7c\/6b9\/9b5e7c6b94dbc14b573e120b13d6fd99.png\" alt=\"\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 NER \u043c\u043e\u0434\u0435\u043b\u0435\u0439\" title=\"\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 NER \u043c\u043e\u0434\u0435\u043b\u0435\u0439\" width=\"700\" height=\"474\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/9b5\/e7c\/6b9\/9b5e7c6b94dbc14b573e120b13d6fd99.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/9b5\/e7c\/6b9\/9b5e7c6b94dbc14b573e120b13d6fd99.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 NER \u043c\u043e\u0434\u0435\u043b\u0435\u0439<\/figcaption><\/div>\n<\/figure>\n<p>\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u043d\u0430\u00a0\u043c\u043e\u0451\u043c \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0435 \u043c\u043e\u0434\u0435\u043b\u044c ruRoBERTa\u2011large \u043f\u043e\u043a\u0430\u0437\u0430\u043b\u0430 \u043d\u0430\u0438\u043b\u0443\u0447\u0448\u0438\u0439 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442. \u041d\u0430\u00a0\u0432\u0442\u043e\u0440\u043e\u043c \u043c\u0435\u0441\u0442\u0435\u00a0\u2014 bert\u2011base\u2011multilingual\u2011cased. \u042f \u0440\u0435\u0448\u0438\u043b \u0432\u044b\u0431\u0440\u0430\u0442\u044c bert\u2011base\u2011multilingual\u2011cased \u0432\u00a0\u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0434\u043b\u044f\u00a0\u0438\u0437\u0432\u043b\u0435\u0447\u0435\u043d\u0438\u044f \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0435\u0439 \u0438\u0437\u00a0\u0440\u0435\u0437\u044e\u043c\u0435. \u041f\u043e\u0447\u0435\u043c\u0443, \u0441\u043f\u0440\u043e\u0441\u0438\u0442\u0435 \u0432\u044b? \u0415\u0441\u0442\u044c\u00a0\u0436\u0435 \u043c\u043e\u0434\u0435\u043b\u044c, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043f\u043e\u043a\u0430\u0437\u0430\u043b\u0430 \u0441\u0435\u0431\u044f \u043b\u0443\u0447\u0448\u0435. <\/p>\n<p>\u0414\u0435\u043b\u043e \u0432\u00a0\u0442\u043e\u043c, \u0447\u0442\u043e\u00a0mBERT (bert\u2011base\u2011multilingual\u2011cased) \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 178M \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432\u00a0\u2014 \u044d\u0442\u043e \u0432\u0434\u0432\u043e\u0435 \u043c\u0435\u043d\u044c\u0448\u0435, \u0447\u0435\u043c \u0443\u00a0ruRoBERTa\u2011large (355M). \u041f\u0440\u0438\u00a0\u044d\u0442\u043e\u043c \u0440\u0430\u0437\u043d\u0438\u0446\u0430 \u0432\u00a0F1\u00a0\u0441\u043e\u0441\u0442\u0430\u0432\u0438\u043b\u0430 \u0432\u0441\u0435\u0433\u043e ~0.01. \u041c\u0435\u043d\u044c\u0448\u0435\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u043e\u0437\u043d\u0430\u0447\u0430\u0435\u0442 \u0431\u043e\u043b\u0435\u0435\u00a0\u0431\u044b\u0441\u0442\u0440\u044b\u0439 \u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441 \u0438 \u043c\u0435\u043d\u044c\u0448\u0438\u0435 \u0442\u0440\u0435\u0431\u043e\u0432\u0430\u043d\u0438\u044f \u043a\u00a0GPU\u2011\u043f\u0430\u043c\u044f\u0442\u0438 (\u0430 \u043c\u043e\u0436\u043d\u043e \u0434\u0430\u0436\u0435 \u043d\u0430 CPU). \u0412\u00a0\u043d\u0430\u0448\u0435\u043c \u0441\u043b\u0443\u0447\u0430\u0435 \u0442\u0430\u043a\u043e\u0439 trade\u2011off \u043c\u0435\u0436\u0434\u0443 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e\u043c \u0438 \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c\u044e \u043e\u043f\u0440\u0430\u0432\u0434\u0430\u043d. <\/p>\n<p><a class=\"anchor\" name=\"5\" id=\"5\"><\/a><\/p>\n<h2>\u0421\u043e\u0437\u0434\u0430\u043d\u0438\u0435 \u0441\u0435\u0440\u0432\u0438\u0441\u0430 \u043d\u0430\u00a0\u043e\u0441\u043d\u043e\u0432\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 <\/h2>\n<p>\u0418 \u043f\u043e\u0441\u043b\u0435\u0434\u043d\u0438\u0439 \u0448\u0430\u0433\u00a0\u2014 \u044d\u0442\u043e \u0441\u043e\u0437\u0434\u0430\u043d\u0438\u0435 \u0441\u0435\u0440\u0432\u0438\u0441\u0430 \u043f\u043e\u0432\u0435\u0440\u0445 \u043d\u0430\u0448\u0435\u0439 \u043c\u043e\u0434\u0435\u043b\u0438. \u0414\u043b\u044f\u00a0\u044d\u0442\u043e\u0433\u043e \u044f \u0440\u0435\u0448\u0438\u043b \u043e\u0431\u0435\u0440\u043d\u0443\u0442\u044c \u0435\u0451 \u0432\u00a0FastAPI, \u0447\u0442\u043e\u00a0\u043f\u043e\u0437\u0432\u043e\u043b\u0438\u0442 \u043f\u0440\u0435\u0434\u043e\u0441\u0442\u0430\u0432\u0438\u0442\u044c API \u043c\u043e\u0434\u0435\u043b\u0438 \u0438 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0435\u0451 \u043d\u0430\u00a0\u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0445 \u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c\u0430\u0445 \u043a\u043b\u0438\u0435\u043d\u0442\u0430. \u0414\u043b\u044f\u00a0\u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441\u0430 \u0431\u0443\u0434\u0435\u0442 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c\u0441\u044f \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430 transformers. <\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/2dc\/c23\/a52\/2dcc23a52fb6daef554c850e092b0a99.png\" alt=\"\u0421\u0435\u0440\u0432\u0438\u0441 FastAPI \u0434\u043b\u044f NER\" title=\"\u0421\u0435\u0440\u0432\u0438\u0441 FastAPI \u0434\u043b\u044f NER\" width=\"871\" height=\"571\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/2dc\/c23\/a52\/2dcc23a52fb6daef554c850e092b0a99.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/2dc\/c23\/a52\/2dcc23a52fb6daef554c850e092b0a99.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/p>\n<div><figcaption>\u0421\u0435\u0440\u0432\u0438\u0441 FastAPI \u0434\u043b\u044f\u00a0NER<\/figcaption><\/div>\n<\/figure>\n<p>\u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u043f\u043e\u0448\u0430\u0433\u043e\u0432\u043e \u0440\u0430\u0437\u0431\u0435\u0440\u0435\u043c \u043a\u043e\u0434 FastAPI \u0441\u0435\u0440\u0432\u0435\u0440\u0430 \u0441\u00a0\u043d\u0430\u0448\u0435\u0439 \u043c\u043e\u0434\u0435\u043b\u044c\u044e.<\/p>\n<p>\u0418\u043c\u043f\u043e\u0440\u0442\u0438\u0440\u0443\u0435\u043c \u043d\u0443\u0436\u043d\u044b\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438<\/p>\n<details class=\"spoiler\">\n<summary>\u0418\u043c\u043f\u043e\u0440\u0442 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\">import jsonimport torchfrom fastapi import FastAPIfrom pydantic import BaseModelfrom transformers import AutoTokenizer, AutoModelForTokenClassification<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u041e\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u0435\u043c \u043b\u043e\u0433\u0438\u043a\u0443 \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u0438 \u0442\u0435\u043a\u0441\u0442\u0430, \u0430\u043d\u0430\u043b\u043e\u0433\u0438\u0447\u043d\u0430 \u0442\u043e\u0439, \u0447\u0442\u043e\u00a0\u0431\u044b\u043b\u0430 \u0432\u00a0\u043e\u0431\u0443\u0447\u0430\u044e\u0449\u0435\u0439 \u0432\u044b\u0431\u043e\u0440\u043a\u0435. <\/p>\n<details class=\"spoiler\">\n<summary>\u041f\u0440\u0435-\u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0430\u0446\u0438\u044f \u0442\u0435\u043a\u0441\u0442\u0430<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\">PUNCT = set(\".,;:!?()[]{}\\\"'\u00ab\u00bb\u2014\u2013\/\\\\|\")def tokenize_text(text):    raw_tokens = []    i = 0    while i &lt; len(text):        if text[i].isspace():            i += 1            continue        j = i        while j &lt; len(text) and not text[j].isspace():            j += 1        raw_tokens.append((text[i:j], i, j))        i = j    tokens = []    for word, start, end in raw_tokens:        while word and word[0] in PUNCT:            if word[0] == '.' and len(word) &gt; 1 and word[1].isalpha():                break            tokens.append(word[0])            start += 1            word = word[1:]        tail = []        while word and word[-1] in PUNCT:            end -= 1            tail.append(word[-1])            word = word[:-1]        if word:            tokens.append(word)        tokens.extend(reversed(tail))    return tokens<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u0414\u0430\u043b\u0435\u0435 \u0437\u0430\u0433\u0440\u0443\u0436\u0430\u0435\u043c \u0438 \u0438\u043d\u0438\u0446\u0438\u0430\u043b\u0438\u0437\u0438\u0440\u0443\u0435\u043c \u043d\u0430\u0448\u0443 \u043e\u0431\u0443\u0447\u0435\u043d\u043d\u0443\u044e \u043c\u043e\u0434\u0435\u043b\u044c. <\/p>\n<details class=\"spoiler\">\n<summary>\u0418\u043d\u0438\u0446\u0438\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044f NER \u043c\u043e\u0434\u0435\u043b\u0438<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\">MODEL_PATH = \".\/ner-mbert-resume-final\"tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)model = AutoModelForTokenClassification.from_pretrained(MODEL_PATH)model.eval()with open(f\"{MODEL_PATH}\/tag_mapping.json\", \"r\") as f:    mapping = json.load(f)id2tag = {int(k): v for k, v in mapping[\"id2tag\"].items()}device = \"cuda\" if torch.cuda.is_available() else \"cpu\"model.to(device)print(f\"Model loaded on {device}\")<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u041a\u043e\u0434 \u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441\u0430 \u043c\u043e\u0434\u0435\u043b\u0438. \u041d\u0430\u00a0\u0432\u0445\u043e\u0434 \u043f\u043e\u0434\u0430\u0435\u0442\u0441\u044f \u0442\u0435\u043a\u0441\u0442, \u043e\u043d \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0438\u0440\u0443\u0435\u0442\u0441\u044f. \u041f\u043e\u0441\u043b\u0435 \u043f\u0440\u043e\u0438\u0441\u0445\u043e\u0434\u0438\u0442 \u0447\u0430\u043d\u043a\u0438\u043d\u0433 \u0442\u0435\u043a\u0441\u0442\u0430 (\u044d\u0442\u043e \u043d\u0443\u0436\u043d\u043e \u043f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e\u00a0BERT \u0438\u043c\u0435\u0435\u0442 \u0440\u0430\u0437\u043c\u0435\u0440 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u0430 512\u00a0\u0442\u043e\u043a\u0435\u043d\u043e\u0432). \u0414\u0430\u043b\u0435\u0435 \u043f\u0440\u043e\u0438\u0441\u0445\u043e\u0434\u0438\u0442 \u0441\u0430\u043c \u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441 \u043f\u043e \u0444\u0440\u0430\u0433\u043c\u0435\u043d\u0442\u0430\u043c \u0438 \u0441\u0431\u043e\u0440 \u043d\u0430\u0439\u0434\u0435\u043d\u043d\u044b\u0445 \u0442\u0435\u0433\u043e\u0432 \u0432\u00a0\u0432\u044b\u0445\u043e\u0434\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435.\u00a0<\/p>\n<details class=\"spoiler\">\n<summary>\u0418\u043d\u0444\u0435\u0440\u0435\u043d\u0441<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\">def predict(text: str):    words = tokenize_text(text)    if not words:        return []    MAX_WORDS = 400    all_results = []    for chunk_start in range(0, len(words), MAX_WORDS):        chunk_words = words[chunk_start:chunk_start + MAX_WORDS]        inputs = tokenizer(            chunk_words,            is_split_into_words=True,            return_tensors=\"pt\",            truncation=True,            max_length=512,        ).to(device)        with torch.no_grad():            outputs = model(**inputs)        preds = torch.argmax(outputs.logits, dim=-1)[0].cpu().numpy()        word_ids = inputs.word_ids(batch_index=0)        prev_word_id = None        for idx, word_id in enumerate(word_ids):            if word_id is not None and word_id != prev_word_id:                tag = id2tag[int(preds[idx])]                global_idx = chunk_start + word_id                all_results.append((global_idx, words[global_idx], tag))            prev_word_id = word_id    # \u0413\u0440\u0443\u043f\u043f\u0438\u0440\u0443\u0435\u043c B-\/I- \u0432 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438    entities = []    current = None    for idx, word, tag in all_results:        if tag == \"O\":            if current:                entities.append(current)                current = None            continue        prefix, label = tag.split(\"-\", 1)        if prefix == \"B\":            if current:                entities.append(current)            current = {\"entity\": label, \"text\": word}        elif prefix == \"I\" and current and current[\"entity\"] == label:            current[\"text\"] += \" \" + word        else:            if current:                entities.append(current)            current = {\"entity\": label, \"text\": word}    if current:        entities.append(current)    return entities<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u0417\u0434\u0435\u0441\u044c \u043c\u044b \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u0435\u043c \u043b\u043e\u0433\u0438\u043a\u0443 \u0441\u0435\u0440\u0432\u0438\u0441\u0430. \u0418\u043c\u0435\u0435\u0442 \u0441\u0445\u0435\u043c\u0443 \u0432\u0445\u043e\u0434\u043d\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445, \u0430\u00a0\u0442\u0430\u043a\u0436\u0435 \u0432\u044b\u0445\u043e\u0434\u043d\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445 \u0434\u043b\u044f\u00a0\u043e\u0442\u0432\u0435\u0442\u0430 \u0441\u0435\u0440\u0432\u0435\u0440\u0430 \u043d\u0430\u00a0\u0437\u0430\u043f\u0440\u043e\u0441.<\/p>\n<details class=\"spoiler\">\n<summary>FastAPI \u0441\u0435\u0440\u0432\u0435\u0440<\/summary>\n<div class=\"spoiler__content\">\n<pre><code class=\"python\">app = FastAPI(title=\"NER Resume Parser\")class NERRequest(BaseModel):    text: strclass Entity(BaseModel):    entity: str    text: strclass NERResponse(BaseModel):    entities: list[Entity]@app.post(\"\/predict\", response_model=NERResponse)def ner_predict(req: NERRequest):    entities = predict(req.text)    return NERResponse(entities=entities)<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<\/div>\n<\/details>\n<p>\u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u0432 \u044d\u0442\u043e\u0442 \u0441\u0435\u0440\u0432\u0435\u0440 \u043a\u043e\u043c\u0430\u043d\u0434\u043e\u0439 <\/p>\n<pre><code class=\"powershell\">uvicorn api:app --port 8000<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041c\u043e\u0436\u043d\u043e \u043e\u0431\u0440\u0430\u0449\u0430\u0442\u044c\u0441\u044f \u043d\u0430\u00a0\u044d\u0442\u043e\u0442 \u0441\u0435\u0440\u0432\u0435\u0440 POST \u0437\u0430\u043f\u0440\u043e\u0441\u043e\u043c \u0441\u00a0\u0442\u0435\u043a\u0441\u0442\u043e\u043c \u0440\u0435\u0437\u044e\u043c\u0435 \u0438 \u0432\u00a0\u043e\u0442\u0432\u0435\u0442 \u043f\u043e\u043b\u0443\u0447\u0430\u0442\u044c \u043d\u0443\u0436\u043d\u044b\u0435 \u0442\u0435\u0433\u0438 \u0438\u0437\u00a0\u0440\u0435\u0437\u044e\u043c\u0435.<\/p>\n<h2>\u0417\u0430\u043a\u043b\u044e\u0447\u0435\u043d\u0438\u0435<\/h2>\n<p>\u041c\u044b \u0441\u00a0\u0432\u0430\u043c\u0438 \u0448\u0430\u0433 \u0437\u0430\u00a0\u0448\u0430\u0433\u043e\u043c \u043f\u0440\u043e\u0448\u043b\u0438\u0441\u044c \u043f\u043e\u00a0\u044d\u0442\u0430\u043f\u0430\u043c \u0440\u0435\u0448\u0435\u043d\u0438\u044f \u0437\u0430\u0434\u0430\u0447\u0438 NER. \u042f \u043e\u043f\u0443\u0441\u043a\u0430\u043b \u043c\u043d\u043e\u0433\u043e \u043d\u044e\u0430\u043d\u0441\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043c\u043e\u0433\u0443\u0442 \u0432\u043e\u0437\u043d\u0438\u043a\u0430\u0442\u044c \u0432\u00a0\u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0435. \u0417\u0434\u0435\u0441\u044c \u044f \u0434\u0435\u043b\u0430\u043b \u0443\u043f\u043e\u0440 \u043d\u0430\u00a0\u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0443\u044e \u0441\u043e\u0441\u0442\u0430\u0432\u043b\u044f\u044e\u0449\u0443\u044e, \u0447\u0442\u043e\u0431\u044b \u0432\u044b \u043f\u043e\u043d\u044f\u043b\u0438, \u043a\u0430\u043a\u0438\u0435 \u0432\u0435\u0440\u0445\u043d\u0435\u0443\u0440\u043e\u0432\u043d\u0435\u0432\u044b\u0435 \u0448\u0430\u0433\u0438 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u043f\u0440\u043e\u0439\u0442\u0438\u00a0\u2014 \u043e\u0442\u00a0\u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u044f \u0437\u0430\u0434\u0430\u0447\u0438 \u0438 \u0444\u043e\u0440\u043c\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f \u0434\u0430\u043d\u043d\u044b\u0445 \u0434\u043e\u00a0\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u043c\u043e\u0434\u0435\u043b\u0438 \u0438 \u043d\u0430\u043f\u0438\u0441\u0430\u043d\u0438\u044f \u0441\u0435\u0440\u0432\u0438\u0441\u0430. <\/p>\n<p>\u0421\u043f\u0430\u0441\u0438\u0431\u043e \u0437\u0430\u00a0\u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435! <\/p>\n<p><em>\u041f\u043e\u0434\u043f\u0438\u0441\u044b\u0432\u0430\u0439\u0442\u0435\u0441\u044c \u043d\u0430\u00a0<\/em><a href=\"https:\/\/t.me\/+TLnsXnf2dTE4ZDFi\" rel=\"noopener noreferrer nofollow\"><em>\u043c\u043e\u0439 Telegram\u2011\u043a\u0430\u043d\u0430\u043b<\/em><\/a><em>, \u0432\u00a0\u043a\u043e\u0442\u043e\u0440\u043e\u043c \u044f \u0442\u0430\u043a\u0436\u0435 \u0440\u0430\u0441\u0441\u043a\u0430\u0437\u044b\u0432\u0430\u044e \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u044b\u0435 \u0432\u0435\u0449\u0438 \u043e\u0431\u00a0IT \u0438 AI \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u044f\u0445.<\/em>  <\/p>\n<\/div>\n<p>\u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/1023552\/\">https:\/\/habr.com\/ru\/articles\/1023552\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u0412\u0441\u0435\u043c \u043f\u0440\u0438\u0432\u0435\u0442! \u041c\u0435\u043d\u044f \u0437\u043e\u0432\u0443\u0442 \u041c\u0430\u043a\u0441\u0438\u043c. \u042f NLP\u2011\u0438\u043d\u0436\u0435\u043d\u0435\u0440 \u0432\u00a0red_mad_robot \u0438 \u0430\u0432\u0442\u043e\u0440 Telegram\u2011\u043a\u0430\u043d\u0430\u043b\u0430 \u041c\u0430\u043a\u0441\u0438\u043c \u041c\u0430\u043a\u0441\u0438\u043c\u043e\u0432 \/\/ IT, AI. \u0421\u0435\u0433\u043e\u0434\u043d\u044f \u044f \u0440\u0430\u0441\u0441\u043a\u0430\u0436\u0443 \u043e\u00a0\u0442\u043e\u043c, \u043a\u0430\u043a\u00a0\u0440\u0435\u0448\u0430\u0442\u044c \u0437\u0430\u0434\u0430\u0447\u0443 NER \u043d\u0430\u00a0\u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435. \u0422\u0435\u043e\u0440\u0438\u0438 \u0431\u0443\u0434\u0435\u0442 \u043f\u043e\u00a0\u043c\u0438\u043d\u0438\u043c\u0443\u043c\u0443\u00a0\u2014 \u0432\u043c\u0435\u0441\u0442\u043e \u043d\u0435\u0451 \u0440\u0430\u0437\u0431\u0435\u0440\u0451\u043c\u0441\u044f, \u043a\u0430\u043a\u00a0\u0440\u0435\u0448\u0430\u0442\u044c \u0437\u0430\u0434\u0430\u0447\u0443 \u0440\u0443\u043a\u0430\u043c\u0438: \u043f\u043e\u0434\u0445\u043e\u0434\u044b, \u0440\u0435\u0441\u0443\u0440\u0441\u044b, \u043a\u043e\u0434 \u043d\u0430\u00a0Python. \u0421\u0435\u0433\u043e\u0434\u043d\u044f \u0432 \u043c\u0435\u043d\u044e:\u0427\u0442\u043e \u0442\u0430\u043a\u043e\u0435 NER\u041f\u043e\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u0446\u0435\u043b\u0435\u0439 \u0438 \u0437\u0430\u0434\u0430\u0447\u0420\u0430\u0431\u043e\u0442\u0430 \u0441\u00a0\u0434\u0430\u043d\u043d\u044b\u043c\u0438\u041c\u043e\u0434\u0435\u043b\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435\u0421\u043e\u0437\u0434\u0430\u043d\u0438\u0435 \u0441\u0435\u0440\u0432\u0438\u0441\u0430 \u043d\u0430\u00a0\u043e\u0441\u043d\u043e\u0432\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u043d\u0430\u0447\u0438\u043d\u0430\u0442\u044c!\u0427\u0442\u043e\u00a0\u0442\u0430\u043a\u043e\u0435 NER \u041d\u0430\u0447\u043d\u0435\u043c \u0441\u00a0\u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u044f.\u00a0Named Entity Recognition (NER)\u00a0\u2014 \u0437\u0430\u0434\u0430\u0447\u0430 \u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u043d\u0438\u044f \u0438\u043c\u0435\u043d\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0435\u0439. \u042d\u0442\u043e \u0437\u0430\u0434\u0430\u0447\u0430 \u0438\u0437\u00a0\u043e\u0431\u043b\u0430\u0441\u0442\u0438 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 \u0435\u0441\u0442\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430 (NLP), \u0441\u0443\u0442\u044c \u043a\u043e\u0442\u043e\u0440\u043e\u0439\u00a0\u2014 \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u044c \u0438 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u0446\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0438\u043c\u0435\u043d\u043e\u0432\u0430\u043d\u043d\u044b\u0435 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438 \u0432\u00a0\u0442\u0435\u043a\u0441\u0442\u0435. \u041f\u0440\u0438\u043c\u0435\u0440\u0430\u043c\u0438 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0435\u0439 \u043c\u043e\u0433\u0443\u0442\u00a0\u0431\u044b\u0442\u044c: \u043b\u043e\u043a\u0430\u0446\u0438\u0438, \u0424\u0418\u041e \u0447\u0435\u043b\u043e\u0432\u0435\u043a\u0430, \u0434\u0430\u0442\u044b, \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0435 \u043f\u0435\u0440\u0441\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 (\u0418\u041d\u041d, \u043f\u0430\u0441\u043f\u043e\u0440\u0442,&#8230;).\u00a0\u0417\u0430\u0434\u0430\u0447\u0430 NER\u042d\u0442\u0430 NLP\u2011\u0437\u0430\u0434\u0430\u0447\u0430 \u0438\u043c\u0435\u0435\u0442 \u043c\u043d\u043e\u0436\u0435\u0441\u0442\u0432\u043e \u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u043f\u0440\u0438\u043c\u0435\u043d\u0435\u043d\u0438\u0439. \u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440: \u041e\u0431\u043d\u0430\u0440\u0443\u0436\u0435\u043d\u0438\u0435 \u043f\u0435\u0440\u0441\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445 \u0432\u00a0\u0442\u0435\u043a\u0441\u0442\u0435 (\u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u0441\u043a\u0440\u044b\u0442\u0438\u0435 \u0438\u043c\u0451\u043d \u0438 \u0430\u0434\u0440\u0435\u0441\u043e\u0432 \u0432\u00a0\u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0445 \u043f\u0435\u0440\u0435\u0434 \u0438\u0445 \u043f\u0443\u0431\u043b\u0438\u043a\u0430\u0446\u0438\u0435\u0439 (\u043e\u0431\u0435\u0437\u043b\u0438\u0447\u0438\u0432\u0430\u043d\u0438\u0435 \u043f\u043e 152-\u0424\u0417));\u041f\u043e\u0438\u0441\u043a \u043a\u043b\u044e\u0447\u0435\u0432\u044b\u0445 \u043d\u0430\u0432\u044b\u043a\u043e\u0432 \u0432\u00a0\u0440\u0435\u0437\u044e\u043c\u0435, \u043f\u043e\u00a0\u043a\u043e\u0442\u043e\u0440\u044b\u043c \u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u043f\u043e\u0439\u043c\u0451\u0442, \u043f\u043e\u0434\u0445\u043e\u0434\u0438\u0442\u0435\u00a0\u043b\u0438 \u0432\u044b \u043f\u043e\u0434\u00a0\u0432\u0430\u043a\u0430\u043d\u0441\u0438\u044e;\u0418\u0437\u0432\u043b\u0435\u0447\u0435\u043d\u0438\u0435 \u043d\u043e\u043c\u0435\u0440\u0430 \u0437\u0430\u043a\u0430\u0437\u0430 \u0438 \u0433\u043e\u0440\u043e\u0434\u0430 \u0434\u043e\u0441\u0442\u0430\u0432\u043a\u0438 \u0432\u00a0\u0447\u0430\u0442\u2011\u0431\u043e\u0442\u0430\u0445 \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u043a\u0438 \u0434\u043b\u044f\u00a0\u0431\u044b\u0441\u0442\u0440\u043e\u0439 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 \u043e\u0431\u0440\u0430\u0449\u0435\u043d\u0438\u0439;\u041e\u0442\u043b\u0438\u0447\u043d\u043e, \u043c\u044b \u0441\u00a0\u0432\u0430\u043c\u0438 \u043a\u0440\u0430\u0442\u043a\u043e \u0440\u0430\u0437\u043e\u0431\u0440\u0430\u043b\u0438\u0441\u044c, \u0447\u0442\u043e\u00a0\u0442\u0430\u043a\u043e\u0435 NER \u0438 \u0441\u00a0\u0447\u0435\u043c \u0435\u0433\u043e \u0435\u0434\u044f\u0442. \u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u0442\u0435\u043f\u0435\u0440\u044c \u043d\u0430\u00a0\u0440\u0435\u0430\u043b\u044c\u043d\u043e\u043c \u043f\u0440\u0438\u043c\u0435\u0440\u0435 \u043f\u0440\u043e\u0439\u0434\u0451\u043c \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0435 \u044d\u0442\u0430\u043f\u044b \u0440\u0435\u0448\u0435\u043d\u0438\u044f \u044d\u0442\u043e\u0439 \u0437\u0430\u0434\u0430\u0447\u0438. \u041f\u043e\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u0446\u0435\u043b\u0435\u0439 \u0438 \u0437\u0430\u0434\u0430\u0447\u041f\u0440\u0435\u0436\u0434\u0435 \u0447\u0435\u043c \u0432\u043e\u0440\u043e\u0448\u0438\u0442\u044c \u0434\u0430\u043d\u043d\u044b\u0435 \u0438 \u043f\u0438\u0441\u0430\u0442\u044c \u043a\u043e\u0434, \u0441\u0442\u043e\u0438\u0442 \u0440\u0430\u0437\u043e\u0431\u0440\u0430\u0442\u044c\u0441\u044f \u0432\u00a0\u0437\u0430\u0434\u0430\u0447\u0435: \u043f\u043e\u043d\u044f\u0442\u044c \u0434\u043e\u043c\u0435\u043d, \u0444\u043e\u0440\u043c\u0430\u0442 \u0434\u0430\u043d\u043d\u044b\u0445 \u0438 \u043e\u0436\u0438\u0434\u0430\u043d\u0438\u044f \u0437\u0430\u043a\u0430\u0437\u0447\u0438\u043a\u0430. \u042d\u0442\u043e \u0441\u044d\u043a\u043e\u043d\u043e\u043c\u0438\u0442 \u0432\u0440\u0435\u043c\u044f \u043d\u0430\u00a0\u0432\u0441\u0435\u0445 \u043f\u043e\u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0445 \u044d\u0442\u0430\u043f\u0430\u0445. \u041f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u0438\u043c: \u043a\u00a0\u043d\u0430\u043c \u043f\u0440\u0438\u0448\u0451\u043b \u043a\u043b\u0438\u0435\u043d\u0442 \u0441\u00a0\u043f\u0440\u043e\u0441\u044c\u0431\u043e\u0439 \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u043c\u043e\u0434\u0443\u043b\u044c \u0434\u043b\u044f\u00a0HR\u2011\u0441\u0438\u0441\u0442\u0435\u043c\u044b, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043f\u043e\u043c\u043e\u0436\u0435\u0442 \u0440\u0435\u043a\u0440\u0443\u0442\u0435\u0440\u0430\u043c \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u044c \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0440\u0435\u043b\u0435\u0432\u0430\u043d\u0442\u043d\u044b\u0445 \u043a\u0430\u043d\u0434\u0438\u0434\u0430\u0442\u043e\u0432 \u043f\u043e\u00a0\u0432\u0445\u043e\u0434\u044f\u0449\u0438\u043c \u0440\u0435\u0437\u044e\u043c\u0435 \u0438 \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0442\u044c \u0438\u0445 \u0432\u00a0\u0431\u0430\u0437\u0443.\u041f\u043e\u043e\u0431\u0449\u0430\u0432\u0448\u0438\u0441\u044c \u0441\u00a0\u0440\u0435\u043a\u0440\u0443\u0442\u0435\u0440\u0430\u043c\u0438, \u043c\u044b \u043f\u043e\u043d\u044f\u043b\u0438, \u0447\u0442\u043e\u00a0\u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0440\u0435\u043b\u0435\u0432\u0430\u043d\u0442\u043d\u044b\u043c\u0438 \u0441\u0447\u0438\u0442\u0430\u044e\u0442\u0441\u044f \u0440\u0435\u0437\u044e\u043c\u0435, \u0432\u00a0\u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u0443\u043a\u0430\u0437\u0430\u043d\u044b \u043d\u0443\u0436\u043d\u044b\u0435 \u043d\u0430\u0432\u044b\u043a\u0438 \u0438 \u043e\u0436\u0438\u0434\u0430\u0435\u043c\u0430\u044f \u0437\u0430\u0440\u043f\u043b\u0430\u0442\u0430.\u041f\u043e\u0441\u043b\u0435 \u043e\u0431\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0439 \u0432\u00a0\u043a\u043e\u043c\u0430\u043d\u0434\u0435 \u0440\u0435\u0448\u0438\u043b\u0438 \u043f\u0440\u043e\u0431\u043e\u0432\u0430\u0442\u044c \u0440\u0435\u0448\u0430\u0442\u044c \u0437\u0430\u0434\u0430\u0447\u0443 \u0447\u0435\u0440\u0435\u0437 NER.\u041f\u043e\u043e\u0431\u0449\u0430\u0432\u0448\u0438\u0441\u044c \u0441\u00a0\u0440\u0435\u043a\u0440\u0443\u0442\u0435\u0440\u0430\u043c\u0438, \u043c\u044b \u0432\u044b\u044f\u0441\u043d\u0438\u043b\u0438, \u0447\u0442\u043e\u00a0\u043d\u0430\u00a0\u0432\u0445\u043e\u0434 \u0431\u0443\u0434\u0443\u0442 \u043f\u043e\u0441\u0442\u0443\u043f\u0430\u0442\u044c \u0440\u0435\u0437\u044e\u043c\u0435 \u043a\u0430\u043d\u0434\u0438\u0434\u0430\u0442\u043e\u0432 \u0432\u00a0\u0444\u043e\u0440\u043c\u0430\u0442\u0430\u0445 PDF \u0438 DOC. \u041f\u0440\u0438\u043c\u0435\u0440 \u0432\u0445\u043e\u0434\u044f\u0449\u0435\u0433\u043e \u0440\u0435\u0437\u044e\u043c\u0435 (*\u0432\u0441\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 \u0432\u044b\u043c\u044b\u0448\u043b\u0435\u043d\u044b, \u0441\u043e\u0432\u043f\u0430\u0434\u0435\u043d\u0438\u044f \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u044b) \u0414\u0430\u043b\u0435\u0435 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0437\u0430\u0434\u0430\u0442\u044c \u043d\u0430\u0448\u0438\u043c \u0437\u0430\u043a\u0430\u0437\u0447\u0438\u043a\u0430\u043c \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0432\u043e\u043f\u0440\u043e\u0441\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0442 \u043d\u0430\u043c \u043b\u0443\u0447\u0448\u0435 \u0440\u0435\u0448\u0438\u0442\u044c \u0437\u0430\u0434\u0430\u0447\u0443. \u0412\u043e\u043f\u0440\u043e\u0441 \u043f\u0440\u043e\u00a0\u0434\u043e\u043c\u0435\u043d. \u0418\u0437\u00a0\u043d\u0430\u0447\u0430\u043b\u044c\u043d\u043e\u0433\u043e \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u044f \u044d\u0442\u043e \u043f\u043e\u043d\u044f\u0442\u043d\u043e\u00a0\u2014 \u044d\u0442\u043e \u0431\u0443\u0434\u0443\u0442 \u0442\u0435\u043a\u0441\u0442\u043e\u0432\u044b\u0435 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u044f \u0440\u0435\u0437\u044e\u043c\u0435, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0442 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044e \u043e\u00a0\u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u043e\u043c \u043e\u043f\u044b\u0442\u0435 \u043a\u0430\u043d\u0434\u0438\u0434\u0430\u0442\u0430. \u0412\u00a0\u043d\u0438\u0445 \u0431\u0443\u0434\u0435\u0442 \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0442\u044c\u0441\u044f \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044f \u043e\u00a0\u0447\u0435\u043b\u043e\u0432\u0435\u043a\u0435 (\u0424\u0418\u041e, \u043c\u0435\u0441\u0442\u043e \u043f\u0440\u043e\u0436\u0438\u0432\u0430\u043d\u0438\u044f), \u043e\u00a0\u0442\u043e\u043c, \u0433\u0434\u0435 \u0447\u0435\u043b\u043e\u0432\u0435\u043a \u0440\u0430\u0431\u043e\u0442\u0430\u043b, \u043a\u0430\u043a\u0438\u0435 \u0437\u0430\u0434\u0430\u0447\u0438 \u0432\u044b\u043f\u043e\u043b\u043d\u044f\u043b, \u0441\u00a0\u043a\u0430\u043a\u0438\u043c\u0438 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u044f\u043c\u0438 \u0440\u0430\u0431\u043e\u0442\u0430\u043b, \u043e\u0436\u0438\u0434\u0430\u0435\u043c\u0430\u044f \u0434\u043e\u043b\u0436\u043d\u043e\u0441\u0442\u044c, \u043e\u0436\u0438\u0434\u0430\u0435\u043c\u0430\u044f \u0417\u041f. \u0412\u043e\u043f\u0440\u043e\u0441 \u043f\u0440\u043e\u00a0\u044f\u0437\u044b\u043a. \u041f\u043e\u043e\u0431\u0449\u0430\u0432\u0448\u0438\u0441\u044c \u0441\u00a0\u043a\u043b\u0438\u0435\u043d\u0442\u043e\u043c, \u043c\u044b \u0443\u0437\u043d\u0430\u043b\u0438, \u0447\u0442\u043e\u00a0\u0440\u0435\u0437\u044e\u043c\u0435 \u0431\u0443\u0434\u0443\u0442 \u043f\u0440\u0438\u0445\u043e\u0434\u0438\u0442\u044c \u0442\u043e\u043b\u044c\u043a\u043e \u043d\u0430\u00a0\u0440\u0443\u0441\u0441\u043a\u043e\u043c \u044f\u0437\u044b\u043a\u0435. \u0422\u0430\u043a\u0436\u0435 \u043c\u044b \u0443\u0442\u043e\u0447\u043d\u0438\u043b\u0438, \u0432\u00a0\u043a\u0430\u043a\u043e\u043c \u0444\u043e\u0440\u043c\u0430\u0442\u0435 \u0438\u043c \u043d\u0443\u0436\u043d\u044b \u0432\u044b\u0445\u043e\u0434\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 \u0438\u0437 \u0441\u0435\u0440\u0432\u0438\u0441\u0430. \u0417\u0430\u043a\u0430\u0437\u0447\u0438\u043a \u0441\u043a\u0430\u0437\u0430\u043b, \u0447\u0442\u043e\u00a0\u0438\u043c \u0442\u0440\u0435\u0431\u0443\u0435\u0442\u0441\u044f \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0430\u044f \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044f \u043e\u00a0\u043f\u043e\u0442\u0435\u043d\u0446\u0438\u0430\u043b\u044c\u043d\u043e\u043c \u043a\u0430\u043d\u0434\u0438\u0434\u0430\u0442\u0435: \u0438\u043c\u044f, \u0444\u0430\u043c\u0438\u043b\u0438\u044f, email, \u043d\u043e\u043c\u0435\u0440, \u0441\u043f\u0438\u0441\u043e\u043a \u043d\u0430\u0432\u044b\u043a\u043e\u0432, \u043e\u0436\u0438\u0434\u0430\u0435\u043c\u0430\u044f \u0417\u041f. \u0418\u0442\u0430\u043a, \u0443\u00a0\u043d\u0430\u0441 \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438, \u0447\u0442\u043e\u0431\u044b \u0437\u0430\u0444\u0438\u043a\u0441\u0438\u0440\u043e\u0432\u0430\u0442\u044c, \u0441\u00a0\u0447\u0435\u043c \u043c\u044b \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u043c:\u041f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u041e\u043f\u0438\u0441\u0430\u043d\u0438\u0435\u0414\u043e\u043c\u0435\u043d\u0420\u0435\u0437\u044e\u043c\u0435 \u043a\u0430\u043d\u0434\u0438\u0434\u0430\u0442\u043e\u0432 (\u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0439 \u043e\u043f\u044b\u0442, \u043d\u0430\u0432\u044b\u043a\u0438, \u043a\u043e\u043d\u0442\u0430\u043a\u0442\u044b)\u042f\u0437\u044b\u043a\u0420\u0443\u0441\u0441\u043a\u0438\u0439\u0424\u043e\u0440\u043c\u0430\u0442 \u0432\u0445\u043e\u0434\u043d\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445PDF, DOC\u0418\u0437\u0432\u043b\u0435\u043a\u0430\u0435\u043c\u044b\u0435 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438\u0418\u043c\u044f, \u0424\u0430\u043c\u0438\u043b\u0438\u044f, Email, \u0422\u0435\u043b\u0435\u0444\u043e\u043d, \u041d\u0430\u0432\u044b\u043a\u0438, \u041e\u0436\u0438\u0434\u0430\u0435\u043c\u0430\u044f \u0417\u041f\u0412\u043e\u043f\u0440\u043e\u0441\u043e\u0432 \u043f\u043e\u00a0\u0437\u0430\u0434\u0430\u0447\u0435 \u0435\u0449\u0435 \u043c\u043e\u0436\u043d\u043e \u0437\u0430\u0434\u0430\u0442\u044c \u043c\u043d\u043e\u0433\u043e: \u043e\u0431\u044a\u0435\u043c \u043e\u0431\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u0435\u043c\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445, \u043a\u0430\u043a\u0438\u0435 \u0438\u043d\u0442\u0435\u0433\u0440\u0430\u0446\u0438\u0438 \u0434\u043e\u043b\u0436\u043d\u044b\u00a0\u0431\u044b\u0442\u044c \u0443\u00a0\u043c\u043e\u0434\u0443\u043b\u044f \u0438 \u0442\u0430\u043a \u0434\u0430\u043b\u0435\u0435. \u0417\u0434\u0435\u0441\u044c \u043c\u044b \u0441\u043e\u0441\u0440\u0435\u0434\u043e\u0442\u043e\u0447\u0438\u043b\u0438\u0441\u044c \u043d\u0430\u00a0\u0442\u0435\u0445 \u0432\u0435\u0449\u0430\u0445, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043c\u043e\u0433\u0443\u0442 \u043f\u043e\u0442\u0440\u0435\u0431\u043e\u0432\u0430\u0442\u044c\u0441\u044f \u0434\u043b\u044f\u00a0\u0440\u0435\u0448\u0435\u043d\u0438\u044f \u0437\u0430\u0434\u0430\u0447\u0438 NER.\u00a0\u0424\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0443\u0435\u043c \u0437\u0430\u0434\u0430\u0447\u0443. \u041d\u0430\u00a0\u0432\u0445\u043e\u0434 \u043f\u043e\u0441\u0442\u0443\u043f\u0430\u0435\u0442 \u0444\u0430\u0439\u043b \u0440\u0435\u0437\u044e\u043c\u0435 \u0432\u00a0\u0444\u043e\u0440\u043c\u0430\u0442\u0435 PDF \u0438\u043b\u0438\u00a0DOC. \u0418\u0437\u00a0\u043d\u0435\u0433\u043e \u043c\u044b \u0438\u0437\u0432\u043b\u0435\u043a\u0430\u0435\u043c \u0442\u0435\u043a\u0441\u0442, \u0430\u00a0\u0437\u0430\u0442\u0435\u043c \u0441\u00a0\u043f\u043e\u043c\u043e\u0449\u044c\u044e NER\u2011\u043c\u043e\u0434\u0435\u043b\u0438 \u043d\u0430\u0445\u043e\u0434\u0438\u043c \u0432\u00a0\u043d\u0451\u043c \u043d\u0443\u0436\u043d\u044b\u0435 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438: \u0438\u043c\u044f, \u0444\u0430\u043c\u0438\u043b\u0438\u044e, email, \u0442\u0435\u043b\u0435\u0444\u043e\u043d, \u043d\u0430\u0432\u044b\u043a\u0438 \u0438 \u043e\u0436\u0438\u0434\u0430\u0435\u043c\u0443\u044e \u0437\u0430\u0440\u0430\u0431\u043e\u0442\u043d\u0443\u044e \u043f\u043b\u0430\u0442\u0443. \u0412\u00a0\u043a\u043e\u043d\u0435\u0447\u043d\u043e\u043c \u0438\u0442\u043e\u0433\u0435 \u043c\u043e\u0434\u0443\u043b\u044c \u043e\u0442\u0434\u0430\u0435\u0442 \u043d\u0430\u0439\u0434\u0435\u043d\u043d\u044b\u0435 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438 \u043d\u0430\u00a0\u0434\u0430\u043b\u044c\u043d\u0435\u0439\u0448\u0443\u044e \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0443.\u0420\u0430\u0431\u043e\u0442\u0430 \u0441\u00a0\u0434\u0430\u043d\u043d\u044b\u043c\u0438\u0414\u0430\u043b\u0435\u0435 \u043c\u044b \u043f\u0435\u0440\u0435\u0445\u043e\u0434\u0438\u043c \u043a\u00a0\u0440\u0430\u0431\u043e\u0442\u0435 \u0441\u00a0\u0434\u0430\u043d\u043d\u044b\u043c\u0438. \u042d\u0442\u043e \u0441\u0430\u043c\u044b\u0439 \u0432\u0430\u0436\u043d\u044b\u0439 \u044d\u0442\u0430\u043f \u043f\u0440\u0438\u00a0\u0440\u0435\u0448\u0435\u043d\u0438\u0438 \u0437\u0430\u0434\u0430\u0447\u0438 NER (\u0434\u0430 \u0438 \u0432\u00a0\u0446\u0435\u043b\u043e\u043c \u043b\u044e\u0431\u043e\u0439 NLP-\u0437\u0430\u0434\u0430\u0447\u0438). \u0412\u0441\u0435\u0433\u0434\u0430 \u0441\u0442\u043e\u0438\u0442 \u043f\u043e\u043c\u043d\u0438\u0442\u044c \u0444\u0440\u0430\u0437\u0443: \u00abGarbage in\u00a0\u2014 garbage out\u00bb. \u041d\u0430\u00a0\u043f\u0440\u043e\u0448\u043b\u043e\u043c \u0448\u0430\u0433\u0435 \u043c\u044b \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0435\u043b\u0438 \u0437\u0430\u0434\u0430\u0447\u0443 \u0438 \u043f\u043e\u043d\u044f\u043b\u0438, \u0447\u0442\u043e\u00a0\u043d\u0430\u043c \u0442\u0440\u0435\u0431\u0443\u0435\u0442\u0441\u044f. \u041e\u0431\u0440\u0430\u0442\u0438\u043c \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u043d\u0430\u00a0\u0442\u0435 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043d\u0430\u043c \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0438\u0437\u0432\u043b\u0435\u0447\u044c: \u0438\u043c\u044f, \u0444\u0430\u043c\u0438\u043b\u0438\u044f, email, \u0442\u0435\u043b\u0435\u0444\u043e\u043d, \u043d\u0430\u0432\u044b\u043a\u0438, \u043e\u0436\u0438\u0434\u0430\u0435\u043c\u0430\u044f \u0417\u041f. \u0418\u043c\u0435\u043d\u043d\u043e \u044d\u0442\u0438 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438 \u0438 \u0431\u0443\u0434\u0435\u0442 \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u044c \u0432\u00a0\u0442\u0435\u043a\u0441\u0442\u0435. \u0412\u0430\u0436\u043d\u043e \u0437\u0430\u0444\u0438\u043a\u0441\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0442\u043e\u0447\u043d\u044b\u0435 \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u044f \u0434\u043b\u044f\u00a0\u043a\u0430\u0436\u0434\u043e\u0439 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0438, \u0447\u0442\u043e\u0431\u044b \u0432\u00a0\u0434\u0430\u043b\u044c\u043d\u0435\u0439\u0448\u0435\u043c \u043e\u0434\u043d\u043e\u0437\u043d\u0430\u0447\u043d\u043e \u0440\u0430\u0437\u043c\u0435\u0447\u0430\u0442\u044c \u0438\u0445 \u0432\u00a0\u0442\u0435\u043a\u0441\u0442\u0435. \u0422\u0435\u0433\u0421\u0443\u0449\u043d\u043e\u0441\u0442\u044c\u041e\u043f\u0438\u0441\u0430\u043d\u0438\u0435NAME\u0418\u043c\u044f\u041b\u0438\u0447\u043d\u043e\u0435 \u0438\u043c\u044f \u043a\u0430\u043d\u0434\u0438\u0434\u0430\u0442\u0430SURNAME\u0424\u0430\u043c\u0438\u043b\u0438\u044f\u0424\u0430\u043c\u0438\u043b\u0438\u044f \u043a\u0430\u043d\u0434\u0438\u0434\u0430\u0442\u0430EMAILEmail\u0410\u0434\u0440\u0435\u0441 \u044d\u043b\u0435\u043a\u0442\u0440\u043e\u043d\u043d\u043e\u0439 \u043f\u043e\u0447\u0442\u044bPHONE\u0422\u0435\u043b\u0435\u0444\u043e\u043d\u041d\u043e\u043c\u0435\u0440 \u0442\u0435\u043b\u0435\u0444\u043e\u043d\u0430 (\u0432 \u043b\u044e\u0431\u043e\u043c \u0444\u043e\u0440\u043c\u0430\u0442\u0435)SKILL\u041d\u0430\u0432\u044b\u043a\u0438\u041f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043d\u0430\u0432\u044b\u043a\u0438, \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0438, \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u044bSALARY\u041e\u0436\u0438\u0434\u0430\u0435\u043c\u0430\u044f \u0417\u041f\u0416\u0435\u043b\u0430\u0435\u043c\u044b\u0439 \u0443\u0440\u043e\u0432\u0435\u043d\u044c \u0437\u0430\u0440\u0430\u0431\u043e\u0442\u043d\u043e\u0439 \u043f\u043b\u0430\u0442\u044b (\u0432\u043a\u043b\u044e\u0447\u0430\u044f \u0441\u0443\u043c\u043c\u0443 \u0438 \u0432\u0430\u043b\u044e\u0442\u0443)\u041a\u0430\u043a\u00a0\u0432\u044b \u043c\u043e\u0433\u043b\u0438 \u0437\u0430\u043c\u0435\u0442\u0438\u0442\u044c, \u043c\u044b \u0434\u043e\u0431\u0430\u0432\u0438\u043b\u0438 \u0441\u0442\u043e\u043b\u0431\u0435\u0446 \u00ab\u0422\u0435\u0433\u00bb. \u042d\u0442\u0438 \u0442\u0435\u0433\u0438 \u043c\u044b \u0437\u0430\u0434\u0430\u0434\u0438\u043c \u0434\u043b\u044f\u00a0NER\u2011\u043c\u043e\u0434\u0435\u043b\u0438, \u0447\u0442\u043e\u0431\u044b \u043e\u043d\u0430 \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u043b\u0430 \u0438\u0445 \u0434\u043b\u044f\u00a0\u043d\u0430\u0439\u0434\u0435\u043d\u043d\u044b\u0445 \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u0435\u0439 \u0432\u00a0\u0442\u0435\u043a\u0441\u0442\u0435. \u041f\u0435\u0440\u0435\u0445\u043e\u0434\u0438\u043c \u043a\u00a0\u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u043e\u043c\u0443 \u0444\u043e\u0440\u043c\u0430\u0442\u0443 \u0434\u0430\u043d\u043d\u044b\u0445, \u0441\u00a0\u043a\u043e\u0442\u043e\u0440\u044b\u043c\u0438 \u0431\u0443\u0434\u0435\u0442 \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u044c. \u0421\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u044e\u0442 \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0435 \u0444\u043e\u0440\u043c\u0430\u0442\u044b \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438: \u0412\u043e\u0437\u043c\u043e\u0436\u043d\u044b\u0435 \u0444\u043e\u0440\u043c\u0430\u0442\u044b NER \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438\u041c\u044b \u0431\u0443\u0434\u0435\u043c \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0441\u0445\u0435\u043c\u0443 BIO, \u0442\u0430\u043a \u043a\u0430\u043a\u00a0\u0432\u00a0\u0440\u0435\u0437\u044e\u043c\u0435 \u043d\u0430\u0432\u044b\u043a\u0438 \u0447\u0430\u0441\u0442\u043e \u043f\u0435\u0440\u0435\u0447\u0438\u0441\u043b\u044f\u044e\u0442\u0441\u044f \u043f\u043e\u0434\u0440\u044f\u0434 \u0431\u0435\u0437\u00a0\u0440\u0430\u0437\u0434\u0435\u043b\u0438\u0442\u0435\u043b\u0435\u0439\u00a0\u2014 \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u00abPython SQL Docker\u00bb\u00a0\u2014 \u0438 \u0442\u0435\u0433 B\u2011SKILL \u043d\u0430\u00a0\u043a\u0430\u0436\u0434\u043e\u043c \u0441\u043b\u043e\u0432\u0435 \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u043c\u043e\u0434\u0435\u043b\u0438 \u043f\u043e\u043d\u044f\u0442\u044c, \u0447\u0442\u043e\u00a0\u044d\u0442\u043e \u0442\u0440\u0438 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u0445 \u043d\u0430\u0432\u044b\u043a\u0430, \u0430\u00a0\u043d\u0435\u00a0\u043e\u0434\u0438\u043d (\u043a\u0430\u043a \u0441\u00a0IO \u0444\u043e\u0440\u043c\u0430\u0442\u043e\u043c). \u041f\u043e\u0438\u0441\u043a \u0433\u043e\u0442\u043e\u0432\u043e\u0433\u043e \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430 \u041f\u0435\u0440\u0432\u044b\u043c \u0448\u0430\u0433\u043e\u043c \u043f\u043e\u043f\u0440\u043e\u0431\u0443\u0435\u043c \u043d\u0430\u0439\u0442\u0438 \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0438\u0439 \u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u0434\u043b\u044f\u00a0\u043d\u0430\u0448\u0435\u0439 \u0437\u0430\u0434\u0430\u0447\u0438 \u0432 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0445 \u0438\u0441\u0442\u043e\u0447\u043d\u0438\u043a\u0430\u0445. \u0414\u043b\u044f\u00a0\u044d\u0442\u043e\u0433\u043e \u043c\u043e\u0436\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c. \u041d\u0430\u0447\u043d\u0451\u043c \u0441 Hugging Face. \u0414\u043b\u044f\u00a0\u0442\u0435\u0445, \u043a\u0442\u043e \u043d\u0435\u00a0\u0437\u043d\u0430\u0435\u0442: Hugging Face\u00a0\u2014 \u044d\u0442\u043e \u043f\u043e\u043f\u0443\u043b\u044f\u0440\u043d\u0430\u044f \u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c\u0430 \u0432\u00a0\u043e\u0431\u043b\u0430\u0441\u0442\u0438 \u0418\u0418, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u0431\u043e\u043b\u044c\u0448\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e open\u2011source\u2011\u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u0438 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u043e\u0432 \u0434\u043b\u044f\u00a0\u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0445 \u0437\u0430\u0434\u0430\u0447. Hugging Face\u041f\u043e\u043f\u0440\u043e\u0431\u0443\u0435\u043c \u043d\u0430\u0439\u0442\u0438 \u0437\u0434\u0435\u0441\u044c \u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u0434\u043b\u044f\u00a0\u043d\u0430\u0448\u0435\u0439 \u0437\u0430\u0434\u0430\u0447\u0438. \u0412\u0441\u0435 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u044b \u043c\u043e\u0436\u043d\u043e \u0443\u0432\u0438\u0434\u0435\u0442\u044c \u0432\u043e\u00a0\u0432\u043a\u043b\u0430\u0434\u043a\u0435 Datasets. \u041d\u0430\u0441\u0442\u0440\u043e\u0438\u043c \u043d\u0435\u043c\u043d\u043e\u0433\u043e \u0444\u0438\u043b\u044c\u0442\u0440\u044b \u0434\u043b\u044f\u00a0\u043d\u0430\u0448\u0435\u0439 \u0437\u0430\u0434\u0430\u0447\u0438. \u041c\u044b \u0440\u0435\u0448\u0430\u0435\u043c \u0447\u0435\u0440\u0435\u0437 NER\u00a0\u2014 \u0437\u043d\u0430\u0447\u0438\u0442, \u0432\u00a0\u0444\u0438\u043b\u044c\u0442\u0440\u0435 Task \u0441\u043b\u0435\u0434\u0443\u0435\u0442 \u0432\u044b\u0431\u0440\u0430\u0442\u044c \u00abToken Classification\u00bb. \u0414\u0430\u043b\u0435\u0435, \u0442\u0430\u043a \u043a\u0430\u043a\u00a0\u043d\u0430\u0448\u0438 \u0440\u0435\u0437\u044e\u043c\u0435 \u0431\u0443\u0434\u0443\u0442 \u043d\u0430\u00a0\u0440\u0443\u0441\u0441\u043a\u043e\u043c\u00a0\u2014 \u0432\u044b\u0441\u0442\u0430\u0432\u0438\u043c \u0440\u0443\u0441\u0441\u043a\u0438\u0439 \u044f\u0437\u044b\u043a \u0432\u043e\u00a0\u0432\u043a\u043b\u0430\u0434\u043a\u0435 \u00abLanguages\u00bb. \u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043c \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u044b \u043d\u0430\u00a0\u0440\u0443\u0441\u0441\u043a\u043e\u043c \u044f\u0437\u044b\u043a\u0435 \u0434\u043b\u044f\u00a0\u0437\u0430\u0434\u0430\u0447\u0438 NER. \u0414\u0430\u043b\u0435\u0435 \u044f \u043f\u043e\u043f\u044b\u0442\u0430\u043b\u0441\u044f \u0447\u0435\u0440\u0435\u0437 \u043f\u043e\u0438\u0441\u043a \u043d\u0430\u0439\u0442\u0438 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u044b \u043f\u043e\u00a0\u0440\u0435\u0437\u044e\u043c\u0435, \u043d\u043e\u00a0\u0442\u0430\u043a\u0438\u0445 \u043d\u0435\u00a0\u043e\u043a\u0430\u0437\u0430\u043b\u043e\u0441\u044c. \u041f\u043e\u0438\u0441\u043a \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u043e\u0432 \u0432\u00a0Hugging Face\u0415\u0441\u043b\u0438\u00a0\u0436\u0435 \u0443\u0431\u0440\u0430\u0442\u044c \u0444\u0438\u043b\u044c\u0442\u0440 \u043d\u0430\u00a0\u044f\u0437\u044b\u043a, \u0432\u0441\u0435\u0433\u043e \u043e\u0441\u0442\u0430\u043d\u0435\u0442\u0441\u044f 16\u00a0\u0434\u0430\u0442\u0430\u0441\u0435\u0442\u043e\u0432 \u043f\u043e\u00a0\u0437\u0430\u043f\u0440\u043e\u0441\u0443 resume\u0414\u0430\u043b\u0435\u0435 \u044f \u043f\u043e\u043f\u0440\u043e\u0431\u043e\u0432\u0430\u043b \u0441\u0434\u0435\u043b\u0430\u0442\u044c DeepResearch \u0447\u0435\u0440\u0435\u0437 Claude, \u0447\u0442\u043e\u0431\u044b \u043e\u043d \u0442\u0430\u043a\u0436\u0435 \u043f\u043e\u043f\u0440\u043e\u0431\u043e\u0432\u0430\u043b \u043f\u043e\u0438\u0441\u043a\u0430\u0442\u044c \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u044b \u043d\u0430\u00a0Hugging Face. \u041d\u0438\u0447\u0435\u0433\u043e \u043d\u0430\u00a0\u0440\u0443\u0441\u0441\u043a\u043e\u043c \u044f\u0437\u044b\u043a\u0435 \u043e\u043d \u043d\u0435\u00a0\u043d\u0430\u0448\u0451\u043b. \u041d\u043e\u00a0\u0432\u0441\u0451\u00a0\u0436\u0435 \u044f \u0437\u0430\u043f\u0440\u0438\u043c\u0435\u0442\u0438\u043b \u043e\u0434\u0438\u043d \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u044b\u0439 \u0434\u0430\u0442\u0430\u0441\u0435\u0442. \u042d\u0442\u043e \u0434\u0430\u0442\u0430\u0441\u0435\u0442, \u0432\u00a0\u043a\u043e\u0442\u043e\u0440\u043e\u043c \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0442\u0441\u044f 5000\u00a0\u0440\u0435\u0437\u044e\u043c\u0435 \u043d\u0430\u00a0\u0430\u043d\u0433\u043b\u0438\u0439\u0441\u043a\u043e\u043c, \u0430\u00a0\u0442\u0430\u043a\u0436\u0435 \u0440\u0430\u0437\u043c\u0435\u0447\u0435\u043d\u043d\u044b\u0435 \u043d\u0430\u0432\u044b\u043a\u0438 (SKILLS) \u0434\u043b\u044f\u00a0\u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0438\u0437\u00a0\u043d\u0438\u0445. \u0420\u0435\u0448\u0438\u043b \u043f\u0440\u0438\u0431\u0435\u0440\u0435\u0447\u044c \u0435\u0433\u043e, \u0447\u0442\u043e\u0431\u044b \u043f\u043e\u043f\u0440\u043e\u0431\u043e\u0432\u0430\u0442\u044c \u043f\u0435\u0440\u0435\u0432\u0435\u0441\u0442\u0438 \u0447\u0430\u0441\u0442\u044c \u043d\u0430\u00a0\u0440\u0443\u0441\u0441\u043a\u0438\u0439 \u0434\u043b\u044f\u00a0\u0441\u0432\u043e\u0435\u0439 \u0437\u0430\u0434\u0430\u0447\u0438. \u0414\u0430\u043b\u0435\u0435 \u044f \u043f\u0440\u043e\u0432\u0451\u043b \u0442\u0435\u00a0\u0436\u0435 \u043f\u043e\u0438\u0441\u043a\u0438 \u043d\u0430: Kaggle Zenodo\u00a0 Google Dataset Search\u0415\u0441\u0442\u044c \u0435\u0449\u0451 \u043c\u043d\u043e\u0433\u043e \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u0445 \u043f\u043b\u043e\u0449\u0430\u0434\u043e\u043a \u0441\u00a0\u0434\u0430\u043d\u043d\u044b\u043c\u0438. \u042d\u0442\u043e \u043e\u0434\u043d\u0438 \u0438\u0437\u00a0\u0441\u0430\u043c\u044b\u0445 \u043f\u043e\u043f\u0443\u043b\u044f\u0440\u043d\u044b\u0445. \u0412\u00a0\u0438\u0442\u043e\u0433\u0435 \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u043e \u0434\u043b\u044f\u00a0\u0441\u0432\u043e\u0435\u0439 \u0437\u0430\u0434\u0430\u0447\u0438 \u044f \u0442\u0430\u043a \u0438 \u043d\u0435\u00a0\u043d\u0430\u0448\u0451\u043b \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0430\u00a0\u2014 \u0442\u043e\u043b\u044c\u043a\u043e \u0441\u0445\u043e\u0436\u0438\u0439 \u043d\u0430\u00a0\u0430\u043d\u0433\u043b\u0438\u0439\u0441\u043a\u043e\u043c, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0443\u043f\u043e\u043c\u0438\u043d\u0430\u043b \u0432\u044b\u0448\u0435. \u0412\u00a0\u0446\u0435\u043b\u043e\u043c, \u0442\u0430\u043a \u0447\u0430\u0449\u0435 \u0432\u0441\u0435\u0433\u043e \u0438 \u043f\u0440\u043e\u0438\u0441\u0445\u043e\u0434\u0438\u0442. \u0427\u0435\u043c \u0441\u043f\u0435\u0446\u0438\u0444\u0438\u0447\u043d\u0435\u0435 \u0437\u0430\u0434\u0430\u0447\u0430, \u0442\u0435\u043c \u043c\u0435\u043d\u044c\u0448\u0435 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u044c, \u0447\u0442\u043e\u00a0\u0431\u0443\u0434\u0443\u0442 \u043d\u0430\u0439\u0434\u0435\u043d\u044b \u0434\u0430\u043d\u043d\u044b\u0435. \u041d\u043e\u00a0\u0432\u0441\u0435\u0433\u0434\u0430 \u0435\u0441\u0442\u044c \u0448\u0430\u043d\u0441 \u043d\u0430\u0439\u0442\u0438 \u0441\u0445\u043e\u0436\u0438\u0439 \u0434\u0430\u0442\u0430\u0441\u0435\u0442, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043c\u043e\u0436\u043d\u043e \u0431\u0443\u0434\u0435\u0442 \u043c\u043e\u0434\u0435\u0440\u043d\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0438\u043b\u0438 \u043f\u0435\u0440\u0435\u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c. \u0414\u0430\u043b\u0435\u0435 \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u0432\u0430\u0440\u0438\u0430\u043d\u0442 \u043f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u043a\u0438 \u0434\u0430\u043d\u043d\u044b\u0445, \u043a\u043e\u0433\u0434\u0430 \u043c\u044b \u0438\u0445 \u0440\u0430\u0437\u043c\u0435\u0447\u0430\u0435\u043c \u0432\u0440\u0443\u0447\u043d\u0443\u044e. \u0420\u0430\u0437\u043c\u0435\u0442\u043a\u0430 \u0432\u00a0Label Studio\u0412\u00a0\u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u0430 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u043c\u043e\u0436\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c Label Studio. \u042d\u0442\u043e \u043f\u043e\u043f\u0443\u043b\u044f\u0440\u043d\u0430\u044f open\u2011source\u2011\u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c\u0430 \u0434\u043b\u044f\u00a0\u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 \u0434\u0430\u043d\u043d\u044b\u0445. \u041e\u043d\u0430 \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u0440\u0430\u0437\u043c\u0435\u0447\u0430\u0442\u044c \u0434\u0430\u043d\u043d\u044b\u0435 \u0434\u043b\u044f\u00a0\u0431\u043e\u043b\u044c\u0448\u043e\u0433\u043e \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0430 \u0437\u0430\u0434\u0430\u0447: \u0412\u0438\u0434\u044b \u0430\u043d\u043d\u043e\u0442\u0430\u0446\u0438\u0439 \u0432\u00a0Label Studio\u041e\u043d\u0430\u00a0\u0436\u0435 \u0432\u043a\u043b\u044e\u0447\u0430\u0435\u0442 \u0441\u0440\u0435\u0434\u0441\u0442\u0432\u0430 \u0434\u043b\u044f\u00a0\u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438 NER\u2011\u0434\u0430\u0442\u0430\u0441\u0435\u0442\u043e\u0432\u00a0\u2014 \u0447\u0442\u043e\u00a0\u043d\u0430\u043c \u0438 \u043f\u043e\u0434\u0445\u043e\u0434\u0438\u0442. \u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043f\u0440\u043e\u0446\u0435\u0441\u0441 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438. \u0412\u00a0\u0441\u0432\u044f\u0437\u0438 \u0441\u00a0\u043d\u0435\u043a\u043e\u0442\u043e\u0440\u044b\u043c\u0438 \u043d\u044e\u0430\u043d\u0441\u0430\u043c\u0438 \u043f\u043e\u00a0\u0440\u0430\u0431\u043e\u0442\u0435 \u0441\u00a0\u0440\u0435\u0430\u043b\u044c\u043d\u044b\u043c\u0438 \u0440\u0435\u0437\u044e\u043c\u0435 (\u043f\u0435\u0440\u0441\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435) \u044f \u0440\u0435\u0448\u0438\u043b \u043f\u0440\u043e\u0434\u0435\u043c\u043e\u043d\u0441\u0442\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0441\u0430\u043c \u043f\u043e\u0434\u0445\u043e\u0434 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u0438. \u042d\u0442\u0438 \u0440\u0435\u0437\u044e\u043c\u0435 \u0432\u00a0\u043f\u0440\u0438\u043c\u0435\u0440\u0430\u0445 \u044f \u0441\u0433\u0435\u043d\u0435\u0440\u0438\u0440\u043e\u0432\u0430\u043b \u0438\u043b\u0438\u00a0\u0432\u0437\u044f\u043b \u0438\u0437\u00a0\u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0445 \u0438\u0441\u0442\u043e\u0447\u043d\u0438\u043a\u043e\u0432 (\u043f\u0438\u0441\u0430\u043b \u0432\u044b\u0448\u0435). \u0413\u043b\u0430\u0432\u043d\u0430\u044f \u0446\u0435\u043b\u044c\u00a0\u2014 \u043f\u043e\u043a\u0430\u0437\u0430\u0442\u044c, \u043a\u0430\u043a\u00a0\u0432\u044b \u043c\u043e\u0436\u0435\u0442\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u0441\u00a0\u0440\u0430\u0437\u043c\u0435\u0442\u043a\u043e\u0439, \u043a\u043e\u0433\u0434\u0430 \u0443\u00a0\u0432\u0430\u0441 \u0431\u0443\u0434\u0443\u0442 \u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435. \u0414\u0430\u0432\u0430\u0439\u0442\u0435 \u044f \u043f\u043e\u043a\u0430\u0436\u0443, \u043a\u0430\u043a\u00a0\u043d\u0430\u0441\u0442\u0440\u043e\u0438\u0442\u044c \u0440\u0430\u0431\u043e\u0442\u0443 Label Studio \u0434\u043b\u044f\u00a0NER. \u041f\u0435\u0440\u0432\u044b\u043c \u0434\u0435\u043b\u043e\u043c \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0435\u0451 \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u044c. \u0421\u0434\u0435\u043b\u0430\u0442\u044c \u044d\u0442\u043e \u043c\u043e\u0436\u043d\u043e \u0447\u0435\u0440\u0435\u0437 pip. \u041f\u0440\u043e\u0434\u0435\u043c\u043e\u043d\u0441\u0442\u0440\u0438\u0440\u0443\u044e \u044d\u0442\u043e\u0442 \u043f\u0440\u043e\u0446\u0435\u0441\u0441 \u043d\u0430\u00a0Windows. \u0423\u00a0\u0432\u0430\u0441 \u0434\u043e\u043b\u0436\u0435\u043d\u00a0\u0431\u044b\u0442\u044c \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d Python.\u0414\u043b\u044f\u00a0\u044d\u0442\u043e\u0433\u043e \u0441\u043e\u0437\u0434\u0430\u0439\u0442\u0435 \u043d\u043e\u0432\u0443\u044e \u0432\u0438\u0440\u0442\u0443\u0430\u043b\u044c\u043d\u0443\u044e \u0441\u0440\u0435\u0434\u0443. \u041e\u0442\u043a\u0440\u043e\u0439\u0442\u0435 \u043a\u043e\u043c\u0430\u043d\u0434\u043d\u0443\u044e \u0441\u0442\u0440\u043e\u043a\u0443 \u0438 \u0432\u0432\u0435\u0434\u0438\u0442\u0435 \u043a\u043e\u043c\u0430\u043d\u0434\u0443python -m venv venv\u0410\u043a\u0442\u0438\u0432\u0438\u0440\u0443\u0439\u0442\u0435 \u0441\u0440\u0435\u0434\u0443.\/venv\/Scripts\/activate\u0414\u0430\u043b\u0435\u0435 \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u043c Label Studio \u043a\u043e\u043c\u0430\u043d\u0434\u043e\u0439pip install -U label-studio\u041f\u043e\u0441\u043b\u0435 \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0438 \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u044c Label Studio \u043c\u043e\u0436\u043d\u043e \u043a\u043e\u043c\u0430\u043d\u0434\u043e\u0439label-studio\u0417\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u0441\u044f \u0441\u0435\u0440\u0432\u0438\u0441 Label Studio. \u0414\u043e\u0441\u0442\u0443\u043f \u043a\u00a0\u043d\u0435\u043c\u0443 \u043c\u043e\u0436\u043d\u043e \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u043f\u0435\u0440\u0435\u0439\u0434\u044f \u043f\u043e\u00a0\u0441\u0441\u044b\u043b\u043a\u0435 http:\/\/localhost:8080\/. \u041e\u0442\u043a\u0440\u043e\u0435\u0442\u0441\u044f \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0430 \u0430\u0432\u0442\u043e\u0440\u0438\u0437\u0430\u0446\u0438\u0438:\u0421\u0442\u0440\u0430\u043d\u0438\u0446\u0430 \u0430\u0432\u0442\u043e\u0440\u0438\u0437\u0430\u0446\u0438\u0438 Label Studio\u041d\u0430\u0436\u043c\u0438\u0442\u0435 \u043d\u0430\u00a0Sign Up, \u0441\u043e\u0437\u0434\u0430\u0439\u0442\u0435 \u0430\u043a\u043a\u0430\u0443\u043d\u0442, \u0430\u00a0\u043f\u043e\u0441\u043b\u0435 \u0430\u0432\u0442\u043e\u0440\u0438\u0437\u0443\u0439\u0442\u0435\u0441\u044c.\u00a0\u0412\u044b \u043f\u043e\u043f\u0430\u0434\u0435\u0442\u0435 \u043d\u0430\u00a0\u0433\u043b\u0430\u0432\u043d\u0443\u044e \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0443 Label Studio.\u00a0\u0414\u0430\u043b\u0435\u0435 \u0441\u043e\u0437\u0434\u0430\u0434\u0438\u043c \u043f\u0440\u043e\u0435\u043a\u0442 \u0434\u043b\u044f\u00a0\u043d\u0430\u0448\u0435\u0439 \u0437\u0430\u0434\u0430\u0447\u0438. \u041d\u0430\u0436\u043c\u0438\u0442\u0435 \u043d\u0430 \u00abCreate Project\u00bb\u0421\u043e\u0437\u0434\u0430\u043d\u0438\u0435 \u043f\u0440\u043e\u0435\u043a\u0442\u0430 \u0432\u00a0Label Studio\u041f\u043e\u0441\u043b\u0435 \u044d\u0442\u043e\u0433\u043e \u0432\u044b \u043c\u043e\u0436\u0435\u0442\u0435 \u0432\u0432\u0435\u0441\u0442\u0438 \u0438\u043c\u044f \u043f\u0440\u043e\u0435\u043a\u0442\u0430 \u0438 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0435 (\u043e\u043f\u0446\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u043e) \u041d\u0430\u0437\u0432\u0430\u043d\u0438\u0435 \u043f\u0440\u043e\u0435\u043a\u0442\u0430\u0414\u0430\u043b\u0435\u0435 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0437\u0430\u0433\u0440\u0443\u0437\u0438\u0442\u044c \u0434\u0430\u043d\u043d\u044b\u0435. \u042f \u0441\u0442\u043e\u043b\u043a\u043d\u0443\u043b\u0441\u044f \u0441\u043e \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u043c\u0438 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0430\u043c\u0438:Label Studio \u043d\u0435\u00a0\u043f\u0440\u0435\u0434\u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0432\u0441\u0442\u0440\u043e\u0435\u043d\u043d\u043e\u0433\u043e \u043f\u0430\u0440\u0441\u0435\u0440\u0430 \u0442\u0435\u043a\u0441\u0442\u0430 \u0438\u0437\u00a0PDF\u00a0\u2014 \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0441\u0430\u043c\u0438\u043c \u0432\u044b\u0442\u0430\u0449\u0438\u0442\u044c \u0442\u0435\u043a\u0441\u0442 \u043e\u0442\u0442\u0443\u0434\u0430.\u0415\u0441\u043b\u0438 \u0437\u0430\u0433\u0440\u0443\u0436\u0430\u0442\u044c \u0432\u00a0Label Studio.txt\u2011\u0444\u0430\u0439\u043b\u044b, \u0442\u043e \u043e\u043d \u043d\u0435\u00a0\u043c\u043e\u0436\u0435\u0442 \u0438\u0445 \u043f\u0440\u043e\u0447\u0438\u0442\u0430\u0442\u044c, \u0430\u00a0\u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u043f\u0440\u043e\u0441\u0442\u043e \u0441\u0441\u044b\u043b\u043a\u0443.\u0420\u0435\u0448\u0438\u043b \u044f \u044d\u0442\u0438 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u044b \u0442\u0435\u043c, \u0447\u0442\u043e\u00a0\u043d\u0430\u043f\u0438\u0441\u0430\u043b \u043f\u0440\u043e\u0441\u0442\u0435\u043d\u044c\u043a\u0438\u0439 \u043f\u0430\u0440\u0441\u0435\u0440 \u0442\u0435\u043a\u0441\u0442\u0430 \u0438\u0437\u00a0PDF, \u0430\u00a0\u043f\u043e\u0441\u043b\u0435 \u043f\u0435\u0440\u0435\u0432\u0451\u043b \u0438\u0445 \u0432\u00a0\u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0451\u043d\u043d\u044b\u0439 \u0444\u043e\u0440\u043c\u0430\u0442 JSON, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0435\u0442 Label Studio \u0438 \u0445\u043e\u0440\u043e\u0448\u043e \u0441\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u0442.\u0421\u043a\u0438\u0434\u044b\u0432\u0430\u044e \u0432\u0430\u043c \u0441\u043a\u0440\u0438\u043f\u0442 \u0434\u043b\u044f\u00a0\u044d\u0442\u043e\u0433\u043e: Python \u043a\u043e\u0434 \u0434\u043b\u044f \u043f\u0435\u0440\u0435\u0432\u043e\u0434\u0430 pdf \u0444\u0430\u0439\u043b\u043e\u0432 \u0432 json \u0434\u043b\u044f Label Studio# pip install pdfplumberimport pdfplumberimport jsonimport osimport sysdef extract_text_from_pdf(pdf_path: str) -&gt; str:    &#171;&#187;&#187;\u0418\u0437\u0432\u043b\u0435\u043a\u0430\u0435\u0442 \u0442\u0435\u043a\u0441\u0442 \u0438\u0437 PDF \u0444\u0430\u0439\u043b\u0430.&#187;&#187;&#187;    pages = []    with pdfplumber.open(pdf_path) as pdf:        for page in pdf.pages:            text = page.extract_text()            if text:                pages.append(text)    return &#171;\\n\\n&#187;.join(pages)def pdfs_to_label_studio_json(pdf_dir: str, output_path: str = &#171;label_studio_import.json&#187;):    &#171;&#187;&#187;\u0421\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u0442 \u0432\u0441\u0435 PDF \u0438\u0437 \u043f\u0430\u043f\u043a\u0438 \u0438 \u0444\u043e\u0440\u043c\u0438\u0440\u0443\u0435\u0442 JSON \u0434\u043b\u044f Label Studio.&#187;&#187;&#187;    tasks = []    for filename in sorted(os.listdir(pdf_dir)):        if not filename.lower().endswith(&#171;.pdf&#187;):            continue        pdf_path = os.path.join(pdf_dir, filename)        text = extract_text_from_pdf(pdf_path)        if not text.strip():            print(f&#187;[!] \u041f\u0443\u0441\u0442\u043e\u0439 \u0442\u0435\u043a\u0441\u0442: {filename}&#187;)            continue        tasks.append({&#171;text&#187;: text})        print(f&#187;[+] {filename} \u2014 {len(text)} \u0441\u0438\u043c\u0432\u043e\u043b\u043e\u0432&#187;)    with open(output_path, &#171;w&#187;, encoding=&#187;utf-8&#8243;) as &#8230;<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-475967","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/475967","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=475967"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/475967\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=475967"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=475967"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=475967"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}