{"id":474110,"date":"2025-09-06T09:00:45","date_gmt":"2025-09-06T09:00:45","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=474110"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=474110","title":{"rendered":"<span>Fine-tune Qwen3 Embeddings \u0434\u043b\u044f \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438 \u043a\u0430\u0442\u0435\u0433\u043e\u0440\u0438\u0439 \u0442\u043e\u0432\u0430\u0440\u043e\u0432<\/span>"},"content":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u041c\u044b \u0432\u0437\u044f\u043b\u0438 \u0440\u0430\u0437\u043c\u0435\u0447\u0435\u043d\u043d\u044b\u0439 \u043a\u043e\u0440\u043f\u0443\u0441 \u0442\u043e\u0432\u0430\u0440\u043e\u0432 \u0438\u0437 Web Data Commons, \u0434\u043e\u043e\u0431\u0443\u0447\u0438\u043b\u0438 Qwen3 Embedding \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e LoRA \u0438 \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 \u043b\u0451\u0433\u043a\u0438\u0439 \u0447\u0435\u043a\u043f\u043e\u0439\u043d\u0442 \u043d\u0430 ~615M \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0441\u043e\u043f\u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u00ab\u0441\u044b\u0440\u044b\u0435\u00bb \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u044f \u0442\u043e\u0432\u0430\u0440\u043e\u0432 \u0441 6 \u0432\u0435\u0440\u0445\u043d\u0435\u0443\u0440\u043e\u0432\u043d\u0435\u0432\u044b\u043c\u0438 \u043a\u0430\u0442\u0435\u0433\u043e\u0440\u0438\u044f\u043c\u0438 \u0441 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u043c\u00a0<strong>macro-F1 = 0.836<\/strong>, \u043c\u043e\u0436\u0435\u0442 \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u0432 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u043c \u0432\u0440\u0435\u043c\u0435\u043d\u0438 \u043d\u0430 \u043e\u0434\u043d\u043e\u0439 \u0432\u0438\u0434\u0435\u043e\u043a\u0430\u0440\u0442\u0435. \u041a\u043e\u0434 \u0434\u043e\u0441\u0442\u0443\u043f\u0435\u043d \u0432 <a href=\"https:\/\/github.com\/ivan-digital\/web-product-data\" rel=\"noopener noreferrer nofollow\">\u0433\u0438\u0442\u0445\u0430\u0431\u0435<\/a> \u0442\u0430\u043a \u0436\u0435<a href=\"https:\/\/blog.ivan.digital\/fine-tuning-qwen3-embeddings-for-product-category-classification-on-the-large-scale-product-corpus-3a0919506bc8\" rel=\"noopener noreferrer nofollow\"> \u0430\u043d\u0433\u043b\u0438\u0439\u0441\u043a\u0430\u044f \u0432\u0435\u0440\u0441\u0438\u044f \u044d\u0442\u043e\u0433\u043e \u043f\u043e\u0441\u0442\u0430.<\/a> <\/p>\n<h3>\u041f\u043e\u0447\u0435\u043c\u0443 \u0438\u043c\u0435\u043d\u043d\u043e Web Data Commons \u0438 \u0437\u0430\u0447\u0435\u043c \u044d\u0442\u043e e-commerce<\/h3>\n<p>\u0411\u043e\u043b\u044c\u0448\u0430\u044f \u0447\u0430\u0441\u0442\u044c \u0432\u0435\u0431-\u0441\u0442\u0440\u0430\u043d\u0438\u0446 \u0441 \u0442\u043e\u0432\u0430\u0440\u0430\u043c\u0438 \u0443\u0436\u0435 \u0431\u043e\u0433\u0430\u0442\u0430 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u043e\u0439 (title, brand, GTIN, price, category), \u043f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e \u043f\u043e\u0438\u0441\u043a\u043e\u0432\u0438\u043a\u0438 \u043f\u043e\u043e\u0449\u0440\u044f\u044e\u0442 \u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435. \u041f\u0440\u043e\u0435\u043a\u0442\u00a0<strong>Web Data Commons<\/strong>\u00a0\u0438\u0437\u0432\u043b\u0435\u043a\u0430\u0435\u0442 \u0442\u0430\u043a\u0438\u0435 \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u044b \u0438\u0437 Common Crawl \u0438 \u043f\u0443\u0431\u043b\u0438\u043a\u0443\u0435\u0442 \u043a\u0430\u043a\u00a0<strong>Large-Scale Product Corpus<\/strong>\u00a0\u2014 \u0444\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438, \u0433\u0438\u0433\u0430\u043d\u0442\u0441\u043a\u0443\u044e \u00ab\u0442\u0430\u0431\u043b\u0438\u0446\u0443 \u0442\u043e\u0432\u0430\u0440\u043e\u0432\u00bb \u0441 \u043c\u0435\u0442\u0430\u0434\u0430\u043d\u043d\u044b\u043c\u0438. \u041d\u0430\u043c \u044d\u0442\u043e \u0438\u0434\u0435\u0430\u043b\u044c\u043d\u043e \u043f\u043e\u0434\u043e\u0448\u043b\u043e: \u043a\u043e\u0440\u043f\u0443\u0441 \u043f\u0440\u0438\u0445\u043e\u0434\u0438\u0442 \u043f\u043e\u0447\u0442\u0438 \u043f\u043e\u043b\u043d\u043e\u0441\u0442\u044c\u044e\u00a0<strong>\u0440\u0430\u0437\u043c\u0435\u0447\u0435\u043d\u043d\u044b\u043c\u0438<\/strong>\u00a0\u0434\u0430\u043d\u043d\u044b\u043c\u0438 \u0431\u043b\u0430\u0433\u043e\u0434\u0430\u0440\u044f \u0443\u0436\u0435 \u043f\u0440\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u043d\u044b\u043c \u043a\u0430\u0442\u0435\u0433\u043e\u0440\u0438\u044f\u043c. \u041c\u044b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u0438\u0445 \u043a\u0430\u043a \u0442\u0430\u0440\u0433\u0435\u0442 \u0434\u043b\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f.\u00a0\u00a0<\/p>\n<p>\u0414\u043b\u044f \u044d\u0442\u043e\u0439 \u0440\u0430\u0431\u043e\u0442\u044b \u043c\u044b \u0441\u0444\u043e\u043a\u0443\u0441\u0438\u0440\u043e\u0432\u0430\u043b\u0438\u0441\u044c \u043d\u0430 \u0448\u0435\u0441\u0442\u0438 \u0441\u0430\u043c\u044b\u0445 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u043d\u044b\u0445 \u043a\u043b\u0430\u0441\u0441\u0430\u0445:<\/p>\n<ul>\n<li>\n<p>Automotive<\/p>\n<\/li>\n<li>\n<p>Baby<\/p>\n<\/li>\n<li>\n<p>Books<\/p>\n<\/li>\n<li>\n<p>Clothing<\/p>\n<\/li>\n<li>\n<p>Jewelry<\/p>\n<\/li>\n<li>\n<p>Shoes<\/p>\n<\/li>\n<\/ul>\n<p>\u041f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u043a\u0443 \u0434\u0430\u043d\u043d\u044b\u0445 \u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0437\u0438\u0440\u0443\u0435\u0442 \u0441\u043a\u0440\u0438\u043f\u0442\u00a0<a href=\"https:\/\/github.com\/ivan-digital\/web-product-data\/blob\/master\/category_classification\/build_lspc_dataset.py\" rel=\"noopener noreferrer nofollow\">build_lspc_dataset.py<\/a>, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0441 \u0430\u0440\u0445\u0438\u0432\u043e\u043c\u00a0lspcV2020.zip\u00a0\u0438\u0437 WDC. \u0414\u043b\u044f \u043f\u0435\u0440\u0432\u0438\u0447\u043d\u043e\u0433\u043e \u0437\u043d\u0430\u043a\u043e\u043c\u0441\u0442\u0432\u0430 \u0435\u0441\u0442\u044c \u0441\u043a\u0440\u0438\u043f\u0442 \u0441 \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u043c\u0438 \u0441\u0442\u0430\u0442\u0438\u0441\u0442\u0438\u043a\u0430\u043c\u0438 \u043f\u043e \u044d\u0442\u0438\u043c \u0434\u0430\u043d\u043d\u044b\u043c. \u041f\u043e\u0434\u0440\u043e\u0431\u043d\u043e\u0441\u0442\u0438 \u043f\u043e \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0443 \u043c\u043e\u0436\u043d\u043e \u043d\u0430\u0439\u0442\u0438 \u043d\u0430 <a href=\"http:\/\/webdatacommons.org\" rel=\"noopener noreferrer nofollow\">\u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0435 \u043a\u043e\u0440\u043f\u0443\u0441\u0430<\/a>.\u00a0\u00a0<\/p>\n<h3>\u041c\u043e\u0434\u0435\u043b\u044c: Qwen3 Embedding \u0438 \u043f\u043e\u0447\u0435\u043c\u0443 \u043e\u043d\u0430 \u00ab\u0437\u0430\u0448\u043b\u0430\u00bb<\/h3>\n<p>\u041c\u044b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u0441\u0435\u043c\u0435\u0439\u0441\u0442\u0432\u043e\u00a0<strong>Qwen3 Embedding<\/strong>\u00a0\u2014 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0434\u043b\u044f\u00a0<strong>\u0438\u0437\u0432\u043b\u0435\u0447\u0435\u043d\u0438\u044f \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u043e\u0432<\/strong>\u00a0\u0438\u00a0<strong>reranking<\/strong>. \u0421\u043e\u0433\u043b\u0430\u0441\u043d\u043e \u0442\u0435\u0445\u043d\u0438\u0447\u0435\u0441\u043a\u043e\u043c\u0443 \u043e\u0442\u0447\u0451\u0442\u0443, Qwen3-Embedding \u043f\u043e\u0441\u0442\u0440\u043e\u0435\u043d\u044b \u043d\u0430 LLM-\u0431\u044d\u043a\u0431\u043e\u043d\u0435 Qwen3 (0.6B \/ 4B \/ 8B), \u043f\u0440\u043e\u0445\u043e\u0434\u044f\u0442 \u043c\u043d\u043e\u0433\u043e\u0441\u0442\u0430\u0434\u0438\u0439\u043d\u043e\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0438 \u0437\u0430\u043d\u0438\u043c\u0430\u044e\u0442 \u0432\u0435\u0440\u0445\u043d\u0438\u0435 \u0441\u0442\u0440\u043e\u0447\u043a\u0438 \u043d\u0430 \u043b\u0438\u0434\u0431\u043e\u0440\u0434\u0435\u00a0<strong>MTEB<\/strong>\u00a0(\u043c\u0430\u0441\u0448\u0442\u0430\u0431\u043d\u044b\u0439 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u043e\u0432).\u00a0\u00a0<\/p>\n<p>\u041f\u043e\u0447\u0435\u043c\u0443 \u044d\u0442\u043e \u0432\u0430\u0436\u043d\u043e \u0434\u043b\u044f e-commerce: \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438 Qwen3 \u00ab\u0437\u043d\u0430\u044e\u0442\u00bb \u0431\u0440\u0435\u043d\u0434\u044b, \u0441\u0438\u043d\u043e\u043d\u0438\u043c\u044b \u0438 \u043e\u0442\u0440\u0430\u0441\u043b\u0435\u0432\u043e\u0439 \u0436\u0430\u0440\u0433\u043e\u043d. \u0414\u0430\u0436\u0435 \u043a\u043e\u0440\u043e\u0442\u043a\u0438\u0435 \u0438 \u043d\u0435\u043e\u0434\u043d\u043e\u0437\u043d\u0430\u0447\u043d\u044b\u0435 \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u044f (\u00abair max 270 black 42\u00bb) \u0442\u0440\u0430\u043d\u0441\u043b\u0438\u0440\u0443\u044e\u0442\u0441\u044f \u0432 \u0432\u0435\u043a\u0442\u043e\u0440, \u0433\u0434\u0435 \u0431\u043b\u0438\u0437\u043e\u0441\u0442\u044c \u043e\u0442\u0440\u0430\u0436\u0430\u0435\u0442 \u0441\u043c\u044b\u0441\u043b, \u0430 \u043d\u0435 \u0441\u043e\u0432\u043f\u0430\u0434\u0435\u043d\u0438\u0435 \u0441\u043b\u043e\u0432. \u042d\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442 \u043f\u0440\u043e\u0441\u0442\u0443\u044e \u043b\u0438\u043d\u0435\u0439\u043d\u0443\u044e \u00ab\u0448\u0430\u043f\u043a\u0443\u00bb \u043f\u043e\u0432\u0435\u0440\u0445 \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u043e\u0432 \u0443\u0434\u0438\u0432\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0442\u043e\u0447\u043d\u043e\u0439.<\/p>\n<h3>\u041a\u0430\u043a \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438 \u0432 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438<\/h3>\n<p>\u041c\u044b \u043f\u043e\u0434\u0430\u0451\u043c \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0435 \u0442\u043e\u0432\u0430\u0440\u0430, \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0435\u043c \u0432 \u043a\u043e\u043d\u0435\u0446 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u0439 \u0442\u043e\u043a\u0435\u043d\u00a0[EOS]\u00a0\u0438 \u0437\u0430\u0431\u0438\u0440\u0430\u0435\u043c \u0441\u043a\u0440\u044b\u0442\u043e\u0435 \u0441\u043e\u0441\u0442\u043e\u044f\u043d\u0438\u0435 \u043f\u043e\u0441\u043b\u0435\u0434\u043d\u0435\u0433\u043e \u0441\u043b\u043e\u044f \u0432 \u043f\u043e\u0437\u0438\u0446\u0438\u0438 \u044d\u0442\u043e\u0433\u043e \u0442\u043e\u043a\u0435\u043d\u0430 \u2014 \u044d\u0442\u043e \u0438 \u0435\u0441\u0442\u044c\u00a0<strong>\u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433<\/strong>. \u041f\u0440\u0438 \u0436\u0435\u043b\u0430\u043d\u0438\u0438 \u043c\u043e\u0436\u043d\u043e \u043a\u043e\u043d\u043a\u0430\u0442\u0435\u043d\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043a\u0440\u0430\u0442\u043a\u0443\u044e \u0438\u043d\u0441\u0442\u0440\u0443\u043a\u0446\u0438\u044e \u0438 \u0441\u0430\u043c \u0437\u0430\u043f\u0440\u043e\u0441, \u0447\u0442\u043e\u0431\u044b \u043d\u0430\u043f\u0440\u0430\u0432\u0438\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u043e\u0434 \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u0443\u044e \u0437\u0430\u0434\u0430\u0447\u0443 (\u0438\u043d\u0441\u0442\u0440\u0443\u043a\u0446\u0438\u043e\u043d\u043d\u044b\u0435 \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438). \u0420\u0430\u0437\u043c\u0435\u0440\u044b \u0432 \u0441\u0435\u043c\u0435\u0439\u0441\u0442\u0432\u0435 \u2014 0.6B, 4B \u0438 8B, \u0432\u044b\u0431\u0438\u0440\u0430\u044e\u0442\u0441\u044f \u043f\u043e \u0431\u0430\u043b\u0430\u043d\u0441\u0443 \u00ab\u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c\/\u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e\u00bb. \u0414\u0435\u0442\u0430\u043b\u0438 \u043f\u043e\u0434\u0445\u043e\u0434\u0430 \u2014 <a href=\"https:\/\/arxiv.org\/pdf\/2506.05176\" rel=\"noopener noreferrer nofollow\">\u0432 \u043e\u0442\u0447\u0451\u0442\u0435 Qwen3-Embedding<\/a>.\u00a0\u00a0<\/p>\n<h3>\u041a\u0430\u043a Qwen3 \u0431\u044b\u043b \u043e\u0431\u0443\u0447\u0435\u043d<\/h3>\n<p>\u041a\u043e\u043c\u0430\u043d\u0434\u0430 Qwen3 \u043e\u0431\u0443\u0447\u0430\u0435\u0442 \u0441\u0432\u043e\u044e \u043b\u0438\u043d\u0435\u0439\u043a\u0443 \u0432 \u0442\u0440\u0438 \u0441\u0442\u0430\u0434\u0438\u0438:<\/p>\n<ol>\n<li>\n<p><strong>\u041a\u0440\u0443\u043f\u043d\u043e\u043c\u0430\u0441\u0448\u0442\u0430\u0431\u043d\u044b\u0439 weak-supervision pre-training (~150M \u043f\u0430\u0440)<\/strong>: \u043f\u0430\u0440\u044b \u0441\u0438\u043d\u0442\u0435\u0437\u0438\u0440\u0443\u044e\u0442\u0441\u044f \u0441\u0430\u043c\u043e\u0439 Qwen3 \u0441 \u043a\u043e\u043d\u0442\u0440\u043e\u043b\u0435\u043c \u044f\u0437\u044b\u043a\u043e\u0432, \u0442\u0438\u043f\u043e\u0432 \u0437\u0430\u043f\u0440\u043e\u0441\u043e\u0432 \u0438 \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438.<\/p>\n<\/li>\n<li>\n<p><strong>\u0421\u0443\u043f\u0435\u0440\u0432\u0430\u0439\u0437-\u0434\u043e\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043d\u0430 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445 (\u224819M \u043f\u0430\u0440)<\/strong>: \u0441\u043c\u0435\u0441\u044c \u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u0441\u043e\u0437\u0434\u0430\u043d\u043d\u044b\u0445 \u043b\u044e\u0434\u044c\u043c\u0438 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u043e\u0432 + \u043e\u0442\u0444\u0438\u043b\u044c\u0442\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u0441\u0438\u043d\u0442\u0435\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u043f\u0430\u0440.<\/p>\n<\/li>\n<li>\n<p><strong>\u0421\u043b\u0438\u044f\u043d\u0438\u0435 \u0447\u0435\u043a\u043f\u043e\u0439\u043d\u0442\u043e\u0432 (slerp)<\/strong>: \u0434\u0430\u0451\u0442 \u0443\u0441\u0442\u043e\u0439\u0447\u0438\u0432\u044b\u0439 \u043f\u0440\u0438\u0440\u043e\u0441\u0442 \u0438 \u043b\u0443\u0447\u0448\u0443\u044e \u043f\u0435\u0440\u0435\u043d\u043e\u0441\u0438\u043c\u043e\u0441\u0442\u044c \u0437\u043d\u0430\u043d\u0438\u0439.<\/p>\n<\/li>\n<\/ol>\n<h3>\u041d\u0430\u0448\u0438 \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u044b \u043d\u0430 \u0442\u043e\u0432\u0430\u0440\u0430\u0445<\/h3>\n<p><strong>\u0417\u0430\u0434\u0430\u0447\u0430:<\/strong>\u00a06-\u043a\u043b\u0430\u0441\u0441\u043e\u0432\u0430\u044f \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u044f \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0439 \u0442\u043e\u0432\u0430\u0440\u043e\u0432.<\/p>\n<p><strong>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b:<\/strong><\/p>\n<ul>\n<li>\n<p><strong>Macro-F1:<\/strong>\u00a00.8360<\/p>\n<\/li>\n<li>\n<p><strong>Accuracy:<\/strong>\u00a00.8791<\/p>\n<\/li>\n<\/ul>\n<p>\u0427\u0442\u043e \u043f\u043e\u043c\u043e\u0433\u043b\u043e:<\/p>\n<ul>\n<li>\n<p><strong>LoRA-\u0442\u043e\u043d\u043a\u0430\u044f \u043d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0430:<\/strong>\u00a0r=16, alpha=32\u00a0\u2014 \u043c\u0438\u043d\u0438\u043c\u0430\u043b\u044c\u043d\u044b\u0435 \u0437\u0430\u0442\u0440\u0430\u0442\u044b \u043f\u0430\u043c\u044f\u0442\u0438\/\u0432\u0435\u0441\u0430, \u0431\u0435\u0437 \u043f\u0435\u0440\u0435\u043f\u0440\u043e\u0448\u0438\u0432\u043a\u0438 \u0432\u0441\u0435\u0433\u043e \u0431\u044d\u043a\u0431\u043e\u043d\u0430.\u00a0\u00a0<\/p>\n<\/li>\n<li>\n<p><strong>\u041e\u043f\u0442\u0438\u043c\u0438\u0437\u0430\u0442\u043e\u0440 \u0438 LR:<\/strong>\u00a0adamw_torch,\u00a05e-5, 1 \u044d\u043f\u043e\u0445\u0430 \u2014 \u043e\u043a\u0430\u0437\u0430\u043b\u043e\u0441\u044c \u043b\u0443\u0447\u0448\u0438\u043c \u0441\u0440\u0435\u0434\u0438 \u043f\u0440\u043e\u0442\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u0441\u0435\u0442\u0430\u043f\u043e\u0432.<\/p>\n<\/li>\n<li>\n<p><strong>\u0417\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438:<\/strong>\u00a0\u0440\u0435\u043a\u043e\u043c\u0435\u043d\u0434\u0443\u0435\u043c\u00a0<strong>Poetry<\/strong>\u00a0\u0434\u043b\u044f \u0432\u043e\u0441\u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u043c\u044b\u0445 \u043e\u043a\u0440\u0443\u0436\u0435\u043d\u0438\u0439 \u0438 \u0441\u0431\u043e\u0440\u043e\u043a.\u00a0\u00a0<\/p>\n<\/li>\n<\/ul>\n<h3>\u041f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u044c (CUDA)<\/h3>\n<p>\u0411\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u00a0<a href=\"https:\/\/github.com\/ivan-digital\/web-product-data\/blob\/master\/category_classification\/measure_lora_latency.py\" rel=\"noopener noreferrer nofollow\">measure_lora_latency.py<\/a>\u00a0\u043d\u0430 \u043e\u0434\u043d\u043e\u0439\u00a0<strong>NVIDIA RTX 5090 (32 GB, FP16)<\/strong>\u00a0\u043f\u043e\u0441\u043b\u0435 5 \u043f\u0440\u043e\u0433\u0440\u0435\u0432\u043e\u0447\u043d\u044b\u0445 \u0431\u0430\u0442\u0447\u0435\u0439 \u0438 \u043d\u0430\u00a0<strong>100 000<\/strong>\u00a0\u043d\u043e\u0432\u044b\u0445 \u0437\u0430\u0433\u043e\u043b\u043e\u0432\u043a\u043e\u0432 \u043f\u043e\u043a\u0430\u0437\u0430\u043b:<\/p>\n<ul>\n<li>\n<p><strong>\u0417\u0430\u0434\u0435\u0440\u0436\u043a\u0430:<\/strong>\u00a0<strong>3.3\u20133.9 \u043c\u0441\/\u0437\u0430\u0433\u043e\u043b\u043e\u0432\u043e\u043a<\/strong>\u00a0\u043f\u0440\u0438\u00a0\u0440\u0430\u0437\u043c\u0435\u0440\u0435 \u043c\u0430\u0442\u0447\u0435\u0439:\u00a016\/32\/64\/128<\/p>\n<\/li>\n<li>\n<p><strong>\u041b\u0443\u0447\u0448\u0438\u0439 \u0442\u0440\u044d\u0434-\u043e\u0444\u0444:<\/strong>\u00a0bs=32\u00a0\u2014\u00a0<strong>~299 \u0437\u0430\u0433\u043e\u043b\u043e\u0432\u043a\u043e\u0432\/\u0441<\/strong>\u00a0\u043f\u0440\u0438\u00a0latency &lt; 4 \u043c\u0441<\/p>\n<\/li>\n<li>\n<p><strong>\u041c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435:<\/strong>\u00a0\u043f\u0440\u0438\u00a0bs=128\u00a0\u0437\u0430\u0434\u0435\u0440\u0436\u043a\u0430 \u0432\u0441\u0451 \u0440\u0430\u0432\u043d\u043e &lt; 4 \u043c\u0441<\/p>\n<\/li>\n<\/ul>\n<p>\u041d\u0430 \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435 \u044d\u0442\u043e \u043e\u0437\u043d\u0430\u0447\u0430\u0435\u0442: \u043e\u0434\u0438\u043d \u00ab\u0434\u043e\u0441\u0442\u0443\u043f\u043d\u044b\u0439\u00bb GPU \u0442\u044f\u043d\u0435\u0442 \u0438 \u043e\u0444\u043b\u0430\u0439\u043d-\u0447\u0438\u0441\u0442\u043a\u0443 \u043a\u0430\u0442\u0430\u043b\u043e\u0433\u0430, \u0438 \u043e\u043d\u043b\u0430\u0439\u043d-\u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441 \u0432 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u043c \u0432\u0440\u0435\u043c\u0435\u043d\u0438.<\/p>\n<h3>\u041a\u0430\u043a \u043f\u043e\u0432\u0442\u043e\u0440\u0438\u0442\u044c \u0443 \u0441\u0435\u0431\u044f<\/h3>\n<ul>\n<li>\n<p>\u0414\u0430\u043d\u043d\u044b\u0435: \u0441\u043a\u0430\u0447\u0430\u0439\u0442\u0435\u00a0<strong>LSPC V2020<\/strong>\u00a0\u0441 \u0441\u0430\u0439\u0442\u0430 Web Data Commons \u0438 \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u0435\u00a0<a href=\"https:\/\/github.com\/ivan-digital\/web-product-data\/blob\/master\/category_classification\/build_lspc_dataset.py\" rel=\"noopener noreferrer nofollow\">build_lspc_dataset.py<\/a>.\u00a0\u00a0<\/p>\n<\/li>\n<li>\n<p>\u041c\u043e\u0434\u0435\u043b\u044c: \u0432\u043e\u0437\u044c\u043c\u0438\u0442\u0435 \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0438\u0439 \u0440\u0430\u0437\u043c\u0435\u0440\u00a0<strong>Qwen3-Embedding<\/strong>\u00a0(0.6B \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e \u0434\u043b\u044f \u0441\u0442\u0430\u0440\u0442\u0430). <\/p>\n<\/li>\n<li>\n<p>\u0422\u043e\u043d\u043a\u0430\u044f \u043d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0430: \u043f\u0440\u0438\u043c\u0435\u043d\u0438\u0442\u0435\u00a0<strong>LoRA<\/strong>\u00a0\u0441 \u043a\u043e\u043d\u0444\u0438\u0433\u043e\u043c\u00a0r=16, alpha=32, \u043e\u043f\u0442\u0438\u043c\u0438\u0437\u0430\u0442\u043e\u0440\u00a0<strong>AdamW<\/strong>; \u0434\u043b\u044f \u043d\u0430\u0447\u0430\u043b\u0430 \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e 1 \u044d\u043f\u043e\u0445\u0438.\u00a0\u00a0<\/p>\n<\/li>\n<li>\n<p>\u0423\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u0435 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u044f\u043c\u0438:\u00a0<strong>Poetry<\/strong>\u00a0\u0434\u043b\u044f \u0447\u0438\u0441\u0442\u044b\u0445 \u043e\u043a\u0440\u0443\u0436\u0435\u043d\u0438\u0439 \u0438 \u0444\u0438\u043a\u0441\u0438\u0440\u0443\u0435\u043c\u044b\u0445 \u0432\u0435\u0440\u0441\u0438\u0439.\u00a0\u00a0<\/p>\n<\/li>\n<li>\n<p>\u0412\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u044f: \u043c\u0435\u0442\u0440\u0438\u043a\u0438\u00a0<strong>macro-F1<\/strong>\u00a0\u0438\u00a0<strong>accuracy<\/strong>\u00a0\u043f\u043e \u0432\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u043e\u043d\u043d\u043e\u0439 \u0432\u044b\u0431\u043e\u0440\u043a\u0435 \u0438\u0437 \u0442\u0435\u0445 \u0436\u0435 \u0448\u0435\u0441\u0442\u0438 \u043a\u043b\u0430\u0441\u0441\u043e\u0432.<\/p>\n<\/li>\n<\/ul>\n<h3>\u0427\u0442\u043e \u0432 \u0438\u0442\u043e\u0433\u0435<\/h3>\n<ul>\n<li>\n<p><strong>\u041e\u0433\u0440\u043e\u043c\u043d\u0430\u044f \u043e\u0442\u0434\u0430\u0447\u0430 \u043e\u0442 \u0434\u043e\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f<\/strong>: \u0434\u0435\u0441\u044f\u0442\u043a\u0438 \u043c\u0438\u043b\u043b\u0438\u043e\u043d\u043e\u0432 \u0442\u043e\u0432\u0430\u0440\u043d\u044b\u0445 \u0437\u0430\u0433\u043e\u043b\u043e\u0432\u043a\u043e\u0432 \u0438\u0437 LSPC \u00ab\u043f\u0435\u0440\u0435\u0441\u0442\u0440\u043e\u0438\u043b\u0438\u00bb Qwen3-Embedding \u0432 \u0434\u043e\u043c\u0435\u043d\u043d\u043e-\u043e\u0441\u0432\u0435\u0434\u043e\u043c\u043b\u0451\u043d\u043d\u044b\u0439 \u0432\u0435\u043a\u0442\u043e\u0440\u0438\u0437\u0430\u0442\u043e\u0440 \u0441\u00a0<strong>0.836 macro-F1<\/strong>\u00a0\u2014 \u0431\u0435\u0437 \u043f\u0435\u0440\u0435\u043f\u0438\u0441\u044b\u0432\u0430\u043d\u0438\u044f \u043f\u043e\u043b\u043d\u044b\u0445 \u0432\u0435\u0441\u043e\u0432.<\/p>\n<\/li>\n<li>\n<p><strong>\u0420\u0435\u0430\u043b\u044c\u043d\u043e\u0435 \u0432\u0440\u0435\u043c\u044f \u043d\u0430 \u043e\u0434\u043d\u043e\u0439 \u043a\u0430\u0440\u0442\u0435<\/strong>: 615M-LoRA-\u0447\u0435\u043a\u043f\u043e\u0439\u043d\u0442 \u0434\u0430\u0451\u0442 ~<strong>300 \u0437\u0430\u0433\u043e\u043b\u043e\u0432\u043a\u043e\u0432\/\u0441<\/strong>\u00a0\u043f\u0440\u0438\u00a0<strong>3\u20134 \u043c\u0441<\/strong>\u00a0\u043d\u0430 RTX 5090 \u2014 \u0445\u0432\u0430\u0442\u0430\u0435\u0442 \u0438 \u043d\u0430 \u0431\u044d\u043a-\u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0438\u043d\u0433, \u0438 \u043d\u0430 \u0441\u0442\u0440\u0438\u043c\u0438\u043d\u0433.<\/p>\n<\/li>\n<li>\n<p><strong>Plug-and-play \u0434\u043b\u044f \u043a\u043e\u043c\u0430\u043d\u0434<\/strong>: \u0447\u0435\u043a\u043f\u043e\u0439\u043d\u0442\u044b, \u0441\u043a\u0440\u0438\u043f\u0442\u044b \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0438 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0438\u043d\u0433\u0430 \u2014 \u043f\u0443\u0431\u043b\u0438\u0447\u043d\u044b; \u043c\u043e\u0436\u043d\u043e \u043c\u0435\u043d\u044f\u0442\u044c \u043a\u0430\u0442\u0435\u0433\u043e\u0440\u0438\u0438, \u044f\u0437\u044b\u043a\u0438 \u0438 \u0444\u0438\u0434\u044b \u0431\u0435\u0437 \u0441\u0431\u043e\u0440\u043a\u0438 \u043c\u043e\u0434\u0435\u043b\u0438 \u00ab\u0441 \u043d\u0443\u043b\u044f\u00bb.<\/p>\n<\/li>\n<\/ul>\n<p><strong>\u0412 \u0434\u0432\u0443\u0445 \u0441\u043b\u043e\u0432\u0430\u0445:<\/strong>\u00a0\u0431\u0435\u0440\u0451\u043c \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0435 LLM-\u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438 + \u043e\u0447\u0435\u043d\u044c \u0431\u043e\u043b\u044c\u0448\u043e\u0439, \u0434\u043e\u0441\u0442\u0443\u043f\u043d\u044b\u0439 \u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u2014 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0441\u0442\u0432\u0435\u043d\u043d\u0443\u044e \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u044e \u0442\u043e\u0432\u0430\u0440\u043e\u0432 \u0441 \u043c\u0438\u043d\u0438\u043c\u0430\u043b\u044c\u043d\u044b\u043c\u0438 \u0437\u0430\u0442\u0440\u0430\u0442\u0430\u043c\u0438 \u0438 \u0431\u0435\u0437 \u043b\u0438\u0446\u0435\u043d\u0437\u0438\u043e\u043d\u043d\u044b\u0445 \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u0439.<\/p>\n<h4>\u041f\u043e\u043b\u0435\u0437\u043d\u044b\u0435 \u0441\u0441\u044b\u043b\u043a\u0438<\/h4>\n<ul>\n<li>\n<p><strong>WDC Large-Scale Product Corpus (V2020):<\/strong>\u00a0<a href=\"http:\/\/webdatacommons.org\/largescaleproductcorpus\/v2020\/index.html\" rel=\"noopener noreferrer nofollow\">\u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0435 \u0438 \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0430.\u00a0<\/a>\u00a0<\/p>\n<\/li>\n<li>\n<p><strong>Qwen3 Embedding (arXiv) + \u0442\u0435\u0445\u0440\u0435\u043f\u043e\u0440\u0442 PDF:<\/strong>\u00a0<a href=\"https:\/\/arxiv.org\/pdf\/2506.05176\" rel=\"noopener noreferrer nofollow\">\u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430, \u043f\u0430\u0439\u043f\u043b\u0430\u0439\u043d, slerp-\u043c\u0435\u0440\u0434\u0436\u0438\u043d\u0433.<\/a>\u00a0\u00a0<\/p>\n<\/li>\n<li>\n<p><strong>\u0411\u043b\u043e\u0433 \u0440\u0435\u043b\u0438\u0437\u0430 Qwen3-Embedding:<\/strong>\u00a0<a href=\"https:\/\/qwenlm.github.io\/blog\/qwen3-embedding\/\" rel=\"noopener noreferrer nofollow\">\u043e\u0431\u0437\u043e\u0440 \u043c\u043e\u0434\u0435\u043b\u0435\u0439, \u0440\u0430\u0437\u043c\u0435\u0440\u044b, \u0437\u0430\u0434\u0430\u0447\u0438<\/a>.\u00a0\u00a0<\/p>\n<\/li>\n<li>\n<p><strong>MTEB Leaderboard:<\/strong>\u00a0<a href=\"https:\/\/huggingface.co\/spaces\/mteb\/leaderboard\" rel=\"noopener noreferrer nofollow\">\u0430\u043a\u0442\u0443\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u043e\u0437\u0438\u0446\u0438\u0438 \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433-\u043c\u043e\u0434\u0435\u043b\u0435\u0439<\/a>.\u00a0\u00a0<\/p>\n<\/li>\n<li>\n<p><strong>LoRA (\u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b\u044c\u043d\u0430\u044f \u0441\u0442\u0430\u0442\u044c\u044f):<\/strong>\u00a0<a href=\"https:\/\/arxiv.org\/pdf\/2106.09685\" rel=\"noopener noreferrer nofollow\">\u0431\u0430\u0437\u043e\u0432\u0430\u044f \u0442\u0435\u0445\u043d\u0438\u043a\u0430 \u043b\u0451\u0433\u043a\u043e\u0439 \u0430\u0434\u0430\u043f\u0442\u0430\u0446\u0438\u0438<\/a>.\u00a0\u00a0<\/p>\n<\/li>\n<li>\n<p><strong>Poetry (\u043e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u0430\u044f \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0446\u0438\u044f):<\/strong>\u00a0<a href=\"https:\/\/python-poetry.org\/docs\/\" rel=\"noopener noreferrer nofollow\">\u0432\u043e\u0441\u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u043c\u044b\u0435 \u043e\u043a\u0440\u0443\u0436\u0435\u043d\u0438\u044f \u0438 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438.\u00a0\u00a0<\/a><\/p>\n<\/li>\n<\/ul>\n<p>\u0415\u0441\u043b\u0438 \u0432\u044b \u0434\u0435\u043b\u0430\u0435\u0442\u0435 \u0447\u0442\u043e-\u0442\u043e \u043f\u043e\u0445\u043e\u0436\u0435\u0435, \u043d\u0430\u043f\u0438\u0448\u0438\u0442\u0435 &#8212; \u0434\u0430\u0432\u0430\u0439\u0442\u0435 \u043e\u0431\u043c\u0435\u043d\u044f\u0435\u043c\u0441\u044f \u043e\u043f\u044b\u0442\u043e\u043c.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<p><!----><!----><\/div>\n<p><!----><!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/944520\/\"> https:\/\/habr.com\/ru\/articles\/944520\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u041c\u044b \u0432\u0437\u044f\u043b\u0438 \u0440\u0430\u0437\u043c\u0435\u0447\u0435\u043d\u043d\u044b\u0439 \u043a\u043e\u0440\u043f\u0443\u0441 \u0442\u043e\u0432\u0430\u0440\u043e\u0432 \u0438\u0437 Web Data Commons, \u0434\u043e\u043e\u0431\u0443\u0447\u0438\u043b\u0438 Qwen3 Embedding \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e LoRA \u0438 \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 \u043b\u0451\u0433\u043a\u0438\u0439 \u0447\u0435\u043a\u043f\u043e\u0439\u043d\u0442 \u043d\u0430 ~615M \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0441\u043e\u043f\u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u00ab\u0441\u044b\u0440\u044b\u0435\u00bb \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u044f \u0442\u043e\u0432\u0430\u0440\u043e\u0432 \u0441 6 \u0432\u0435\u0440\u0445\u043d\u0435\u0443\u0440\u043e\u0432\u043d\u0435\u0432\u044b\u043c\u0438 \u043a\u0430\u0442\u0435\u0433\u043e\u0440\u0438\u044f\u043c\u0438 \u0441 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u043c\u00a0<strong>macro-F1 = 0.836<\/strong>, \u043c\u043e\u0436\u0435\u0442 \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u0432 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u043c \u0432\u0440\u0435\u043c\u0435\u043d\u0438 \u043d\u0430 \u043e\u0434\u043d\u043e\u0439 \u0432\u0438\u0434\u0435\u043e\u043a\u0430\u0440\u0442\u0435. \u041a\u043e\u0434 \u0434\u043e\u0441\u0442\u0443\u043f\u0435\u043d \u0432 <a href=\"https:\/\/github.com\/ivan-digital\/web-product-data\" rel=\"noopener noreferrer nofollow\">\u0433\u0438\u0442\u0445\u0430\u0431\u0435<\/a> \u0442\u0430\u043a \u0436\u0435<a href=\"https:\/\/blog.ivan.digital\/fine-tuning-qwen3-embeddings-for-product-category-classification-on-the-large-scale-product-corpus-3a0919506bc8\" rel=\"noopener noreferrer nofollow\"> \u0430\u043d\u0433\u043b\u0438\u0439\u0441\u043a\u0430\u044f \u0432\u0435\u0440\u0441\u0438\u044f \u044d\u0442\u043e\u0433\u043e \u043f\u043e\u0441\u0442\u0430.<\/a> <\/p>\n<h3>\u041f\u043e\u0447\u0435\u043c\u0443 \u0438\u043c\u0435\u043d\u043d\u043e Web Data Commons \u0438 \u0437\u0430\u0447\u0435\u043c \u044d\u0442\u043e e-commerce<\/h3>\n<p>\u0411\u043e\u043b\u044c\u0448\u0430\u044f \u0447\u0430\u0441\u0442\u044c \u0432\u0435\u0431-\u0441\u0442\u0440\u0430\u043d\u0438\u0446 \u0441 \u0442\u043e\u0432\u0430\u0440\u0430\u043c\u0438 \u0443\u0436\u0435 \u0431\u043e\u0433\u0430\u0442\u0430 \u0440\u0430\u0437\u043c\u0435\u0442\u043a\u043e\u0439 (title, brand, GTIN, price, category), \u043f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e \u043f\u043e\u0438\u0441\u043a\u043e\u0432\u0438\u043a\u0438 \u043f\u043e\u043e\u0449\u0440\u044f\u044e\u0442 \u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0435 \u0434\u0430\u043d\u043d\u044b\u0435. \u041f\u0440\u043e\u0435\u043a\u0442\u00a0<strong>Web Data Commons<\/strong>\u00a0\u0438\u0437\u0432\u043b\u0435\u043a\u0430\u0435\u0442 \u0442\u0430\u043a\u0438\u0435 \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u044b \u0438\u0437 Common Crawl \u0438 \u043f\u0443\u0431\u043b\u0438\u043a\u0443\u0435\u0442 \u043a\u0430\u043a\u00a0<strong>Large-Scale Product Corpus<\/strong>\u00a0\u2014 \u0444\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438, \u0433\u0438\u0433\u0430\u043d\u0442\u0441\u043a\u0443\u044e \u00ab\u0442\u0430\u0431\u043b\u0438\u0446\u0443 \u0442\u043e\u0432\u0430\u0440\u043e\u0432\u00bb \u0441 \u043c\u0435\u0442\u0430\u0434\u0430\u043d\u043d\u044b\u043c\u0438. \u041d\u0430\u043c \u044d\u0442\u043e \u0438\u0434\u0435\u0430\u043b\u044c\u043d\u043e \u043f\u043e\u0434\u043e\u0448\u043b\u043e: \u043a\u043e\u0440\u043f\u0443\u0441 \u043f\u0440\u0438\u0445\u043e\u0434\u0438\u0442 \u043f\u043e\u0447\u0442\u0438 \u043f\u043e\u043b\u043d\u043e\u0441\u0442\u044c\u044e\u00a0<strong>\u0440\u0430\u0437\u043c\u0435\u0447\u0435\u043d\u043d\u044b\u043c\u0438<\/strong>\u00a0\u0434\u0430\u043d\u043d\u044b\u043c\u0438 \u0431\u043b\u0430\u0433\u043e\u0434\u0430\u0440\u044f \u0443\u0436\u0435 \u043f\u0440\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u043d\u044b\u043c \u043a\u0430\u0442\u0435\u0433\u043e\u0440\u0438\u044f\u043c. \u041c\u044b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u0438\u0445 \u043a\u0430\u043a \u0442\u0430\u0440\u0433\u0435\u0442 \u0434\u043b\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f.\u00a0\u00a0<\/p>\n<p>\u0414\u043b\u044f \u044d\u0442\u043e\u0439 \u0440\u0430\u0431\u043e\u0442\u044b \u043c\u044b \u0441\u0444\u043e\u043a\u0443\u0441\u0438\u0440\u043e\u0432\u0430\u043b\u0438\u0441\u044c \u043d\u0430 \u0448\u0435\u0441\u0442\u0438 \u0441\u0430\u043c\u044b\u0445 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u043d\u044b\u0445 \u043a\u043b\u0430\u0441\u0441\u0430\u0445:<\/p>\n<ul>\n<li>\n<p>Automotive<\/p>\n<\/li>\n<li>\n<p>Baby<\/p>\n<\/li>\n<li>\n<p>Books<\/p>\n<\/li>\n<li>\n<p>Clothing<\/p>\n<\/li>\n<li>\n<p>Jewelry<\/p>\n<\/li>\n<li>\n<p>Shoes<\/p>\n<\/li>\n<\/ul>\n<p>\u041f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u043a\u0443 \u0434\u0430\u043d\u043d\u044b\u0445 \u0430\u0432\u0442\u043e\u043c\u0430\u0442\u0438\u0437\u0438\u0440\u0443\u0435\u0442 \u0441\u043a\u0440\u0438\u043f\u0442\u00a0<a href=\"https:\/\/github.com\/ivan-digital\/web-product-data\/blob\/master\/category_classification\/build_lspc_dataset.py\" rel=\"noopener noreferrer nofollow\">build_lspc_dataset.py<\/a>, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0441 \u0430\u0440\u0445\u0438\u0432\u043e\u043c\u00a0lspcV2020.zip\u00a0\u0438\u0437 WDC. \u0414\u043b\u044f \u043f\u0435\u0440\u0432\u0438\u0447\u043d\u043e\u0433\u043e \u0437\u043d\u0430\u043a\u043e\u043c\u0441\u0442\u0432\u0430 \u0435\u0441\u0442\u044c \u0441\u043a\u0440\u0438\u043f\u0442 \u0441 \u0440\u0430\u0437\u043b\u0438\u0447\u043d\u044b\u043c\u0438 \u0441\u0442\u0430\u0442\u0438\u0441\u0442\u0438\u043a\u0430\u043c\u0438 \u043f\u043e \u044d\u0442\u0438\u043c \u0434\u0430\u043d\u043d\u044b\u043c. \u041f\u043e\u0434\u0440\u043e\u0431\u043d\u043e\u0441\u0442\u0438 \u043f\u043e \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u0443 \u043c\u043e\u0436\u043d\u043e \u043d\u0430\u0439\u0442\u0438 \u043d\u0430 <a href=\"http:\/\/webdatacommons.org\" rel=\"noopener noreferrer nofollow\">\u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0435 \u043a\u043e\u0440\u043f\u0443\u0441\u0430<\/a>.\u00a0\u00a0<\/p>\n<h3>\u041c\u043e\u0434\u0435\u043b\u044c: Qwen3 Embedding \u0438 \u043f\u043e\u0447\u0435\u043c\u0443 \u043e\u043d\u0430 \u00ab\u0437\u0430\u0448\u043b\u0430\u00bb<\/h3>\n<p>\u041c\u044b \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u0441\u0435\u043c\u0435\u0439\u0441\u0442\u0432\u043e\u00a0<strong>Qwen3 Embedding<\/strong>\u00a0\u2014 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0434\u043b\u044f\u00a0<strong>\u0438\u0437\u0432\u043b\u0435\u0447\u0435\u043d\u0438\u044f \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u043e\u0432<\/strong>\u00a0\u0438\u00a0<strong>reranking<\/strong>. \u0421\u043e\u0433\u043b\u0430\u0441\u043d\u043e \u0442\u0435\u0445\u043d\u0438\u0447\u0435\u0441\u043a\u043e\u043c\u0443 \u043e\u0442\u0447\u0451\u0442\u0443, Qwen3-Embedding \u043f\u043e\u0441\u0442\u0440\u043e\u0435\u043d\u044b \u043d\u0430 LLM-\u0431\u044d\u043a\u0431\u043e\u043d\u0435 Qwen3 (0.6B \/ 4B \/ 8B), \u043f\u0440\u043e\u0445\u043e\u0434\u044f\u0442 \u043c\u043d\u043e\u0433\u043e\u0441\u0442\u0430\u0434\u0438\u0439\u043d\u043e\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0438 \u0437\u0430\u043d\u0438\u043c\u0430\u044e\u0442 \u0432\u0435\u0440\u0445\u043d\u0438\u0435 \u0441\u0442\u0440\u043e\u0447\u043a\u0438 \u043d\u0430 \u043b\u0438\u0434\u0431\u043e\u0440\u0434\u0435\u00a0<strong>MTEB<\/strong>\u00a0(\u043c\u0430\u0441\u0448\u0442\u0430\u0431\u043d\u044b\u0439 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u043e\u0432).\u00a0\u00a0<\/p>\n<p>\u041f\u043e\u0447\u0435\u043c\u0443 \u044d\u0442\u043e \u0432\u0430\u0436\u043d\u043e \u0434\u043b\u044f e-commerce: \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438 Qwen3 \u00ab\u0437\u043d\u0430\u044e\u0442\u00bb \u0431\u0440\u0435\u043d\u0434\u044b, \u0441\u0438\u043d\u043e\u043d\u0438\u043c\u044b \u0438 \u043e\u0442\u0440\u0430\u0441\u043b\u0435\u0432\u043e\u0439 \u0436\u0430\u0440\u0433\u043e\u043d. \u0414\u0430\u0436\u0435 \u043a\u043e\u0440\u043e\u0442\u043a\u0438\u0435 \u0438 \u043d\u0435\u043e\u0434\u043d\u043e\u0437\u043d\u0430\u0447\u043d\u044b\u0435 \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u044f (\u00abair max 270 black 42\u00bb) \u0442\u0440\u0430\u043d\u0441\u043b\u0438\u0440\u0443\u044e\u0442\u0441\u044f \u0432 \u0432\u0435\u043a\u0442\u043e\u0440, \u0433\u0434\u0435 \u0431\u043b\u0438\u0437\u043e\u0441\u0442\u044c \u043e\u0442\u0440\u0430\u0436\u0430\u0435\u0442 \u0441\u043c\u044b\u0441\u043b, \u0430 \u043d\u0435 \u0441\u043e\u0432\u043f\u0430\u0434\u0435\u043d\u0438\u0435 \u0441\u043b\u043e\u0432. \u042d\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442 \u043f\u0440\u043e\u0441\u0442\u0443\u044e \u043b\u0438\u043d\u0435\u0439\u043d\u0443\u044e \u00ab\u0448\u0430\u043f\u043a\u0443\u00bb \u043f\u043e\u0432\u0435\u0440\u0445 \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u043e\u0432 \u0443\u0434\u0438\u0432\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0442\u043e\u0447\u043d\u043e\u0439.<\/p>\n<h3>\u041a\u0430\u043a \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438 \u0432 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438<\/h3>\n<p>\u041c\u044b \u043f\u043e\u0434\u0430\u0451\u043c \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0435 \u0442\u043e\u0432\u0430\u0440\u0430, \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0435\u043c \u0432 \u043a\u043e\u043d\u0435\u0446 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u0439 \u0442\u043e\u043a\u0435\u043d\u00a0[EOS]\u00a0\u0438 \u0437\u0430\u0431\u0438\u0440\u0430\u0435\u043c \u0441\u043a\u0440\u044b\u0442\u043e\u0435 \u0441\u043e\u0441\u0442\u043e\u044f\u043d\u0438\u0435 \u043f\u043e\u0441\u043b\u0435\u0434\u043d\u0435\u0433\u043e \u0441\u043b\u043e\u044f \u0432 \u043f\u043e\u0437\u0438\u0446\u0438\u0438 \u044d\u0442\u043e\u0433\u043e \u0442\u043e\u043a\u0435\u043d\u0430 \u2014 \u044d\u0442\u043e \u0438 \u0435\u0441\u0442\u044c\u00a0<strong>\u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433<\/strong>. \u041f\u0440\u0438 \u0436\u0435\u043b\u0430\u043d\u0438\u0438 \u043c\u043e\u0436\u043d\u043e \u043a\u043e\u043d\u043a\u0430\u0442\u0435\u043d\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u043a\u0440\u0430\u0442\u043a\u0443\u044e \u0438\u043d\u0441\u0442\u0440\u0443\u043a\u0446\u0438\u044e \u0438 \u0441\u0430\u043c \u0437\u0430\u043f\u0440\u043e\u0441, \u0447\u0442\u043e\u0431\u044b \u043d\u0430\u043f\u0440\u0430\u0432\u0438\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u043e\u0434 \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u0443\u044e \u0437\u0430\u0434\u0430\u0447\u0443 (\u0438\u043d\u0441\u0442\u0440\u0443\u043a\u0446\u0438\u043e\u043d\u043d\u044b\u0435 \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438). \u0420\u0430\u0437\u043c\u0435\u0440\u044b \u0432 \u0441\u0435\u043c\u0435\u0439\u0441\u0442\u0432\u0435 \u2014 0.6B, 4B \u0438 8B, \u0432\u044b\u0431\u0438\u0440\u0430\u044e\u0442\u0441\u044f \u043f\u043e \u0431\u0430\u043b\u0430\u043d\u0441\u0443 \u00ab\u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c\/\u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e\u00bb. \u0414\u0435\u0442\u0430\u043b\u0438 \u043f\u043e\u0434\u0445\u043e\u0434\u0430 \u2014 <a href=\"https:\/\/arxiv.org\/pdf\/2506.05176\" rel=\"noopener noreferrer nofollow\">\u0432 \u043e\u0442\u0447\u0451\u0442\u0435 Qwen3-Embedding<\/a>.\u00a0\u00a0<\/p>\n<h3>\u041a\u0430\u043a Qwen3 \u0431\u044b\u043b \u043e\u0431\u0443\u0447\u0435\u043d<\/h3>\n<p>\u041a\u043e\u043c\u0430\u043d\u0434\u0430 Qwen3 \u043e\u0431\u0443\u0447\u0430\u0435\u0442 \u0441\u0432\u043e\u044e \u043b\u0438\u043d\u0435\u0439\u043a\u0443 \u0432 \u0442\u0440\u0438 \u0441\u0442\u0430\u0434\u0438\u0438:<\/p>\n<ol>\n<li>\n<p><strong>\u041a\u0440\u0443\u043f\u043d\u043e\u043c\u0430\u0441\u0448\u0442\u0430\u0431\u043d\u044b\u0439 weak-supervision pre-training (~150M \u043f\u0430\u0440)<\/strong>: \u043f\u0430\u0440\u044b \u0441\u0438\u043d\u0442\u0435\u0437\u0438\u0440\u0443\u044e\u0442\u0441\u044f \u0441\u0430\u043c\u043e\u0439 Qwen3 \u0441 \u043a\u043e\u043d\u0442\u0440\u043e\u043b\u0435\u043c \u044f\u0437\u044b\u043a\u043e\u0432, \u0442\u0438\u043f\u043e\u0432 \u0437\u0430\u043f\u0440\u043e\u0441\u043e\u0432 \u0438 \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u0438.<\/p>\n<\/li>\n<li>\n<p><strong>\u0421\u0443\u043f\u0435\u0440\u0432\u0430\u0439\u0437-\u0434\u043e\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043d\u0430 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445 (\u224819M \u043f\u0430\u0440)<\/strong>: \u0441\u043c\u0435\u0441\u044c \u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u0441\u043e\u0437\u0434\u0430\u043d\u043d\u044b\u0445 \u043b\u044e\u0434\u044c\u043c\u0438 \u0434\u0430\u0442\u0430\u0441\u0435\u0442\u043e\u0432 + \u043e\u0442\u0444\u0438\u043b\u044c\u0442\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u0441\u0438\u043d\u0442\u0435\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u043f\u0430\u0440.<\/p>\n<\/li>\n<li>\n<p><strong>\u0421\u043b\u0438\u044f\u043d\u0438\u0435 \u0447\u0435\u043a\u043f\u043e\u0439\u043d\u0442\u043e\u0432 (slerp)<\/strong>: \u0434\u0430\u0451\u0442 \u0443\u0441\u0442\u043e\u0439\u0447\u0438\u0432\u044b\u0439 \u043f\u0440\u0438\u0440\u043e\u0441\u0442 \u0438 \u043b\u0443\u0447\u0448\u0443\u044e \u043f\u0435\u0440\u0435\u043d\u043e\u0441\u0438\u043c\u043e\u0441\u0442\u044c \u0437\u043d\u0430\u043d\u0438\u0439.<\/p>\n<\/li>\n<\/ol>\n<h3>\u041d\u0430\u0448\u0438 \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u044b \u043d\u0430 \u0442\u043e\u0432\u0430\u0440\u0430\u0445<\/h3>\n<p><strong>\u0417\u0430\u0434\u0430\u0447\u0430:<\/strong>\u00a06-\u043a\u043b\u0430\u0441\u0441\u043e\u0432\u0430\u044f \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u044f \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0439 \u0442\u043e\u0432\u0430\u0440\u043e\u0432.<\/p>\n<p><strong>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b:<\/strong><\/p>\n<ul>\n<li>\n<p><strong>Macro-F1:<\/strong>\u00a00.8360<\/p>\n<\/li>\n<li>\n<p><strong>Accuracy:<\/strong>\u00a00.8791<\/p>\n<\/li>\n<\/ul>\n<p>\u0427\u0442\u043e \u043f\u043e\u043c\u043e\u0433\u043b\u043e:<\/p>\n<ul>\n<li>\n<p><strong>LoRA-\u0442\u043e\u043d\u043a\u0430\u044f \u043d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0430:<\/strong>\u00a0r=16, alpha=32\u00a0\u2014 \u043c\u0438\u043d\u0438\u043c\u0430\u043b\u044c\u043d\u044b\u0435 \u0437\u0430\u0442\u0440\u0430\u0442\u044b \u043f\u0430\u043c\u044f\u0442\u0438\/\u0432\u0435\u0441\u0430, \u0431\u0435\u0437 \u043f\u0435\u0440\u0435\u043f\u0440\u043e\u0448\u0438\u0432\u043a\u0438 \u0432\u0441\u0435\u0433\u043e \u0431\u044d\u043a\u0431\u043e\u043d\u0430.\u00a0\u00a0<\/p>\n<\/li>\n<li>\n<p><strong>\u041e\u043f\u0442\u0438\u043c\u0438\u0437\u0430\u0442\u043e\u0440 \u0438 LR:<\/strong>\u00a0adamw_torch,\u00a05e-5, 1 \u044d\u043f\u043e\u0445\u0430 \u2014 \u043e\u043a\u0430\u0437\u0430\u043b\u043e\u0441\u044c \u043b\u0443\u0447\u0448\u0438\u043c \u0441\u0440\u0435\u0434\u0438 \u043f\u0440\u043e\u0442\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u0441\u0435\u0442\u0430\u043f\u043e\u0432.<\/p>\n<\/li>\n<li>\n<p><strong>\u0417\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438:<\/strong>\u00a0\u0440\u0435\u043a\u043e\u043c\u0435\u043d\u0434\u0443\u0435\u043c\u00a0<strong>Poetry<\/strong>\u00a0\u0434\u043b\u044f \u0432\u043e\u0441\u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u043c\u044b\u0445 \u043e\u043a\u0440\u0443\u0436\u0435\u043d\u0438\u0439 \u0438 \u0441\u0431\u043e\u0440\u043e\u043a.\u00a0\u00a0<\/p>\n<\/li>\n<\/ul>\n<h3>\u041f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u044c (CUDA)<\/h3>\n<p>\u0411\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u00a0<a href=\"https:\/\/github.com\/ivan-digital\/web-product-data\/blob\/master\/category_classification\/measure_lora_latency.py\" rel=\"noopener noreferrer nofollow\">measure_lora_latency.py<\/a>\u00a0\u043d\u0430 \u043e\u0434\u043d\u043e\u0439\u00a0<strong>NVIDIA RTX 5090 (32 GB, FP16)<\/strong>\u00a0\u043f\u043e\u0441\u043b\u0435 5 \u043f\u0440\u043e\u0433\u0440\u0435\u0432\u043e\u0447\u043d\u044b\u0445 \u0431\u0430\u0442\u0447\u0435\u0439 \u0438 \u043d\u0430\u00a0<strong>100 000<\/strong>\u00a0\u043d\u043e\u0432\u044b\u0445 \u0437\u0430\u0433\u043e\u043b\u043e\u0432\u043a\u043e\u0432 \u043f\u043e\u043a\u0430\u0437\u0430\u043b:<\/p>\n<ul>\n<li>\n<p><strong>\u0417\u0430\u0434\u0435\u0440\u0436\u043a\u0430:<\/strong>\u00a0<strong>3.3\u20133.9 \u043c\u0441\/\u0437\u0430\u0433\u043e\u043b\u043e\u0432\u043e\u043a<\/strong>\u00a0\u043f\u0440\u0438\u00a0\u0440\u0430\u0437\u043c\u0435\u0440\u0435 \u043c\u0430\u0442\u0447\u0435\u0439:\u00a016\/32\/64\/128<\/p>\n<\/li>\n<li>\n<p><strong>\u041b\u0443\u0447\u0448\u0438\u0439 \u0442\u0440\u044d\u0434-\u043e\u0444\u0444:<\/strong>\u00a0bs=32\u00a0\u2014\u00a0<strong>~299 \u0437\u0430\u0433\u043e\u043b\u043e\u0432\u043a\u043e\u0432\/\u0441<\/strong>\u00a0\u043f\u0440\u0438\u00a0latency &lt; 4 \u043c\u0441<\/p>\n<\/li>\n<li>\n<p><strong>\u041c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435:<\/strong>\u00a0\u043f\u0440\u0438\u00a0bs=128\u00a0\u0437\u0430\u0434\u0435\u0440\u0436\u043a\u0430 \u0432\u0441\u0451 \u0440\u0430\u0432\u043d\u043e &lt; 4 \u043c\u0441<\/p>\n<\/li>\n<\/ul>\n<p>\u041d\u0430 \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0435 \u044d\u0442\u043e \u043e\u0437\u043d\u0430\u0447\u0430\u0435\u0442: \u043e\u0434\u0438\u043d \u00ab\u0434\u043e\u0441\u0442\u0443\u043f\u043d\u044b\u0439\u00bb GPU \u0442\u044f\u043d\u0435\u0442 \u0438 \u043e\u0444\u043b\u0430\u0439\u043d-\u0447\u0438\u0441\u0442\u043a\u0443 \u043a\u0430\u0442\u0430\u043b\u043e\u0433\u0430, \u0438 \u043e\u043d\u043b\u0430\u0439\u043d-\u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441 \u0432 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u043c \u0432\u0440\u0435\u043c\u0435\u043d\u0438.<\/p>\n<h3>\u041a\u0430\u043a \u043f\u043e\u0432\u0442\u043e\u0440\u0438\u0442\u044c \u0443 \u0441\u0435\u0431\u044f<\/h3>\n<ul>\n<li>\n<p>\u0414\u0430\u043d\u043d\u044b\u0435: \u0441\u043a\u0430\u0447\u0430\u0439\u0442\u0435\u00a0<strong>LSPC V2020<\/strong>\u00a0\u0441 \u0441\u0430\u0439\u0442\u0430 Web Data Commons \u0438 \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u0435\u00a0<a href=\"https:\/\/github.com\/ivan-digital\/web-product-data\/blob\/master\/category_classification\/build_lspc_dataset.py\" rel=\"noopener noreferrer nofollow\">build_lspc_dataset.py<\/a>.\u00a0\u00a0<\/p>\n<\/li>\n<li>\n<p>\u041c\u043e\u0434\u0435\u043b\u044c: \u0432\u043e\u0437\u044c\u043c\u0438\u0442\u0435 \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0438\u0439 \u0440\u0430\u0437\u043c\u0435\u0440\u00a0<strong>Qwen3-Embedding<\/strong>\u00a0(0.6B \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e \u0434\u043b\u044f \u0441\u0442\u0430\u0440\u0442\u0430). <\/p>\n<\/li>\n<li>\n<p>\u0422\u043e\u043d\u043a\u0430\u044f \u043d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0430: \u043f\u0440\u0438\u043c\u0435\u043d\u0438\u0442\u0435\u00a0<strong>LoRA<\/strong>\u00a0\u0441 \u043a\u043e\u043d\u0444\u0438\u0433\u043e\u043c\u00a0r=16, alpha=32, \u043e\u043f\u0442\u0438\u043c\u0438\u0437\u0430\u0442\u043e\u0440\u00a0<strong>AdamW<\/strong>; \u0434\u043b\u044f \u043d\u0430\u0447\u0430\u043b\u0430 \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e 1 \u044d\u043f\u043e\u0445\u0438.\u00a0\u00a0<\/p>\n<\/li>\n<li>\n<p>\u0423\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u0435 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u044f\u043c\u0438:\u00a0<strong>Poetry<\/strong>\u00a0\u0434\u043b\u044f \u0447\u0438\u0441\u0442\u044b\u0445 \u043e\u043a\u0440\u0443\u0436\u0435\u043d\u0438\u0439 \u0438 \u0444\u0438\u043a\u0441\u0438\u0440\u0443\u0435\u043c\u044b\u0445 \u0432\u0435\u0440\u0441\u0438\u0439.\u00a0\u00a0<\/p>\n<\/li>\n<li>\n<p>\u0412\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u044f: \u043c\u0435\u0442\u0440\u0438\u043a\u0438\u00a0<strong>macro-F1<\/strong>\u00a0\u0438\u00a0<strong>accuracy<\/strong>\u00a0\u043f\u043e \u0432\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u043e\u043d\u043d\u043e\u0439 \u0432\u044b\u0431\u043e\u0440\u043a\u0435 \u0438\u0437 \u0442\u0435\u0445 \u0436\u0435 \u0448\u0435\u0441\u0442\u0438 \u043a\u043b\u0430\u0441\u0441\u043e\u0432.<\/p>\n<\/li>\n<\/ul>\n<h3>\u0427\u0442\u043e \u0432 \u0438\u0442\u043e\u0433\u0435<\/h3>\n<ul>\n<li>\n<p><strong>\u041e\u0433\u0440\u043e\u043c\u043d\u0430\u044f \u043e\u0442\u0434\u0430\u0447\u0430 \u043e\u0442 \u0434\u043e\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f<\/strong>: \u0434\u0435\u0441\u044f\u0442\u043a\u0438 \u043c\u0438\u043b\u043b\u0438\u043e\u043d\u043e\u0432 \u0442\u043e\u0432\u0430\u0440\u043d\u044b\u0445 \u0437\u0430\u0433\u043e\u043b\u043e\u0432\u043a\u043e\u0432 \u0438\u0437 LSPC \u00ab\u043f\u0435\u0440\u0435\u0441\u0442\u0440\u043e\u0438\u043b\u0438\u00bb Qwen3-Embedding \u0432 \u0434\u043e\u043c\u0435\u043d\u043d\u043e-\u043e\u0441\u0432\u0435\u0434\u043e\u043c\u043b\u0451\u043d\u043d\u044b\u0439 \u0432\u0435\u043a\u0442\u043e\u0440\u0438\u0437\u0430\u0442\u043e\u0440 \u0441\u00a0<strong>0.836 macro-F1<\/strong>\u00a0\u2014 \u0431\u0435\u0437 \u043f\u0435\u0440\u0435\u043f\u0438\u0441\u044b\u0432\u0430\u043d\u0438\u044f \u043f\u043e\u043b\u043d\u044b\u0445 \u0432\u0435\u0441\u043e\u0432.<\/p>\n<\/li>\n<li>\n<p><strong>\u0420\u0435\u0430\u043b\u044c\u043d\u043e\u0435 \u0432\u0440\u0435\u043c\u044f \u043d\u0430 \u043e\u0434\u043d\u043e\u0439 \u043a\u0430\u0440\u0442\u0435<\/strong>: 615M-LoRA-\u0447\u0435\u043a\u043f\u043e\u0439\u043d\u0442 \u0434\u0430\u0451\u0442 ~<strong>300 \u0437\u0430\u0433\u043e\u043b\u043e\u0432\u043a\u043e\u0432\/\u0441<\/strong>\u00a0\u043f\u0440\u0438\u00a0<strong>3\u20134 \u043c\u0441<\/strong>\u00a0\u043d\u0430 RTX 5090 \u2014 \u0445\u0432\u0430\u0442\u0430\u0435\u0442 \u0438 \u043d\u0430 \u0431\u044d\u043a-\u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0438\u043d\u0433, \u0438 \u043d\u0430 \u0441\u0442\u0440\u0438\u043c\u0438\u043d\u0433.<\/p>\n<\/li>\n<li>\n<p><strong>Plug-and-play \u0434\u043b\u044f \u043a\u043e\u043c\u0430\u043d\u0434<\/strong>: \u0447\u0435\u043a\u043f\u043e\u0439\u043d\u0442\u044b, \u0441\u043a\u0440\u0438\u043f\u0442\u044b \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0438 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0438\u043d\u0433\u0430 \u2014 \u043f\u0443\u0431\u043b\u0438\u0447\u043d\u044b; \u043c\u043e\u0436\u043d\u043e \u043c\u0435\u043d\u044f\u0442\u044c \u043a\u0430\u0442\u0435\u0433\u043e\u0440\u0438\u0438, \u044f\u0437\u044b\u043a\u0438 \u0438 \u0444\u0438\u0434\u044b \u0431\u0435\u0437 \u0441\u0431\u043e\u0440\u043a\u0438 \u043c\u043e\u0434\u0435\u043b\u0438 \u00ab\u0441 \u043d\u0443\u043b\u044f\u00bb.<\/p>\n<\/li>\n<\/ul>\n<p><strong>\u0412 \u0434\u0432\u0443\u0445 \u0441\u043b\u043e\u0432\u0430\u0445:<\/strong>\u00a0\u0431\u0435\u0440\u0451\u043c \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0435 LLM-\u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433\u0438 + \u043e\u0447\u0435\u043d\u044c \u0431\u043e\u043b\u044c\u0448\u043e\u0439, \u0434\u043e\u0441\u0442\u0443\u043f\u043d\u044b\u0439 \u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u2014 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0441\u0442\u0432\u0435\u043d\u043d\u0443\u044e \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u044e \u0442\u043e\u0432\u0430\u0440\u043e\u0432 \u0441 \u043c\u0438\u043d\u0438\u043c\u0430\u043b\u044c\u043d\u044b\u043c\u0438 \u0437\u0430\u0442\u0440\u0430\u0442\u0430\u043c\u0438 \u0438 \u0431\u0435\u0437 \u043b\u0438\u0446\u0435\u043d\u0437\u0438\u043e\u043d\u043d\u044b\u0445 \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u0439.<\/p>\n<h4>\u041f\u043e\u043b\u0435\u0437\u043d\u044b\u0435 \u0441\u0441\u044b\u043b\u043a\u0438<\/h4>\n<ul>\n<li>\n<p><strong>WDC Large-Scale Product Corpus (V2020):<\/strong>\u00a0<a href=\"http:\/\/webdatacommons.org\/largescaleproductcorpus\/v2020\/index.html\" rel=\"noopener noreferrer nofollow\">\u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0435 \u0438 \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0430.\u00a0<\/a>\u00a0<\/p>\n<\/li>\n<li>\n<p><strong>Qwen3 Embedding (arXiv) + \u0442\u0435\u0445\u0440\u0435\u043f\u043e\u0440\u0442 PDF:<\/strong>\u00a0<a href=\"https:\/\/arxiv.org\/pdf\/2506.05176\" rel=\"noopener noreferrer nofollow\">\u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430, \u043f\u0430\u0439\u043f\u043b\u0430\u0439\u043d, slerp-\u043c\u0435\u0440\u0434\u0436\u0438\u043d\u0433.<\/a>\u00a0\u00a0<\/p>\n<\/li>\n<li>\n<p><strong>\u0411\u043b\u043e\u0433 \u0440\u0435\u043b\u0438\u0437\u0430 Qwen3-Embedding:<\/strong>\u00a0<a href=\"https:\/\/qwenlm.github.io\/blog\/qwen3-embedding\/\" rel=\"noopener noreferrer nofollow\">\u043e\u0431\u0437\u043e\u0440 \u043c\u043e\u0434\u0435\u043b\u0435\u0439, \u0440\u0430\u0437\u043c\u0435\u0440\u044b, \u0437\u0430\u0434\u0430\u0447\u0438<\/a>.\u00a0\u00a0<\/p>\n<\/li>\n<li>\n<p><strong>MTEB Leaderboard:<\/strong>\u00a0<a href=\"https:\/\/huggingface.co\/spaces\/mteb\/leaderboard\" rel=\"noopener noreferrer nofollow\">\u0430\u043a\u0442\u0443\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u043e\u0437\u0438\u0446\u0438\u0438 \u044d\u043c\u0431\u0435\u0434\u0434\u0438\u043d\u0433-\u043c\u043e\u0434\u0435\u043b\u0435\u0439<\/a>.\u00a0\u00a0<\/p>\n<\/li>\n<li>\n<p><strong>LoRA (\u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b\u044c\u043d\u0430\u044f \u0441\u0442\u0430\u0442\u044c\u044f):<\/strong>\u00a0<a href=\"https:\/\/arxiv.org\/pdf\/2106.09685\" rel=\"noopener noreferrer nofollow\">\u0431\u0430\u0437\u043e\u0432\u0430\u044f \u0442\u0435\u0445\u043d\u0438\u043a\u0430 \u043b\u0451\u0433\u043a\u043e\u0439 \u0430\u0434\u0430\u043f\u0442\u0430\u0446\u0438\u0438<\/a>.\u00a0\u00a0<\/p>\n<\/li>\n<li>\n<p><strong>Poetry (\u043e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u0430\u044f \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0446\u0438\u044f):<\/strong>\u00a0<a href=\"https:\/\/python-poetry.org\/docs\/\" rel=\"noopener noreferrer nofollow\">\u0432\u043e\u0441\u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u043c\u044b\u0435 \u043e\u043a\u0440\u0443\u0436\u0435\u043d\u0438\u044f \u0438 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438.\u00a0\u00a0<\/a><\/p>\n<\/li>\n<\/ul>\n<p>\u0415\u0441\u043b\u0438 \u0432\u044b \u0434\u0435\u043b\u0430\u0435\u0442\u0435 \u0447\u0442\u043e-\u0442\u043e \u043f\u043e\u0445\u043e\u0436\u0435\u0435, \u043d\u0430\u043f\u0438\u0448\u0438\u0442\u0435 &#8212; \u0434\u0430\u0432\u0430\u0439\u0442\u0435 \u043e\u0431\u043c\u0435\u043d\u044f\u0435\u043c\u0441\u044f \u043e\u043f\u044b\u0442\u043e\u043c.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<p><!----><!----><\/div>\n<p><!----><!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/944520\/\"> https:\/\/habr.com\/ru\/articles\/944520\/<\/a><br \/><\/br><\/br><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-474110","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/474110","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=474110"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/474110\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=474110"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=474110"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=474110"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}