{"id":484634,"date":"2026-06-23T05:10:05","date_gmt":"2026-06-23T05:10:05","guid":{"rendered":"https:\/\/savepearlharbor.com\/?p=484634"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=484634","title":{"rendered":"Evals: \u0447\u0442\u043e \u0434\u043e\u043b\u0436\u0435\u043d \u0437\u043d\u0430\u0442\u044c \u043a\u0430\u0436\u0434\u044b\u0439 AI-\u0438\u043d\u0436\u0435\u043d\u0435\u0440 \u0432 2026"},"content":{"rendered":"<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/5e4\/987\/031\/5e4987031f447026095da601a56fddd8.png\" width=\"2280\" height=\"1281\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/5e4\/987\/031\/5e4987031f447026095da601a56fddd8.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/5e4\/987\/031\/5e4987031f447026095da601a56fddd8.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u0412 \u0438\u044e\u043b\u0435 2025 coding-\u0430\u0433\u0435\u043d\u0442 \u0432 Replit \u043f\u0440\u043e\u0438\u0433\u043d\u043e\u0440\u0438\u0440\u043e\u0432\u0430\u043b \u044f\u0432\u043d\u044b\u0439 \u0437\u0430\u043f\u0440\u0435\u0442 \u043d\u0430 \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u0444\u0430\u0439\u043b\u043e\u0432 (code-freeze) \u0438 <a href=\"https:\/\/www.theregister.com\/2025\/07\/21\/replit_saastr_vibe_coding_incident\/\" rel=\"noopener noreferrer nofollow\">\u0443\u0434\u0430\u043b\u0438\u043b production-\u0431\u0430\u0437\u0443<\/a> \u2013 \u0434\u0430\u043d\u043d\u044b\u0435 \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e 1200 \u043a\u043e\u043c\u043f\u0430\u043d\u0438\u0439, \u043f\u043e\u0437\u0436\u0435 \u0437\u0430\u044f\u0432\u0438\u0432, \u0447\u0442\u043e \u00ab\u0441\u0434\u0435\u043b\u0430\u043b \u043a\u0430\u0442\u0430\u0441\u0442\u0440\u043e\u0444\u0438\u0447\u0435\u0441\u043a\u0443\u044e \u043e\u0448\u0438\u0431\u043a\u0443\u00bb. Operator \u043e\u0442 OpenAI, \u043a\u043e\u0442\u043e\u0440\u043e\u0433\u043e \u043f\u043e\u043f\u0440\u043e\u0441\u0438\u043b\u0438 \u0432\u0441\u0435\u0433\u043e \u043b\u0438\u0448\u044c <em>\u043d\u0430\u0439\u0442\u0438<\/em> \u0434\u0435\u0448\u0435\u0432\u044b\u0435 \u044f\u0439\u0446\u0430, \u0441\u0430\u043c <a href=\"https:\/\/www.washingtonpost.com\/technology\/2025\/02\/07\/openai-operator-ai-agent-chatgpt\/\" rel=\"noopener noreferrer nofollow\">\u043a\u0443\u043f\u0438\u043b \u0438\u0445 \u043d\u0430 Instacart \u043d\u0430 $31.43<\/a> \u2013 \u0432 \u043e\u0431\u0445\u043e\u0434 \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u0433\u043e \u043f\u043e\u0434\u0442\u0432\u0435\u0440\u0436\u0434\u0435\u043d\u0438\u044f \u043f\u043e\u043a\u0443\u043f\u043a\u0438. \u041e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u0439 \u0447\u0430\u0442\u0431\u043e\u0442 \u043c\u044d\u0440\u0438\u0438 \u041d\u044c\u044e-\u0419\u043e\u0440\u043a\u0430 <a href=\"https:\/\/themarkup.org\/news\/2024\/03\/29\/nycs-ai-chatbot-tells-businesses-to-break-the-law\" rel=\"noopener noreferrer nofollow\">\u0441\u043e\u0432\u0435\u0442\u043e\u0432\u0430\u043b \u043f\u0440\u0435\u0434\u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0442\u0435\u043b\u044f\u043c \u043d\u0430\u0440\u0443\u0448\u0430\u0442\u044c \u0437\u0430\u043a\u043e\u043d<\/a>: \u0433\u043e\u0432\u043e\u0440\u0438\u043b, \u0447\u0442\u043e \u043c\u043e\u0436\u043d\u043e \u0437\u0430\u0431\u0438\u0440\u0430\u0442\u044c \u0447\u0430\u0435\u0432\u044b\u0435 \u0440\u0430\u0431\u043e\u0442\u043d\u0438\u043a\u043e\u0432 \u0438 \u043e\u0442\u043a\u0430\u0437\u044b\u0432\u0430\u0442\u044c \u0430\u0440\u0435\u043d\u0434\u0430\u0442\u043e\u0440\u0430\u043c \u0441 \u0436\u0438\u043b\u0438\u0449\u043d\u044b\u043c\u0438 \u0432\u0430\u0443\u0447\u0435\u0440\u0430\u043c\u0438 Section 8. \u042d\u0442\u0438 \u0438 \u0434\u0440\u0443\u0433\u0438\u0435 \u0438\u043d\u0446\u0438\u0434\u0435\u043d\u0442\u044b \u0441\u0432\u0435\u0434\u0435\u043d\u044b \u0432 \u043e\u0431\u0437\u043e\u0440\u0435 <a href=\"https:\/\/arxiv.org\/html\/2602.16666v1\" rel=\"noopener noreferrer nofollow\">\u00abTowards a Science of AI Agent Reliability\u00bb<\/a>, \u0433\u0434\u0435 \u043a\u0430\u0436\u0434\u044b\u0439 \u0440\u0430\u0437\u0434\u0435\u043b\u0435\u043d \u043f\u043e \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0443 \u0441\u0431\u043e\u044f: \u0442\u044f\u0436\u0435\u0441\u0442\u044c \u0432\u0440\u0435\u0434\u0430, \u043d\u0430\u0440\u0443\u0448\u0435\u043d\u0438\u0435 \u043f\u043e\u043b\u043d\u043e\u043c\u043e\u0447\u0438\u0439, \u043f\u043b\u043e\u0445\u0430\u044f \u043a\u0430\u043b\u0438\u0431\u0440\u043e\u0432\u043a\u0430.<\/p>\n<p>\u041d\u0438 \u043e\u0434\u0438\u043d \u0438\u0437 \u044d\u0442\u0438\u0445 \u0441\u043b\u0443\u0447\u0430\u0435\u0432 \u043d\u0435 \u0432\u0441\u043f\u043b\u044b\u043b \u0431\u044b \u0432 \u043e\u0431\u044b\u0447\u043d\u043e\u043c \u0434\u0435\u043c\u043e. \u0418 \u043d\u0438 \u043e\u0434\u0438\u043d \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a \u043f\u0440\u043e \u043d\u0438\u0445 \u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u0431\u044b \u043d\u0435 \u043f\u0440\u0435\u0434\u0443\u043f\u0440\u0435\u0434\u0438\u043b.<\/p>\n<p>\u041f\u0443\u0431\u043b\u0438\u0447\u043d\u044b\u0435 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0438 \u043f\u043e\u043b\u0435\u0437\u043d\u044b \u2013 \u043f\u043e \u043d\u0438\u043c \u0432\u0438\u0434\u043d\u043e, \u043a\u0430\u043a\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u0432 \u0446\u0435\u043b\u043e\u043c \u0441\u0438\u043b\u044c\u043d\u0435\u0435 \u0438 \u043a\u0443\u0434\u0430 \u0434\u0432\u0438\u0436\u0435\u0442\u0441\u044f \u0444\u0440\u043e\u043d\u0442\u0438\u0440. \u041d\u043e \u043e\u043d\u0438 \u043e\u0442\u0432\u0435\u0447\u0430\u044e\u0442 \u043d\u0430 \u0434\u0440\u0443\u0433\u043e\u0439 \u0432\u043e\u043f\u0440\u043e\u0441. \u0412\u044b\u0441\u043e\u043a\u0438\u0439 \u0431\u0430\u043b\u043b \u043d\u0430 \u043b\u0438\u0434\u0435\u0440\u0431\u043e\u0440\u0434\u0435 \u043d\u0435 \u0433\u043e\u0432\u043e\u0440\u0438\u0442, \u0441\u043f\u0440\u0430\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u043b\u0438 \u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u0441 <em>\u0432\u0430\u0448\u0438\u043c\u0438<\/em> \u0437\u0430\u0434\u0430\u0447\u0430\u043c\u0438: \u0434\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u043d\u0443\u0436\u043d\u044b \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0435 evals \u0438 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0438 \u043f\u043e\u0434 \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u044b\u0435 \u0437\u0430\u0434\u0430\u0447\u0438. \u0410 \u0447\u0430\u0441\u0442\u044c \u0430\u0441\u043f\u0435\u043a\u0442\u043e\u0432 \u2013 \u0431\u0435\u0437\u043e\u043f\u0430\u0441\u043d\u043e\u0441\u0442\u044c, \u0443\u0441\u0442\u043e\u0439\u0447\u0438\u0432\u043e\u0441\u0442\u044c \u043a \u0437\u043b\u043e\u0443\u043f\u043e\u0442\u0440\u0435\u0431\u043b\u0435\u043d\u0438\u044f\u043c, \u043f\u043e\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u043f\u043e\u0434 \u0430\u0442\u0430\u043a\u043e\u0439 \u2013 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u043e\u043c \u0432 \u043f\u0440\u0438\u043d\u0446\u0438\u043f\u0435 \u043d\u0435 \u0438\u0437\u043c\u0435\u0440\u0438\u0442\u044c; \u0432 \u044d\u0442\u0438\u0445 \u0441\u043b\u0443\u0447\u0430\u044f\u0445 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 red-teaming. \u0421\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u0430\u044f AI-\u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u2013 \u044d\u0442\u043e \u043c\u043e\u0434\u0435\u043b\u044c \u0432 \u0441\u0438\u043c\u0431\u0438\u043e\u0437\u0435 \u0441 retrieval, tools, memory, routing, prompts, state, permissions. \u0412\u044b \u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0435\u043d\u043d\u044b \u0437\u0430 \u0432\u0441\u044e \u0441\u0438\u0441\u0442\u0435\u043c\u0443 \u0438 \u0445\u043e\u0442\u0438\u0442\u0435 \u043f\u043e\u043d\u0438\u043c\u0430\u0442\u044c, \u043a\u0430\u043a \u0445\u043e\u0440\u043e\u0448\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0438\u043c\u0435\u043d\u043d\u043e \u043e\u043d\u0430, \u0432 \u0442\u043e \u0432\u0440\u0435\u043c\u044f \u043a\u0430\u043a \u043f\u0443\u0431\u043b\u0438\u0447\u043d\u044b\u0439 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a \u0438\u0437\u043c\u0435\u0440\u044f\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u043c\u043e\u0434\u0435\u043b\u044c.<\/p>\n<p>\u042d\u0442\u0430 \u0441\u0442\u0430\u0442\u044c\u044f \u043e\u043f\u0438\u0441\u044b\u0432\u0430\u0435\u0442:<\/p>\n<ul>\n<li>\n<p>\u0447\u0442\u043e \u043a\u0430\u0436\u0434\u043e\u043c\u0443 AI-\u0438\u043d\u0436\u0435\u043d\u0435\u0440\u0443 \u0441\u0442\u043e\u0438\u0442 \u043f\u043e\u043d\u0438\u043c\u0430\u0442\u044c \u043f\u0440\u043e evals \u0432 2026<\/p>\n<\/li>\n<li>\n<p>\u043f\u043e\u0447\u0435\u043c\u0443 \u044d\u0442\u043e \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u0441\u044f \u043e\u0434\u043d\u0438\u043c \u0438\u0437 \u0441\u0430\u043c\u044b\u0445 \u0446\u0435\u043d\u043d\u044b\u0445 \u043d\u0430\u0432\u044b\u043a\u043e\u0432 \u043d\u0430 \u0440\u044b\u043d\u043a\u0435<\/p>\n<\/li>\n<\/ul>\n<h3>\u041f\u043e\u0447\u0435\u043c\u0443 \u044d\u0442\u0438\u043c \u0441\u0442\u043e\u0438\u0442 \u0437\u0430\u043d\u044f\u0442\u044c\u0441\u044f \u0438\u043c\u0435\u043d\u043d\u043e \u0441\u0435\u0439\u0447\u0430\u0441<\/h3>\n<p>AI \u0441\u0438\u0441\u0442\u0435\u043c \u0441\u0442\u0430\u043b\u043e \u043c\u043d\u043e\u0433\u043e, \u0438 \u043e\u043d\u0438 \u043c\u0430\u0441\u0441\u043e\u0432\u043e \u043f\u043e\u0448\u043b\u0438 \u0432 \u043f\u0440\u043e\u0434. \u0411\u0438\u0437\u043d\u0435\u0441\u0443 \u0442\u0435\u043f\u0435\u0440\u044c \u0432\u0430\u0436\u043d\u043e \u043d\u0435 \u0442\u043e, \u043a\u0430\u043a \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u0434\u0435\u043c\u043e, \u0430 \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u044c \u0438\u0437\u043c\u0435\u0440\u0438\u0442\u044c AI \u043f\u0440\u043e\u0434\u0443\u043a\u0442 \u0438 \u0441\u043f\u0440\u043e\u0433\u043d\u043e\u0437\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0435\u0433\u043e \u0440\u043e\u0441\u0442 \u2013 \u0438\u043d\u0430\u0447\u0435 \u043d\u0435\u043f\u043e\u043d\u044f\u0442\u043d\u043e, \u0432\u043e \u0447\u0442\u043e \u0432\u043a\u043b\u0430\u0434\u044b\u0432\u0430\u0442\u044c\u0441\u044f \u0438 \u0447\u0442\u043e \u043e\u0431\u0435\u0449\u0430\u0442\u044c \u043a\u043b\u0438\u0435\u043d\u0442\u0430\u043c. \u0411\u0435\u0437 evals \u044d\u0442\u043e\u0433\u043e \u043d\u0435 \u0441\u0434\u0435\u043b\u0430\u0442\u044c. \u0427\u0435\u0442\u044b\u0440\u0435 \u043f\u0440\u0438\u0447\u0438\u043d\u044b, \u043f\u043e\u0447\u0435\u043c\u0443 \u0437\u0430\u043d\u044f\u0442\u044c\u0441\u044f \u0438\u043c\u0438 \u0441\u0442\u043e\u0438\u0442 \u0443\u0436\u0435 \u0441\u0435\u0439\u0447\u0430\u0441:<\/p>\n<p><strong>\u0410\u0433\u0435\u043d\u0442\u044b \u043f\u0435\u0440\u0435\u0441\u0442\u0430\u043b\u0438 \u043e\u0442\u0432\u0435\u0447\u0430\u0442\u044c \u0438 \u043d\u0430\u0447\u0430\u043b\u0438 \u0434\u0435\u0439\u0441\u0442\u0432\u043e\u0432\u0430\u0442\u044c.<\/strong> \u0420\u0430\u043d\u044c\u0448\u0435 \u043f\u043b\u043e\u0445\u043e\u0439 \u043e\u0442\u0432\u0435\u0442 \u0431\u044b\u043b \u043f\u043e\u0433\u0440\u0435\u0448\u043d\u043e\u0441\u0442\u044c\u044e \u2013 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044c \u0435\u0433\u043e \u0438\u0433\u043d\u043e\u0440\u0438\u0440\u043e\u0432\u0430\u043b. \u0422\u0435\u043f\u0435\u0440\u044c \u0446\u0435\u043d\u0430 \u043e\u0448\u0438\u0431\u043a\u0438 \u0441\u0442\u0430\u043b\u0430 \u043c\u0430\u0442\u0435\u0440\u0438\u0430\u043b\u044c\u043d\u043e\u0439. \u0421\u0438\u0441\u0442\u0435\u043c\u0430 \u043f\u0438\u0448\u0435\u0442 \u043a\u043e\u0434, \u0442\u0440\u0430\u0442\u0438\u0442 \u0434\u0435\u043d\u044c\u0433\u0438, \u0445\u043e\u0434\u0438\u0442 \u0432 \u043f\u0440\u043e\u0434, \u0434\u0435\u0440\u0433\u0430\u0435\u0442 \u0447\u0443\u0436\u0438\u0435 API. \u0414\u0435\u043f\u043b\u043e\u0438\u0442\u044c <em>\u0434\u0435\u0439\u0441\u0442\u0432\u0443\u044e\u0449\u0435\u0433\u043e<\/em> \u0430\u0433\u0435\u043d\u0442\u0430 \u0431\u0435\u0437 evals \u2013 \u0434\u0435\u043f\u043b\u043e\u0438\u0442\u044c \u0435\u0433\u043e \u0432\u0441\u043b\u0435\u043f\u0443\u044e.<\/p>\n<p><strong>Vibes \u043d\u0435 \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u0443\u044e\u0442\u0441\u044f.<\/strong> \u00ab\u041d\u0430 \u0434\u0435\u043c\u043e \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u0445\u043e\u0440\u043e\u0448\u043e\u00bb \u2013 \u044d\u0442\u043e \u0432\u044b\u0432\u043e\u0434 \u043f\u043e \u043f\u0430\u0440\u0435-\u0442\u0440\u043e\u0439\u043a\u0435 \u043f\u0440\u0438\u043c\u0435\u0440\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0432\u044b \u043f\u0440\u043e\u043a\u043b\u0438\u043a\u0430\u043b\u0438 \u0440\u0443\u043a\u0430\u043c\u0438. \u0412 \u043f\u0440\u043e\u0434\u0435 \u0447\u0435\u0440\u0435\u0437 \u0441\u0438\u0441\u0442\u0435\u043c\u0443 \u043f\u0440\u043e\u0445\u043e\u0434\u044f\u0442 \u0442\u044b\u0441\u044f\u0447\u0438 \u0440\u0430\u0437\u043d\u044b\u0445 \u0437\u0430\u043f\u0440\u043e\u0441\u043e\u0432, \u0438 \u0433\u043b\u0430\u0437\u0430\u043c\u0438 \u0443\u0436\u0435 \u043d\u0435 \u043f\u043e\u043d\u044f\u0442\u044c, \u0441\u0442\u0430\u043b\u043e \u043b\u0438 \u043b\u0443\u0447\u0448\u0435 \u043f\u043e\u0441\u043b\u0435 \u0441\u043c\u0435\u043d\u044b \u043f\u0440\u043e\u043c\u043f\u0442\u0430, \u043c\u043e\u0434\u0435\u043b\u0438 \u0438\u043b\u0438 retrieval. \u0411\u0435\u0437 evals \u043b\u044e\u0431\u043e\u0435 \u0443\u043b\u0443\u0447\u0448\u0435\u043d\u0438\u0435 \u2013 \u044d\u0442\u043e \u0432\u0435\u0440\u0430, \u0430 \u043d\u0435 \u0437\u043d\u0430\u043d\u0438\u0435.<\/p>\n<p><strong>\u042d\u0442\u043e \u0434\u0435\u0444\u0438\u0446\u0438\u0442\u043d\u044b\u0439 \u043d\u0430\u0432\u044b\u043a, \u0438 \u043e\u043d \u043d\u0435 \u043f\u0440\u0438\u0432\u044f\u0437\u0430\u043d \u043a \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u0443.<\/strong> \u0412\u044b\u0437\u0432\u0430\u0442\u044c LLM \u0443\u043c\u0435\u0435\u0442 \u043a\u0430\u0436\u0434\u044b\u0439, \u0430 \u0432\u043e\u0442 \u043e\u0442\u043b\u0438\u0447\u0438\u0442\u044c \u0441\u0438\u0441\u0442\u0435\u043c\u0443, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0440\u0435\u0448\u0430\u0435\u0442 \u0437\u0430\u0434\u0430\u0447\u0443, \u043e\u0442 \u0442\u043e\u0439, \u0447\u0442\u043e \u043b\u0438\u0448\u044c \u0432\u044b\u0434\u0430\u0435\u0442 \u0443\u0432\u0435\u0440\u0435\u043d\u043d\u044b\u0439, \u043d\u043e \u043d\u0435\u0432\u0435\u0440\u043d\u044b\u0439 \u043e\u0442\u0432\u0435\u0442 \u2013 \u043f\u043e\u0447\u0442\u0438 \u043d\u0438\u043a\u0442\u043e. OpenAI \u043f\u0440\u044f\u043c\u043e \u043d\u0430\u0437\u044b\u0432\u0430\u0435\u0442 eval-\u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u00abdifferentiated, context-specific dataset that is hard to copy\u00bb \u2013 \u0442\u043e, \u0447\u0442\u043e \u043d\u0435 \u0441\u043a\u043e\u043f\u0438\u0440\u0443\u0435\u0448\u044c \u0432\u043c\u0435\u0441\u0442\u0435 \u0441 \u0432\u0435\u0441\u0430\u043c\u0438 \u043c\u043e\u0434\u0435\u043b\u0438 (<a href=\"https:\/\/openai.com\/index\/evals-drive-next-chapter-of-ai\/\" rel=\"noopener noreferrer nofollow\">How Evals Drive the Next Chapter in AI<\/a>). \u0418 \u043e\u043d \u043d\u0435 \u0443\u0441\u0442\u0430\u0440\u0435\u0432\u0430\u0435\u0442 \u0441 \u0440\u0435\u043b\u0438\u0437\u0430\u043c\u0438: \u0434\u0435\u043b\u043e \u0432 \u043c\u0435\u0442\u043e\u0434\u043e\u043b\u043e\u0433\u0438\u0438 \u0438\u0437\u043c\u0435\u0440\u0435\u043d\u0438\u0439, \u0430 \u043d\u0435 \u0432 \u0442\u043e\u043c, \u043a\u0430\u043a\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u0441\u0435\u0433\u043e\u0434\u043d\u044f \u0432 \u0442\u043e\u043f\u0435.<\/p>\n<p>\u0418 \u0432 \u0441\u043b\u0435\u0434 \u0437\u0430 \u0432\u0441\u0435\u043c \u044d\u0442\u0438\u043c \u0444\u0430\u043a\u0442: \u0437\u0430 \u043f\u043e\u0441\u043b\u0435\u0434\u043d\u0438\u0435 ~18 \u043c\u0435\u0441\u044f\u0446\u0435\u0432 \u043f\u0440\u0438\u0440\u043e\u0441\u0442 \u043d\u0430\u0434\u0435\u0436\u043d\u043e\u0441\u0442\u0438 \u0437\u0430\u043c\u0435\u0442\u043d\u043e \u043e\u0442\u0441\u0442\u0430\u0435\u0442 \u043e\u0442 \u043f\u0440\u0438\u0440\u043e\u0441\u0442\u0430 \u0441\u043f\u043e\u0441\u043e\u0431\u043d\u043e\u0441\u0442\u0435\u0439 \u2013 \u043c\u043e\u0434\u0435\u043b\u0438 \u0441\u0442\u0430\u043b\u0438 \u0442\u043e\u0447\u043d\u0435\u0435, \u043d\u043e \u043d\u0435 \u043d\u0430\u0434\u0435\u0436\u043d\u0435\u0435 (<a href=\"https:\/\/arxiv.org\/html\/2602.16666v1\" rel=\"noopener noreferrer nofollow\">Towards a Science of AI Agent Reliability<\/a>).<\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/433\/500\/6b9\/4335006b935983c1280b9e2b7c38d851.png\" width=\"2280\" height=\"1281\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/433\/500\/6b9\/4335006b935983c1280b9e2b7c38d851.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/433\/500\/6b9\/4335006b935983c1280b9e2b7c38d851.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<h3>\u0418\u0437\u043c\u0435\u0440\u044f\u0442\u044c \u043d\u0430\u0434\u043e \u0441\u0438\u0441\u0442\u0435\u043c\u0443, \u0430 \u043d\u0435 \u043c\u043e\u0434\u0435\u043b\u044c<\/h3>\n<p>\u0415\u0449\u0435 \u043d\u0435\u0434\u0430\u0432\u043d\u043e \u0432\u0441\u0435\u0445 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043e\u0432\u0430\u043b\u043e, \u043a\u0430\u043a\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u0443\u043c\u043d\u0435\u0435. \u0421\u0435\u0439\u0447\u0430\u0441 \u043a\u0443\u0434\u0430 \u0432\u0430\u0436\u043d\u0435\u0435, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u043d\u0430\u0434\u0435\u0436\u043d\u043e \u0432\u0441\u044f \u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u0434\u043e\u0432\u043e\u0434\u0438\u0442 \u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0435 \u0437\u0430\u0434\u0430\u0447\u0438 \u0434\u043e \u043a\u043e\u043d\u0446\u0430.<\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/969\/d9e\/390\/969d9e39094b2804b04ecc10a9ca7a47.png\" width=\"2760\" height=\"1380\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/969\/d9e\/390\/969d9e39094b2804b04ecc10a9ca7a47.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/969\/d9e\/390\/969d9e39094b2804b04ecc10a9ca7a47.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u0412\u043e\u0437\u044c\u043c\u0438\u0442\u0435 \u043e\u0434\u0438\u043d \u043d\u0435\u0443\u0434\u0430\u0447\u043d\u044b\u0439 \u0437\u0430\u043f\u0440\u043e\u0441: \u043c\u043e\u0434\u0435\u043b\u044c \u0432\u0441\u0435 \u043f\u043e\u043d\u044f\u043b\u0430 \u0432\u0435\u0440\u043d\u043e, retrieval \u0434\u043e\u0441\u0442\u0430\u043b \u043d\u0435 \u0442\u043e\u0442 \u0444\u0430\u0439\u043b, tool call \u0443\u043f\u0430\u043b, retry \u0438\u0441\u043f\u043e\u0440\u0442\u0438\u043b state \u2013 \u0438 \u043e\u0442\u0432\u0435\u0442 \u043e\u043a\u0430\u0437\u0430\u043b\u0441\u044f \u043d\u0435\u0432\u0435\u0440\u043d\u044b\u043c. \u041a\u0430\u0436\u0434\u044b\u0439 \u043a\u043e\u043c\u043f\u043e\u043d\u0435\u043d\u0442 \u0441\u0430\u043c \u043f\u043e \u0441\u0435\u0431\u0435 \u043e\u0442\u0440\u0430\u0431\u043e\u0442\u0430\u043b \u043d\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u043e, \u0430 \u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u2013 \u043d\u0435\u0442. \u042d\u0442\u043e \u043f\u043e\u0434\u0442\u0432\u0435\u0440\u0436\u0434\u0430\u044e\u0442 \u0438 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0438:<\/p>\n<ul>\n<li>\n<p><a href=\"https:\/\/arxiv.org\/abs\/2506.07982\" rel=\"noopener noreferrer nofollow\">\u03c4\u00b2-bench<\/a> \u0432\u0432\u043e\u0434\u0438\u0442 dual-control: \u0430\u0433\u0435\u043d\u0442 \u0434\u043e\u043b\u0436\u0435\u043d \u043d\u0435 \u043f\u0440\u043e\u0441\u0442\u043e \u0434\u0435\u0439\u0441\u0442\u0432\u043e\u0432\u0430\u0442\u044c \u0441\u0430\u043c, \u0430 <em>\u0432\u0435\u0441\u0442\u0438<\/em> \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f. \u041d\u0430 \u043d\u043e\u0432\u043e\u043c dual-control-\u0434\u043e\u043c\u0435\u043d\u0435 (Telecom) gpt-4.1 (pass^1) \u0431\u0435\u0440\u0435\u0442 \u043b\u0438\u0448\u044c 34% \u2013 \u043f\u0440\u043e\u0442\u0438\u0432 74% \u043d\u0430 \u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u043e\u043c single-control-\u0434\u043e\u043c\u0435\u043d\u0435 Retail. \u0422\u043e\u0442 \u0436\u0435 \u043a\u043b\u0430\u0441\u0441 \u043c\u043e\u0434\u0435\u043b\u0438 \u043f\u0440\u043e\u0441\u0435\u0434\u0430\u0435\u0442 \u0442\u0430\u043c, \u0433\u0434\u0435 \u043f\u043e\u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u043a\u043e\u043e\u0440\u0434\u0438\u043d\u0430\u0446\u0438\u044f \u0441 \u0447\u0435\u043b\u043e\u0432\u0435\u043a\u043e\u043c, \u0430 \u043d\u0435 \u0447\u0438\u0441\u0442\u044b\u0439 reasoning.<\/p>\n<\/li>\n<li>\n<p>\u041d\u0430 <a href=\"https:\/\/arxiv.org\/abs\/2602.00933\" rel=\"noopener noreferrer nofollow\">MCP-Atlas<\/a> (1000 \u0437\u0430\u0434\u0430\u0447, 220 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u043e\u0432) 63% \u0434\u0438\u0430\u0433\u043d\u043e\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u043f\u0440\u043e\u0432\u0430\u043b\u043e\u0432 \u043e\u043a\u0430\u0437\u0430\u043b\u0438\u0441\u044c <em>cognitive<\/em>, \u0430 \u043d\u0435 tool-call: \u043c\u043e\u0434\u0435\u043b\u044c \u0432\u044b\u0437\u0432\u0430\u043b\u0430 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u044b \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e, \u0430 \u043f\u043e\u0442\u043e\u043c \u043e\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u043b\u0430\u0441\u044c \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u0440\u0430\u043d\u043e \u0438\u043b\u0438 \u043f\u043b\u043e\u0445\u043e \u0441\u0438\u043d\u0442\u0435\u0437\u0438\u0440\u043e\u0432\u0430\u043b\u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442.<\/p>\n<\/li>\n<\/ul>\n<p>\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043e\u0434\u043d\u043e\u0439 \u0438 \u0442\u043e\u0439 \u0436\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u043c\u0435\u043d\u044f\u0435\u0442\u0441\u044f \u043d\u0430 \u0434\u0435\u0441\u044f\u0442\u043a\u0438 \u043f\u0443\u043d\u043a\u0442\u043e\u0432 \u0432 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438 \u043e\u0442 \u0441\u0438\u0441\u0442\u0435\u043c\u044b \u0432\u043e\u043a\u0440\u0443\u0433 \u043d\u0435\u0435. \u0417\u043d\u0430\u0447\u0438\u0442, \u0435\u0434\u0438\u043d\u0438\u0446\u0430 \u043e\u0446\u0435\u043d\u043a\u0438 \u2013 \u044d\u0442\u043e \u0441\u0438\u0441\u0442\u0435\u043c\u0430, \u0430 \u043f\u043e\u043b\u0435\u0437\u043d\u044b\u0439 \u0432\u044b\u0445\u043e\u0434 eval&#8217;\u0430 \u2013 \u043d\u0435 \u043e\u0431\u0449\u0438\u0439 pass rate, \u0430 \u0440\u0430\u0437\u0431\u0438\u0432\u043a\u0430 \u043f\u043e \u0442\u043e\u043c\u0443, \u0433\u0434\u0435 \u0438\u043c\u0435\u043d\u043d\u043e \u0441\u043b\u043e\u043c\u0430\u043b\u043e\u0441\u044c: reasoning \u0438\u043b\u0438 \u043a\u043e\u043e\u0440\u0434\u0438\u043d\u0430\u0446\u0438\u044f, tool-call \u0438\u043b\u0438 \u0441\u0438\u043d\u0442\u0435\u0437, retrieval \u0438\u043b\u0438 \u043c\u043e\u0434\u0435\u043b\u044c. \u0418\u043c\u0435\u043d\u043d\u043e \u044d\u0442\u043e \u0433\u043e\u0432\u043e\u0440\u0438\u0442 \u0432\u0430\u043c, \u0447\u0442\u043e \u0441\u0442\u043e\u0438\u0442 \u0447\u0438\u043d\u0438\u0442\u044c.<\/p>\n<h3>Eval-\u0441\u0442\u044d\u043a, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0432\u0430\u043c \u0440\u0435\u0430\u043b\u044c\u043d\u043e \u043d\u0443\u0436\u0435\u043d<\/h3>\n<p>Eval-\u0441\u0442\u044d\u043a \u0441\u043e\u0431\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u0438\u0437 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u0438\u0445 \u0441\u043b\u043e\u0435\u0432 \u043f\u0440\u043e\u0432\u0435\u0440\u043e\u043a, \u0438 \u0443 \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0441\u0432\u043e\u0438 \u0441\u0438\u043b\u044c\u043d\u044b\u0435 \u0441\u0442\u043e\u0440\u043e\u043d\u044b \u0438 \u0441\u043b\u0435\u043f\u044b\u0435 \u0437\u043e\u043d\u044b (\u0438\u0445 \u044f \u0440\u0430\u0437\u0431\u0435\u0440\u0443 \u043d\u0438\u0436\u0435 \u043f\u043e \u043e\u0447\u0435\u0440\u0435\u0434\u0438). \u041d\u0438 \u043e\u0434\u0438\u043d \u0441\u043b\u043e\u0439 \u0432 \u043e\u0434\u0438\u043d\u043e\u0447\u043a\u0443 \u043d\u0435 \u043b\u043e\u0432\u0438\u0442 \u0432\u0441\u0435, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0438\u0445 \u043a\u043e\u043c\u0431\u0438\u043d\u0438\u0440\u0443\u044e\u0442 \u0442\u0430\u043a, \u0447\u0442\u043e\u0431\u044b \u0442\u043e, \u0447\u0442\u043e \u043f\u0440\u043e\u0441\u043a\u043e\u0447\u0438\u043b\u043e \u0441\u043a\u0432\u043e\u0437\u044c \u043e\u0434\u0438\u043d \u0441\u043b\u043e\u0439, \u043f\u043e\u0439\u043c\u0430\u043b \u0434\u0440\u0443\u0433\u043e\u0439. \u042d\u0442\u043e\u0442 \u043f\u0440\u0438\u043d\u0446\u0438\u043f \u0445\u043e\u0440\u043e\u0448\u043e \u0440\u0430\u0437\u043e\u0431\u0440\u0430\u043d \u0432 \u0438\u043d\u0436\u0435\u043d\u0435\u0440\u043d\u043e\u043c \u0433\u0430\u0439\u0434\u0435 Anthropic <a href=\"https:\/\/www.anthropic.com\/engineering\/demystifying-evals-for-ai-agents\" rel=\"noopener noreferrer nofollow\">\u00abDemystifying Evals for AI Agents\u00bb<\/a>, \u043d\u0430 \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u044f \u043d\u0438\u0436\u0435 \u043d\u0435\u043e\u0434\u043d\u043e\u043a\u0440\u0430\u0442\u043d\u043e \u0431\u0443\u0434\u0443 \u0441\u0441\u044b\u043b\u0430\u0442\u044c\u0441\u044f.<\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/d1e\/9a8\/786\/d1e9a8786e8720fa94bedab28265a054.png\" width=\"2280\" height=\"1482\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/d1e\/9a8\/786\/d1e9a8786e8720fa94bedab28265a054.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/d1e\/9a8\/786\/d1e9a8786e8720fa94bedab28265a054.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p><strong>Offline evals<\/strong> \u043f\u0440\u043e\u0433\u043e\u043d\u044f\u0435\u0442\u0441\u044f \u0434\u043e \u0440\u0435\u043b\u0438\u0437\u0430 \u0432 CI \u2013 \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0438, \u043f\u0440\u043e\u043c\u043f\u0442\u044b, \u0430\u043f\u0433\u0440\u0435\u0439\u0434\u044b \u043c\u043e\u0434\u0435\u043b\u0438, routing, \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u043e\u0432. \u0414\u0435\u0448\u0435\u0432\u043e \u0438 \u043f\u043e\u0432\u0442\u043e\u0440\u044f\u0435\u043c\u043e. \u0422\u0443\u0442 \u0441\u0442\u043e\u0438\u0442 \u0437\u0430\u043f\u043e\u043c\u043d\u0438\u0442\u044c \u043e\u0434\u043d\u043e \u0440\u0430\u0437\u043b\u0438\u0447\u0438\u0435 \u0438\u0437 \u0442\u043e\u0433\u043e \u0436\u0435 \u0433\u0430\u0439\u0434\u0430 Anthropic: <em>capability<\/em>-evals \u0441\u0442\u0430\u0440\u0442\u0443\u044e\u0442 \u0441 \u043d\u0438\u0437\u043a\u043e\u0433\u043e pass rate, \u0430 <em>regression<\/em>-evals \u0434\u043e\u043b\u0436\u043d\u044b \u0434\u0435\u0440\u0436\u0430\u0442\u044c\u0441\u044f \u043e\u043a\u043e\u043b\u043e 100%. \u0426\u0435\u043b\u0435\u0432\u043e\u0439 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 100% \u0441\u0430\u043c \u043f\u043e \u0441\u0435\u0431\u0435 \u043f\u043e\u043b\u0435\u0437\u0435\u043d \u0442\u043e\u043b\u044c\u043a\u043e, \u0447\u0442\u043e\u0431\u044b \u043b\u043e\u0432\u0438\u0442\u044c \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0438. \u041e\u043d \u043d\u0435 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442, \u0447\u0442\u043e \u0438\u043c\u0435\u043d\u043d\u043e \u0443\u043b\u0443\u0447\u0448\u0430\u0442\u044c, \u043f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e \u0440\u0430\u0441\u0442\u0438 \u0443\u0436\u0435 \u043d\u0435\u043a\u0443\u0434\u0430.<\/p>\n<p><strong>Online evals<\/strong> \u043f\u0440\u043e\u0433\u043e\u043d\u044f\u044e\u0442\u0441\u044f \u043d\u0430 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u043c \u0442\u0440\u0430\u0444\u0438\u043a\u0435 \u2013 task completion, latency, cost, drop-off, human overrides. \u0411\u043b\u0438\u0436\u0435 \u043a \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u0441\u0442\u0438 \u0438 \u0448\u0443\u043c\u043d\u0435\u0435. \u041e\u043d\u0438 \u0434\u043e\u043f\u043e\u043b\u043d\u044f\u044e\u0442 \u043f\u0440\u043e\u0434\u0443\u043a\u0442\u043e\u0432\u044b\u0435 A\/B-\u0442\u0435\u0441\u0442\u044b \u043d\u0430 \u0436\u0438\u0432\u044b\u0445 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f\u0445, \u043d\u043e <a href=\"https:\/\/openai.com\/index\/evals-drive-next-chapter-of-ai\/\" rel=\"noopener noreferrer nofollow\">\u043d\u0435 \u0437\u0430\u043c\u0435\u043d\u044f\u044e\u0442 \u0438\u0445<\/a>: eval \u0438\u0437\u043c\u0435\u0440\u044f\u0435\u0442 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u043e\u0442\u0432\u0435\u0442\u043e\u0432 \u0441\u0438\u0441\u0442\u0435\u043c\u044b, \u0430 A\/B \u2013 \u0432\u043b\u0438\u044f\u043d\u0438\u0435 \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u0439 \u043d\u0430 \u043c\u0435\u0442\u0440\u0438\u043a\u0438 \u043f\u0440\u043e\u0434\u0443\u043a\u0442\u0430.<\/p>\n<p><strong>Human evals<\/strong> \u2013 \u044d\u0442\u043e \u0441\u043b\u043e\u0439, \u0433\u0434\u0435 \u0432\u044b \u0437\u0430\u0434\u0430\u0435\u0442\u0435, \u0447\u0442\u043e \u0437\u043d\u0430\u0447\u0438\u0442 \u00ab\u0445\u043e\u0440\u043e\u0448\u043e\u00bb: usefulness, \u044f\u0441\u043d\u043e\u0441\u0442\u044c, \u0432\u043a\u0443\u0441. \u0414\u043e\u0440\u043e\u0433\u043e, \u043d\u043e \u043d\u0435\u0437\u0430\u043c\u0435\u043d\u0438\u043c\u043e. OpenAI \u0441\u043e\u0432\u0435\u0442\u0443\u0435\u0442 \u0441\u043e\u0431\u0440\u0430\u0442\u044c \u043d\u0435\u0431\u043e\u043b\u044c\u0448\u043e\u0439 <a href=\"https:\/\/openai.com\/index\/evals-drive-next-chapter-of-ai\/\" rel=\"noopener noreferrer nofollow\">golden set<\/a> \u0438\u0437 \u043f\u0440\u0438\u043c\u0435\u0440\u043e\u0432 \u0432\u0438\u0434\u0430 <em>input\u2192\u0436\u0435\u043b\u0430\u0435\u043c\u044b\u0439 output<\/em> \u0438 \u043e\u0442\u043d\u043e\u0441\u0438\u0442\u044c\u0441\u044f \u043a \u043d\u0435\u043c\u0443, \u043a\u0430\u043a \u043a \u0430\u0432\u0442\u043e\u0440\u0438\u0442\u0435\u0442\u043d\u043e\u043c\u0443 \u044d\u0442\u0430\u043b\u043e\u043d\u0443 \u0441\u0443\u0436\u0434\u0435\u043d\u0438\u044f \u0432\u0430\u0448\u0435\u0439 \u043a\u043e\u043c\u0430\u043d\u0434\u044b.<\/p>\n<p><strong>LLM-as-judge<\/strong> \u043f\u043e\u043b\u0435\u0437\u0435\u043d, \u043d\u043e \u043e\u043f\u0430\u0441\u0435\u043d. \u0425\u043e\u0440\u043e\u0448 \u0434\u043b\u044f \u043f\u0435\u0440\u0432\u0438\u0447\u043d\u043e\u0439 \u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u043a\u0438, \u043f\u0440\u043e\u0432\u0435\u0440\u043e\u043a \u0441\u0442\u0438\u043b\u044f \u0438 \u0442\u043e\u043d\u0430, \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0439 \u043f\u043e \u0440\u0443\u0431\u0440\u0438\u043a\u0435, \u043e\u0431\u043e\u0431\u0449\u0435\u043d\u0438\u044f \u0442\u0438\u043f\u043e\u0432\u044b\u0445 \u043e\u0448\u0438\u0431\u043e\u043a. \u041d\u043e \u043f\u043b\u043e\u0445 \u043a\u0430\u043a \u0435\u0434\u0438\u043d\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u0438\u0441\u0442\u043e\u0447\u043d\u0438\u043a \u0438\u0441\u0442\u0438\u043d\u044b \u0434\u043b\u044f factual correctness, security, \u0442\u043e\u043d\u043a\u043e\u0439 \u043a\u043e\u0440\u0440\u0435\u043a\u0442\u043d\u043e\u0441\u0442\u0438 \u043a\u043e\u0434\u0430, \u043b\u044e\u0431\u044b\u0445 adversarial-\u0437\u0430\u0434\u0430\u0447. \u0418 \u0443 \u043d\u0435\u0433\u043e \u0435\u0441\u0442\u044c biases, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 <a href=\"https:\/\/huggingface.co\/spaces\/OpenEvals\/evaluation-guidebook\" rel=\"noopener noreferrer nofollow\">\u0437\u0430\u043c\u0435\u0442\u0438\u0442\u044c \u0442\u0440\u0443\u0434\u043d\u0435\u0435, \u0447\u0435\u043c \u0443 \u043b\u044e\u0434\u0435\u0439<\/a>. \u0415\u0441\u043b\u0438 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0435 \u0441\u0443\u0434\u044c\u044e \u2013 \u043d\u0435 \u0434\u043e\u0432\u0435\u0440\u044f\u0439\u0442\u0435 \u0435\u043c\u0443 \u043d\u0430 \u0441\u043b\u043e\u0432\u043e, \u0430 \u0438\u0437\u043c\u0435\u0440\u044f\u0439\u0442\u0435, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0435\u0433\u043e \u043e\u0446\u0435\u043d\u043a\u0438 \u0441\u043e\u0432\u043f\u0430\u0434\u0430\u044e\u0442 \u0441 \u0447\u0435\u043b\u043e\u0432\u0435\u0447\u0435\u0441\u043a\u0438\u043c\u0438: \u0432 <a href=\"https:\/\/alignment.anthropic.com\/2025\/bloom-auto-evals\/\" rel=\"noopener noreferrer nofollow\">Bloom \u043e\u0442 Anthropic<\/a> \u0441\u0443\u0434\u044c\u044e (Opus 4.1) \u0441\u0432\u0435\u0440\u0438\u043b\u0438 \u0441 \u043b\u044e\u0434\u044c\u043c\u0438 \u043d\u0430 40 \u0442\u0440\u0430\u043d\u0441\u043a\u0440\u0438\u043f\u0442\u0430\u0445 \u2013 \u043a\u043e\u0440\u0440\u0435\u043b\u044f\u0446\u0438\u044f Spearman 0.86. \u0422\u043e \u0435\u0441\u0442\u044c \u0441\u0443\u0434\u044c\u044f \u0433\u043e\u0434\u0438\u0442\u0441\u044f, \u0447\u0442\u043e\u0431\u044b \u043e\u0442\u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0438 \u043f\u043e\u0434\u0441\u0432\u0435\u0442\u0438\u0442\u044c \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u044b, \u043d\u043e \u043d\u0435 \u0447\u0442\u043e\u0431\u044b \u0432\u044b\u043d\u043e\u0441\u0438\u0442\u044c \u043e\u043a\u043e\u043d\u0447\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0432\u0435\u0440\u0434\u0438\u043a\u0442.<\/p>\n<p><strong>Execution-based evals<\/strong> \u2013 \u0437\u043e\u043b\u043e\u0442\u043e\u0439 \u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442 \u0434\u043b\u044f \u0430\u0433\u0435\u043d\u0442\u043e\u0432, \u043f\u0440\u043e \u043d\u0438\u0445 \u2013 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u0439 \u0440\u0430\u0437\u0434\u0435\u043b \u043d\u0438\u0436\u0435.<\/p>\n<p><strong>Safety \u0438 red-teaming evals<\/strong> \u2013 \u0441\u043b\u043e\u0439, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0447\u0430\u0449\u0435 \u0432\u0441\u0435\u0433\u043e \u043f\u0440\u043e\u043f\u0443\u0441\u043a\u0430\u044e\u0442. Red teaming \u043d\u0430\u0441\u0442\u0443\u043f\u0430\u0442\u0435\u043b\u0435\u043d: \u0432\u044b \u043f\u0440\u043e\u0430\u043a\u0442\u0438\u0432\u043d\u043e \u0438\u0449\u0435\u0442\u0435 \u043f\u0440\u043e\u0432\u0430\u043b \u0441\u0430\u043c\u0438, \u0430 \u043d\u0435 \u0436\u0434\u0435\u0442\u0435, \u043f\u043e\u043a\u0430 \u043e\u043d \u043f\u0440\u043e\u044f\u0432\u0438\u0442\u0441\u044f. \u041d\u043e \u0443 \u043c\u0435\u0442\u043e\u0434\u0430 \u0435\u0441\u0442\u044c \u0432\u0430\u0436\u043d\u043e\u0435 \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u0435, \u043d\u0430 \u043a\u043e\u0442\u043e\u0440\u043e\u0435 \u043f\u0440\u044f\u043c\u043e \u0443\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 Microsoft: red-teaming <a href=\"https:\/\/learn.microsoft.com\/en-us\/azure\/ai-foundry\/openai\/concepts\/red-teaming\" rel=\"noopener noreferrer nofollow\">\u043d\u0430\u0445\u043e\u0434\u0438\u0442 \u0443\u044f\u0437\u0432\u0438\u043c\u043e\u0441\u0442\u0438, \u043d\u043e \u043d\u0435 \u0438\u0437\u043c\u0435\u0440\u044f\u0435\u0442, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u043e\u043d\u0438 \u0440\u0430\u0441\u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0435\u043d\u044b<\/a> \u2013 \u043e\u0434\u0438\u043d \u043d\u0430\u0439\u0434\u0435\u043d\u043d\u044b\u0439 jailbreak \u0435\u0449\u0435 \u043d\u0435 \u0433\u043e\u0432\u043e\u0440\u0438\u0442, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u043e\u043d \u0447\u0430\u0441\u0442\u043e-\u0432\u043e\u0441\u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u043c\u044b\u0439.<\/p>\n<h3>Execution-based evals: \u043e\u0446\u0435\u043d\u0438\u0432\u0430\u0439\u0442\u0435 \u043f\u043e \u0444\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u043c\u0443 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0443, \u0430 \u043d\u0435 \u043f\u043e \u0441\u043b\u043e\u0432\u0430\u043c \u0430\u0433\u0435\u043d\u0442\u0430<\/h3>\n<p>\u0414\u043b\u044f \u0430\u0433\u0435\u043d\u0442\u043e\u0432 \u0432\u0430\u0436\u043d\u043e \u043d\u0435 \u0442\u043e, \u0447\u0442\u043e \u0430\u0433\u0435\u043d\u0442 \u043d\u0430\u043f\u0438\u0441\u0430\u043b \u0432 \u043e\u0442\u0432\u0435\u0442\u0435, \u0430 \u0442\u043e, \u0447\u0442\u043e \u043e\u043d \u0440\u0435\u0430\u043b\u044c\u043d\u043e \u0441\u0434\u0435\u043b\u0430\u043b: \u0441\u043e\u0431\u0440\u0430\u043b\u0441\u044f \u043b\u0438 \u043a\u043e\u0434, \u043f\u0440\u043e\u0448\u043b\u0438 \u043b\u0438 \u0442\u0435\u0441\u0442\u044b, \u043f\u043e\u044f\u0432\u0438\u043b\u0441\u044f \u043b\u0438 \u043d\u0443\u0436\u043d\u044b\u0439 \u0444\u0430\u0439\u043b, \u043e\u0431\u043d\u043e\u0432\u0438\u043b\u0438\u0441\u044c \u043b\u0438 \u0434\u0430\u043d\u043d\u044b\u0435 \u0432 \u0431\u0430\u0437\u0435.<\/p>\n<p>\u041a\u0430\u043d\u043e\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u043f\u0430\u0442\u0442\u0435\u0440\u043d \u2013 <a href=\"https:\/\/github.com\/SWE-bench\/SWE-bench\" rel=\"noopener noreferrer nofollow\">SWE-bench Verified<\/a>: \u0430\u0433\u0435\u043d\u0442 \u0432\u044b\u0434\u0430\u0435\u0442 \u043f\u0430\u0442\u0447, \u043f\u0430\u0442\u0447 \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0435\u0442\u0441\u044f \u0432 \u043a\u043e\u043d\u0442\u0435\u0439\u043d\u0435\u0440\u0435, \u0438 \u043f\u0440\u043e\u0433\u043e\u043d\u044f\u0435\u0442\u0441\u044f <em>\u043d\u0430\u0441\u0442\u043e\u044f\u0449\u0438\u0439 \u0442\u0435\u0441\u0442\u043e\u0432\u044b\u0439 \u043d\u0430\u0431\u043e\u0440<\/em> \u0440\u0435\u043f\u043e\u0437\u0438\u0442\u043e\u0440\u0438\u044f. \u0417\u0430\u0434\u0430\u0447\u0430 \u0437\u0430\u0441\u0447\u0438\u0442\u0430\u043d\u0430, \u0442\u043e\u043b\u044c\u043a\u043e \u0435\u0441\u043b\u0438 \u0432\u0441\u0435 \u0440\u0430\u043d\u0435\u0435 \u043f\u0430\u0434\u0430\u0432\u0448\u0438\u0435 \u0442\u0435\u0441\u0442\u044b (<code>FAIL_TO_PASS<\/code>) \u0442\u0435\u043f\u0435\u0440\u044c \u0437\u0435\u043b\u0435\u043d\u044b\u0435, <strong>\u0438<\/strong> \u0432\u0441\u0435 \u0440\u0430\u043d\u0435\u0435 \u0437\u0435\u043b\u0435\u043d\u044b\u0435 (<code>PASS_TO_PASS<\/code>) \u043e\u0441\u0442\u0430\u043b\u0438\u0441\u044c \u0437\u0435\u043b\u0435\u043d\u044b\u043c\u0438 \u2013 \u0444\u0438\u043a\u0441 \u0434\u043e\u043b\u0436\u0435\u043d \u043e\u0442\u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u0438 \u043d\u0438\u0447\u0435\u0433\u043e \u043d\u0435 \u0441\u043b\u043e\u043c\u0430\u0442\u044c. \u041d\u0438\u043a\u0430\u043a\u043e\u0433\u043e \u0441\u0443\u0434\u044c\u0438, \u043d\u0438\u043a\u0430\u043a\u043e\u0433\u043e string-match. \u0422\u043e \u0436\u0435 \u0441\u0430\u043c\u043e\u0435 \u0434\u0435\u043b\u0430\u044e\u0442 <a href=\"https:\/\/arxiv.org\/abs\/2404.07972\" rel=\"noopener noreferrer nofollow\">OSWorld<\/a> \u043d\u0430 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u0439 \u041e\u0421 \u0438 <a href=\"https:\/\/arxiv.org\/abs\/2601.11868\" rel=\"noopener noreferrer nofollow\">Terminal-Bench<\/a> \u0432 \u0442\u0435\u0440\u043c\u0438\u043d\u0430\u043b\u0435.<\/p>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/e22\/817\/2dd\/e228172dd476bcd08931edc1dc7c4e88.png\" width=\"877\" height=\"993\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/e22\/817\/2dd\/e228172dd476bcd08931edc1dc7c4e88.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/e22\/817\/2dd\/e228172dd476bcd08931edc1dc7c4e88.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u0422\u0430\u043a \u044d\u0442\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0438 \u0432 \u043f\u0440\u043e\u0434\u0435: \u0432 Gaijin Entertainment \u043d\u0430 \u043f\u0440\u043e\u0435\u043a\u0442\u0435 <a href=\"https:\/\/edenspark.io\/\" rel=\"noopener noreferrer nofollow\">EdenSpark<\/a> eval-suite \u0430\u0433\u0435\u043d\u0442\u0430 \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u0435\u0442 \u043d\u0435 \u0435\u0433\u043e \u043e\u0442\u0447\u0435\u0442, \u0430 \u0441\u0430\u043c \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u2013 \u0441\u043e\u0431\u0440\u0430\u043b\u0441\u044f \u043b\u0438 \u0430\u0440\u0442\u0435\u0444\u0430\u043a\u0442 \u0431\u0435\u0437 \u043e\u0448\u0438\u0431\u043e\u043a, \u043d\u0430 \u043c\u0435\u0441\u0442\u0435 \u043b\u0438 \u043d\u0443\u0436\u043d\u044b\u0435 \u044d\u043b\u0435\u043c\u0435\u043d\u0442\u044b \u0438 \u0441\u0432\u044f\u0437\u0438. \u0422\u0430\u043a \u043b\u043e\u0432\u044f\u0442\u0441\u044f \u0431\u0430\u0433\u0438, \u043d\u0435\u0437\u0430\u043c\u0435\u0442\u043d\u044b\u0435 \u0432 \u0442\u0435\u043a\u0441\u0442\u0435 \u043e\u0442\u0432\u0435\u0442\u0430,  \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0440\u0430\u0441\u0441\u0438\u043d\u0445\u0440\u043e\u043d \u0441\u043e\u0441\u0442\u043e\u044f\u043d\u0438\u044f (state-drift), \u043a\u043e\u0433\u0434\u0430 \u0430\u0433\u0435\u043d\u0442 \u043f\u043b\u0430\u043d\u0438\u0440\u0443\u0435\u0442 \u043f\u043e \u0441\u0432\u043e\u0435\u0439 \u043f\u0430\u043c\u044f\u0442\u0438 \u043e \u0441\u0434\u0435\u043b\u0430\u043d\u043d\u044b\u0445 \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u044f\u0445, \u0430 \u043d\u0435 \u043f\u043e \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u043c\u0443 \u0441\u043e\u0441\u0442\u043e\u044f\u043d\u0438\u044e, \u0438 \u0441\u043e \u0441\u0442\u043e\u0440\u043e\u043d\u044b \u044d\u0442\u043e \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u043a\u0430\u043a \u0441\u043b\u0430\u0431\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c, \u0445\u043e\u0442\u044f \u0434\u0435\u043b\u043e \u0432 harness.<\/p>\n<p>\u0421\u043e\u0431\u0440\u0430\u0442\u044c \u0442\u0430\u043a\u0438\u0435 \u043f\u0440\u043e\u0432\u0435\u0440\u043a\u0438 \u043f\u043e\u043c\u043e\u0433\u0430\u0435\u0442 <a href=\"https:\/\/inspect.aisi.org.uk\/\" rel=\"noopener noreferrer nofollow\">Inspect AI<\/a> \u043e\u0442 UK AISI.<\/p>\n<h3>\u0427\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442 eval \u0445\u043e\u0440\u043e\u0448\u0438\u043c<\/h3>\n<p>\u041a\u043e\u0440\u043e\u0442\u043a\u0438\u0439 \u0447\u0435\u043a\u043b\u0438\u0441\u0442 c \u043c\u043e\u0438\u043c\u0438 \u043a\u0440\u0438\u0442\u0435\u0440\u0438\u044f\u043c\u0438:<\/p>\n<ul>\n<li>\n<p><strong>Relevant<\/strong> \u2013 \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u0435\u0442 \u0442\u043e, \u043e\u0442 \u0447\u0435\u0433\u043e \u043f\u0440\u043e\u0434\u0443\u043a\u0442 \u0440\u0435\u0430\u043b\u044c\u043d\u043e \u0437\u0430\u0432\u0438\u0441\u0438\u0442.<\/p>\n<\/li>\n<li>\n<p><strong>Diagnostic<\/strong> \u2013 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u043f\u0440\u0438\u0447\u0438\u043d\u0443 \u0438 \u043c\u0435\u0441\u0442\u043e \u043f\u0440\u043e\u0432\u0430\u043b\u0430, \u0430 \u043d\u0435 \u043f\u0440\u043e\u0441\u0442\u043e pass\/fail.<\/p>\n<\/li>\n<li>\n<p><strong>Repeatable<\/strong> \u2013 \u043d\u0430 \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u043e\u043c \u0432\u0445\u043e\u0434\u0435 eval \u0434\u0430\u0435\u0442 \u0441\u0442\u0430\u0431\u0438\u043b\u044c\u043d\u044b\u0439, \u0441\u0440\u0430\u0432\u043d\u0438\u043c\u044b\u0439 \u043e\u0442 \u043f\u0440\u043e\u0433\u043e\u043d\u0430 \u043a \u043f\u0440\u043e\u0433\u043e\u043d\u0443 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442; \u0438\u043d\u0430\u0447\u0435 \u0440\u0430\u0437\u043d\u0438\u0446\u0443 \u043c\u0435\u0436\u0434\u0443 \u00ab\u0434\u043e\u00bb \u0438 \u00ab\u043f\u043e\u0441\u043b\u0435\u00bb \u043d\u0435 \u043e\u0442\u043b\u0438\u0447\u0438\u0442\u044c \u043e\u0442 \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u043e\u0433\u043e \u0440\u0430\u0437\u0431\u0440\u043e\u0441\u0430. \u041f\u043e\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u043d\u043e\u0435, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0434\u043b\u044f user-facing \u0441\u0447\u0438\u0442\u0430\u0439\u0442\u0435 \u043f\u043e <em>\u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u0438\u043c<\/em> \u043f\u0440\u043e\u0433\u043e\u043d\u0430\u043c \u2013 \u0432\u0430\u0436\u043d\u043e, \u0447\u0442\u043e\u0431\u044b \u0443\u0441\u043f\u0435\u0445 \u0431\u044b\u043b \u043a\u0430\u0436\u0434\u044b\u0439 \u0440\u0430\u0437, \u0430 \u043d\u0435 \u043e\u0434\u0438\u043d \u0440\u0430\u0437 \u0438\u0437 k (<code>pass^k<\/code> \u043f\u0440\u043e\u0442\u0438\u0432 <code>pass@k<\/code>, <a href=\"https:\/\/www.anthropic.com\/engineering\/demystifying-evals-for-ai-agents\" rel=\"noopener noreferrer nofollow\">Anthropic<\/a>).<\/p>\n<\/li>\n<li>\n<p><strong>Hard to game<\/strong> \u2013 eval \u043f\u043e\u0447\u0442\u0438 \u0432\u0441\u0435\u0433\u0434\u0430 \u0438\u0437\u043c\u0435\u0440\u044f\u0435\u0442 \u043d\u0435 \u0441\u0430\u043c\u0443 \u0446\u0435\u043b\u044c, \u0430 \u0435\u0435 proxy: \u00ab\u043e\u0442\u0432\u0435\u0442 \u043f\u043e\u043b\u0435\u0437\u0435\u043d\u00bb \u043d\u0430\u043f\u0440\u044f\u043c\u0443\u044e \u0438\u0437\u043c\u0435\u0440\u0438\u0442\u044c \u0442\u0440\u0443\u0434\u043d\u043e, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0431\u0435\u0440\u0443\u0442 \u0447\u0442\u043e \u043f\u043e\u043f\u0440\u043e\u0449\u0435 \u2013 \u00ab\u0435\u0441\u0442\u044c \u043d\u0443\u0436\u043d\u044b\u0435 \u043a\u043b\u044e\u0447\u0435\u0432\u044b\u0435 \u0441\u043b\u043e\u0432\u0430\u00bb \u0438\u043b\u0438 \u00ab\u043a\u043e\u0434 \u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u0443\u0435\u0442\u0441\u044f\u00bb. \u041f\u0440\u043e\u0431\u043b\u0435\u043c\u0430 \u0432 \u0442\u043e\u043c, \u0447\u0442\u043e proxy \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u043f\u043e\u043b\u043e\u0436\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u043c, \u0445\u043e\u0442\u044f \u0437\u0430\u0434\u0430\u0447\u0430 \u043d\u0435 \u0440\u0435\u0448\u0435\u043d\u0430: \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0430\u0431\u0435\u0440\u0435\u0442 \u043d\u0443\u0436\u043d\u044b\u0435 \u0441\u043b\u043e\u0432\u0430 \u0438\u043b\u0438 \u043d\u0430\u043f\u0438\u0448\u0435\u0442 \u043a\u043e\u0434, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u0443\u0435\u0442\u0441\u044f, \u043d\u043e \u043d\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 proxy \u0432\u0430\u0436\u043d\u043e \u0438 \u0433\u0440\u0430\u043c\u043e\u0442\u043d\u043e \u0432\u044b\u0431\u0438\u0440\u0430\u0442\u044c, \u0438 \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e \u0438\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u2013 \u043f\u043e\u043b\u043e\u0436\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0439 proxy \u0441\u0430\u043c \u043f\u043e \u0441\u0435\u0431\u0435 \u0435\u0449\u0435 \u043d\u0435 \u0437\u043d\u0430\u0447\u0438\u0442, \u0447\u0442\u043e \u0437\u0430\u0434\u0430\u0447\u0430 \u0440\u0435\u0448\u0435\u043d\u0430; \u0433\u0434\u0435 \u043c\u043e\u0436\u043d\u043e, \u0438\u0437\u043c\u0435\u0440\u044f\u0439\u0442\u0435 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043d\u0430\u043f\u0440\u044f\u043c\u0443\u044e.<\/p>\n<\/li>\n<li>\n<p><strong>Statistically honest<\/strong> \u2013 \u0441\u044b\u0440\u043e\u043c\u0443 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0443 \u0432\u0435\u0440\u0438\u0442\u044c \u043d\u0435\u043b\u044c\u0437\u044f: \u0442\u043e\u0442 \u0436\u0435 eval \u0441\u0435\u0433\u043e\u0434\u043d\u044f \u0434\u0430\u0441\u0442 85%, \u0437\u0430\u0432\u0442\u0440\u0430 80% \u0438\u0437-\u0437\u0430 \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u043e\u0441\u0442\u0438. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u043d\u0443\u0436\u043d\u043e \u0441\u043c\u043e\u0442\u0440\u0435\u0442\u044c \u043d\u0435 \u043d\u0430 \u0433\u043e\u043b\u044b\u0439 \u043f\u0440\u043e\u0446\u0435\u043d\u0442, \u0430 \u043d\u0430 \u0434\u043e\u0432\u0435\u0440\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0438\u043d\u0442\u0435\u0440\u0432\u0430\u043b \u0438 \u043d\u0430 \u0442\u043e, \u0437\u043d\u0430\u0447\u0438\u043c\u0430 \u043b\u0438 \u0440\u0430\u0437\u043d\u0438\u0446\u0430 \u043c\u0435\u0436\u0434\u0443 \u043f\u0440\u043e\u0433\u043e\u043d\u0430\u043c\u0438 \u2013 \u043a\u0430\u043a \u044d\u0442\u043e \u0441\u0447\u0438\u0442\u0430\u0442\u044c, \u043f\u043e\u0434\u0440\u043e\u0431\u043d\u043e \u0443 <a href=\"https:\/\/www.anthropic.com\/research\/statistical-approach-to-model-evals\" rel=\"noopener noreferrer nofollow\">Anthropic<\/a>.<\/p>\n<\/li>\n<li>\n<p><strong>Runnable often<\/strong> \u2013 evals \u043f\u043e\u043b\u0435\u0437\u043d\u043e \u0440\u0430\u0437\u0434\u0435\u043b\u044f\u0442\u044c \u043f\u043e \u0447\u0430\u0441\u0442\u043e\u0442\u0435 \u043f\u0440\u043e\u0433\u043e\u043d\u0430. \u041d\u043e \u043d\u0430\u0431\u043e\u0440, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0433\u043e\u043d\u044f\u0435\u0442\u0441\u044f \u043d\u0430 \u043a\u0430\u0436\u0434\u043e\u0435 \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u0435, \u0434\u043e\u043b\u0436\u0435\u043d \u0441\u043e\u0441\u0442\u043e\u044f\u0442\u044c \u0438\u0437 \u0430\u0442\u043e\u043c\u0430\u0440\u043d\u044b\u0445 \u0438 \u0437\u043d\u0430\u0447\u0438\u043c\u044b\u0445 \u043f\u0440\u043e\u0432\u0435\u0440\u043e\u043a: \u043a\u0430\u0436\u0434\u0430\u044f \u0431\u044b\u0441\u0442\u0440\u0430\u044f \u0438 \u043d\u0435\u0441\u0435\u0442 \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u0441\u0438\u0433\u043d\u0430\u043b \u2013 \u0438\u043d\u0430\u0447\u0435 \u0435\u0433\u043e \u0431\u044b\u0441\u0442\u0440\u043e \u043f\u0435\u0440\u0435\u0441\u0442\u0430\u043d\u0443\u0442 \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u0442\u044c.<\/p>\n<\/li>\n<\/ul>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/3f7\/b7b\/e86\/3f7b7be86dce2c4ef5b6d73c90ac6f14.png\" width=\"2280\" height=\"1281\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/3f7\/b7b\/e86\/3f7b7be86dce2c4ef5b6d73c90ac6f14.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/3f7\/b7b\/e86\/3f7b7be86dce2c4ef5b6d73c90ac6f14.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<p>\u041e\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u0445\u043e\u0440\u043e\u0448\u043e \u0441\u0444\u043e\u0440\u043c\u0443\u043b\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u043e\u0433\u043e eval task \u0443 Anthropic: \u0435\u0441\u043b\u0438 <a href=\"https:\/\/www.anthropic.com\/engineering\/demystifying-evals-for-ai-agents\" rel=\"noopener noreferrer nofollow\">\u0434\u0432\u0430 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430, \u0433\u043b\u044f\u0434\u044f \u043d\u0430 \u043e\u0434\u0438\u043d \u0438 \u0442\u043e\u0442 \u0436\u0435 \u043e\u0442\u0432\u0435\u0442, \u043d\u0435\u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e \u0432\u044b\u043d\u0435\u0441\u0443\u0442 \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u044b\u0439 \u0432\u0435\u0440\u0434\u0438\u043a\u0442<\/a> pass\/fail \u2013 \u0437\u043d\u0430\u0447\u0438\u0442, \u0437\u0430\u0434\u0430\u0447\u0430 \u0441\u0444\u043e\u0440\u043c\u0443\u043b\u0438\u0440\u043e\u0432\u0430\u043d\u0430 \u0445\u043e\u0440\u043e\u0448\u043e. \u0415\u0441\u043b\u0438 \u0432\u0435\u0440\u0434\u0438\u043a\u0442\u044b \u0440\u0430\u0441\u0445\u043e\u0434\u044f\u0442\u0441\u044f \u2013 \u0434\u0435\u043b\u043e \u0432 \u0444\u043e\u0440\u043c\u0443\u043b\u0438\u0440\u043e\u0432\u043a\u0435, \u0430 \u043d\u0435 \u0432 \u043e\u0446\u0435\u043d\u0438\u0432\u0430\u0435\u043c\u043e\u0439 \u0441\u0438\u0441\u0442\u0435\u043c\u0435.<\/p>\n<p>Evals \u0434\u043e\u043b\u0436\u043d\u044b \u0432\u043b\u0438\u044f\u0442\u044c \u043d\u0430 \u0438\u043d\u0436\u0435\u043d\u0435\u0440\u043d\u044b\u0435 \u0440\u0435\u0448\u0435\u043d\u0438\u044f \u043a\u043e\u043c\u0430\u043d\u0434\u044b. \u0418\u043d\u0430\u0447\u0435 \u2013 \u044d\u0442\u043e \u043f\u0440\u043e\u0441\u0442\u043e \u043a\u0440\u0430\u0441\u0438\u0432\u044b\u0439 \u0434\u0430\u0448\u0431\u043e\u0440\u0434.<\/p>\n<h3>\u041e\u0448\u0438\u0431\u043a\u0438, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043e\u0431\u0445\u043e\u0434\u044f\u0442\u0441\u044f \u0434\u043e\u0440\u043e\u0436\u0435 \u0432\u0441\u0435\u0433\u043e<\/h3>\n<p>\u0421\u0430\u043c\u044b\u0435 \u0434\u043e\u0440\u043e\u0433\u0438\u0435 \u043e\u0448\u0438\u0431\u043a\u0438 \u0432 evals \u2013 \u043d\u0435 \u0432 \u043c\u043e\u0434\u0435\u043b\u0438, \u0430 \u0432 \u0442\u043e\u043c, \u043a\u0430\u043a \u0432\u044b \u0435\u0435 \u0438\u0437\u043c\u0435\u0440\u044f\u0435\u0442\u0435 \u0438 \u043a\u0430\u043a \u0447\u0438\u0442\u0430\u0435\u0442\u0435 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b.<\/p>\n<ul>\n<li>\n<p>\u041f\u0440\u0438\u043d\u0438\u043c\u0430\u0442\u044c \u0440\u0430\u043d\u0433 \u0432 leaderboard \u0437\u0430 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u043f\u0440\u043e\u0434\u0443\u043a\u0442\u0430: \u043f\u0443\u0431\u043b\u0438\u0447\u043d\u044b\u0435 \u0442\u0435\u0441\u0442-\u0441\u0435\u0442\u044b \u0433\u043e\u0434\u0430\u043c\u0438 \u043b\u0435\u0436\u0430\u0442 \u0432 \u043e\u0442\u043a\u0440\u044b\u0442\u043e\u043c \u0434\u043e\u0441\u0442\u0443\u043f\u0435 \u0438 <a href=\"https:\/\/www.evidentlyai.com\/llm-guide\/llm-benchmarks\" rel=\"noopener noreferrer nofollow\">\u0443\u0442\u0435\u043a\u0430\u044e\u0442 \u0432 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435<\/a>, \u0442\u0430\u043a \u0447\u0442\u043e \u0432\u044b\u0441\u043e\u043a\u0438\u0439 \u0431\u0430\u043b\u043b \u043c\u043e\u0436\u0435\u0442 \u043e\u043a\u0430\u0437\u0430\u0442\u044c\u0441\u044f \u0432\u044b\u0443\u0447\u0435\u043d\u043d\u044b\u043c \u043d\u0430\u0438\u0437\u0443\u0441\u0442\u044c, \u0430 \u043d\u0435 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u0439 \u0441\u043f\u043e\u0441\u043e\u0431\u043d\u043e\u0441\u0442\u044c\u044e.<\/p>\n<\/li>\n<li>\n<p>\u041c\u0435\u0440\u0438\u0442\u044c \u0442\u043e\u043b\u044c\u043a\u043e \u0444\u0438\u043d\u0430\u043b\u044c\u043d\u044b\u0439 \u0443\u0441\u043f\u0435\u0445 \u0438 \u043d\u0435 \u0432\u0438\u0434\u0435\u0442\u044c, \u0433\u0434\u0435 \u0438\u043c\u0435\u043d\u043d\u043e \u0441\u043b\u043e\u043c\u0430\u043b\u043e\u0441\u044c. \u041c\u0435\u043d\u044f\u0442\u044c \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u044b, \u0434\u0430\u043d\u043d\u044b\u0435, \u043f\u0440\u043e\u043c\u043f\u0442 \u0438 \u043c\u043e\u0434\u0435\u043b\u044c \u0440\u0430\u0437\u043e\u043c \u2013 \u0438 \u043f\u043e\u0442\u043e\u043c \u043d\u0435 \u043f\u043e\u043d\u0438\u043c\u0430\u0442\u044c, \u0447\u0442\u043e \u0438\u0437 \u044d\u0442\u043e\u0433\u043e \u043f\u043e\u043c\u043e\u0433\u043b\u043e. <\/p>\n<\/li>\n<li>\n<p>\u0418\u0433\u043d\u043e\u0440\u0438\u0440\u043e\u0432\u0430\u0442\u044c cost \u0438 latency.<\/p>\n<\/li>\n<li>\n<p>\u0421\u043b\u0435\u043f\u043e \u0434\u043e\u0432\u0435\u0440\u044f\u0442\u044c LLM-\u0441\u0443\u0434\u044c\u0435.<\/p>\n<\/li>\n<li>\n<p><em>\u0410 \u0441\u0430\u043c\u0430\u044f \u043a\u043e\u0432\u0430\u0440\u043d\u0430\u044f<\/em> \u2013 \u044d\u0442\u043e \u043e\u0448\u0438\u0431\u043a\u0430 \u0438\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0430\u0446\u0438\u0438: \u0441\u043f\u0438\u0441\u0430\u0442\u044c \u043d\u0438\u0437\u043a\u0438\u0439 \u0431\u0430\u043b\u043b \u043d\u0430 \u00ab\u0441\u043b\u0430\u0431\u0443\u044e \u043c\u043e\u0434\u0435\u043b\u044c\u00bb, \u043a\u043e\u0433\u0434\u0430 \u043d\u0430 \u0441\u0430\u043c\u043e\u043c \u0434\u0435\u043b\u0435 \u0441\u043b\u043e\u043c\u0430\u043d \u0441\u0430\u043c eval. \u041d\u0430 CORE-Bench Opus 4.5 \u043f\u043e\u0434\u0441\u043a\u043e\u0447\u0438\u043b\u0430 <a href=\"https:\/\/www.anthropic.com\/engineering\/demystifying-evals-for-ai-agents\" rel=\"noopener noreferrer nofollow\">\u0441 42% \u0434\u043e 95%<\/a> \u043f\u043e\u0441\u043b\u0435 \u043f\u043e\u0447\u0438\u043d\u043a\u0438 grading-\u0431\u0430\u0433\u043e\u0432, \u043d\u0435\u043e\u0434\u043d\u043e\u0437\u043d\u0430\u0447\u043d\u044b\u0445 \u0444\u043e\u0440\u043c\u0443\u043b\u0438\u0440\u043e\u0432\u043e\u043a \u0438 \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u0436\u0435\u0441\u0442\u043a\u043e\u0433\u043e scoring (\u043e\u043d \u0437\u0430\u0441\u0447\u0438\u0442\u044b\u0432\u0430\u043b \u00ab96.12\u00bb \u043a\u0430\u043a \u043e\u0448\u0438\u0431\u043a\u0443, \u043a\u043e\u0433\u0434\u0430 \u0436\u0434\u0430\u043b \u00ab96.124991\u2026\u00bb) \u2013 \u0441\u0430\u043c\u0430 \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0435 \u043c\u0435\u043d\u044f\u043b\u0430\u0441\u044c. \u041f\u0440\u0435\u0436\u0434\u0435 \u0447\u0435\u043c \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u0432\u044b\u0432\u043e\u0434 \u043f\u0440\u043e \u0430\u0433\u0435\u043d\u0442\u0430, \u043f\u0440\u043e\u0432\u0435\u0440\u044c\u0442\u0435, \u043d\u0435 \u0441\u043b\u043e\u043c\u0430\u043d \u043b\u0438 \u0432\u0430\u0448 eval.<\/p>\n<\/li>\n<\/ul>\n<figure class=\"full-width \"><img decoding=\"async\" src=\"https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/ab7\/46b\/ecb\/ab746becb88cd7a031f0c2e9748ca79f.png\" width=\"2280\" height=\"1281\" sizes=\"auto, (max-width: 780px) 100vw, 50vw\" srcset=\"https:\/\/habrastorage.org\/r\/w780\/getpro\/habr\/upload_files\/ab7\/46b\/ecb\/ab746becb88cd7a031f0c2e9748ca79f.png 780w,&#10;       https:\/\/habrastorage.org\/r\/w1560\/getpro\/habr\/upload_files\/ab7\/46b\/ecb\/ab746becb88cd7a031f0c2e9748ca79f.png 781w\" loading=\"lazy\" decode=\"async\"\/><\/figure>\n<h3>Evals \u0441\u0442\u0430\u043d\u043e\u0432\u044f\u0442\u0441\u044f \u0438\u043d\u0444\u0440\u0430\u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u043e\u0439<\/h3>\n<p>\u0412 2026 evals \u2013 \u043d\u0435 research-\u0430\u0440\u0442\u0435\u0444\u0430\u043a\u0442. \u042d\u0442\u043e production-\u0438\u043d\u0444\u0440\u0430\u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0430: model selection, regression testing, \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u043f\u0440\u043e\u043c\u043f\u0442\u043e\u0432, \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u043d\u044b\u0435 \u0440\u0435\u0448\u0435\u043d\u0438\u044f, safety-\u0440\u0435\u0432\u044c\u044e, \u043e\u043f\u0442\u0438\u043c\u0438\u0437\u0430\u0446\u0438\u044f \u0441\u0442\u043e\u0438\u043c\u043e\u0441\u0442\u0438, release gates. Anthropic \u0444\u043e\u0440\u043c\u0443\u043b\u0438\u0440\u0443\u0435\u0442 \u0442\u0430\u043a: \u0432\u043b\u0430\u0434\u0435\u043d\u0438\u0435 \u0438 \u0440\u0430\u0437\u0432\u0438\u0442\u0438\u0435 evals \u0434\u043e\u043b\u0436\u043d\u043e \u0431\u044b\u0442\u044c <a href=\"https:\/\/www.anthropic.com\/engineering\/demystifying-evals-for-ai-agents\" rel=\"noopener noreferrer nofollow\">\u0442\u0430\u043a\u043e\u0439 \u0436\u0435 \u0440\u0443\u0442\u0438\u043d\u043e\u0439, \u043a\u0430\u043a \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u043a\u0430 unit-\u0442\u0435\u0441\u0442\u043e\u0432<\/a>.<\/p>\n<blockquote>\n<p>\u0412 \u0437\u0440\u0435\u043b\u044b\u0445 AI-\u043a\u043e\u043c\u0430\u043d\u0434\u0430\u0445 evals \u0441\u0442\u0430\u043d\u043e\u0432\u044f\u0442\u0441\u044f CI\/CD-\u0441\u043b\u043e\u0435\u043c.<\/p>\n<\/blockquote>\n<p>\u0412 \u043e\u0431\u044b\u0447\u043d\u043e\u0439 \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u043a\u0435 \u044d\u0442\u0443 \u0440\u043e\u043b\u044c \u0438\u0433\u0440\u0430\u044e\u0442 \u0442\u0435\u0441\u0442\u044b, \u0432 ML \u2013 validation sets. \u0414\u043b\u044f AI-\u0441\u0438\u0441\u0442\u0435\u043c \u0442\u0430\u043a\u043e\u0439 \u0441\u043b\u043e\u0439 \u0438 \u0435\u0441\u0442\u044c evals, \u0442\u043e\u043b\u044c\u043a\u043e \u0441\u043b\u043e\u0436\u043d\u0435\u0435: \u043f\u043e\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u043d\u043e\u0435, \u0441\u0440\u0435\u0434\u0430 \u0434\u0438\u043d\u0430\u043c\u0438\u0447\u0435\u0441\u043a\u0430\u044f, \u0430 \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u00ab\u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e\u00bb \u0447\u0430\u0441\u0442\u043e \u043d\u0435 \u0431\u0438\u043d\u0430\u0440\u043d\u043e \u2014 \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0438\u043c \u043d\u0443\u0436\u043d\u0430 \u0441\u0442\u0430\u0442\u0438\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0434\u0438\u0441\u0446\u0438\u043f\u043b\u0438\u043d\u0430, \u0430 \u043d\u0435 \u0431\u0438\u043d\u0430\u0440\u043d\u044b\u0439 true\/false.<\/p>\n<p>\u041f\u0440\u0438 \u044d\u0442\u043e\u043c \u0441\u0430\u043c\u0438 evals \u2013 \u0432\u0441\u0435 \u0435\u0449\u0435 \u0430\u043a\u0442\u0438\u0432\u043d\u043e \u0440\u0430\u0437\u0432\u0438\u0432\u0430\u044e\u0449\u0430\u044f\u0441\u044f \u043e\u0431\u043b\u0430\u0441\u0442\u044c, \u0438 \u0432 \u043d\u0435\u0439 \u043e\u0441\u0442\u0430\u0435\u0442\u0441\u044f \u043c\u043d\u043e\u0433\u043e \u043d\u0435\u0440\u0435\u0448\u0435\u043d\u043d\u044b\u0445 \u0432\u043e\u043f\u0440\u043e\u0441\u043e\u0432. \u0427\u0430\u0441\u0442\u044c \u0438\u0437 \u043d\u0438\u0445 \u044f \u0443\u0436\u0435 \u043d\u0430\u0437\u044b\u0432\u0430\u043b: \u043c\u043e\u0434\u0435\u043b\u0438 \u0443\u0447\u0430\u0442\u0441\u044f <a href=\"https:\/\/www.alignmentforum.org\/posts\/E9fvqHEDzfLDJTGyq\/what-is-an-evaluation-and-why-this-definition-matters\" rel=\"noopener noreferrer nofollow\">\u0437\u0430\u043c\u0435\u0447\u0430\u0442\u044c, \u0447\u0442\u043e \u0438\u0445 \u0442\u0435\u0441\u0442\u0438\u0440\u0443\u044e\u0442<\/a>, \u0438 \u043d\u0430 \u0442\u0435\u0441\u0442\u0435 \u0432\u0435\u0434\u0443\u0442 \u0441\u0435\u0431\u044f \u0438\u043d\u0430\u0447\u0435, \u0447\u0435\u043c \u0432 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u0439 \u0440\u0430\u0431\u043e\u0442\u0435; \u0430 \u0441\u0438\u0441\u0442\u0435\u043c\u0430, \u043f\u0440\u043e\u0448\u0435\u0434\u0448\u0430\u044f \u0432\u0441\u0435 behavioral-evals, <a href=\"https:\/\/www.alignmentforum.org\/posts\/uqAdqrvxqGqeBHjTP\/towards-understanding-based-safety-evaluations\" rel=\"noopener noreferrer nofollow\">\u0432\u0441\u0435 \u0435\u0449\u0435 \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u043d\u0435\u0431\u0435\u0437\u043e\u043f\u0430\u0441\u043d\u043e\u0439<\/a>, \u043a\u043e\u0433\u0434\u0430 \u0435\u0435 \u043d\u0430\u043c\u0435\u0440\u0435\u043d\u043d\u043e \u043f\u044b\u0442\u0430\u044e\u0442\u0441\u044f \u043e\u0431\u043c\u0430\u043d\u0443\u0442\u044c \u0438\u043b\u0438 \u0441\u043b\u043e\u043c\u0430\u0442\u044c (\u0434\u0436\u0435\u0439\u043b\u0431\u0440\u0435\u0439\u043a\u0438, adversarial-\u0437\u0430\u043f\u0440\u043e\u0441\u044b). \u041f\u043e\u044d\u0442\u043e\u043c\u0443 evals \u2013 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u0430\u044f \u043e\u043f\u043e\u0440\u0430, \u043d\u043e \u043d\u0430 \u043f\u043e-\u043d\u0430\u0441\u0442\u043e\u044f\u0449\u0435\u043c\u0443 \u0440\u0438\u0441\u043a\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u043a\u0435\u0439\u0441\u0430\u0445 \u0440\u0435\u0448\u0435\u043d\u0438\u0435 \u0432\u0441\u0435 \u0440\u0430\u0432\u043d\u043e \u043f\u043e\u0434\u0441\u0442\u0440\u0430\u0445\u043e\u0432\u044b\u0432\u0430\u0435\u0442 \u0436\u0438\u0432\u043e\u0439 \u0447\u0435\u043b\u043e\u0432\u0435\u043a.<\/p>\n<h3>\u0413\u043b\u0430\u0432\u043d\u043e\u0435<\/h3>\n<ol>\n<li>\n<p>\u041f\u0443\u0431\u043b\u0438\u0447\u043d\u044b\u0435 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0438 \u2013 \u0441\u0438\u0433\u043d\u0430\u043b, \u043d\u043e \u043d\u0435 \u0438\u0441\u0442\u0438\u043d\u0430: \u0432\u044b\u0441\u043e\u043a\u0438\u0439 \u0431\u0430\u043b\u043b \u0433\u043e\u0432\u043e\u0440\u0438\u0442 \u043f\u0440\u043e \u043e\u0431\u0449\u0438\u0439 \u0443\u0440\u043e\u0432\u0435\u043d\u044c \u043c\u043e\u0434\u0435\u043b\u0438, \u0430 \u043d\u0435 \u043f\u0440\u043e \u0442\u043e, \u0440\u0435\u0448\u0430\u0435\u0442 \u043b\u0438 \u0441\u0438\u0441\u0442\u0435\u043c\u0430 <em>\u0432\u0430\u0448\u0438<\/em> \u0437\u0430\u0434\u0430\u0447\u0438.<\/p>\n<\/li>\n<li>\n<p>\u0418\u0437\u043c\u0435\u0440\u044f\u0439\u0442\u0435 \u0432\u0441\u044e \u0441\u0438\u0441\u0442\u0435\u043c\u0443, \u0430 \u043d\u0435 \u0442\u043e\u043b\u044c\u043a\u043e \u043c\u043e\u0434\u0435\u043b\u044c.<\/p>\n<\/li>\n<li>\n<p>\u041e\u0434\u043d\u043e\u0433\u043e success rate \u043c\u0430\u043b\u043e \u2013 \u043d\u0443\u0436\u043d\u0430 \u0440\u0430\u0437\u0431\u0438\u0432\u043a\u0430, <em>\u0433\u0434\u0435 \u0438\u043c\u0435\u043d\u043d\u043e<\/em> \u0441\u043b\u043e\u043c\u0430\u043b\u043e\u0441\u044c.<\/p>\n<\/li>\n<li>\n<p>LLM-as-judge \u043f\u043e\u043b\u0435\u0437\u0435\u043d, \u043d\u043e \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u0439\u0442\u0435, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0435\u0433\u043e \u043e\u0446\u0435\u043d\u043a\u0438 \u0441\u043e\u0432\u043f\u0430\u0434\u0430\u044e\u0442 \u0441 \u0447\u0435\u043b\u043e\u0432\u0435\u0447\u0435\u0441\u043a\u0438\u043c\u0438.<\/p>\n<\/li>\n<li>\n<p>\u0414\u043b\u044f \u0430\u0433\u0435\u043d\u0442\u043e\u0432 \u043e\u0446\u0435\u043d\u0438\u0432\u0430\u0439\u0442\u0435 \u043f\u043e \u0444\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u043c\u0443 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0443, \u0430 \u043d\u0435 \u043f\u043e \u0441\u043b\u043e\u0432\u0430\u043c \u0430\u0433\u0435\u043d\u0442\u0430.<\/p>\n<\/li>\n<li>\n<p>\u041d\u0435 \u0432\u0435\u0440\u044c\u0442\u0435 \u043e\u0434\u043d\u043e\u043c\u0443 \u043f\u0440\u043e\u0433\u043e\u043d\u0443: \u0441\u043c\u043e\u0442\u0440\u0438\u0442\u0435 \u043d\u0430 \u0434\u043e\u0432\u0435\u0440\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0438\u043d\u0442\u0435\u0440\u0432\u0430\u043b \u0438 \u043d\u0430 \u0442\u043e, \u0437\u043d\u0430\u0447\u0438\u043c\u0430 \u043b\u0438 \u0440\u0430\u0437\u043d\u0438\u0446\u0430.<\/p>\n<\/li>\n<li>\n<p>\u0425\u043e\u0440\u043e\u0448\u0438\u0439 eval \u0434\u0438\u0430\u0433\u043d\u043e\u0441\u0442\u0438\u0447\u0435\u043d \u0438 \u0432\u043b\u0438\u044f\u0435\u0442 \u043d\u0430 \u0440\u0435\u0448\u0435\u043d\u0438\u0435 \u2013 \u0438\u043d\u0430\u0447\u0435 \u044d\u0442\u043e \u043f\u0440\u043e\u0441\u0442\u043e \u0434\u0430\u0448\u0431\u043e\u0440\u0434.<\/p>\n<\/li>\n<li>\n<p>\u041e\u0442\u043d\u043e\u0441\u0438\u0442\u0435\u0441\u044c \u043a evals \u043a\u0430\u043a \u043a \u0438\u043d\u0444\u0440\u0430\u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0435: \u0432\u043b\u0430\u0434\u0435\u0439\u0442\u0435 \u0438\u043c\u0438, \u043a\u0430\u043a \u0442\u0435\u0441\u0442\u0430\u043c\u0438.<\/p>\n<\/li>\n<\/ol>\n<p>\u0418\u043d\u0436\u0435\u043d\u0435\u0440\u044b, \u0443\u043c\u0435\u044e\u0449\u0438\u0435 \u0441\u0442\u0440\u043e\u0438\u0442\u044c \u043d\u0430\u0434\u0435\u0436\u043d\u044b\u0435 evals, \u0432 2026 \u043f\u043e\u043b\u0443\u0447\u0430\u0442 \u043f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u043e. \u0414\u043e\u0441\u0442\u0443\u043f \u043a \u043b\u0443\u0447\u0448\u0438\u043c \u043c\u043e\u0434\u0435\u043b\u044f\u043c \u0442\u0443\u0442 \u043d\u0438 \u043f\u0440\u0438 \u0447\u0435\u043c \u2013 \u043e\u043d \u0443 \u0432\u0441\u0435\u0445 \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u044b\u0439. \u0420\u0435\u0448\u0430\u0435\u0442 \u0443\u043c\u0435\u043d\u0438\u0435 \u0438\u0437\u043c\u0435\u0440\u0438\u0442\u044c \u0441\u0432\u043e\u044e \u0441\u0438\u0441\u0442\u0435\u043c\u0443 \u0438 \u043f\u043e\u043d\u044f\u0442\u044c, \u043f\u043e\u0447\u0435\u043c\u0443 \u043e\u043d\u0430 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442.<\/p>\n<hr\/>\n<p><em>\u042f \u0410\u0440\u0442\u0435\u043c \u0422\u0430\u0440\u0430\u0441\u043e\u0432, \u043f\u0438\u0448\u0443 \u043f\u0440\u043e evals: \u043a\u0430\u043a \u0438\u0437\u043c\u0435\u0440\u044f\u0442\u044c AI-\u0441\u0438\u0441\u0442\u0435\u043c\u044b, \u043f\u043e\u043d\u0438\u043c\u0430\u0442\u044c, \u0433\u0434\u0435 \u043e\u043d\u0438 \u043b\u043e\u043c\u0430\u044e\u0442\u0441\u044f, \u0438 \u0434\u0435\u0440\u0436\u0430\u0442\u044c \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u043f\u043e\u0434 \u043a\u043e\u043d\u0442\u0440\u043e\u043b\u0435\u043c. \u0415\u0441\u043b\u0438 \u0432\u0430\u0448\u0435\u0439 \u043a\u043e\u043c\u043f\u0430\u043d\u0438\u0438 \u044d\u0442\u043e \u043d\u0443\u0436\u043d\u043e \u0443\u0436\u0435 \u0441\u0435\u0433\u043e\u0434\u043d\u044f \u2014 \u044f \u043a\u043e\u043d\u0441\u0443\u043b\u044c\u0442\u0438\u0440\u0443\u044e \u043a\u043e\u043c\u0430\u043d\u0434\u044b \u043f\u043e \u043f\u0440\u043e\u0435\u043a\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044e \u0438 \u0432\u043d\u0435\u0434\u0440\u0435\u043d\u0438\u044e evals \u0432 production. \u041f\u0438\u0448\u0438\u0442\u0435 \u0441\u044e\u0434\u0430 \u0438\u043b\u0438 \u0432 <\/em><a href=\"https:\/\/www.linkedin.com\/in\/artarasov\" rel=\"noopener noreferrer nofollow\"><em>LinkedIn<\/em><\/a><em>.<\/em><\/p>\n<h3>\u0418\u0441\u0442\u043e\u0447\u043d\u0438\u043a\u0438<\/h3>\n<ul>\n<li>\n<p><a href=\"https:\/\/arxiv.org\/html\/2602.16666v1\" rel=\"noopener noreferrer nofollow\">Towards a Science of AI Agent Reliability<\/a> \u2014 4 \u0438\u0437\u043c\u0435\u0440\u0435\u043d\u0438\u044f \u043d\u0430\u0434\u0435\u0436\u043d\u043e\u0441\u0442\u0438; \u00ab\u043d\u0430\u0434\u0435\u0436\u043d\u043e\u0441\u0442\u044c \u043e\u0442\u0441\u0442\u0430\u0435\u0442 \u043e\u0442 \u0441\u043f\u043e\u0441\u043e\u0431\u043d\u043e\u0441\u0442\u0435\u0439\u00bb \u0437\u0430 18 \u043c\u0435\u0441\u044f\u0446\u0435\u0432 \u0440\u0435\u043b\u0438\u0437\u043e\u0432; \u043a\u0430\u0442\u0430\u043b\u043e\u0433 \u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0445 \u043f\u0440\u043e\u0432\u0430\u043b\u043e\u0432 (Replit, Operator, \u0447\u0430\u0442\u0431\u043e\u0442 NYC) \u0441 \u0442\u0438\u043f\u0438\u0437\u0430\u0446\u0438\u0435\u0439.<\/p>\n<\/li>\n<li>\n<p>\u0420\u0435\u0430\u043b\u044c\u043d\u044b\u0435 \u0438\u043d\u0446\u0438\u0434\u0435\u043d\u0442\u044b (\u043f\u0435\u0440\u0432\u043e\u0438\u0441\u0442\u043e\u0447\u043d\u0438\u043a\u0438): <a href=\"https:\/\/www.theregister.com\/2025\/07\/21\/replit_saastr_vibe_coding_incident\/\" rel=\"noopener noreferrer nofollow\">Replit \u0443\u0434\u0430\u043b\u0438\u043b prod-\u0431\u0430\u0437\u0443 \u2014 The Register<\/a> \u00b7 <a href=\"https:\/\/www.washingtonpost.com\/technology\/2025\/02\/07\/openai-operator-ai-agent-chatgpt\/\" rel=\"noopener noreferrer nofollow\">Operator \u0438 \u043f\u043e\u043a\u0443\u043f\u043a\u0430 \u043d\u0430 $31.43 \u2014 Washington Post<\/a> \u00b7 <a href=\"https:\/\/themarkup.org\/news\/2024\/03\/29\/nycs-ai-chatbot-tells-businesses-to-break-the-law\" rel=\"noopener noreferrer nofollow\">\u0447\u0430\u0442\u0431\u043e\u0442 NYC \u0441\u043e\u0432\u0435\u0442\u0443\u0435\u0442 \u043d\u0430\u0440\u0443\u0448\u0430\u0442\u044c \u0437\u0430\u043a\u043e\u043d \u2014 The Markup<\/a>.<\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/www.anthropic.com\/engineering\/demystifying-evals-for-ai-agents\" rel=\"noopener noreferrer nofollow\">Anthropic \u2014 Demystifying Evals for AI Agents<\/a> \u2014 \u043e\u043f\u043e\u0440\u043d\u044b\u0439 \u0433\u0430\u0439\u0434: capability vs regression, <code>pass^k<\/code>, \u00ab\u0434\u0432\u0430 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430\u00bb, 0%\/100% \u043a\u0430\u043a \u0441\u0438\u0433\u043d\u0430\u043b, \u043a\u0435\u0439\u0441 CORE-Bench 42\u219295%.<\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/www.anthropic.com\/research\/statistical-approach-to-model-evals\" rel=\"noopener noreferrer nofollow\">Anthropic \u2014 A Statistical Approach to Model Evaluations<\/a> \u2014 \u0434\u043e\u0432\u0435\u0440\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0435 \u0438\u043d\u0442\u0435\u0440\u0432\u0430\u043b\u044b, clustered errors \u00d73.<\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/alignment.anthropic.com\/2025\/bloom-auto-evals\/\" rel=\"noopener noreferrer nofollow\">Anthropic \u2014 Bloom: Automated Behavioral Evaluations<\/a> \u2014 \u043a\u0430\u043b\u0438\u0431\u0440\u043e\u0432\u043a\u0430 \u0441\u0443\u0434\u044c\u0438 (Spearman 0.86), evaluation awareness.<\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/openai.com\/index\/evals-drive-next-chapter-of-ai\/\" rel=\"noopener noreferrer nofollow\">OpenAI \u2014 How Evals Drive the Next Chapter in AI<\/a> \u2014 golden set, \u00abhard to copy\u00bb, evals \u0434\u043e\u043f\u043e\u043b\u043d\u044f\u044e\u0442 A\/B.<\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/github.com\/SWE-bench\/SWE-bench\" rel=\"noopener noreferrer nofollow\">SWE-bench<\/a> \u00b7 <a href=\"https:\/\/arxiv.org\/abs\/2404.07972\" rel=\"noopener noreferrer nofollow\">OSWorld<\/a> \u00b7 <a href=\"https:\/\/arxiv.org\/abs\/2601.11868\" rel=\"noopener noreferrer nofollow\">Terminal-Bench 2.0<\/a> \u00b7 <a href=\"https:\/\/arxiv.org\/abs\/2506.07982\" rel=\"noopener noreferrer nofollow\">\u03c4\u00b2-bench<\/a> \u00b7 <a href=\"https:\/\/arxiv.org\/abs\/2602.00933\" rel=\"noopener noreferrer nofollow\">MCP-Atlas<\/a> \u2014 execution-based \u0438 \u0430\u0433\u0435\u043d\u0442\u043d\u044b\u0435 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0438.<\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/www.evidentlyai.com\/llm-guide\/llm-benchmarks\" rel=\"noopener noreferrer nofollow\">Evidently AI \u2014 30 LLM Benchmarks<\/a> \u2014 \u043a\u043e\u043d\u0442\u0430\u043c\u0438\u043d\u0430\u0446\u0438\u044f \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u043e\u0432.<\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/huggingface.co\/spaces\/OpenEvals\/evaluation-guidebook\" rel=\"noopener noreferrer nofollow\">HF \u2014 LLM Evaluation Guidebook<\/a> \u2014 biases \u0441\u0443\u0434\u044c\u0438. <a href=\"https:\/\/learn.microsoft.com\/en-us\/azure\/ai-foundry\/openai\/concepts\/red-teaming\" rel=\"noopener noreferrer nofollow\">Microsoft \u2014 Planning Red Teaming<\/a> \u2014 red-teaming \u043a\u0430\u043a identification, \u043d\u0435 measurement.<\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/inspect.aisi.org.uk\/\" rel=\"noopener noreferrer nofollow\">Inspect AI (UK AISI)<\/a> \u2014 \u0444\u0440\u0435\u0439\u043c\u0432\u043e\u0440\u043a (Task\/Solver\/Scorer).<\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/www.alignmentforum.org\/posts\/E9fvqHEDzfLDJTGyq\/what-is-an-evaluation-and-why-this-definition-matters\" rel=\"noopener noreferrer nofollow\">What Is an Evaluation (Ivanov)<\/a> \u00b7 <a href=\"https:\/\/www.alignmentforum.org\/posts\/uqAdqrvxqGqeBHjTP\/towards-understanding-based-safety-evaluations\" rel=\"noopener noreferrer nofollow\">Understanding-Based Safety Evals (Hubinger)<\/a> \u2014 \u043f\u0440\u0435\u0434\u0435\u043b\u044b behavioral-evals.<\/p>\n<\/li>\n<\/ul>\n<\/div>\n<p>\u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/1050736\/\">https:\/\/habr.com\/ru\/articles\/1050736\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u0412 \u0438\u044e\u043b\u0435 2025 coding-\u0430\u0433\u0435\u043d\u0442 \u0432 Replit \u043f\u0440\u043e\u0438\u0433\u043d\u043e\u0440\u0438\u0440\u043e\u0432\u0430\u043b \u044f\u0432\u043d\u044b\u0439 \u0437\u0430\u043f\u0440\u0435\u0442 \u043d\u0430 \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u0444\u0430\u0439\u043b\u043e\u0432 (code-freeze) \u0438 \u0443\u0434\u0430\u043b\u0438\u043b production-\u0431\u0430\u0437\u0443 \u2013 \u0434\u0430\u043d\u043d\u044b\u0435 \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e 1200 \u043a\u043e\u043c\u043f\u0430\u043d\u0438\u0439, \u043f\u043e\u0437\u0436\u0435 \u0437\u0430\u044f\u0432\u0438\u0432, \u0447\u0442\u043e \u00ab\u0441\u0434\u0435\u043b\u0430\u043b \u043a\u0430\u0442\u0430\u0441\u0442\u0440\u043e\u0444\u0438\u0447\u0435\u0441\u043a\u0443\u044e \u043e\u0448\u0438\u0431\u043a\u0443\u00bb. Operator \u043e\u0442 OpenAI, \u043a\u043e\u0442\u043e\u0440\u043e\u0433\u043e \u043f\u043e\u043f\u0440\u043e\u0441\u0438\u043b\u0438 \u0432\u0441\u0435\u0433\u043e \u043b\u0438\u0448\u044c \u043d\u0430\u0439\u0442\u0438 \u0434\u0435\u0448\u0435\u0432\u044b\u0435 \u044f\u0439\u0446\u0430, \u0441\u0430\u043c \u043a\u0443\u043f\u0438\u043b \u0438\u0445 \u043d\u0430 Instacart \u043d\u0430 $31.43 \u2013 \u0432 \u043e\u0431\u0445\u043e\u0434 \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u0433\u043e \u043f\u043e\u0434\u0442\u0432\u0435\u0440\u0436\u0434\u0435\u043d\u0438\u044f \u043f\u043e\u043a\u0443\u043f\u043a\u0438. \u041e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u0439 \u0447\u0430\u0442\u0431\u043e\u0442 \u043c\u044d\u0440\u0438\u0438 \u041d\u044c\u044e-\u0419\u043e\u0440\u043a\u0430 \u0441\u043e\u0432\u0435\u0442\u043e\u0432\u0430\u043b \u043f\u0440\u0435\u0434\u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0442\u0435\u043b\u044f\u043c \u043d\u0430\u0440\u0443\u0448\u0430\u0442\u044c \u0437\u0430\u043a\u043e\u043d: \u0433\u043e\u0432\u043e\u0440\u0438\u043b, \u0447\u0442\u043e \u043c\u043e\u0436\u043d\u043e \u0437\u0430\u0431\u0438\u0440\u0430\u0442\u044c \u0447\u0430\u0435\u0432\u044b\u0435 \u0440\u0430\u0431\u043e\u0442\u043d\u0438\u043a\u043e\u0432 \u0438 \u043e\u0442\u043a\u0430\u0437\u044b\u0432\u0430\u0442\u044c \u0430\u0440\u0435\u043d\u0434\u0430\u0442\u043e\u0440\u0430\u043c \u0441 \u0436\u0438\u043b\u0438\u0449\u043d\u044b\u043c\u0438 \u0432\u0430\u0443\u0447\u0435\u0440\u0430\u043c\u0438 Section 8. \u042d\u0442\u0438 \u0438 \u0434\u0440\u0443\u0433\u0438\u0435 \u0438\u043d\u0446\u0438\u0434\u0435\u043d\u0442\u044b \u0441\u0432\u0435\u0434\u0435\u043d\u044b \u0432 \u043e\u0431\u0437\u043e\u0440\u0435 \u00abTowards a Science of AI Agent Reliability\u00bb, \u0433\u0434\u0435 \u043a\u0430\u0436\u0434\u044b\u0439 \u0440\u0430\u0437\u0434\u0435\u043b\u0435\u043d \u043f\u043e \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0443 \u0441\u0431\u043e\u044f: \u0442\u044f\u0436\u0435\u0441\u0442\u044c \u0432\u0440\u0435\u0434\u0430, \u043d\u0430\u0440\u0443\u0448\u0435\u043d\u0438\u0435 \u043f\u043e\u043b\u043d\u043e\u043c\u043e\u0447\u0438\u0439, \u043f\u043b\u043e\u0445\u0430\u044f \u043a\u0430\u043b\u0438\u0431\u0440\u043e\u0432\u043a\u0430.\u041d\u0438 \u043e\u0434\u0438\u043d \u0438\u0437 \u044d\u0442\u0438\u0445 \u0441\u043b\u0443\u0447\u0430\u0435\u0432 \u043d\u0435 \u0432\u0441\u043f\u043b\u044b\u043b \u0431\u044b \u0432 \u043e\u0431\u044b\u0447\u043d\u043e\u043c \u0434\u0435\u043c\u043e. \u0418 \u043d\u0438 \u043e\u0434\u0438\u043d \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a \u043f\u0440\u043e \u043d\u0438\u0445 \u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u0431\u044b \u043d\u0435 \u043f\u0440\u0435\u0434\u0443\u043f\u0440\u0435\u0434\u0438\u043b.\u041f\u0443\u0431\u043b\u0438\u0447\u043d\u044b\u0435 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0438 \u043f\u043e\u043b\u0435\u0437\u043d\u044b \u2013 \u043f\u043e \u043d\u0438\u043c \u0432\u0438\u0434\u043d\u043e, \u043a\u0430\u043a\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u0432 \u0446\u0435\u043b\u043e\u043c \u0441\u0438\u043b\u044c\u043d\u0435\u0435 \u0438 \u043a\u0443\u0434\u0430 \u0434\u0432\u0438\u0436\u0435\u0442\u0441\u044f \u0444\u0440\u043e\u043d\u0442\u0438\u0440. \u041d\u043e \u043e\u043d\u0438 \u043e\u0442\u0432\u0435\u0447\u0430\u044e\u0442 \u043d\u0430 \u0434\u0440\u0443\u0433\u043e\u0439 \u0432\u043e\u043f\u0440\u043e\u0441. \u0412\u044b\u0441\u043e\u043a\u0438\u0439 \u0431\u0430\u043b\u043b \u043d\u0430 \u043b\u0438\u0434\u0435\u0440\u0431\u043e\u0440\u0434\u0435 \u043d\u0435 \u0433\u043e\u0432\u043e\u0440\u0438\u0442, \u0441\u043f\u0440\u0430\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u043b\u0438 \u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u0441 \u0432\u0430\u0448\u0438\u043c\u0438 \u0437\u0430\u0434\u0430\u0447\u0430\u043c\u0438: \u0434\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u043d\u0443\u0436\u043d\u044b \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0435 evals \u0438 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0438 \u043f\u043e\u0434 \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u044b\u0435 \u0437\u0430\u0434\u0430\u0447\u0438. \u0410 \u0447\u0430\u0441\u0442\u044c \u0430\u0441\u043f\u0435\u043a\u0442\u043e\u0432 \u2013 \u0431\u0435\u0437\u043e\u043f\u0430\u0441\u043d\u043e\u0441\u0442\u044c, \u0443\u0441\u0442\u043e\u0439\u0447\u0438\u0432\u043e\u0441\u0442\u044c \u043a \u0437\u043b\u043e\u0443\u043f\u043e\u0442\u0440\u0435\u0431\u043b\u0435\u043d\u0438\u044f\u043c, \u043f\u043e\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u043f\u043e\u0434 \u0430\u0442\u0430\u043a\u043e\u0439 \u2013 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u043e\u043c \u0432 \u043f\u0440\u0438\u043d\u0446\u0438\u043f\u0435 \u043d\u0435 \u0438\u0437\u043c\u0435\u0440\u0438\u0442\u044c; \u0432 \u044d\u0442\u0438\u0445 \u0441\u043b\u0443\u0447\u0430\u044f\u0445 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 red-teaming. \u0421\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u0430\u044f AI-\u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u2013 \u044d\u0442\u043e \u043c\u043e\u0434\u0435\u043b\u044c \u0432 \u0441\u0438\u043c\u0431\u0438\u043e\u0437\u0435 \u0441 retrieval, tools, memory, routing, prompts, state, permissions. \u0412\u044b \u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0435\u043d\u043d\u044b \u0437\u0430 \u0432\u0441\u044e \u0441\u0438\u0441\u0442\u0435\u043c\u0443 \u0438 \u0445\u043e\u0442\u0438\u0442\u0435 \u043f\u043e\u043d\u0438\u043c\u0430\u0442\u044c, \u043a\u0430\u043a \u0445\u043e\u0440\u043e\u0448\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0438\u043c\u0435\u043d\u043d\u043e \u043e\u043d\u0430, \u0432 \u0442\u043e \u0432\u0440\u0435\u043c\u044f \u043a\u0430\u043a \u043f\u0443\u0431\u043b\u0438\u0447\u043d\u044b\u0439 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a \u0438\u0437\u043c\u0435\u0440\u044f\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u043c\u043e\u0434\u0435\u043b\u044c.\u042d\u0442\u0430 \u0441\u0442\u0430\u0442\u044c\u044f \u043e\u043f\u0438\u0441\u044b\u0432\u0430\u0435\u0442:\u0447\u0442\u043e \u043a\u0430\u0436\u0434\u043e\u043c\u0443 AI-\u0438\u043d\u0436\u0435\u043d\u0435\u0440\u0443 \u0441\u0442\u043e\u0438\u0442 \u043f\u043e\u043d\u0438\u043c\u0430\u0442\u044c \u043f\u0440\u043e evals \u0432 2026\u043f\u043e\u0447\u0435\u043c\u0443 \u044d\u0442\u043e \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u0441\u044f \u043e\u0434\u043d\u0438\u043c \u0438\u0437 \u0441\u0430\u043c\u044b\u0445 \u0446\u0435\u043d\u043d\u044b\u0445 \u043d\u0430\u0432\u044b\u043a\u043e\u0432 \u043d\u0430 \u0440\u044b\u043d\u043a\u0435\u041f\u043e\u0447\u0435\u043c\u0443 \u044d\u0442\u0438\u043c \u0441\u0442\u043e\u0438\u0442 \u0437\u0430\u043d\u044f\u0442\u044c\u0441\u044f \u0438\u043c\u0435\u043d\u043d\u043e \u0441\u0435\u0439\u0447\u0430\u0441AI \u0441\u0438\u0441\u0442\u0435\u043c \u0441\u0442\u0430\u043b\u043e \u043c\u043d\u043e\u0433\u043e, \u0438 \u043e\u043d\u0438 \u043c\u0430\u0441\u0441\u043e\u0432\u043e \u043f\u043e\u0448\u043b\u0438 \u0432 \u043f\u0440\u043e\u0434. \u0411\u0438\u0437\u043d\u0435\u0441\u0443 \u0442\u0435\u043f\u0435\u0440\u044c \u0432\u0430\u0436\u043d\u043e \u043d\u0435 \u0442\u043e, \u043a\u0430\u043a \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u0434\u0435\u043c\u043e, \u0430 \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u044c \u0438\u0437\u043c\u0435\u0440\u0438\u0442\u044c AI \u043f\u0440\u043e\u0434\u0443\u043a\u0442 \u0438 \u0441\u043f\u0440\u043e\u0433\u043d\u043e\u0437\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0435\u0433\u043e \u0440\u043e\u0441\u0442 \u2013 \u0438\u043d\u0430\u0447\u0435 \u043d\u0435\u043f\u043e\u043d\u044f\u0442\u043d\u043e, \u0432\u043e \u0447\u0442\u043e \u0432\u043a\u043b\u0430\u0434\u044b\u0432\u0430\u0442\u044c\u0441\u044f \u0438 \u0447\u0442\u043e \u043e\u0431\u0435\u0449\u0430\u0442\u044c \u043a\u043b\u0438\u0435\u043d\u0442\u0430\u043c. \u0411\u0435\u0437 evals \u044d\u0442\u043e\u0433\u043e \u043d\u0435 \u0441\u0434\u0435\u043b\u0430\u0442\u044c. \u0427\u0435\u0442\u044b\u0440\u0435 \u043f\u0440\u0438\u0447\u0438\u043d\u044b, \u043f\u043e\u0447\u0435\u043c\u0443 \u0437\u0430\u043d\u044f\u0442\u044c\u0441\u044f \u0438\u043c\u0438 \u0441\u0442\u043e\u0438\u0442 \u0443\u0436\u0435 \u0441\u0435\u0439\u0447\u0430\u0441:\u0410\u0433\u0435\u043d\u0442\u044b \u043f\u0435\u0440\u0435\u0441\u0442\u0430\u043b\u0438 \u043e\u0442\u0432\u0435\u0447\u0430\u0442\u044c \u0438 \u043d\u0430\u0447\u0430\u043b\u0438 \u0434\u0435\u0439\u0441\u0442\u0432\u043e\u0432\u0430\u0442\u044c. \u0420\u0430\u043d\u044c\u0448\u0435 \u043f\u043b\u043e\u0445\u043e\u0439 \u043e\u0442\u0432\u0435\u0442 \u0431\u044b\u043b \u043f\u043e\u0433\u0440\u0435\u0448\u043d\u043e\u0441\u0442\u044c\u044e \u2013 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044c \u0435\u0433\u043e \u0438\u0433\u043d\u043e\u0440\u0438\u0440\u043e\u0432\u0430\u043b. \u0422\u0435\u043f\u0435\u0440\u044c \u0446\u0435\u043d\u0430 \u043e\u0448\u0438\u0431\u043a\u0438 \u0441\u0442\u0430\u043b\u0430 \u043c\u0430\u0442\u0435\u0440\u0438\u0430\u043b\u044c\u043d\u043e\u0439. \u0421\u0438\u0441\u0442\u0435\u043c\u0430 \u043f\u0438\u0448\u0435\u0442 \u043a\u043e\u0434, \u0442\u0440\u0430\u0442\u0438\u0442 \u0434\u0435\u043d\u044c\u0433\u0438, \u0445\u043e\u0434\u0438\u0442 \u0432 \u043f\u0440\u043e\u0434, \u0434\u0435\u0440\u0433\u0430\u0435\u0442 \u0447\u0443\u0436\u0438\u0435 API. \u0414\u0435\u043f\u043b\u043e\u0438\u0442\u044c \u0434\u0435\u0439\u0441\u0442\u0432\u0443\u044e\u0449\u0435\u0433\u043e \u0430\u0433\u0435\u043d\u0442\u0430 \u0431\u0435\u0437 evals \u2013 \u0434\u0435\u043f\u043b\u043e\u0438\u0442\u044c \u0435\u0433\u043e \u0432\u0441\u043b\u0435\u043f\u0443\u044e.Vibes \u043d\u0435 \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u0443\u044e\u0442\u0441\u044f. \u00ab\u041d\u0430 \u0434\u0435\u043c\u043e \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u0445\u043e\u0440\u043e\u0448\u043e\u00bb \u2013 \u044d\u0442\u043e \u0432\u044b\u0432\u043e\u0434 \u043f\u043e \u043f\u0430\u0440\u0435-\u0442\u0440\u043e\u0439\u043a\u0435 \u043f\u0440\u0438\u043c\u0435\u0440\u043e\u0432, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0432\u044b \u043f\u0440\u043e\u043a\u043b\u0438\u043a\u0430\u043b\u0438 \u0440\u0443\u043a\u0430\u043c\u0438. \u0412 \u043f\u0440\u043e\u0434\u0435 \u0447\u0435\u0440\u0435\u0437 \u0441\u0438\u0441\u0442\u0435\u043c\u0443 \u043f\u0440\u043e\u0445\u043e\u0434\u044f\u0442 \u0442\u044b\u0441\u044f\u0447\u0438 \u0440\u0430\u0437\u043d\u044b\u0445 \u0437\u0430\u043f\u0440\u043e\u0441\u043e\u0432, \u0438 \u0433\u043b\u0430\u0437\u0430\u043c\u0438 \u0443\u0436\u0435 \u043d\u0435 \u043f\u043e\u043d\u044f\u0442\u044c, \u0441\u0442\u0430\u043b\u043e \u043b\u0438 \u043b\u0443\u0447\u0448\u0435 \u043f\u043e\u0441\u043b\u0435 \u0441\u043c\u0435\u043d\u044b \u043f\u0440\u043e\u043c\u043f\u0442\u0430, \u043c\u043e\u0434\u0435\u043b\u0438 \u0438\u043b\u0438 retrieval. \u0411\u0435\u0437 evals \u043b\u044e\u0431\u043e\u0435 \u0443\u043b\u0443\u0447\u0448\u0435\u043d\u0438\u0435 \u2013 \u044d\u0442\u043e \u0432\u0435\u0440\u0430, \u0430 \u043d\u0435 \u0437\u043d\u0430\u043d\u0438\u0435.\u042d\u0442\u043e \u0434\u0435\u0444\u0438\u0446\u0438\u0442\u043d\u044b\u0439 \u043d\u0430\u0432\u044b\u043a, \u0438 \u043e\u043d \u043d\u0435 \u043f\u0440\u0438\u0432\u044f\u0437\u0430\u043d \u043a \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u0443. \u0412\u044b\u0437\u0432\u0430\u0442\u044c LLM \u0443\u043c\u0435\u0435\u0442 \u043a\u0430\u0436\u0434\u044b\u0439, \u0430 \u0432\u043e\u0442 \u043e\u0442\u043b\u0438\u0447\u0438\u0442\u044c \u0441\u0438\u0441\u0442\u0435\u043c\u0443, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0440\u0435\u0448\u0430\u0435\u0442 \u0437\u0430\u0434\u0430\u0447\u0443, \u043e\u0442 \u0442\u043e\u0439, \u0447\u0442\u043e \u043b\u0438\u0448\u044c \u0432\u044b\u0434\u0430\u0435\u0442 \u0443\u0432\u0435\u0440\u0435\u043d\u043d\u044b\u0439, \u043d\u043e \u043d\u0435\u0432\u0435\u0440\u043d\u044b\u0439 \u043e\u0442\u0432\u0435\u0442 \u2013 \u043f\u043e\u0447\u0442\u0438 \u043d\u0438\u043a\u0442\u043e. OpenAI \u043f\u0440\u044f\u043c\u043e \u043d\u0430\u0437\u044b\u0432\u0430\u0435\u0442 eval-\u0434\u0430\u0442\u0430\u0441\u0435\u0442 \u00abdifferentiated, context-specific dataset that is hard to copy\u00bb \u2013 \u0442\u043e, \u0447\u0442\u043e \u043d\u0435 \u0441\u043a\u043e\u043f\u0438\u0440\u0443\u0435\u0448\u044c \u0432\u043c\u0435\u0441\u0442\u0435 \u0441 \u0432\u0435\u0441\u0430\u043c\u0438 \u043c\u043e\u0434\u0435\u043b\u0438 (How Evals Drive the Next Chapter in AI). \u0418 \u043e\u043d \u043d\u0435 \u0443\u0441\u0442\u0430\u0440\u0435\u0432\u0430\u0435\u0442 \u0441 \u0440\u0435\u043b\u0438\u0437\u0430\u043c\u0438: \u0434\u0435\u043b\u043e \u0432 \u043c\u0435\u0442\u043e\u0434\u043e\u043b\u043e\u0433\u0438\u0438 \u0438\u0437\u043c\u0435\u0440\u0435\u043d\u0438\u0439, \u0430 \u043d\u0435 \u0432 \u0442\u043e\u043c, \u043a\u0430\u043a\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u0441\u0435\u0433\u043e\u0434\u043d\u044f \u0432 \u0442\u043e\u043f\u0435.\u0418 \u0432 \u0441\u043b\u0435\u0434 \u0437\u0430 \u0432\u0441\u0435\u043c \u044d\u0442\u0438\u043c \u0444\u0430\u043a\u0442: \u0437\u0430 \u043f\u043e\u0441\u043b\u0435\u0434\u043d\u0438\u0435 ~18 \u043c\u0435\u0441\u044f\u0446\u0435\u0432 \u043f\u0440\u0438\u0440\u043e\u0441\u0442 \u043d\u0430\u0434\u0435\u0436\u043d\u043e\u0441\u0442\u0438 \u0437\u0430\u043c\u0435\u0442\u043d\u043e \u043e\u0442\u0441\u0442\u0430\u0435\u0442 \u043e\u0442 \u043f\u0440\u0438\u0440\u043e\u0441\u0442\u0430 \u0441\u043f\u043e\u0441\u043e\u0431\u043d\u043e\u0441\u0442\u0435\u0439 \u2013 \u043c\u043e\u0434\u0435\u043b\u0438 \u0441\u0442\u0430\u043b\u0438 \u0442\u043e\u0447\u043d\u0435\u0435, \u043d\u043e \u043d\u0435 \u043d\u0430\u0434\u0435\u0436\u043d\u0435\u0435 (Towards a Science of AI Agent Reliability).\u0418\u0437\u043c\u0435\u0440\u044f\u0442\u044c \u043d\u0430\u0434\u043e \u0441\u0438\u0441\u0442\u0435\u043c\u0443, \u0430 \u043d\u0435 \u043c\u043e\u0434\u0435\u043b\u044c\u0415\u0449\u0435 \u043d\u0435\u0434\u0430\u0432\u043d\u043e \u0432\u0441\u0435\u0445 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043e\u0432\u0430\u043b\u043e, \u043a\u0430\u043a\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u0443\u043c\u043d\u0435\u0435. \u0421\u0435\u0439\u0447\u0430\u0441 \u043a\u0443\u0434\u0430 \u0432\u0430\u0436\u043d\u0435\u0435, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u043d\u0430\u0434\u0435\u0436\u043d\u043e \u0432\u0441\u044f \u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u0434\u043e\u0432\u043e\u0434\u0438\u0442 \u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0435 \u0437\u0430\u0434\u0430\u0447\u0438 \u0434\u043e \u043a\u043e\u043d\u0446\u0430.\u0412\u043e\u0437\u044c\u043c\u0438\u0442\u0435 \u043e\u0434\u0438\u043d \u043d\u0435\u0443\u0434\u0430\u0447\u043d\u044b\u0439 \u0437\u0430\u043f\u0440\u043e\u0441: \u043c\u043e\u0434\u0435\u043b\u044c \u0432\u0441\u0435 \u043f\u043e\u043d\u044f\u043b\u0430 \u0432\u0435\u0440\u043d\u043e, retrieval \u0434\u043e\u0441\u0442\u0430\u043b \u043d\u0435 \u0442\u043e\u0442 \u0444\u0430\u0439\u043b, tool call \u0443\u043f\u0430\u043b, retry \u0438\u0441\u043f\u043e\u0440\u0442\u0438\u043b state \u2013 \u0438 \u043e\u0442\u0432\u0435\u0442 \u043e\u043a\u0430\u0437\u0430\u043b\u0441\u044f \u043d\u0435\u0432\u0435\u0440\u043d\u044b\u043c. \u041a\u0430\u0436\u0434\u044b\u0439 \u043a\u043e\u043c\u043f\u043e\u043d\u0435\u043d\u0442 \u0441\u0430\u043c \u043f\u043e \u0441\u0435\u0431\u0435 \u043e\u0442\u0440\u0430\u0431\u043e\u0442\u0430\u043b \u043d\u043e\u0440\u043c\u0430\u043b\u044c\u043d\u043e, \u0430 \u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u2013 \u043d\u0435\u0442. \u042d\u0442\u043e \u043f\u043e\u0434\u0442\u0432\u0435\u0440\u0436\u0434\u0430\u044e\u0442 \u0438 \u0431\u0435\u043d\u0447\u043c\u0430\u0440\u043a\u0438:\u03c4\u00b2-bench \u0432\u0432\u043e\u0434\u0438\u0442 dual-control: \u0430\u0433\u0435\u043d\u0442 \u0434\u043e\u043b\u0436\u0435\u043d \u043d\u0435 \u043f\u0440\u043e\u0441\u0442\u043e \u0434\u0435\u0439\u0441\u0442\u0432\u043e\u0432\u0430\u0442\u044c \u0441\u0430\u043c, \u0430 \u0432\u0435\u0441\u0442\u0438 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f. \u041d\u0430 \u043d\u043e\u0432\u043e\u043c dual-control-\u0434\u043e\u043c\u0435\u043d\u0435 (Telecom) gpt-4.1 (pass^1) \u0431\u0435\u0440\u0435\u0442 \u043b\u0438\u0448\u044c 34% \u2013 \u043f\u0440\u043e\u0442\u0438\u0432 74% \u043d\u0430 \u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u043e\u043c single-control-\u0434\u043e\u043c\u0435\u043d\u0435 Retail. \u0422\u043e\u0442 \u0436\u0435 \u043a\u043b\u0430\u0441\u0441 \u043c\u043e\u0434\u0435\u043b\u0438 \u043f\u0440\u043e\u0441\u0435\u0434\u0430\u0435\u0442 \u0442\u0430\u043c, \u0433\u0434\u0435 \u043f\u043e\u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u043a\u043e\u043e\u0440\u0434\u0438\u043d\u0430\u0446\u0438\u044f \u0441 \u0447\u0435\u043b\u043e\u0432\u0435\u043a\u043e\u043c, \u0430 \u043d\u0435 \u0447\u0438\u0441\u0442\u044b\u0439 reasoning.\u041d\u0430 MCP-Atlas (1000 \u0437\u0430\u0434\u0430\u0447, 220 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u043e\u0432) 63% \u0434\u0438\u0430\u0433\u043d\u043e\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u043f\u0440\u043e\u0432\u0430\u043b\u043e\u0432 \u043e\u043a\u0430\u0437\u0430\u043b\u0438\u0441\u044c cognitive, \u0430 \u043d\u0435 tool-call: \u043c\u043e\u0434\u0435\u043b\u044c \u0432\u044b\u0437\u0432\u0430\u043b\u0430 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u044b \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e, \u0430 \u043f\u043e\u0442\u043e\u043c \u043e\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u043b\u0430\u0441\u044c \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u0440\u0430\u043d\u043e \u0438\u043b\u0438 \u043f\u043b\u043e\u0445\u043e \u0441\u0438\u043d\u0442\u0435\u0437\u0438\u0440\u043e\u0432\u0430\u043b\u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442.\u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043e\u0434\u043d\u043e\u0439 \u0438 \u0442\u043e\u0439 \u0436\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u043c\u0435\u043d\u044f\u0435\u0442\u0441\u044f \u043d\u0430 \u0434\u0435\u0441\u044f\u0442\u043a\u0438 \u043f\u0443\u043d\u043a\u0442\u043e\u0432 \u0432 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u043e\u0441\u0442\u0438 \u043e\u0442 \u0441\u0438\u0441\u0442\u0435\u043c\u044b \u0432\u043e\u043a\u0440\u0443\u0433 \u043d\u0435\u0435. \u0417\u043d\u0430\u0447\u0438\u0442, \u0435\u0434\u0438\u043d\u0438\u0446\u0430 \u043e\u0446\u0435\u043d\u043a\u0438 \u2013 \u044d\u0442\u043e \u0441\u0438\u0441\u0442\u0435\u043c\u0430, \u0430 \u043f\u043e\u043b\u0435\u0437\u043d\u044b\u0439 \u0432\u044b\u0445\u043e\u0434 eval&#8217;\u0430 \u2013 \u043d\u0435 \u043e\u0431\u0449\u0438\u0439 pass rate, \u0430 \u0440\u0430\u0437\u0431\u0438\u0432\u043a\u0430 \u043f\u043e \u0442\u043e\u043c\u0443, \u0433\u0434\u0435 \u0438\u043c\u0435\u043d\u043d\u043e \u0441\u043b\u043e\u043c\u0430\u043b\u043e\u0441\u044c: reasoning \u0438\u043b\u0438 \u043a\u043e\u043e\u0440\u0434\u0438\u043d\u0430\u0446\u0438\u044f, tool-call \u0438\u043b\u0438 \u0441\u0438\u043d\u0442\u0435\u0437, retrieval \u0438\u043b\u0438 \u043c\u043e\u0434\u0435\u043b\u044c. \u0418\u043c\u0435\u043d\u043d\u043e \u044d\u0442\u043e \u0433\u043e\u0432\u043e\u0440\u0438\u0442 \u0432\u0430\u043c, \u0447\u0442\u043e \u0441\u0442\u043e\u0438\u0442 \u0447\u0438\u043d\u0438\u0442\u044c.Eval-\u0441\u0442\u044d\u043a, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0432\u0430\u043c \u0440\u0435\u0430\u043b\u044c\u043d\u043e \u043d\u0443\u0436\u0435\u043dEval-\u0441\u0442\u044d\u043a \u0441\u043e\u0431\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u0438\u0437 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u0438\u0445 \u0441\u043b\u043e\u0435\u0432 \u043f\u0440\u043e\u0432\u0435\u0440\u043e\u043a, \u0438 \u0443 \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0441\u0432\u043e\u0438 \u0441\u0438\u043b\u044c\u043d\u044b\u0435 \u0441\u0442\u043e\u0440\u043e\u043d\u044b \u0438 \u0441\u043b\u0435\u043f\u044b\u0435 \u0437\u043e\u043d\u044b (\u0438\u0445 \u044f \u0440\u0430\u0437\u0431\u0435\u0440\u0443 \u043d\u0438\u0436\u0435 \u043f\u043e \u043e\u0447\u0435\u0440\u0435\u0434\u0438). \u041d\u0438 \u043e\u0434\u0438\u043d \u0441\u043b\u043e\u0439 \u0432 \u043e\u0434\u0438\u043d\u043e\u0447\u043a\u0443 \u043d\u0435 \u043b\u043e\u0432\u0438\u0442 \u0432\u0441\u0435, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0438\u0445 \u043a\u043e\u043c\u0431\u0438\u043d\u0438\u0440\u0443\u044e\u0442 \u0442\u0430\u043a, \u0447\u0442\u043e\u0431\u044b \u0442\u043e, \u0447\u0442\u043e \u043f\u0440\u043e\u0441\u043a\u043e\u0447\u0438\u043b\u043e \u0441\u043a\u0432\u043e\u0437\u044c \u043e\u0434\u0438\u043d \u0441\u043b\u043e\u0439, \u043f\u043e\u0439\u043c\u0430\u043b \u0434\u0440\u0443\u0433\u043e\u0439. \u042d\u0442\u043e\u0442 \u043f\u0440\u0438\u043d\u0446\u0438\u043f \u0445\u043e\u0440\u043e\u0448\u043e \u0440\u0430\u0437\u043e\u0431\u0440\u0430\u043d \u0432 \u0438\u043d\u0436\u0435\u043d\u0435\u0440\u043d\u043e\u043c \u0433\u0430\u0439\u0434\u0435 Anthropic \u00abDemystifying Evals for AI Agents\u00bb, \u043d\u0430 \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u044f \u043d\u0438\u0436\u0435 \u043d\u0435\u043e\u0434\u043d\u043e\u043a\u0440\u0430\u0442\u043d\u043e \u0431\u0443\u0434\u0443 \u0441\u0441\u044b\u043b\u0430\u0442\u044c\u0441\u044f.Offline evals \u043f\u0440\u043e\u0433\u043e\u043d\u044f\u0435\u0442\u0441\u044f \u0434\u043e \u0440\u0435\u043b\u0438\u0437\u0430 \u0432 CI \u2013 \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0438, \u043f\u0440\u043e\u043c\u043f\u0442\u044b, \u0430\u043f\u0433\u0440\u0435\u0439\u0434\u044b \u043c\u043e\u0434\u0435\u043b\u0438, routing, \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u043e\u0432. \u0414\u0435\u0448\u0435\u0432\u043e \u0438 \u043f\u043e\u0432\u0442\u043e\u0440\u044f\u0435\u043c\u043e. \u0422\u0443\u0442 \u0441\u0442\u043e\u0438\u0442 \u0437\u0430\u043f\u043e\u043c\u043d\u0438\u0442\u044c \u043e\u0434\u043d\u043e \u0440\u0430\u0437\u043b\u0438\u0447\u0438\u0435 \u0438\u0437 \u0442\u043e\u0433\u043e \u0436\u0435 \u0433\u0430\u0439\u0434\u0430 Anthropic: capability-evals \u0441\u0442\u0430\u0440\u0442\u0443\u044e\u0442 \u0441 \u043d\u0438\u0437\u043a\u043e\u0433\u043e pass rate, \u0430 regression-evals \u0434\u043e\u043b\u0436\u043d\u044b \u0434\u0435\u0440\u0436\u0430\u0442\u044c\u0441\u044f \u043e\u043a\u043e\u043b\u043e 100%. \u0426\u0435\u043b\u0435\u0432\u043e\u0439 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 100% \u0441\u0430\u043c \u043f\u043e \u0441\u0435\u0431\u0435 \u043f\u043e\u043b\u0435\u0437\u0435\u043d \u0442\u043e\u043b\u044c\u043a\u043e, \u0447\u0442\u043e\u0431\u044b \u043b\u043e\u0432\u0438\u0442\u044c \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0438. \u041e\u043d \u043d\u0435 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442, \u0447\u0442\u043e \u0438\u043c\u0435\u043d\u043d\u043e \u0443\u043b\u0443\u0447\u0448\u0430\u0442\u044c, \u043f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e \u0440\u0430\u0441\u0442\u0438 \u0443\u0436\u0435 \u043d\u0435\u043a\u0443\u0434\u0430.Online evals \u043f\u0440\u043e\u0433\u043e\u043d\u044f\u044e\u0442\u0441\u044f \u043d\u0430 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u043c \u0442\u0440\u0430\u0444\u0438\u043a\u0435 \u2013 task completion, latency, cost, drop-off, human overrides. \u0411\u043b\u0438\u0436\u0435 \u043a \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u0441\u0442\u0438 \u0438 \u0448\u0443\u043c\u043d\u0435\u0435. \u041e\u043d\u0438 \u0434\u043e\u043f\u043e\u043b\u043d\u044f\u044e\u0442 \u043f\u0440\u043e\u0434\u0443\u043a\u0442\u043e\u0432\u044b\u0435 A\/B-\u0442\u0435\u0441\u0442\u044b \u043d\u0430 \u0436\u0438\u0432\u044b\u0445 \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u044f\u0445, \u043d\u043e \u043d\u0435 \u0437\u0430\u043c\u0435\u043d\u044f\u044e\u0442 \u0438\u0445: eval \u0438\u0437\u043c\u0435\u0440\u044f\u0435\u0442 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u043e\u0442\u0432\u0435\u0442\u043e\u0432 \u0441\u0438\u0441\u0442\u0435\u043c\u044b, \u0430 A\/B \u2013 \u0432\u043b\u0438\u044f\u043d\u0438\u0435 \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u0439 \u043d\u0430 \u043c\u0435\u0442\u0440\u0438\u043a\u0438 \u043f\u0440\u043e\u0434\u0443\u043a\u0442\u0430.Human evals \u2013 \u044d\u0442\u043e \u0441\u043b\u043e\u0439, \u0433\u0434\u0435 \u0432\u044b \u0437\u0430\u0434\u0430\u0435\u0442\u0435, \u0447\u0442\u043e \u0437\u043d\u0430\u0447\u0438\u0442 \u00ab\u0445\u043e\u0440\u043e\u0448\u043e\u00bb: usefulness, \u044f\u0441\u043d\u043e\u0441\u0442\u044c, \u0432\u043a\u0443\u0441. \u0414\u043e\u0440\u043e\u0433\u043e, \u043d\u043e \u043d\u0435\u0437\u0430\u043c\u0435\u043d\u0438\u043c\u043e. OpenAI \u0441\u043e\u0432\u0435\u0442\u0443\u0435\u0442 \u0441\u043e\u0431\u0440\u0430\u0442\u044c \u043d\u0435\u0431\u043e\u043b\u044c\u0448\u043e\u0439 golden set \u0438\u0437 \u043f\u0440\u0438\u043c\u0435\u0440\u043e\u0432 \u0432\u0438\u0434\u0430 input\u2192\u0436\u0435\u043b\u0430\u0435\u043c\u044b\u0439 output \u0438 \u043e\u0442\u043d\u043e\u0441\u0438\u0442\u044c\u0441\u044f \u043a \u043d\u0435\u043c\u0443, \u043a\u0430\u043a \u043a \u0430\u0432\u0442\u043e\u0440\u0438\u0442\u0435\u0442\u043d\u043e\u043c\u0443 \u044d\u0442\u0430\u043b\u043e\u043d\u0443 \u0441\u0443\u0436\u0434\u0435\u043d\u0438\u044f \u0432\u0430\u0448\u0435\u0439 \u043a\u043e\u043c\u0430\u043d\u0434\u044b.LLM-as-judge \u043f\u043e\u043b\u0435\u0437\u0435\u043d, \u043d\u043e \u043e\u043f\u0430\u0441\u0435\u043d. \u0425\u043e\u0440\u043e\u0448 \u0434\u043b\u044f \u043f\u0435\u0440\u0432\u0438\u0447\u043d\u043e\u0439 \u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u043a\u0438, \u043f\u0440\u043e\u0432\u0435\u0440\u043e\u043a \u0441\u0442\u0438\u043b\u044f \u0438 \u0442\u043e\u043d\u0430, \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0439 \u043f\u043e \u0440\u0443\u0431\u0440\u0438\u043a\u0435, \u043e\u0431\u043e\u0431\u0449\u0435\u043d\u0438\u044f \u0442\u0438\u043f\u043e\u0432\u044b\u0445 \u043e\u0448\u0438\u0431\u043e\u043a. \u041d\u043e \u043f\u043b\u043e\u0445 \u043a\u0430\u043a \u0435\u0434\u0438\u043d\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u0438\u0441\u0442\u043e\u0447\u043d\u0438\u043a \u0438\u0441\u0442\u0438\u043d\u044b \u0434\u043b\u044f factual correctness, security, \u0442\u043e\u043d\u043a\u043e\u0439 \u043a\u043e\u0440\u0440\u0435\u043a\u0442\u043d\u043e\u0441\u0442\u0438 \u043a\u043e\u0434\u0430, \u043b\u044e\u0431\u044b\u0445 adversarial-\u0437\u0430\u0434\u0430\u0447. \u0418 \u0443 \u043d\u0435\u0433\u043e \u0435\u0441\u0442\u044c biases, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0437\u0430\u043c\u0435\u0442\u0438\u0442\u044c \u0442\u0440\u0443\u0434\u043d\u0435\u0435, \u0447\u0435\u043c \u0443 \u043b\u044e\u0434\u0435\u0439. \u0415\u0441\u043b\u0438 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0435 \u0441\u0443\u0434\u044c\u044e \u2013 \u043d\u0435 \u0434\u043e\u0432\u0435\u0440\u044f\u0439\u0442\u0435 \u0435\u043c\u0443 \u043d\u0430 \u0441\u043b\u043e\u0432\u043e, \u0430 \u0438\u0437\u043c\u0435\u0440\u044f\u0439\u0442\u0435, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0435\u0433\u043e \u043e\u0446\u0435\u043d\u043a\u0438 \u0441\u043e\u0432\u043f\u0430\u0434\u0430\u044e\u0442 \u0441 \u0447\u0435\u043b\u043e\u0432\u0435\u0447\u0435\u0441\u043a\u0438\u043c\u0438: \u0432 Bloom \u043e\u0442 Anthropic \u0441\u0443\u0434\u044c\u044e (Opus 4.1) \u0441\u0432\u0435\u0440\u0438\u043b\u0438 \u0441 \u043b\u044e\u0434\u044c\u043c\u0438 \u043d\u0430 40 \u0442\u0440\u0430\u043d\u0441\u043a\u0440\u0438\u043f\u0442\u0430\u0445 \u2013 \u043a\u043e\u0440\u0440\u0435\u043b\u044f\u0446\u0438\u044f Spearman 0.86. \u0422\u043e \u0435\u0441\u0442\u044c \u0441\u0443\u0434\u044c\u044f \u0433\u043e\u0434\u0438\u0442\u0441\u044f, \u0447\u0442\u043e\u0431\u044b \u043e\u0442\u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0438 \u043f\u043e\u0434\u0441\u0432\u0435\u0442\u0438\u0442\u044c \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u044b, \u043d\u043e \u043d\u0435 \u0447\u0442\u043e\u0431\u044b \u0432\u044b\u043d\u043e\u0441\u0438\u0442\u044c \u043e\u043a\u043e\u043d\u0447\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0432\u0435\u0440\u0434\u0438\u043a\u0442.Execution-based evals \u2013 \u0437\u043e\u043b\u043e\u0442\u043e\u0439 \u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442 \u0434\u043b\u044f \u0430\u0433\u0435\u043d\u0442\u043e\u0432, \u043f\u0440\u043e \u043d\u0438\u0445 \u2013 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u0439 \u0440\u0430\u0437\u0434\u0435\u043b \u043d\u0438\u0436\u0435.Safety \u0438 red-teaming evals \u2013 \u0441\u043b\u043e\u0439, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0447\u0430\u0449\u0435 \u0432\u0441\u0435\u0433\u043e \u043f\u0440\u043e\u043f\u0443\u0441\u043a\u0430\u044e\u0442. Red teaming \u043d\u0430\u0441\u0442\u0443\u043f\u0430\u0442\u0435\u043b\u0435\u043d: \u0432\u044b \u043f\u0440\u043e\u0430\u043a\u0442\u0438\u0432\u043d\u043e \u0438\u0449\u0435\u0442\u0435 \u043f\u0440\u043e\u0432\u0430\u043b \u0441\u0430\u043c\u0438, \u0430 \u043d\u0435 \u0436\u0434\u0435\u0442\u0435, \u043f\u043e\u043a\u0430 \u043e\u043d \u043f\u0440\u043e\u044f\u0432\u0438\u0442\u0441\u044f. \u041d\u043e \u0443 \u043c\u0435\u0442\u043e\u0434\u0430 \u0435\u0441\u0442\u044c \u0432\u0430\u0436\u043d\u043e\u0435 \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u0435, \u043d\u0430 \u043a\u043e\u0442\u043e\u0440\u043e\u0435 \u043f\u0440\u044f\u043c\u043e \u0443\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 Microsoft: red-teaming \u043d\u0430\u0445\u043e\u0434\u0438\u0442 \u0443\u044f\u0437\u0432\u0438\u043c\u043e\u0441\u0442\u0438, \u043d\u043e \u043d\u0435 \u0438\u0437\u043c\u0435\u0440\u044f\u0435\u0442, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u043e\u043d\u0438 \u0440\u0430\u0441\u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0435\u043d\u044b \u2013 \u043e\u0434\u0438\u043d \u043d\u0430\u0439\u0434\u0435\u043d\u043d\u044b\u0439 jailbreak \u0435\u0449\u0435 \u043d\u0435 \u0433\u043e\u0432\u043e\u0440\u0438\u0442, \u043d\u0430\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u043e\u043d \u0447\u0430\u0441\u0442\u043e-\u0432\u043e\u0441\u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u043c\u044b\u0439.Execution-based evals: \u043e\u0446\u0435\u043d\u0438\u0432\u0430\u0439\u0442\u0435 \u043f\u043e \u0444\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u043c\u0443 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0443, \u0430 \u043d\u0435 \u043f\u043e \u0441\u043b\u043e\u0432\u0430\u043c \u0430\u0433\u0435\u043d\u0442\u0430\u0414\u043b\u044f \u0430\u0433\u0435\u043d\u0442\u043e\u0432 \u0432\u0430\u0436\u043d\u043e \u043d\u0435 \u0442\u043e, \u0447\u0442\u043e \u0430\u0433\u0435\u043d\u0442 \u043d\u0430\u043f\u0438\u0441\u0430\u043b \u0432 \u043e\u0442\u0432\u0435\u0442\u0435, \u0430 \u0442\u043e, \u0447\u0442\u043e \u043e\u043d \u0440\u0435\u0430\u043b\u044c\u043d\u043e \u0441\u0434\u0435\u043b\u0430\u043b: \u0441\u043e\u0431\u0440\u0430\u043b\u0441\u044f \u043b\u0438 \u043a\u043e\u0434, \u043f\u0440\u043e\u0448\u043b\u0438 \u043b\u0438 \u0442\u0435\u0441\u0442\u044b, \u043f\u043e\u044f\u0432\u0438\u043b\u0441\u044f \u043b\u0438 \u043d\u0443\u0436\u043d\u044b\u0439 \u0444\u0430\u0439\u043b, \u043e\u0431\u043d\u043e\u0432\u0438\u043b\u0438\u0441\u044c \u043b\u0438 \u0434\u0430\u043d\u043d\u044b\u0435 \u0432 \u0431\u0430\u0437\u0435.\u041a\u0430\u043d\u043e\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u043f\u0430\u0442\u0442\u0435\u0440\u043d \u2013 SWE-bench Verified: \u0430\u0433\u0435\u043d\u0442 \u0432\u044b\u0434\u0430\u0435\u0442 \u043f\u0430\u0442\u0447, \u043f\u0430\u0442\u0447 \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0435\u0442\u0441\u044f \u0432 \u043a\u043e\u043d\u0442\u0435\u0439\u043d\u0435\u0440\u0435, \u0438 \u043f\u0440\u043e\u0433\u043e\u043d\u044f\u0435\u0442\u0441\u044f \u043d\u0430\u0441\u0442\u043e\u044f\u0449\u0438\u0439 \u0442\u0435\u0441\u0442\u043e\u0432\u044b\u0439 \u043d\u0430\u0431\u043e\u0440 \u0440\u0435\u043f\u043e\u0437\u0438\u0442\u043e\u0440\u0438\u044f. \u0417\u0430\u0434\u0430\u0447\u0430 \u0437\u0430\u0441\u0447\u0438\u0442\u0430\u043d\u0430, \u0442\u043e\u043b\u044c\u043a\u043e \u0435\u0441\u043b\u0438 \u0432\u0441\u0435 \u0440\u0430\u043d\u0435\u0435 \u043f\u0430\u0434\u0430\u0432\u0448\u0438\u0435 \u0442\u0435\u0441\u0442\u044b (FAIL_TO_PASS) \u0442\u0435\u043f\u0435\u0440\u044c \u0437\u0435\u043b\u0435\u043d\u044b\u0435, \u0438 \u0432\u0441\u0435 \u0440\u0430\u043d\u0435\u0435 \u0437\u0435\u043b\u0435\u043d\u044b\u0435 (PASS_TO_PASS) \u043e\u0441\u0442\u0430\u043b\u0438\u0441\u044c \u0437\u0435\u043b\u0435\u043d\u044b\u043c\u0438 \u2013 \u0444\u0438\u043a\u0441 \u0434\u043e\u043b\u0436\u0435\u043d \u043e\u0442\u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u0438 \u043d\u0438\u0447\u0435\u0433\u043e \u043d\u0435 \u0441\u043b\u043e\u043c\u0430\u0442\u044c. \u041d\u0438\u043a\u0430\u043a\u043e\u0433\u043e \u0441\u0443\u0434\u044c\u0438, \u043d\u0438\u043a\u0430\u043a\u043e\u0433\u043e string-match. \u0422\u043e \u0436\u0435 \u0441\u0430\u043c\u043e\u0435 \u0434\u0435\u043b\u0430\u044e\u0442 OSWorld \u043d\u0430 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u0439 \u041e\u0421 \u0438 Terminal-Bench \u0432 \u0442\u0435\u0440\u043c\u0438\u043d\u0430\u043b\u0435.\u0422\u0430\u043a \u044d\u0442\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0438 \u0432 \u043f\u0440\u043e\u0434\u0435: \u0432 Gaijin Entertainment \u043d\u0430 \u043f\u0440\u043e\u0435\u043a\u0442\u0435 EdenSpark eval-suite \u0430\u0433\u0435\u043d\u0442\u0430 \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u0435\u0442 \u043d\u0435 \u0435\u0433\u043e \u043e\u0442\u0447\u0435\u0442, \u0430 \u0441\u0430\u043c \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u2013 \u0441\u043e\u0431\u0440\u0430\u043b\u0441\u044f \u043b\u0438 \u0430\u0440\u0442\u0435\u0444\u0430\u043a\u0442 \u0431\u0435\u0437 \u043e\u0448\u0438\u0431\u043e\u043a, \u043d\u0430 \u043c\u0435\u0441\u0442\u0435 \u043b\u0438 \u043d\u0443\u0436\u043d\u044b\u0435 \u044d\u043b\u0435\u043c\u0435\u043d\u0442\u044b \u0438 \u0441\u0432\u044f\u0437\u0438. \u0422\u0430\u043a \u043b\u043e\u0432\u044f\u0442\u0441\u044f \u0431\u0430\u0433\u0438, \u043d\u0435\u0437\u0430\u043c\u0435\u0442\u043d\u044b\u0435 \u0432 \u0442\u0435\u043a\u0441\u0442\u0435 \u043e\u0442\u0432\u0435\u0442\u0430,  \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0440\u0430\u0441\u0441\u0438\u043d\u0445\u0440\u043e\u043d \u0441\u043e\u0441\u0442\u043e\u044f\u043d\u0438\u044f (state-drift), \u043a\u043e\u0433\u0434\u0430 \u0430\u0433\u0435\u043d\u0442 \u043f\u043b\u0430\u043d\u0438\u0440\u0443\u0435\u0442 \u043f\u043e \u0441\u0432\u043e\u0435\u0439 \u043f\u0430\u043c\u044f\u0442\u0438 \u043e \u0441\u0434\u0435\u043b\u0430\u043d\u043d\u044b\u0445 \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u044f\u0445, \u0430 \u043d\u0435 \u043f\u043e \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u043c\u0443 \u0441\u043e\u0441\u0442\u043e\u044f\u043d\u0438\u044e, \u0438 \u0441\u043e \u0441\u0442\u043e\u0440\u043e\u043d\u044b \u044d\u0442\u043e \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u043a\u0430\u043a \u0441\u043b\u0430\u0431\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c, \u0445\u043e\u0442\u044f \u0434\u0435\u043b\u043e \u0432 harness.\u0421\u043e\u0431\u0440\u0430\u0442\u044c \u0442\u0430\u043a\u0438\u0435 \u043f\u0440\u043e\u0432\u0435\u0440\u043a\u0438 \u043f\u043e\u043c\u043e\u0433\u0430\u0435\u0442 Inspect AI \u043e\u0442 UK AISI.\u0427\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442 eval \u0445\u043e\u0440\u043e\u0448\u0438\u043c\u041a\u043e\u0440\u043e\u0442\u043a\u0438\u0439 \u0447\u0435\u043a\u043b\u0438\u0441\u0442 c \u043c\u043e\u0438\u043c\u0438 \u043a\u0440\u0438\u0442\u0435\u0440\u0438\u044f\u043c\u0438:Relevant \u2013 \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u0435\u0442 \u0442\u043e, \u043e\u0442 \u0447\u0435\u0433\u043e \u043f\u0440\u043e\u0434\u0443\u043a\u0442 \u0440\u0435\u0430\u043b\u044c\u043d\u043e \u0437\u0430\u0432\u0438\u0441\u0438\u0442.Diagnostic \u2013 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u043f\u0440\u0438\u0447\u0438\u043d\u0443 \u0438 \u043c\u0435\u0441\u0442\u043e \u043f\u0440\u043e\u0432\u0430\u043b\u0430, \u0430 \u043d\u0435 \u043f\u0440\u043e\u0441\u0442\u043e pass\/fail.Repeatable \u2013 \u043d\u0430 \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u043e\u043c \u0432\u0445\u043e\u0434\u0435 eval \u0434\u0430\u0435\u0442 \u0441\u0442\u0430\u0431\u0438\u043b\u044c\u043d\u044b\u0439, \u0441\u0440\u0430\u0432\u043d\u0438\u043c\u044b\u0439 \u043e\u0442 \u043f\u0440\u043e\u0433\u043e\u043d\u0430 \u043a \u043f\u0440\u043e\u0433\u043e\u043d\u0443 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442; \u0438\u043d\u0430\u0447\u0435 \u0440\u0430\u0437\u043d\u0438\u0446\u0443 \u043c\u0435\u0436\u0434\u0443 \u00ab\u0434\u043e\u00bb \u0438 \u00ab\u043f\u043e\u0441\u043b\u0435\u00bb \u043d\u0435 \u043e\u0442\u043b\u0438\u0447\u0438\u0442\u044c \u043e\u0442 \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u043e\u0433\u043e \u0440\u0430\u0437\u0431\u0440\u043e\u0441\u0430. \u041f\u043e\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u043d\u043e\u0435, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0434\u043b\u044f user-facing \u0441\u0447\u0438\u0442\u0430\u0439\u0442\u0435 \u043f\u043e \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u0438\u043c \u043f\u0440\u043e\u0433\u043e\u043d\u0430\u043c \u2013 \u0432\u0430\u0436\u043d\u043e, \u0447\u0442\u043e\u0431\u044b \u0443\u0441\u043f\u0435\u0445 \u0431\u044b\u043b \u043a\u0430\u0436\u0434\u044b\u0439 \u0440\u0430\u0437, \u0430 \u043d\u0435 \u043e\u0434\u0438\u043d \u0440\u0430\u0437 \u0438\u0437 k (pass^k \u043f\u0440\u043e\u0442\u0438\u0432 pass@k, Anthropic).Hard to game \u2013 eval \u043f\u043e\u0447\u0442\u0438 \u0432\u0441\u0435\u0433\u0434\u0430 \u0438\u0437\u043c\u0435\u0440\u044f\u0435\u0442 \u043d\u0435 \u0441\u0430\u043c\u0443 \u0446\u0435\u043b\u044c, \u0430 \u0435\u0435 proxy: \u00ab\u043e\u0442\u0432\u0435\u0442 \u043f\u043e\u043b\u0435\u0437\u0435\u043d\u00bb \u043d\u0430\u043f\u0440\u044f\u043c\u0443\u044e \u0438\u0437\u043c\u0435\u0440\u0438\u0442\u044c \u0442\u0440\u0443\u0434\u043d\u043e, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0431\u0435\u0440\u0443\u0442 \u0447\u0442\u043e \u043f\u043e\u043f\u0440\u043e\u0449\u0435 \u2013 \u00ab\u0435\u0441\u0442\u044c \u043d\u0443\u0436\u043d\u044b\u0435 \u043a\u043b\u044e\u0447\u0435\u0432\u044b\u0435 \u0441\u043b\u043e\u0432\u0430\u00bb \u0438\u043b\u0438 \u00ab\u043a\u043e\u0434 \u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u0443\u0435\u0442\u0441\u044f\u00bb. \u041f\u0440\u043e\u0431\u043b\u0435\u043c\u0430 \u0432 \u0442\u043e\u043c, \u0447\u0442\u043e proxy \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u043f\u043e\u043b\u043e\u0436\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u043c, \u0445\u043e\u0442\u044f \u0437\u0430\u0434\u0430\u0447\u0430 \u043d\u0435 \u0440\u0435\u0448\u0435\u043d\u0430: \u043c\u043e\u0434\u0435\u043b\u044c \u043d\u0430\u0431\u0435\u0440\u0435\u0442 \u043d\u0443\u0436\u043d\u044b\u0435 \u0441\u043b\u043e\u0432\u0430 \u0438\u043b\u0438 \u043d\u0430\u043f\u0438\u0448\u0435\u0442 \u043a\u043e\u0434, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u0443\u0435\u0442\u0441\u044f, \u043d\u043e \u043d\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 proxy \u0432\u0430\u0436\u043d\u043e \u0438 \u0433\u0440\u0430\u043c\u043e\u0442\u043d\u043e \u0432\u044b\u0431\u0438\u0440\u0430\u0442\u044c, \u0438 \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e \u0438\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u2013 \u043f\u043e\u043b\u043e\u0436\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0439 proxy \u0441\u0430\u043c \u043f\u043e \u0441\u0435\u0431\u0435 \u0435\u0449\u0435 \u043d\u0435 \u0437\u043d\u0430\u0447\u0438\u0442, \u0447\u0442\u043e \u0437\u0430\u0434\u0430\u0447\u0430 \u0440\u0435\u0448\u0435\u043d\u0430; \u0433\u0434\u0435 \u043c\u043e\u0436\u043d\u043e, \u0438\u0437\u043c\u0435\u0440\u044f\u0439\u0442\u0435 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043d\u0430\u043f\u0440\u044f\u043c\u0443\u044e.Statistically honest \u2013 \u0441\u044b\u0440\u043e\u043c\u0443 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0443 \u0432\u0435\u0440\u0438\u0442\u044c \u043d\u0435\u043b\u044c\u0437\u044f: \u0442\u043e\u0442 \u0436\u0435 eval \u0441\u0435\u0433\u043e\u0434\u043d\u044f \u0434\u0430\u0441\u0442 85%, \u0437\u0430\u0432\u0442\u0440\u0430 80% \u0438\u0437-\u0437\u0430 \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u043e\u0441\u0442\u0438. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u043d\u0443\u0436\u043d\u043e \u0441\u043c\u043e\u0442\u0440\u0435\u0442\u044c \u043d\u0435 \u043d\u0430 \u0433\u043e\u043b\u044b\u0439 \u043f\u0440\u043e\u0446\u0435\u043d\u0442, \u0430 \u043d\u0430 \u0434\u043e\u0432\u0435\u0440\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0438\u043d\u0442\u0435\u0440\u0432\u0430\u043b \u0438 \u043d\u0430 \u0442\u043e, \u0437\u043d\u0430\u0447\u0438\u043c\u0430 \u043b\u0438 \u0440\u0430\u0437\u043d\u0438\u0446\u0430 \u043c\u0435\u0436\u0434\u0443 \u043f\u0440\u043e\u0433\u043e\u043d\u0430\u043c\u0438 \u2013 \u043a\u0430\u043a \u044d\u0442\u043e \u0441\u0447\u0438\u0442\u0430\u0442\u044c, \u043f\u043e\u0434\u0440\u043e\u0431\u043d\u043e \u0443 Anthropic.Runnable often \u2013 evals \u043f\u043e\u043b\u0435\u0437\u043d\u043e \u0440\u0430\u0437\u0434\u0435\u043b\u044f\u0442\u044c \u043f\u043e \u0447\u0430\u0441\u0442\u043e\u0442\u0435 \u043f\u0440\u043e\u0433\u043e\u043d\u0430. \u041d\u043e \u043d\u0430\u0431\u043e\u0440, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0433\u043e\u043d\u044f\u0435\u0442\u0441\u044f \u043d\u0430 \u043a\u0430\u0436\u0434\u043e\u0435 \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u0435, \u0434\u043e\u043b\u0436\u0435\u043d \u0441\u043e\u0441\u0442\u043e\u044f\u0442\u044c \u0438\u0437 \u0430\u0442\u043e\u043c\u0430\u0440\u043d\u044b\u0445 \u0438 \u0437\u043d\u0430\u0447\u0438\u043c\u044b\u0445 \u043f\u0440\u043e\u0432\u0435\u0440\u043e\u043a: \u043a\u0430\u0436\u0434\u0430\u044f \u0431\u044b\u0441\u0442\u0440\u0430\u044f \u0438 \u043d\u0435\u0441\u0435\u0442 \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u0441\u0438\u0433\u043d\u0430\u043b \u2013 \u0438\u043d\u0430\u0447\u0435 \u0435\u0433\u043e \u0431\u044b\u0441\u0442\u0440\u043e \u043f\u0435\u0440\u0435\u0441\u0442\u0430\u043d\u0443\u0442 \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u0442\u044c.\u041e\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u0435 \u0445\u043e\u0440\u043e\u0448\u043e \u0441\u0444\u043e\u0440\u043c\u0443\u043b\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u043e\u0433\u043e eval task \u0443 Anthropic: \u0435\u0441\u043b\u0438 \u0434\u0432\u0430 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u0430, \u0433\u043b\u044f\u0434\u044f \u043d\u0430 \u043e\u0434\u0438\u043d \u0438 \u0442\u043e\u0442 \u0436\u0435&#8230;<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-484634","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/484634","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=484634"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/484634\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=484634"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=484634"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=484634"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}