{"id":258210,"date":"2015-05-29T11:05:02","date_gmt":"2015-05-29T07:05:02","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=258210"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=258210","title":{"rendered":"\u0413\u043b\u0443\u0431\u043e\u043a\u043e\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043d\u0430 R, \u0442\u0440\u0435\u043d\u0438\u0440\u0443\u0435\u043c word2vec"},"content":{"rendered":"<p>     \tWord2vec \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438 \u0435\u0434\u0438\u043d\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u043c \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u043e\u043c deep learning, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0441\u0440\u0430\u0432\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u043b\u0435\u0433\u043a\u043e \u043c\u043e\u0436\u043d\u043e \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u044c \u043d\u0430 \u043e\u0431\u044b\u0447\u043d\u043e\u043c \u041f\u041a (\u0430 \u043d\u0435 \u043d\u0430 \u0432\u0438\u0434\u0435\u043e\u043a\u0430\u0440\u0442\u0430\u0445) \u0438 \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0441\u0442\u0440\u043e\u0438\u0442 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u043d\u043e\u0435 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u0435 \u0441\u043b\u043e\u0432 \u0437\u0430 \u043f\u0440\u0438\u0435\u043c\u043b\u0435\u043c\u043e\u0435 \u0432\u0440\u0435\u043c\u044f, \u043f\u043e \u043a\u0440\u0430\u0439\u043d\u0435\u0439 \u043c\u0435\u0440\u0435 \u0442\u0430\u043a \u0441\u0447\u0438\u0442\u0430\u044e\u0442 \u043d\u0430 <a href=\"https:\/\/www.kaggle.com\/c\/word2vec-nlp-tutorial\/details\/part-2-word-vectors\">Kaggle<\/a>. \u041f\u0440\u043e\u0447\u0438\u0442\u0430\u0432 <a href=\"http:\/\/habrahabr.ru\/post\/249215\/\">\u0437\u0434\u0435\u0441\u044c<\/a> \u043f\u0440\u043e \u0442\u043e, \u043a\u0430\u043a\u0438\u0435 \u0444\u043e\u043a\u0443\u0441\u044b \u043c\u043e\u0436\u043d\u043e \u0434\u0435\u043b\u0430\u0442\u044c \u0441 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u044c\u044e, \u044f \u043f\u043e\u043d\u044f\u043b, \u0447\u0442\u043e \u0442\u0430\u043a\u0443\u044e \u0448\u0442\u0443\u043a\u0443 \u043f\u0440\u043e\u0441\u0442\u043e \u043e\u0431\u044f\u0437\u0430\u043d \u043f\u043e\u043f\u0440\u043e\u0431\u043e\u0432\u0430\u0442\u044c. \u041f\u0440\u043e\u0431\u043b\u0435\u043c\u0430 \u0442\u043e\u043b\u044c\u043a\u043e \u043e\u0434\u043d\u0430, \u044f \u043f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u044e \u043d\u0430 \u044f\u0437\u044b\u043a\u0435 R, \u0430 \u0432\u043e\u0442 \u043e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u0443\u044e \u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044e word2vec \u043f\u043e\u0434 R \u043c\u043d\u0435 \u043d\u0430\u0439\u0442\u0438 \u043d\u0435 \u0443\u0434\u0430\u043b\u043e\u0441\u044c, \u0434\u0443\u043c\u0430\u044e \u0435\u0451 \u043f\u0440\u043e\u0441\u0442\u043e \u043d\u0435\u0442.<\/p>\n<p>  <a name=\"habracut\"><\/a><br \/>  \u0417\u0430\u0442\u043e \u0435\u0441\u0442\u044c \u0438\u0441\u0445\u043e\u0434\u043d\u0438\u043a\u0438 <a href=\"http:\/\/word2vec.googlecode.com\/svn\/trunk\/\">word2vec<\/a> \u043d\u0430 C \u0438 <a href=\"https:\/\/code.google.com\/p\/word2vec\/\">\u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0435<\/a> \u043d\u0430 \u0441\u0430\u0439\u0442\u0435 Google, \u0430 \u0432 R \u0435\u0441\u0442\u044c \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u044c \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0432\u043d\u0435\u0448\u043d\u0438\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438 \u043d\u0430 C, C++ \u0438 Fortran. \u041a\u0441\u0442\u0430\u0442\u0438, \u0441\u0430\u043c\u044b\u0435 \u0431\u044b\u0441\u0442\u0440\u044b\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438 R \u0441\u0434\u0435\u043b\u0430\u043d\u044b \u0438\u043c\u0435\u043d\u043d\u043e \u043d\u0430 C \u0438 \u0421++. \u0415\u0449\u0435 \u0435\u0441\u0442\u044c R-\u043e\u0431\u0435\u0440\u0442\u043a\u0430 <a href=\"https:\/\/r-forge.r-project.org\/R\/?group_id=1571\">tmcn.word2vec<\/a>, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u0441\u044f \u0432 \u0441\u0442\u0430\u0434\u0438\u0438 \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u043a\u0438. \u0415\u0451 \u0430\u0432\u0442\u043e\u0440, <br \/>  <a href=\"http:\/\/jianl.org\/\">Jian Li<\/a> (\u0441\u0430\u0439\u0442 \u043d\u0430 \u043a\u0438\u0442\u0430\u0439\u0441\u043a\u043e\u043c) \u0441\u0434\u0435\u043b\u0430\u043b \u0447\u0442\u043e-\u0442\u043e \u0432\u0440\u043e\u0434\u0435 \u0434\u0435\u043c\u043e\u0432\u0435\u0440\u0441\u0438\u0438 \u0434\u043b\u044f \u043a\u0438\u0442\u0430\u0439\u0441\u043a\u043e\u0433\u043e \u044f\u0437\u044b\u043a\u0430 (\u0441 \u0430\u043d\u0433\u043b\u0438\u0439\u0441\u043a\u0438\u043c \u0442\u043e\u0436\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442, \u0441 \u0440\u0443\u0441\u0441\u043a\u0438\u043c \u043f\u043e\u043a\u0430 \u043d\u0435 \u043f\u0440\u043e\u0431\u043e\u0432\u0430\u043b). \u041f\u0440\u043e\u0431\u043b\u0435\u043c\u044b \u0441 \u044d\u0442\u043e\u0439 \u0432\u0435\u0440\u0441\u0438\u0435\u0439 \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0435:  <\/p>\n<ul>\n<li>\u0412\u043e-\u043f\u0435\u0440\u0432\u044b\u0445, \u0432\u0441\u0435 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b \u0437\u0430\u0448\u0438\u0442\u044b \u0432 C-\u043a\u043e\u0434\u0435;<\/li>\n<li>\u0412\u043e-\u0432\u0442\u043e\u0440\u044b\u0445, \u0430\u0432\u0442\u043e\u0440 \u0441\u0434\u0435\u043b\u0430\u043b \u0442\u043e\u043b\u044c\u043a\u043e \u043e\u0434\u043d\u0443 \u0444\u0443\u043d\u043a\u0446\u0438\u044e \u0434\u043b\u044f \u0440\u0430\u0431\u043e\u0442\u044b \u0441 \u043e\u0431\u0443\u0447\u0435\u043d\u043d\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u044c\u044e \u2013 distance, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043e\u0446\u0435\u043d\u0438\u0432\u0430\u0435\u0442 \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u043e \u0441\u043b\u043e\u0432 \u0438 \u0432\u044b\u0432\u043e\u0434\u0438\u0442 20 \u0432\u0430\u0440\u0438\u0430\u043d\u0442\u043e\u0432 \u0441 \u043c\u0430\u043a\u0441\u0438\u043c\u0430\u043b\u044c\u043d\u044b\u043c \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435\u043c;<\/li>\n<li>\u0412-\u0442\u0440\u0435\u0442\u044c\u0438\u0445, \u043c\u043d\u0435 \u043d\u0435 \u0443\u0434\u0430\u043b\u043e\u0441\u044c \u0441\u043e\u0431\u0440\u0430\u0442\u044c \u043f\u0430\u043a\u0435\u0442 \u043f\u043e\u0434 x64 Windows. \u041d\u0430 win32 \u043f\u0430\u043a\u0435\u0442 \u0441\u0442\u0430\u0432\u0438\u0442\u0441\u044f \u0431\u0435\u0437 \u043f\u0440\u043e\u0431\u043b\u0435\u043c.<\/li>\n<\/ul>\n<p>  \u041e\u0446\u0435\u043d\u0438\u0432 \u0432\u0441\u0451 \u044d\u0442\u043e \u00ab\u0431\u043e\u0433\u0430\u0442\u0441\u0442\u0432\u043e\u00bb, \u044f \u0440\u0435\u0448\u0438\u043b \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u0441\u0432\u043e\u0439 \u0432\u0430\u0440\u0438\u0430\u043d\u0442 R-\u0438\u043d\u0442\u0435\u0440\u0444\u0435\u0439\u0441\u0430 \u043a word2vec. \u0421\u043a\u0430\u0437\u0430\u0442\u044c \u043f\u043e \u043f\u0440\u0430\u0432\u0434\u0435, \u043d\u0435 \u043e\u0447\u0435\u043d\u044c \u0445\u043e\u0440\u043e\u0448\u043e \u0437\u043d\u0430\u044e \u0421, \u043f\u0440\u0438\u0445\u043e\u0434\u0438\u043b\u043e\u0441\u044c \u043f\u0438\u0441\u0430\u0442\u044c \u0442\u043e\u043b\u044c\u043a\u043e \u043f\u0440\u043e\u0441\u0442\u0435\u043d\u044c\u043a\u0438\u0435 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u044b, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0437\u0430 \u043e\u0441\u043d\u043e\u0432\u0443 \u044f \u0440\u0435\u0448\u0438\u043b \u0432\u0437\u044f\u0442\u044c <a href=\"https:\/\/github.com\/rforge\/tmcn\/tree\/master\/pkg\">\u0438\u0441\u0445\u043e\u0434\u043d\u0438\u043a\u0438<\/a> Jian Li, \u043f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e \u043e\u043d\u0438 \u0442\u043e\u0447\u043d\u043e \u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u0443\u044e\u0442\u0441\u044f \u043f\u043e\u0434 Windows, \u0438\u043d\u0430\u0447\u0435 \u0431\u044b \u043d\u0435 \u0431\u044b\u043b\u043e \u043f\u0430\u043a\u0435\u0442\u0430. \u0415\u0441\u043b\u0438 \u0447\u0442\u043e-\u0442\u043e \u043d\u0435 \u0431\u0443\u0434\u0435\u0442 \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c, \u0438\u0445 \u0432\u0441\u0435\u0433\u0434\u0430 \u043c\u043e\u0436\u043d\u043e \u0441\u0432\u0435\u0440\u0438\u0442\u044c \u0441 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b\u043e\u043c.<\/p>\n<h4>\u041f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u043a\u0430<\/h4>\n<p>  \u0414\u043b\u044f \u0442\u043e\u0433\u043e \u0447\u0442\u043e\u0431\u044b \u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u043e\u0432\u0430\u0442\u044c C-\u043a\u043e\u0434 \u0434\u043b\u044f R \u043f\u043e\u0434 Windows \u043d\u0443\u0436\u043d\u043e \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u044c <a href=\"http:\/\/cran.r-project.org\/bin\/windows\/Rtools\/\">Rtools<\/a>. \u042d\u0442\u043e\u0442 \u043d\u0430\u0431\u043e\u0440 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u043e\u0432 \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u043a\u043e\u043c\u043f\u0438\u043b\u044f\u0442\u043e\u0440 gc\u0441, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u0435\u0442\u0441\u044f \u043f\u043e\u0434 Cygwin. \u041f\u043e\u0441\u043b\u0435 \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0438 Rtools \u043d\u0443\u0436\u043d\u043e \u043f\u0440\u043e\u0432\u0435\u0440\u0438\u0442\u044c \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u0443\u044e PATH. \u0422\u0430\u043c \u0434\u043e\u043b\u0436\u043d\u043e \u0431\u044b\u0442\u044c \u0447\u0442\u043e-\u0442\u043e \u0432\u0440\u043e\u0434\u0435:  <\/p>\n<pre> D:\\Rtools\\bin;D:\\Rtools\\gcc-4.6.3\\bin;D:\\R\\bin <\/pre>\n<p>  \u041f\u043e\u0434 OS X \u043d\u0438\u043a\u0430\u043a\u0438\u0445 Rtools \u043d\u0435 \u0442\u0440\u0435\u0431\u0443\u0435\u0442\u0441\u044f. \u041d\u0443\u0436\u0435\u043d \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d\u043d\u044b\u0439 \u043a\u043e\u043c\u043f\u0438\u043b\u044f\u0442\u043e\u0440, \u043d\u0430\u043b\u0438\u0447\u0438\u0435 \u043a\u043e\u0442\u043e\u0440\u043e\u0433\u043e \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u0435\u0442\u0441\u044f \u043a\u043e\u043c\u0430\u043d\u0434\u043e\u0439 gcc &#8212;version. \u0415\u0441\u043b\u0438 \u0435\u0433\u043e \u043d\u0435\u0442, \u043d\u0443\u0436\u043d\u043e \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u044c <a href=\"https:\/\/developer.apple.com\/xcode\/downloads\/\">Xcode<\/a> \u0438 \u0447\u0435\u0440\u0435\u0437 Xcode \u2014 Command Line Tools.<\/p>\n<p>  \u041f\u0440\u043e \u0432\u044b\u0437\u043e\u0432 \u0421-\u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a \u0438\u0437 R \u043d\u0443\u0436\u043d\u043e \u0437\u043d\u0430\u0442\u044c \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0435\u0435:  <\/p>\n<ol>\n<li>\u0412\u0441\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u043f\u0440\u0438 \u0432\u044b\u0437\u043e\u0432\u0435 \u0444\u0443\u043d\u043a\u0446\u0438\u0438 \u043f\u0435\u0440\u0435\u0434\u0430\u044e\u0442\u0441\u044f \u0432 \u0432\u0438\u0434\u0435 \u0443\u043a\u0430\u0437\u0430\u0442\u0435\u043b\u0435\u0439 \u0438 \u043d\u0443\u0436\u043d\u043e \u043f\u043e\u0437\u0430\u0431\u043e\u0442\u0438\u0442\u044c\u0441\u044f \u043e \u0442\u043e\u043c, \u0447\u0442\u043e\u0431\u044b \u0432 \u044f\u0432\u043d\u043e\u043c \u0432\u0438\u0434\u0435 \u043f\u0440\u043e\u043f\u0438\u0441\u0430\u0442\u044c \u0438\u0445 \u0442\u0438\u043f. \u041d\u0430\u0434\u0435\u0436\u043d\u0435\u0435 \u0432\u0441\u0435\u0433\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043f\u0435\u0440\u0435\u0434\u0430\u0447\u0430 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u0442\u0438\u043f\u0430 char \u0441 \u043f\u043e\u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u043c \u043f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u0435\u043c \u0432 \u043d\u0443\u0436\u043d\u044b\u0439 \u0442\u0438\u043f \u0443\u0436\u0435 \u0432 C;<\/li>\n<li>\u0412\u044b\u0437\u044b\u0432\u0430\u0435\u043c\u0430\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u044f \u043d\u0435 \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435, \u0442.\u0435. \u0434\u043e\u043b\u0436\u043d\u0430 \u0431\u044b\u0442\u044c \u0442\u0438\u043f\u0430 void;<\/li>\n<li>\u0412 C-\u043a\u043e\u0434 \u043d\u0443\u0436\u043d\u043e \u0434\u043e\u0431\u0430\u0432\u0438\u0442\u044c \u0438\u043d\u0441\u0442\u0440\u0443\u043a\u0446\u0438\u044e #include &lt;R.h&gt;, \u0430 \u0435\u0441\u043b\u0438 \u0435\u0441\u0442\u044c \u0441\u043b\u043e\u0436\u043d\u0430\u044f \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u043a\u0430, \u0442\u043e \u0435\u0449\u0435 \u0438 #include &lt;R.math&gt;;<\/li>\n<li>\u0415\u0441\u043b\u0438 \u043d\u0443\u0436\u043d\u043e \u0447\u0442\u043e-\u0442\u043e \u0432\u044b\u0432\u0435\u0441\u0442\u0438 \u043d\u0430 \u043a\u043e\u043d\u0441\u043e\u043b\u044c R, \u0432\u043c\u0435\u0441\u0442\u043e printf() \u043b\u0443\u0447\u0448\u0435 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c Rprintf(). \u041f\u0440\u0430\u0432\u0434\u0430 \u0443 \u043c\u0435\u043d\u044f printf() \u0442\u043e\u0436\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442. <\/li>\n<\/ol>\n<p>  \u0414\u043b\u044f \u043d\u0430\u0447\u0430\u043b\u0430 \u044f \u0440\u0435\u0448\u0438\u043b \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u0447\u0442\u043e-\u0442\u043e \u043e\u0447\u0435\u043d\u044c \u043f\u0440\u043e\u0441\u0442\u043e\u0435, \u0442\u0438\u043f\u0430 Hello, World! \u041d\u043e \u0442\u0430\u043a, \u0447\u0442\u043e\u0431\u044b \u0442\u0443\u0434\u0430 \u043f\u0435\u0440\u0435\u0434\u0430\u0432\u0430\u043b\u043e\u0441\u044c \u043a\u0430\u043a\u043e\u0435-\u043b\u0438\u0431\u043e \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435. Rstudio, \u043a\u043e\u0442\u043e\u0440\u043e\u0439 \u044f \u043e\u0431\u044b\u0447\u043d\u043e \u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0441\u044c, \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u043f\u0438\u0441\u0430\u0442\u044c C \u0438 C++ \u043a\u043e\u0434 \u0438 \u0432\u0441\u0451 \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e \u043f\u043e\u0434\u0441\u0432\u0435\u0447\u0438\u0432\u0430\u0435\u0442. \u041d\u0430\u043f\u0438\u0441\u0430\u0432 \u0438 \u0441\u043e\u0445\u0440\u0430\u043d\u0438\u0432 \u043a\u043e\u0434 \u0432 hello.c \u044f \u0432\u044b\u0437\u0432\u0430\u043b \u043a\u043e\u043c\u0430\u043d\u0434\u043d\u0443\u044e \u0441\u0442\u0440\u043e\u043a\u0443, \u043f\u0435\u0440\u0435\u0448\u0435\u043b \u0432 \u043d\u0443\u0436\u043d\u044b\u0439 \u043a\u0430\u0442\u0430\u043b\u043e\u0433 \u0438 \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u043b \u043a\u043e\u043c\u043f\u0438\u043b\u044f\u0442\u043e\u0440 \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0435\u0439 \u043a\u043e\u043c\u0430\u043d\u0434\u043e\u0439:  <\/p>\n<pre> &gt; R --arch x64 CMD SHLIB hello.c <\/pre>\n<p>  \u041f\u043e\u0434 win32 \u043a\u043b\u044e\u0447 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u044b \u043d\u0435 \u043d\u0443\u0436\u0435\u043d:  <\/p>\n<pre> &gt; R CMD SHLIB hello.c <\/pre>\n<p>  \u0412 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0435, \u0432 \u043a\u0430\u0442\u0430\u043b\u043e\u0433\u0435 \u043f\u043e\u044f\u0432\u0438\u043b\u043e\u0441\u044c \u0434\u0432\u0430 \u0444\u0430\u0439\u043b\u0430, hello.o (\u0435\u0433\u043e \u043c\u043e\u0436\u043d\u043e \u0441\u043c\u0435\u043b\u043e \u0443\u0434\u0430\u043b\u0438\u0442\u044c) \u0438 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430 hello.dll. (\u041d\u0430 OS X \u0432\u043c\u0435\u0441\u0442\u043e dll \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u0441\u044f \u0444\u0430\u0439\u043b \u0441 \u0440\u0430\u0441\u0448\u0438\u0440\u0435\u043d\u0438\u0435\u043c so). \u0412\u044b\u0437\u043e\u0432 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u043e\u0439 \u0444\u0443\u043d\u043a\u0446\u0438\u0438 hello \u0432 R \u043e\u0441\u0443\u0449\u0435\u0441\u0442\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u043c \u043a\u043e\u0434\u043e\u043c:  <\/p>\n<pre><code>dyn.load(&quot;hello.dll&quot;) hellof &lt;- function(n) {     .C(&quot;hello&quot;, as.integer(n)) } hellof(5) <\/code><\/pre>\n<p>  \u0422\u0435\u0441\u0442 \u043f\u043e\u043a\u0430\u0437\u0430\u043b, \u0447\u0442\u043e \u0432\u0441\u0451 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u043e \u0438 \u0434\u043b\u044f \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u043e\u0432 \u0441 word2vec \u043e\u0441\u0442\u0430\u043b\u043e\u0441\u044c \u043f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u0438\u0442\u044c \u0434\u0430\u043d\u043d\u044b\u0435. \u042f \u0440\u0435\u0448\u0438\u043b \u0432\u0437\u044f\u0442\u044c \u0438\u0445 \u043d\u0430 <a href=\"https:\/\/www.kaggle.com\/c\/word2vec-nlp-tutorial\">Kaggle<\/a> \u0438\u0437 \u0437\u0430\u0434\u0430\u0447\u0438 \u00abBag of Words Meets Bags of Popcorn\u00bb. <a href=\"https:\/\/www.kaggle.com\/c\/word2vec-nlp-tutorial\/data\">\u0422\u0430\u043c<\/a> \u0435\u0441\u0442\u044c \u043e\u0431\u0443\u0447\u0430\u044e\u0449\u0430\u044f, \u0442\u0435\u0441\u0442\u043e\u0432\u0430\u044f \u0438 \u043d\u0435\u0440\u0430\u0437\u043c\u0435\u0447\u0435\u043d\u043d\u0430\u044f \u0432\u044b\u0431\u043e\u0440\u043a\u0438, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0432 \u0441\u0443\u043c\u043c\u0435 \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0442 \u0441\u0442\u043e \u0442\u044b\u0441\u044f\u0447 \u0440\u0435\u0432\u044e \u0444\u0438\u043b\u044c\u043c\u043e\u0432 \u0438\u0437 IMDB. \u0417\u0430\u0433\u0440\u0443\u0437\u0438\u0432 \u044d\u0442\u0438 \u0444\u0430\u0439\u043b\u044b, \u044f \u0443\u0431\u0440\u0430\u043b \u0438\u0437 \u043d\u0438\u0445 HTML-\u0442\u0435\u0433\u0438, \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u044c\u043d\u044b\u0435 \u0441\u0438\u043c\u0432\u043e\u043b\u044b, \u0446\u0438\u0444\u0440\u044b, \u0437\u043d\u0430\u043a\u0438 \u043f\u0440\u0435\u043f\u0438\u043d\u0430\u043d\u0438\u044f, \u0441\u0442\u043e\u043f-\u0441\u043b\u043e\u0432\u0430 \u0438 \u0442\u043e\u043a\u0435\u043d\u0438\u0437\u0438\u0440\u043e\u0432\u0430\u043b. \u041f\u043e\u0434\u0440\u043e\u0431\u043d\u043e\u0441\u0442\u0438 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 \u043e\u043f\u0443\u0441\u043a\u0430\u044e, \u044f \u043f\u0440\u043e \u043d\u0438\u0445 \u0443\u0436\u0435 <a href=\"http:\/\/habrahabr.ru\/post\/255143\/\">\u043f\u0438\u0441\u0430\u043b<\/a>.<\/p>\n<p>  Word2vec \u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0435\u0442 \u0434\u0430\u043d\u043d\u044b\u0435 \u0434\u043b\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0432 \u0432\u0438\u0434\u0435 \u0442\u0435\u043a\u0441\u0442\u043e\u0432\u043e\u0433\u043e \u0444\u0430\u0439\u043b\u0430 \u0441 \u043e\u0434\u043d\u043e\u0439 \u0434\u043b\u0438\u043d\u043d\u043e\u0439 \u0441\u0442\u0440\u043e\u043a\u043e\u0439, \u0441\u043e\u0434\u0435\u0440\u0436\u0430\u0449\u0435\u0439 \u0441\u043b\u043e\u0432\u0430, \u0440\u0430\u0437\u0434\u0435\u043b\u0435\u043d\u043d\u044b\u0435 \u043f\u0440\u043e\u0431\u0435\u043b\u0430\u043c\u0438 (\u0432\u044b\u044f\u0441\u043d\u0438\u043b \u044d\u0442\u043e, \u0430\u043d\u0430\u043b\u0438\u0437\u0438\u0440\u0443\u044f \u043f\u0440\u0438\u043c\u0435\u0440\u044b \u0440\u0430\u0431\u043e\u0442\u044b \u0441 word2vec \u0438\u0437 \u043e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u043e\u0439 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0446\u0438\u0438). \u0421\u043a\u043b\u0435\u0438\u043b \u043d\u0430\u0431\u043e\u0440\u044b \u0434\u0430\u043d\u043d\u044b\u0445 \u0432 \u043e\u0434\u043d\u0443 \u0441\u0442\u0440\u043e\u043a\u0443 \u0438 \u0441\u043e\u0445\u0440\u0430\u043d\u0438\u043b \u0435\u0451 \u0432 \u0442\u0435\u043a\u0441\u0442\u043e\u0432\u043e\u043c \u0444\u0430\u0439\u043b\u0435.<\/p>\n<h4>\u041c\u043e\u0434\u0435\u043b\u044c<\/h4>\n<p>  \u0412 \u0432\u0430\u0440\u0438\u0430\u043d\u0442\u0435 Jian Li \u2014 \u044d\u0442\u043e \u0434\u0432\u0430 \u0444\u0430\u0439\u043b\u0430 word2vec.h \u0438 word2vec.c. \u0412 \u043f\u0435\u0440\u0432\u043e\u043c \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442\u0441\u044f \u043e\u0441\u043d\u043e\u0432\u043d\u043e\u0439 \u043a\u043e\u0434, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0432 \u0433\u043b\u0430\u0432\u043d\u043e\u043c \u0441\u043e\u0432\u043f\u0430\u0434\u0430\u0435\u0442 \u0441 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b\u044c\u043d\u044b\u043c word2vec.c. \u0412\u043e \u0432\u0442\u043e\u0440\u043e\u043c \u2014 \u043e\u0431\u0435\u0440\u0442\u043a\u0430 \u0434\u043b\u044f \u0432\u044b\u0437\u043e\u0432\u0430 \u0444\u0443\u043d\u043a\u0446\u0438\u0438 TrainModel(). \u041f\u0435\u0440\u0432\u043e\u0435, \u0447\u0442\u043e \u044f \u0440\u0435\u0448\u0438\u043b \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u2014 \u0432\u044b\u0442\u0430\u0449\u0438\u0442\u044c \u0432\u0441\u0435 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b \u043c\u043e\u0434\u0435\u043b\u0438 \u0432 R-\u043a\u043e\u0434. \u041d\u0443\u0436\u043d\u043e \u0431\u044b\u043b\u043e \u043e\u0442\u0440\u0435\u0434\u0430\u043a\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c R-\u0441\u043a\u0440\u0438\u043f\u0442 \u0438 \u043e\u0431\u0435\u0440\u0442\u043a\u0443 \u0432 word2vec.c, \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0430\u0441\u044c \u0432\u043e\u0442 \u0442\u0430\u043a\u0430\u044f \u043a\u043e\u043d\u0441\u0442\u0440\u0443\u043a\u0446\u0438\u044f:  <\/p>\n<pre><code>dyn.load(&quot;word2vec.dll&quot;) word2vec &lt;- function(train_file, output_file,                       binary,                      cbow,                      num_threads,                      num_features,                      window,                      min_count,                      sample) { \t\/\/...\u0437\u0434\u0435\u0441\u044c \u0432\u0441\u043f\u043e\u043c\u043e\u0433\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u043a\u043e\u0434 \u0438 \u043f\u0440\u043e\u0432\u0435\u0440\u043a\u0438...          OUT &lt;- .C(&quot;CWrapper_word2vec&quot;,                train_file = as.character(train_file),                output_file = as.character(output_file),               binary = as.character(binary), \/\/... \u0430\u043d\u0430\u043b\u043e\u0433\u0438\u0447\u043d\u043e \u0434\u0440\u0443\u0433\u0438\u0435 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b               )  \t\/\/...\u0437\u0434\u0435\u0441\u044c \u0432\u044b\u0432\u043e\u0434 \u0434\u0438\u0430\u0433\u043d\u043e\u0441\u0442\u0438\u043a\u0438 \u0438\u0437 \u0432\u044b\u0445\u043e\u0434\u043d\u043e\u0433\u043e \u043f\u043e\u0442\u043e\u043a\u0430 OUT... } word2vec(&quot;train_data.txt&quot;, &quot;model.bin&quot;,           binary=1, # output format, 1-binary, 0-txt          cbow=0, # skip-gram (0) or continuous bag of words (1)          num_threads = 1, # num of workers          num_features = 300, # word vector dimensionality          window = 10, # context \/ window size          min_count = 40, # minimum word count          sample = 1e-3 # downsampling of frequent words          ) <\/code><\/pre>\n<p>  \u041d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u043b\u043e\u0432 \u043f\u0440\u043e \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b:<br \/>  <b>binary<\/b> \u2014 \u0432\u044b\u0445\u043e\u0434\u043d\u043e\u0439 \u0444\u043e\u0440\u043c\u0430\u0442 \u043c\u043e\u0434\u0435\u043b\u0438;<br \/>  <b>cbow<\/b> \u2014 \u043a\u0430\u043a\u043e\u0439 \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0434\u043b\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f skip-gram \u0438\u043b\u0438 \u043c\u0435\u0448\u043e\u043a \u0441\u043b\u043e\u0432 (cbow). Skip-gram \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u0435\u0435, \u043d\u043e \u0434\u0430\u0435\u0442 \u043b\u0443\u0447\u0448\u0438\u0439 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043d\u0430 \u0440\u0435\u0434\u043a\u0438\u0445 \u0441\u043b\u043e\u0432\u0430\u0445;<br \/>  <b>num_threads<\/b> \u2014 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u043f\u043e\u0442\u043e\u043a\u043e\u0432 \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u043e\u0440\u0430, \u0437\u0430\u0434\u0435\u0439\u0441\u0442\u0432\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u043f\u0440\u0438 \u043f\u043e\u0441\u0442\u0440\u043e\u0435\u043d\u0438\u0438 \u043c\u043e\u0434\u0435\u043b\u0438;<br \/>  <b>num_features<\/b> \u2014 \u0440\u0430\u0437\u043c\u0435\u0440\u043d\u043e\u0441\u0442\u044c \u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0441\u0442\u0432\u0430 \u0441\u043b\u043e\u0432 (\u0438\u043b\u0438 \u0432\u0435\u043a\u0442\u043e\u0440\u0430 \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0441\u043b\u043e\u0432\u0430), \u0440\u0435\u043a\u043e\u043c\u0435\u043d\u0434\u0443\u0435\u0442\u0441\u044f \u043e\u0442 \u0434\u0435\u0441\u044f\u0442\u043a\u043e\u0432 \u0434\u043e \u0441\u043e\u0442\u0435\u043d;<br \/>  <b>window<\/b> \u2014 \u043a\u0430\u043a \u043c\u043d\u043e\u0433\u043e \u0441\u043b\u043e\u0432 \u0438\u0437 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u0430 \u043e\u0431\u0443\u0447\u0430\u044e\u0449\u0438\u0439 \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c \u0434\u043e\u043b\u0436\u0435\u043d \u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0442\u044c \u0432\u043e \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435;<br \/>  <b>min_count<\/b> \u2014 \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0438\u0432\u0430\u0435\u0442 \u0440\u0430\u0437\u043c\u0435\u0440 \u0441\u043b\u043e\u0432\u0430\u0440\u044f \u0434\u043b\u044f \u0437\u043d\u0430\u0447\u0438\u043c\u044b\u0445 \u0441\u043b\u043e\u0432. \u0421\u043b\u043e\u0432\u0430, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043d\u0435 \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u044e\u0442\u0441\u044f \u0432 \u0442\u0435\u043a\u0441\u0442\u0435 \u0431\u043e\u043b\u044c\u0448\u0435 \u0443\u043a\u0430\u0437\u0430\u043d\u043d\u043e\u0433\u043e \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0430, \u0438\u0433\u043d\u043e\u0440\u0438\u0440\u0443\u044e\u0442\u0441\u044f. \u0420\u0435\u043a\u043e\u043c\u0435\u043d\u0434\u043e\u0432\u0430\u043d\u043d\u043e\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 \u2014 \u043e\u0442 \u0434\u0435\u0441\u044f\u0442\u0438 \u0434\u043e \u0441\u0442\u0430;<br \/>  <b>sample<\/b> \u2014 \u043d\u0438\u0436\u043d\u044f\u044f \u0433\u0440\u0430\u043d\u0438\u0446\u0430 \u0447\u0430\u0441\u0442\u043e\u0442\u044b \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u043c\u043e\u0441\u0442\u0438 \u0441\u043b\u043e\u0432 \u0432 \u0442\u0435\u043a\u0441\u0442\u0435, \u0440\u0435\u043a\u043e\u043c\u0435\u043d\u0434\u0443\u0435\u0442\u0441\u044f \u043e\u0442 .00001 \u0434\u043e .01.<\/p>\n<p>  \u041a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u043e\u0432\u0430\u043b \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0435\u0439 \u043a\u043e\u043c\u0430\u043d\u0434\u043e\u0439 \u0441 \u0440\u0435\u043a\u043e\u043c\u0435\u043d\u0434\u043e\u0432\u0430\u043d\u043d\u044b\u043c\u0438 \u0432 <a href=\"http:\/\/word2vec.googlecode.com\/svn\/trunk\/makefile\">makefile<\/a> \u043a\u043b\u044e\u0447\u0430\u043c\u0438:  <\/p>\n<pre> &gt;R --arch x64 CMD SHLIB -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result word2vec.c <\/pre>\n<p>  \u041a\u043e\u043c\u043f\u0438\u043b\u044f\u0442\u043e\u0440 \u0432\u044b\u0434\u0430\u043b \u043d\u0435\u043a\u043e\u0442\u043e\u0440\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u043f\u0440\u0435\u0434\u0443\u043f\u0440\u0435\u0436\u0434\u0435\u043d\u0438\u0439, \u043d\u043e \u043d\u0438\u0447\u0435\u0433\u043e \u0441\u0435\u0440\u044c\u0435\u0437\u043d\u043e\u0433\u043e, \u0437\u0430\u0432\u0435\u0442\u043d\u0430\u044f word2vec.dll \u043f\u043e\u044f\u0432\u0438\u043b\u0430\u0441\u044c \u0432 \u0440\u0430\u0431\u043e\u0447\u0435\u043c \u043a\u0430\u0442\u0430\u043b\u043e\u0433\u0435. \u0411\u0435\u0437 \u043f\u0440\u043e\u0431\u043b\u0435\u043c \u0437\u0430\u0433\u0440\u0443\u0437\u0438\u043b \u0435\u0451 \u0432 R \u0444\u0443\u043d\u043a\u0446\u0438\u0435\u0439 dyn.load(\u00abword2vec.dll\u00bb) \u0438 \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u043b \u043e\u0434\u043d\u043e\u0438\u043c\u0435\u043d\u043d\u0443\u044e \u0444\u0443\u043d\u043a\u0446\u0438\u044e. \u0414\u0443\u043c\u0430\u044e, \u043f\u043e\u043b\u0435\u0437\u043d\u044b\u043c \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0442\u043e\u043b\u044c\u043a\u043e \u043a\u043b\u044e\u0447 pthread. \u0411\u0435\u0437 \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0445 \u043c\u043e\u0436\u043d\u043e \u043e\u0431\u043e\u0439\u0442\u0438\u0441\u044c (\u0447\u0430\u0441\u0442\u044c \u0438\u0437 \u043d\u0438\u0445 \u043f\u0440\u043e\u043f\u0438\u0441\u0430\u043d\u0430 \u0432 \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u0438 Rtools).<\/p>\n<p>  \u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442:<br \/>  \u0412\u0441\u0435\u0433\u043e \u0432 \u043c\u043e\u0435\u043c \u0444\u0430\u0439\u043b\u0435 \u043e\u043a\u0430\u0437\u0430\u043b\u043e\u0441\u044c 11.5 \u043c\u043b\u043d. \u0441\u043b\u043e\u0432, \u0441\u043b\u043e\u0432\u0430\u0440\u044c \u2014 19133 \u0441\u043b\u043e\u0432\u0430, \u0432\u0440\u0435\u043c\u044f \u043f\u043e\u0441\u0442\u0440\u043e\u0435\u043d\u0438\u044f \u043c\u043e\u0434\u0435\u043b\u0438 6 \u043c\u0438\u043d\u0443\u0442 \u043d\u0430 \u043a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440\u0435 \u0441 Intel Core i7. \u0427\u0442\u043e\u0431\u044b \u043f\u0440\u043e\u0432\u0435\u0440\u0438\u0442\u044c, \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u043b\u0438 \u043c\u043e\u0438 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b, \u044f \u043f\u043e\u043c\u0435\u043d\u044f\u043b \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 num_threads \u0441 \u0435\u0434\u0438\u043d\u0438\u0446\u044b \u043d\u0430 \u0448\u0435\u0441\u0442\u044c. \u041c\u043e\u0436\u043d\u043e \u0431\u044b\u043b\u043e \u0431\u044b \u0438 \u043d\u0435 \u0441\u043c\u043e\u0442\u0440\u0435\u0442\u044c \u043d\u0430 \u043c\u043e\u043d\u0438\u0442\u043e\u0440\u0438\u043d\u0433 \u0440\u0435\u0441\u0443\u0440\u0441\u043e\u0432, \u0432\u0440\u0435\u043c\u044f \u043f\u043e\u0441\u0442\u0440\u043e\u0435\u043d\u0438\u044f \u043c\u043e\u0434\u0435\u043b\u0438 \u0441\u043e\u043a\u0440\u0430\u0442\u0438\u043b\u043e\u0441\u044c \u0434\u043e \u043f\u043e\u043b\u0443\u0442\u043e\u0440\u0430 \u043c\u0438\u043d\u0443\u0442. \u0422\u043e \u0435\u0441\u0442\u044c \u044d\u0442\u0430 \u0448\u0442\u0443\u043a\u0430 \u0443\u043c\u0435\u0435\u0442 \u043e\u0431\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u0442\u044c \u043e\u0434\u0438\u043d\u043d\u0430\u0434\u0446\u0430\u0442\u044c \u043c\u0438\u043b\u043b\u0438\u043e\u043d\u043e\u0432 \u0441\u043b\u043e\u0432 \u0437\u0430 \u043c\u0438\u043d\u0443\u0442\u044b.<\/p>\n<h4>\u041e\u0446\u0435\u043d\u043a\u0430 \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u0430<\/h4>\n<p>  \u0412 distance \u044f \u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438 \u043d\u0438\u0447\u0435\u0433\u043e \u043c\u0435\u043d\u044f\u0442\u044c \u043d\u0435 \u0441\u0442\u0430\u043b, \u0442\u043e\u043b\u044c\u043a\u043e \u0432\u044b\u0442\u0430\u0449\u0438\u043b \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u0430 \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u043c\u044b\u0445 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0439. \u0417\u0430\u0442\u0435\u043c \u0441\u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u043e\u0432\u0430\u043b \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443, \u0437\u0430\u0433\u0440\u0443\u0437\u0438\u043b \u0435\u0451 \u0432 R \u0438 \u043f\u0440\u043e\u0432\u0435\u0440\u0438\u043b \u043d\u0430 \u0434\u0432\u0443\u0445 \u0441\u043b\u043e\u0432\u0430\u0445 \u00abbad\u00bb \u0438 \u00abgood\u00bb, \u0443\u0447\u0438\u0442\u044b\u0432\u0430\u044f, \u0447\u0442\u043e \u0438\u043c\u0435\u044e \u0434\u0435\u043b\u043e \u0441 \u043f\u043e\u043b\u043e\u0436\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u043c\u0438 \u0438 \u043e\u0442\u0440\u0438\u0446\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u043c\u0438 \u0440\u0435\u0432\u044e:  <\/p>\n<pre> Word: bad  Position in vocabulary: 15          Word   CosDist 1    terrible 0.5778409 2    horrible 0.5541780 3       lousy 0.5527389 4       awful 0.5206609 5   laughably 0.4910716 6   atrocious 0.4841466 7      horrid 0.4808238 8        good 0.4805901 9       worse 0.4726501 10 horrendous 0.4579800  Word: good  Position in vocabulary: 6         Word   CosDist 1     decent 0.5678578 2       nice 0.5364762 3      great 0.5197815 4        bad 0.4805902 5  excellent 0.4554003 6         ok 0.4365533 7    alright 0.4361723 8     really 0.4153538 9      liked 0.4061105 10      fine 0.4004776 <\/pre>\n<p>  \u0412\u0441\u0451 \u0441\u043d\u043e\u0432\u0430 \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u043e\u0441\u044c. \u0418\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u043e, \u0447\u0442\u043e \u043e\u0442 bad \u0434\u043e good \u0434\u0438\u0441\u0442\u0430\u043d\u0446\u0438\u044f \u0431\u043e\u043b\u044c\u0448\u0435 \u0447\u0435\u043c \u043e\u0442 good \u0434\u043e bad \u0435\u0441\u043b\u0438 \u0441\u0447\u0438\u0442\u0430\u0442\u044c \u0432 \u0441\u043b\u043e\u0432\u0430\u0445. \u041d\u0443, \u043a\u0430\u043a \u0433\u043e\u0432\u043e\u0440\u0438\u0442\u0441\u044f \u00ab\u043e\u0442 \u043b\u044e\u0431\u0432\u0438 \u0434\u043e \u043d\u0435\u043d\u0430\u0432\u0438\u0441\u0442\u0438&#8230;\u00bb \u0431\u043b\u0438\u0436\u0435 \u0447\u0435\u043c \u043d\u0430\u043e\u0431\u043e\u0440\u043e\u0442. \u0410\u043b\u0433\u043e\u0440\u0438\u0442\u043c \u0440\u0430\u0441\u0441\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u0442 \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u043e \u043a\u0430\u043a \u043a\u043e\u0441\u0438\u043d\u0443\u0441 \u0443\u0433\u043b\u0430 \u043c\u0435\u0436\u0434\u0443 \u0432\u0435\u043a\u0442\u043e\u0440\u0430\u043c\u0438 \u043f\u043e \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0435\u0439 \u0444\u043e\u0440\u043c\u0443\u043b\u0435 (\u043a\u0430\u0440\u0442\u0438\u043d\u043a\u0430 \u0438\u0437 <a href=\"http:\/\/en.wikipedia.org\/wiki\/Cosine_similarity\">\u0432\u0438\u043a\u0438<\/a>):<br \/>  <img decoding=\"async\" src=\"https:\/\/habrastorage.org\/files\/971\/a14\/2d0\/971a142d059d4cc5a3de0e9b3d283936.png\"\/><br \/>  \u0410 \u0437\u043d\u0430\u0447\u0438\u0442, \u0438\u043c\u0435\u044f \u043e\u0431\u0443\u0447\u0435\u043d\u043d\u0443\u044e \u043c\u043e\u0434\u0435\u043b\u044c, \u043c\u043e\u0436\u043d\u043e \u0440\u0430\u0441\u0441\u0447\u0438\u0442\u0430\u0442\u044c \u0434\u0438\u0441\u0442\u0430\u043d\u0446\u0438\u044e \u0431\u0435\u0437 \u0421, \u0438 \u0432\u043c\u0435\u0441\u0442\u043e \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u0430 \u043e\u0446\u0435\u043d\u0438\u0442\u044c, \u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0440\u0430\u0437\u043b\u0438\u0447\u0438\u044f. \u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u043d\u0443\u0436\u043d\u043e \u043f\u043e\u0441\u0442\u0440\u043e\u0438\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u044c \u0432 \u0442\u0435\u043a\u0441\u0442\u043e\u0432\u043e\u043c \u0444\u043e\u0440\u043c\u0430\u0442\u0435 (binary=0), \u0437\u0430\u0433\u0440\u0443\u0437\u0438\u0442\u044c \u0435\u0451 \u0432 R \u043f\u0440\u0438 \u043f\u043e\u043c\u043e\u0449\u0438 read.table() \u0438 \u043d\u0430\u043f\u0438\u0441\u0430\u0442\u044c \u043d\u0435\u043a\u043e\u0442\u043e\u0440\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u043a\u043e\u0434\u0430, \u0447\u0442\u043e \u044f \u0438 \u0441\u0434\u0435\u043b\u0430\u043b. \u041a\u043e\u0434 \u0431\u0435\u0437 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 \u0438\u0441\u043a\u043b\u044e\u0447\u0435\u043d\u0438\u0439:  <\/p>\n<pre><code>similarity &lt;- function(word1, word2, model) {     size &lt;- ncol(model)-1     vec1 &lt;- model[model$word==word1,2:size]     vec2 &lt;- model[model$word==word2,2:size]     sim &lt;- sum(vec1 * vec2)     sim &lt;- sim\/(sqrt(sum(vec1^2))*sqrt(sum(vec2^2)))     return(sim) } difference &lt;- function(string, model) {     words &lt;- tokenize(string)     num_words &lt;- length(words)     diff_mx &lt;- matrix(rep(0,num_words^2), nrow=num_words, ncol=num_words)     for (i in 1:num_words) {         for (j in 1:num_words) {             sim &lt;- similarity(words[i],words[j],model)             if(i!=j) {                 diff_mx[i,j]=sim             }         }     }     return(words[which.min(rowSums(diff_mx))]) } <\/code><\/pre>\n<p>  \u0417\u0434\u0435\u0441\u044c \u0441\u0442\u0440\u043e\u0438\u0442\u0441\u044f \u043a\u0432\u0430\u0434\u0440\u0430\u0442\u043d\u0430\u044f \u043c\u0430\u0442\u0440\u0438\u0446\u0430 \u0440\u0430\u0437\u043c\u0435\u0440\u043e\u043c \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0441\u043b\u043e\u0432 \u0432 \u0437\u0430\u043f\u0440\u043e\u0441\u0435 \u043d\u0430 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0441\u043b\u043e\u0432. \u0414\u0430\u043b\u044c\u0448\u0435 \u0434\u043b\u044f \u043a\u0430\u0436\u0434\u043e\u0439 \u043f\u0430\u0440\u044b \u043d\u0435\u0441\u043e\u0432\u043f\u0430\u0434\u0430\u044e\u0449\u0438\u0445 \u0441\u043b\u043e\u0432 \u0440\u0430\u0441\u0441\u0447\u0438\u0442\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u0441\u0445\u043e\u0434\u0441\u0442\u0432\u043e. \u041f\u043e\u0442\u043e\u043c \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f \u0441\u0443\u043c\u043c\u0438\u0440\u0443\u044e\u0442\u0441\u044f \u043f\u043e \u0441\u0442\u0440\u043e\u043a\u0430\u043c, \u043d\u0430\u0445\u043e\u0434\u0438\u0442\u0441\u044f \u0441\u0442\u0440\u043e\u043a\u0430 \u0441 \u043c\u0438\u043d\u0438\u043c\u0430\u043b\u044c\u043d\u043e\u0439 \u0441\u0443\u043c\u043c\u043e\u0439. \u041d\u043e\u043c\u0435\u0440 \u0441\u0442\u0440\u043e\u043a\u0438 \u0441\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0443\u0435\u0442 \u043f\u043e\u0437\u0438\u0446\u0438\u0438 \u00ab\u043b\u0438\u0448\u043d\u0435\u0433\u043e\u00bb \u0441\u043b\u043e\u0432\u0430 \u0432 \u0437\u0430\u043f\u0440\u043e\u0441\u0435. \u0420\u0430\u0431\u043e\u0442\u0443 \u043c\u043e\u0436\u043d\u043e \u0443\u0441\u043a\u043e\u0440\u0438\u0442\u044c, \u0435\u0441\u043b\u0438 \u0441\u0447\u0438\u0442\u0430\u0442\u044c \u0442\u043e\u043b\u044c\u043a\u043e \u043f\u043e\u043b\u043e\u0432\u0438\u043d\u0443 \u043c\u0430\u0442\u0440\u0438\u0446\u044b. \u041f\u0430\u0440\u0430 \u043f\u0440\u0438\u043c\u0435\u0440\u043e\u0432:  <\/p>\n<pre> &gt; difference(&quot;squirrel deer human dog cat&quot;, model) [1] &quot;human&quot; &gt; difference(&quot;bad red good nice awful&quot;, model) [1] &quot;red&quot; <\/pre>\n<p>  <\/p>\n<h4>\u0410\u043d\u0430\u043b\u043e\u0433\u0438\u0438<\/h4>\n<p>  \u041f\u043e\u0438\u0441\u043a \u0430\u043d\u0430\u043b\u043e\u0433\u0438\u0439 \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u0440\u0435\u0448\u0430\u0442\u044c \u0437\u0430\u0434\u0430\u0447\u043a\u0438 \u0442\u0438\u043f\u0430 \u00ab\u043c\u0443\u0436\u0447\u0438\u043d\u0430 \u043e\u0442\u043d\u043e\u0441\u0438\u0442\u0441\u044f \u043a \u0436\u0435\u043d\u0449\u0438\u043d\u0430 \u043a\u0430\u043a \u043a\u043e\u0440\u043e\u043b\u044c \u043e\u0442\u043d\u043e\u0441\u0438\u0442\u0441\u044f \u043a ?\u00bb. \u0421\u043f\u0435\u0446\u0438\u0430\u043b\u044c\u043d\u0430\u044f \u0444\u0443\u043d\u043a\u0446\u0438\u044f word-analogy \u0435\u0441\u0442\u044c \u0442\u043e\u043b\u044c\u043a\u043e \u0432 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b\u044c\u043d\u043e\u043c \u043a\u043e\u0434\u0435 Google, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0441 \u043d\u0435\u0439 \u043f\u0440\u0438\u0448\u043b\u043e\u0441\u044c \u043f\u043e\u0432\u043e\u0437\u0438\u0442\u044c\u0441\u044f. \u042f \u043d\u0430\u043f\u0438\u0441\u0430\u043b \u043e\u0431\u0435\u0440\u0442\u043a\u0443 \u0434\u043b\u044f \u0432\u044b\u0437\u043e\u0432\u0430 \u0444\u0443\u043d\u043a\u0446\u0438\u0438 \u0438\u0437 R, \u0443\u0431\u0440\u0430\u043b \u0438\u0437 \u043a\u043e\u0434\u0430 \u0431\u0435\u0441\u043a\u043e\u043d\u0435\u0447\u043d\u044b\u0439 \u0446\u0438\u043a\u043b \u0438 \u0437\u0430\u043c\u0435\u043d\u0438\u043b \u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u044b\u0435 \u043f\u043e\u0442\u043e\u043a\u0438 \u0432\u0432\u043e\u0434\u0430-\u0432\u044b\u0432\u043e\u0434\u0430 \u043d\u0430 \u043f\u0435\u0440\u0435\u0434\u0430\u0447\u0443 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432. \u0417\u0430\u0442\u0435\u043c \u0441\u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u043e\u0432\u0430\u043b \u0432 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443 \u0438 \u0441\u0434\u0435\u043b\u0430\u043b \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u043e\u0432. \u0428\u0442\u0443\u043a\u0430 \u0441 \u043a\u043e\u0440\u043e\u043b\u0435\u043c-\u043a\u043e\u0440\u043e\u043b\u0435\u0432\u043e\u0439 \u0443 \u043c\u0435\u043d\u044f \u043d\u0435 \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0430\u0441\u044c, \u0432\u0438\u0434\u0438\u043c\u043e \u043e\u0434\u0438\u043d\u043d\u0430\u0434\u0446\u0430\u0442\u0438 \u043c\u0438\u043b\u043b\u0438\u043e\u043d\u043e\u0432 \u0441\u043b\u043e\u0432 \u043c\u0430\u043b\u043e\u0432\u0430\u0442\u043e (\u0430\u0432\u0442\u043e\u0440\u044b word2vec \u0440\u0435\u043a\u043e\u043c\u0435\u043d\u0434\u0443\u044e\u0442 \u0432 \u0440\u0430\u0439\u043e\u043d\u0435 \u043c\u0438\u043b\u043b\u0438\u0430\u0440\u0434\u0430). \u041d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0443\u0434\u0430\u0447\u043d\u044b\u0445 \u043f\u0440\u0438\u043c\u0435\u0440\u043e\u0432:  <\/p>\n<pre> &gt; analogy(&quot;model300.bin&quot;, &quot;man woman king&quot;, 3)       Word   CosDist 1   throne 0.4466286 2     lear 0.4268206 3 princess 0.4251665  &gt; analogy(&quot;model300.bin&quot;, &quot;man woman husband&quot;, 3)         Word   CosDist 1       wife 0.6323696 2 unfaithful 0.5626401 3    married 0.5268299  &gt; analogy(&quot;model300.bin&quot;, &quot;man woman boy&quot;, 3)      Word   CosDist 1    girl 0.6313665 2  mother 0.4309490 3 teenage 0.4272232 <\/pre>\n<p>  <\/p>\n<h4>\u041a\u043b\u0430\u0441\u0442\u0435\u0440\u0438\u0437\u0430\u0446\u0438\u044f<\/h4>\n<p>  \u041f\u043e\u0447\u0438\u0442\u0430\u0432 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0446\u0438\u044e \u044f \u043f\u043e\u043d\u044f\u043b, \u0447\u0442\u043e \u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u0432 word2vec \u0435\u0441\u0442\u044c \u0432\u0441\u0442\u0440\u043e\u0435\u043d\u043d\u0430\u044f K-Means \u043a\u043b\u0430\u0441\u0442\u0435\u0440\u0438\u0437\u0430\u0446\u0438\u044f. \u0418 \u0447\u0442\u043e\u0431\u044b \u0435\u0439 \u0432\u043e\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c\u0441\u044f \u0434\u043e\u0441\u0442\u0430\u0442\u043e\u0447\u043d\u043e \u00ab\u0432\u044b\u0442\u0430\u0449\u0438\u0442\u044c\u00bb \u0432 R \u0435\u0449\u0435 \u043e\u0434\u0438\u043d \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440 \u2014 classes. \u042d\u0442\u043e \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u043a\u043b\u0430\u0441\u0442\u0435\u0440\u043e\u0432, \u0435\u0441\u043b\u0438 \u043e\u043d\u043e \u0431\u043e\u043b\u044c\u0448\u0435 \u043d\u0443\u043b\u044f, word2vec \u0432\u044b\u0434\u0430\u0441\u0442 \u0442\u0435\u043a\u0441\u0442\u043e\u0432\u044b\u0439 \u0444\u0430\u0439\u043b \u0444\u043e\u0440\u043c\u0430\u0442\u0430 \u0441\u043b\u043e\u0432\u043e \u2014 \u043d\u043e\u043c\u0435\u0440 \u043a\u043b\u0430\u0441\u0442\u0435\u0440\u0430. \u0422\u0440\u0438\u0441\u0442\u0430 \u043a\u043b\u0430\u0441\u0442\u0435\u0440\u043e\u0432 \u043e\u043a\u0430\u0437\u0430\u043b\u043e\u0441\u044c \u043c\u0430\u043b\u043e \u0447\u0442\u043e\u0431\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0447\u0442\u043e-\u0442\u043e \u0432\u043c\u0435\u043d\u044f\u0435\u043c\u043e\u0435. \u042d\u0432\u0440\u0438\u0441\u0442\u0438\u043a\u0430 \u043e\u0442 \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u043e\u0432: \u0440\u0430\u0437\u043c\u0435\u0440 \u0441\u043b\u043e\u0432\u0430\u0440\u044f \u043f\u043e\u0434\u0435\u043b\u0435\u043d\u043d\u044b\u0439 \u043d\u0430 5. \u0421\u043e\u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0435\u043d\u043d\u043e \u0432\u044b\u0431\u0440\u0430\u043b 3000. \u041f\u0440\u0438\u0432\u0435\u0434\u0443 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0443\u0434\u0430\u0447\u043d\u044b\u0445 \u043a\u043b\u0430\u0441\u0442\u0435\u0440\u043e\u0432 (\u0443\u0434\u0430\u0447\u043d\u044b\u0445 \u0432 \u0442\u043e\u043c \u0441\u043c\u044b\u0441\u043b\u0435, \u0447\u0442\u043e \u044f \u043f\u043e\u043d\u0438\u043c\u0430\u044e, \u043f\u043e\u0447\u0435\u043c\u0443 \u044d\u0442\u0438 \u0441\u043b\u043e\u0432\u0430 \u0440\u044f\u0434\u043e\u043c):  <\/p>\n<pre>            word   id 335       humor 2952 489     serious 2952 872      clever 2952 1035     humour 2952 1796 references 2952 1916     satire 2952 2061  slapstick 2952 2367     quirky 2952 2810      crude 2952 2953      irony 2952 3125 outrageous 2952 3296      farce 2952 3594      broad 2952 4870  silliness 2952 4979       edgy 2952          word  id 1025     cat 241 3242   mouse 241 11189 minnie 241             word  id 1089       army 322 1127   military 322 1556    mission 322 1558    soldier 322 3254       navy 322 3323     combat 322 3902    command 322 3975       unit 322 4270    colonel 322 4277  commander 322 7821    platoon 322 7853    marines 322 8691      naval 322 9762        pow 322 10391        gi 322 12452     corps 322 15839  infantry 322 16697     diver 322 <\/pre>\n<p>  \u0421 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u043a\u043b\u0430\u0441\u0442\u0435\u0440\u0438\u0437\u0430\u0446\u0438\u0438 \u043d\u0435\u0442\u0440\u0443\u0434\u043d\u043e \u0441\u0434\u0435\u043b\u0430\u0442\u044c \u0441\u0435\u043d\u0442\u0438\u043c\u0435\u043d\u0442-\u0430\u043d\u0430\u043b\u0438\u0437. \u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u043d\u0443\u0436\u043d\u043e \u043f\u043e\u0441\u0442\u0440\u043e\u0438\u0442\u044c \u00ab\u043c\u0435\u0448\u043e\u043a \u043a\u043b\u0430\u0441\u0442\u0435\u0440\u043e\u0432\u00bb \u2014 \u043c\u0430\u0442\u0440\u0438\u0446\u0443 \u0440\u0430\u0437\u043c\u0435\u0440\u043e\u043c \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0440\u0435\u0432\u044e \u043d\u0430 \u043c\u0430\u043a\u0441\u0438\u043c\u0430\u043b\u044c\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u043a\u043b\u0430\u0441\u0442\u0435\u0440\u043e\u0432. \u0412 \u043a\u0430\u0436\u0434\u043e\u0439 \u044f\u0447\u0435\u0439\u043a\u0438 \u0442\u0430\u043a\u043e\u0439 \u043c\u0430\u0442\u0440\u0438\u0446\u044b \u0434\u043e\u043b\u0436\u043d\u043e \u0431\u044b\u0442\u044c \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u043f\u043e\u043f\u0430\u0434\u0430\u043d\u0438\u0439 \u0441\u043b\u043e\u0432 \u0438\u0437 \u0440\u0435\u0432\u044e \u0432 \u0437\u0430\u0434\u0430\u043d\u043d\u044b\u0439 \u043a\u043b\u0430\u0441\u0442\u0435\u0440. \u042f \u043d\u0435 \u043f\u0440\u043e\u0431\u043e\u0432\u0430\u043b, \u043d\u043e \u043f\u0440\u043e\u0431\u043b\u0435\u043c \u0437\u0434\u0435\u0441\u044c \u043d\u0435 \u0432\u0438\u0436\u0443. <a href=\"https:\/\/www.kaggle.com\/c\/word2vec-nlp-tutorial\/details\/part-3-more-fun-with-word-vectors\">\u0413\u043e\u0432\u043e\u0440\u044f\u0442<\/a>, \u0447\u0442\u043e \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u044c \u0434\u043b\u044f \u0440\u0435\u0432\u044e \u0438\u0437 IMDB \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442\u0441\u044f \u0442\u0430\u043a\u043e\u0439 \u0436\u0435 \u0438\u043b\u0438 \u043d\u0435\u043c\u043d\u043e\u0433\u043e \u043c\u0435\u043d\u044c\u0448\u0435, \u0447\u0435\u043c \u0435\u0441\u043b\u0438 \u044d\u0442\u043e \u0434\u0435\u043b\u0430\u0442\u044c \u0447\u0435\u0440\u0435\u0437 \u00ab\u041c\u0435\u0448\u043e\u043a \u0441\u043b\u043e\u0432\u00bb.<\/p>\n<h4>\u0424\u0440\u0430\u0437\u044b<\/h4>\n<p>  Word2vec \u0443\u043c\u0435\u0435\u0442 \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u0441 \u0444\u0440\u0430\u0437\u0430\u043c\u0438, \u0432\u0435\u0440\u043d\u0435\u0435 \u0441 \u0443\u0441\u0442\u043e\u0439\u0447\u0438\u0432\u044b\u043c\u0438 \u0441\u043e\u0447\u0435\u0442\u0430\u043d\u0438\u044f\u043c\u0438 \u0441\u043b\u043e\u0432. \u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0432 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b\u044c\u043d\u043e\u043c \u043a\u043e\u0434\u0435 \u0435\u0441\u0442\u044c \u043f\u0440\u043e\u0446\u0435\u0434\u0443\u0440\u0430 word2phrase. \u0415\u0451 \u0437\u0430\u0434\u0430\u0447\u0430 \u2013 \u043d\u0430\u0439\u0442\u0438 \u0447\u0430\u0441\u0442\u043e \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u044e\u0449\u0438\u0435\u0441\u044f \u0441\u043e\u0447\u0435\u0442\u0430\u043d\u0438\u044f \u0441\u043b\u043e\u0432 \u0438 \u0437\u0430\u043c\u0435\u043d\u0438\u0442\u044c \u043f\u0440\u043e\u0431\u0435\u043b \u043c\u0435\u0436\u0434\u0443 \u043d\u0438\u043c\u0438 \u043d\u0430 \u043d\u0438\u0436\u043d\u0435\u0435 \u043f\u043e\u0434\u0447\u0435\u0440\u043a\u0438\u0432\u0430\u043d\u0438\u0435. \u0424\u0430\u0439\u043b, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u0442\u0441\u044f \u043f\u043e\u0441\u043b\u0435 \u043f\u0435\u0440\u0432\u043e\u0433\u043e \u043f\u0440\u043e\u0445\u043e\u0434\u0430 \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u0434\u0432\u043e\u0439\u043a\u0438 \u0441\u043b\u043e\u0432. \u0415\u0441\u043b\u0438 \u0435\u0433\u043e \u0441\u043d\u043e\u0432\u0430 \u043e\u0442\u043f\u0440\u0430\u0432\u0438\u0442\u044c \u0432 word2phrase, \u043f\u043e\u044f\u0432\u044f\u0442\u0441\u044f \u0442\u0440\u043e\u0439\u043a\u0438 \u0438 \u0447\u0435\u0442\u0432\u0435\u0440\u043a\u0438. \u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043f\u043e\u0442\u043e\u043c \u043c\u043e\u0436\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0434\u043b\u044f \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043a\u0438 word2vec.<br \/>  \u0421\u0434\u0435\u043b\u0430\u043b \u0432\u044b\u0437\u043e\u0432 \u044d\u0442\u043e\u0439 \u043f\u0440\u043e\u0446\u0435\u0434\u0443\u0440\u044b \u0438\u0437 R \u043f\u043e \u0430\u043d\u0430\u043b\u043e\u0433\u0438\u0438 \u0441 word2vec:  <\/p>\n<pre><code>word2phrase(&quot;train_data.txt&quot;,              &quot;train_phrase.txt&quot;,             min_count=5,                threshold=100) <\/code><\/pre>\n<p>  \u041f\u0430\u0440\u0430\u043c\u0435\u0442\u0440 <b>min_count<\/b> \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u043d\u0435 \u0440\u0430\u0441\u0441\u043c\u0430\u0442\u0440\u0438\u0432\u0430\u0442\u044c \u0441\u043b\u043e\u0432\u043e\u0441\u043e\u0447\u0435\u0442\u0430\u043d\u0438\u044f, \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u044e\u0449\u0438\u0435\u0441\u044f \u043c\u0435\u043d\u0435 \u0437\u0430\u0434\u0430\u043d\u043d\u043e\u0433\u043e \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u044f, <b>threshold<\/b> \u0443\u043f\u0440\u0430\u0432\u043b\u044f\u0435\u0442 \u0447\u0443\u0432\u0441\u0442\u0432\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u044c\u044e \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u0430, \u0447\u0435\u043c \u0431\u043e\u043b\u044c\u0448\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435, \u0442\u0435\u043c \u043c\u0435\u043d\u044c\u0448\u0435 \u0444\u0440\u0430\u0437 \u0431\u0443\u0434\u0435\u0442 \u043d\u0430\u0439\u0434\u0435\u043d\u043e. \u041f\u043e\u0441\u043b\u0435 \u0432\u0442\u043e\u0440\u043e\u0433\u043e \u043f\u0440\u043e\u0445\u043e\u0434\u0430 \u0443 \u043c\u0435\u043d\u044f \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u043e\u0441\u044c \u043e\u043a\u043e\u043b\u043e \u0448\u0435\u0441\u0442\u0438 \u0442\u044b\u0441\u044f\u0447 \u0441\u043e\u0447\u0435\u0442\u0430\u043d\u0438\u0439. \u0427\u0442\u043e\u0431\u044b \u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0435\u0442\u044c \u043d\u0430 \u0441\u0430\u043c\u0438 \u0444\u0440\u0430\u0437\u044b \u044f \u0441\u043d\u0430\u0447\u0430\u043b\u0430 \u0441\u0434\u0435\u043b\u0430\u043b \u043c\u043e\u0434\u0435\u043b\u044c \u0432 \u0442\u0435\u043a\u0441\u0442\u043e\u0432\u043e\u043c \u0444\u043e\u0440\u043c\u0430\u0442\u0435, \u0432\u044b\u0442\u0430\u0449\u0438\u043b \u043e\u0442\u0442\u0443\u0434\u0430 \u0441\u0442\u043e\u043b\u0431\u0435\u0446 \u0441\u043b\u043e\u0432 \u0438 \u043e\u0442\u0444\u0438\u043b\u044c\u0442\u0440\u043e\u0432\u0430\u043b \u043f\u043e \u043d\u0438\u0436\u043d\u0435\u043c\u0443 \u043f\u043e\u0434\u0447\u0435\u0440\u043a\u0438\u0432\u0430\u043d\u0438\u044e. \u0412\u043e\u0442 \u0444\u0440\u0430\u0433\u043c\u0435\u043d\u0442 \u0434\u043b\u044f \u043f\u0440\u0438\u043c\u0435\u0440\u0430:  <\/p>\n<pre> [5887] &quot;works_perfectly&quot;                     &quot;four_year_old&quot;                       &quot;multi_million_dollar&quot;                [5890] &quot;fresh_faced&quot;                         &quot;return_living_dead&quot;                  &quot;seemed_forced&quot;                       [5893] &quot;freddie_prinze_jr&quot;                   &quot;re_lucky&quot;                            &quot;puerto_rico&quot;                         [5896] &quot;every_sentence&quot;                      &quot;living_hell&quot;                         &quot;went_straight&quot;                       [5899] &quot;supporting_cast_including&quot;           &quot;action_set_pieces&quot;                   &quot;space_shuttle&quot;      <\/pre>\n<p>  \u0412\u044b\u0431\u0440\u0430\u043b \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0444\u0440\u0430\u0437 \u0434\u043b\u044f distance():  <\/p>\n<pre> &gt; distance(&quot;p_model300_2.bin&quot;, &quot;crouching_tiger_hidden_dragon&quot;, 10) Word: crouching_tiger_hidden_dragon  Position in vocabulary: 15492                  Word   CosDist 1           tsui_hark 0.6041993 2             ang_lee 0.5996884 3  martial_arts_films 0.5541546 4      kung_fu_hustle 0.5381692 5        blockbusters 0.5305687 6           kill_bill 0.5279162 7          grindhouse 0.5242150 8             churned 0.5224440 9             budgets 0.5141657 10           john_woo 0.5046486  &gt; distance(&quot;p_model300_2.bin&quot;, &quot;academy_award_winning&quot;, 10) Word: academy_award_winning  Position in vocabulary: 15780                    Word   CosDist 1           nominations 0.4570983 2         ever_produced 0.4558123 3  francis_ford_coppola 0.4547777 4     producer_director 0.4545878 5          set_standard 0.4512480 6         participation 0.4503479 7     won_academy_award 0.4477891 8          michael_mann 0.4464636 9           huge_budget 0.4424854 10    directorial_debut 0.4406852 <\/pre>\n<p>  \u041d\u0430 \u044d\u0442\u043e\u043c \u044f \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u044b \u043f\u043e\u043a\u0430 \u0437\u0430\u0432\u0435\u0440\u0448\u0438\u043b. \u041e\u0434\u043d\u043e \u0432\u0430\u0436\u043d\u043e\u0435 \u0437\u0430\u043c\u0435\u0447\u0430\u043d\u0438\u0435, word2vec \u00ab\u043e\u0431\u0449\u0430\u0435\u0442\u0441\u044f\u00bb \u0441 \u043f\u0430\u043c\u044f\u0442\u044c\u044e \u043d\u0430\u043f\u0440\u044f\u043c\u0443\u044e, \u0432 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0435 R \u043c\u043e\u0436\u0435\u0442 \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u043d\u0435\u0441\u0442\u0430\u0431\u0438\u043b\u044c\u043d\u043e \u0438 \u0430\u0432\u0430\u0440\u0438\u0439\u043d\u043e \u0437\u0430\u0432\u0435\u0440\u0448\u0430\u0442\u044c \u0441\u0435\u0441\u0441\u0438\u044e. \u0418\u043d\u043e\u0433\u0434\u0430 \u044d\u0442\u043e \u0441\u0432\u044f\u0437\u0430\u043d\u043e \u0441 \u0432\u044b\u0432\u043e\u0434\u043e\u043c \u0434\u0438\u0430\u0433\u043d\u043e\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0441\u043e\u043e\u0431\u0449\u0435\u043d\u0438\u0439 \u043e\u0442 \u041e\u0421, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 R \u043d\u0435 \u043c\u043e\u0436\u0435\u0442 \u043a\u043e\u0440\u0440\u0435\u043a\u0442\u043d\u043e \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c. \u0415\u0441\u043b\u0438 \u043e\u0448\u0438\u0431\u043e\u043a \u0432 \u043a\u043e\u0434\u0435 \u043d\u0435\u0442, \u0442\u043e \u043f\u043e\u043c\u043e\u0433\u0430\u0435\u0442 \u043f\u0435\u0440\u0435\u0437\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u044c \u0438\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0430\u0442\u043e\u0440 \u0438\u043b\u0438 Rstudio.<\/p>\n<p>  R-\u043a\u043e\u0434, \u0438\u0441\u0445\u043e\u0434\u043d\u0438\u043a\u0438 \u043d\u0430 C \u0438 \u0441\u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0435 \u043f\u043e\u0434 x64 Windows dll \u0432 \u043c\u043e\u0435\u043c <a href=\"https:\/\/github.com\/khmelkoff\/Deepl\">\u0440\u0435\u043f\u043e\u0437\u0438\u0442\u0430\u0440\u0438\u0438<\/a>.     \t<\/p>\n<div class=\"clear\"><\/div>\n<p> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"http:\/\/habrahabr.ru\/post\/258983\/\"> http:\/\/habrahabr.ru\/post\/258983\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>     \tWord2vec \u044f\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438 \u0435\u0434\u0438\u043d\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u043c \u0430\u043b\u0433\u043e\u0440\u0438\u0442\u043c\u043e\u043c deep learning, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0441\u0440\u0430\u0432\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u043e \u043b\u0435\u0433\u043a\u043e \u043c\u043e\u0436\u043d\u043e \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u044c \u043d\u0430 \u043e\u0431\u044b\u0447\u043d\u043e\u043c \u041f\u041a (\u0430 \u043d\u0435 \u043d\u0430 \u0432\u0438\u0434\u0435\u043e\u043a\u0430\u0440\u0442\u0430\u0445) \u0438 \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0441\u0442\u0440\u043e\u0438\u0442 \u0440\u0430\u0441\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u043d\u043e\u0435 \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u0435 \u0441\u043b\u043e\u0432 \u0437\u0430 \u043f\u0440\u0438\u0435\u043c\u043b\u0435\u043c\u043e\u0435 \u0432\u0440\u0435\u043c\u044f, \u043f\u043e \u043a\u0440\u0430\u0439\u043d\u0435\u0439 \u043c\u0435\u0440\u0435 \u0442\u0430\u043a \u0441\u0447\u0438\u0442\u0430\u044e\u0442 \u043d\u0430 <a href=\"https:\/\/www.kaggle.com\/c\/word2vec-nlp-tutorial\/details\/part-2-word-vectors\">Kaggle<\/a>. \u041f\u0440\u043e\u0447\u0438\u0442\u0430\u0432 <a href=\"http:\/\/habrahabr.ru\/post\/249215\/\">\u0437\u0434\u0435\u0441\u044c<\/a> \u043f\u0440\u043e \u0442\u043e, \u043a\u0430\u043a\u0438\u0435 \u0444\u043e\u043a\u0443\u0441\u044b \u043c\u043e\u0436\u043d\u043e \u0434\u0435\u043b\u0430\u0442\u044c \u0441 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u044c\u044e, \u044f \u043f\u043e\u043d\u044f\u043b, \u0447\u0442\u043e \u0442\u0430\u043a\u0443\u044e \u0448\u0442\u0443\u043a\u0443 \u043f\u0440\u043e\u0441\u0442\u043e \u043e\u0431\u044f\u0437\u0430\u043d \u043f\u043e\u043f\u0440\u043e\u0431\u043e\u0432\u0430\u0442\u044c. \u041f\u0440\u043e\u0431\u043b\u0435\u043c\u0430 \u0442\u043e\u043b\u044c\u043a\u043e \u043e\u0434\u043d\u0430, \u044f \u043f\u0440\u0435\u0438\u043c\u0443\u0449\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u044e \u043d\u0430 \u044f\u0437\u044b\u043a\u0435 R, \u0430 \u0432\u043e\u0442 \u043e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u0443\u044e \u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044e word2vec \u043f\u043e\u0434 R \u043c\u043d\u0435 \u043d\u0430\u0439\u0442\u0438 \u043d\u0435 \u0443\u0434\u0430\u043b\u043e\u0441\u044c, \u0434\u0443\u043c\u0430\u044e \u0435\u0451 \u043f\u0440\u043e\u0441\u0442\u043e \u043d\u0435\u0442.<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-258210","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/258210","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=258210"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/258210\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=258210"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=258210"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=258210"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}