{"id":265263,"date":"2015-09-09T14:53:04","date_gmt":"2015-09-09T10:53:04","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=265263"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=265263","title":{"rendered":"\u041a\u0430\u043a \u0437\u0430 \u043c\u0435\u0441\u044f\u0446 \u0441\u0438\u043b\u044c\u043d\u043e \u043f\u0440\u043e\u043a\u0430\u0447\u0430\u0442\u044c\u0441\u044f \u0432 Data Science"},"content":{"rendered":"<p>       \u041f\u0440\u0438\u0432\u0435\u0442, \u0445\u0430\u0431\u0440!<\/p>\n<p>  <img decoding=\"async\" src=\"https:\/\/habrastorage.org\/files\/a21\/8b8\/fa4\/a218b8fa47f94a2cb189b1f559558d91.png\"\/><\/p>\n<p>  \u041c\u0435\u043d\u044f \u0437\u043e\u0432\u0443\u0442 <a href=\"https:\/\/ru.linkedin.com\/in\/morozovgleb\">\u0413\u043b\u0435\u0431<\/a>, \u044f \u0434\u043e\u043b\u0433\u043e\u0435 \u0432\u0440\u0435\u043c\u044f \u0440\u0430\u0431\u043e\u0442\u0430\u044e \u0432 \u0440\u0438\u0442\u0435\u0439\u043b\u043e\u0432\u043e\u0439 \u0430\u043d\u0430\u043b\u0438\u0442\u0438\u043a\u0435 \u0438 \u0441\u0435\u0439\u0447\u0430\u0441 \u0437\u0430\u043d\u0438\u043c\u0430\u044e\u0441\u044c \u043f\u0440\u0438\u043c\u0435\u043d\u0435\u043d\u0438\u0435\u043c \u043c\u0430\u0448\u0438\u043d\u043d\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0432 \u0434\u0430\u043d\u043d\u043e\u0439 \u043e\u0431\u043b\u0430\u0441\u0442\u0438. \u041d\u0435 \u0442\u0430\u043a \u0434\u0430\u0432\u043d\u043e \u044f \u043f\u043e\u0437\u043d\u0430\u043a\u043e\u043c\u0438\u043b\u0441\u044f \u0441 \u0440\u0435\u0431\u044f\u0442\u0430\u043c\u0438 \u0438\u0437 <a href=\"http:\/\/dscource.mlclass.ru\">MLClass.ru<\/a>, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0437\u0430 \u043e\u0447\u0435\u043d\u044c \u043a\u043e\u0440\u043e\u0442\u043a\u0438\u0439 \u0441\u0440\u043e\u043a \u0434\u043e\u0432\u043e\u043b\u044c\u043d\u043e \u0441\u0438\u043b\u044c\u043d\u043e \u043f\u0440\u043e\u043a\u0430\u0447\u0430\u043b\u0438 \u043c\u0435\u043d\u044f \u0432 \u043e\u0431\u043b\u0430\u0441\u0442\u0438 <b>Data Science<\/b>. \u0411\u043b\u0430\u0433\u043e\u0434\u0430\u0440\u044f \u0438\u043c, \u0431\u0443\u043a\u0432\u0430\u043b\u044c\u043d\u043e \u0437\u0430 \u043c\u0435\u0441\u044f\u0446 \u044f \u0441\u0442\u0430\u043b \u0430\u043a\u0442\u0438\u0432\u043d\u043e \u0441\u0430\u0431\u043c\u0438\u0442\u0438\u0442\u044c \u043d\u0430 kaggle. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u0434\u0430\u043d\u043d\u0430\u044f \u0441\u0435\u0440\u0438\u044f \u043f\u0443\u0431\u043b\u0438\u043a\u0430\u0446\u0438\u0439 \u0431\u0443\u0434\u0435\u0442 \u043e\u043f\u0438\u0441\u044b\u0432\u0430\u0442\u044c \u043c\u043e\u0439 \u043e\u043f\u044b\u0442 \u0438\u0437\u0443\u0447\u0435\u043d\u0438\u044f Data Science: \u0432\u0441\u0435 \u043e\u0448\u0438\u0431\u043a\u0438, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0431\u044b\u043b\u0438 \u0434\u043e\u043f\u0443\u0449\u0435\u043d\u044b, \u0430 \u0442\u0430\u043a\u0436\u0435 \u0446\u0435\u043d\u043d\u044b\u0435 \u0441\u043e\u0432\u0435\u0442\u044b, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043c\u043d\u0435 \u043f\u0435\u0440\u0435\u0434\u0430\u043b\u0438 \u0440\u0435\u0431\u044f\u0442\u0430. \u0421\u0435\u0433\u043e\u0434\u043d\u044f \u044f \u0440\u0430\u0441\u0441\u043a\u0430\u0436\u0443 \u043e\u0431 \u043e\u043f\u044b\u0442\u0435 \u0443\u0447\u0430\u0441\u0442\u0438\u044f \u0432 \u0441\u043e\u0440\u0435\u0432\u043d\u043e\u0432\u0430\u043d\u0438\u0438 <a href=\"https:\/\/inclass.kaggle.com\/c\/15-071x-the-analytics-edge-summer-2015\">The Analytics Edge (Spring 2015)<\/a>. \u042d\u0442\u043e \u043c\u043e\u044f \u043f\u0435\u0440\u0432\u0430\u044f \u0441\u0442\u0430\u0442\u044c\u044f \u2014 \u043d\u0435 \u0441\u0443\u0434\u0438\u0442\u0435 \u0441\u0442\u0440\u043e\u0433\u043e=)<br \/>  <a name=\"habracut\"><\/a><br \/>  \u041e\u043f\u0438\u0441\u044b\u0432\u0430\u0435\u043c\u043e\u0435 \u0441\u043e\u0440\u0435\u0432\u043d\u043e\u0432\u0430\u043d\u0438\u0435 \u043f\u0440\u043e\u0432\u043e\u0434\u0438\u043b\u043e\u0441\u044c \u0432 \u0440\u0430\u043c\u043a\u0430\u0445 \u043a\u0443\u0440\u0441\u0430 <b>\u00abThe Analytics Edge\u00bb \u043e\u0442 \u00abMassachusetts Institute of Technology\u00bb<\/b>. \u041d\u0438\u0436\u0435 \u044f \u0431\u0443\u0434\u0443 \u043f\u0440\u0438\u0432\u043e\u0434\u0438\u0442\u044c \u043a\u043e\u0434 \u043d\u0430 \u044f\u0437\u044b\u043a\u0435 <b>R<\/b>, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0446\u0435\u043b\u0438\u043a\u043e\u043c \u043c\u043e\u0436\u043d\u043e \u043d\u0430\u0439\u0442\u0438 <a href=\"https:\/\/github.com\/MorozovG\/Kaggle_Comp_Analytics_Edge\/blob\/master\/Kaggle_Comp.md\">\u0442\u0443\u0442<\/a>.<\/p>\n<h3>\u041e\u043f\u0438\u0441\u0430\u043d\u0438\u0435 \u0437\u0430\u0434\u0430\u0447\u0438<\/h3>\n<p>  \u041b\u044e\u0431\u043e\u0439 \u043f\u0440\u043e\u0434\u0430\u0432\u0435\u0446 \u0445\u043e\u0442\u0435\u043b \u0431\u044b \u0437\u043d\u0430\u0442\u044c \u043a\u0430\u043a\u0438\u0435 \u0445\u0430\u0440\u0430\u043a\u0442\u0435\u0440\u0438\u0441\u0442\u0438\u043a\u0438 \u0442\u043e\u0432\u0430\u0440\u0430 \u043f\u043e\u0432\u044b\u0448\u0430\u044e\u0442 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u044c \u043f\u0440\u043e\u0434\u0430\u0436\u0438 \u0442\u043e\u0432\u0430\u0440\u0430. \u0412 \u0434\u0430\u043d\u043d\u043e\u043c \u0441\u043e\u0440\u0435\u0432\u043d\u043e\u0432\u0430\u043d\u0438\u0438 \u043f\u0440\u0435\u0434\u043b\u0430\u0433\u0430\u043b\u043e\u0441\u044c \u0438\u0441\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u0438, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u044b\u0432\u0430\u043b\u0438 \u0431\u044b \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u044c \u043f\u0440\u043e\u0434\u0430\u0436\u0438 <b>Apple iPad<\/b> \u043d\u0430 \u0431\u0430\u0437\u0435 \u0434\u0430\u043d\u043d\u044b\u0445, \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u0445 \u0441 \u0441\u0430\u0439\u0442\u0430 <b>eBay<\/b>.<\/p>\n<h3>\u0414\u0430\u043d\u043d\u044b\u0435<\/h3>\n<p>  \u0414\u0430\u043d\u043d\u044b\u0435 \u043f\u0440\u0435\u0434\u043b\u0430\u0433\u0430\u0435\u043c\u044b\u0435 \u0434\u043b\u044f \u0438\u0437\u0443\u0447\u0435\u043d\u0438\u044f \u0441\u043e\u0441\u0442\u043e\u044f\u043b\u0438 \u0438\u0437 \u0434\u0432\u0443\u0445 \u0444\u0430\u0439\u043b\u043e\u0432:  <\/p>\n<ul>\n<li><b>eBayiPadTrain.csv<\/b> \u2014 \u043d\u0430\u0431\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445 \u0434\u043b\u044f \u0441\u043e\u0437\u0434\u0430\u043d\u0438\u044f \u043c\u043e\u0434\u0435\u043b\u0438. \u0421\u043e\u0434\u0435\u0440\u0436\u0438\u0442 <b>1861<\/b> \u0442\u043e\u0432\u0430\u0440.<\/li>\n<li><b>eBayiPadTest.csv<\/b> \u2014 \u0434\u0430\u043d\u043d\u044b\u0435 \u0434\u043b\u044f \u043e\u0446\u0435\u043d\u043a\u0438 \u043c\u043e\u0434\u0435\u043b\u0438<\/li>\n<\/ul>\n<p>  \u0414\u043b\u044f \u043d\u0430\u0447\u0430\u043b\u0430 \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0438\u043c \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438, \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0435\u043c\u044b\u0435 \u0432 \u0440\u0430\u0431\u043e\u0442\u0435.<\/p>\n<pre><code>library(dplyr) # \u0414\u043b\u044f \u0443\u0434\u043e\u0431\u043d\u043e\u0439 \u0440\u0430\u0431\u043e\u0442\u044b \u0441 \u0434\u0430\u043d\u043d\u044b\u043c\u0438 library(readr) # \u0414\u043b\u044f \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0438 \u0434\u0430\u043d\u043d\u044b\u0445 \u0432 \u0443\u0434\u043e\u0431\u043d\u043e\u043c \u0444\u043e\u0440\u043c\u0430\u0442\u0435 <\/code><\/pre>\n<p>  \u0422\u0435\u043f\u0435\u0440\u044c \u0437\u0430\u0433\u0440\u0443\u0437\u0438\u043c \u0434\u0430\u043d\u043d\u044b\u0435.<\/p>\n<pre><code>eBayTrain &lt;-  read_csv(&quot;eBayiPadTrain.csv&quot;) eBayTest &lt;-  read_csv(&quot;eBayiPadTest.csv&quot;) <\/code><\/pre>\n<p>  \u041f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0443 \u0434\u0430\u043d\u043d\u044b\u0445.  <\/p>\n<pre><code>summary(eBayTrain) ##  description           biddable        startprice      condition         ##  Length:1861        Min.   :0.0000   Min.   :  0.01   Length:1861        ##  Class :character   1st Qu.:0.0000   1st Qu.: 80.00   Class :character   ##  Mode  :character   Median :0.0000   Median :179.99   Mode  :character   ##                     Mean   :0.4498   Mean   :211.18                      ##                     3rd Qu.:1.0000   3rd Qu.:300.00                      ##                     Max.   :1.0000   Max.   :999.00                      ##    cellular           carrier             color           ##  Length:1861        Length:1861        Length:1861        ##  Class :character   Class :character   Class :character   ##  Mode  :character   Mode  :character   Mode  :character   ##                                                           ##                                                           ##                                                           ##    storage          productline             sold           UniqueID     ##  Length:1861        Length:1861        Min.   :0.0000   Min.   :10001   ##  Class :character   Class :character   1st Qu.:0.0000   1st Qu.:10466   ##  Mode  :character   Mode  :character   Median :0.0000   Median :10931   ##                                Mean   :0.4621   Mean   :10931   ##                                3rd Qu.:1.0000   3rd Qu.:11396   ##                                Max.   :1.0000   Max.   :11861  str(eBayTrain)  ## Classes 'tbl_df', 'tbl' and 'data.frame':    1861 obs. of  11 variables: ##  $ description: chr  &quot;iPad is in 8.5+ out of 10 cosmetic condition!&quot; &quot;Previously used, please read description. May show signs of use such as scratches to the screen and &quot; &quot;&quot; &quot;&quot; ... ##  $ biddable   : int  0 1 0 0 0 1 1 0 1 1 ... ##  $ startprice : num  159.99 0.99 199.99 235 199.99 ... ##  $ condition  : chr  &quot;Used&quot; &quot;Used&quot; &quot;Used&quot; &quot;New other (see details)&quot; ... ##  $ cellular   : chr  &quot;0&quot; &quot;1&quot; &quot;0&quot; &quot;0&quot; ... ##  $ carrier    : chr  &quot;None&quot; &quot;Verizon&quot; &quot;None&quot; &quot;None&quot; ... ##  $ color      : chr  &quot;Black&quot; &quot;Unknown&quot; &quot;White&quot; &quot;Unknown&quot; ... ##  $ storage    : chr  &quot;16&quot; &quot;16&quot; &quot;16&quot; &quot;16&quot; ... ##  $ productline: chr  &quot;iPad 2&quot; &quot;iPad 2&quot; &quot;iPad 4&quot; &quot;iPad mini 2&quot; ... ##  $ sold       : int  0 1 1 0 0 1 1 0 1 1 ... ##  $ UniqueID   : int  10001 10002 10003 10004 10005 10006 10007 10008 10009 10010 ... <\/code><\/pre>\n<p>  \u041d\u0430\u0431\u043e\u0440 \u0434\u0430\u043d\u043d\u044b\u0445 \u0441\u043e\u0441\u0442\u043e\u0438\u0442 \u0438\u0437 <b>11<\/b> \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0445:<\/p>\n<ul>\n<li><b>description<\/b> \u2014 \u0442\u0435\u043a\u0441\u0442\u043e\u0432\u043e\u0435 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0435 \u0442\u043e\u0432\u0430\u0440\u0430, \u043f\u0440\u0435\u0434\u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u043c\u043e\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u043e\u043c<\/li>\n<li><b>biddable<\/b> \u2014 \u0442\u043e\u0432\u0430\u0440 \u0432\u044b\u0441\u0442\u0430\u0432\u043b\u0435\u043d \u043d\u0430 \u0430\u0443\u043a\u0446\u0438\u043e\u043d\u0435 (= 1) \u0438\u043b\u0438 \u0441 \u0444\u0438\u043a\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u043e\u0439 \u0446\u0435\u043d\u043e\u0439 (= 0)<\/li>\n<li><b>startprice<\/b> \u2014 \u0441\u0442\u0430\u0440\u0442\u043e\u0432\u0430\u044f \u0446\u0435\u043d\u0430 \u0434\u043b\u044f \u0430\u0443\u043a\u0446\u0438\u043e\u043d\u0430 (\u0435\u0441\u043b\u0438 <b>biddable<\/b> = 1) \u0438\u043b\u0438 \u0446\u0435\u043d\u0430 \u043f\u0440\u043e\u0434\u0430\u0436\u0438 (\u0435\u0441\u043b\u0438 <b>biddable<\/b> = 0)<\/li>\n<li><b>condition<\/b> \u2014 \u0441\u043e\u0441\u0442\u043e\u044f\u043d\u0438\u0435 \u0442\u043e\u0432\u0430\u0440\u0430 (\u043d\u043e\u0432\u044b\u0439, \u0431\/\u0443 \u0438 \u0442.\u0434.)<\/li>\n<li><b>cellular<\/b> \u2014 \u0442\u043e\u0432\u0430\u0440 \u0441 \u043c\u043e\u0431\u0438\u043b\u044c\u043d\u043e\u0439 \u0441\u0432\u044f\u0437\u044c\u044e (= 1) \u0438\u043b\u0438 \u043d\u0435\u0442 (= 0)<\/li>\n<li><b>carrier<\/b> \u2014 \u043e\u043f\u0435\u0440\u0430\u0442\u043e\u0440 \u0441\u0432\u044f\u0437\u0438 (\u0435\u0441\u043b\u0438 <b>cellular<\/b> = 1)<\/li>\n<li><b>color<\/b> \u2014 \u0446\u0432\u0435\u0442<\/li>\n<li><b>storage<\/b> \u2014 \u0440\u0430\u0437\u043c\u0435\u0440 \u043f\u0430\u043c\u044f\u0442\u0438<\/li>\n<li><b>productline<\/b> \u2014 \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u0442\u043e\u0432\u0430\u0440\u0430<\/li>\n<li><b>sold<\/b> \u2014 \u0431\u044b\u043b \u043b\u0438 \u0442\u043e\u0432\u0430\u0440 \u043f\u0440\u043e\u0434\u0430\u043d (= 1) \u0438\u043b\u0438 \u043d\u0435\u0442 (=0). \u042d\u0442\u043e \u0431\u0443\u0434\u0435\u0442 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u0430\u044f \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u0430\u044f.<\/li>\n<li><b>UniqueID<\/b> \u2014 \u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u043e\u0440\u044f\u0434\u043a\u043e\u0432\u044b\u0439 \u043d\u043e\u043c\u0435\u0440<\/li>\n<\/ul>\n<p>  \u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c \u0443 \u043d\u0430\u0441 \u0435\u0441\u0442\u044c \u0442\u0440\u0438 \u0442\u0438\u043f\u0430 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0445: \u0442\u0435\u043a\u0441\u0442\u043e\u0432\u0430\u044f <b>description<\/b>, \u0447\u0438\u0441\u043b\u0435\u043d\u043d\u0430\u044f <b>startprice<\/b> \u0438 \u0432\u0441\u0435 \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0435 \u2014 \u0444\u0430\u043a\u0442\u043e\u0440\u043d\u044b\u0435.<\/p>\n<h3>\u0421\u043e\u0437\u0434\u0430\u043d\u0438\u0435 \u0434\u043e\u043f\u043e\u043b\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0445 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0445<\/h3>\n<p>  \u041f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u0443 \u043a\u0430\u043a\u043e\u0439 \u0447\u0430\u0441\u0442\u0438 \u0438\u0437 \u0442\u043e\u0432\u0430\u0440\u043e\u0432 \u0435\u0441\u0442\u044c \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0435<\/p>\n<pre><code>table(eBayTrain$description == &quot;&quot;)  ## ## FALSE  TRUE ##   790  1071 <\/code><\/pre>\n<p>  \u0422\u0430\u043a \u043a\u0430\u043a \u0434\u0430\u043b\u0435\u043a\u043e \u043d\u0435 \u0432\u0441\u0435 \u0442\u043e\u0432\u0430\u0440\u044b \u0438\u043c\u0435\u044e\u0442 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0435, \u0442\u043e \u044f \u043f\u0440\u0435\u0434\u043f\u043e\u043b\u043e\u0436\u0438\u043b, \u0447\u0442\u043e \u044d\u0442\u043e\u0442 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440 \u043c\u043e\u0436\u0435\u0442 \u0432\u043b\u0438\u044f\u0442\u044c \u043d\u0430 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u044c \u043f\u0440\u043e\u0434\u0430\u0436\u0438. \u0427\u0442\u043e\u0431\u044b \u044d\u0442\u043e \u0443\u0447\u0435\u0441\u0442\u044c \u0441\u043e\u0437\u0434\u0430\u0434\u0438\u043c \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u0443\u044e, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0431\u0443\u0434\u0435\u0442 \u043f\u0440\u0438\u043d\u0438\u043c\u0430\u0442\u044c \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 <b>1<\/b>, \u0435\u0441\u043b\u0438 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0435 \u0435\u0441\u0442\u044c, \u0438 <b>0<\/b>, \u0432 \u043e\u0431\u0440\u0430\u0442\u043d\u043e\u043c \u0441\u043b\u0443\u0447\u0430\u0435.<\/p>\n<pre><code>eBayTrain$is_descr = as.factor(eBayTrain$description == &quot;&quot;) table(eBayTrain$description == &quot;&quot;, eBayTrain$is_descr)  ##         ##         FALSE TRUE ##   FALSE   790    0 ##   TRUE      0 1071 <\/code><\/pre>\n<p>  <\/p>\n<h3>\u0421\u043e\u0437\u0434\u0430\u043d\u0438\u0435 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0445 \u0434\u043b\u044f \u043c\u043e\u0434\u0435\u043b\u0438 \u0438\u0437 \u0442\u0435\u043a\u0441\u0442\u043e\u0432\u043e\u0433\u043e \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u044f<\/h3>\n<p>  \u041d\u0430 \u0431\u0430\u0437\u0435 \u0442\u0435\u043a\u0441\u0442\u043e\u0432\u043e\u0433\u043e \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u044f \u0441\u043e\u0437\u0434\u0430\u0434\u0438\u043c \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0435 \u0434\u043b\u044f \u043c\u043e\u0434\u0435\u043b\u0438 \u043f\u0443\u0442\u0451\u043c \u0432\u044b\u0434\u0435\u043b\u0435\u043d\u0438\u044f \u0447\u0430\u0441\u0442\u043e \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u044e\u0449\u0438\u0445\u0441\u044f \u0441\u043b\u043e\u0432. \u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443 <b>tm<\/b>.<\/p>\n<pre><code>library(tm) ## \u0417\u0430\u0433\u0440\u0443\u0436\u0430\u0435\u043c \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443  ## Loading required package: NLP   ## \u0421\u043e\u0437\u0434\u0430\u0451\u043c \u043a\u043e\u0440\u043f\u0443\u0441 \u0438\u0437 \u0442\u0435\u043a\u0441\u0442\u0430, \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u044b\u0439 \u0434\u043b\u044f \u0440\u0430\u0431\u043e\u0442\u044b \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438  CorpusDescription &lt;-  Corpus(VectorSource(c(eBayTrain$description, eBayTest$description)))  ## \u041f\u0440\u0438\u0432\u043e\u0434\u0438\u043c \u0442\u0435\u043a\u0441\u0442 \u043a \u0441\u0442\u0440\u043e\u0447\u043d\u044b\u043c \u0431\u0443\u043a\u0432\u0430\u043c  CorpusDescription &lt;-  tm_map(CorpusDescription, content_transformer(tolower))  CorpusDescription &lt;-  tm_map(CorpusDescription, PlainTextDocument)  ## \u0423\u0434\u0430\u043b\u044f\u0435\u043c \u0437\u043d\u0430\u043a\u0438 \u043f\u0440\u0435\u043f\u0438\u043d\u0430\u043d\u0438\u044f  CorpusDescription &lt;-  tm_map(CorpusDescription, removePunctuation)  ## \u0423\u0434\u0430\u043b\u044f\u0435\u043c \u0442\u0430\u043a \u043d\u0430\u0437\u044b\u0432\u0430\u0435\u043c\u044b\u0435 \u0441\u0442\u043e\u043f-\u0441\u043b\u043e\u0432\u0430, \u0442.\u0435. \u0441\u043b\u043e\u0432\u0430, \u043d\u0435 \u043d\u0435\u0441\u0443\u0449\u0438\u0435 \u0441\u043c\u044b\u0441\u043b\u043e\u0432\u043e\u0439 \u043d\u0430\u0433\u0440\u0443\u0437\u043a\u0438  CorpusDescription &lt;-  tm_map(CorpusDescription, removeWords, stopwords(&quot;english&quot;))  ## \u041f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u043c \u0441\u0442\u0435\u043c\u043c\u0438\u043d\u0433, \u0442.\u0435. \u043f\u0440\u0438\u0432\u043e\u0434\u0438\u043c \u0441\u043b\u043e\u0432\u0430 \u043a \u0441\u043c\u044b\u0441\u043b\u043e\u0432\u044b\u043c \u043e\u0441\u043d\u043e\u0432\u0430\u043c  CorpusDescription &lt;-  tm_map(CorpusDescription, stemDocument)  ## \u0421\u043e\u0437\u0434\u0430\u0451\u043c \u0447\u0430\u0441\u0442\u043e\u0442\u043d\u0443\u044e \u043c\u0430\u0442\u0440\u0438\u0446\u0443  dtm &lt;-  DocumentTermMatrix(CorpusDescription)  ## \u0423\u0434\u0430\u043b\u044f\u0435\u043c \u0440\u0435\u0434\u043a\u043e\u0447\u0430\u0441\u0442\u043e\u0442\u043d\u044b\u0435 \u0441\u043b\u043e\u0432\u0430  sparse &lt;-  removeSparseTerms(dtm, 0.97)   ## \u041f\u0440\u0435\u043e\u0431\u0440\u0430\u0437\u0443\u0435\u043c \u0447\u0430\u0441\u0442\u043e\u0442\u043d\u0443\u044e \u043c\u0430\u0442\u0440\u0438\u0446\u0443 \u0432 data.frame \u0438 \u0440\u0430\u0437\u0434\u0435\u043b\u0438\u043c \u0442\u0435\u0441\u0442\u043e\u0432\u0443\u044e \u0438 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u043e\u0447\u043d\u0443\u044e \u0432\u044b\u0431\u043e\u0440\u043a\u0443 DescriptionWords = as.data.frame(as.matrix(sparse)) colnames(DescriptionWords) = make.names(colnames(DescriptionWords)) DescriptionWordsTrain = head(DescriptionWords, nrow(eBayTrain)) DescriptionWordsTest = tail(DescriptionWords, nrow(eBayTest)) <\/code><\/pre>\n<p>  \u0422\u0435\u043f\u0435\u0440\u044c \u043f\u0440\u0438\u0432\u0435\u0434\u0451\u043c \u043e\u0441\u0442\u0430\u0432\u0448\u0438\u0435\u0441\u044f \u0442\u0435\u043a\u0441\u0442\u043e\u0432\u044b\u0435 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0435 \u043a \u0442\u0438\u043f\u0443 \u0434\u0430\u043d\u043d\u044b\u0445 <b>factor<\/b>, \u0447\u0442\u043e\u0431\u044b \u043f\u0440\u0435\u0434\u043e\u0442\u0432\u0440\u0430\u0442\u0438\u0442\u044c \u0438\u0445 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0443 \u043c\u043e\u0434\u0435\u043b\u044c\u044e \u043a\u0430\u043a \u0442\u0435\u043a\u0441\u0442. \u0418 \u043e\u0431\u044a\u0435\u0434\u0438\u043d\u0438\u043c \u0438\u0445 \u0441 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u043c\u0438, \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u043c\u0438 \u0438\u0437 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u044f \u0442\u043e\u0432\u0430\u0440\u0430. \u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u043e\u0447\u0435\u043d\u044c \u0443\u0434\u043e\u0431\u043d\u0443\u044e \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443 <b>magnittr<\/b><\/p>\n<pre><code>library(magrittr) eBayTrain %&lt;&gt;% mutate(condition = as.factor(condition), cellular = as.factor(cellular),         carrier = as.factor(carrier), color = as.factor(color),         storage = as.factor(storage), productline = as.factor(productline), sold = as.factor(sold)) %&gt;%         select(-description, -UniqueID ) %&gt;% cbind(., DescriptionWordsTrain) <\/code><\/pre>\n<p>  \u041f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u0439 \u043d\u0430\u0431\u043e\u0440 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0445.<\/p>\n<pre><code>str(eBayTrain)  ## 'data.frame':    1861 obs. of  30 variables: ##  $ biddable   : int  0 1 0 0 0 1 1 0 1 1 ... ##  $ startprice : num  159.99 0.99 199.99 235 199.99 ... ##  $ condition  : Factor w\/ 6 levels &quot;For parts or not working&quot;,..: 6 6 6 4 5 6 3 3 6 6 ... ##  $ cellular   : Factor w\/ 3 levels &quot;0&quot;,&quot;1&quot;,&quot;Unknown&quot;: 1 2 1 1 3 2 1 1 2 1 ... ##  $ carrier    : Factor w\/ 7 levels &quot;AT&T&quot;,&quot;None&quot;,..: 2 7 2 2 6 1 2 2 6 2 ... ##  $ color      : Factor w\/ 5 levels &quot;Black&quot;,&quot;Gold&quot;,..: 1 4 5 4 4 3 3 5 5 5 ... ##  $ storage    : Factor w\/ 5 levels &quot;128&quot;,&quot;16&quot;,&quot;32&quot;,..: 2 2 2 2 5 3 2 2 4 3 ... ##  $ productline: Factor w\/ 12 levels &quot;iPad 1&quot;,&quot;iPad 2&quot;,..: 2 2 4 9 12 9 8 10 1 4 ... ##  $ sold       : Factor w\/ 2 levels &quot;0&quot;,&quot;1&quot;: 1 2 2 1 1 2 2 1 2 2 ... ##  $ is_descr   : Factor w\/ 2 levels &quot;FALSE&quot;,&quot;TRUE&quot;: 1 1 2 2 1 2 2 2 2 2 ... ##  $ box        : num  0 0 0 0 0 0 0 0 0 0 ... ##  $ condit     : num  1 0 0 0 0 0 0 0 0 0 ... ##  $ cosmet     : num  1 0 0 0 0 0 0 0 0 0 ... ##  $ devic      : num  0 0 0 0 0 0 0 0 0 0 ... ##  $ excel      : num  0 0 0 0 0 0 0 0 0 0 ... ##  $ fulli      : num  0 0 0 0 0 0 0 0 0 0 ... ##  $ function.  : num  0 0 0 0 0 0 0 0 0 0 ... ##  $ good       : num  0 0 0 0 0 0 0 0 0 0 ... ##  $ great      : num  0 0 0 0 0 0 0 0 0 0 ... ##  $ includ     : num  0 0 0 0 0 0 0 0 0 0 ... ##  $ ipad       : num  1 0 0 0 0 0 0 0 0 0 ... ##  $ item       : num  0 0 0 0 0 0 0 0 0 0 ... ##  $ light      : num  0 0 0 0 0 0 0 0 0 0 ... ##  $ minor      : num  0 0 0 0 0 0 0 0 0 0 ... ##  $ new        : num  0 0 0 0 0 0 0 0 0 0 ... ##  $ scratch    : num  0 1 0 0 0 0 0 0 0 0 ... ##  $ screen     : num  0 1 0 0 0 0 0 0 0 0 ... ##  $ use        : num  0 2 0 0 0 0 0 0 0 0 ... ##  $ wear       : num  0 0 0 0 0 0 0 0 0 0 ... ##  $ work       : num  0 0 0 0 0 0 0 0 0 0 ... <\/code><\/pre>\n<p>  \u041f\u0440\u043e\u0438\u0437\u0432\u0435\u0434\u0451\u043c \u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044e \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u043e\u0439 <b>startprice<\/b>, \u0434\u043b\u044f \u0442\u043e\u0433\u043e, \u0447\u0442\u043e\u0431\u044b \u0434\u0430\u043d\u043d\u0430\u044f \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u0430\u044f \u043d\u0435 \u043e\u043a\u0430\u0437\u044b\u0432\u0430\u043b\u0430 \u0447\u0440\u0435\u0437\u043c\u0435\u0440\u043d\u043e\u0433\u043e \u0432\u043b\u0438\u044f\u043d\u0438\u044f \u043d\u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u043c\u043e\u0434\u0435\u043b\u0435\u0439, \u0432 \u0441\u0432\u044f\u0437\u0438 \u0441 \u0435\u0451 \u0433\u043e\u0440\u0430\u0437\u0434\u043e \u0431\u043e\u043b\u0435\u0435 \u0448\u0438\u0440\u043e\u043a\u0438\u043c, \u043f\u043e \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u044e \u0441 \u0434\u0440\u0443\u0433\u0438\u043c\u0438 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u043c\u0438, \u0434\u0438\u0430\u043f\u0430\u0437\u043e\u043d\u043e\u043c \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0438.<\/p>\n<pre><code>eBayTrain$startprice &lt;- (eBayTrain$startprice - mean(eBayTrain$startprice))\/sd(eBayTrain$startprice) <\/code><\/pre>\n<h3>\u041c\u043e\u0434\u0435\u043b\u0438<\/h3>\n<p>  \u0421 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u043c \u043d\u0430\u0431\u043e\u0440\u043e\u043c \u0434\u0430\u043d\u043d\u044b\u0445 \u0431\u0443\u0434\u0435\u043c \u0441\u043e\u0437\u0434\u0430\u0432\u0430\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u0438. \u0414\u043b\u044f \u043e\u0446\u0435\u043d\u043a\u0438 \u0442\u043e\u0447\u043d\u043e\u0441\u0442\u0438 \u043e\u0446\u0435\u043d\u043a\u0438 \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u0431\u0443\u0434\u0435\u043c \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0442\u044c \u0442\u0443 \u0436\u0435 \u043e\u0446\u0435\u043d\u043a\u0443, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u0431\u044b\u043b\u0430 \u0432\u044b\u0431\u0440\u0430\u043d\u0430 \u0432 \u0441\u043e\u0440\u0435\u0432\u043d\u043e\u0432\u0430\u043d\u0438\u0438. \u042d\u0442\u043e <b>AUC<\/b>. \u0414\u0430\u043d\u043d\u044b\u0439 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440 \u0447\u0430\u0441\u0442\u043e \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0435\u0442\u0441\u044f \u0434\u043b\u044f \u043e\u0446\u0435\u043d\u043a\u0438 \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438. \u041e\u043d \u043e\u0442\u0440\u0430\u0436\u0430\u0435\u0442 \u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e\u0441\u0442\u044c \u0441 \u043a\u043e\u0442\u043e\u0440\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u0440\u0430\u0432\u0438\u043b\u043d\u043e \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0438\u0442 \u0437\u0430\u0432\u0438\u0441\u0438\u043c\u0443\u044e \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u0443\u044e \u0438\u0437 \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u043e\u0433\u043e \u043d\u0430\u0431\u043e\u0440\u0430 \u0434\u0430\u043d\u043d\u044b\u0445. \u0418\u0434\u0435\u0430\u043b\u044c\u043d\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u043e\u043a\u0430\u0436\u0435\u0442 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 <b>AUC<\/b> \u0440\u0430\u0432\u043d\u043e\u0435 1.0, \u0430 \u043c\u043e\u0434\u0435\u043b\u044c \u0441 \u0440\u0430\u0432\u043d\u043e\u0432\u0435\u0440\u043e\u044f\u0442\u043d\u044b\u043c \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u044b\u043c \u0443\u0433\u0430\u0434\u044b\u0432\u0430\u043d\u0438\u0435\u043c \u2014 <b>0.5<\/b>.<\/p>\n<p>  \u0422\u0430\u043a \u043a\u0430\u043a \u0444\u043e\u0440\u043c\u0430\u0442 \u0441\u043e\u0440\u0435\u0432\u043d\u043e\u0432\u0430\u043d\u0438\u044f \u043f\u0440\u0435\u0434\u043f\u043e\u043b\u0430\u0433\u0430\u0435\u0442 \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u0440\u0430\u0437 \u0432 \u0441\u0443\u0442\u043a\u0438, \u043a\u043e\u0442\u043e\u0440\u043e\u0435 \u043c\u043e\u0436\u043d\u043e \u0431\u0443\u0434\u0435\u0442 \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u0442\u044c \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u0443\u044e \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u0443\u0442\u0435\u043c \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0438 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u0445 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u0432 \u043d\u0430 \u0441\u0430\u0439\u0442, \u0442\u043e \u0434\u043b\u044f \u043e\u0446\u0435\u043d\u043a\u0438 \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u0432\u044b\u0434\u0435\u043b\u0438\u043c \u0438\u0437 \u0442\u0440\u0435\u043d\u0438\u0440\u043e\u0432\u0447\u043d\u043e\u0433\u043e \u043d\u0430\u0431\u043e\u0440\u0430 \u0434\u0430\u043d\u043d\u044b\u0445 \u0441\u043e\u0431\u0441\u0442\u0432\u0435\u043d\u043d\u0443\u044e \u0442\u0435\u0441\u0442\u043e\u0432\u0443\u044e \u0432\u044b\u0431\u043e\u0440\u043a\u0443. \u0414\u043b\u044f \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u044f \u0441\u0431\u0430\u043b\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u043e\u043d\u043d\u043e\u0439 \u0432\u044b\u0431\u043e\u0440\u043a\u0438 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443 <b>caTools<\/b>.<\/p>\n<pre><code>set.seed(1000) ## \u0414\u043b\u044f \u0432\u043e\u0441\u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u043c\u043e\u0441\u0442\u0438 \u0438\u0441\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u043d\u0438\u044f library(caTools) split &lt;- sample.split(eBayTrain$sold, SplitRatio = 0.7) train  &lt;- filter(eBayTrain, split == T) test &lt;- filter(eBayTrain, split == F) <\/code><\/pre>\n<p>  <\/p>\n<h3>\u041b\u043e\u0433\u0438\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u044f<\/h3>\n<p>  \u0421\u043e\u0437\u0434\u0430\u0434\u0438\u043c \u043c\u043e\u0434\u0435\u043b\u044c \u043b\u043e\u0433\u0438\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0438<\/p>\n<pre><code>model_glm1 &lt;- glm(sold ~ ., data = train, family = binomial) <\/code><\/pre>\n<p>  \u041f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u0437\u043d\u0430\u0447\u0438\u043c\u043e\u0441\u0442\u044c \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0445 \u0434\u043b\u044f \u043c\u043e\u0434\u0435\u043b\u0438<\/p>\n<pre><code>summary(model_glm1)  ## ## Call: ## glm(formula = sold ~ ., family = binomial, data = train) ## ## Deviance Residuals: ##     Min       1Q   Median       3Q      Max   ## -2.6620  -0.7308  -0.2450   0.6229   3.5600   ## ## Coefficients: ##                                     Estimate Std. Error z value Pr(&gt;|z|) ## (Intercept)                         11.91318  619.41930   0.019 0.984655 ## biddable                             1.52257    0.16942   8.987  &lt; 2e-16 ## startprice                          -1.96460    0.19122 -10.274  &lt; 2e-16 ## conditionManufacturer refurbished    0.92765    0.59405   1.562 0.118394 ## conditionNew                         0.64792    0.38449   1.685 0.091964 ## conditionNew other (see details)     0.98380    0.50308   1.956 0.050517 ## conditionSeller refurbished         -0.03144    0.40675  -0.077 0.938388 ## conditionUsed                        0.43817    0.27167   1.613 0.106767 ## cellular1                          -13.13755  619.41893  -0.021 0.983079 ## cellularUnknown                    -13.50679  619.41886  -0.022 0.982603 ## carrierNone                        -13.25989  619.41897  -0.021 0.982921 ## carrierOther                        12.51777  622.28887   0.020 0.983951 ## carrierSprint                        0.88998    0.69925   1.273 0.203098 ## carrierT-Mobile                      0.02578    0.89321   0.029 0.976973 ## carrierUnknown                      -0.43898    0.41684  -1.053 0.292296 ## carrierVerizon                       0.15653    0.36337   0.431 0.666625 ## colorGold                            0.10763    0.53565   0.201 0.840755 ## colorSpace Gray                     -0.13043    0.30662  -0.425 0.670564 ## colorUnknown                        -0.14471    0.20833  -0.695 0.487307 ## colorWhite                          -0.03924    0.22997  -0.171 0.864523 ## storage16                           -1.09720    0.50539  -2.171 0.029933 ## storage32                           -1.14454    0.51860  -2.207 0.027315 ## storage64                           -0.50647    0.50351  -1.006 0.314474 ## storageUnknown                      -0.29305    0.63389  -0.462 0.643867 ## productlineiPad 2                    0.33364    0.28457   1.172 0.241026 ## productlineiPad 3                    0.71895    0.34595   2.078 0.037694 ## productlineiPad 4                    0.81952    0.36513   2.244 0.024801 ## productlineiPad 5                    2.89336 1080.03688   0.003 0.997863 ## productlineiPad Air                  2.15206    0.40290   5.341 9.22e-08 ## productlineiPad Air 2                3.05284    0.50834   6.005 1.91e-09 ## productlineiPad mini                 0.40681    0.30583   1.330 0.183456 ## productlineiPad mini 2               1.59080    0.41737   3.811 0.000138 ## productlineiPad mini 3               2.19095    0.53456   4.099 4.16e-05 ## productlineiPad mini Retina          3.22474    1.12022   2.879 0.003993 ## productlineUnknown                   0.38217    0.39224   0.974 0.329891 ## is_descrTRUE                         0.17209    0.25616   0.672 0.501722 ## box                                 -0.78668    0.48127  -1.635 0.102134 ## condit                              -0.48478    0.29141  -1.664 0.096198 ## cosmet                               0.14377    0.44095   0.326 0.744385 ## devic                               -0.24391    0.41011  -0.595 0.552027 ## excel                                0.83784    0.47101   1.779 0.075268 ## fulli                               -0.58407    0.66039  -0.884 0.376464 ## function.                           -0.30290    0.59145  -0.512 0.608555 ## good                                 0.78695    0.33903   2.321 0.020275 ## great                                0.46251    0.38946   1.188 0.235003 ## includ                               0.41626    0.42947   0.969 0.332421 ## ipad                                -0.31983    0.24420  -1.310 0.190295 ## item                                -0.08037    0.35025  -0.229 0.818501 ## light                                0.32901    0.40187   0.819 0.412963 ## minor                               -0.27938    0.37600  -0.743 0.457462 ## new                                  0.08576    0.38444   0.223 0.823479 ## scratch                              0.02037    0.26487   0.077 0.938712 ## screen                               0.14372    0.28159   0.510 0.609773 ## use                                  0.14769    0.21807   0.677 0.498243 ## wear                                -0.05187    0.40931  -0.127 0.899154 ## work                                -0.25657    0.29441  -0.871 0.383509 ##                                       ## (Intercept)                           ## biddable                          *** ## startprice                        *** ## conditionManufacturer refurbished     ## conditionNew                      .   ## conditionNew other (see details)  .   ## conditionSeller refurbished           ## conditionUsed                         ## cellular1                             ## cellularUnknown                       ## carrierNone                           ## carrierOther                          ## carrierSprint                         ## carrierT-Mobile                       ## carrierUnknown                        ## carrierVerizon                        ## colorGold                             ## colorSpace Gray                       ## colorUnknown                          ## colorWhite                            ## storage16                         *   ## storage32                         *   ## storage64                             ## storageUnknown                        ## productlineiPad 2                     ## productlineiPad 3                 *   ## productlineiPad 4                 *   ## productlineiPad 5                     ## productlineiPad Air               *** ## productlineiPad Air 2             *** ## productlineiPad mini                  ## productlineiPad mini 2            *** ## productlineiPad mini 3            *** ## productlineiPad mini Retina       ** ## productlineUnknown                    ## is_descrTRUE                          ## box                                   ## condit                            .   ## cosmet                                ## devic                                 ## excel                             .   ## fulli                                 ## function.                             ## good                              *   ## great                                 ## includ                                ## ipad                                  ## item                                  ## light                                 ## minor                                 ## new                                   ## scratch                               ## screen                                ## use                                   ## wear                                  ## work                                  ## --- ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## (Dispersion parameter for binomial family taken to be 1) ## ##     Null deviance: 1798.8  on 1302  degrees of freedom ## Residual deviance: 1168.8  on 1247  degrees of freedom ## AIC: 1280.8 ## ## Number of Fisher Scoring iterations: 13 <\/code><\/pre>\n<p>  \u0412\u0438\u0434\u043d\u043e, \u0447\u0442\u043e \u0434\u043b\u044f \u043f\u0440\u043e\u0441\u0442\u043e\u0439 \u043b\u043e\u0433\u0438\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438 \u0437\u043d\u0430\u0447\u0438\u043c\u044b\u0445 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0445 \u0432 \u0434\u0430\u043d\u043d\u044b\u0445 \u043d\u0435\u043c\u043d\u043e\u0433\u043e<\/p>\n<p>  \u041e\u0446\u0435\u043d\u0438\u043c <b>AUC<\/b> \u043d\u0430 \u0442\u0435\u0441\u0442\u043e\u0432\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445. \u0414\u043b\u044f \u044d\u0442\u043e\u0433\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443 <b>ROCR<\/b><\/p>\n<pre><code>library(ROCR)  ## Loading required package: gplots ## ## Attaching package: 'gplots' ## ## The following object is masked from 'package:stats': ## ##     lowess  predict_glm &lt;- predict(model_glm1, newdata = test, type = &quot;response&quot; ) ROCRpred = prediction(predict_glm, test$sold) as.numeric(performance(ROCRpred, &quot;auc&quot;)@y.values)  ## [1] 0.8592183 <\/code><\/pre>\n<p>  \u0420\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442, \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u0439 \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u0434\u0430\u043d\u043d\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438 \u0443\u0436\u0435 \u043e\u0447\u0435\u043d\u044c \u043d\u0435\u043f\u043b\u043e\u0445, \u043d\u043e \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u043e \u0441\u0440\u0430\u0432\u043d\u0438\u0442\u044c \u0435\u0433\u043e \u043e\u0446\u0435\u043d\u043a\u0430\u043c\u0438 \u0434\u0440\u0443\u0433\u0438\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439.<\/p>\n<h3>\u0414\u0435\u0440\u0435\u0432\u044c\u044f \u043a\u043b\u0430\u0441\u0441\u0438\u0444\u0438\u043a\u0430\u0446\u0438\u0438 (CART model)<\/h3>\n<p>  \u0422\u0435\u043f\u0435\u0440\u044c \u043f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u044b\u0435 \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e <b>CART<\/b> \u043c\u043e\u0434\u0435\u043b\u0438  <\/p>\n<pre><code>library(rpart) library(rpart.plot) model_cart1 &lt;- rpart(sold ~ ., data = train, method = &quot;class&quot;) prp(model_cart1) <\/code><\/pre>\n<p>  <img decoding=\"async\" src=\"https:\/\/habrastorage.org\/files\/f03\/dbe\/2e4\/f03dbe2e4c98450ebc57d82a827aa069.png\"\/><\/p>\n<pre><code>predict_cart &lt;- predict(model_cart1, newdata = test, type = &quot;prob&quot;)[,2] ROCRpred = prediction(predict_cart, test$sold) as.numeric(performance(ROCRpred, &quot;auc&quot;)@y.values)  ## [1] 0.8222028 <\/code><\/pre>\n<p>  \u041c\u043e\u0434\u0435\u043b\u044c \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u0442 \u043e\u0446\u0435\u043d\u043a\u0443 \u0445\u0443\u0436\u0435 \u0447\u0435\u043c \u043f\u0440\u0435\u0434\u044b\u0434\u0443\u0449\u0430\u044f. \u041f\u043e\u043f\u0440\u043e\u0431\u0443\u0435\u043c \u0443\u043b\u0443\u0447\u0448\u0438\u0442\u044c \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0441 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u043f\u043e\u0434\u0431\u043e\u0440\u0430 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u043f\u0443\u0442\u0451\u043c <b>cross-validation<\/b>. \u0411\u0443\u0434\u0435\u043c \u043f\u043e\u0434\u0431\u0438\u0440\u0430\u0442\u044c \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440 <b>cp<\/b>, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u044f\u0435\u0442 \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u0438<\/p>\n<pre><code>library(caret)  ## Loading required package: lattice ## Loading required package: ggplot2 ## ## Attaching package: 'ggplot2' ## ## The following object is masked from 'package:NLP': ## ##     annotate  library(e1071) tr.control = trainControl(method = &quot;cv&quot;, number = 10) cpGrid = expand.grid( .cp = seq(0.0001,0.01,0.001)) train(sold ~ ., data = train, method = &quot;rpart&quot;, trControl = tr.control, tuneGrid = cpGrid )  ## CART ## ## 1303 samples ##   29 predictor ##    2 classes: '0', '1' ## ## No pre-processing ## Resampling: Cross-Validated (10 fold) ## ## Summary of sample sizes: 1173, 1172, 1172, 1173, 1173, 1173, ... ## ## Resampling results across tuning parameters: ## ##   cp      Accuracy   Kappa      Accuracy SD  Kappa SD   ##   0.0001  0.7674163  0.5293876  0.02132149   0.04497423 ##   0.0011  0.7743335  0.5430455  0.01594698   0.03388680 ##   0.0021  0.7896359  0.5714294  0.03938328   0.08143665 ##   0.0031  0.7957780  0.5831451  0.04394428   0.09055433 ##   0.0041  0.7919612  0.5748735  0.03867687   0.07958997 ##   0.0051  0.7934997  0.5775611  0.03727279   0.07705049 ##   0.0061  0.7888843  0.5678360  0.03868024   0.08040614 ##   0.0071  0.7881210  0.5662543  0.03710725   0.07714919 ##   0.0081  0.7888902  0.5678010  0.03657083   0.07592070 ##   0.0091  0.7888902  0.5678010  0.03657083   0.07592070 ## ## Accuracy was used to select the optimal model using  the largest value. ## The final value used for the model was cp = 0.0031. <\/code><\/pre>\n<p>  \u0412\u0441\u0442\u0430\u0432\u0438\u043c \u043f\u0440\u0435\u0434\u043b\u043e\u0436\u0435\u043d\u043d\u043e\u0435 \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435 \u0438 \u043e\u0446\u0435\u043d\u0438\u043c \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u0443\u044e \u043c\u043e\u0434\u0435\u043b\u044c<\/p>\n<pre><code>bestcp &lt;- train(sold ~ ., data = train, method = &quot;rpart&quot;, trControl = tr.control, tuneGrid = cpGrid )$bestTune model_cart2 &lt;- rpart(sold ~ ., data = train, method = &quot;class&quot;, cp = bestcp) predict_cart &lt;- predict(model_cart2, newdata = test, type = &quot;prob&quot;)[,2] ROCRpred = prediction(predict_cart, test$sold) as.numeric(performance(ROCRpred, &quot;auc&quot;)@y.values)  ## [1] 0.8021447 <\/code><\/pre>\n<p>  <\/p>\n<h3>Random Forest<\/h3>\n<p>  \u041f\u043e\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u043d\u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0441\u043b\u043e\u0436\u043d\u043e\u0439 \u0432 \u0442\u0435\u043e\u0440\u0438\u0438 \u043c\u043e\u0434\u0435\u043b\u0438, \u043d\u043e \u043e\u0447\u0435\u043d\u044c \u043f\u0440\u043e\u0441\u0442\u043e\u0439 \u0432 \u043f\u0440\u0438\u043c\u0435\u043d\u0435\u043d\u0438\u0438 \u2014 <b>Random Forest<\/b><\/p>\n<pre><code>library(randomForest)  ## randomForest 4.6-10 ## Type rfNews() to see new features\/changes\/bug fixes. ## ## Attaching package: 'randomForest' ## ## The following object is masked from 'package:dplyr': ## ##     combine  set.seed(1000) model_rf &lt;- randomForest(sold ~ ., data = train, importance = T) predict_rf  &lt;- predict(model_rf, newdata = test, type = &quot;prob&quot;)[,2] ROCRpred = prediction(predict_rf, test$sold) as.numeric(performance(ROCRpred, &quot;auc&quot;)@y.values)  ## [1] 0.8576486 <\/code><\/pre>\n<p>  \u041a\u0430\u043a \u0432\u0438\u0434\u0438\u043c, \u043c\u043e\u0434\u0435\u043b\u044c \u0443\u0436\u0435 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u043d\u0430\u0438\u043b\u0443\u0447\u0448\u0438\u0435 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0438\u0437 \u0432\u0441\u0435\u0445 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u043d\u043d\u044b\u0445. \u041f\u043e\u043f\u0440\u043e\u0431\u0443\u0435\u043c \u0443\u043b\u0443\u0447\u0448\u0438\u0442\u044c \u0435\u0451 \u043f\u0443\u0442\u0451\u043c \u043e\u0442\u0441\u0435\u0438\u0432\u0430\u043d\u0438\u044f \u043b\u0438\u0448\u043d\u0438\u0445 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0445. \u0412 \u044d\u0442\u043e\u043c \u043d\u0430\u043c \u043f\u043e\u043c\u043e\u0436\u0435\u0442 \u043d\u0430\u043b\u0438\u0447\u0438\u0435 \u0432\u0441\u0442\u0440\u043e\u0435\u043d\u043d\u043e\u0439 \u0432 \u043c\u043e\u0434\u0435\u043b\u044c \u043e\u0446\u0435\u043d\u043a\u0438 \u0432\u0430\u0436\u043d\u043e\u0441\u0442\u0438 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0445.<\/p>\n<pre><code>varImpPlot(model_rf) <\/code><\/pre>\n<p>  <img decoding=\"async\" src=\"https:\/\/habrastorage.org\/files\/770\/47d\/20e\/77047d20e717424090d369134b33372d.png\"\/><\/p>\n<p>  \u041f\u043e \u043b\u0435\u0432\u043e\u043c\u0443 \u0433\u0440\u0430\u0444\u0438\u043a\u0443 \u043c\u044b \u0432\u0438\u0434\u0438\u043c, \u0447\u0442\u043e \u043f\u0440\u0438\u0441\u0443\u0442\u0441\u0442\u0432\u0443\u0435\u0442 \u043f\u0440\u0438\u0437\u043d\u0430\u043a, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043d\u0435 \u0443\u043b\u0443\u0447\u0448\u0430\u0435\u0442 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u043c\u043e\u0434\u0435\u043b\u0438. \u0423\u0431\u0435\u0440\u0451\u043c \u0435\u0451 \u0438 \u043f\u0440\u043e\u0438\u0437\u0432\u0435\u0434\u0451\u043c \u043e\u0446\u0435\u043d\u043a\u0443 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u043d\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438.<\/p>\n<pre><code>set.seed(1000) model_rf2 &lt;- randomForest(sold ~ .-excel, data = train, importance = T) predict_rf  &lt;- predict(model_rf2, newdata = test, type = &quot;prob&quot;)[,2] ROCRpred = prediction(predict_rf, test$sold) as.numeric(performance(ROCRpred, &quot;auc&quot;)@y.values)  ## [1] 0.8566796 <\/code><\/pre>\n<p>  \u041e\u0446\u0435\u043d\u043a\u0430 \u043f\u043e\u043a\u0430\u0437\u0430\u043b\u0430, \u0447\u0442\u043e \u0443\u043b\u0443\u0447\u0448\u0435\u043d\u0438\u044f \u043c\u043e\u0434\u0435\u043b\u0438 \u043d\u0435 \u043f\u0440\u043e\u0438\u0437\u043e\u0448\u043b\u043e, \u043d\u043e, \u0438\u0441\u0445\u043e\u0434\u044f \u0438\u0437 \u0437\u0434\u0440\u0430\u0432\u043e\u0433\u043e \u0441\u043c\u044b\u0441\u043b\u0430, \u044f \u0441\u0447\u0438\u0442\u0430\u044e, \u0447\u0442\u043e \u043d\u0430\u043b\u0438\u0447\u0438\u0435 \u0441\u043b\u043e\u0432\u0430 <b>excel<\/b> \u0432 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0438 \u0442\u043e\u0432\u0430\u0440\u0430, \u043c\u0430\u043b\u043e\u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e, \u0447\u0442\u043e \u043c\u043e\u0436\u0435\u0442 \u0432\u043b\u0438\u044f\u0442\u044c \u043d\u0430 \u043f\u0440\u043e\u0434\u0430\u0436\u0438, \u0430 \u0443\u043f\u0440\u043e\u0449\u0435\u043d\u0438\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 (\u0431\u0435\u0437 \u0441\u0443\u0449\u0435\u0441\u0442\u0432\u0435\u043d\u043d\u043e\u0433\u043e \u0443\u0449\u0435\u0440\u0431\u0430 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u0443) \u0443\u043b\u0443\u0447\u0448\u0430\u0435\u0442 \u0435\u0451 \u0438\u043d\u0442\u0435\u0440\u043f\u0440\u0435\u0442\u0430\u0446\u0438\u044e.<\/p>\n<p>  \u0422\u0430\u043a\u0438\u043c \u043e\u0431\u0440\u0430\u0437\u043e\u043c, \u043d\u0430\u0438\u043b\u0443\u0447\u0448\u0438\u0435 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0438\u0437 \u0432\u0441\u0435\u0445 \u0438\u0441\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u043f\u043e\u043a\u0430\u0437\u0430\u043b\u0430 \u043b\u043e\u0433\u0438\u0441\u0442\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u044f. \u0412 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0435 \u043d\u0430 Public Board (\u043e\u0446\u0435\u043d\u043a\u0430 \u043d\u0430 50% \u043e\u0442 \u0432\u0441\u0435\u0445 \u0434\u043e\u0441\u0442\u0443\u043f\u043d\u044b\u0445 \u0442\u0435\u0441\u0442\u043e\u0432\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445) \u043c\u043e\u0434\u0435\u043b\u044c \u0441 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u043c 0.84724 \u0437\u0430\u043d\u044f\u043b\u0430 211 \u043c\u0435\u0441\u0442\u043e \u0438\u0437 1884, \u043d\u043e \u0432 \u0438\u0442\u043e\u0433\u043e\u0432\u043e\u043c \u043f\u0440\u043e\u0442\u043e\u043a\u043e\u043b\u0435 \u043e\u043f\u0443\u0441\u0442\u0438\u043b\u0430\u0441\u044c \u043d\u0430 1291.<\/p>\n<p>  \u0412 \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0439 \u0440\u0430\u0437 \u044f \u043f\u043b\u0430\u043d\u0438\u0440\u0443\u044e \u0440\u0430\u0441\u0441\u043a\u0430\u0437\u0430\u0442\u044c \u043e \u0442\u043e\u043c, \u043a\u0430\u043a \u043d\u0430 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u043c\u043e\u0434\u0435\u043b\u0438 \u0432\u043b\u0438\u044f\u0435\u0442 \u0440\u0430\u0437\u043c\u0435\u0440 \u043e\u0431\u0443\u0447\u0430\u044e\u0449\u0435\u0439 \u0432\u044b\u0431\u043e\u0440\u043a\u0438 \u043d\u0430 \u043f\u0440\u0438\u043c\u0435\u0440\u0435 \u0437\u0430\u0434\u0430\u0447\u0438 <a href=\"https:\/\/www.kaggle.com\/c\/digit-recognizer\">Digit Recognizer<\/a>, \u043e \u043f\u0440\u0438\u043c\u0435\u043d\u0435\u043d\u0438\u0438 \u043c\u0435\u0442\u043e\u0434\u0430 \u0433\u043b\u0430\u0432\u043d\u044b\u0445 \u043a\u043e\u043c\u043f\u043e\u043d\u0435\u043d\u0442 \u0432 \u044d\u0442\u043e\u0439 \u0436\u0435 \u0437\u0430\u0434\u0430\u0447\u0435. \u041f\u043e\u0441\u043b\u0435 \u044f \u0440\u0430\u0441\u0441\u043a\u0430\u0436\u0443 \u043f\u0440\u043e \u043e\u043f\u044b\u0442 \u0443\u0447\u0430\u0441\u0442\u0438\u044f \u0432 \u0441\u043e\u0440\u0435\u0432\u043d\u043e\u0432\u0430\u043d\u0438\u0438 <a href=\"https:\/\/www.kaggle.com\/c\/word2vec-nlp-tutorial\">Bag of Words Meets Bags of Popcorn<\/a>, \u0430 \u0442\u0430\u043a\u0436\u0435 \u0434\u043b\u0438\u043d\u043d\u043e\u0435 \u0438\u0441\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u043d\u0438\u0435 \u0432 \u0438\u0437\u0432\u0435\u0441\u0442\u043d\u043e\u0439 \u0437\u0430\u0434\u0430\u0447\u0435 <a href=\"https:\/\/www.kaggle.com\/c\/titanic\">Titanic: Machine Learning from Disaster<\/a>, \u0432 \u043a\u043e\u0442\u043e\u0440\u043e\u043c \u0440\u0430\u0441\u0441\u043a\u0430\u0436\u0443 \u043e \u0442\u043e\u043c, \u043a\u0430\u043a \u0437\u043d\u0430\u043d\u0438\u044f \u043e \u0441\u0430\u043c\u043e\u043c \u0422\u0438\u0442\u0430\u043d\u0438\u043a\u0435 \u0438 \u043a\u0430\u0442\u0430\u0441\u0442\u0440\u043e\u0444\u0435 \u043f\u043e\u043c\u043e\u0433\u0430\u044e\u0442 \u0440\u0435\u0448\u0438\u0442\u044c \u0437\u0430\u0434\u0430\u0447\u0443.<\/p>\n<p>  \u041d\u0443 \u0438 \u043d\u0430\u043f\u043e\u0441\u043b\u0435\u0434\u043e\u043a \u043f\u043e\u0440\u0435\u043a\u043e\u043c\u0435\u043d\u0434\u0443\u044e \u0437\u0430\u043f\u0438\u0441\u044b\u0432\u0430\u0442\u044c\u0441\u044f \u043a \u0440\u0435\u0431\u044f\u0442\u0430\u043c \u043d\u0430 <a href=\"http:\/\/dscourse.mlclass.ru\">\u043a\u0443\u0440\u0441 \u043f\u043e \u0430\u043d\u0430\u043b\u0438\u0437\u0443 \u0434\u0430\u043d\u043d\u044b\u0445<\/a>. \u041f\u043e-\u043c\u043e\u0435\u043c\u0443 \u043e\u043f\u044b\u0442\u0443:<\/p>\n<ul>\n<li>\u0414\u0430\u044e\u0442\u0441\u044f \u0442\u043e\u043b\u044c\u043a\u043e \u043f\u043e\u043b\u0435\u0437\u043d\u044b\u0435 \u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u043c\u0435\u0442\u043e\u0434\u044b<\/li>\n<li>\u0423\u043f\u043e\u0440 \u0434\u0435\u043b\u0430\u0435\u0442\u0441\u044f \u043d\u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u043d\u0443\u0436\u043d\u043e \u0434\u043e\u0441\u0442\u0438\u0433\u0430\u0442\u044c \u0432 \u0437\u0430\u0434\u0430\u0447\u0430\u0445, \u0430 \u043d\u0435 \u043f\u0440\u043e\u0441\u0442\u043e \u0440\u0435\u0448\u0435\u043d\u0438\u0435<\/li>\n<li>\u0420\u0435\u0430\u043b\u044c\u043d\u043e \u043c\u043e\u0442\u0438\u0432\u0438\u0440\u0443\u0435\u0442 \u0438 \u0437\u0430\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u043c\u043d\u043e\u0433\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c<\/li>\n<\/ul>\n<p>  \u0414\u043e \u0432\u0441\u0442\u0440\u0435\u0447\u0438!               <\/p>\n<div class=\"clear\"><\/div>\n<p> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"http:\/\/habrahabr.ru\/post\/266421\/\"> http:\/\/habrahabr.ru\/post\/266421\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>       \u041f\u0440\u0438\u0432\u0435\u0442, \u0445\u0430\u0431\u0440!<\/p>\n<p>  <img decoding=\"async\" src=\"https:\/\/habrastorage.org\/files\/a21\/8b8\/fa4\/a218b8fa47f94a2cb189b1f559558d91.png\"\/><\/p>\n<p>  \u041c\u0435\u043d\u044f \u0437\u043e\u0432\u0443\u0442 <a href=\"https:\/\/ru.linkedin.com\/in\/morozovgleb\">\u0413\u043b\u0435\u0431<\/a>, \u044f \u0434\u043e\u043b\u0433\u043e\u0435 \u0432\u0440\u0435\u043c\u044f \u0440\u0430\u0431\u043e\u0442\u0430\u044e \u0432 \u0440\u0438\u0442\u0435\u0439\u043b\u043e\u0432\u043e\u0439 \u0430\u043d\u0430\u043b\u0438\u0442\u0438\u043a\u0435 \u0438 \u0441\u0435\u0439\u0447\u0430\u0441 \u0437\u0430\u043d\u0438\u043c\u0430\u044e\u0441\u044c \u043f\u0440\u0438\u043c\u0435\u043d\u0435\u043d\u0438\u0435\u043c \u043c\u0430\u0448\u0438\u043d\u043d\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0432 \u0434\u0430\u043d\u043d\u043e\u0439 \u043e\u0431\u043b\u0430\u0441\u0442\u0438. \u041d\u0435 \u0442\u0430\u043a \u0434\u0430\u0432\u043d\u043e \u044f \u043f\u043e\u0437\u043d\u0430\u043a\u043e\u043c\u0438\u043b\u0441\u044f \u0441 \u0440\u0435\u0431\u044f\u0442\u0430\u043c\u0438 \u0438\u0437 <a href=\"http:\/\/dscource.mlclass.ru\">MLClass.ru<\/a>, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0437\u0430 \u043e\u0447\u0435\u043d\u044c \u043a\u043e\u0440\u043e\u0442\u043a\u0438\u0439 \u0441\u0440\u043e\u043a \u0434\u043e\u0432\u043e\u043b\u044c\u043d\u043e \u0441\u0438\u043b\u044c\u043d\u043e \u043f\u0440\u043e\u043a\u0430\u0447\u0430\u043b\u0438 \u043c\u0435\u043d\u044f \u0432 \u043e\u0431\u043b\u0430\u0441\u0442\u0438 <b>Data Science<\/b>. \u0411\u043b\u0430\u0433\u043e\u0434\u0430\u0440\u044f \u0438\u043c, \u0431\u0443\u043a\u0432\u0430\u043b\u044c\u043d\u043e \u0437\u0430 \u043c\u0435\u0441\u044f\u0446 \u044f \u0441\u0442\u0430\u043b \u0430\u043a\u0442\u0438\u0432\u043d\u043e \u0441\u0430\u0431\u043c\u0438\u0442\u0438\u0442\u044c \u043d\u0430 kaggle. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u0434\u0430\u043d\u043d\u0430\u044f \u0441\u0435\u0440\u0438\u044f \u043f\u0443\u0431\u043b\u0438\u043a\u0430\u0446\u0438\u0439 \u0431\u0443\u0434\u0435\u0442 \u043e\u043f\u0438\u0441\u044b\u0432\u0430\u0442\u044c \u043c\u043e\u0439 \u043e\u043f\u044b\u0442 \u0438\u0437\u0443\u0447\u0435\u043d\u0438\u044f Data Science: \u0432\u0441\u0435 \u043e\u0448\u0438\u0431\u043a\u0438, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0431\u044b\u043b\u0438 \u0434\u043e\u043f\u0443\u0449\u0435\u043d\u044b, \u0430 \u0442\u0430\u043a\u0436\u0435 \u0446\u0435\u043d\u043d\u044b\u0435 \u0441\u043e\u0432\u0435\u0442\u044b, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043c\u043d\u0435 \u043f\u0435\u0440\u0435\u0434\u0430\u043b\u0438 \u0440\u0435\u0431\u044f\u0442\u0430. \u0421\u0435\u0433\u043e\u0434\u043d\u044f \u044f \u0440\u0430\u0441\u0441\u043a\u0430\u0436\u0443 \u043e\u0431 \u043e\u043f\u044b\u0442\u0435 \u0443\u0447\u0430\u0441\u0442\u0438\u044f \u0432 \u0441\u043e\u0440\u0435\u0432\u043d\u043e\u0432\u0430\u043d\u0438\u0438 <a href=\"https:\/\/inclass.kaggle.com\/c\/15-071x-the-analytics-edge-summer-2015\">The Analytics Edge (Spring 2015)<\/a>. \u042d\u0442\u043e \u043c\u043e\u044f \u043f\u0435\u0440\u0432\u0430\u044f \u0441\u0442\u0430\u0442\u044c\u044f \u2014 \u043d\u0435 \u0441\u0443\u0434\u0438\u0442\u0435 \u0441\u0442\u0440\u043e\u0433\u043e=)  <\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-265263","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/265263","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=265263"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/265263\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=265263"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=265263"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=265263"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}