{"id":463151,"date":"2025-06-13T09:42:19","date_gmt":"2025-06-13T09:42:19","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=463151"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=463151","title":{"rendered":"<span>\u0427\u0442\u043e \u043c\u043e\u0436\u0435\u0442 \u043f\u043e\u0439\u0442\u0438 \u043d\u0435 \u0442\u0430\u043a \u0441 merge() \u2014 \u0434\u0443\u0431\u043b\u0438, \u043f\u043e\u0442\u0435\u0440\u0438, \u043e\u0448\u0438\u0431\u043a\u0438 \u0442\u0438\u043f\u043e\u0432<\/span>"},"content":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u041f\u0440\u0438\u0432\u0435\u0442, \u0425\u0430\u0431\u0440!<\/p>\n<p>\u0422\u043e\u043d\u043a\u043e\u0435 \u0441\u043a\u0440\u0435\u0449\u0438\u0432\u0430\u043d\u0438\u0435 DataFrame-\u043e\u0432 \u0432 pandas \u043f\u043e-\u043f\u0440\u0435\u0436\u043d\u0435\u043c\u0443 \u043e\u0441\u0442\u0430\u0451\u0442\u0441\u044f \u0438\u0441\u0442\u043e\u0447\u043d\u0438\u043a\u043e\u043c \u043f\u0440\u0435\u043b\u0435\u0441\u0442\u043d\u044b\u0445 \u0431\u0430\u0433\u043e\u0432: \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u044b\u0445 \u0434\u0443\u0431\u043b\u0438\u043a\u0430\u0442\u043e\u0432, \u043f\u043e\u0442\u0435\u0440\u044f\u043d\u043d\u044b\u0445 \u0441\u0442\u0440\u043e\u043a \u0438 \u043d\u0435\u0443\u043b\u043e\u0432\u0438\u043c\u044b\u0445 NaN-\u043e\u0432. \u0412 \u0441\u0442\u0430\u0442\u044c\u0435 \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u044d\u0442\u0438 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u044b.<\/p>\n<h3>\u0421\u0442\u0440\u043e\u043a\u043e\u0432\u044b\u0435 \u043a\u043b\u044e\u0447\u0438 \u0441 \u043f\u0440\u043e\u0431\u0435\u043b\u0430\u043c\u0438 \u0438 Unicode-\u043d\u0435\u0432\u0438\u0434\u0438\u043c\u043a\u0430\u043c\u0438<\/h3>\n<h4>\u0421\u0438\u043c\u043f\u0442\u043e\u043c<\/h4>\n<pre><code class=\"python\">df_left  = pd.DataFrame({'id': ['A', 'B', ' C', 'D\\u200b'], 'val': range(4)}) df_right = pd.DataFrame({'id': ['A', 'B', 'C', 'D'],      'note': ['ok']*4})  pd.merge(df_left, df_right, on='id', how='inner')<\/code><\/pre>\n<p>\u041f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0432\u0441\u0435\u0433\u043e \u0434\u0432\u0435 \u0441\u0442\u0440\u043e\u043a\u0438 \u0432\u043c\u0435\u0441\u0442\u043e \u0447\u0435\u0442\u044b\u0440\u0451\u0445. \u0412\u0438\u043d\u043e\u0432\u043d\u0438\u043a\u0438 \u2014 \u0432\u0435\u0434\u0443\u0449\u0438\u0439 \u043f\u0440\u043e\u0431\u0435\u043b \u0438 \u043d\u0435\u0432\u0438\u0434\u0438\u043c\u044b\u0439 <code>ZERO WIDTH SPACE<\/code>.<\/p>\n<h4>\u041a\u0430\u043a \u0447\u0438\u043d\u0438\u0442\u0441\u044f<\/h4>\n<p>strip-\u043e\u0447\u0438\u0441\u0442\u043a\u0430:<\/p>\n<pre><code class=\"python\">strip = (     lambda s: (s.astype('string')                  .str.normalize('NFKC')   # \u0443\u043d\u0438\u0444\u0438\u0446\u0438\u0440\u0443\u0435\u043c \u044e\u043d\u0438\u043a\u043e\u0434                  .str.replace(r'\\s+', ' ', regex=True)                  .str.strip()) )  df_left['id']  = strip(df_left['id']) df_right['id'] = strip(df_right['id']) <\/code><\/pre>\n<p>\u0412\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u044f \u043a\u043b\u044e\u0447\u0435\u0439:<\/p>\n<pre><code class=\"python\">assert df_left['id'].isna().sum() == 0, 'Left id has NaN after strip' assert df_left['id'].duplicated().sum() == 0, 'Left id not unique' <\/code><\/pre>\n<p>\u0422\u0435\u0441\u0442-\u043c\u0435\u0440\u0434\u0436 \u0441 <code>indicator=True<\/code>:<\/p>\n<pre><code class=\"python\">(     pd.merge(df_left, df_right, on='id', how='outer', indicator=True)       .query(\"_merge != 'both'\") )<\/code><\/pre>\n<p>\u0415\u0441\u043b\u0438 \u0441\u043f\u0438\u0441\u043e\u043a \u043d\u0435\u043f\u0435\u0440\u0435\u0441\u0435\u0447\u0435\u043d\u0438\u0439 \u043d\u0435\u043d\u0443\u043b\u0435\u0432\u043e\u0439 \u2014 \u0437\u043d\u0430\u0447\u0438\u0442 \u043e\u0447\u0438\u0441\u0442\u043a\u0430 \u043d\u0435\u043f\u043e\u043b\u043d\u0430\u044f. <code>indicator<\/code> \u044d\u043a\u043e\u043d\u043e\u043c\u0438\u0442 \u0447\u0430\u0441\u044b \u043b\u043e\u0433\u043e\u0432.<\/p>\n<h3>many-to-many -&gt; \u043b\u0430\u0432\u0438\u043d\u0430 \u0434\u0443\u0431\u043b\u0435\u0439<\/h3>\n<h4>\u0412\u0437\u0440\u044b\u0432 \u043d\u0430 \u043f\u0435\u0441\u043e\u0447\u043d\u0438\u0446\u0435<\/h4>\n<pre><code class=\"python\">sales  = pd.DataFrame({'shop': [1,1,2,2], 'day': ['2025-05-01']*4, 'sku': [1,2,1,2], 'qty': [5,6,7,8]}) prices = pd.DataFrame({'sku': [1,1,2,2], 'region': ['EU','US']*2, 'price': [10,11,12,13]})  fat = sales.merge(prices, on='sku', how='inner') print(fat.shape)  # (16, 6) \u2013 BOOM<\/code><\/pre>\n<p>\u0427\u0435\u0442\u044b\u0440\u0435 \u0441\u0442\u0440\u043e\u043a\u0438 \u043f\u0440\u0435\u0432\u0440\u0430\u0442\u0438\u043b\u0438\u0441\u044c \u0432 \u0448\u0435\u0441\u0442\u043d\u0430\u0434\u0446\u0430\u0442\u044c \u043f\u043e \u043f\u0440\u0430\u0432\u0438\u043b\u0443 \u0434\u0435\u043a\u0430\u0440\u0442\u043e\u0432\u0430 \u043f\u0440\u043e\u0438\u0437\u0432\u0435\u0434\u0435\u043d\u0438\u044f. \u042d\u0442\u043e \u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u043b\u043e\u0432\u0443\u0448\u043a\u0430 many-to-many.<\/p>\n<h4>validate \u2014 \u043f\u0435\u0440\u0432\u044b\u0439 \u0431\u0430\u0440\u044c\u0435\u0440<\/h4>\n<pre><code class=\"python\">sales.merge(prices, on='sku', validate='m:m') # ValueError: Merge keys are not unique in either left or right dataset<\/code><\/pre>\n<p>\u0414\u0430, \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440 \u0441\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u0435\u0442 \u0441 2018-\u0433\u043e, \u043d\u043e \u0434\u043e \u0441\u0438\u0445 \u043f\u043e\u0440 \u0440\u0435\u0434\u043a\u043e \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u0432 \u0447\u0443\u0436\u043e\u043c \u043a\u043e\u0434\u0435. <code>m:m<\/code> \u043d\u0435 \u0437\u0430\u043f\u0440\u0435\u0449\u0430\u0435\u0442 \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u044e \u2014 \u043e\u043d \u043b\u0438\u0448\u044c \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u0435\u0442, \u0447\u0442\u043e \u043e\u0431\u0435 \u0441\u0442\u043e\u0440\u043e\u043d\u044b \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u0442\u0435\u043b\u044c\u043d\u043e many-to-many; \u0435\u0441\u043b\u0438 \u043e\u0434\u043d\u0430 \u0441\u0442\u043e\u0440\u043e\u043d\u0430 \u0432\u0434\u0440\u0443\u0433 \u0441\u0442\u0430\u043b\u0430 \u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u043e\u0439 \u2014 \u044d\u0442\u043e \u043f\u043e\u0432\u043e\u0434 \u043f\u0440\u043e\u0432\u0435\u0440\u0438\u0442\u044c \u043b\u043e\u0433\u0438\u043a\u0443.<\/p>\n<h4>\u041a\u0430\u043a \u0436\u0438\u0442\u044c \u0441 many-to-many<\/h4>\n<ol>\n<li>\n<p>\u042f\u0432\u043d\u043e \u0433\u0440\u0443\u043f\u043f\u0438\u0440\u0443\u0435\u043c \u0434\u0443\u0431\u043b\u0438\u043a\u0430\u0442\u044b \u0434\u043e merge.<\/p>\n<\/li>\n<li>\n<p>\u041f\u043e\u0441\u043b\u0435 \u0441\u043b\u0438\u044f\u043d\u0438\u044f \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u0435\u043c \u0430\u0433\u0440\u0435\u0433\u0430\u0442\u044b (\u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0447\u0442\u043e \u0441\u0443\u043c\u043c\u0430 <code>qty<\/code> \u043d\u0435 \u0443\u0434\u0432\u043e\u0438\u043b\u0430\u0441\u044c).<\/p>\n<\/li>\n<li>\n<p>\u041d\u0430 SQL-\u043c\u0430\u043d\u0435\u0440 \u043c\u043e\u0436\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c <strong>anti-join<\/strong> \u0447\u0442\u043e\u0431\u044b \u043d\u0430\u0439\u0442\u0438 \u0441\u0442\u0440\u043e\u043a\u0438, \u043a\u043e\u0442\u043e\u0440\u044b\u043c \u043d\u0435\u0442 \u043f\u0430\u0440\u044b \u2014 \u043d\u0430\u0447\u0438\u043d\u0430\u044f \u0441 pandas 3.0 \u044d\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442\u0441\u044f \u043f\u0440\u044f\u043c\u043e \u0432 <code>merge(how='left_anti')<\/code>.<\/p>\n<\/li>\n<\/ol>\n<h3>NaN \u0432 \u043a\u043b\u044e\u0447\u0430\u0445<\/h3>\n<p>Pandas \u0442\u0440\u0430\u043a\u0442\u0443\u0435\u0442 <code>NaN<\/code> \u043a\u0430\u043a \u00ab\u043d\u0435 \u0440\u0430\u0432\u043d\u043e \u043d\u0438\u0447\u0435\u043c\u0443, \u0434\u0430\u0436\u0435 \u0441\u0435\u0431\u0435\u00bb, \u043f\u043e\u044d\u0442\u043e\u043c\u0443:<\/p>\n<pre><code class=\"python\">left  = pd.DataFrame({'id': [1, 2, np.nan], 'x': [10, 20, 30]}) right = pd.DataFrame({'id': [1, np.nan], 'y': [100, 999]})  left.merge(right, on='id', how='inner')   # \u0441\u0442\u0440\u043e\u043a\u0430 \u0441 NaN \u0432\u044b\u043f\u0430\u0434\u0435\u0442 left.merge(right, on='id', how='outer')   # \u043f\u043e\u044f\u0432\u044f\u0442\u0441\u044f \u0434\u0432\u0430 NaN-\u043a\u043b\u044e\u0447\u0430<\/code><\/pre>\n<p>\u0415\u0441\u043b\u0438 <code>NaN<\/code> \u043b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u0438 \u043e\u0437\u043d\u0430\u0447\u0430\u0435\u0442 \u00ab\u0434\u0440\u0443\u0433\u0430\u044f \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u044c\u00bb, \u0437\u0430\u043c\u0435\u043d\u0438\u0442\u0435 \u0435\u0433\u043e sentinel-\u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435\u043c (<code>-1<\/code> \u0438\u043b\u0438 <code>'__missing__'<\/code>) \u043f\u0435\u0440\u0435\u0434 merge \u2014 \u0438 \u0441\u0440\u0430\u0437\u0443 \u043f\u043e\u0441\u043b\u0435 \u0432\u0435\u0440\u043d\u0438\u0442\u0435 \u043e\u0431\u0440\u0430\u0442\u043d\u043e. \u0422\u043e\u043b\u044c\u043a\u043e \u043d\u0435 \u0437\u0430\u0431\u0443\u0434\u044c\u0442\u0435 \u0437\u0430\u0444\u0438\u043a\u0441\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432 \u0442\u0435\u0441\u0442\u0435.<\/p>\n<h3>\u0414\u0438\u0430\u0433\u043d\u043e\u0441\u0442\u0438\u043a\u0430: _merge<\/h3>\n<p><code>indicator=True<\/code> \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u0442\u043e\u043b\u0431\u0435\u0446 <code><em>merge<\/em><\/code><em> \u0441 \u0442\u0440\u0435\u043c\u044f \u043a\u0430\u0442\u0435\u0433\u043e\u0440\u0438\u044f\u043c\u0438 (<\/em><code><em>left<\/em>only<\/code>, <code>right_only<\/code>, <code>both<\/code>).<\/p>\n<p>\u041e\u0431\u044b\u0447\u043d\u044b\u0439 \u043f\u0440\u0438\u0451\u043c:<\/p>\n<pre><code class=\"python\">probe = (     left.merge(right, on='id', how='outer', indicator=True)          .pipe(lambda df: df[df._merge != 'both']) )  if not probe.empty:     raise RuntimeError(f'\u041d\u0430\u0439\u0434\u0435\u043d\u044b \u043d\u0435\u0441\u043e\u0432\u043f\u0430\u0434\u0435\u043d\u0438\u044f:\\n{probe.head()}')<\/code><\/pre>\n<p>\u0422\u0430\u043a \u043e\u0448\u0438\u0431\u043a\u0443 \u043b\u043e\u0432\u0438\u0442 \u043d\u0435 QA, \u0430 \u044e\u043d\u0438\u0442-\u0442\u0435\u0441\u0442.<\/p>\n<h3>\u041a\u043e\u0433\u0434\u0430 merge() \u043d\u0435 \u043d\u0443\u0436\u0435\u043d<\/h3>\n<p>\u041f\u0435\u0440\u0432\u044b\u0439 \u0441\u0438\u0433\u043d\u0430\u043b, \u0447\u0442\u043e \u043f\u043e\u0440\u0430 \u043f\u043e\u043b\u043e\u0436\u0438\u0442\u044c <code>merge()<\/code> \u043d\u0430 \u043f\u043e\u043b\u043a\u0443 \u2014 \u0443 \u0432\u0430\u0441 \u043d\u0435\u0442 \u043b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u0438 \u00ab\u0441\u043e\u0435\u0434\u0438\u043d\u0438\u0442\u044c \u043f\u043e \u043a\u043b\u044e\u0447\u0443\u00bb. \u0415\u0441\u043b\u0438 \u0437\u0430\u0434\u0430\u0447\u0430 \u0441\u0432\u043e\u0434\u0438\u0442\u0441\u044f \u043a \u043f\u0440\u0438\u0448\u0438\u0442\u044c \u043e\u0434\u0438\u043d \u0434\u0430\u0442\u0430\u0444\u0440\u0435\u0439\u043c \u043a \u0434\u0440\u0443\u0433\u043e\u043c\u0443 \u0431\u0435\u0437 \u0441\u043e\u043f\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u044f \u0441\u0442\u0440\u043e\u043a, \u0437\u043d\u0430\u0447\u0438\u0442 \u043d\u0443\u0436\u043d\u043e <code><strong>pd.concat()<\/strong><\/code>. \u041a\u043e\u043d\u043a\u0430\u0442\u0435\u043d\u0430\u0446\u0438\u044f \u043f\u0440\u043e\u0441\u0442\u043e \u0432\u044b\u043a\u043b\u0430\u0434\u044b\u0432\u0430\u0435\u0442 \u0444\u0440\u0435\u0439\u043c\u044b \u043a\u0438\u0440\u043f\u0438\u0447\u0438\u043a\u0430\u043c\u0438: \u043f\u043e \u0443\u043c\u043e\u043b\u0447\u0430\u043d\u0438\u044e \u0432\u0434\u043e\u043b\u044c \u043e\u0441\u0438 0 (\u0441\u0442\u0440\u043e\u043a\u0438) \u0438 \u0441\u043e\u0445\u0440\u0430\u043d\u044f\u0435\u0442 \u0441\u0442\u043e\u043b\u0431\u0446\u044b, \u0434\u0430\u0436\u0435 \u0435\u0441\u043b\u0438 \u043d\u0430\u0431\u043e\u0440\u044b \u043a\u043e\u043b\u043e\u043d\u043e\u043a \u043d\u0435 \u0441\u043e\u0432\u043f\u0430\u0434\u0430\u044e\u0442. \u0422\u0438\u043f\u043e\u0432\u043e\u0439 \u043f\u0440\u0438\u0451\u043c \u0432 ETL-\u043f\u0430\u0439\u043f\u043b\u0430\u0439\u043d\u0435:<\/p>\n<pre><code class=\"python\">dfs = [pd.read_parquet(p) for p in paths]          # \u043f\u0430\u0440\u0442\u0438\u0446\u0438\u0438 \u0437\u0430 \u0440\u0430\u0437\u043d\u044b\u0435 \u0434\u0430\u0442\u044b whole = pd.concat(dfs, ignore_index=True, sort=False)<\/code><\/pre>\n<p><code>ignore_index=True<\/code> \u043f\u0435\u0440\u0435\u0433\u0435\u043d\u0435\u0440\u0438\u0440\u0443\u0435\u0442 \u0447\u0438\u0441\u043b\u043e\u0432\u043e\u0439 \u0438\u043d\u0434\u0435\u043a\u0441 \u2014 \u0431\u0435\u0437 \u044d\u0442\u043e\u0433\u043e \u043d\u0430 \u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u043c\u0430\u0441\u0441\u0438\u0432\u0430\u0445 \u043b\u043e\u0432\u0438\u0442\u0435 \u0434\u0443\u0431\u043b\u0438\u043a\u0430\u0442\u044b. <code>sort=False<\/code> \u044d\u043a\u043e\u043d\u043e\u043c\u0438\u0442 \u0432\u0430\u043c \u043f\u0430\u0440\u0443 \u0441\u0435\u043a\u0443\u043d\u0434 \u0438 \u043d\u0435\u043c\u043d\u043e\u0433\u043e RAM, \u043e\u0442\u043a\u043b\u0430\u0434\u044b\u0432\u0430\u044f \u043f\u0435\u0440\u0435\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0443 \u0441\u0442\u043e\u043b\u0431\u0446\u043e\u0432.<\/p>\n<p>\u041a\u043e\u0433\u0434\u0430 \u043a\u043b\u044e\u0447\u043e\u043c \u0441\u043b\u0443\u0436\u0438\u0442 <strong>\u0432\u0440\u0435\u043c\u044f<\/strong>, \u0430 \u0432\u0430\u043c \u043d\u0443\u0436\u043d\u043e \u043f\u0440\u0438\u0432\u044f\u0437\u0430\u0442\u044c \u043f\u043e\u043a\u0430\u0437\u0430\u043d\u0438\u044f \u0434\u0430\u0442\u0447\u0438\u043a\u0430 \u043a \u0431\u043b\u0438\u0436\u0430\u0439\u0448\u0435\u043c\u0443 (\u0438\u043b\u0438 \u043f\u0440\u0435\u0434\u044b\u0434\u0443\u0449\u0435\u043c\u0443) \u0440\u0435\u043a\u043e\u0440\u0434\u0443 \u0432 \u0434\u0440\u0443\u0433\u043e\u043c \u0444\u0440\u0435\u0439\u043c\u0435, \u0441\u0446\u0435\u043d\u0430 \u0432\u0430\u0448\u0430 \u2014 <code><strong>merge_asof()<\/strong><\/code>. \u042d\u0442\u043e\u0442 \u043f\u043e\u043b\u0443\u0431\u0440\u0430\u0442 <code>merge()<\/code> \u0434\u0435\u043b\u0430\u0435\u0442 \u043b\u0438\u043d\u0435\u0439\u043d\u044b\u0439 nearest-join \u043f\u043e \u043e\u0442\u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u043c \u043c\u0435\u0442\u043a\u0430\u043c. \u0412 \u0431\u0430\u043d\u043a\u0430\u0445 \u043d\u0430 \u043d\u0451\u043c \u0441\u043a\u043b\u0435\u0438\u0432\u0430\u044e\u0442 \u0442\u0438\u043a\u0438 \u0441 \u0440\u044b\u043d\u043e\u0447\u043d\u044b\u043c\u0438 \u043a\u043e\u0442\u0438\u0440\u043e\u0432\u043a\u0430\u043c\u0438, \u0432 IIoT \u2014 \u0442\u0435\u043b\u0435\u043c\u0435\u0442\u0440\u0438\u044e \u0441 \u0440\u0430\u0441\u043f\u0438\u0441\u0430\u043d\u0438\u0435\u043c \u043f\u0430\u0440\u043a\u0430 \u0441\u0442\u0430\u043d\u043a\u043e\u0432:<\/p>\n<pre><code class=\"python\">aligned = pd.merge_asof(     trades.sort_values('timestamp'),     quotes.sort_values('timestamp'),     on='timestamp',     direction='backward',  # \u0431\u0435\u0440\u0451\u043c \u0431\u043b\u0438\u0436\u0430\u0439\u0448\u0443\u044e \u043a\u043e\u0442\u0438\u0440\u043e\u0432\u043a\u0443 \u0432 \u043f\u0440\u043e\u0448\u043b\u043e\u043c     tolerance=pd.Timedelta('2s')  # \u0438 \u043d\u0435 \u0434\u0430\u043b\u044c\u0448\u0435, \u0447\u0435\u043c 2 \u0441\u0435\u043a\u0443\u043d\u0434\u044b )<\/code><\/pre>\n<p>\u0413\u043b\u0430\u0432\u043d\u043e\u0435 \u0442\u0440\u0435\u0431\u043e\u0432\u0430\u043d\u0438\u0435 \u2014 \u043e\u0431\u0430 <code>DataFrame<\/code> \u0434\u043e\u043b\u0436\u043d\u044b \u0431\u044b\u0442\u044c \u043e\u0442\u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u044b \u043f\u043e \u043a\u043b\u044e\u0447\u0443; \u0437\u0430 \u044d\u0442\u043e \u043e\u0442\u0432\u0435\u0447\u0430\u0435\u0442 \u0441\u0430\u043c \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a, \u0438\u043d\u0430\u0447\u0435 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u0435 <code>MergeError<\/code>.<\/p>\n<p>\u0415\u0441\u043b\u0438 \u0432\u0430\u0448\u0430 \u0446\u0435\u043b\u044c \u2014 <strong>\u0442\u043e\u0447\u0435\u0447\u043d\u044b\u0439 \u043f\u0430\u0442\u0447<\/strong> \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0439 \u0431\u0435\u0437 \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u00ab\u0444\u043e\u0440\u043c\u044b\u00bb \u0442\u0430\u0431\u043b\u0438\u0446\u044b, \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0439\u0442\u0435 <code><strong>DataFrame.update()<\/strong><\/code>. \u041c\u0435\u0442\u043e\u0434 \u0438\u0434\u0451\u0442 \u043f\u043e \u0441\u043e\u0432\u043f\u0430\u0434\u0430\u044e\u0449\u0438\u043c \u0438\u043d\u0434\u0435\u043a\u0441\u0430\u043c \u0438 \u0441\u0442\u043e\u043b\u0431\u0446\u0430\u043c, \u0437\u0430\u043c\u0435\u043d\u044f\u044f \u0442\u043e\u043b\u044c\u043a\u043e \u0442\u0435 \u044f\u0447\u0435\u0439\u043a\u0438, \u0433\u0434\u0435 \u0432 \u043f\u0430\u0442\u0447\u0435 \u043d\u0435 <code>NaN<\/code>. \u042d\u0442\u043e \u0431\u0435\u0437\u043e\u043f\u0430\u0441\u043d\u0430\u044f \u0430\u043b\u044c\u0442\u0435\u0440\u043d\u0430\u0442\u0438\u0432\u0430 \u0442\u044f\u0436\u0435\u043b\u0451\u043d\u043d\u043e\u043c\u0443 <code>merge()<\/code> \u043f\u043b\u044e\u0441 <code>fillna()<\/code>:<\/p>\n<pre><code class=\"python\">base   = pd.DataFrame({'id': [1, 2, 3], 'price': [100, 200, 300]}) patch  = pd.DataFrame({'id': [2],       'price': [180]}).set_index('id')  base.set_index('id', inplace=True) base.update(patch)      # \u0442\u043e\u043b\u044c\u043a\u043e \u0441\u0442\u0440\u043e\u043a\u0430 id=2 \u0431\u0443\u0434\u0435\u0442 \u043f\u0435\u0440\u0435\u043f\u0438\u0441\u0430\u043d\u0430 base.reset_index(inplace=True)<\/code><\/pre>\n<p><code>update()<\/code> \u043d\u0435 \u0432\u0435\u0440\u043d\u0451\u0442 \u043d\u043e\u0432\u043e\u0433\u043e \u043e\u0431\u044a\u0435\u043a\u0442\u0430 \u2014 \u043e\u043d \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 <em>in-place<\/em>, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0439\u0442\u0435 \u043a\u043e\u043f\u0438\u044e, \u0435\u0441\u043b\u0438 \u043d\u0443\u0436\u043d\u043e \u0441\u043e\u0445\u0440\u0430\u043d\u0438\u0442\u044c \u0438\u0441\u0445\u043e\u0434\u043d\u044b\u0439 \u043d\u0430\u0431\u043e\u0440. <\/p>\n<h3>\u041f\u0430\u0442\u0442\u0435\u0440\u043d \u00ab\u0434\u043e \u043f\u0440\u043e\u0434\u0430\u043a\u0448\u0435\u043d\u0430\u00bb<\/h3>\n<pre><code class=\"python\">def safe_merge(left: pd.DataFrame,                right: pd.DataFrame,                *,                on: str,                how: str = 'inner',                validate: str | None = None,                strict: bool = True) -&gt; pd.DataFrame:     \"\"\"\u041e\u0431\u0451\u0440\u0442\u043a\u0430 \u043d\u0430\u0434 pandas.merge \u0441 \u0432\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u0435\u0439 \u0438 \u043b\u043e\u0433\u0430\u043c\u0438\"\"\"     _left  = left.copy()     _right = right.copy()      # 1. \u041f\u0440\u0438\u0432\u0435\u0434\u0451\u043c \u043a\u043b\u044e\u0447 \u043a \u0441\u0442\u0440\u043e\u043a\u043e\u0432\u043e\u043c\u0443 string-dtype     for df in (_left, _right):         df[on] = (             df[on].astype('string')                   .str.normalize('NFKC')                   .str.strip()         )      # 2. \u0411\u0430\u0437\u043e\u0432\u0430\u044f \u0432\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u044f     if strict:         dup_left  = _left[on].duplicated().any()         dup_right = _right[on].duplicated().any()         if dup_left or dup_right:             raise ValueError(f'Duplicates in {\"left\" if dup_left else \"right\"} key column {on}')      # 3. \u0421\u043b\u0438\u044f\u043d\u0438\u0435     res = _left.merge(_right,                       on=on,                       how=how,                       validate=validate,                       indicator=True)      # 4. \u041f\u0440\u043e\u0432\u0435\u0440\u043a\u0430 \u043d\u0430 \u043f\u043e\u0442\u0435\u0440\u0438     lost = res.query('_merge != \"both\"')     if strict and not lost.empty:         raise RuntimeError(f'Merge produced orphan rows:\\n{lost.head()}')      return res.drop(columns='_merge')<\/code><\/pre>\n<p>\u0421\u043c\u044b\u0441\u043b \u043e\u0431\u0451\u0440\u0442\u043a\u0438 \u2014 \u043d\u0435 \u0434\u0430\u0442\u044c \u043f\u0440\u043e\u043a\u0430\u0442\u0438\u0442\u044c\u0441\u044f \u0431\u0430\u0433\u0443 \u0434\u0430\u043b\u044c\u0448\u0435 CI. \u041e\u043d\u0430 \u0434\u0435\u043b\u0430\u0435\u0442 \u0441\u0440\u0430\u0437\u0443 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0432\u0435\u0449\u0435\u0439:<\/p>\n<ol>\n<li>\n<p><strong>\u041f\u0440\u0438\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u043a\u043b\u044e\u0447\u0430 \u043a <\/strong><code><strong>string<\/strong><\/code><strong> \u0438 \u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044f Unicode<\/strong><br \/>\u0414\u0430\u0436\u0435 \u0435\u0441\u043b\u0438 \u0432\u0445\u043e\u0434 \u0431\u044b\u043b <code>int<\/code> \u0438\u043b\u0438 <code>object<\/code>, \u0432\u0441\u0451 \u043f\u0440\u0438\u0432\u043e\u0434\u0438\u0442\u0441\u044f \u043a <code>string<\/code>-\u0442\u0438\u043f\u0443, \u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0443\u0435\u0442\u0441\u044f (<code>NFKC<\/code> \u0443\u0431\u0438\u0440\u0430\u0435\u0442 \u0432\u0438\u0437\u0443\u0430\u043b\u044c\u043d\u043e \u043f\u043e\u0445\u043e\u0436\u0438\u0435 \u0441\u0438\u043c\u0432\u043e\u043b\u044b) \u0438 <code>strip<\/code>-\u0438\u0442\u0441\u044f. <\/p>\n<\/li>\n<li>\n<p><strong>\u0411\u0430\u0437\u043e\u0432\u0430\u044f \u0432\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u044f \u043d\u0430 \u0434\u0443\u0431\u043b\u0438\u043a\u0430\u0442\u044b<\/strong><br \/>\u0415\u0441\u043b\u0438 \u043e\u0434\u043d\u0430 \u0438\u0437 \u0441\u0442\u043e\u0440\u043e\u043d \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u043d\u0435\u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u044b\u0435 \u043a\u043b\u044e\u0447\u0438, <code>merge()<\/code> \u043c\u043e\u0436\u0435\u0442 \u0432\u0435\u0441\u0442\u0438 \u0441\u0435\u0431\u044f \u043a\u0430\u043a \u0434\u0435\u043a\u0430\u0440\u0442\u043e\u0432\u043e \u043f\u0440\u043e\u0438\u0437\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u2014 \u0447\u0442\u043e \u043d\u0435 \u0432\u0441\u0435\u0433\u0434\u0430 \u043e\u0436\u0438\u0434\u0430\u0435\u043c\u043e. \u041f\u0440\u0438 <code>strict=True<\/code> \u0442\u0430\u043a\u0438\u0435 \u0441\u0438\u0442\u0443\u0430\u0446\u0438\u0438 \u0431\u043b\u043e\u043a\u0438\u0440\u0443\u044e\u0442\u0441\u044f \u043d\u0430 \u044d\u0442\u0430\u043f\u0435 \u0432\u044b\u043f\u043e\u043b\u043d\u0435\u043d\u0438\u044f \u0441 \u044f\u0432\u043d\u044b\u043c <code>ValueError<\/code>.<\/p>\n<\/li>\n<li>\n<p><strong>\u0412\u0441\u0442\u0440\u043e\u0435\u043d\u043d\u044b\u0439 <\/strong><code><strong>indicator=True<\/strong><\/code><strong> \u0438 \u043f\u0440\u043e\u0432\u0435\u0440\u043a\u0430 \u043d\u0430 orphan-\u0441\u0442\u0440\u043e\u043a\u0438<\/strong><br \/><code>indicator<\/code> \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u0442\u043e\u043b\u0431\u0435\u0446 <code><em>merge<\/em><\/code><em>, \u043f\u043e \u043a\u043e\u0442\u043e\u0440\u043e\u043c\u0443 \u0441\u0440\u0430\u0437\u0443 \u043c\u043e\u0436\u043d\u043e \u043f\u043e\u043d\u044f\u0442\u044c, \u043a\u0430\u043a\u0438\u0435 \u0441\u0442\u0440\u043e\u043a\u0438 \u043e\u0441\u0442\u0430\u043b\u0438\u0441\u044c \u0431\u0435\u0437 \u043f\u0430\u0440\u044b. \u041f\u043e\u0441\u043b\u0435 <\/em><code><em>merge<\/em><\/code><em> \u043c\u044b \u0444\u0438\u043b\u044c\u0442\u0440\u0443\u0435\u043c \u0432\u0441\u0435 \u0441\u0442\u0440\u043e\u043a\u0438, \u0433\u0434\u0435 <\/em><code>merge != \"both\"<\/code>, \u0438 \u0435\u0441\u043b\u0438 \u043e\u043d\u0438 \u0435\u0441\u0442\u044c \u2014 \u043a\u0438\u0434\u0430\u0435\u043c <code>RuntimeError<\/code> \u0441 \u0438\u0445 \u0434\u0430\u043c\u043f\u043e\u043c. <\/p>\n<\/li>\n<\/ol>\n<hr\/>\n<p>\u0414\u0435\u043b\u0438\u0442\u0435\u0441\u044c \u0441\u0432\u043e\u0438\u043c \u043e\u043f\u044b\u0442\u043e\u043c \u0440\u0430\u0431\u043e\u0442\u044b \u0441 merge \u0432 \u043a\u043e\u043c\u043c\u0435\u043d\u0442\u0430\u0440\u0438\u044f\u0445.<\/p>\n<p>\u0415\u0441\u043b\u0438 \u0432\u044b \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442\u0435 \u0441 \u0434\u0430\u043d\u043d\u044b\u043c\u0438, \u0432\u044b \u043d\u0430\u0432\u0435\u0440\u043d\u044f\u043a\u0430 \u0441\u0442\u0430\u043b\u043a\u0438\u0432\u0430\u043b\u0438\u0441\u044c \u0441 \u0442\u0435\u043c, \u0447\u0442\u043e \u00ab\u043e\u0431\u044b\u0447\u043d\u044b\u0439 merge\u00bb \u2014 \u043b\u0438\u0448\u044c \u0432\u0435\u0440\u0448\u0438\u043d\u0430 \u0430\u0439\u0441\u0431\u0435\u0440\u0433\u0430. \u041f\u043e\u0434 \u043a\u0430\u043f\u043e\u0442\u043e\u043c \u2014 \u0447\u0438\u0441\u0442\u043a\u0430, \u0432\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u044f, \u0430\u0433\u0440\u0435\u0433\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u0438 \u0433\u0440\u0430\u043c\u043e\u0442\u043d\u0430\u044f \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u0445\u0440\u0430\u043d\u0438\u043b\u0438\u0449\u0430. \u0415\u0441\u043b\u0438 \u0441\u0442\u0430\u0442\u044c\u044f \u043e\u043a\u0430\u0437\u0430\u043b\u0430\u0441\u044c \u0432\u0430\u043c \u0431\u043b\u0438\u0437\u043a\u0430 \u043f\u043e \u0434\u0443\u0445\u0443 \u2014 \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e, \u0431\u0443\u0434\u0435\u0442 \u043f\u043e\u043b\u0435\u0437\u043d\u043e \u0443\u0433\u043b\u0443\u0431\u0438\u0442\u044c\u0441\u044f \u0435\u0449\u0451 \u0432 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0442\u0435\u043c, \u0433\u0434\u0435 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u0441\u043e\u0435\u0434\u0438\u043d\u0435\u043d\u0438\u044f \u0438 \u043f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u043a\u0438 \u0434\u0430\u043d\u043d\u044b\u0445 \u0440\u0435\u0448\u0430\u0435\u0442 \u0432\u0441\u0451.<\/p>\n<p>\u0412\u043e\u0442 \u0442\u0440\u0438 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0445 \u0443\u0440\u043e\u043a\u0430, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0440\u0430\u0441\u0448\u0438\u0440\u044f\u0442 \u0432\u0437\u0433\u043b\u044f\u0434 \u043d\u0430 \u0430\u043d\u0430\u043b\u0438\u0442\u0438\u043a\u0443 \u0434\u0430\u043d\u043d\u044b\u0445 \u2014 \u043e\u0442 \u043a\u043b\u0430\u0441\u0442\u0435\u0440\u0438\u0437\u0430\u0446\u0438\u0438 \u0434\u043e \u043f\u043e\u0441\u0442\u0440\u043e\u0435\u043d\u0438\u044f DWH \u0438 ML \u043d\u0430 \u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u043e\u0431\u044a\u0451\u043c\u0430\u0445:<\/p>\n<ul>\n<li>\n<p>2 \u0438\u044e\u043d\u044f \u0432 18:00<br \/><a href=\"https:\/\/otus.pw\/FLP5\/\" rel=\"noopener noreferrer nofollow\"><em>\u041f\u043e\u043f\u0443\u043b\u044f\u0440\u043d\u044b\u0435 \u043c\u0435\u0442\u043e\u0434\u044b \u043a\u043b\u0430\u0441\u0442\u0435\u0440\u0438\u0437\u0430\u0446\u0438\u0438<\/em><\/a><br \/>\u0427\u0442\u043e \u0443\u043c\u0435\u044e\u0442 k-means \u0438 DBSCAN, \u0433\u0434\u0435 \u0438\u0445 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442 \u0438 \u043a\u0430\u043a \u043d\u0430\u0441\u0442\u0440\u043e\u0438\u0442\u044c \u0432\u0441\u0451 \u0440\u0443\u043a\u0430\u043c\u0438.<\/p>\n<\/li>\n<li>\n<p>11 \u0438\u044e\u043d\u044f \u0432 20:00<br \/><a href=\"https:\/\/otus.pw\/l3Yo\/\" rel=\"noopener noreferrer nofollow\"><em>Spark ML<\/em><\/a><br \/>\u0418\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u044b \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u0443\u0435\u043c\u043e\u0433\u043e \u043c\u0430\u0448\u0438\u043d\u043d\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f: \u043f\u0430\u0439\u043f\u043b\u0430\u0439\u043d\u044b, \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440\u044b, \u0438\u043d\u0434\u0443\u0441\u0442\u0440\u0438\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0438.<\/p>\n<\/li>\n<li>\n<p>1 \u0438\u044e\u043b\u044f \u0432 20:00<br \/><a href=\"https:\/\/otus.pw\/Mr4f\/\" rel=\"noopener noreferrer nofollow\"><em>\u0410\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 DWH \u043f\u043e \u0440\u0435\u0446\u0435\u043f\u0442\u0443: \u043c\u0435\u0442\u043e\u0434 \u0431\u043e\u0440\u0449\u0430 \u0432 \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u0438<\/em><\/a><br \/>\u041a\u0430\u043a \u043f\u0440\u043e\u0435\u043a\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0430\u043d\u0430\u043b\u0438\u0442\u0438\u0447\u0435\u0441\u043a\u0443\u044e \u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c\u0443 \u2014 \u043e\u0442 \u043b\u043e\u0433\u0438\u043a\u0438 core-\u0441\u043b\u043e\u044f \u0434\u043e \u043f\u043e\u0442\u0440\u0435\u0431\u043d\u043e\u0441\u0442\u0435\u0439 \u0431\u0438\u0437\u043d\u0435\u0441\u0430.<\/p>\n<\/li>\n<\/ul>\n<p><em>\u0411\u043e\u043b\u044c\u0448\u0435 \u0430\u043a\u0442\u0443\u0430\u043b\u044c\u043d\u044b\u0445 \u043d\u0430\u0432\u044b\u043a\u043e\u0432 \u043f\u043e \u0440\u0430\u0431\u043e\u0442\u0435 \u0441 \u0434\u0430\u043d\u043d\u044b\u043c\u0438 \u0432\u044b \u043c\u043e\u0436\u0435\u0442\u0435 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0432 \u0440\u0430\u043c\u043a\u0430\u0445 <\/em><a href=\"https:\/\/otus.pw\/in6n\/\" rel=\"noopener noreferrer nofollow\"><em>\u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u043e\u043d\u043b\u0430\u0439\u043d-\u043a\u0443\u0440\u0441\u043e\u0432<\/em><\/a><em> \u043e\u0442 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432 \u043e\u0442\u0440\u0430\u0441\u043b\u0438.<\/em><\/p>\n<\/div>\n<\/div>\n<\/div>\n<p><!----><!----><\/div>\n<p><!----><!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/913736\/\"> https:\/\/habr.com\/ru\/articles\/913736\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u041f\u0440\u0438\u0432\u0435\u0442, \u0425\u0430\u0431\u0440!<\/p>\n<p>\u0422\u043e\u043d\u043a\u043e\u0435 \u0441\u043a\u0440\u0435\u0449\u0438\u0432\u0430\u043d\u0438\u0435 DataFrame-\u043e\u0432 \u0432 pandas \u043f\u043e-\u043f\u0440\u0435\u0436\u043d\u0435\u043c\u0443 \u043e\u0441\u0442\u0430\u0451\u0442\u0441\u044f \u0438\u0441\u0442\u043e\u0447\u043d\u0438\u043a\u043e\u043c \u043f\u0440\u0435\u043b\u0435\u0441\u0442\u043d\u044b\u0445 \u0431\u0430\u0433\u043e\u0432: \u0441\u043b\u0443\u0447\u0430\u0439\u043d\u044b\u0445 \u0434\u0443\u0431\u043b\u0438\u043a\u0430\u0442\u043e\u0432, \u043f\u043e\u0442\u0435\u0440\u044f\u043d\u043d\u044b\u0445 \u0441\u0442\u0440\u043e\u043a \u0438 \u043d\u0435\u0443\u043b\u043e\u0432\u0438\u043c\u044b\u0445 NaN-\u043e\u0432. \u0412 \u0441\u0442\u0430\u0442\u044c\u0435 \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c \u044d\u0442\u0438 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u044b.<\/p>\n<h3>\u0421\u0442\u0440\u043e\u043a\u043e\u0432\u044b\u0435 \u043a\u043b\u044e\u0447\u0438 \u0441 \u043f\u0440\u043e\u0431\u0435\u043b\u0430\u043c\u0438 \u0438 Unicode-\u043d\u0435\u0432\u0438\u0434\u0438\u043c\u043a\u0430\u043c\u0438<\/h3>\n<h4>\u0421\u0438\u043c\u043f\u0442\u043e\u043c<\/h4>\n<pre><code class=\"python\">df_left  = pd.DataFrame({'id': ['A', 'B', ' C', 'D\\u200b'], 'val': range(4)}) df_right = pd.DataFrame({'id': ['A', 'B', 'C', 'D'],      'note': ['ok']*4})  pd.merge(df_left, df_right, on='id', how='inner')<\/code><\/pre>\n<p>\u041f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u0432\u0441\u0435\u0433\u043e \u0434\u0432\u0435 \u0441\u0442\u0440\u043e\u043a\u0438 \u0432\u043c\u0435\u0441\u0442\u043e \u0447\u0435\u0442\u044b\u0440\u0451\u0445. \u0412\u0438\u043d\u043e\u0432\u043d\u0438\u043a\u0438 \u2014 \u0432\u0435\u0434\u0443\u0449\u0438\u0439 \u043f\u0440\u043e\u0431\u0435\u043b \u0438 \u043d\u0435\u0432\u0438\u0434\u0438\u043c\u044b\u0439 <code>ZERO WIDTH SPACE<\/code>.<\/p>\n<h4>\u041a\u0430\u043a \u0447\u0438\u043d\u0438\u0442\u0441\u044f<\/h4>\n<p>strip-\u043e\u0447\u0438\u0441\u0442\u043a\u0430:<\/p>\n<pre><code class=\"python\">strip = (     lambda s: (s.astype('string')                  .str.normalize('NFKC')   # \u0443\u043d\u0438\u0444\u0438\u0446\u0438\u0440\u0443\u0435\u043c \u044e\u043d\u0438\u043a\u043e\u0434                  .str.replace(r'\\s+', ' ', regex=True)                  .str.strip()) )  df_left['id']  = strip(df_left['id']) df_right['id'] = strip(df_right['id']) <\/code><\/pre>\n<p>\u0412\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u044f \u043a\u043b\u044e\u0447\u0435\u0439:<\/p>\n<pre><code class=\"python\">assert df_left['id'].isna().sum() == 0, 'Left id has NaN after strip' assert df_left['id'].duplicated().sum() == 0, 'Left id not unique' <\/code><\/pre>\n<p>\u0422\u0435\u0441\u0442-\u043c\u0435\u0440\u0434\u0436 \u0441 <code>indicator=True<\/code>:<\/p>\n<pre><code class=\"python\">(     pd.merge(df_left, df_right, on='id', how='outer', indicator=True)       .query(\"_merge != 'both'\") )<\/code><\/pre>\n<p>\u0415\u0441\u043b\u0438 \u0441\u043f\u0438\u0441\u043e\u043a \u043d\u0435\u043f\u0435\u0440\u0435\u0441\u0435\u0447\u0435\u043d\u0438\u0439 \u043d\u0435\u043d\u0443\u043b\u0435\u0432\u043e\u0439 \u2014 \u0437\u043d\u0430\u0447\u0438\u0442 \u043e\u0447\u0438\u0441\u0442\u043a\u0430 \u043d\u0435\u043f\u043e\u043b\u043d\u0430\u044f. <code>indicator<\/code> \u044d\u043a\u043e\u043d\u043e\u043c\u0438\u0442 \u0447\u0430\u0441\u044b \u043b\u043e\u0433\u043e\u0432.<\/p>\n<h3>many-to-many -&gt; \u043b\u0430\u0432\u0438\u043d\u0430 \u0434\u0443\u0431\u043b\u0435\u0439<\/h3>\n<h4>\u0412\u0437\u0440\u044b\u0432 \u043d\u0430 \u043f\u0435\u0441\u043e\u0447\u043d\u0438\u0446\u0435<\/h4>\n<pre><code class=\"python\">sales  = pd.DataFrame({'shop': [1,1,2,2], 'day': ['2025-05-01']*4, 'sku': [1,2,1,2], 'qty': [5,6,7,8]}) prices = pd.DataFrame({'sku': [1,1,2,2], 'region': ['EU','US']*2, 'price': [10,11,12,13]})  fat = sales.merge(prices, on='sku', how='inner') print(fat.shape)  # (16, 6) \u2013 BOOM<\/code><\/pre>\n<p>\u0427\u0435\u0442\u044b\u0440\u0435 \u0441\u0442\u0440\u043e\u043a\u0438 \u043f\u0440\u0435\u0432\u0440\u0430\u0442\u0438\u043b\u0438\u0441\u044c \u0432 \u0448\u0435\u0441\u0442\u043d\u0430\u0434\u0446\u0430\u0442\u044c \u043f\u043e \u043f\u0440\u0430\u0432\u0438\u043b\u0443 \u0434\u0435\u043a\u0430\u0440\u0442\u043e\u0432\u0430 \u043f\u0440\u043e\u0438\u0437\u0432\u0435\u0434\u0435\u043d\u0438\u044f. \u042d\u0442\u043e \u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u043b\u043e\u0432\u0443\u0448\u043a\u0430 many-to-many.<\/p>\n<h4>validate \u2014 \u043f\u0435\u0440\u0432\u044b\u0439 \u0431\u0430\u0440\u044c\u0435\u0440<\/h4>\n<pre><code class=\"python\">sales.merge(prices, on='sku', validate='m:m') # ValueError: Merge keys are not unique in either left or right dataset<\/code><\/pre>\n<p>\u0414\u0430, \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440 \u0441\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u0435\u0442 \u0441 2018-\u0433\u043e, \u043d\u043e \u0434\u043e \u0441\u0438\u0445 \u043f\u043e\u0440 \u0440\u0435\u0434\u043a\u043e \u0432\u0441\u0442\u0440\u0435\u0447\u0430\u0435\u0442\u0441\u044f \u0432 \u0447\u0443\u0436\u043e\u043c \u043a\u043e\u0434\u0435. <code>m:m<\/code> \u043d\u0435 \u0437\u0430\u043f\u0440\u0435\u0449\u0430\u0435\u0442 \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u044e \u2014 \u043e\u043d \u043b\u0438\u0448\u044c \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u0435\u0442, \u0447\u0442\u043e \u043e\u0431\u0435 \u0441\u0442\u043e\u0440\u043e\u043d\u044b \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u0442\u0435\u043b\u044c\u043d\u043e many-to-many; \u0435\u0441\u043b\u0438 \u043e\u0434\u043d\u0430 \u0441\u0442\u043e\u0440\u043e\u043d\u0430 \u0432\u0434\u0440\u0443\u0433 \u0441\u0442\u0430\u043b\u0430 \u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u043e\u0439 \u2014 \u044d\u0442\u043e \u043f\u043e\u0432\u043e\u0434 \u043f\u0440\u043e\u0432\u0435\u0440\u0438\u0442\u044c \u043b\u043e\u0433\u0438\u043a\u0443.<\/p>\n<h4>\u041a\u0430\u043a \u0436\u0438\u0442\u044c \u0441 many-to-many<\/h4>\n<ol>\n<li>\n<p>\u042f\u0432\u043d\u043e \u0433\u0440\u0443\u043f\u043f\u0438\u0440\u0443\u0435\u043c \u0434\u0443\u0431\u043b\u0438\u043a\u0430\u0442\u044b \u0434\u043e merge.<\/p>\n<\/li>\n<li>\n<p>\u041f\u043e\u0441\u043b\u0435 \u0441\u043b\u0438\u044f\u043d\u0438\u044f \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u0435\u043c \u0430\u0433\u0440\u0435\u0433\u0430\u0442\u044b (\u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u0447\u0442\u043e \u0441\u0443\u043c\u043c\u0430 <code>qty<\/code> \u043d\u0435 \u0443\u0434\u0432\u043e\u0438\u043b\u0430\u0441\u044c).<\/p>\n<\/li>\n<li>\n<p>\u041d\u0430 SQL-\u043c\u0430\u043d\u0435\u0440 \u043c\u043e\u0436\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c <strong>anti-join<\/strong> \u0447\u0442\u043e\u0431\u044b \u043d\u0430\u0439\u0442\u0438 \u0441\u0442\u0440\u043e\u043a\u0438, \u043a\u043e\u0442\u043e\u0440\u044b\u043c \u043d\u0435\u0442 \u043f\u0430\u0440\u044b \u2014 \u043d\u0430\u0447\u0438\u043d\u0430\u044f \u0441 pandas 3.0 \u044d\u0442\u043e \u0434\u0435\u043b\u0430\u0435\u0442\u0441\u044f \u043f\u0440\u044f\u043c\u043e \u0432 <code>merge(how='left_anti')<\/code>.<\/p>\n<\/li>\n<\/ol>\n<h3>NaN \u0432 \u043a\u043b\u044e\u0447\u0430\u0445<\/h3>\n<p>Pandas \u0442\u0440\u0430\u043a\u0442\u0443\u0435\u0442 <code>NaN<\/code> \u043a\u0430\u043a \u00ab\u043d\u0435 \u0440\u0430\u0432\u043d\u043e \u043d\u0438\u0447\u0435\u043c\u0443, \u0434\u0430\u0436\u0435 \u0441\u0435\u0431\u0435\u00bb, \u043f\u043e\u044d\u0442\u043e\u043c\u0443:<\/p>\n<pre><code class=\"python\">left  = pd.DataFrame({'id': [1, 2, np.nan], 'x': [10, 20, 30]}) right = pd.DataFrame({'id': [1, np.nan], 'y': [100, 999]})  left.merge(right, on='id', how='inner')   # \u0441\u0442\u0440\u043e\u043a\u0430 \u0441 NaN \u0432\u044b\u043f\u0430\u0434\u0435\u0442 left.merge(right, on='id', how='outer')   # \u043f\u043e\u044f\u0432\u044f\u0442\u0441\u044f \u0434\u0432\u0430 NaN-\u043a\u043b\u044e\u0447\u0430<\/code><\/pre>\n<p>\u0415\u0441\u043b\u0438 <code>NaN<\/code> \u043b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u0438 \u043e\u0437\u043d\u0430\u0447\u0430\u0435\u0442 \u00ab\u0434\u0440\u0443\u0433\u0430\u044f \u0441\u0443\u0449\u043d\u043e\u0441\u0442\u044c\u00bb, \u0437\u0430\u043c\u0435\u043d\u0438\u0442\u0435 \u0435\u0433\u043e sentinel-\u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0435\u043c (<code>-1<\/code> \u0438\u043b\u0438 <code>'__missing__'<\/code>) \u043f\u0435\u0440\u0435\u0434 merge \u2014 \u0438 \u0441\u0440\u0430\u0437\u0443 \u043f\u043e\u0441\u043b\u0435 \u0432\u0435\u0440\u043d\u0438\u0442\u0435 \u043e\u0431\u0440\u0430\u0442\u043d\u043e. \u0422\u043e\u043b\u044c\u043a\u043e \u043d\u0435 \u0437\u0430\u0431\u0443\u0434\u044c\u0442\u0435 \u0437\u0430\u0444\u0438\u043a\u0441\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432 \u0442\u0435\u0441\u0442\u0435.<\/p>\n<h3>\u0414\u0438\u0430\u0433\u043d\u043e\u0441\u0442\u0438\u043a\u0430: _merge<\/h3>\n<p><code>indicator=True<\/code> \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u0442\u043e\u043b\u0431\u0435\u0446 <code><em>merge<\/em><\/code><em> \u0441 \u0442\u0440\u0435\u043c\u044f \u043a\u0430\u0442\u0435\u0433\u043e\u0440\u0438\u044f\u043c\u0438 (<\/em><code><em>left<\/em>only<\/code>, <code>right_only<\/code>, <code>both<\/code>).<\/p>\n<p>\u041e\u0431\u044b\u0447\u043d\u044b\u0439 \u043f\u0440\u0438\u0451\u043c:<\/p>\n<pre><code class=\"python\">probe = (     left.merge(right, on='id', how='outer', indicator=True)          .pipe(lambda df: df[df._merge != 'both']) )  if not probe.empty:     raise RuntimeError(f'\u041d\u0430\u0439\u0434\u0435\u043d\u044b \u043d\u0435\u0441\u043e\u0432\u043f\u0430\u0434\u0435\u043d\u0438\u044f:\\n{probe.head()}')<\/code><\/pre>\n<p>\u0422\u0430\u043a \u043e\u0448\u0438\u0431\u043a\u0443 \u043b\u043e\u0432\u0438\u0442 \u043d\u0435 QA, \u0430 \u044e\u043d\u0438\u0442-\u0442\u0435\u0441\u0442.<\/p>\n<h3>\u041a\u043e\u0433\u0434\u0430 merge() \u043d\u0435 \u043d\u0443\u0436\u0435\u043d<\/h3>\n<p>\u041f\u0435\u0440\u0432\u044b\u0439 \u0441\u0438\u0433\u043d\u0430\u043b, \u0447\u0442\u043e \u043f\u043e\u0440\u0430 \u043f\u043e\u043b\u043e\u0436\u0438\u0442\u044c <code>merge()<\/code> \u043d\u0430 \u043f\u043e\u043b\u043a\u0443 \u2014 \u0443 \u0432\u0430\u0441 \u043d\u0435\u0442 \u043b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u0438 \u00ab\u0441\u043e\u0435\u0434\u0438\u043d\u0438\u0442\u044c \u043f\u043e \u043a\u043b\u044e\u0447\u0443\u00bb. \u0415\u0441\u043b\u0438 \u0437\u0430\u0434\u0430\u0447\u0430 \u0441\u0432\u043e\u0434\u0438\u0442\u0441\u044f \u043a \u043f\u0440\u0438\u0448\u0438\u0442\u044c \u043e\u0434\u0438\u043d \u0434\u0430\u0442\u0430\u0444\u0440\u0435\u0439\u043c \u043a \u0434\u0440\u0443\u0433\u043e\u043c\u0443 \u0431\u0435\u0437 \u0441\u043e\u043f\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u044f \u0441\u0442\u0440\u043e\u043a, \u0437\u043d\u0430\u0447\u0438\u0442 \u043d\u0443\u0436\u043d\u043e <code><strong>pd.concat()<\/strong><\/code>. \u041a\u043e\u043d\u043a\u0430\u0442\u0435\u043d\u0430\u0446\u0438\u044f \u043f\u0440\u043e\u0441\u0442\u043e \u0432\u044b\u043a\u043b\u0430\u0434\u044b\u0432\u0430\u0435\u0442 \u0444\u0440\u0435\u0439\u043c\u044b \u043a\u0438\u0440\u043f\u0438\u0447\u0438\u043a\u0430\u043c\u0438: \u043f\u043e \u0443\u043c\u043e\u043b\u0447\u0430\u043d\u0438\u044e \u0432\u0434\u043e\u043b\u044c \u043e\u0441\u0438 0 (\u0441\u0442\u0440\u043e\u043a\u0438) \u0438 \u0441\u043e\u0445\u0440\u0430\u043d\u044f\u0435\u0442 \u0441\u0442\u043e\u043b\u0431\u0446\u044b, \u0434\u0430\u0436\u0435 \u0435\u0441\u043b\u0438 \u043d\u0430\u0431\u043e\u0440\u044b \u043a\u043e\u043b\u043e\u043d\u043e\u043a \u043d\u0435 \u0441\u043e\u0432\u043f\u0430\u0434\u0430\u044e\u0442. \u0422\u0438\u043f\u043e\u0432\u043e\u0439 \u043f\u0440\u0438\u0451\u043c \u0432 ETL-\u043f\u0430\u0439\u043f\u043b\u0430\u0439\u043d\u0435:<\/p>\n<pre><code class=\"python\">dfs = [pd.read_parquet(p) for p in paths]          # \u043f\u0430\u0440\u0442\u0438\u0446\u0438\u0438 \u0437\u0430 \u0440\u0430\u0437\u043d\u044b\u0435 \u0434\u0430\u0442\u044b whole = pd.concat(dfs, ignore_index=True, sort=False)<\/code><\/pre>\n<p><code>ignore_index=True<\/code> \u043f\u0435\u0440\u0435\u0433\u0435\u043d\u0435\u0440\u0438\u0440\u0443\u0435\u0442 \u0447\u0438\u0441\u043b\u043e\u0432\u043e\u0439 \u0438\u043d\u0434\u0435\u043a\u0441 \u2014 \u0431\u0435\u0437 \u044d\u0442\u043e\u0433\u043e \u043d\u0430 \u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u043c\u0430\u0441\u0441\u0438\u0432\u0430\u0445 \u043b\u043e\u0432\u0438\u0442\u0435 \u0434\u0443\u0431\u043b\u0438\u043a\u0430\u0442\u044b. <code>sort=False<\/code> \u044d\u043a\u043e\u043d\u043e\u043c\u0438\u0442 \u0432\u0430\u043c \u043f\u0430\u0440\u0443 \u0441\u0435\u043a\u0443\u043d\u0434 \u0438 \u043d\u0435\u043c\u043d\u043e\u0433\u043e RAM, \u043e\u0442\u043a\u043b\u0430\u0434\u044b\u0432\u0430\u044f \u043f\u0435\u0440\u0435\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0443 \u0441\u0442\u043e\u043b\u0431\u0446\u043e\u0432.<\/p>\n<p>\u041a\u043e\u0433\u0434\u0430 \u043a\u043b\u044e\u0447\u043e\u043c \u0441\u043b\u0443\u0436\u0438\u0442 <strong>\u0432\u0440\u0435\u043c\u044f<\/strong>, \u0430 \u0432\u0430\u043c \u043d\u0443\u0436\u043d\u043e \u043f\u0440\u0438\u0432\u044f\u0437\u0430\u0442\u044c \u043f\u043e\u043a\u0430\u0437\u0430\u043d\u0438\u044f \u0434\u0430\u0442\u0447\u0438\u043a\u0430 \u043a \u0431\u043b\u0438\u0436\u0430\u0439\u0448\u0435\u043c\u0443 (\u0438\u043b\u0438 \u043f\u0440\u0435\u0434\u044b\u0434\u0443\u0449\u0435\u043c\u0443) \u0440\u0435\u043a\u043e\u0440\u0434\u0443 \u0432 \u0434\u0440\u0443\u0433\u043e\u043c \u0444\u0440\u0435\u0439\u043c\u0435, \u0441\u0446\u0435\u043d\u0430 \u0432\u0430\u0448\u0430 \u2014 <code><strong>merge_asof()<\/strong><\/code>. \u042d\u0442\u043e\u0442 \u043f\u043e\u043b\u0443\u0431\u0440\u0430\u0442 <code>merge()<\/code> \u0434\u0435\u043b\u0430\u0435\u0442 \u043b\u0438\u043d\u0435\u0439\u043d\u044b\u0439 nearest-join \u043f\u043e \u043e\u0442\u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u043c \u043c\u0435\u0442\u043a\u0430\u043c. \u0412 \u0431\u0430\u043d\u043a\u0430\u0445 \u043d\u0430 \u043d\u0451\u043c \u0441\u043a\u043b\u0435\u0438\u0432\u0430\u044e\u0442 \u0442\u0438\u043a\u0438 \u0441 \u0440\u044b\u043d\u043e\u0447\u043d\u044b\u043c\u0438 \u043a\u043e\u0442\u0438\u0440\u043e\u0432\u043a\u0430\u043c\u0438, \u0432 IIoT \u2014 \u0442\u0435\u043b\u0435\u043c\u0435\u0442\u0440\u0438\u044e \u0441 \u0440\u0430\u0441\u043f\u0438\u0441\u0430\u043d\u0438\u0435\u043c \u043f\u0430\u0440\u043a\u0430 \u0441\u0442\u0430\u043d\u043a\u043e\u0432:<\/p>\n<pre><code class=\"python\">aligned = pd.merge_asof(     trades.sort_values('timestamp'),     quotes.sort_values('timestamp'),     on='timestamp',     direction='backward',  # \u0431\u0435\u0440\u0451\u043c \u0431\u043b\u0438\u0436\u0430\u0439\u0448\u0443\u044e \u043a\u043e\u0442\u0438\u0440\u043e\u0432\u043a\u0443 \u0432 \u043f\u0440\u043e\u0448\u043b\u043e\u043c     tolerance=pd.Timedelta('2s')  # \u0438 \u043d\u0435 \u0434\u0430\u043b\u044c\u0448\u0435, \u0447\u0435\u043c 2 \u0441\u0435\u043a\u0443\u043d\u0434\u044b )<\/code><\/pre>\n<p>\u0413\u043b\u0430\u0432\u043d\u043e\u0435 \u0442\u0440\u0435\u0431\u043e\u0432\u0430\u043d\u0438\u0435 \u2014 \u043e\u0431\u0430 <code>DataFrame<\/code> \u0434\u043e\u043b\u0436\u043d\u044b \u0431\u044b\u0442\u044c \u043e\u0442\u0441\u043e\u0440\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u044b \u043f\u043e \u043a\u043b\u044e\u0447\u0443; \u0437\u0430 \u044d\u0442\u043e \u043e\u0442\u0432\u0435\u0447\u0430\u0435\u0442 \u0441\u0430\u043c \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a, \u0438\u043d\u0430\u0447\u0435 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u0435 <code>MergeError<\/code>.<\/p>\n<p>\u0415\u0441\u043b\u0438 \u0432\u0430\u0448\u0430 \u0446\u0435\u043b\u044c \u2014 <strong>\u0442\u043e\u0447\u0435\u0447\u043d\u044b\u0439 \u043f\u0430\u0442\u0447<\/strong> \u0437\u043d\u0430\u0447\u0435\u043d\u0438\u0439 \u0431\u0435\u0437 \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u00ab\u0444\u043e\u0440\u043c\u044b\u00bb \u0442\u0430\u0431\u043b\u0438\u0446\u044b, \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0439\u0442\u0435 <code><strong>DataFrame.update()<\/strong><\/code>. \u041c\u0435\u0442\u043e\u0434 \u0438\u0434\u0451\u0442 \u043f\u043e \u0441\u043e\u0432\u043f\u0430\u0434\u0430\u044e\u0449\u0438\u043c \u0438\u043d\u0434\u0435\u043a\u0441\u0430\u043c \u0438 \u0441\u0442\u043e\u043b\u0431\u0446\u0430\u043c, \u0437\u0430\u043c\u0435\u043d\u044f\u044f \u0442\u043e\u043b\u044c\u043a\u043e \u0442\u0435 \u044f\u0447\u0435\u0439\u043a\u0438, \u0433\u0434\u0435 \u0432 \u043f\u0430\u0442\u0447\u0435 \u043d\u0435 <code>NaN<\/code>. \u042d\u0442\u043e \u0431\u0435\u0437\u043e\u043f\u0430\u0441\u043d\u0430\u044f \u0430\u043b\u044c\u0442\u0435\u0440\u043d\u0430\u0442\u0438\u0432\u0430 \u0442\u044f\u0436\u0435\u043b\u0451\u043d\u043d\u043e\u043c\u0443 <code>merge()<\/code> \u043f\u043b\u044e\u0441 <code>fillna()<\/code>:<\/p>\n<pre><code class=\"python\">base   = pd.DataFrame({'id': [1, 2, 3], 'price': [100, 200, 300]}) patch  = pd.DataFrame({'id': [2],       'price': [180]}).set_index('id')  base.set_index('id', inplace=True) base.update(patch)      # \u0442\u043e\u043b\u044c\u043a\u043e \u0441\u0442\u0440\u043e\u043a\u0430 id=2 \u0431\u0443\u0434\u0435\u0442 \u043f\u0435\u0440\u0435\u043f\u0438\u0441\u0430\u043d\u0430 base.reset_index(inplace=True)<\/code><\/pre>\n<p><code>update()<\/code> \u043d\u0435 \u0432\u0435\u0440\u043d\u0451\u0442 \u043d\u043e\u0432\u043e\u0433\u043e \u043e\u0431\u044a\u0435\u043a\u0442\u0430 \u2014 \u043e\u043d \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 <em>in-place<\/em>, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0439\u0442\u0435 \u043a\u043e\u043f\u0438\u044e, \u0435\u0441\u043b\u0438 \u043d\u0443\u0436\u043d\u043e \u0441\u043e\u0445\u0440\u0430\u043d\u0438\u0442\u044c \u0438\u0441\u0445\u043e\u0434\u043d\u044b\u0439 \u043d\u0430\u0431\u043e\u0440. <\/p>\n<h3>\u041f\u0430\u0442\u0442\u0435\u0440\u043d \u00ab\u0434\u043e \u043f\u0440\u043e\u0434\u0430\u043a\u0448\u0435\u043d\u0430\u00bb<\/h3>\n<pre><code class=\"python\">def safe_merge(left: pd.DataFrame,                right: pd.DataFrame,                *,                on: str,                how: str = 'inner',                validate: str | None = None,                strict: bool = True) -&gt; pd.DataFrame:     \"\"\"\u041e\u0431\u0451\u0440\u0442\u043a\u0430 \u043d\u0430\u0434 pandas.merge \u0441 \u0432\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u0435\u0439 \u0438 \u043b\u043e\u0433\u0430\u043c\u0438\"\"\"     _left  = left.copy()     _right = right.copy()      # 1. \u041f\u0440\u0438\u0432\u0435\u0434\u0451\u043c \u043a\u043b\u044e\u0447 \u043a \u0441\u0442\u0440\u043e\u043a\u043e\u0432\u043e\u043c\u0443 string-dtype     for df in (_left, _right):         df[on] = (             df[on].astype('string')                   .str.normalize('NFKC')                   .str.strip()         )      # 2. \u0411\u0430\u0437\u043e\u0432\u0430\u044f \u0432\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u044f     if strict:         dup_left  = _left[on].duplicated().any()         dup_right = _right[on].duplicated().any()         if dup_left or dup_right:             raise ValueError(f'Duplicates in {\"left\" if dup_left else \"right\"} key column {on}')      # 3. \u0421\u043b\u0438\u044f\u043d\u0438\u0435     res = _left.merge(_right,                       on=on,                       how=how,                       validate=validate,                       indicator=True)      # 4. \u041f\u0440\u043e\u0432\u0435\u0440\u043a\u0430 \u043d\u0430 \u043f\u043e\u0442\u0435\u0440\u0438     lost = res.query('_merge != \"both\"')     if strict and not lost.empty:         raise RuntimeError(f'Merge produced orphan rows:\\n{lost.head()}')      return res.drop(columns='_merge')<\/code><\/pre>\n<p>\u0421\u043c\u044b\u0441\u043b \u043e\u0431\u0451\u0440\u0442\u043a\u0438 \u2014 \u043d\u0435 \u0434\u0430\u0442\u044c \u043f\u0440\u043e\u043a\u0430\u0442\u0438\u0442\u044c\u0441\u044f \u0431\u0430\u0433\u0443 \u0434\u0430\u043b\u044c\u0448\u0435 CI. \u041e\u043d\u0430 \u0434\u0435\u043b\u0430\u0435\u0442 \u0441\u0440\u0430\u0437\u0443 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0432\u0435\u0449\u0435\u0439:<\/p>\n<ol>\n<li>\n<p><strong>\u041f\u0440\u0438\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u043a\u043b\u044e\u0447\u0430 \u043a <\/strong><code><strong>string<\/strong><\/code><strong> \u0438 \u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044f Unicode<\/strong><br \/>\u0414\u0430\u0436\u0435 \u0435\u0441\u043b\u0438 \u0432\u0445\u043e\u0434 \u0431\u044b\u043b <code>int<\/code> \u0438\u043b\u0438 <code>object<\/code>, \u0432\u0441\u0451 \u043f\u0440\u0438\u0432\u043e\u0434\u0438\u0442\u0441\u044f \u043a <code>string<\/code>-\u0442\u0438\u043f\u0443, \u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0443\u0435\u0442\u0441\u044f (<code>NFKC<\/code> \u0443\u0431\u0438\u0440\u0430\u0435\u0442 \u0432\u0438\u0437\u0443\u0430\u043b\u044c\u043d\u043e \u043f\u043e\u0445\u043e\u0436\u0438\u0435 \u0441\u0438\u043c\u0432\u043e\u043b\u044b) \u0438 <code>strip<\/code>-\u0438\u0442\u0441\u044f. <\/p>\n<\/li>\n<li>\n<p><strong>\u0411\u0430\u0437\u043e\u0432\u0430\u044f \u0432\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u044f \u043d\u0430 \u0434\u0443\u0431\u043b\u0438\u043a\u0430\u0442\u044b<\/strong><br \/>\u0415\u0441\u043b\u0438 \u043e\u0434\u043d\u0430 \u0438\u0437 \u0441\u0442\u043e\u0440\u043e\u043d \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u043d\u0435\u0443\u043d\u0438\u043a\u0430\u043b\u044c\u043d\u044b\u0435 \u043a\u043b\u044e\u0447\u0438, <code>merge()<\/code> \u043c\u043e\u0436\u0435\u0442 \u0432\u0435\u0441\u0442\u0438 \u0441\u0435\u0431\u044f \u043a\u0430\u043a \u0434\u0435\u043a\u0430\u0440\u0442\u043e\u0432\u043e \u043f\u0440\u043e\u0438\u0437\u0432\u0435\u0434\u0435\u043d\u0438\u0435 \u2014 \u0447\u0442\u043e \u043d\u0435 \u0432\u0441\u0435\u0433\u0434\u0430 \u043e\u0436\u0438\u0434\u0430\u0435\u043c\u043e. \u041f\u0440\u0438 <code>strict=True<\/code> \u0442\u0430\u043a\u0438\u0435 \u0441\u0438\u0442\u0443\u0430\u0446\u0438\u0438 \u0431\u043b\u043e\u043a\u0438\u0440\u0443\u044e\u0442\u0441\u044f \u043d\u0430 \u044d\u0442\u0430\u043f\u0435 \u0432\u044b\u043f\u043e\u043b\u043d\u0435\u043d\u0438\u044f \u0441 \u044f\u0432\u043d\u044b\u043c <code>ValueError<\/code>.<\/p>\n<\/li>\n<li>\n<p><strong>\u0412\u0441\u0442\u0440\u043e\u0435\u043d\u043d\u044b\u0439 <\/strong><code><strong>indicator=True<\/strong><\/code><strong> \u0438 \u043f\u0440\u043e\u0432\u0435\u0440\u043a\u0430 \u043d\u0430 orphan-\u0441\u0442\u0440\u043e\u043a\u0438<\/strong><br \/><code>indicator<\/code> \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u0442\u043e\u043b\u0431\u0435\u0446 <code><em>merge<\/em><\/code><em>, \u043f\u043e \u043a\u043e\u0442\u043e\u0440\u043e\u043c\u0443 \u0441\u0440\u0430\u0437\u0443 \u043c\u043e\u0436\u043d\u043e \u043f\u043e\u043d\u044f\u0442\u044c, \u043a\u0430\u043a\u0438\u0435 \u0441\u0442\u0440\u043e\u043a\u0438 \u043e\u0441\u0442\u0430\u043b\u0438\u0441\u044c \u0431\u0435\u0437 \u043f\u0430\u0440\u044b. \u041f\u043e\u0441\u043b\u0435 <\/em><code><em>merge<\/em><\/code><em> \u043c\u044b \u0444\u0438\u043b\u044c\u0442\u0440\u0443\u0435\u043c \u0432\u0441\u0435 \u0441\u0442\u0440\u043e\u043a\u0438, \u0433\u0434\u0435 <\/em><code>merge != \"both\"<\/code>, \u0438 \u0435\u0441\u043b\u0438 \u043e\u043d\u0438 \u0435\u0441\u0442\u044c \u2014 \u043a\u0438\u0434\u0430\u0435\u043c <code>RuntimeError<\/code> \u0441 \u0438\u0445 \u0434\u0430\u043c\u043f\u043e\u043c. <\/p>\n<\/li>\n<\/ol>\n<hr\/>\n<p>\u0414\u0435\u043b\u0438\u0442\u0435\u0441\u044c \u0441\u0432\u043e\u0438\u043c \u043e\u043f\u044b\u0442\u043e\u043c \u0440\u0430\u0431\u043e\u0442\u044b \u0441 merge \u0432 \u043a\u043e\u043c\u043c\u0435\u043d\u0442\u0430\u0440\u0438\u044f\u0445.<\/p>\n<p>\u0415\u0441\u043b\u0438 \u0432\u044b \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442\u0435 \u0441 \u0434\u0430\u043d\u043d\u044b\u043c\u0438, \u0432\u044b \u043d\u0430\u0432\u0435\u0440\u043d\u044f\u043a\u0430 \u0441\u0442\u0430\u043b\u043a\u0438\u0432\u0430\u043b\u0438\u0441\u044c \u0441 \u0442\u0435\u043c, \u0447\u0442\u043e \u00ab\u043e\u0431\u044b\u0447\u043d\u044b\u0439 merge\u00bb \u2014 \u043b\u0438\u0448\u044c \u0432\u0435\u0440\u0448\u0438\u043d\u0430 \u0430\u0439\u0441\u0431\u0435\u0440\u0433\u0430. \u041f\u043e\u0434 \u043a\u0430\u043f\u043e\u0442\u043e\u043c \u2014 \u0447\u0438\u0441\u0442\u043a\u0430, \u0432\u0430\u043b\u0438\u0434\u0430\u0446\u0438\u044f, \u0430\u0433\u0440\u0435\u0433\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u0438 \u0433\u0440\u0430\u043c\u043e\u0442\u043d\u0430\u044f \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u0445\u0440\u0430\u043d\u0438\u043b\u0438\u0449\u0430. \u0415\u0441\u043b\u0438 \u0441\u0442\u0430\u0442\u044c\u044f \u043e\u043a\u0430\u0437\u0430\u043b\u0430\u0441\u044c \u0432\u0430\u043c \u0431\u043b\u0438\u0437\u043a\u0430 \u043f\u043e \u0434\u0443\u0445\u0443 \u2014 \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e, \u0431\u0443\u0434\u0435\u0442 \u043f\u043e\u043b\u0435\u0437\u043d\u043e \u0443\u0433\u043b\u0443\u0431\u0438\u0442\u044c\u0441\u044f \u0435\u0449\u0451 \u0432 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0442\u0435\u043c, \u0433\u0434\u0435 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u0441\u043e\u0435\u0434\u0438\u043d\u0435\u043d\u0438\u044f \u0438 \u043f\u043e\u0434\u0433\u043e\u0442\u043e\u0432\u043a\u0438 \u0434\u0430\u043d\u043d\u044b\u0445 \u0440\u0435\u0448\u0430\u0435\u0442 \u0432\u0441\u0451.<\/p>\n<p>\u0412\u043e\u0442 \u0442\u0440\u0438 \u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0445 \u0443\u0440\u043e\u043a\u0430, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0440\u0430\u0441\u0448\u0438\u0440\u044f\u0442 \u0432\u0437\u0433\u043b\u044f\u0434 \u043d\u0430 \u0430\u043d\u0430\u043b\u0438\u0442\u0438\u043a\u0443 \u0434\u0430\u043d\u043d\u044b\u0445 \u2014 \u043e\u0442 \u043a\u043b\u0430\u0441\u0442\u0435\u0440\u0438\u0437\u0430\u0446\u0438\u0438 \u0434\u043e \u043f\u043e\u0441\u0442\u0440\u043e\u0435\u043d\u0438\u044f DWH \u0438 ML \u043d\u0430 \u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u043e\u0431\u044a\u0451\u043c\u0430\u0445:<\/p>\n<ul>\n<li>\n<p>2 \u0438\u044e\u043d\u044f \u0432 18:00<br \/><a href=\"https:\/\/otus.pw\/FLP5\/\" rel=\"noopener noreferrer nofollow\"><em>\u041f\u043e\u043f\u0443\u043b\u044f\u0440\u043d\u044b\u0435 \u043c\u0435\u0442\u043e\u0434\u044b \u043a\u043b\u0430\u0441\u0442\u0435\u0440\u0438\u0437\u0430\u0446\u0438\u0438<\/em><\/a><br \/>\u0427\u0442\u043e \u0443\u043c\u0435\u044e\u0442 k-means \u0438 DBSCAN, \u0433\u0434\u0435 \u0438\u0445 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u044e\u0442 \u0438 \u043a\u0430\u043a \u043d\u0430\u0441\u0442\u0440\u043e\u0438\u0442\u044c \u0432\u0441\u0451 \u0440\u0443\u043a\u0430\u043c\u0438.<\/p>\n<\/li>\n<li>\n<p>11 \u0438\u044e\u043d\u044f \u0432 20:00<br \/><a href=\"https:\/\/otus.pw\/l3Yo\/\" rel=\"noopener noreferrer nofollow\"><em>Spark ML<\/em><\/a><br \/>\u0418\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u044b \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u0443\u0435\u043c\u043e\u0433\u043e \u043c\u0430\u0448\u0438\u043d\u043d\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f: \u043f\u0430\u0439\u043f\u043b\u0430\u0439\u043d\u044b, \u0442\u0440\u0430\u043d\u0441\u0444\u043e\u0440\u043c\u0435\u0440\u044b, \u0438\u043d\u0434\u0443\u0441\u0442\u0440\u0438\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0438.<\/p>\n<\/li>\n<li>\n<p>1 \u0438\u044e\u043b\u044f \u0432 20:00<br \/><a href=\"https:\/\/otus.pw\/Mr4f\/\" rel=\"noopener noreferrer nofollow\"><em>\u0410\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 DWH \u043f\u043e \u0440\u0435\u0446\u0435\u043f\u0442\u0443: \u043c\u0435\u0442\u043e\u0434 \u0431\u043e\u0440\u0449\u0430 \u0432 \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u0438<\/em><\/a><br \/>\u041a\u0430\u043a \u043f\u0440\u043e\u0435\u043a\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0430\u043d\u0430\u043b\u0438\u0442\u0438\u0447\u0435\u0441\u043a\u0443\u044e \u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c\u0443 \u2014 \u043e\u0442 \u043b\u043e\u0433\u0438\u043a\u0438 core-\u0441\u043b\u043e\u044f \u0434\u043e \u043f\u043e\u0442\u0440\u0435\u0431\u043d\u043e\u0441\u0442\u0435\u0439 \u0431\u0438\u0437\u043d\u0435\u0441\u0430.<\/p>\n<\/li>\n<\/ul>\n<p><em>\u0411\u043e\u043b\u044c\u0448\u0435 \u0430\u043a\u0442\u0443\u0430\u043b\u044c\u043d\u044b\u0445 \u043d\u0430\u0432\u044b\u043a\u043e\u0432 \u043f\u043e \u0440\u0430\u0431\u043e\u0442\u0435 \u0441 \u0434\u0430\u043d\u043d\u044b\u043c\u0438 \u0432\u044b \u043c\u043e\u0436\u0435\u0442\u0435 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0432 \u0440\u0430\u043c\u043a\u0430\u0445 <\/em><a href=\"https:\/\/otus.pw\/in6n\/\" rel=\"noopener noreferrer nofollow\"><em>\u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u043e\u043d\u043b\u0430\u0439\u043d-\u043a\u0443\u0440\u0441\u043e\u0432<\/em><\/a><em> \u043e\u0442 \u044d\u043a\u0441\u043f\u0435\u0440\u0442\u043e\u0432 \u043e\u0442\u0440\u0430\u0441\u043b\u0438.<\/em><\/p>\n<\/div>\n<\/div>\n<\/div>\n<p><!----><!----><\/div>\n<p><!----><!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/913736\/\"> https:\/\/habr.com\/ru\/articles\/913736\/<\/a><br \/><\/br><\/br><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-463151","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/463151","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=463151"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/463151\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=463151"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=463151"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=463151"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}