{"id":460645,"date":"2025-05-22T22:23:29","date_gmt":"2025-05-22T22:23:29","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=460645"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=460645","title":{"rendered":"<span>\u041f\u043e\u0447\u0435\u043c\u0443 SCD Type 2 \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0432 DWH, \u0438 \u043a\u0430\u043a \u044d\u0442\u043e \u0447\u0438\u043d\u0438\u0442\u0441\u044f \u0447\u0435\u0440\u0435\u0437 Merge + Hash<\/span>"},"content":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u041f\u0440\u0438\u0432\u0435\u0442, \u0425\u0430\u0431\u0440!<\/p>\n<p>\u0412\u00a0\u044d\u0442\u043e\u043c \u0441\u0442\u0430\u0442\u044c\u0435 \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c, \u043f\u043e\u0447\u0435\u043c\u0443 \u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044f SCD Type 2\u00a0\u0432\u00a0DWH \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442 \u0436\u0443\u0442\u043a\u043e \u0442\u043e\u0440\u043c\u043e\u0437\u0438\u0442\u044c \u043d\u0430\u00a0\u043c\u0438\u043b\u043b\u0438\u043e\u043d\u0430\u0445 \u0441\u0442\u0440\u043e\u043a \u0438 \u043a\u0430\u043a\u00a0\u0441\u00a0\u044d\u0442\u0438\u043c \u0431\u043e\u0440\u043e\u0442\u044c\u0441\u044f \u043f\u0440\u0438\u00a0\u043f\u043e\u043c\u043e\u0449\u0438 \u043a\u043e\u043c\u0431\u0438\u043d\u0430\u0446\u0438\u0438 MERGE + hash\u2011diff. <\/p>\n<h3>\u041f\u0440\u043e\u0431\u043b\u0435\u043c\u0430\u0442\u0438\u043a\u0430: \u0433\u0434\u0435 \u0438 \u043a\u043e\u0433\u0434\u0430 \u0432\u0441\u0451 \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442 \u0433\u043b\u044e\u0447\u0438\u0442\u044c<\/h3>\n<h4>\u0428\u0438\u0440\u043e\u043a\u0438\u0435 \u0434\u0436\u043e\u0438\u043d\u044b vs \u043c\u0438\u043b\u043b\u0438\u043e\u043d\u044b \u0441\u0442\u0440\u043e\u043a<\/h4>\n<p>\u0422\u0438\u043f\u0438\u0447\u043d\u0430\u044f \u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044f SCD 2\u00a0\u0441\u0442\u0440\u043e\u0438\u0442\u0441\u044f \u0442\u0430\u043a:<\/p>\n<pre><code class=\"sql\">-- \u041d\u0430\u0438\u0432\u043d\u044b\u0439 \u043f\u0441\u0435\u0432\u0434\u043e\u043a\u043e\u0434 INSERT INTO dim SELECT src.* FROM staging src LEFT JOIN dim tgt   ON src.id = tgt.id AND tgt.is_current = TRUE WHERE   tgt.id IS NULL   OR src.col1 &lt;&gt; tgt.col1   OR src.col2 &lt;&gt; tgt.col2   \u2026 AND \u0442.\u0434. \u043f\u043e \u0432\u0441\u0435\u043c \u043a\u043e\u043b\u043e\u043d\u043a\u0430\u043c ;<\/code><\/pre>\n<p>\u041f\u0440\u0438 40\u201360\u00a0\u043a\u043e\u043b\u043e\u043d\u043a\u0430\u0445 \u0438 \u0441\u043e\u0442\u043d\u044f\u0445 \u043c\u0438\u043b\u043b\u0438\u043e\u043d\u043e\u0432 \u0441\u0442\u0440\u043e\u043a \u044d\u0442\u043e \u0432\u044b\u043b\u0438\u0432\u0430\u0435\u0442\u0441\u044f \u0432\u00a0\u043a\u043e\u043b\u043e\u0441\u0441\u0430\u043b\u044c\u043d\u044b\u0435 I\/O \u0438 CPU\u2011\u0434\u0436\u043e\u0431: \u043a\u0430\u0436\u0434\u044b\u0439\u00a0\u043b\u0438\u0444\u0442\u0438\u043d\u0433, \u043a\u0430\u0436\u0434\u044b\u0439 \u0431\u0430\u0439\u0442 \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u044f\u2026<\/p>\n<h4>MERGE-\u0430\u043f\u0434\u0435\u0439\u0442\u044b: \u0431\u043b\u043e\u043a\u0438\u0440\u043e\u0432\u043a\u0438 \u0438 \u043a\u043e\u043d\u043a\u0443\u0440\u0435\u043d\u0446\u0438\u044f<\/h4>\n<p>\u0412\u00a0Postgres MERGE (v15+) \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u0435\u0442 \u043e\u0434\u0438\u043d \u0442\u044f\u0436\u0451\u043b\u044b\u0439 transaction, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0449\u0451\u043b\u043a\u0430\u0435\u0442 \u0432\u0441\u0451 \u0434\u0435\u0440\u0435\u0432\u043e \u0438\u043d\u0434\u0435\u043a\u0441\u043e\u0432 \u0438 b\u2011tree, \u0431\u043b\u043e\u043a\u0438\u0440\u0443\u044f \u0440\u0430\u0437\u0434\u0435\u043b\u044b; \u0432\u00a0Snowflake DML \u043d\u0435\u0440\u0435\u0434\u043a\u043e \u0441\u043e\u0440\u0442\u0438\u0440\u0443\u0435\u0442 \u0432\u0435\u0441\u044c \u0441\u043b\u043e\u0439 micro\u2011partition; \u0432\u00a0BigQuery DML\u00a0\u043b\u0438\u043c\u0438\u0442\u0438\u0440\u0443\u0435\u0442 \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u0438 \u043f\u043e\u00a0\u0442\u0430\u0431\u043b\u0438\u0446\u0435 \u0438 \u043f\u0440\u0435\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u043c\u0430\u043b\u0435\u043d\u044c\u043a\u0438\u0439 MERGE \u0432\u00a0\u043c\u043e\u043d\u0441\u0442\u0440\u0443\u043e\u0437\u043d\u044b\u0439 SNAPSHOT\u2011read.<\/p>\n<h4>\u041e\u0442\u043b\u043e\u0436\u0435\u043d\u043d\u0430\u044f \u0438\u0441\u0442\u043e\u0440\u0438\u044f, CDC \u0438 \u0438\u043d\u043a\u0440\u0435\u043c\u0435\u043d\u0442 \u2014 \u043d\u0435 \u0432\u0441\u0435\u0433\u0434\u0430 \u043f\u0430\u043d\u0430\u0446\u0435\u044f<\/h4>\n<p>\u0414\u0430, \u043f\u043e\u00a0\u0438\u0434\u0435\u0435 \u043c\u043e\u0436\u043d\u043e \u043d\u0430\u0441\u0442\u0440\u043e\u0438\u0442\u044c Change Data Capture (Debezium, Kafka \u2192 staging), \u043d\u043e\u00a0\u0435\u0441\u043b\u0438 \u0434\u0430\u043b\u044c\u0448\u0435 \u0448\u0430\u0433\u0430 \u00ab\u0437\u0430\u0441\u0443\u043d\u0443\u0442\u044c \u0432\u0441\u0451 \u0432\u00a0SCD 2\u00bb \u0432\u044b \u0443\u043f\u0438\u0440\u0430\u0435\u0442\u0435\u0441\u044c \u0432\u00a0\u0442\u043e\u0442\u00a0\u0436\u0435 MERGE + \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435 \u043f\u043e\u043b\u0435\u0439\u00a0\u2014 \u0432\u044b\u0438\u0433\u0440\u044b\u0448 \u0431\u0443\u0434\u0435\u0442 \u043c\u0438\u043d\u0438\u043c\u0430\u043b\u044c\u043d\u044b\u043c.<\/p>\n<p>\u041f\u043e\u00a0\u043e\u043f\u044b\u0442\u0443\u00a0\u0431\u044b\u043b\u043e \u0442\u0430\u043a\u043e\u0435, \u0447\u0442\u043e\u00a0\u043d\u0430\u00a0\u0433\u0440\u0443\u0437\u0435 \u0432 80\u00a0\u043c\u043b\u043d \u0441\u0442\u0440\u043e\u043a \u043e\u0434\u043d\u0430 \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u044f MERGE \u0440\u0430\u0431\u043e\u0442\u0430\u043b\u0430 12\u00a0\u0447\u0430\u0441\u043e\u0432\u00a0\u2014 \u0438 \u043f\u0440\u0438\u0445\u043e\u0434\u0438\u043b\u043e\u0441\u044c \u0433\u043e\u043d\u044f\u0442\u044c \u043f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u044b\u0435 \u043a\u043e\u043f\u0438\u0438 \u043f\u043e\u00a0customer_id% N, \u043d\u043e\u00a0\u0431\u0435\u0437\u00a0hash\u2011diff \u0432\u044b\u0438\u0433\u0440\u044b\u0448\u00a0\u0431\u044b\u043b \u043d\u0435\u0437\u043d\u0430\u0447\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0439.<\/p>\n<h3>Hash-diff<\/h3>\n<p>\u0412\u043c\u0435\u0441\u0442\u043e \u0442\u043e\u0433\u043e \u0447\u0442\u043e\u0431\u044b \u0441\u0440\u0430\u0432\u043d\u0438\u0432\u0430\u0442\u044c \u043f\u043e\u00a0\u043f\u043e\u043b\u044f\u043c \u0447\u0435\u0440\u0435\u0437 OR, \u043c\u044b \u0432\u044b\u0447\u0438\u0441\u043b\u044f\u0435\u043c \u043a\u043e\u043c\u043f\u0430\u043a\u0442\u043d\u044b\u0439 <code>hash_value<\/code>, \u0441\u043e\u0445\u0440\u0430\u043d\u044f\u0435\u043c \u0435\u0433\u043e \u0438 \u0432\u00a0staging, \u0438 \u0432\u00a0dimension. \u0421\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435 \u043e\u0434\u043d\u043e\u0433\u043e \u0445\u0435\u0448\u0430 \u0441\u00a0\u0434\u0440\u0443\u0433\u0438\u043c (<code>hash_value &lt;&gt; hash_value<\/code>)\u00a0\u2014 \u044d\u0442\u043e \u0431\u0438\u0442\u043e\u0432\u0430\u044f \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u044f, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043d\u0435\u00a0\u0442\u0440\u0435\u0431\u0443\u0435\u0442 \u043e\u0431\u0445\u043e\u0434\u0430 \u0432\u0441\u0435\u0445 \u0441\u0442\u043e\u043b\u0431\u0446\u043e\u0432 \u0442\u0430\u0431\u043b\u0438\u0446\u044b.\u00bb <\/p>\n<ul>\n<li>\n<p><strong>\u0423\u043c\u0435\u043d\u044c\u0448\u0435\u043d\u043d\u044b\u0439 \u043e\u0431\u044a\u0451\u043c \u0434\u0430\u043d\u043d\u044b\u0445.<\/strong> \u0421\u0440\u0430\u0432\u043d\u0438\u0432\u0430\u0435\u043c 8\u201316\u00a0\u0431\u0430\u0439\u0442 \u0432\u043c\u0435\u0441\u0442\u043e \u0434\u0435\u0441\u044f\u0442\u043a\u0430 \u043f\u043e\u043b\u0435\u0439 \u043f\u043e 50\u2013200\u00a0\u0431\u0430\u0439\u0442.<\/p>\n<\/li>\n<li>\n<p><strong>\u0418\u043d\u0434\u0435\u043a\u0441\u044b \u0445\u0432\u0430\u0442\u0430\u044e\u0442 \u0432\u0441\u0451.<\/strong> \u0421\u043e\u0437\u0434\u0430\u0451\u043c \u0438\u043d\u0434\u0435\u043a\u0441 \u043f\u043e <code>(id, is_current, hash_value)<\/code>.<\/p>\n<\/li>\n<li>\n<p><strong>\u0413\u0430\u0440\u0430\u043d\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u0430\u044f atomicity.<\/strong> MERGE \u0441\u043e \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435\u043c hash \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u0441\u044f \u0447\u0438\u0441\u0442\u044b\u043c \u0438 \u043a\u043e\u043c\u043f\u0430\u043a\u0442\u043d\u044b\u043c.<\/p>\n<\/li>\n<\/ul>\n<p>\u0412\u00a0Snowflake \u0438 BigQuery \u0440\u0435\u043a\u043e\u043c\u0435\u043d\u0434\u0443\u044e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c <code>xxhash64<\/code> \u0438\u043b\u0438 <code>farm_fingerprint(TO_JSON_STRING(...))<\/code>: \u043e\u043d\u0438\u00a0\u0431\u044b\u0441\u0442\u0440\u0435\u0435 MD5\u00a0\u0438 \u043f\u043e\u0447\u0442\u0438 \u0431\u0435\u0437\u00a0\u043a\u043e\u043b\u043b\u0438\u0437\u0438\u0439 \u0434\u043b\u044f\u00a0\u0432\u0430\u0448\u0438\u0445 \u0431\u0438\u0437\u043d\u0435\u0441\u2011\u0442\u0430\u0431\u043b\u0438\u0446.<\/p>\n<h3>\u0410\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u0440\u0430\u0431\u043e\u0447\u0435\u0433\u043e ETL-\u043f\u0430\u0439\u043f\u043b\u0430\u0439\u043d\u0430<\/h3>\n<ol>\n<li>\n<p><strong>Source \u2192 staging<\/strong><br \/>\u0418\u043d\u043a\u0440\u0435\u043c\u0435\u043d\u0442\u0430\u043b\u044c\u043d\u043e \u0437\u0430\u0433\u0440\u0443\u0436\u0430\u0435\u043c \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f (CDC\/\u0444\u0430\u0439\u043b\u044b\/API) \u0432\u00a0staging:<\/p>\n<pre><code class=\"sql\">CREATE TABLE stg_customer (   customer_id BIGINT,   name        STRING,   email       STRING,   segment     STRING,   load_ts     TIMESTAMP,   hash_value  STRING );<\/code><\/pre>\n<\/li>\n<li>\n<p><strong>\u0412\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u0435 hash_value<\/strong><\/p>\n<pre><code class=\"sql\">UPDATE stg_customer SET hash_value = MD5(     COALESCE(name,'') || '|' ||     COALESCE(email,'') || '|' ||     COALESCE(segment,'') );<\/code><\/pre>\n<\/li>\n<li>\n<p><strong>MERGE + SCD2\u00a0<\/strong><br \/>\u041e\u0431\u044a\u0435\u0434\u0438\u043d\u044f\u0435\u043c \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435 \u0438 \u0432\u0441\u0442\u0430\u0432\u043a\u0443\/\u0437\u0430\u0432\u0435\u0440\u0448\u0435\u043d\u0438\u0435 \u0437\u0430\u043f\u0438\u0441\u0435\u0439 \u0432\u00a0\u043e\u0434\u043d\u043e\u043c MERGE.<\/p>\n<\/li>\n<li>\n<p><strong>Validation &amp; Metrics<\/strong><br \/> \u041f\u043e\u0441\u043b\u0435 MERGE \u043d\u0443\u0436\u043d\u043e \u043f\u0440\u043e\u0432\u0435\u0440\u0438\u0442\u044c: \u043a\u043e\u043b\u2011\u0432\u043e \u0432\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u043d\u044b\u0445\/\u043e\u0431\u043d\u043e\u0432\u043b\u0451\u043d\u043d\u044b\u0445 \u0441\u0442\u0440\u043e\u043a (\u043e\u0431\u044b\u0447\u043d\u043e <code>MERGE \u2026 RETURNING<\/code> \u0432\u00a0Postgres \u0438\u043b\u0438\u00a0\u043c\u0435\u0442\u0440\u0438\u043a\u0438 Snowflake), \u0432\u0440\u0435\u043c\u044f \u0432\u044b\u043f\u043e\u043b\u043d\u0435\u043d\u0438\u044f \u0438 \u043d\u0430\u0433\u0440\u0443\u0437\u043a\u0443 \u043d\u0430\u00a0CPU \u0438 I\/O (\u0447\u0435\u0440\u0435\u0437 EXPLAIN ANALYZE \u0438\u043b\u0438\u00a0TASK_HISTORY).<\/p>\n<\/li>\n<li>\n<p><strong>\u041e\u0447\u0438\u0441\u0442\u043a\u0430 staging<\/strong> \/ \u0430\u0440\u0445\u0438\u0432\u0430\u0446\u0438\u044f.<\/p>\n<\/li>\n<\/ol>\n<h3>\u041f\u0440\u0438\u043c\u0435\u0440\u044b \u043f\u043e \u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c\u0430\u043c<\/h3>\n<h4>Postgres v15+<\/h4>\n<pre><code class=\"sql\">BEGIN;  -- 1. \u0421\u043e\u0437\u0434\u0430\u0451\u043c \u0442\u0430\u0431\u043b\u0438\u0446\u0443 \u0438\u0441\u0442\u043e\u0440\u0438\u0438, \u0435\u0441\u043b\u0438 \u0435\u0449\u0451 \u043d\u0435\u0442 CREATE TABLE IF NOT EXISTS dim_customer (   customer_id BIGINT,   name        TEXT,   email       TEXT,   segment     TEXT,   valid_from  TIMESTAMPTZ NOT NULL,   valid_to    TIMESTAMPTZ,   is_current  BOOLEAN NOT NULL DEFAULT TRUE,   hash_value  CHAR(32),   PRIMARY KEY (customer_id, valid_from) );  -- 2. \u0421\u0442\u0435\u0439\u0434\u0436\u0438\u043d\u0433 \u2014 \u043f\u0435\u0440\u0435\u0434\u0430\u0439\u0442\u0435 \u0441\u044e\u0434\u0430 \u0441\u0432\u0435\u0436\u0438\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 WITH src AS (   SELECT     customer_id, name, email, segment, NOW() AS ts,     MD5(       COALESCE(name,'') || '|' ||       COALESCE(email,'')|| '|' ||       COALESCE(segment,'')     ) AS hash_value   FROM stg_customer ) MERGE INTO dim_customer AS tgt USING src   ON tgt.customer_id = src.customer_id AND tgt.is_current WHEN MATCHED AND tgt.hash_value &lt;&gt; src.hash_value   THEN UPDATE SET     valid_to   = src.ts,     is_current = FALSE WHEN NOT MATCHED BY TARGET   THEN INSERT (customer_id, name, email, segment, valid_from, valid_to, is_current, hash_value)        VALUES (src.customer_id, src.name, src.email, src.segment, src.ts, NULL, TRUE, src.hash_value);  COMMIT;<\/code><\/pre>\n<p> <code>PRIMARY KEY (customer_id, valid_from)<\/code> \u0433\u0430\u0440\u0430\u043d\u0442\u0438\u0440\u0443\u0435\u0442 \u0438\u0441\u0442\u043e\u0440\u0438\u044e. \u041f\u0440\u0438\u0431\u043b\u0438\u0437\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u00abruntime\u00bb \u043d\u0430 20\u00a0\u043c\u043b\u043d \u0441\u0442\u0440\u043e\u043a: ~45\u00a0\u043c\u0438\u043d\u0443\u0442 \u043d\u0430\u00a0\u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u043e\u043c\u00a0\u0436\u0435\u043b\u0435\u0437\u0435 (\u0432 \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0438 \u0441 8\u00a0\u0447\u0430\u0441\u0430\u043c\u0438 na\u00efve).<\/p>\n<h4>Snowflake + STREAM + TASK<\/h4>\n<pre><code class=\"sql\">-- Stream \u043e\u0442\u0441\u043b\u0435\u0436\u0438\u0432\u0430\u0435\u0442 \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u0432 staging CREATE OR REPLACE STREAM stg_customer_stream ON TABLE stg_customer;  -- \u0417\u0430\u0434\u0430\u0447\u0430 \u0432\u044b\u043f\u043e\u043b\u043d\u044f\u0435\u0442\u0441\u044f \u043f\u043e \u0440\u0430\u0441\u043f\u0438\u0441\u0430\u043d\u0438\u044e CREATE OR REPLACE TASK merge_customer_task   WAREHOUSE = etl_wh   SCHEDULE  = 'USING CRON 0 *\/1 * * * UTC'  -- \u043a\u0430\u0436\u0434\u044b\u0439 \u0447\u0430\u0441 AS MERGE INTO dim_customer AS tgt USING (   SELECT     customer_id, name, email, segment, metadata$action, ingest_ts,     MD5(CONCAT_WS('|',name,email,segment)) AS hash_value   FROM stg_customer_stream   WHERE metadata$action IN ('INSERT','UPDATE') ) AS src ON tgt.customer_id = src.customer_id AND tgt.is_current WHEN MATCHED AND tgt.hash_value &lt;&gt; src.hash_value   THEN UPDATE SET valid_to = src.ingest_ts, is_current = FALSE WHEN NOT MATCHED   THEN INSERT (customer_id, name, email, segment, valid_from, valid_to, is_current, hash_value)        VALUES (src.customer_id, src.name, src.email, src.segment, src.ingest_ts, NULL, TRUE, src.hash_value);<\/code><\/pre>\n<p>\u0412\u043c\u0435\u0441\u0442\u043e MD5\u00a0\u0432\u00a0Snowflake \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0439\u0442\u0435 <code>HASH_AGG<\/code>, <code>XXHASH64<\/code> \u0438\u043b\u0438 <code>FARM_FINGERPRINT<\/code>: \u0432\u0441\u0435 \u043e\u043d\u0438\u00a0\u0431\u044b\u0441\u0442\u0440\u044b\u0435 \u0438 \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u043d\u0430\u00a0VARIANT.<\/p>\n<h4>BigQuery + farm_fingerprint<\/h4>\n<pre><code class=\"sql\">MERGE dataset.dim_customer AS tgt USING (   SELECT     customer_id,     name,     email,     segment,     CURRENT_TIMESTAMP() AS ts,     FARM_FINGERPRINT(TO_JSON_STRING(STRUCT(name,email,segment))) AS hash_value   FROM dataset.stg_customer   WHERE _PARTITIONTIME = CURRENT_DATE()  -- \u0444\u0438\u043b\u044c\u0442\u0440 \u043f\u043e \u0434\u043d\u044e \u0434\u043b\u044f \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u0438 ) AS src ON tgt.customer_id = src.customer_id AND tgt.is_current WHEN MATCHED AND tgt.hash_value != src.hash_value   THEN UPDATE SET valid_to = src.ts, is_current = FALSE WHEN NOT MATCHED   THEN INSERT (customer_id, name, email, segment, valid_from, valid_to, is_current, hash_value)        VALUES (src.customer_id, src.name, src.email, src.segment, src.ts, NULL, TRUE, src.hash_value);<\/code><\/pre>\n<p>\u0412\u00a0BQ \u043a\u0430\u0436\u0434\u044b\u0439 MERGE \u0441\u0447\u0438\u0442\u0430\u0435\u0442\u0441\u044f DML\u2011\u043e\u043f\u0435\u0440\u0430\u0446\u0438\u0435\u0439, \u0441\u043b\u0435\u0434\u0438\u0442\u0435 \u0437\u0430\u00a0\u043a\u0432\u043e\u0442\u0430\u043c\u0438. \u0420\u0430\u0437\u0431\u0435\u0439\u0442\u0435 \u0440\u0430\u0431\u043e\u0442\u0443 \u043f\u043e\u00a0\u0434\u0430\u0442\u0435 \u0438\u043b\u0438\u00a0id\u2011\u0448\u0430\u0440\u0434\u0443, \u0435\u0441\u043b\u0438 \u0442\u0430\u0431\u043b\u0438\u0446\u0430 \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u0431\u043e\u043b\u044c\u0448\u0430\u044f.<\/p>\n<h3>\u0418\u0442\u043e\u0433<\/h3>\n<p><strong>Hash\u2011diff + MERGE<\/strong>\u00a0\u2014 must\u2011have \u0434\u043b\u044f\u00a0SCD Type 2\u00a0\u043d\u0430\u00a0\u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u043e\u0431\u044a\u0451\u043c\u0430\u0445.<\/p>\n<p><strong>\u041c\u0438\u043d\u0438\u043c\u0443\u043c \u043a\u043e\u0434\u0430<\/strong> \u0438 <strong>\u043c\u0430\u043a\u0441\u0438\u043c\u0443\u043c \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u0438<\/strong>.<\/p>\n<p><strong>\u041f\u0440\u043e\u0441\u0442\u0430\u044f \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u0443\u0435\u043c\u043e\u0441\u0442\u044c<\/strong>: \u043f\u0435\u0440\u0435\u0445\u043e\u0434\u0438\u0442\u0435 \u043e\u0442\u00a0MD5\u00a0\u043a\u00a0\u0431\u043e\u043b\u0435\u0435 \u043f\u0440\u043e\u0434\u0432\u0438\u043d\u0443\u0442\u044b\u043c \u0445\u044d\u0448\u0430\u043c, \u0448\u0430\u0440\u0434\u0438\u0440\u0443\u0439\u0442\u0435, \u043c\u043e\u043d\u0438\u0442\u043e\u0440\u044c\u0442\u0435.<\/p>\n<hr\/>\n<p>\u0415\u0441\u043b\u0438 \u0432\u044b \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442\u0435 \u0441 \u0434\u0430\u043d\u043d\u044b\u043c\u0438, \u0442\u043e \u043f\u043e\u043d\u0438\u043c\u0430\u0435\u0442\u0435, \u043a\u0430\u043a \u0432\u0430\u0436\u043d\u043e \u0438\u043c\u0435\u0442\u044c \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0435 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u044b \u043f\u043e\u0434 \u0440\u0443\u043a\u043e\u0439. \u041d\u0430 \u043e\u0442\u043a\u0440\u044b\u0442\u043e\u043c \u0443\u0440\u043e\u043a\u0435 21 \u043c\u0430\u044f \u043f\u0440\u0435\u043f\u043e\u0434\u0430\u0432\u0430\u0442\u0435\u043b\u0438 \u0438\u0437 Otus \u043f\u043e\u043a\u0430\u0436\u0443\u0442, \u043a\u0430\u043a \u043d\u0430\u0441\u0442\u0440\u043e\u0438\u0442\u044c VS Code \u0434\u043b\u044f \u043c\u0430\u043a\u0441\u0438\u043c\u0430\u043b\u044c\u043d\u043e \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0439 \u0440\u0430\u0431\u043e\u0442\u044b \u2014 \u043e\u0442 \u043e\u043f\u0442\u0438\u043c\u0438\u0437\u0430\u0446\u0438\u0438 \u0440\u0443\u0442\u0438\u043d\u043d\u044b\u0445 \u0437\u0430\u0434\u0430\u0447 \u0434\u043e \u0438\u043d\u0442\u0435\u0433\u0440\u0430\u0446\u0438\u0438 AI-\u043f\u043e\u0434\u0441\u043a\u0430\u0437\u043e\u043a \u0434\u043b\u044f \u0443\u0441\u043a\u043e\u0440\u0435\u043d\u0438\u044f \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u043a\u0438. \u0421 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0438\u0445 \u0440\u0430\u0441\u0448\u0438\u0440\u0435\u043d\u0438\u0439 \u0438 \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0445 \u043d\u0430\u0441\u0442\u0440\u043e\u0435\u043a, \u0432\u044b \u0441\u043c\u043e\u0436\u0435\u0442\u0435 \u0441\u043e\u043a\u0440\u0430\u0442\u0438\u0442\u044c \u0432\u0440\u0435\u043c\u044f \u043d\u0430 \u043d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0443 \u0438 \u043f\u043e\u0432\u044b\u0441\u0438\u0442\u044c \u0441\u0432\u043e\u044e \u043f\u0440\u043e\u0434\u0443\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u044c. \u0415\u0441\u043b\u0438 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u043e \u2014 <a href=\"https:\/\/otus.pw\/IDAo\/\">\u0437\u0430\u043f\u0438\u0441\u044b\u0432\u0430\u0439\u0442\u0435\u0441\u044c \u043f\u043e \u0441\u0441\u044b\u043b\u043a\u0435.<\/a><\/p>\n<blockquote>\n<p><em>\u041d\u0435\u043c\u043d\u043e\u0433\u043e \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0438 \u0432 \u0442\u0435\u043c\u0443 \u2014 \u043f\u043e\u043f\u0440\u043e\u0431\u0443\u0439\u0442\u0435 <\/em><a href=\"https:\/\/otus.pw\/oKbG\/\"><em>\u043f\u0440\u043e\u0439\u0442\u0438 \u0432\u0441\u0442\u0443\u043f\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0442\u0435\u0441\u0442<\/em><\/a><em> \u043a\u0443\u0440\u0441\u0430 &#171;<\/em>Data Engineer<em>&#187; \u0438 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u0435 \u043e\u0431\u0440\u0430\u0442\u043d\u0443\u044e \u0441\u0432\u044f\u0437\u044c \u043f\u043e \u0441\u0432\u043e\u0438\u043c \u0437\u043d\u0430\u043d\u0438\u044f\u043c.<\/em><\/p>\n<\/blockquote>\n<\/div>\n<\/div>\n<\/div>\n<p><!----><!----><\/div>\n<p><!----><!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/905844\/\"> https:\/\/habr.com\/ru\/articles\/905844\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<div><!--[--><!--]--><\/div>\n<div id=\"post-content-body\">\n<div>\n<div class=\"article-formatted-body article-formatted-body article-formatted-body_version-2\">\n<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u041f\u0440\u0438\u0432\u0435\u0442, \u0425\u0430\u0431\u0440!<\/p>\n<p>\u0412\u00a0\u044d\u0442\u043e\u043c \u0441\u0442\u0430\u0442\u044c\u0435 \u0440\u0430\u0441\u0441\u043c\u043e\u0442\u0440\u0438\u043c, \u043f\u043e\u0447\u0435\u043c\u0443 \u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044f SCD Type 2\u00a0\u0432\u00a0DWH \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442 \u0436\u0443\u0442\u043a\u043e \u0442\u043e\u0440\u043c\u043e\u0437\u0438\u0442\u044c \u043d\u0430\u00a0\u043c\u0438\u043b\u043b\u0438\u043e\u043d\u0430\u0445 \u0441\u0442\u0440\u043e\u043a \u0438 \u043a\u0430\u043a\u00a0\u0441\u00a0\u044d\u0442\u0438\u043c \u0431\u043e\u0440\u043e\u0442\u044c\u0441\u044f \u043f\u0440\u0438\u00a0\u043f\u043e\u043c\u043e\u0449\u0438 \u043a\u043e\u043c\u0431\u0438\u043d\u0430\u0446\u0438\u0438 MERGE + hash\u2011diff. <\/p>\n<h3>\u041f\u0440\u043e\u0431\u043b\u0435\u043c\u0430\u0442\u0438\u043a\u0430: \u0433\u0434\u0435 \u0438 \u043a\u043e\u0433\u0434\u0430 \u0432\u0441\u0451 \u043d\u0430\u0447\u0438\u043d\u0430\u0435\u0442 \u0433\u043b\u044e\u0447\u0438\u0442\u044c<\/h3>\n<h4>\u0428\u0438\u0440\u043e\u043a\u0438\u0435 \u0434\u0436\u043e\u0438\u043d\u044b vs \u043c\u0438\u043b\u043b\u0438\u043e\u043d\u044b \u0441\u0442\u0440\u043e\u043a<\/h4>\n<p>\u0422\u0438\u043f\u0438\u0447\u043d\u0430\u044f \u0440\u0435\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u044f SCD 2\u00a0\u0441\u0442\u0440\u043e\u0438\u0442\u0441\u044f \u0442\u0430\u043a:<\/p>\n<pre><code class=\"sql\">-- \u041d\u0430\u0438\u0432\u043d\u044b\u0439 \u043f\u0441\u0435\u0432\u0434\u043e\u043a\u043e\u0434 INSERT INTO dim SELECT src.* FROM staging src LEFT JOIN dim tgt   ON src.id = tgt.id AND tgt.is_current = TRUE WHERE   tgt.id IS NULL   OR src.col1 &lt;&gt; tgt.col1   OR src.col2 &lt;&gt; tgt.col2   \u2026 AND \u0442.\u0434. \u043f\u043e \u0432\u0441\u0435\u043c \u043a\u043e\u043b\u043e\u043d\u043a\u0430\u043c ;<\/code><\/pre>\n<p>\u041f\u0440\u0438 40\u201360\u00a0\u043a\u043e\u043b\u043e\u043d\u043a\u0430\u0445 \u0438 \u0441\u043e\u0442\u043d\u044f\u0445 \u043c\u0438\u043b\u043b\u0438\u043e\u043d\u043e\u0432 \u0441\u0442\u0440\u043e\u043a \u044d\u0442\u043e \u0432\u044b\u043b\u0438\u0432\u0430\u0435\u0442\u0441\u044f \u0432\u00a0\u043a\u043e\u043b\u043e\u0441\u0441\u0430\u043b\u044c\u043d\u044b\u0435 I\/O \u0438 CPU\u2011\u0434\u0436\u043e\u0431: \u043a\u0430\u0436\u0434\u044b\u0439\u00a0\u043b\u0438\u0444\u0442\u0438\u043d\u0433, \u043a\u0430\u0436\u0434\u044b\u0439 \u0431\u0430\u0439\u0442 \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u044f\u2026<\/p>\n<h4>MERGE-\u0430\u043f\u0434\u0435\u0439\u0442\u044b: \u0431\u043b\u043e\u043a\u0438\u0440\u043e\u0432\u043a\u0438 \u0438 \u043a\u043e\u043d\u043a\u0443\u0440\u0435\u043d\u0446\u0438\u044f<\/h4>\n<p>\u0412\u00a0Postgres MERGE (v15+) \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u0435\u0442 \u043e\u0434\u0438\u043d \u0442\u044f\u0436\u0451\u043b\u044b\u0439 transaction, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0449\u0451\u043b\u043a\u0430\u0435\u0442 \u0432\u0441\u0451 \u0434\u0435\u0440\u0435\u0432\u043e \u0438\u043d\u0434\u0435\u043a\u0441\u043e\u0432 \u0438 b\u2011tree, \u0431\u043b\u043e\u043a\u0438\u0440\u0443\u044f \u0440\u0430\u0437\u0434\u0435\u043b\u044b; \u0432\u00a0Snowflake DML \u043d\u0435\u0440\u0435\u0434\u043a\u043e \u0441\u043e\u0440\u0442\u0438\u0440\u0443\u0435\u0442 \u0432\u0435\u0441\u044c \u0441\u043b\u043e\u0439 micro\u2011partition; \u0432\u00a0BigQuery DML\u00a0\u043b\u0438\u043c\u0438\u0442\u0438\u0440\u0443\u0435\u0442 \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u0438 \u043f\u043e\u00a0\u0442\u0430\u0431\u043b\u0438\u0446\u0435 \u0438 \u043f\u0440\u0435\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u043c\u0430\u043b\u0435\u043d\u044c\u043a\u0438\u0439 MERGE \u0432\u00a0\u043c\u043e\u043d\u0441\u0442\u0440\u0443\u043e\u0437\u043d\u044b\u0439 SNAPSHOT\u2011read.<\/p>\n<h4>\u041e\u0442\u043b\u043e\u0436\u0435\u043d\u043d\u0430\u044f \u0438\u0441\u0442\u043e\u0440\u0438\u044f, CDC \u0438 \u0438\u043d\u043a\u0440\u0435\u043c\u0435\u043d\u0442 \u2014 \u043d\u0435 \u0432\u0441\u0435\u0433\u0434\u0430 \u043f\u0430\u043d\u0430\u0446\u0435\u044f<\/h4>\n<p>\u0414\u0430, \u043f\u043e\u00a0\u0438\u0434\u0435\u0435 \u043c\u043e\u0436\u043d\u043e \u043d\u0430\u0441\u0442\u0440\u043e\u0438\u0442\u044c Change Data Capture (Debezium, Kafka \u2192 staging), \u043d\u043e\u00a0\u0435\u0441\u043b\u0438 \u0434\u0430\u043b\u044c\u0448\u0435 \u0448\u0430\u0433\u0430 \u00ab\u0437\u0430\u0441\u0443\u043d\u0443\u0442\u044c \u0432\u0441\u0451 \u0432\u00a0SCD 2\u00bb \u0432\u044b \u0443\u043f\u0438\u0440\u0430\u0435\u0442\u0435\u0441\u044c \u0432\u00a0\u0442\u043e\u0442\u00a0\u0436\u0435 MERGE + \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435 \u043f\u043e\u043b\u0435\u0439\u00a0\u2014 \u0432\u044b\u0438\u0433\u0440\u044b\u0448 \u0431\u0443\u0434\u0435\u0442 \u043c\u0438\u043d\u0438\u043c\u0430\u043b\u044c\u043d\u044b\u043c.<\/p>\n<p>\u041f\u043e\u00a0\u043e\u043f\u044b\u0442\u0443\u00a0\u0431\u044b\u043b\u043e \u0442\u0430\u043a\u043e\u0435, \u0447\u0442\u043e\u00a0\u043d\u0430\u00a0\u0433\u0440\u0443\u0437\u0435 \u0432 80\u00a0\u043c\u043b\u043d \u0441\u0442\u0440\u043e\u043a \u043e\u0434\u043d\u0430 \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u044f MERGE \u0440\u0430\u0431\u043e\u0442\u0430\u043b\u0430 12\u00a0\u0447\u0430\u0441\u043e\u0432\u00a0\u2014 \u0438 \u043f\u0440\u0438\u0445\u043e\u0434\u0438\u043b\u043e\u0441\u044c \u0433\u043e\u043d\u044f\u0442\u044c \u043f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u044b\u0435 \u043a\u043e\u043f\u0438\u0438 \u043f\u043e\u00a0customer_id% N, \u043d\u043e\u00a0\u0431\u0435\u0437\u00a0hash\u2011diff \u0432\u044b\u0438\u0433\u0440\u044b\u0448\u00a0\u0431\u044b\u043b \u043d\u0435\u0437\u043d\u0430\u0447\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0439.<\/p>\n<h3>Hash-diff<\/h3>\n<p>\u0412\u043c\u0435\u0441\u0442\u043e \u0442\u043e\u0433\u043e \u0447\u0442\u043e\u0431\u044b \u0441\u0440\u0430\u0432\u043d\u0438\u0432\u0430\u0442\u044c \u043f\u043e\u00a0\u043f\u043e\u043b\u044f\u043c \u0447\u0435\u0440\u0435\u0437 OR, \u043c\u044b \u0432\u044b\u0447\u0438\u0441\u043b\u044f\u0435\u043c \u043a\u043e\u043c\u043f\u0430\u043a\u0442\u043d\u044b\u0439 <code>hash_value<\/code>, \u0441\u043e\u0445\u0440\u0430\u043d\u044f\u0435\u043c \u0435\u0433\u043e \u0438 \u0432\u00a0staging, \u0438 \u0432\u00a0dimension. \u0421\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435 \u043e\u0434\u043d\u043e\u0433\u043e \u0445\u0435\u0448\u0430 \u0441\u00a0\u0434\u0440\u0443\u0433\u0438\u043c (<code>hash_value &lt;&gt; hash_value<\/code>)\u00a0\u2014 \u044d\u0442\u043e \u0431\u0438\u0442\u043e\u0432\u0430\u044f \u043e\u043f\u0435\u0440\u0430\u0446\u0438\u044f, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043d\u0435\u00a0\u0442\u0440\u0435\u0431\u0443\u0435\u0442 \u043e\u0431\u0445\u043e\u0434\u0430 \u0432\u0441\u0435\u0445 \u0441\u0442\u043e\u043b\u0431\u0446\u043e\u0432 \u0442\u0430\u0431\u043b\u0438\u0446\u044b.\u00bb <\/p>\n<ul>\n<li>\n<p><strong>\u0423\u043c\u0435\u043d\u044c\u0448\u0435\u043d\u043d\u044b\u0439 \u043e\u0431\u044a\u0451\u043c \u0434\u0430\u043d\u043d\u044b\u0445.<\/strong> \u0421\u0440\u0430\u0432\u043d\u0438\u0432\u0430\u0435\u043c 8\u201316\u00a0\u0431\u0430\u0439\u0442 \u0432\u043c\u0435\u0441\u0442\u043e \u0434\u0435\u0441\u044f\u0442\u043a\u0430 \u043f\u043e\u043b\u0435\u0439 \u043f\u043e 50\u2013200\u00a0\u0431\u0430\u0439\u0442.<\/p>\n<\/li>\n<li>\n<p><strong>\u0418\u043d\u0434\u0435\u043a\u0441\u044b \u0445\u0432\u0430\u0442\u0430\u044e\u0442 \u0432\u0441\u0451.<\/strong> \u0421\u043e\u0437\u0434\u0430\u0451\u043c \u0438\u043d\u0434\u0435\u043a\u0441 \u043f\u043e <code>(id, is_current, hash_value)<\/code>.<\/p>\n<\/li>\n<li>\n<p><strong>\u0413\u0430\u0440\u0430\u043d\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u0430\u044f atomicity.<\/strong> MERGE \u0441\u043e \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435\u043c hash \u0441\u0442\u0430\u043d\u043e\u0432\u0438\u0442\u0441\u044f \u0447\u0438\u0441\u0442\u044b\u043c \u0438 \u043a\u043e\u043c\u043f\u0430\u043a\u0442\u043d\u044b\u043c.<\/p>\n<\/li>\n<\/ul>\n<p>\u0412\u00a0Snowflake \u0438 BigQuery \u0440\u0435\u043a\u043e\u043c\u0435\u043d\u0434\u0443\u044e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c <code>xxhash64<\/code> \u0438\u043b\u0438 <code>farm_fingerprint(TO_JSON_STRING(...))<\/code>: \u043e\u043d\u0438\u00a0\u0431\u044b\u0441\u0442\u0440\u0435\u0435 MD5\u00a0\u0438 \u043f\u043e\u0447\u0442\u0438 \u0431\u0435\u0437\u00a0\u043a\u043e\u043b\u043b\u0438\u0437\u0438\u0439 \u0434\u043b\u044f\u00a0\u0432\u0430\u0448\u0438\u0445 \u0431\u0438\u0437\u043d\u0435\u0441\u2011\u0442\u0430\u0431\u043b\u0438\u0446.<\/p>\n<h3>\u0410\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0430 \u0440\u0430\u0431\u043e\u0447\u0435\u0433\u043e ETL-\u043f\u0430\u0439\u043f\u043b\u0430\u0439\u043d\u0430<\/h3>\n<ol>\n<li>\n<p><strong>Source \u2192 staging<\/strong><br \/>\u0418\u043d\u043a\u0440\u0435\u043c\u0435\u043d\u0442\u0430\u043b\u044c\u043d\u043e \u0437\u0430\u0433\u0440\u0443\u0436\u0430\u0435\u043c \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f (CDC\/\u0444\u0430\u0439\u043b\u044b\/API) \u0432\u00a0staging:<\/p>\n<pre><code class=\"sql\">CREATE TABLE stg_customer (   customer_id BIGINT,   name        STRING,   email       STRING,   segment     STRING,   load_ts     TIMESTAMP,   hash_value  STRING );<\/code><\/pre>\n<\/li>\n<li>\n<p><strong>\u0412\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u0435 hash_value<\/strong><\/p>\n<pre><code class=\"sql\">UPDATE stg_customer SET hash_value = MD5(     COALESCE(name,'') || '|' ||     COALESCE(email,'') || '|' ||     COALESCE(segment,'') );<\/code><\/pre>\n<\/li>\n<li>\n<p><strong>MERGE + SCD2\u00a0<\/strong><br \/>\u041e\u0431\u044a\u0435\u0434\u0438\u043d\u044f\u0435\u043c \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0435 \u0438 \u0432\u0441\u0442\u0430\u0432\u043a\u0443\/\u0437\u0430\u0432\u0435\u0440\u0448\u0435\u043d\u0438\u0435 \u0437\u0430\u043f\u0438\u0441\u0435\u0439 \u0432\u00a0\u043e\u0434\u043d\u043e\u043c MERGE.<\/p>\n<\/li>\n<li>\n<p><strong>Validation &amp; Metrics<\/strong><br \/> \u041f\u043e\u0441\u043b\u0435 MERGE \u043d\u0443\u0436\u043d\u043e \u043f\u0440\u043e\u0432\u0435\u0440\u0438\u0442\u044c: \u043a\u043e\u043b\u2011\u0432\u043e \u0432\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u043d\u044b\u0445\/\u043e\u0431\u043d\u043e\u0432\u043b\u0451\u043d\u043d\u044b\u0445 \u0441\u0442\u0440\u043e\u043a (\u043e\u0431\u044b\u0447\u043d\u043e <code>MERGE \u2026 RETURNING<\/code> \u0432\u00a0Postgres \u0438\u043b\u0438\u00a0\u043c\u0435\u0442\u0440\u0438\u043a\u0438 Snowflake), \u0432\u0440\u0435\u043c\u044f \u0432\u044b\u043f\u043e\u043b\u043d\u0435\u043d\u0438\u044f \u0438 \u043d\u0430\u0433\u0440\u0443\u0437\u043a\u0443 \u043d\u0430\u00a0CPU \u0438 I\/O (\u0447\u0435\u0440\u0435\u0437 EXPLAIN ANALYZE \u0438\u043b\u0438\u00a0TASK_HISTORY).<\/p>\n<\/li>\n<li>\n<p><strong>\u041e\u0447\u0438\u0441\u0442\u043a\u0430 staging<\/strong> \/ \u0430\u0440\u0445\u0438\u0432\u0430\u0446\u0438\u044f.<\/p>\n<\/li>\n<\/ol>\n<h3>\u041f\u0440\u0438\u043c\u0435\u0440\u044b \u043f\u043e \u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c\u0430\u043c<\/h3>\n<h4>Postgres v15+<\/h4>\n<pre><code class=\"sql\">BEGIN;  -- 1. \u0421\u043e\u0437\u0434\u0430\u0451\u043c \u0442\u0430\u0431\u043b\u0438\u0446\u0443 \u0438\u0441\u0442\u043e\u0440\u0438\u0438, \u0435\u0441\u043b\u0438 \u0435\u0449\u0451 \u043d\u0435\u0442 CREATE TABLE IF NOT EXISTS dim_customer (   customer_id BIGINT,   name        TEXT,   email       TEXT,   segment     TEXT,   valid_from  TIMESTAMPTZ NOT NULL,   valid_to    TIMESTAMPTZ,   is_current  BOOLEAN NOT NULL DEFAULT TRUE,   hash_value  CHAR(32),   PRIMARY KEY (customer_id, valid_from) );  -- 2. \u0421\u0442\u0435\u0439\u0434\u0436\u0438\u043d\u0433 \u2014 \u043f\u0435\u0440\u0435\u0434\u0430\u0439\u0442\u0435 \u0441\u044e\u0434\u0430 \u0441\u0432\u0435\u0436\u0438\u0435 \u0434\u0430\u043d\u043d\u044b\u0435 WITH src AS (   SELECT     customer_id, name, email, segment, NOW() AS ts,     MD5(       COALESCE(name,'') || '|' ||       COALESCE(email,'')|| '|' ||       COALESCE(segment,'')     ) AS hash_value   FROM stg_customer ) MERGE INTO dim_customer AS tgt USING src   ON tgt.customer_id = src.customer_id AND tgt.is_current WHEN MATCHED AND tgt.hash_value &lt;&gt; src.hash_value   THEN UPDATE SET     valid_to   = src.ts,     is_current = FALSE WHEN NOT MATCHED BY TARGET   THEN INSERT (customer_id, name, email, segment, valid_from, valid_to, is_current, hash_value)        VALUES (src.customer_id, src.name, src.email, src.segment, src.ts, NULL, TRUE, src.hash_value);  COMMIT;<\/code><\/pre>\n<p> <code>PRIMARY KEY (customer_id, valid_from)<\/code> \u0433\u0430\u0440\u0430\u043d\u0442\u0438\u0440\u0443\u0435\u0442 \u0438\u0441\u0442\u043e\u0440\u0438\u044e. \u041f\u0440\u0438\u0431\u043b\u0438\u0437\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u00abruntime\u00bb \u043d\u0430 20\u00a0\u043c\u043b\u043d \u0441\u0442\u0440\u043e\u043a: ~45\u00a0\u043c\u0438\u043d\u0443\u0442 \u043d\u0430\u00a0\u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u043e\u043c\u00a0\u0436\u0435\u043b\u0435\u0437\u0435 (\u0432 \u0441\u0440\u0430\u0432\u043d\u0435\u043d\u0438\u0438 \u0441 8\u00a0\u0447\u0430\u0441\u0430\u043c\u0438 na\u00efve).<\/p>\n<h4>Snowflake + STREAM + TASK<\/h4>\n<pre><code class=\"sql\">-- Stream \u043e\u0442\u0441\u043b\u0435\u0436\u0438\u0432\u0430\u0435\u0442 \u0438\u0437\u043c\u0435\u043d\u0435\u043d\u0438\u044f \u0432 staging CREATE OR REPLACE STREAM stg_customer_stream ON TABLE stg_customer;  -- \u0417\u0430\u0434\u0430\u0447\u0430 \u0432\u044b\u043f\u043e\u043b\u043d\u044f\u0435\u0442\u0441\u044f \u043f\u043e \u0440\u0430\u0441\u043f\u0438\u0441\u0430\u043d\u0438\u044e CREATE OR REPLACE TASK merge_customer_task   WAREHOUSE = etl_wh   SCHEDULE  = 'USING CRON 0 *\/1 * * * UTC'  -- \u043a\u0430\u0436\u0434\u044b\u0439 \u0447\u0430\u0441 AS MERGE INTO dim_customer AS tgt USING (   SELECT     customer_id, name, email, segment, metadata$action, ingest_ts,     MD5(CONCAT_WS('|',name,email,segment)) AS hash_value   FROM stg_customer_stream   WHERE metadata$action IN ('INSERT','UPDATE') ) AS src ON tgt.customer_id = src.customer_id AND tgt.is_current WHEN MATCHED AND tgt.hash_value &lt;&gt; src.hash_value   THEN UPDATE SET valid_to = src.ingest_ts, is_current = FALSE WHEN NOT MATCHED   THEN INSERT (customer_id, name, email, segment, valid_from, valid_to, is_current, hash_value)        VALUES (src.customer_id, src.name, src.email, src.segment, src.ingest_ts, NULL, TRUE, src.hash_value);<\/code><\/pre>\n<p>\u0412\u043c\u0435\u0441\u0442\u043e MD5\u00a0\u0432\u00a0Snowflake \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0439\u0442\u0435 <code>HASH_AGG<\/code>, <code>XXHASH64<\/code> \u0438\u043b\u0438 <code>FARM_FINGERPRINT<\/code>: \u0432\u0441\u0435 \u043e\u043d\u0438\u00a0\u0431\u044b\u0441\u0442\u0440\u044b\u0435 \u0438 \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u043d\u0430\u00a0VARIANT.<\/p>\n<h4>BigQuery + farm_fingerprint<\/h4>\n<pre><code class=\"sql\">MERGE dataset.dim_customer AS tgt USING (   SELECT     customer_id,     name,     email,     segment,     CURRENT_TIMESTAMP() AS ts,     FARM_FINGERPRINT(TO_JSON_STRING(STRUCT(name,email,segment))) AS hash_value   FROM dataset.stg_customer   WHERE _PARTITIONTIME = CURRENT_DATE()  -- \u0444\u0438\u043b\u044c\u0442\u0440 \u043f\u043e \u0434\u043d\u044e \u0434\u043b\u044f \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u0438 ) AS src ON tgt.customer_id = src.customer_id AND tgt.is_current WHEN MATCHED AND tgt.hash_value != src.hash_value   THEN UPDATE SET valid_to = src.ts, is_current = FALSE WHEN NOT MATCHED   THEN INSERT (customer_id, name, email, segment, valid_from, valid_to, is_current, hash_value)        VALUES (src.customer_id, src.name, src.email, src.segment, src.ts, NULL, TRUE, src.hash_value);<\/code><\/pre>\n<p>\u0412\u00a0BQ \u043a\u0430\u0436\u0434\u044b\u0439 MERGE \u0441\u0447\u0438\u0442\u0430\u0435\u0442\u0441\u044f DML\u2011\u043e\u043f\u0435\u0440\u0430\u0446\u0438\u0435\u0439, \u0441\u043b\u0435\u0434\u0438\u0442\u0435 \u0437\u0430\u00a0\u043a\u0432\u043e\u0442\u0430\u043c\u0438. \u0420\u0430\u0437\u0431\u0435\u0439\u0442\u0435 \u0440\u0430\u0431\u043e\u0442\u0443 \u043f\u043e\u00a0\u0434\u0430\u0442\u0435 \u0438\u043b\u0438\u00a0id\u2011\u0448\u0430\u0440\u0434\u0443, \u0435\u0441\u043b\u0438 \u0442\u0430\u0431\u043b\u0438\u0446\u0430 \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u0431\u043e\u043b\u044c\u0448\u0430\u044f.<\/p>\n<h3>\u0418\u0442\u043e\u0433<\/h3>\n<p><strong>Hash\u2011diff + MERGE<\/strong>\u00a0\u2014 must\u2011have \u0434\u043b\u044f\u00a0SCD Type 2\u00a0\u043d\u0430\u00a0\u0431\u043e\u043b\u044c\u0448\u0438\u0445 \u043e\u0431\u044a\u0451\u043c\u0430\u0445.<\/p>\n<p><strong>\u041c\u0438\u043d\u0438\u043c\u0443\u043c \u043a\u043e\u0434\u0430<\/strong> \u0438 <strong>\u043c\u0430\u043a\u0441\u0438\u043c\u0443\u043c \u043f\u0440\u043e\u0438\u0437\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u0438<\/strong>.<\/p>\n<p><strong>\u041f\u0440\u043e\u0441\u0442\u0430\u044f \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0438\u0440\u0443\u0435\u043c\u043e\u0441\u0442\u044c<\/strong>: \u043f\u0435\u0440\u0435\u0445\u043e\u0434\u0438\u0442\u0435 \u043e\u0442\u00a0MD5\u00a0\u043a\u00a0\u0431\u043e\u043b\u0435\u0435 \u043f\u0440\u043e\u0434\u0432\u0438\u043d\u0443\u0442\u044b\u043c \u0445\u044d\u0448\u0430\u043c, \u0448\u0430\u0440\u0434\u0438\u0440\u0443\u0439\u0442\u0435, \u043c\u043e\u043d\u0438\u0442\u043e\u0440\u044c\u0442\u0435.<\/p>\n<hr\/>\n<p>\u0415\u0441\u043b\u0438 \u0432\u044b \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442\u0435 \u0441 \u0434\u0430\u043d\u043d\u044b\u043c\u0438, \u0442\u043e \u043f\u043e\u043d\u0438\u043c\u0430\u0435\u0442\u0435, \u043a\u0430\u043a \u0432\u0430\u0436\u043d\u043e \u0438\u043c\u0435\u0442\u044c \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0435 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u044b \u043f\u043e\u0434 \u0440\u0443\u043a\u043e\u0439. \u041d\u0430 \u043e\u0442\u043a\u0440\u044b\u0442\u043e\u043c \u0443\u0440\u043e\u043a\u0435 21 \u043c\u0430\u044f \u043f\u0440\u0435\u043f\u043e\u0434\u0430\u0432\u0430\u0442\u0435\u043b\u0438 \u0438\u0437 Otus \u043f\u043e\u043a\u0430\u0436\u0443\u0442, \u043a\u0430\u043a \u043d\u0430\u0441\u0442\u0440\u043e\u0438\u0442\u044c VS Code \u0434\u043b\u044f \u043c\u0430\u043a\u0441\u0438\u043c\u0430\u043b\u044c\u043d\u043e \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e\u0439 \u0440\u0430\u0431\u043e\u0442\u044b \u2014 \u043e\u0442 \u043e\u043f\u0442\u0438\u043c\u0438\u0437\u0430\u0446\u0438\u0438 \u0440\u0443\u0442\u0438\u043d\u043d\u044b\u0445 \u0437\u0430\u0434\u0430\u0447 \u0434\u043e \u0438\u043d\u0442\u0435\u0433\u0440\u0430\u0446\u0438\u0438 AI-\u043f\u043e\u0434\u0441\u043a\u0430\u0437\u043e\u043a \u0434\u043b\u044f \u0443\u0441\u043a\u043e\u0440\u0435\u043d\u0438\u044f \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u043a\u0438. \u0421 \u043f\u043e\u043c\u043e\u0449\u044c\u044e \u043f\u043e\u0434\u0445\u043e\u0434\u044f\u0449\u0438\u0445 \u0440\u0430\u0441\u0448\u0438\u0440\u0435\u043d\u0438\u0439 \u0438 \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0445 \u043d\u0430\u0441\u0442\u0440\u043e\u0435\u043a, \u0432\u044b \u0441\u043c\u043e\u0436\u0435\u0442\u0435 \u0441\u043e\u043a\u0440\u0430\u0442\u0438\u0442\u044c \u0432\u0440\u0435\u043c\u044f \u043d\u0430 \u043d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0443 \u0438 \u043f\u043e\u0432\u044b\u0441\u0438\u0442\u044c \u0441\u0432\u043e\u044e \u043f\u0440\u043e\u0434\u0443\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u044c. \u0415\u0441\u043b\u0438 \u0438\u043d\u0442\u0435\u0440\u0435\u0441\u043d\u043e \u2014 <a href=\"https:\/\/otus.pw\/IDAo\/\">\u0437\u0430\u043f\u0438\u0441\u044b\u0432\u0430\u0439\u0442\u0435\u0441\u044c \u043f\u043e \u0441\u0441\u044b\u043b\u043a\u0435.<\/a><\/p>\n<blockquote>\n<p><em>\u041d\u0435\u043c\u043d\u043e\u0433\u043e \u043f\u0440\u0430\u043a\u0442\u0438\u043a\u0438 \u0432 \u0442\u0435\u043c\u0443 \u2014 \u043f\u043e\u043f\u0440\u043e\u0431\u0443\u0439\u0442\u0435 <\/em><a href=\"https:\/\/otus.pw\/oKbG\/\"><em>\u043f\u0440\u043e\u0439\u0442\u0438 \u0432\u0441\u0442\u0443\u043f\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0442\u0435\u0441\u0442<\/em><\/a><em> \u043a\u0443\u0440\u0441\u0430 &#171;<\/em>Data Engineer<em>&#187; \u0438 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u0435 \u043e\u0431\u0440\u0430\u0442\u043d\u0443\u044e \u0441\u0432\u044f\u0437\u044c \u043f\u043e \u0441\u0432\u043e\u0438\u043c \u0437\u043d\u0430\u043d\u0438\u044f\u043c.<\/em><\/p>\n<\/blockquote>\n<\/div>\n<\/div>\n<\/div>\n<p><!----><!----><\/div>\n<p><!----><!----><br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/905844\/\"> https:\/\/habr.com\/ru\/articles\/905844\/<\/a><br \/><\/br><\/br><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-460645","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/460645","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=460645"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/460645\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=460645"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=460645"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=460645"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}