Стандартное отклонение для полных чайников

от автора

Готов поспорить, вы слышали о стандартном отклонении или кто то из колег упоминал его в разговоре (чтобы показать какой он умный и поставить вас на место). Звучит похоже на умственное отклонение, но интуиция подсказывает вам что возможно разговор тут совсем про другое? Ваша интуиция совершенно права. Настало время поставить коллег на место и разобраться что же это такое.
Вот объяснение, которое даже ваша собака сможет понять.

Стандартное отклонение (standard deviation) тесно связано с дисперсией (variance).
Дисперсия, как ни странно, является мерой разброса (дисперсии) значений в определённом наборе данных. Она показывает, насколько различаются (или схожи) элементы в группе. Например, в среднем рост мужчины составляет 174 сантиметра. Но если вы остановите случайного парня на улице, его рост, скорее всего, будет отличаться. Так, например, в вашем районе, если вы остановите определённое количество парней (скажем, десять) и они окажутся не гопниками и согласятся сказать свой рост, вы сможете рассчитать дисперсию их роста. Она рассчитывается следующим образом (формулу объясню чуть позже): 

D(X) =sum(xi-average)²/ n,

где:
n — количество элементов (десять),
xi​ — рост парня под номером i.

Допустим, рост десяти парней, которых мы встретили, такой: 

1: 172
2: 163
3: 154 (ну.. не повезло, бывает)
4: 181
5: 190 (счастливчик)
6: 170
7: 174
8: 168
9: 178
10: 160

Теперь рассчитаем дисперсию. Сначала найдем среднее значение всех данных:

среднее = (172+163+154+181+190+170+174+168+171+160)/10 = 171 сантиметр

Как видите, парни в нашем районе немного ниже среднего по стране… Наверное, в подростковом возрасте слишком много курили. Теперь посмотрим, насколько сильно отличаются мужчины в нашем районе — то есть, насколько схож их рост. Для этого нам нужно рассчитать дисперсию.

(172–171)²= 1²=1 (163–171)²= -8²=64 (154–171)²= -17²=289 (181–171)²= 10²=100 (190–171)²= 19²=361 (170–171)²= -1²=1 (174–171)²= 3²=9 (168–171)²=-3²=9 (178–171)²=7²=49 (160–171)²=-11²=121

Разница между средним значением и ростом конкретного парня — это и есть дисперсия, но почему мы возводим её в квадрат? Мы делаем это, чтобы избежать отрицательных чисел (если рост текущего парня ниже среднего). В понимании разброса отрицательные числа не имеют смысла, поэтому мы возводим в квадрат, чтобы показатель всегда был положительным.

Теперь давайте посчитаем сумму: 

1 + 64 + 289 + 100 + 361 + 1 + 9 + 9 + 49 + 121 = 1004  

И дисперсия = 1004/10 = 100,4. т.е. мы делим сумму на количество элементов, получая среднее значение.

Но что это значит? И в каких единицах это измеряется? Ну, так как мы возводили разницу в квадрат, это, очевидно, не в исходных единицах (сантиметрах). Поэтому дисперсию сложно интерпретировать именно из-за этого… Вот тут и приходит на помощь стандартное отклонение — мы просто берём квадратный корень из дисперсии (чтобы, так сказать, обратить возведение в квадрат):

Standard Deviation = square_root(100.4) = 10 сантиметров

Теперь это сантиметры! Гораздо легче понять, и это означает, что в среднем рост мужчин в нашем районе отличается (меньше или больше) от среднего на 10 сантиметров. В среднем — это важно, т.к. для конкретного парня это значение может отличаться на другую величину.

Таким образом, стандартное отклонение — это мера степени изменчивости значений переменной относительно её среднего. Теперь вы понимаете, что это на самом деле значит.

Важное свойство стандартного отклонения заключается в том, что в нормальном распределении около 95% значений будут находиться в пределах двух стандартных отклонений от среднего. В нашем примере это означает, что 95% мужчин в нашем районе будут иметь рост в диапазоне от 171 ± 20 сантиметров (2*10). И 99,7% (почти все) будут в пределах трёх стандартных отклонений. Это значит, что парни двухметрового роста встречаются очень редко (и их называют outliers, потому что они лежат за пределами трёх стандартных отклонений).

Нормальное распределение (также называемое гауссовским) — самое важное для практического применения. Оно имеет форму колокола (см. ниже), и большинство естественных и социальных явлений в реальной жизни подчиняются нормальному распределению. Почему? Не знаю, возможно это только теория. Думаю, вселенной нравится симметрия или что-то в этом роде.

Нормальное распределение

Нормальное распределение

Всем добра!


ссылка на оригинал статьи https://habr.com/ru/articles/857064/