Привет! Меня зовут Ольга Матушевич, я наставница на курсе «Аналитик данных» в Яндекс Практикуме. А ещё я самый настоящий математик — у меня об этом и справка диплом есть.
Никто не сомневается в том, что аналитику данных необходимо знать математику. Но какую именно? Нужно ли изучать функциональный анализ? Линейную алгебру? Теорию чисел? И в каком объёме? А главное — зачем? Как это пригодится в рабочих задачах?
В этой статье я постараюсь ответить на эти вопросы. Расскажу, какие разделы математики нужно учить, зачем это делать, и как именно они пригодятся аналитикам на рабочем месте. И всё это — не выходя за рамки первого курса мехмата.
Теория множеств
В каких задачах пригождается: определение и манипуляции с наборами данных, включая объединение данных из разных источников, определение пересечений между наборами и создание подмножеств для более глубокого анализа.
То, что без теории множеств в математике обойтись невозможно, мне стало ясно на первой неделе обучения на мехмате. Каждый новый лектор, представившись и объяснив организационные моменты, неизменно произносил: «Сегодняшняя наша тема — теория множеств». Так что, изучив этот раздел математики, вы можете смело утверждать, что продвинулись и в изучении логики, и в изучении теории вероятностей, и в изучении математического анализа…
|
Быстро освоить теорию множеств можно на бесплатном курсе «Основы математики для цифровых профессий». |
В завершение темы теории множеств предлагаю быстрый тест на уровень знания этого раздела математики с помощью известной всем аналитикам картинки.

Если вы понимаете, как каждое из полученных множеств описать на языке SQL теории множеств с помощью ∩, ∪ и ∕, поздравляю, теория множеств была освоена вами на достаточном уровне. Дополнительное изучение, скорее всего, не требуется.
Основы логики
В каких задачах пригождается: ввод и проверка условий; выведение новых утверждений на основе существующих.
Я пишу «основы логики», а не «логика» потому, что это очень древняя наука. С четвёртого века до нашей эры в ней успели многое открыть и записать. И да, хорошо бы изучить её целиком (или хотя бы прочитать и прорешать вузовский учебник), если на это есть время, — если его нет, то, например, изучение машины Тьюринга можно отложить на будущее.

При этом уметь правильно написать все OR и AND, они же И и ИЛИ, они же & и |, действительно необходимо. А ещё расставить скобки и указать все отрицания, желательно упростив логические выражения.
|
Часто изучение теории множеств и основ логики объединяют в один модуль. Так это сделано и в бесплатном курсе «Основы математики для цифровых профессий». |
Комбинаторика
В каких задачах пригождается: анализ вероятностных моделей; расчёт вариантов распределения ресурсов и оценка количества уникальных комбинаций.
Комбинаторика — это не просто база. Это азбука. После её изучения вы станете понимать строчки вроде А! В! (А-В)! как математические формулы, а не слова в современной пьесе, где персонажи общаются с помощью громких возгласов. Ну а символы Сnm станут для вас «числом сочетаний», а не «цэ энное в эмной степени».
Рекомендую тоненькую (всего 48 страниц) книгу Н. Я. Виленкина «Индукция. Комбинаторика» — несмотря на надпись «Пособие для учителей», на мой взгляд, она идеальна для самостоятельного изучения во взрослом или старшем подростковом возрасте. К сожалению, давно не переиздавалась. Ищите на торрен… в библиотеках страны.
Теория вероятностей
В каких задачах пригождается: решение задач на собеседовании (часто это первое применение тервера у многих аналитиков). В рабочих процессах при известном типе распределения знания тервера позволяют построить более точную модель для подсчёта нужных метрик, а чем точнее модель, тем точнее расчёты и предсказания по этой модели.
К сожалению, тип распределения мы можем определить далеко не всегда, поэтому напрямую тервер используется в работе не слишком часто. Зато он является ключом к пониманию математической статистики, а вот без неё аналитику в работе уже никак не обойтись.

|
Начать изучение теории вероятностей можно на бесплатном курсе «Основы математики для цифровых профессий», но это будет именно начало. Получить все необходимые знания можно на платном курсе «Математика для анализа данных». |
Математическая статистика
В каких задачах пригождается: расчёт медианы и дисперсии, анализ корреляции, формулирование и проверка гипотез, генерация случайной выборки, построение доверительных интервалов, А/В-тестирование… Этот список можно продолжать очень долго.
Давным-давно, когда компьютеры были большими, а статистические вычисления дорогими и долгими, математическая статистика использовалась не так часто. Сейчас же, когда пакет статистических формул включён даже в Excel, практически любое утверждение необходимо подтверждать статистическими расчётами — быть готовым показать уровень p-value, рассказать про метод проверки гипотез, обосновать выбранный уровень α.
|
Подготовиться к этим и другим вопросам можно на платном курсе «Математика для анализа данных». Кроме того, есть совершенно потрясающий по своей полезности для аналитиков данных бесплатный курс «Основы статистики и A/B-тестирования». |
Математический анализ
В каких задачах пригождается: минимизация или максимизация метрик, например, максимизация прибыли, минимизация расходов или максимизация прибыли при минимизации расходов. Минимизация функции потерь.
Поиск минимума или максимума функций в математике чаще всего решается с помощью производной. А перед тем, как взять производную от функции, было бы здорово убедиться, что функция вообще дифференцируема — и в этом тоже поможет математический анализ.
Задачи на минимизацию функции потерь, строго говоря, является типичными для Data Science, а не для анализа данных. Но при этом от аналитика данных ожидают, что он сможет построить линейный тренд с помощью линейной регрессии (что опять же формально относится к методам машинного обучения). Или объяснить, что это за тренд такой, почему в конкретном случае нужен именно он, как он был рассчитан и что можно понять с его помощью.
|
Погрузиться в математический анализ можно на платном курсе «Математика для анализа данных». |
Линейная алгебра
В каких задачах пригождается: создание и настройка моделей, тренировка нейросетей и применение аналитических систем к информации.
Строго говоря, выше описаны задачи специалиста по Data Science, а не аналитика данных. Но, как я уже писала в разделе про матанализ, грань тут весьма тонкая, и на 100% отделить задачи одной специальности от другой невозможно.
Более того, сами данные аналитики получают, как правило, в таблицах. Таблицы в свою очередь — это матрицы размере n*m. И как раз линейная алгебра изучает, что с матрицами нельзя делать, что можно, и как делать это эффективно.

Ну и напоследок, влияет ли на выбор разделов для изучения набор используемых вами инструментов? В целом нет. Вы можете работать с Excel, Python, R, Power BI, SQL, Tableau — рекомендованные для вас разделы для обучения останутся такими же. Но я хочу отметить, что все указанные выше курсы ориентированы в первую очередь на студентов, работающих с Python. Хотя блоки, в которых нужно писать код, малы и зачастую не обязательны для прохождения, это стоит учитывать.

ссылка на оригинал статьи https://habr.com/ru/articles/876056/
Добавить комментарий