Как я устал от фейковых скидок на Wildberries и написал парсер для аналитики цен на спортпит

Введение

Хабр, Привет! Пожать заветную сотку, добрать белка, закрыть углеводное окно и просто попозировать после тяжелой потной тренировки — всё это не пустые значимые вещи для любого посетителя зала, который старается держать режим. Спортпит сейчас — это какая‑то генеративная машина по случайным наборам цифр (могут меняться в день по несколько раз). Уже устаёшь мониторить не только то, что показывает на весах, но и на маркетплейсах! Мне как человеку имеющему базовые знания в дате хочется понять почему и как этот беспредел работает. Есть ли в этих акциях хоть что‑то отдаленно походящее на правду и смысл в мониторинге? Постараюсь выяснить пошагово и понять как это всё безобразие работает и работает ли.

Занимаемся API WB

Не хочу заниматься парсингом через BeautifulSoup или Selenium. Такая себе затея в нынешних реалиях. С версткой там так себе, скорость не очень, селекторы не держатся долго. План довольно простой: ищем под капотом внутреннюю API‑шку и получаем стерильный JSON. Нам нужны endpoints, у которых в урле есть слово catalog. Для этого прожимаем F12, далее вкладка Network. После клацаем строку поиска на самом сайте и видим нужные нам запросы. Дальше всё чуть проще: создаем скрипт по requests, чтобы зайти в гости именно по данному адресу. Если всё сделали правильно, мы увидим большущий массив со всей инфой по товарам: ID, бренды, names и рейтинги, а также самое важное среди этого всего — ценник. Есть важные моменты во всём этом. Первое, базовый ценник и скидка находятся в разных секциях. Когда мы будем чистить данные, будем использовать метод.get(). Это один из наиболее безопасных методов. Так‑как скрипт может полететь, условно из‑за какого‑нибудь отсутствующего ключа. Второе, сам WB насколько мы знаем отдает цены в копейках. Мы просто делим итог на 100 и на выходе — привычные рубли.

Проектирование базы (не CSV)

Мы не будем складывать все данные в одну большую CSV. Это не очень разумно, учитывая, что мы будем собирать все наши данные относительно продолжительное количество времени. Джойнинг не очень удобен и организация данных посредственная. Честно, не хотелось возиться с таким увесистым сервером базы данных только имея локальный скрипт. Решение? SQLite. Она идеальная в моем случае во всём: лёгкая, с питоном плотный коннект, без отдельного сервера. Мой вариант.

Классика с двумя связными таблицами:

• products — статика (артикул, бренд, наименование)

• prices — лог изменения ценников ( внешний ключ, актуальная цена, размер скидки, а также таймстемп парсинга).

Скрипт создания таблиц и связей для базы данных в SQLite

Собираем инфу и санитарим каталог

Три самых актуальных таргета (креатин, протеин, BCAA) — хардкодинг прошёл успешно. Следующим действием запускаем цикл по 100 топовым карточкам для каждого ключа.

Фрагмент цикла парсинга с имитацией поведения человека (time.sleep)

Ключевой момент — не ограничиваем себя запросами от слова совсем, не жадничаем. Иначе маркетплейс сразу даст бан по IP. Рандом тоже важно, когда делаем вызовы time.sleep() и делаем их много. Делаем вид, что мы вдумчиво и медленно скролим ленту. Неестественно подтормаживаем скрипт.

Код отработал как часы. Срез нашего настоящего рынка готов, а потребовалось то всего несколько минут фоновый работы. Всё готово, ценники собраны.

EDA (результат парсинга)

Укомплектованная база у нас есть. Двигаемся к завершению. Всё что нам понадобится — это pandas и seaborn. Через первое мы подгружаем дампы и занимаемся датафреймами, через второе — визуал (графики). Большинство скидок — фикция. Чисто моё мнение и предположение. Доказать не составит проблем. Берём конечный ценник и заявленный размер скидки. Результаты гуляют по точечному графику. Это для наглядности связи между реальной стоимостью и фиктивной.

Распределение цен по основным категориям спортивного питания

А кто топ 10 брендов по количеству уникальных SKU? Хотелось бы знать этих товарищей, тех кто заполонил нашу выдачу. Вот пожалуйста.

Топ-10 брендов по количеству уникальных карточек (SKU) в выдаче

Итог — самое интересное

Смотрим на график и видим это произведение искусства. Банки с космическими скидками (80–90%) стоят дороже скромных братьев по цеху, у которых в среднем 15% скидка. Моё предположение оказалось верным и справедливым. Чем больше таких «интересных цен», тем качественнее алгоритм поиска. Если речь идёт про выгоду, здесь её искать не стоит.

Что мы выяснили:

Проценты не играют никакой роли. Забываем о том таком явлении как «финальный прайс».
Простейший и наиболее эффективный метод анализа — возня с API. По факту нужно потрудится, но в сравнении с остальными способами — лучший вариант.
Лучший способ хранения данных — SQLite или PostgreSQL. Структура не имеет равных, скрипты простые. Адекватная современная база.

Всё что перечислил есть на моём гитхабе. На ваше усмотрение что с этим делать. Будет полезно — я буду только рад!

ссылка на оригинал статьи https://habr.com/ru/articles/1049548/