Mamba Hiring: статистика своими руками

от автора

В поисках работы

Тут так случилось что я вдруг начал искать новую работу. Собеседования, тесты, ну вы сами всё знаете. И одним из тестов был небезызвестный Mamba Hiring запущенный еще в 2011 году.

Пройдя тест и набрав 217 баллов я вспомнил про приложение на фейсбук в котором я тестировался с год назад и где у меня было 242 балла. Посмотрев и погоревав на свои цифры я подумал что вот опять довольно средний результат. Ой ли? А такой ли он средний? Надо посмотреть статистику, может быть не все так плохо? Какое это «среднее» значение в действительности?

Но статистики нигде нет, возможно я плохо искал и прошу тогда кинуть в меня ссылкой, но максимум что я нашел это сравнительная статистика по твоим друзьям в фейсбуке и отрывочная устаревшая статистика из ссылок указанных выше.

А ведь с начала функционирования теста прошло уже пара лет и там скопилось немало результатов. Жаль конечно что нет разделения на пол, возраст и всё такое, но ведь интересно увидеть хотя бы общую картину?

Результаты

Я не статист и достаточно далек от этой темы, но я подозреваю что минимальный балл всё же не десять попугаев. Десять попугаев это те кто просто кликал наугад до упора вперед, но все же…

Минимальный результат: 10
Максимальный результат: 497
Средний результат: 166

Количество тестируемых на момент написания статьи (май): 83591
Количество тестируемых на момент публикации статьи: 86354

График результатов (кликабельно, ведет на Google Drive с интерактивным вариантом):

А как же процесс?

Всё просто как орех. Когда мы заканчиваем тест на сайте corp.mamba.ru/test, нам выдают ссылку на графический виджет вида «http://www.corp.mamba.ru/test/widget.phtml?id=9000» Интересна она нам своим значением ID. Если его изменить то можно увидеть другой, чужой, результат.

Алгоритм родился моментально.
1-ый прогон: лепим цикл на перебор ID’шников, скачиваем картинку, складываем в папочку.
2-ой прогон: идем по картинкам, обрезаем их до области с цифрой, суем в черный ящик распознания текста в лице TesseractOCR, а полученное значение сбрасываем в базу.

Код скриптов на гитхабе — только пожалуйста без холиваров, всё это дело написано минут за 5-10 и на один раз.

В заключении хотелось бы попросить Мамбу выложить результаты с тестирования через приложение Facebook, не думаю что имея данные по социальному аккаунту тестируемого сопоставить конкретный результат с конкретным возрастом и полом будет очень трудно 🙂

Да, кстати, кому требуются исходные данные, то вот они лежат .sql дампом. Могу даже ~83 500 картинок выложить если это кому то потребуется.

ссылка на оригинал статьи http://habrahabr.ru/post/188032/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *