Стэк: Python (pandas, matplotlib, scipy)
Задачи:
- Проверка системы сплитования на наличие поломки c помощью A/A теста.
- Выяснение причин поломки.
Результаты:
- С помощью А/A теста и разведывательного анализа данных нашел возможную причину поломки.
- Используя t-test и тест Манна-Уитни нашел статистически-значимые между группами пользователей, показатели которых должны быть близки к равным и извлек эти данные из дата-сета.
Описание данных:
- uid - ID пользователя
- experimentVariant - вариант эксперемента (тестовая или контрольная группа)
- version - версия мобильного приложения
- purchase - покупки
Стэк: Python(pandas, numpy, scipy, seaborn, matplotlib)
Задача:
- Проанализировать результаты A/B тестирования с помощью статистических тестов и выяснить, различается ли целевая метрика в тестовой и контрольной группах.
Результаты:
- Используя разведывательный анализ данных и статистические тесты (тест Левена и теста Шапиро-Уилка проверил распределения в контрольной и тестовой группах на гомогенность дисперсии и нормальное распределение)
- С помощью t-теста, теста Манна-Уитни, Bootstrap средних и Bootstrap медианных интерпретировал результаты A/B теста.
Описание данных:
- value - сумма покупки
- experimentVariant - вариант эксперемента (контрольная или тестовая группы)
Стэк: Python (pandas, numpy, scipy, plotly, seaborn, matplotlib)
Задача:
- Выяснить причины оттока (churn rate) водителей из агрегатора такси и дать рекомендации по улучшению приложения.
Результат:
- С помощью статистических тестов xi2, критерия Краскела-Уоллиса и теста Манна-Уитни выяснил причины оттока пользователей приложения.
- Дал рекомендации по улучшению приложения для дальнейшего проведения A/Б тестирования.
Описание данных:
- city – город
- phone – основное устройство, которое использует водитель
- signup_date – дата регистрации аккаунта (YYYYMMDD)
- last_trip_date – дата последней поездки (YYYYMMDD)
- avg_dist – среднее расстояние (в милях) за поездку в первые 30 дней после регистрации
- avg_rating_by_driver – средняя оценка поездок водителем
- avg_rating_of_driver – средняя оценка поездок водителя
- surge_pct – процент поездок, совершенных с множителем > 1 (кажется когда большая загруженность и тд)
- avg_surge – средний множитель всплеска за все поездки этого водителя
- trips_in_first_30_days – количество поездок, которые совершил водитель в первые 30 дней после регистрации
- luxury_car_user – TRUE, если пользователь в первые 30 дней использовал премиум-автомобиль
- weekday_pct – процент поездок пользователя, совершенных в будние дни