Семплирование - это способ выбора данных (репрезентативной выборки) для проведения расчетов над ними.
Что такое репрезентативная выборка - выборка, имеющая такое же распределение относительных характеристик, что и генеральная совокупность.
Эти термины на практике для интернет-магазина:
генеральная совокупность - это все пользователи пришедшие на сайт и все действия, которые они совершили (10000 посетителей, 2000 из которых стали покупателями)
репрезентативная выборка - это только часть пользователей, пришедших на сайт (например, учитывать действия только 40% посетителей)
Т.е. семплирование подразумевает, что любой показатель конверсии сайта будет посчитан только по части пользователей сайта.
Наиболее популярные методы семплирования:
- случайное - пользователи в выборку выбираются случайным образом
- систематическое семплирование - выбирается каждый N пользователь (например, учитывается каждый пятый)
- семплирование по квотам (например, каждый пол/возраст/источник должен иметь равное кол-во пользователей в выборке)
Зачем используют семплирование:
снижение нагрузки на сервера - сделать расчет по 100K событий легче, чем по 1M
Точны ли эти данные? Погрешность в таком расчете будет всегда.
- Какие самые известные системы используют семплирование?GoogleAnalytics, YandexMetrica.
- Используем ли семплирование мы? - НЕТ
И это одно из наших преимуществ - отсутсвие семпливания и как следствие точность данных.