Доля респондентов менее важна, чем их абсолютное количество еще и по той причине, что компания — часть общества, социума. Это не закрытая система. Она набирает новых работников извне, рассчитывает на подтверждение обнаруженных в компании закономерностей при найме, продажах, работе с репутацией. Другими словами, исследование организации означает исследование и общества. Если же сравнить количество респондентов с количеством жителей социума, то доля первых окажется очень небольшой.
Гипотеза может предполагать зависимость ключевого параметра одновременно от нескольких факторов. Если речь идет о бинарном параметре (например, уволился работник или остался), то формулировка задачи аналитику должна быть такой: «Построить модель классификации [1] с такими-то факторами». Когда ключевой параметр имеет много значений (например, объем продаж), то у аналитика лучше запросить регрессионную модель [2] с такими-то факторами.
Чтобы узнать, как именно влияют факторы на ключевой параметр (например, стаж работы или зарплата на объем продаж), нужно поставить задачу «построить линейную регрессию с такими-то факторами». Результатом будет формула, где у каждого фактора свой «вес», коэффициент его влияния на ключевой параметр — например, за каждые два года стажа прибавляется 3% объема продаж. Факторы могут оказаться частично взаимозависимыми, поэтому формулу нужно проверить с помощью запроса по каждому: «Какова вероятность что такой-то фактор не влияет на ключевой параметр?» Если вероятность отсутствия влияния» окажется меньше 5%, можно считать фактор влияющим на ключевой параметр.
Нередко проверка гипотезы показывает, что целевой параметр зависит от факторов, но нелинейно. В таких случаях следует использовать более сложные модели: «Построить модель MARS [26], earth [27] или Random Forest [3]». Обычно строят сразу несколько моделей на одних данных и выбирают для дальнейшей работы ту, которая дала наиболее точный прогноз.
Чтобы оценить влияние отдельного фактора на целевой параметр, у аналитика нужно запросить PDP (Partial Dependence Plot, график частичной зависимости). Этот график показывает, как зависит ключевой параметр от проверяемого фактора, когда остальные факторы неизменны. Например, какова зависимость объема продаж от факта прохождения тренинга, если стаж работы, возраст и образование не меняются.