Существуют два реальных ограничения на использование сведений в качестве входного признака:
• значение признака должно быть известно на момент прогноза (скажем, в рассматриваемом примере с оттоком клиентов это начало месяца);
• признак должен быть численным или категориальным (в главе 5 вы узнаете, как преобразовать нечисловые данные в признаки).
Вот четыре основных вопроса, возникающие на этапе сбора данных, и ниже мы на практике рассмотрим общие принципы ответа на них:
• какие входные признаки следует включить?
• как получить известные значения целевой переменной?
• сколько обучающих данных требуется?
• как оценить качество обучающей выборки?
Соответственно, тренировочные данные являются фундаментом машинного обучения. Качественные данные позволяют точно выявить тонкие нюансы и корреляции и построить на их основе высокоточную прогнозирующую систему. В то же время плохое качество обучающей выборки может свести на нет работу даже лучших ML-алгоритмов