Получи случайную криптовалюту за регистрацию!

​​Модель CRISP Модель CRISP-DM (CRoss Industry Standard Proce | Goal Gesture программирование, IT

​​Модель CRISP

Модель CRISP-DM (CRoss Industry Standard Process for Data Mining) была разработана в 1997 г. в рамках европейского проекта, выполняемого консорциумом, состоящим из NCR (Дания), Integral Solutions Ltd (Великобритания), Daimler-Benz AG (Германия), OHRA (Нидерланды), и стандартизирована как процесс добычи данных. Объектом внимания данной модели является не столько техническая, сколько исследовательская составляющая. Особенность модели заключается в рассмотрении проблематики добычи данных как интерактивного процесса, дополняющего бизнес-процессы, происходящие в рассматриваемой производственно-экономической системе.

Этап 1. Понимание организации изучаемого процесса

Для этого необходимо определить цели добычи данных, начальные значения для анализа, критерии оценки, примерный план работы с данными, т. е. "конвертировать" знания о происходящих процессах и задачах (улучшить продукт Х ) в проблематику добычи данных (каков образ клиента, который покупает продукт ).
Если рассмотреть данный этап как подбор нового проекта в системе, реализующей изучаемый процесс, то на первом этапе необходимо сформировать цели реализации проекта, определить начало отсчета, выявить критерии успеха, составить предварительный план проекта.

Этап 2. Понимание данных

Цель данного этапа - лучшее понимание данных и их взаимосвязи с протекающими процессами и, как следствие, выявление ошибочных или неполных данных, определение степени влияния имеющихся данных на происходящие процессы (их полнота и достоверность).
С переходом к рассмотрению проекта этот этап превращается в последовательность действий, связанных с подбором внутренних и внешних источников данных, выбором из них релевантных рассматриваемой задаче данных, оценкой и повышением качества данных, получением внешних данных, подготовкой данных для следующего этапа.

Этап 3. Подготовка данных

На этом этапе отбираются данные, которые будут использоваться, выполняется их форматирование, определяются новые вычислимые показатели, выбираются методы добычи данных, которые будут использоваться на последующих этапах.
При рассмотрении конкретной задачи это сводится к описанию имеющихся данных, извлечению и подготовке данных к последующему анализу (выбор, корректировка, проверка, объединение, форматирование).

Этап 4. Моделирование

На этом этапе на основании имеющихся данных строится модель, описывающая имеющиеся данные, и делаются предположения, какие данные будут поступать в будущем. Для этого могут применяться различные модели: деревья решений, нейросети, регрессионные модели.
На практике этот ключевой аспект добычи данных сводится к анализу зависимых переменных, использованию различных методов (деревья решений, нейронные сети и др.), проверке моделей на различных наборах данных.

Этап 5. Оценка результатов

Прежде чем перейти к поиску новых данных, необходимо проверить соответствие получаемых результатов и процессов, происходящих в изучаемой предметной области. Для этого потребуется использование новых данных (не участвующих при построении модели).
Практика данного этапа заключается в детальном описании и правдоподобной проверке предлагаемых решений, тестировании и выборе лучших моделей, проверке выбранных критериев и заполненности данных, проверке того, дает ли модель новые результаты, а также позволяет ли принимать решения для будущих задач.

Этап 6. Использование

На этом этапе составляется отчет на основе полученных моделей и данных о том, как известные данные взаимосвязаны, какие выводы могут быть сделаны, как использованы эти взаимосвязи, как управленческие решения с использованием данных могут повлиять на решение задач повышения эффективности изучаемых процессов.
Конечный этап должен приводить к интеграции полученных моделей в существующие информационные процессы, окончанию рассматриваемого проекта или процесса, а в случае, если проект продолжается, то к его мониторингу, постоянной адаптации и улучшению моделей.