«Создай себе досуг, чтобы научиться чему-нибудь хорошему и перестать блуждать без цели.»
 
Консалтинговая компания Марк Аврелий


Стандарт применения Data mining-а CRISP – DM

Сегодня мне хотелось бы рассказать о стандарте, который был принят практиками применения моделей data mining-а CRISP – DM.

CRoss Industry Standard Process for Data Mining (сокращенно CRISP – DM) – кросс-индустриальный стандарт глубинного анализа данных.

CRISP-DM был разработан в конце 1996 года тремя «ветеранами» из молодых и незрелых  компаний  на рынке интеллектуального анализа данных. DaimlerChrysler (в то время Daimler-Benz) был достаточно опытен, опередив большинство промышленных и коммерческих организаций, в применении интеллектуального анализа данных в своих бизнес-операциях. SPSS (тогда ISL) предлагал сервисы на основе интеллектуального анализа данных с 1990 года и в 1994 году запустил первый коммерческий продукт интеллектуального анализа данных Clementine (который, напомню, поглотил IBM в 2009 году). NCR, для предоставления дополнительной ценности своим клиентам хранилищ данных Teradata, создавал группы data mining консультантов и технических специалистов для обслуживания требования своих клиентов.

Модель процесса выглядит следующим образом

Жизненный цикл проекта интеллектуального анализа данных состоит из шести этапов. При этом последовательность этапов не является строгой. Иногда последовательность этапов варьируется, иногда для перехода на следующий этап требуется переместится на один этап назад, чтобы сделать кое-какие уточнения. Это зависит от результатов каждого этапа. Стрелки указывают наиболее важные и частые зависимости между фазами.
Внешний круг на рисунке указывает на цикличность интеллектуального анализа данных. Процесс интеллектуального анализа данных продолжается после развертывания решения. Уточнения, полученные в ходе процесса могут породить другие  более конкретные вопросы. Последующие опыты интеллектуального анализа данных, извлекают выгоду из предыдущих. Т.е. простыми словами необходимо постоянно совершенствовать свои модели для того, чтобы они давали лучшие результаты и не устаревали.

Давайте подробнее остановимся на этапах:

Понимание бизнеса
Этот начальный этап посвящен цели проекта и требованиям с точки зрения бизнеса, а затем преобразованию этих знаний в задачу применения интеллектуального анализа данных, а также разработке предварительного плана, направленного на достижение целей.

Понимание данных
Понимание данных начинается с первоначального сбора данных и переходу ознакомлению с данными, выявлению проблем качества данных. Цель понять структуру данных, обнаружить интересные подмножества для формирования гипотез для анализа скрытых закономерностей.

Подготовка данных
Фаза подготовки данных охватывает все виды деятельности, чтобы определить  окончательный набор данных (данные, которые будут включены средства моделирования (S)) из исходного набора данных. Задачи подготовки данных, с большой вероятностью будут выполнятся не один раз, и могут выполняться также на последующих этапах. На данном этапе формируются таблицы с набором записей и атрибутов, а также необходимые преобразования и очистка данных для моделирования.

 

Моделирование
В этой фазе идет выборов методов моделирования и их применение. Кроме того, на этом же этапе идет подгонка параметров модели под оптимальные результаты. Как правило, существует несколько методов для одного и того же типа задач. Некоторые методы имеют особые требования к формату данных. Поэтому, иногда необходим возврат на предыдущий этап.

Оценка
На этом этапе Вы построили модель. Прежде чем приступить к окончательному развертыванию модели, важно более тщательно оценить модель, и оценить все  шаги построения модели, решает ли она основную бизнес задачу. Возможно необходимо какие-то вопросы рассмотреть более детально. В конце этой фазы, принимается решение по использованию результатов интеллектуального анализа данных.

 

Развертывание
Если модель сформирована, это не означает что проект закончен. Даже, если целью модели является повышение знаний о данных, полученные знания должны быть представлены таким образом, что бизнес-заказчик их мог интерпретировать и использовать в своей работе. В зависимости от требований, этап развертывания может быть как простой, простая генерация отчетов, или же более сложным, при которых возможно потребуется  повтор интеллектуального анализа данных. Во многих случаях это будет решать бизнес-заказчик, а не DM-аналитик. В любом случае аналитик должен сопровождать этот процесс.

 

Сегодня мы познакомились со стандартным процессом, который сопровождает любую работу по формированию моделей DM.

Удачи Вам в применении!