Data Mining – обнаружение в сырых д-х ранее неизвестных нетривиальных, практически полезных и доступных для интерпретации зн-ий, к-е необх-мы для принятия решения. Правильнее считать, что DM один из этапов KDD.
Полученные при помощи KDD знания м тера-ровать, т.е. построенную аналитиком модель м применять др пользователям без необходимости понимания как модель была построена
Методы используемые в Data mining
Рассмотрим наиболее известные:
- Деревья решений — предназначен для решения задач классификации, в данном методе создается иерархическая структура классифицирующих правил типа ЕСЛИ — ТО имеющих вид дерева, в узле дерева задается вопрос. На который имеется два ответа да или нет. Дерево решений строится по алгоритму CART, C4.5.
- Искусственные нейроные сети, в частности многослойный песептрон. Представляет собой структуру моделирующую биологические процессы, аналогичные процессам в мозге человека. Нейронные сети способны к адаптивному обучению. Для этого сначала их необходимо обучить на тестовой выборке. В отлии от дерева решений нейронные сети не способны объяснить решение. Применяется для решения задач регресси и классификаций, т.е. Выявления не линейной зависимости.
- Линейная регресия — для регрисивнного анализа и поиска линейных зависимотей.
- Кластерный анализ — разбиение множества объектов и признаков на однородные при чем разбиение производится не по одному признаку, а по целому набору признаков. При этом нет ограничений на вид рассматриваемых объектов. Позволяет решить задачи сегментации. Сжимать большие массивы экономической информации.
- Самоорганизующиеся карты или карты Коханена используются для задач кластеризации и сегментации. Это один из методов проецирования многомерного пространства в пространство с более низкой мерностью
- ассоциативные правила — позволяют находить закономерности между связанными событиями для выявления ассоциаций. Эффективно используется при анализе покупок, анализе предпочтения клиентов.
- Последовательные шаблоны — выявляют закономерности аналогичные алгоритмам ассоциативных правил, но выявлят между связанными во времени событий. Важна последовательность совершения событий.
DM – это не одно а больше число разл-х методов обнаружения знаницй.
5 осн-х типов закономерностей, к-е выяв-ся методами DM:
- Классификация – установление завистимостей дискретной и выходной переем-ой от вых-х пер-х
- Кластеризация – группировка объектов на основе д-х(св-в), опис-щих сущность объектов, причем в отличие от классификации критерии отбора групп не заданы, объекты внутри кластера д.б. похожи др на др, но существенно отличаться от объектов др кластеров, при чем это отличие, тем качественнее кластеризация. В эконом-х задачах чаще исп-ся термин сегментация
- Прогнозирования(регрессия)- установление завис-ей между непрер-ой вх-ой пер-ой от вых-х переем-х. Применяется для прогнозирования врем-го ряда на основе исторической д-х
- Ассоциации – выявление закономерностей между связанными событиями
Последовательность – установление зависимостей между связями по времени собятиями.Data Mining – обнаружение в сырых д-х ранее неизвестных нетривиальных, практически полезных и доступных для интерпретации зн-ий, к-е необх-мы для принятия решения. Правильнее считать, что DM один из этапов KDD.
Полученные при помощи KDD знания м тера-ровать, т.е. построенную аналитиком модель м применять др пользователям без необходимости понимания как модель была построена