Наблюдение большого объема входных данных в ИС преопределимую интенсивную разр-ку методов извлечения новых данных из уже накопленных. Это новые д-ые обладают св-ми присущими зн-ям, т.е. их можно охарак-ть как знания. В зар литературе эти значения получ название расколка д-х и открытие знаний. В отечественной лит-ре ИАД.
ИАД- процесс поддержания решений, основанной на поиске в д-х скрытых закономерностей ранее не известных, к-е м охарактеризовать как знания. В общ случае ИАД сост из 3х стадий:
- выявление закономерностей
- анализ исключений для выявлении и толкование аномалий в закономерностях
- исполнение найденных закономерностей для предсказания неизвестных значений
Для анализа данных накопленных в ИС исп-ся методы на основе 2-х современных технологий:
- Data Mining
- KDD
Эти методы позволяют извлекать из сырых д-х ранее неизвестные зависимости между параметрами объектов и закономерностей поведения классов объектов, выявл нов связей между объектами, новые cв-ва объектов; анализ сегментации покупателя, анализ банковских кредитных условий, выявление предпочтений при покупке Т и У.
KDD – последовательность действий, к-е необходимо вып-ть для извлечения зн-ий из данных, KDD включает в себя следующие этапы:
- Подготовка исходных набора данных – Источники данных
- Предобработка данных – Очищенные данные
- Трансформация данных – Трансформирование д-х
- Data Mining – шаблоны
- Постобработка (интерпретация) – знания
KDD – процесс получения данных знание в виде зависимостей, правил и моделей обычно состоящий из этапов: отбор, очистка, трансформация, моделирование и интерпретация получ-х рез-в
- Подготовка исх-х набора данных-данные собираются из различных источников д-х при этом эксперты и аналитик опр-ет значимые пар-ры, опр-ет формат представления д-х, производится преобразования различных д-х в единый формат. В рез-те получ исходные данные
- Очистка д-х – данные м создавать пропуски, анамалии м.б. избыточны или недостаточны, на данном этапе это устран-ся. К задачам отн-ся: сглаживание, заполнение пропусков, исключения дубликатов и противоречий
- Трансформация данных – необходим для методов при исполнении к-х исходные д- д.б. представлены в каком-то определенном виде (агрегированные д-ые – укрупнение д-х) Задачи: скользящее окно, приведение типов, выделение временных интервалов, группировка, сортировка
- Data Mining – строятся модели на основе разл-х алг-в нахождения зн-ий: нейтронные сети, деревье решений, алг-мы кластеризация, установ-е ассоциаций
- Интерпретация д-х – ан-з получ-х рез-в моделирования и применение их в практической деятельности. Данные можно тиражировать.