Хранилище данных (англ. Data Warehouse) — предметно-ориентированная информационная база данных, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации. Строится на базе систем управления базами данных и систем поддержки принятия решений. Данные, поступающие в хранилище данных, как правило, доступны только для чтения. Данные из OLTP-системы копируются в хранилище данных таким образом, чтобы построение отчётов и OLAP-анализ не использовал ресурсы транзакционной системы и не нарушал её стабильность. Как правило, данные загружаются в хранилище с определённой периодичностью, поэтому актуальность данных может несколько отставать от OLTP-системы.
Хранилище данных (Data Warehouse) - предметно - ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержкипринятия решений.
Основные характеристики хранилищ данных.
• содержит исторические данные;
• хранит подробные сведения, а также частично и полностью обобщенные данные;
• данные в основном являются статическими;
• средняя и низкая интенсивность обработки транзакций;
• непредсказуемый способ использования данных;
• предназначено для проведения анализа;
• ориентировано на предметные области;
• поддержка принятия стратегических решений;
• обслуживает относительно малое количество работников руководящего звена.
Добыча данных (data mining) - исследовательский анализ данных, имеющий целью отыскание интересных взаимосвязей между данными, которые могут использоваться при принятии решений.
Основная цель "добычи данных" - это прогноз; Процедура включает три основных этапа:
Этап 1: Исследование. Этот этап обычно начинается с подготовки данных, которая может включать очистку данных, преобразования данных, выбор подмножеств.
Этап 2: Построение модели и проверка. Этот этап включает рассмотрение различных моделей и выбор наилучшей на основании их характеристик. Имеется ряд методов, разработанных для достижения этой цели, многие из которых основаны на так называемой "конкурентной оценке моделей," которая состоит в применении различных моделей к одному и тому же набору данных и последующем сравнении их характеристик для выбора наилучшей модели.
Этап 3: Развертывание. Этот завершающий этап включает использование модели, выбранной в качестве наилучшей на предыдущем этапе, и ее применение к новым данным с целью получения прогнозов или оценок ожидаемых результатов.
Концепция "добычи данных" приобретает все большее распространение, как инструмент для управления деловой информацией в тех случаях, когда предполагается, что из имеющихся данных можно будет извлечь знания для принятия решений в условиях неопределенности.