пользователей: 26808
предметов: 11633
вопросов: 212270
Конспект-online
РЕГИСТРАЦИЯ ЭКСКУРСИЯ

I семестр:
» ИС
» ИИС
» РСПСИТ

2.3. Свойства и назначение ХД

Концепция ХД получила развитие вследствие желания конечных пользователей (ЛПР) иметь непосредственный единообразный доступ к необходимым им данным, источники происхождения которых организационно и территориально распределены, а анализ может повысить эффективность генерации ППР. В этом контексте наиболее актуальной проблемой является обеспечение интегрированного представления о сложном ОУ в целом, комплексного анализа собранных о нем сведений и извлечения из огромного объема детализированных данных некоторой полезной информации – знаний о закономерностях его развития.

Поддержка принятия управленческих решений на основе накопленной информации может осуществляться в трех основных областях:

1. Область детализированных данных. Это сфера действия большинства оперативных, или транзакционных систем (OLTP – On Line Transaction Procession), нацеленных на поиск детальной информации. В большинстве случаев реляционные СУБД отлично справляются с возникающими здесь задачами.

2.Область агрегированных показателей. Комплексный взгляд на собранную в ХД информацию, ее обобщение и агрегация, гиперкубическое представление и многомерный анализ являются задачами систем оперативной  аналитической обработки данных (OLAP- On Line Analytical Procession). Здесь можно или ориентироваться на специальные многомерные СУБД, или (как правило, предпочтительнее) оставаться в рамках реляционных технологий. Во втором случае заранее агрегированные данные могут собираться в специальной БД, либо агрегация информации может производиться в процессе обработки детализированных таблиц реляционной БД  в интерактивном режиме.

3. Область закономерностей. Интеллектуальная обработка производится методами интеллектуального анализа данных (Data Mining), главными задачами которых являются поиск функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или (с определенной вероятностью) прогнозируют развитие рассматриваемых процессов.

Предметом концепции ХД служат непосредственно данные. После того, как традиционная система обработки данных (СОД) реализована и начинает функционировать, она становится неотъемлемой частью производственного процесса. Данные, которые являются одним из конечных продуктов деятельности СОД, обладают такими же характеристиками, что и любой промышленный продукт: сроком годности, местом складирования (хранения), совместимостью с данными из других производств (СОД), рыночной стоимостью, транспортабельностью, комплектностью, ремонтопригодностью.

Для обеспечения выполнения большой частоты аналитических запросов и эффективной обработки огромных массивов информации могут быть использованы различные технологии представления данных, отличные от классического реляционного представления. В отличие от БД в традиционных OLTP-системах, где данные подобраны в соответствии с конкретными приложениями, информация в ХД ориентирована на задачи принятия решений и представляется в виде обобщенных или агрегированных данных – знаний о поведении объекта управления.

Для пользователя OLAP-системы требуются метаданные, по крайней мере, следующих типов:

- описание структур данных, их взаимосвязей;

- информация о хранимых в ХД и поддерживаемых им агрегатах данных;

- информация об источниках данных и о степени их достоверности. Одна и та же информация могла попасть в ХД из разных источников. Пользователь должен иметь возможность узнать, какой источник был выбран основным, каким образом производились согласование и очистка данных;

- информация о периодичности обновлений данных. Желательно знать не только то, какому моменту времени соответствуют интересующие его данные, но и когда они в следующий раз будут обновлены;

- информация о владельцах данных. Пользователю OLAP-системы может оказаться полезной информация о наличии в системе данных, к которым он не имеет доступа, о владельцах этих данных и о действиях, которые он должен предпринять, чтобы получить доступ к данным;

- статистические оценки времени выполнения запросов. До выполнения запроса полезно иметь хотя бы приблизительную оценку времени, которое потребуется для получения ответа, и объема этого ответа.

Уже сейчас известны примеры ХД, содержащих терабайты информации. Проблемой таких больших хранилищ является то, что накладные расходы на внешнюю память возрастают нелинейно при возрастании объема ХД. Исследования показали, что для ХД объемом в 100 гегабайт потребуется внешняя память объемом в 4,87 раза большая, чем нужно собственно для полезных данных. При дальнейшем росте ХД этот коэффициент увеличивается.


хиты: 40
рейтинг:0
Точные науки
информатика
для добавления комментариев необходимо авторизироваться.
  Copyright © 2013-2017. All Rights Reserved. помощь