ИНФОРМАЦИОННЫЕ СИСТЕМЫ. БАЗЫ ДАННЫХ

· Что такое информационные системы, отличия фактографических и документальных систем.

· Что такое база данных. Модели баз данных.

· Что такое поле, запись реляционной базы данных.

· Назначение и функции систем управления базами данных.

· Что такое dBASE-подобные системы управления базами данных.

· Что такое настольные СУБД.

· Какие бывают типы данных в базах данных.

Информационные системы

Человечество сегодня переживает информационный взрыв. Объем информации, поступающей к человеку через все информационные средства, непрерывно растет. Поэтому для каждого человека, живущего в информационном обществе, очень важно овладение средствами оптимального решения задачи накопления, упорядочения и рационального использования информации.

Возможности человека в обработке информации резко возросли с использованием компьютеров. В применении ЭВМ для решения задач информационного обслуживания можно выделить два периода:

· начальный период, когда решением задач обработки информации, организацией данных занимался небольшой круг людей - системные программисты. Этот период характерен тем, что создавались программные средства для решения конкретной задачи обработки данных. При этом для решения другой задачи, в которой использовались эти же данные, нужно было создавать новые программы;

· период системного применения ЭВМ. Для решения на ЭВМ комплекса задач создаются программные средства, оперирующие одними и теми же данными, использующие единую информационную модель объекта. Эти средства не зависят от характера объекта, его модели, их можно применять для информационного обслуживания различных задач. Человечество пришло к организации информации в информационных системах.

Информационными системами (ИС) называют большие массивы данных вместе с программно-аппаратными средствами для их обработки. Различают следующие виды ИС: фактографические, документальные и экспертные системы.

Фактографическая ИС - это массив фактов - конкретных значений данных об объектах реального мира.

Информация в фактографической ИС хранится в четко структурированном виде, поэтому она способна давать однозначные ответы на поставленные вопросы, например: «Кто является победителем Чемпионата России по гимнастике в 1999 году?», «Кому принадлежит автомобиль марки AUDI 80 с регистрационным номером РА899Р77?», «Какой номер телефона в бухгалтерии МГУ?», «Кто стал Президентом России на выборах в марте 2002 года?» и т. д. Фактографические ИС используются буквально во всех сферах человеческой деятельности - в науке, материальном производстве, на транспорте, в медицине, государственной и общественной жизни, торговле, криминалистике, искусстве, спорте.

Документальные информационные системы обслуживают принципиально иной класс задач, которые не предполагают однозначного ответа на поставленный вопрос. Базу данных таких систем образует совокупность неструктурированных текстовых документов (статьи, книги, рефераты, тексты законов) и графических объектов, снабженная тем или иным формализованным аппаратом поиска. Цель системы, как правило, - выдать в ответ на запрос пользователя список документов или объектов, в какой-то мере удовлетворяющих сформулированным в запросе условиям. Например: выдать список всех статей, в которых встречается слово «Пушкин». Принципиальной особенностью документальной системы является ее способность, с одной стороны, выдавать ненужные пользователю документы (например, где слово «Пушкин» употреблено в ином смысле, чем предполагалось), а с другой - не выдавать нужные (например, если автор употребил какой-то синоним или ошибся в написании). Документальная система должна уметь по контексту определять смысл того или иного термина, например, различать «ромашка» (растение), «ромашка» (тип печатающей головки принтера).

Экспертные системы (ЭС) — интеллектуальные системы, призванные играть роль «советчика», построены на базе формализованного опыта и знаний эксперта. Ядром ЭС являются базы знаний, в которых собраны знания экспертов (специалистов) в определенной области, на основе которых ЭС позволяет моделировать рассуждения специалистов из данной предметной области.

Указанная классификация и отнесение ИС к тому или иному типу устарели, так как современные фактографические системы часто работают с неструктурированными блоками информации (текстами, графикой, звуком, видео), снабженными структурированными описателями.

Текстовые документы и базы данных

Значительная часть пользователей, приобретая компьютер или получая доступ к нему, прежде всего осваивает операции именно с текстовыми файлами. На первом этапе компьютер обычно используют в качестве удобной и «интеллектуальной» пишущей машинки (для подготовки, хранения, модификации и распечатки всевозможных писем, сочинений, рефератов, объявлений, статей и т.п.).

Вряд ли многие задумываются, что уже на этом этапе они пользуются примитивной информационной системой, которая в данном случае состоит из следующих элементов:

· текстового редактора как инструмента манипулирования текстами;

· группы текстовых файлов (базы данных) как объекта обработки.

На следующем этапе многим приходит в голову использовать текстовый файл как некую амбарную книгу, куда легко можно заносить разнообразную «списочную» информацию, например, рецепты, телефонные номера своих знакомых, каталоги своей видеотеки, фонотеки, адреса и названия организаций и прочее. Способ представления и размещения информации в таких «амбарных» книгах обычно придумывает сам пользователь. Например, юрист может поместить в текстовый файл карточки своих клиентов с указанием фамилии, имени и отчества, адреса проживания, темы юридической консультации и других данных, например: «Иванов П.И., Тула, ул. Сафонова, д. 12, наследство», «Сидоров П.Т., Москва, ул. Тверская, д.34, кв. 25, автомобильная авария» и т.п.

В чем недостатки такого подхода? Создавая базы данных, мы стремимся обеспечить себе возможность, во-первых, упорядочивать информацию по различным признакам (например, по теме консультации), а во-вторых - быстро извлекать выборки с произвольным сочетанием признаков (например, клиентов, обращавшихся за консультацией по поводу получения наследства). Однако описанная выше организация данных не позволит ни того, ни другого, потому что упорядочить информацию в текстовом файле значительно сложнее, чем даже в картонной коробке. К тому же компьютер не сможет даже выбрать клиентов с одной темой консультации, если в записи про разных клиентов одна и та же тема записана по-разному (например, «наследство», «Наел.» и т.п.).

Чтобы компьютер мог безошибочно искать и систематизировать данные, надо прежде всего выработать и соблюдать при записи данных некоторые правила (соглашения) о способах представления информации. Применительно к вышеописанной информационной системе юриста это означает, что тема консультации должна обозначаться совершенно одинаково во всех случаях записи. Все записи о клиентах должны иметь одинаковую длину (например, по две строки на клиента), положение описания определенных атрибутов данных в каждой записи должно быть одно и то же (например, запись начинается с фамилии, тема юридической консультации записывается с начала второй строки). Такой процесс приспособления форматов и значений данных к возможностям компьютера, т.е. устранение произвола в представлении длины и (или) значений, называется структурированием информации. Другими словами, структурирование - это введение соглашений о способах представления данных. Отсюда следует, что информационная система - это совокупность тем или иным способом структурированных данных (базы данных) и комплекса аппаратно-программных средств для хранения данных и манипулирования ими.

Виды моделей данных

Основа информационной системы, объект ее обработки - база данных (БД). База данных - это совокупность сведений о конкретных объектах реального мира в какой-либо предметной области или разделе предметной области. Например, база данных по вузам (высшее образование), база данных по лекарственным препаратам (медицина), база данных по автомобилям (автомагазин), база данных по стройматериалам (склад) и т.п. Синоним термина «база данных» - «банк данных».

Ядром любой базы данных является модель данных, которая представляет собой структуру данных, соглашения о способах их представления и операций манипулирования ими. Иными словами, это формализованное описание объектов предметной области и взаимосвязей между ними.

Различают три основных типа моделей данных: иерархическую, сетевую и реляционную. Иерархическая структура представляет собой совокупность элементов, в которой данные одного уровня подчинены данным другого уровня, а связи между элементами образуют древовидную структуру. В такой структуре исходные элементы порождают другие элементы, причем эти элементы в свою очередь порождают следующие элементы и т.д. Существенно то, что каждый порожденный элемент имеет только одного «родителя». Обратите внимание, что в иерархической структуре порождающим элементом может быть не объект сам по себе, а только конкретный экземпляр объекта. Примером иерархической базы данных может служить генеалогическое древо вашей семьи.

Существуют и более сложные - сетевые структуры, в которых каждый порожденный элемент может иметь более одного порождающего элемента. Сетевая модель данных отличается от иерархической тем, что каждый элемент сетевой структуры данных связан с любым другим элементом. Примером сложной сетевой структуры может служить структура базы данных, содержащая сведения об учащихся, занимающихся в различных кружках. При этом возможны занятия одного и того же ученика в разных кружках, а также посещение несколькими учениками занятий одного кружка. Сетевые и иерархические структуры можно свести к простым двумерным таблицам.

Реляционные базы данных

Наиболее удобным и для пользователя, и для компьютера является представление данных в виде двумерной таблицы - большинство современных информационных систем работает именно с такими таблицами. Базы данных, которые состоят из двумерных таблиц, называются реляционными, (по-английски «relation» - отношение). Основная идея реляционного подхода состоит в том, чтобы представить произвольную структуру данных в виде простой двумерной таблицы.

Примером реализации реляционной модели данных может быть таблица с информацией об учащихся.

№ личного дела	Фамилия	Имя	Отчество	Дата рождения	Адрес	Класс
П-69	Петров	Иван	Васильевич	12.03.89	ул. Горького, 12-34	4А
С-97	Сидоров	Василий	Николаевич	03.12.88	ул. Карбышева, 34-123	4Б
Я-24	Яковлев	Иван	Семенович	15.01.89	пер. Садовый, 45-28	4В
И-35	Иванов	Павел	Николаевич	06.07.88	ул. Горького, 35- 14	5А
Е-56	Епишев	Павел	Семенович	19.04.88	ул. Киевская, 78-92	5Б

Как видно из приведенного примера, реляционная таблица обладает следующими свойствами:

· каждая строка таблицы — один элемент данных (сведения об одном учащемся);

· все столбцы в таблице однородные, т.е. все элементы в столбце имеют одинаковый тип и длину (например, в столбце Имя отображаются имена учащихся символьного типа длиной не более 17 символов);

· каждый столбец имеет уникальное имя (например, в таблице нет двух столбцов Имя);

· одинаковые строки в таблице не допускаются (запись о каждом учащемся делается только один раз);

· порядок следования строк и столбцов в таблице может быть произвольным (запись об учащемся в таблицу делается при поступлении в школу, при этом порядок следования столбцов не имеет значения).

Структурные элементы реляционной базы данных

На примере реляционной таблицы рассмотрим основные структурные элементы базы данных.

1. В реляционных базах данных любые совокупности данных представляются в виде двумерных таблиц (отношений), подобных описанному выше списку учащихся. При этом каждая таблица состоит из фиксированного числа столбцов и некоторого (переменного) количества строк. Описание столбцов принято называть макетом таблицы.

2. Каждый столбец таблицы представляет поле – элементарную единицу логической организации данных, которая соответствует неделимой единице информации - реквизиту объекта данных (например, фамилия учащегося, адрес).

Для описания поля используются характеристики:

· имя поля (например, № личного дела, Фамилия);

· тип поля (например, символьный, дата);

· дополнительные характеристики (длина поля, формат, точность).

Например, поле Дата рождения может иметь тип «дата» и длину 8 (6 цифр и 2 точки, разделяющих в записи даты день, месяц и год).

3. Каждая строка таблицы называется записью. Запись логически объединяет все поля, описывающие один объект данных, например, все поля в первой строке вышеприведенной таблицы описывают данные об учащемся Петрове Иване Васильевиче 12.03.89 рождения, проживающем по адресу ул. Горького, 12-34, обучающемся в 4А классе, номер личного дела - П-69. Система нумерует записи по порядку: 1,2, ..., n, где n - общее число записей (строк) в таблице на данный момент. В отличие от количества полей (столбцов) в таблице количество записей в процессе эксплуатации БД может как угодно меняться (от нуля до миллионов). Количество полей, их имена и типы тоже можно изменить, но это уже особая операция, которая называется изменением макета таблицы.

3. В структуре записи файла указываются поля, значения которых являются простым ключом, которые идентифицируют экземпляр записи. Примером такого простого ключа в таблице Учащиеся является поле № личного дела, значение которого однозначно определяет один объект таблицы - одного учащегося, так как в таблице нет двух учащихся с одинаковым номером личного дела.

4. Каждое поле может входить в несколько таблиц (например, поле Фамилия может входить в таблицу Список занимающихся в театральном кружке).

Системы управления базами данных и их функции

В современной технологии баз данных для создания баз данных, их поддержки и обслуживания используется специализированное программное обеспечение - системы управления базами данных. СУБД — это комплекс программных и языковых средств, необходимых для создания и эксплуатации баз данных.

На этапе разработки баз данных СУБД служит для описания структуры базы данных: определения таблиц; определения количества полей; типа данных, отображающихся в них; размеров полей; определения связей между таблицами. Помимо таблиц большинство СУБД предусматривает создание специальных средств для работы с данными - форм, запросов.

Во время эксплуатации баз данных СУБД обеспечивает редактирование структуры базы данных, заполнение ее данными, поиск, сортировку, отбор данных по заданным критериям, формирование отчетов.

В информационных системах, которые работают на IBM-совместимых персональных компьютерах, большое распространение получили так называемые dBASE-подобные системы управления базами данных, например, dBASE, FoxPro и Clipper. Для пользователей существенным является то, что, отличаясь между собой командными языками и форматом индексных файлов, все эти СУБД используют одни и те же файлы баз данных с расширением .DBF, формат которых стал на некоторое время своеобразным стандартом баз данных.

В dBASE-подобных БД фактически использован реляционный подход к организации данных, т.е. каждый файл .DBF представляет собой двумерную таблицу, которая состоит из фиксированного числа столбцов и переменного числа строк (записей). В терминах, принятых в технической документации, каждому столбцу соответствует поле одного из пяти типов (N - числовое, С - символьное, D - дата, L -логическое, М - примечание), а каждой строке - запись фиксированной длины, состоящая из фиксированного числа полей. С помощью командных языков этих СУБД создаются и исправляются макеты файлов .DBF (описания таблиц), создаются индексные файлы, описываются процедуры работы с базами данных (чтение, поиск, модификация данных, составление отчетов и многое другое). Характерной особенностью файла .DBF является простота и наглядность: физическое представление данных на диске в точности соответствует представлению таблицы на бумаге. Однако в целом системы, построенные на основе файлов .DBF, следует считать устаревшими.

Большую популярность имеют и другие СУБД (с другим форматом файлов) - Paradox, Clarion и т.п. Следует подчеркнуть, что перечисленные системы ведут родословную от MS-DOS, однако ныне почти все они усовершенствованы и имеют версии для Windows.

Среди современных реляционных систем наиболее популярна СУБД для Windows - Access фирмы Microsoft, Approach фирмы Lotus, Paradox фирмы Borland. Многие из этих систем поддерживают технологию OLE и могут манипулировать не только числовой и текстовой информацией, но и графическими образами (рисунками, фотографиями) и даже звуковыми фрагментами и видеоклипами.

Перечисленные СУБД часто называют настольными, имея в виду сравнительно небольшой объем данных, обслуживаемых этими системами. Однако с ними часто работают не только индивидуальные пользователи, но и целые коллективы (особенно в локальных вычислительных сетях).

Вместе с тем в центр современной информационной технологии постепенно перемещаются более мощные реляционные СУБД с так называемым SQL-доступом. В основе этих СУБД лежит технология «клиент-сервер». Среди ведущих производителей таких систем — фирмы Oracle, Centura (Gupta), Sybase, Informix, Microsoft и другие.

Типы данных в базах данных

Информационные системы работают со следующими основными типами данных.

Текстовые данные. Значение каждого текстового (символьного) данного представлено совокупностью произвольных алфавитно-цифровых символов, длина которой чаще всего не превышает 255 (например, 5, 10, 140). Текстовыми данными представляют в ИС фамилии и должности людей, названия фирм, продуктов, приборов и т.д. В частном случае значение текстового данного может быть именем какого-то файла, который содержит неструктурированную информацию произвольной длины (например, биографию или фотографию объекта). Фактически это структурированная ссылка, позволяющая резко расширить информативность вашей таблицы.

Числовые данные. Данные этого типа обычно используются для представления атрибутов, со значениями которых нужно проводить арифметические операции (весов, цен, коэффициентов и т.п.). Числовое данное, как правило, имеет дополнительные характеристики, например: целое число длиной 2 байта, число с плавающей точкой (4 байта) в фиксированном формате и др. Разделителем целой и дробной части обычно служит точка.

Данные типа даты и (или) времени. Данные типа даты задаются в каком-то известном машине формате, например, — ДД.ММ.ГГ (день, месяц, год). С первого взгляда — это частный случай текстового данного. Однако использование в ИС особого типа для даты имеет следующие преимущества. Во-первых, система получает возможность вести жесткий контроль (например, значение месяца может быть только дискретным в диапазоне 01-12). Во-вторых, появляется возможность автоматизированного представления формата даты в зависимости от традиций той или иной страны (например, в США принят формат ММ-ДД-ГТ). В-третьих, при программировании значительно упрощаются арифметические операции с датами (попробуйте, например, вручную вычислить дату спустя 57 дней после заданного числа). Те же преимущества имеет использование данного типа времени.

Логические данные. Данное этого типа (иногда его называют булевым) может принимать только одно из двух взаимоисключающих значений - True или False (условно: 1 или 0). Фактически это переключатель, значение которого можно интерпретировать как «Да» и «Нет» или как «Истина» и «Ложь». Логический тип удобно использовать для тех атрибутов, которые могут принимать одно из двух взаимоисключающих значений, например, наличие водительских прав (да -нет), военнообязанный (да-нет) и т.п.

Поля объекта OLE. Значением таких данных может быть любой объект OLE, который имеется на компьютере (графика, звук, видео). В частности, в список учащихся можно включить не только статическую фотографию учащегося, но и его голос.

Пользовательские типы. Во многих системах пользователям предоставляется возможность создавать собственные типы данных, например: «День недели» (понедельник, вторник и т.д.), «Адрес» (почтовый индекс - город - ...) и др.

В частном случае значение текстового данного может быть совокупностью пробелов, а значение числового данного - нулем. Если же в таблицу вообще не введена информация, значение будет пустым (Null). He следует путать Null (отсутствие данных) с нулем или пробелами. Во многих системах пользователю важно зафиксировать отсутствие данных для каких-то экземпляров объекта (например, отсутствие адреса, «Адрес is Null»). Если случайно ввести в такую строку таблицы пробел, система сочтет, что адрес задан, и данный экземпляр не попадет в список объектов с отсутствующими адресами.