Данные и информация

Данные — это зарегистрированные сигналы

Если речь идет о человеке – органы чувств. В зависимости от того, каким из органов чувств мы регистрируем сигналы, мы может классифицировать данные.

! Данные не тождественны информации !

Операции с данными

В ходе информационного процесса данные преобразуются из одного вида в другой с помощью методов. Обработка данных включает в себя множество различных операций.

В структуре возможных операций с данными можно выделить следующие основные:

сбор данных — накопление информации с целью обеспечения достаточной полноты для принятия решений;
формализация данных — приведение данных, поступающих из разных источников, к одинаковой форме;
фильтрация данных — отсеивание «лишних» данных, в которых нет необходимости для принятия решений;
сортировка данных — упорядочение данных по заданному признаку с целью удобства использования; повышает доступность информации;
архивация данных — организация хранения данных в удобной и легкодоступной форме;
защита данных — комплекс мер, направленных на предотвращение утраты, воспроизведения и модификации данных;
транспортировка данных — прием и передача (доставка и поставка) данных между удаленными участниками информационного процесса; при этом источник данных в информатике принято называть сервером, а потребителя — клиентом;
преобразование данных — перевод данных из одной формы в другую или из одной структуры в другую.

Основные структуры данных

Работа с большими наборами данных автоматизируется проще, когда данные упорядочены, то есть образуют заданную структуру. Существует три основных типа структур данных: линейная, иерархическая и табличная.

1. Линейные структуры (списки данных, векторы данных)

Список — это простейшая структура данных, отличающаяся тем, что каждый элемент данных однозначно определяется своим номером в массиве. Разделителем может быть и какой-нибудь специальный символ. Таким образом, линейные структуры данных (списки) — это упорядоченные структуры, в которых адрес элемента однозначно определяется его номером.

2. Табличные структуры (таблицы данных, матрицы данных)

Табличные структуры данных (матрицы) — это упорядоченные структуры, в которых адрес элемента определяется номером строки и номером столбца, на пересечении которых находится ячейка, содержащая искомый элемент.

3. Иерархические структуры данных

Нерегулярные данные, которые трудно представить в виде списка или таблицы. Иерархическую структуру имеет система почтовых адресов. В иерархической структуре адрес каждого элемента определяется путем доступа (маршрутом), ведущим от вершины структуры к данному элементу.

Пуск ► Программы ► Стандартные ► Калькулятор.

Понятие об информации

Информация — это продукт взаимодействия данных и адекватных им методов, т.е. для того, чтобы данные стали информацией, их нужно преобразовать с помощью методов, причём методы не всегда адекватны.

Рассмотрим данное выше определение информации и обратим внимание на следующие обстоятельства.

Динамический характер информации. Информация не является статичным объектом — она динамически меняется и существует только в момент взаимодействия данных и методов. Все прочее время она пребывает в состоянии данных.
Требование адекватности методов. Одни и те же данные могут в момент потребления поставлять разную информацию в зависимости от степени адекватности взаимодействующих с ними методов.
Диалектический характер взаимодействия данных и методов.

Свойства информации

Объективность и субъективность информации.

Понятие объективности информации является относительным. Это понятно, если учесть, что методы являются субъективными. Более объективной принято считать ту информацию, в которую методы вносят меньший субъективный элемент.

Полнота информации.

Полнота информации во многом характеризует качество информации и определяет достаточность данных для принятия решений или для создания новых данных на основе имеющихся. Чем полнее данные, тем шире диапазон методов, которые можно использовать, тем проще подобрать метод, вносящий минимум погрешностей в ход информационного процесса.

Достоверность информации.
Адекватность информации –

это степень соответствия реальному объективному состоянию дела. Неадекватная информация может образовываться при создании новой информации на основе неполных или недостоверных данных.

Доступность информации

— мера возможности получить ту или иную информацию. На степень доступности информации влияют одновременно как доступность данных, так и доступность адекватных методов для их интерпретации.

Актуальность информации

— это степень соответствия информации текущему моменту времени.

Кодирование данных

Двоичное кодирование основано на представлении данных последовательностью всего двух знаков: 0 и 1. Эти знаки называются двоичными цифрами, или сокращенно, bit (бит).

Одним битом могут быть выражены два понятия: 0 или 1 (да или нет, черное или белое, истина или ложь и т. п.). Если количество битов увеличить до двух, то уже можно выразить четыре различных понятия:

00 01 10 11

Увеличивая на единицу количество разрядов в системе двоичного кодирования, мы увеличиваем в два раза количество значений, которое может быть выражено в данной системе, то есть общая формула имеет вид:

N=2^m,

где N— количество независимых кодируемых значений; m — разрядность двоичного кодирования, принятая в данной системе.

Двоичное кодирование используется для хранения и обработки информации в ЭВМ. Но существует множество других кодировок, при помощи которых можно выражать различные символы и шифровать их.

N= aⁱ,

где а— число, значение которого можно передать одним разрядом; i — число разрядов, N— число значений, которые можно закодировать при помощи указанного i.

1 байт = 8 бит

1 Кбайт (kb) = 2¹⁰ = 1024 байт (b)

1 Мбайт = 1024 Кбайт = 2²⁰ байт

1 Гбайт = 1024 Мбайт = 2³⁰ байт

1 Тбайт = 1024 Гбайт = 2⁴⁰ байт

Кодирование изображений

Дискретизировать реальное изображение означает наложить на него сетку (растр). Далее каждый элемент сетки (пиксель) кодируется.

Количество пикселей связано с размером изображения.

Глубина кодирования определяет, сколько разных цветов может принимать каждый пиксель. Измеряется в битах.

V = s * i,

где V – объем полученного графического файла, s – кол-во пикселей в изображении (Д * Ш), i – глубина кодирования (True Color, High Color)

Кодирование звука

Реальный сигнал (аналоговый) – непрерывен. Для записи в цифровой файл его необходимо дискретизировать.

Дискретизация звука – разбиение звукового сигнала на части с последовательным сохранением интенсивности звука на каждой части. Частота дискретизации измеряется в ГЦ.

Глубина звука – как много уровней мы сможем выделить на каждую часть (сколько памяти готовы отдать). Измеряется в битах.

Один сигнал можно записывать по нескольким каналам, это влияет на объем звучания (моно, стерео)

Частота – как часто мы будем дробить исходный сигнал.

V = N * d * t * i,

где V – объем полученного аудио-файла, N – количество каналов, d – частота дискретизации, t – время записи, i – глубина кодирования

Кодирование текстовых данных

Если каждому символу алфавита сопоставить определенное целое число (например, порядковый номер), то с помощью двоичного кода можно кодировать и текстовую информацию.

Кодирование текстовых данных заключается в том, что каждому символу ставиться в соответствие уникальный двоичный код от 00000000 до 11111111 (или десятичный код от 0 до 255).

Восьми двоичных разрядов достаточно для кодирования 256 различных символов.

Институт стандартизации США (ANSI) ввел в действие систему кодирования ASCII. В системе ASCII закреплены две таблицы кодирования — базовая и расширенная. Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255.

Первые 32 кода базовой таблицы, начиная с нулевого, отданы производителям аппаратных средств. В этой области размещаются так называемые управляющие коды, которым не соответствуют никакие символы языков. Начиная с кода 32 по код 127 размещены коды символов английского алфавита, знаков препинания, цифр, арифметических действий и некоторых вспомогательных символов.

Перечислим некоторые распространенные в России кодировки:

ASCII
КОИ-7 (СССР).
Windows-1251
КОИ-8 (СССР)
кодировка ГОСТ и ГОСТ-альтернативная

Универсальная система кодирования текстовых данных

Система, основанная на 16-разрядном кодировании символов — UNICODE. Шестнадцать разрядов позволяют обеспечить уникальные коды для 65 536 различных символов — этого поля достаточно для размещения в одной таблице символов большинства языков планеты.

Состоит из двух основных частей: универсального набора символом UCS и семейства кодировок UTF.

Универсальный набор символов присваивает каждому символу код в виде неотрицательного целого числа, записываемого обычно в шестнадцатеричной форме с префиксом U+, например U+20BD -> ₽

	ASCII	UNICODE
Кол-во кодов (символов)	256	65536
Кол-во разрядов	8	16
Система кодирования	Двоичная

Стандарт IEEE-754

IEEE-754 - стандарт двоичной арифметики с плавающей точкой. Используется в программных и аппаратных реализациях арифметических действий.

Стандарт IEEE-754 описывает:

формат чисел с плавающей точкой: мантисса, экспонента, знак числа
как представлять положительный и отрицательный нуль, положительную и отрицательную бесконечность, а также специальную величину "не число" (NaN).
методы, используемые для преобразования числа.
исключительные ситуации (деление на ноль, переполнение и т.д.)
операции: арифметические и другие

Формат включает:

Числа, которые могут рассматриваться в двоичной или десятичной системе счисления.
Вещественное число, представленное тремя целыми числами), где S = знак (0 для положительного, 1 для отрицательного), С = мантисса (коэффициент), Q = экспонента.

(-1)^S * С * B^Q,

где B – основание (2 или 10)

±0 и ±∞

Стандарт IEEE-754 определяет пять правил округления. Первые два правила округляют к ближайшему значению, другие называются направленными округлениями.

Округление к ближайшему:

Округление к ближайшему (привязка к четному). Если два ближайших числа с плавающей точкой одинаково близки, то должно быть получено число с чётной самой младшей цифрой. Это вариант по умолчанию для двоичной плавающей запятой и рекомендованный вариант по умолчанию для десятичного числа.
Округление к ближайшему (привязка к бесконечности). Если два ближайших числа с плавающей точкой одинаково близки, то должно быть получено число с большим модулем.

Направленные округления:

Округление к 0 - направленное округление к нулю (также известное как усечение).
Округление к + ∞ - направленное округление к положительной бесконечности (также известное как округление вверх или потолок).
Округление к - ∞ - направленное округление к отрицательной бесконечности (также известное как округление вниз или пол).

Пример округления до целых чисел

Режим / Пример	+11.5	+12.5	−11.5	−12.5
к ближайшему (привязка к четному)	+12.0	+12.0	−12.0	−12.0
к ближайшему (привязка к бесконечности)	+12.0	+13.0	−12.0	−13.0
к 0	+11.0	+12.0	−11.0	−12.0
к + ∞	+12.0	+13.0	−11.0	−12.0
к - ∞	+11.0	+12.0	−12.0	−13.0