Всякий текст – это набор знаков. Но компьютер не может различать знаки, он
“понимает” только язык электрических сигналов. Поэтому каждый знак
закодирован некоторой неповторимой последовательностью электрических
сигналов, а им, в свою очередь, установлено цифровое соответствие – код.
Нажимая на клавишу клавиатуры, мы посылаем такой код в память
компьютера, затем процессор ищет ему соответствие и выдаёт необходимый
знак на экран монитора.
Процесс преобразования в компьютере текстовой информации в
цифровую форму и обратно называют текстовым кодированием.
Таким образом, человек различает знаки по их
начертанию, а компьютер – по их коду.Коды составляют таблицу кодировки, к которой и обращается процессор
при обработке текстов. В этой таблице для представления любого текста
предусмотрено 2
8
(256) знаков, что составляет машинный алфавит.
Первые 33 кода таблицы (с 0 по 32) отведены не для знаков, а для
операций (перевод строки, ввод пробела и т. д.). Коды с 33 по 127 –
интернациональные и соответствуют символам латинского алфавита,
цифрам, знакам препинания и знакам арифметических действий. Коды с 128
по 255 являются национальными, то есть в нашей стране отведены для
знаков кириллицы.
На сегодняшний день существует универсальная таблица кодировки – ASCII
(American Standart Code for Information Interchange). Но она не
единственная. Для русских букв существует несколько кодировок, среди
которых: СР1251 (Windows), СР866, КОИ-8 (MS-DOS). В последнее время
появился новый международный стандарт Unicode, который позволяет
кодировать 216 (65536) символов.Существование различных кодировок приводит к необходимости
разбираться в типах – форматах – текстовых файлов для использования
их в разных программных средах.
Формат файла определяет способ содержания текста в файле и
отражается его оригинальным расширением.
Простой текстовый формат содержит только коды символов, другие же
форматы дополнены управляющими кодами, которые обеспечивают
форматирование текста. Существуют
• универсальные форматы текстовых файлов, которые могут быть
прочитаны большинством программ обработки текстовой информации и
• оригинальные форматы для использования отдельными программами.
Возникает задача преобразования текстового файла из одного формата в
другой, и для этого существуют специальные программы – конверторы. В
мощных текстовых программных средах конверторы, как правило, входят в
их состав.Наиболее распространёнными форматами текстовых файлов являются:
• TXT – универсальный формат простого текста, не предусматривает
форматирования текста, применяется для создания текстовых
документов, которые должны читаться в различных системных средах.
• RTF (Rich Text Format) – универсальный формат, сохраняющий
форматирование текста, применяется для создания текстовых
документов, которые могут быть прочитаны в различных приложениях.
• DOC – оригинальный формат офисного приложения Microsoft WORD,
полностью сохраняет форматирование текста, использует кодировку
Unicode.
• ODT – оригинальный формат открытой текстовой среды OpenOfice.org
WRITER.
• LEX – оригинальный формат отечественного редактора “Лексикон”.
• HTML, HTM – формат хранения WEB-страниц, содержит управляющие
коды (тэги) языка разметки гипертекста.