Кодирование текстовой информации
Автор Буланкина И.Н.
Повторение
Алфавит - множество символов, с помощью которых записывается текст
Мощность алфавита - число символов в алфавите
N = 2 b - формула определения количества информации
где N – мощность алфавита (количество символов),
b – количество бит (информационный вес символа).
В алфавит мощностью 256 символов можно поместить практически все необходимые символы. Такой алфавит называется достаточным.
Т.к. 256 = 2 8 , то вес 1 символа – 8 бит.
Единице измерения 8 бит присвоили название 1 байт
1 байт = 8 бит.
Двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти .
Представление текстовой информации в памяти компьютера
Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер - по их коду.
Поскольку байт - наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста.
Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки .
- Международным стандартом для ПК стала таблица ASCII (Американский стандартный код для информационного обмена).
Порядковый номер
Код
0 - 31
Символ
00000000 - 00011111
32 - 127
00100000 - 01111111
Символы с номерами от 0 до 31 принято называть управляющими.
128 - 255
Стандартная часть таблицы (английский).
10000000 - 11111111
Альтернативная часть таблицы (русская).
Первая половина таблицы кодов ASCII
Вторая половина таблицы кодов ASCII
Компьютеры фирмы Apple , работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.
Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.
Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251 .
С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode . Это 16-разрядная кодировка , т.е. в ней на каждый символ отводится 2 байта памяти . Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов .
Внутреннее представление слов в памяти компьютера
Слова
Память
file
01100110
disk
01101001
01100100
01101100
01101001
01100101
01110011
01101011
Задания
Используя таблицу ASCII, закодируйте в двоичной форме свою фамилию.
Используя таблицу ASCII, закодируйте в двоичной форме слово byte.
Закодируйте короткую фразу на русском языке. Обменяйтесь полученными кодами с соседом и декодируйте тексты друг друга.
Тест
1.Какое количество символов содержит алфавит, используемый для представления текстовой информации в компьютере
5.В таблице кодировки ASCII стандартными(неизменными) являются только символы с номерами
2.Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует
- 256. 1024. 128
- 256.
- 1024.
- 128
- от 127 до 255. от 0 до 127. от 0 до 255 .
- от 127 до 255.
- от 0 до 127.
- от 0 до 255 .
- четырехразрядный двоичный код. восьмиразрядный двоичный код. шестнадцатиразрядный двоичный код.
- четырехразрядный двоичный код.
- восьмиразрядный двоичный код.
- шестнадцатиразрядный двоичный код.
6.Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется
3.Двоичный код каждого символа в компьютерном тексте занимает
- таблицей NTFS. таблицей FAT. таблицей кодировки.
- таблицей NTFS.
- таблицей FAT.
- таблицей кодировки.
- 1 байт памяти. 1 бит памяти . 8 байтов памяти.
- 1 байт памяти.
- 1 бит памяти .
- 8 байтов памяти.
7.С развитием персональных компьютеров типа IBM PC международным стандартом стала таблица кодировки символов
4.В русских национальных кодировках во второй части таблицы ASCII(от 128 до 255) размещаются
- Windows. NTFS. ASCII.
- Windows.
- NTFS.
- ASCII.
- символы русского языка. особые управляющие символы. символы латинского языка.
- символы русского языка.
- особые управляющие символы.
- символы латинского языка.