HTML Набор символов (Кодировка)
Атрибут charset в HTML
Чтобы веб‑браузер правильно отобразил HTML‑страницу, он должен знать, какой набор символов использовать.
Набор символов указывается в теге <meta>:
<meta charset="UTF-8">
Спецификация HTML рекомендует веб‑разработчикам использовать набор символов UTF‑8.
UTF‑8 охватывает почти все символы и знаки в мире!
Набор символов ASCII
ASCII был первым стандартом кодировки символов для веба.
Он определял 128 различных латинских символов, которые можно было использовать в интернете:
- английские буквы (a–z и A–Z);
- цифры (0–9);
- некоторые специальные символы: ! $ + — ( ) @ < > . # ?
Набор символов ANSI
ANSI (Windows‑1252) был первым набором символов в Windows:
- совпадает с ASCII для первых 127 символов;
- специальные символы — с 128 по 159;
- совпадает с UTF‑8 для символов с 160 по 255.
<meta charset="Windows-1252">
Набор символов ISO‑8859‑1
По умолчанию для HTML 4 использовался набор символов ISO‑8859‑1.
Он поддерживал 256 символов:
- совпадает с ASCII для первых 127 символов;
- не использует символы с 128 по 159;
- совпадает с ANSI и UTF‑8 для символов с 160 по 255.
Пример для HTML 4:
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">
Пример для HTML 5:
<meta charset="ISO-8859-1">
Набор символов UTF‑8
- совпадает с ASCII для значений от 0 до 127;
- не использует символы с 128 по 159;
- совпадает с ANSI и ISO‑8859‑1 для символов с 160 по 255;
- поддерживает продолжение диапазона — от значения 256 до 10 000 символов.
<meta charset="UTF-8">
Символы UTF‑8 в HTML
Базовая латиница:
ABCD abcd 0123 ?#$%
Расширенная латиница A:
ĀĂĄ ĆĈĊ ĒĔĖĘ
Расширенная латиница B:
ƀƁƂƃƄƅ ƆƇƈ ƉƊƋƌ
Расширенная латиница C:
ⱠⱡⱢ ⱣⱤ ⱥⱦ ⱧⱨⱩ
Расширенная латиница D:
Ꜧꜧ ꜨꜩꜪꜫ ꜬꜭꜮꜯ
Расширенная латиница E:
ꬰꬱ ꬲꬳꬴ ꬵꬶ ꬷꬸꬹ
Дополнения к МФА (Международному фонетическому алфавиту):
ɖɜɣ ɘɫɛ ɱɷɞ
Модификаторы пробелов:
pʰ pʱ pʲ pʳ
Диакритические знаки:
àáâã èéêẽ òóôõ
Общая пунктуация:
‰ ‱ ⁒ ‼ ⁇ ⁈ ⁉ ⁎ ⁑ ⁂
Верхние и нижние индексы:
C⁰ Cⁱ C⁴ C⁵ C₆ C₇ C₈
Шрифт Брайля:
⠓⠑⠇⠇⠕ ⠺⠕⠗⠇⠙