HTML Набор символов (Кодировка)

Атрибут charset в HTML

Чтобы веб‑браузер правильно отобразил HTML‑страницу, он должен знать, какой набор символов использовать.

Набор символов указывается в теге <meta>:

<meta charset="UTF-8">

Спецификация HTML рекомендует веб‑разработчикам использовать набор символов UTF‑8.

UTF‑8 охватывает почти все символы и знаки в мире!


Набор символов ASCII

ASCII был первым стандартом кодировки символов для веба.

Он определял 128 различных латинских символов, которые можно было использовать в интернете:

  • английские буквы (a–z и A–Z);
  • цифры (0–9);
  • некоторые специальные символы: ! $ + — ( ) @ < > . # ?

Набор символов ANSI

ANSI (Windows‑1252) был первым набором символов в Windows:

  • совпадает с ASCII для первых 127 символов;
  • специальные символы — с 128 по 159;
  • совпадает с UTF‑8 для символов с 160 по 255.
<meta charset="Windows-1252">

Набор символов ISO‑8859‑1

По умолчанию для HTML 4 использовался набор символов ISO‑8859‑1.

Он поддерживал 256 символов:

  • совпадает с ASCII для первых 127 символов;
  • не использует символы с 128 по 159;
  • совпадает с ANSI и UTF‑8 для символов с 160 по 255.

Пример для HTML 4:

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

Пример для HTML 5:

<meta charset="ISO-8859-1">

Набор символов UTF‑8

  • совпадает с ASCII для значений от 0 до 127;
  • не использует символы с 128 по 159;
  • совпадает с ANSI и ISO‑8859‑1 для символов с 160 по 255;
  • поддерживает продолжение диапазона — от значения 256 до 10 000 символов.
<meta charset="UTF-8">

Символы UTF‑8 в HTML

Базовая латиница:
ABCD abcd 0123 ?#$%

Расширенная латиница A:
ĀĂĄ ĆĈĊ ĒĔĖĘ

Расширенная латиница B:
ƀƁƂƃƄƅ ƆƇƈ ƉƊƋƌ

Расширенная латиница C:
ⱠⱡⱢ ⱣⱤ ⱥⱦ ⱧⱨⱩ

Расширенная латиница D:
Ꜧꜧ ꜨꜩꜪꜫ ꜬꜭꜮꜯ

Расширенная латиница E:
ꬰꬱ ꬲꬳꬴ ꬵꬶ ꬷꬸꬹ

Дополнения к МФА (Международному фонетическому алфавиту):
ɖɜɣ ɘɫɛ ɱɷɞ

Модификаторы пробелов:
pʰ pʱ pʲ pʳ

Диакритические знаки:
àáâã èéêẽ òóôõ

Общая пунктуация:
‰ ‱ ⁒ ‼ ⁇ ⁈ ⁉ ⁎ ⁑ ⁂

Верхние и нижние индексы:
C⁰ Cⁱ C⁴ C⁵ C₆ C₇ C₈

Шрифт Брайля:
⠓⠑⠇⠇⠕ ⠺⠕⠗⠇⠙

To top