к вопросу о кодировках (3/3) [Форумы Balancer.Ru]

AGRESSOR #20.01.2008 13:47

AGRESSOR

литератор

★★★★★

Для этого надо, чтобы все не пользовались. А это невозможно. Так что предложение не имеет смысла.

Bredonosec #20.01.2008 16:08

>Только одним способом - не пользоваться его продуктом
дык практически и не пользуюсь.. а теоретически - штук 10 адресов имею, бо его положительно воспринимают всякие требующие регистрации с мылом заморские сервисы, а мылоящики не пропадают от времени, как много где..

короче, не для общения ))

timochka #21.01.2008 22:03 @TEvg#18.01.2008 13:21

timochka

опытный

☆

>>Можно. В UTF-8 сейчас и ходят А вот в UTF-16 придётся или ююкать, или в base64.
TEvg> Непонятно. Почему Е-маил поддерживает УТФ-8 но не поддерживает УТФ-16.
TEvg> Уж не загибаете ли вы?

Женя, раздели в голове две идеи.
1) Как кодировать множество символов разных алфавитов. Сейчас приняли стандарт UNICODE с переменной длиной символов, чтоб не сильно напрягать сеть.
2) Как представление символа кодировать в виде последовательности бит.
Тут есть 2 популярных варианта: UTF8, UTF16. Второй, кстати, нативный в винде начиная с NT. UTF8 - оперирует последовательностью 8битных байт, UTF16 - использует 16битные слова. В обоих случаях длинна произвольного символа может быть несколько байт/слов.
Просто для UTF8 ты несколько байтные символы видишь уже русском языке, а в UTF16 только при использовании китайского/японского/спец.символов.
Для решения проблемы с порядком байт в слове в случае UTF16 используется BOM. Фактически флаг в начале куска текста который говорит какой порядок и какое представление UTF8/16 используются.
Для решения проблемы с потерей байт и быстрого перескока по по буквам кодирование сделано так, что по значению байта/слова можно сразу сказать сколько еще байт/слов будет в этом символе. К сожалению это приводит к тому што один из байтов в слове (при использовании UTF16) может содержать 0, и прочее недопустимое с точки зрения всяких унаследованных ASCII программ. Поэтому я, с некоторых пор, стараюсь даже в случае ASCII/UTF8 строк ложить в конце ДВА нулевых байта. Иногда уберегает, и точно не вредит :-)

))

HolyBoy #23.01.2008 14:35

HolyBoy

старожил

★

Вот, в тему топика. http://local.joelonsoftware.com/mediawiki/... Оригинал здесь The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) - Joel on Software

к вопросу о кодировках