А почему, собственно, http://forum.mozilla.ru/ не в юникоде?
Всё-таки самая тру-кодировка. Её любят в мозилле, и всё такое....
В юникоде можно писать любым алфавитом со спецсимволами хоть в одной строке.
"Мысль - это интеллектуальный эксцесс данного индивидуума" ©
Отсутствует
Сомниваюсь, что движок (да и БД тут скорее всего mysql и младше 4.1) умеет работать с мульти байтовыми кодировками. Отображатся может все будет нормально, но поиск и сортировка будут глючить.
Отсутствует
В юникоде можно писать любым алфавитом со спецсимволами хоть в одной строке.
Вот здесь: http://allo.usaaa.ru/workshop/wdhplus/e … tm#unicode прочитал следующее:
Проблема в том, что шрифт, содержащий все графемы Unicode будет иметь совершенно несуразный размер. Например, TrueType-шрифт Arial Unicode MS, содержащий большую порцию символов Unicode, «весит» 24Мб. По мере наполнения Unicode новыми блоками размер таких шрифтов приблизится к 100Мб.
Да и трафик вырастет вдвое. Особенно это заценят те, у кого модемное соединение.
В общем, не надо UNICODE.
Время настанет, время придет...
И лис кОнкурiентов на части порвет !!!
Отсутствует
Да и трафик вырастет вдвое. Особенно это заценят те, у кого модемное соединение.
GZip это легко исправит, да и в HTML часто больше тегов (а символы с кодом меньше 127 хронятся одним байтом) чем текста на русском, т.е. увеличение размера на 5-10%.
Отсутствует
GZip это легко исправит, да и в HTML часто больше тегов (а символы с кодом меньше 127 хронятся одним байтом) чем текста на русском, т.е. увеличение размера на 5-10%.
Нет, это в UTF-7(8) они хранятся одним байтом, а в UNICODE - два байта на любой символ.
И поясни, причем здесь GZip ? В оффлайне форум просматривать ?
Время настанет, время придет...
И лис кОнкурiентов на части порвет !!!
Отсутствует
Нет, это в UTF-7(8) они хранятся одним байтом, а в UNICODE - два байта на любой символ.
Тут скорее всего речь идет именно об UTF-8 т.к. он является фактически стандартом для XML. Или UTF-8 (Unicode Transformation Format) не Unicode? Под Unicode ты наверно имел ввиду UCS?
http://en.wikipedia.org/wiki/Unicode так, для справки ;-)
И поясни, причем здесь GZip ? В оффлайне форум просматривать ?
Хм, уже давно браузеры понимают сжатый gzip'ом текст... см. вниз странице
Page generation time: 0.8261s - SQL queries: 27 - GZIP disabled - Debug off
Здесь выключен, наверно дополнительную нагрузку на сервер создает.
http://www.w3.org/Protocols/rfc2616/rfc2616-sec3.html#sec3.5
Отсутствует
:oops: Swappp, я и не знал про GZip. Спасибо что просветил.
Время настанет, время придет...
И лис кОнкурiентов на части порвет !!!
Отсутствует
Нет, это в UTF-7(8) они хранятся одним байтом, а в UNICODE - два байта на любой символ.
.............
КСТАТИ, про utf-8.... (насколько я понимаю, это и есть "UNICODE"?)
Если в чате у кого-то стоит кодировка "ср1251", а у другого "utf-8" эти двое не смогут общаться на кириллице. На транслите же (обычные латинские буквы) всё нормально читается. Как в ту, так и в другую сторону.
Не знаю, может настоящий юникод использует 2 байта на любой символ, но ирцовый точно один байт на латинский символ или цифру.
"Мысль - это интеллектуальный эксцесс данного индивидуума" ©
Отсутствует
Shutdown
Unicode это грубо говоря таблица символов, а символы из этой таблицы можно кодировать разными способами, для передачи и возможно хранения подходит UTF-8, т.к. строки занимают не очень много места. Для внутреннего представления в программах лучше использовать UCS-2 или UCS-4 (каждый символ имеет длину 2 или 4 байта), т.к. некоторые алгоритмы (например элементарный переход к n-символу потребует чтения всех предыдущих и некоторых вычислений, вместо перехода на позицию n*размер_символа) медленно работают с символами переменной длины.
Отсутствует
Никак не мог удержаться. Вот выдержка из RFC 2279 (UTF-8, a transformation format of ISO 10646):
ISO/IEC 10646-1 [ISO-10646] defines a multi-octet character set
called the Universal Character Set (UCS), which encompasses most of
the world's writing systems. Two multi-octet encodings are defined,
a four-octet per character encoding called UCS-4 and a two-octet per
character encoding called UCS-2, able to address only the first 64K
characters of the UCS (the Basic Multilingual Plane, BMP), outside of
which there are currently no assignments.It is noteworthy that the same set of characters is defined by the
Unicode standard [UNICODE], which further defines additional
character properties and other application details of great interest
to implementors, but does not have the UCS-4 encoding.
и еще:
...so-called UCS transformation formats (UTF)...
То есть, Unicode - это один стандарт, UCS - другой, а UTF - UCS transformation formats.
P.S. Ну и http://en.wikipedia.org/wiki/Unicode. Так, для справки. Только внимательно.
Время настанет, время придет...
И лис кОнкурiентов на части порвет !!!
Отсутствует
Перевёл свои форумы (а сегодня это более 500 тыс сообщений и более 10 тыс. хитов в сутки) на UTF-8 год назад. Возрастания трафика заметить не удалось на фоне общих неравномерностей трафика и роста посещаемости (хотя на тестах непакованный трафик больше процентов на 30 (остальное - всё тот же однобайтовый английский - HTML, например ), пакованный - процентов на 5 где-то).
gzip-паковка ресурсы сервера не снижает, а _высвобождает_(!). Незаметная загрузка CPU позволяет уменьшить трафик, в среднем, в 5..7 раз на страницу и, соответственно, в 5..7 раз уменьшает время соединения, быстрее освобождая системные ресурсы.
... чтобы понять рекурсию, нужно сперва понять рекурсию ...
Отсутствует
Если в чате у кого-то стоит кодировка "ср1251", а у другого "utf-8" эти двое не смогут общаться на кириллице.
Если это Web-чат, то прекрасно смогут. Ибо сервер браузеру всегда говорит, в какой кодировке он работает. Если ты про IRC - то это, во-первых, не в тему, во-вторых, любой приличный IRC-сервер имеет разные порты для разных кодировок
... чтобы понять рекурсию, нужно сперва понять рекурсию ...
Отсутствует
Balancer
какраз твоя справка о чатах была не в тему.
Прочитал бы весь мой пост (от 2005-02-06 12:05:48), понял бы к чему я irc упомянул. :Р
"Мысль - это интеллектуальный эксцесс данного индивидуума" ©
Отсутствует
Хех... Форум http://forums.mozillazine.org использует charset=iso-8859-1
если уж они не могут перейти на UTF-8, то зачем здесь?
Смысл? Ведь здесь нет глюков с сообщениями написанными в разных кодировках. латиница и кириллица постится и читается нормально в windows-1251, в отличие от iso-8859-1.
Помню с Unghost'ом мы в этой ветке рассуждали по поводу кодировок:
http://forums.mozillazine.org/viewtopic.php?t=20471&postdays=0&postorder=asc&postsperpage=15&highlight=russian+translation&start=30&sid=b3ce377c07e3d14da04d9b120d394c90
Отредактировано DennisHAWKS (18-05-2005 10:55:11)
Everyone has a right to be stupid. But some just abuse the privilege.
:::: Opera/9.64 (Windows NT 5.0; U; en)
Отсутствует
Хех... Форум http://forums.mozillazine.org использует charset=iso-8859-1
если уж они не могут перейти на UTF-8
Есть такая штука, как элементарная лень админа. Говорю этот как админ с многолетним стажем Хотя, конечно, бывают случаи, когда админ просто не разбирается в вопросе, но там, надеюсь, не тот случай
... чтобы понять рекурсию, нужно сперва понять рекурсию ...
Отсутствует
==> О проекте.
По поводу вопроса - я прочел эту ветку и не увидел что реально улучшится если форум перегнать в UTF-8.
Аргумент, что UTF-8 is RIGHT THING не в счет.
Do not meddle in the affairs of Wizards, for they are subtle and quick to anger.
Отсутствует
Действительно, лучше что-нибудь полезное на форуме сделать (больше тэгов, например, ), чем фетишами заниматься. От добра добра не ищут.
Без бага и ошибки я софт Mozilla не люблю!
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.1) Gecko/20061204 Firefox/2.0.0.1
Microsoft® Office Outlook® 2007 (12.0.4518.1014) MSO (12.0.4518.1014)
Отсутствует
По поводу вопроса - я прочел эту ветку и не увидел что реально улучшится если форум перегнать в UTF-8.
Плюсов множество будет. Ну, например, как на счёт того, чтобы вставлять в постинги преформатированные таблички в псевдографике? Как раньше в DOS?
... чтобы понять рекурсию, нужно сперва понять рекурсию ...
Отсутствует
Balancer Нафикк. Ещё скажи, что на форуме смогут свободно общаться полтора миллиарда китайцев
---/)/)---(\.../)---(\(\
--(':'=)---(=';'=)---(=':')
(")(")..)-(").--.(")-(..(")(")
Отсутствует
Balancer
Пусть лучше настоящие таблицы с помощью тэгов будут.
Без бага и ошибки я софт Mozilla не люблю!
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.1) Gecko/20061204 Firefox/2.0.0.1
Microsoft® Office Outlook® 2007 (12.0.4518.1014) MSO (12.0.4518.1014)
Отсутствует
Кстати, да, gzip пополезнее unicode будет.
А практический смысл юникода на 99,999% русскоязычных ресурсах... так, фетиш, по крайней мере до тех пор, пока ПО без пинков с юникодом не работает.
Отсутствует
А практический смысл юникода на 99,999% русскоязычных ресурсах... так, фетиш, по крайней мере до тех пор, пока ПО без пинков с юникодом не работает.
На форуме _мозилла_ - может быть. А на _в общем случае русскоязычном_ - повторюсь, я полтора года назад свой форум не от балды на UTF-8 переводил Формулы, спецсимволы, в т.ч. греческие, псевдографика... Немцев, наконец, с их умляутами процитировать
Но кому это не нужно - тому и не понять, зачем оно бывает нужно
... чтобы понять рекурсию, нужно сперва понять рекурсию ...
Отсутствует