slrn

Artur Frysiak wiget w t17.ds.pwr.wroc.pl
Czw, 11 Lis 1999, 14:40:40 CET


[czwartek, 11 listopad 1999], Pawel Krawczyk napisał(a):

> UTF-8 to kompromis pomiędzy 16-bitowym Unikodem i 7-bitowym ASCII.
> Wszystkie znaki 7-bitowe (oprócz sterujących na początku) w UTF-8
> są zapisywane normalne, tj. jako "abcdef...". Natomiast tam, gdzie
> w ASCII pojawiłyby się znaki 8-bitowe (np. polskie w ISO) w UTF-8
> umieszcza się 16-bitowe znaki Unicode. Zalety:
> 
> 1. wzrost długości tekstu jest minimalny (w przypadku pełnego Unikodu
> byłby on dwukrotny), bo 2 bajtowe są tylko nieliczne polskie znaki
> 
> 2. wszystkie zalety Unikodu są zachowane w UTF-8. Pomimo, że jest
> on głownie pomyślany dla tekstów używających alfabetu łacińskiego,
> nic nie stoi na przeszkodzie żeby w UTF-8 napisać kawałek tekstu
> po polsku (znaki 7 i 16-bitowe) i kawałek w cyrylicy (same 16-bitowe).
> 
> 3. algorytm przetwarzania takiego tekstu jest prosty - wszystko c0
> ma 7 bitów, to ASCII, wszystko co ma 8-bitów to połówka znaku Unicode

No to teraz mam jasność.
Rzeczywiście w tym świetle UTF-8 jest do zaakceptowania.
Widze tylko pewne problemy w edytorach z np centorwaniem i innymi bajerami,
ale gdy aplikacje wewnątrz będą stosowały pełny Unicode a wynik zapisywały w
UTF-8 to już nie ma tego problemu.

Wiget
-- 
  __    __ _            _
 / / /\ \ (_) __ _  ___| |_  @__mail:  Artur Frysiak
 \ \/  \/ / |/ _` |/ _ \ __|            Rudlice 10
  \  /\  /| | (_| |  __/ |_           98-311 Ostrowek
   \/  \/ |_|\__, |\___|\__|
             |___/           email:   Wiget w t17.ds.pwr.wroc.pl
PGP key: http://www.t17.ds.pwr.wroc.pl/~wiget/pgp.key
1024D/12FE7FAE ACB5 5834 C2F7 F86E 4F21  6D88 06B8 2CFE 12FE 7FAE



Więcej informacji o liście dyskusyjnej pld-devel-pl