kodowania opisów
Jacek Konieczny
jajcus w bnet.pl
Czw, 16 Gru 2004, 12:03:52 CET
On Thu, Dec 16, 2004 at 11:38:37AM +0100, Radoslaw Zielinski wrote:
> Jacek Konieczny <jajcus w bnet.pl> [16-12-2004 11:08]:
> [...]
> > A najlepiej byłoby zrobić jakiś test i sprawdzić ile opisów z aktualnych
> > pakietów może być zinterpretowanych jako prawidłowe UTF-8 (mimo, że jest
> > ISO-8859-2).
>
> Niepoprawne:
>
> $ wc -l bad
> 7679 bad
>
> Liczba testowanych (cvs up wczoraj):
>
> $ ls SPECS|grep '\.spec$'|wc -l
> 8146
>
> Czyli 467. Testowane perlem: Encode::decode("utf-8", $opis,
> Encode::FB_CROAK).
1. Czy perl dobrze sprawdza poprawność utf-8? Wiem że taki recode
potrafił robić bzdury.
2. Czy w tych 467 plikach były jakieś polskie literki? I czy nie były
w UTF-8?
Ja zrobiłem test na wszystkich zainstalowanych u siebie pakietach (1533)
i wszystkie opisy które przeszły "iconv -f utf-8 -t utf-8" bez błędu
zawierały jedynie znaki US-ASCII.
Jacek Konieczny
BetaSoft
Więcej informacji o liście dyskusyjnej pld-devel-pl