kodowania opisów

Czw, 16 Gru 2004, 12:03:52 CET

On Thu, Dec 16, 2004 at 11:38:37AM +0100, Radoslaw Zielinski wrote:
> Jacek Konieczny <jajcus w bnet.pl> [16-12-2004 11:08]:
> [...]
> > A najlepiej byłoby zrobić jakiś test i sprawdzić ile opisów z aktualnych
> > pakietów może być zinterpretowanych jako prawidłowe UTF-8 (mimo, że jest
> > ISO-8859-2).
> 
> Niepoprawne:
> 
>   $ wc -l bad                    
>   7679 bad
> 
> Liczba testowanych (cvs up wczoraj):
> 
>   $ ls SPECS|grep '\.spec$'|wc -l
>   8146
> 
> Czyli 467.  Testowane perlem: Encode::decode("utf-8", $opis,
> Encode::FB_CROAK).

1. Czy perl dobrze sprawdza poprawność utf-8? Wiem że taki recode
potrafił robić bzdury.

2. Czy w tych 467 plikach były jakieś polskie literki? I czy nie były
w UTF-8?

Ja zrobiłem test na wszystkich zainstalowanych u siebie pakietach (1533)
i wszystkie opisy które przeszły "iconv -f utf-8 -t utf-8" bez błędu
zawierały jedynie znaki US-ASCII.

Jacek Konieczny
BetaSoft