kodowania opisów

Czw, 16 Gru 2004, 03:21:23 CET

Radoslaw Zielinski wrote:
> Andrzej Krzysztofowicz <ankry w green.mif.pg.gda.pl> [16-12-2004 00:56]:
> > =3D?iso-8859-2?Q?Pawe=3DB3?=3D Sakowski wrote:
> >> On Wed, 2004-12-15 at 20:38 +0100, Andrzej Krzysztofowicz wrote:
> >>> IMO wystarczyloby jakos sprawdzac, czy otrzymany przez rpm-a "ciag bajt=
> ow"
> >>> jest poprawnym utf-em i, jesli nie, zrobic fallback do aktualnego
> >>> zachowania.
> >> Nie bardzo. Mo=BFe istnie=E6 ci=B1g bajt=F3w w opisie pl prawid=B3owy je=
> dnocze=B6nie
> >> w ISO 8859-2 i UTF-8. Taki musia=B3by by=E6 interpretowany w ISO 8859-2 w
> >> pakietach legacy i w UTF-8 w nowych.
> > Mozna jeszcze sprawdzic czy da sie przekodowac UTF -> legacy
> > Jesli tak to trudno. Ale to malo prawdopodobne.
> 
> > Masz lepszy pomysl?
> 
> 1. O ile format RPM jest rozszerzalny, mo=BFnaby dodawa=E6 jakie=B6 pole
>    (utf8metadata).

Trzeba chyba przyjac, ze nie jest.
Mysle, ze trudno bedzie Jeffa przekonac do takiego rozszerzenia, a
rozszerzajac sami spowodujemy, ze bedziemy z niczym nie kompatybilni.

> 2. Nauczy=E6 rpm-a rozpoznawa=E6 kodowanie przy "-l foo_bar.enc" i dodawa=E6
>    do wszystkich zlokalizowanych Summary / %description ".utf-8".

I dla "es" zrobic kilkadziesiac wpisow dla calej ameryki lacinskiej ?
Samo es.utf-8 moze powodowac problemy w interakcji z locale.

> 3. Hack: zgadywanie na podstawie zawarto=B6ci i w zale=BFno=B6ci od j=EAzyk=
> a;
>    przyk=B3adowo, je=B6li w "-l pl" wyst=EApuj=B1 "\xc4\x99" czy \xc3\xb3",
>    to jest to raczej utf-8.

A jak dla zh_CN ?
Za duzo roznych jezykow jest.

-- 
=======================================================================
  Andrzej M. Krzysztofowicz               ankry w mif.pg.gda.pl
  phone (48)(58) 347 14 61
Faculty of Applied Phys. & Math.,   Gdansk University of Technology