unikod

Śro, 31 Gru 2003, 17:09:27 CET

Jacek Konieczny wrote:
> On Wed, Dec 31, 2003 at 10:11:49AM +0100, Andrzej Krzysztofowicz wrote:
> > $ python -c "unicode(file('test.txt'),'utf-8','strict')"
> > Traceback (most recent call last):
> >   File "<string>", line 1, in ?
> > TypeError: coercing to Unicode: need string or buffer, file found
> > $ ls -l test.txt
> > -rw-r--r--    1 ankry    ak           1666 Dec 31 10:13 test.txt
> > 
> > Tak samo na pliku testowym z poprawnym i niepoprawnym unikodem.
> > Zupelnie nie znam pythona.
> 
> Tak to jest jak się podaje skrypty z pamięci. Powinno być:
> 
>         python -c "unicode(file('test.txt').read(),'utf-8','strict')"
> 
> (tym razem sprawdzone).

Moze zalezy od wersji pythona ?
Moze cos trzeba doinstalowac ?

$ python -c "unicode(file('test.txt').read(),'utf-8','strict')"
Traceback (innermost last):
  File "<string>", line 1, in ?
NameError: unicode

$ head -2 test.txt
[Desktop Entry]
Name=Netscape Navigator

> Mogę spróbować zrobić cały skrypt "validujący" Unicode, tylko napisz co
> dokładnie powinien on robić.

Sprawdzac, czy plik nie zawiera kombinacji znakow nielegalnych w UTF-8
(za "nielegalne" moze tez traktowac zakres "user-defined", ale nie jest to
konieczne), badz nie reprezentujacych zadnego znaku (jeszcze nieprzypisanych).

Chcialbym, zeby wypisal linie zawierajace bledy, dobrze gdyby podal nry
linii i pozycje nieprawidlowego znaku w kazdej z nich.

Musi dzialac na zasobach Ra.

$ rpm -q python
python-1.5.2-30

-- 
=======================================================================
  Andrzej M. Krzysztofowicz               ankry w mif.pg.gda.pl
  phone (48)(58) 347 14 61
Faculty of Applied Phys. & Math.,   Gdansk University of Technology