unikod

Andrzej Krzysztofowicz ankry w green.mif.pg.gda.pl
Wto, 30 Gru 2003, 21:40:57 CET


Jacek Konieczny wrote:
> On Tue, Dec 30, 2003 at 08:58:12PM +0100, Andrzej Krzysztofowicz wrote:
> > Masz moze jakis pomysl na walidacje, czy dany plik zawiera poprawny z
> > formalnego punktu widzenia unikod?
> 
> Masz na myśli UTF-8? (Unikod to tylko numerki znaków, bez żadnej konkretnej
> formy zapisu).

UTF-8 i UTF-16.
 
> python -c "unicode(file('plik.txt'),'utf-8','strict')"
> 
> Wywali się, jezeli plik.txt będzie zawierał cokolwiek co nie jest
> poprawnym UTF-8.

A da jakis sensowny komunikat odnosnie miejsca bledu ?
Bo iconv-owy okreslajacy offset odnosnie poczatku danych jest kiepski.
Zwlaszcza jak sie sprawdza megabajty w strumieniu.

A moze da sie cos zrobic, by kontynuowal po bledzie ?
(w zasadzie chodzi mi o zlokalizowanie linii z bledami w strumieniu)

-- 
=======================================================================
  Andrzej M. Krzysztofowicz               ankry w mif.pg.gda.pl
  phone (48)(58) 347 14 61
Faculty of Applied Phys. & Math.,   Gdansk University of Technology



Więcej informacji o liście dyskusyjnej pld-devel-pl