[pyar] Diferencia en Unicode entre DB y HTML

Sebastian Bassi sebastian.bassi en globant.com
Mar Jun 21 14:20:09 ART 2016


Estoy comparando 2 cadenas que deberían ser iguales pero resulta que están
encodeadas distinto en la página HTML y en la base (Postgre) donde está la
información. Mi duda es como "normalizar" o que me aconsejan para poder
establecer una comparación (deberian ser iguales). Podria trabajar tanto en
que quede igual en la DB que como lo recupero luego del HTML o podria hacer
algo para que con los hechos consumados me identifique que se trata de lo
mismo.

(Pdb) html_header_title.text
u'Evidence of a bacterial receptor for lysozyme: Binding of lysozyme to the
anti-\u03c3 factor RsiV controls activation of the ECF \u03c3 factor
\u03c3V'
(Pdb) title_in_DB
'Evidence of a bacterial receptor for lysozyme: Binding of lysozyme to the
anti-\xcf\x83 factor RsiV controls activation of the ECF \xcf\x83 factor
\xcf\x83V'

Si de algo les sirve, aca es como se ve el título en el HTML:

Evidence of a bacterial receptor for lysozyme: Binding of lysozyme to the
anti-σ factor RsiV controls activation of the ECF σ factor σV

​Y captura del mismo, es lo que está en verde:

http://imgur.com/9vdQTTS​


-- 
Sebastián Bassi. sebastian.bassi en globant.com
Lic. en Biotecnología con orientación en genética molecular.

-- 


The information contained in this e-mail may be confidential. It has been 
sent for the sole use of the intended recipient(s). If the reader of this 
message is not an intended recipient, you are hereby notified that any 
unauthorized review, use, disclosure, dissemination, distribution or 
copying of this communication, or any of its contents, 
is strictly prohibited. If you have received it by mistake please let us 
know by e-mail immediately and delete it from your system. Many thanks.

 

La información contenida en este mensaje puede ser confidencial. Ha sido 
enviada para el uso exclusivo del destinatario(s) previsto. Si el lector de 
este mensaje no fuera el destinatario previsto, por el presente queda Ud. 
notificado que cualquier lectura, uso, publicación, diseminación, 
distribución o copiado de esta comunicación o su contenido está 
estrictamente prohibido. En caso de que Ud. hubiera recibido este mensaje 
por error le agradeceremos notificarnos por e-mail inmediatamente y 
eliminarlo de su sistema. Muchas gracias.

------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20160621/d86bf600/attachment-0001.html>


Más información sobre la lista de distribución pyar