[pyar] PYSPARK MongoDB, problemas de parseo

Jean Jacques Delannoy jjdelannoy en hotmail.com
Lun Ago 20 10:54:45 -03 2018


Gracias Pedro por contestar, ya probe siguiendo los pasos oficiales de la documentación, pero creo que el problema más que nada viene por el sampling que hace el driver para inferir el schema de la colección y cuando la quiere pasar a otro formato falla el casteo.

________________________________
De: pyar <pyar-bounces en python.org.ar> en nombre de pedro cabrera <pedrom9632 en gmail.com>
Enviado: lunes, 20 de agosto de 2018 02:09:59
Para: Python Argentina
Asunto: Re: [pyar] PYSPARK MongoDB, problemas de parseo

Buenas Noches Jean

Te invito a que chequees la documentación de MongoDB link: https://docs.mongodb.com/spark-connector/current/python-api/, yo tuve un error similiar y era primero que no estaba realizando los llamados correctamente del conector y segundo el sistema operativo de la PC con que estaba desarrollando era de 32bits

Espero que te ayude, Saludos

El dom., 19 ago. 2018 a las 23:53, Jean Jacques Delannoy (<jjdelannoy en hotmail.com<mailto:jjdelannoy en hotmail.com>>) escribió:

Hola lista buenos días hace poco me metí en el mundo de python y spark, y estoy teniendo un problema de parseo al guardar un data frame y no pude encontrar ninguna solución.
La situación es la siguiente:

Cuanto intento guardar el data frame sin modificarlo de ninguna forma en formato json o guardarlo en una nueva colección de mongodb recibo la siguiente excepción

Error:
com.mongodb.spark.exceptions.MongoTypeConversionException: Cannot cast STRING into a TimestampType (value: BsonString{value='2018-05-18T14:18:30.736Z'})

cuando realizo el printSchema del data frame a ningún campo se le asigna un conflict type.


información adicional:
driver:  org.mongodb.spark:mongo-spark-connector_2.11:2.2.0
Spark 2.2.0
Hadoop 2.7.3
Python 3.4


Ya no se que más  hacer para poder guardarlo, convertirlo a pandas no es posible porque el data set es muy grande.
cualquiera guía o dirección por la cual ir es bienvenida.

Gracias y Saludos.
Jean



_______________________________________________
Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar<mailto:pyar en python.org.ar>
Sitio web: http://www.python.org.ar/

Para administrar la lista (o desuscribirse) entrar a http://listas.python.org.ar/listinfo/pyar

La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de Argentina - http://www.usla.org.ar


--
Ing. Pedro M. Cabrera M.
+58-424-4974814


------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20180820/6b7e3bd4/attachment.html>


Más información sobre la lista de distribución pyar