[pyar] PYSPARK MongoDB, problemas de parseo

Jean Jacques Delannoy jjdelannoy en hotmail.com
Mar Ago 21 15:44:08 -03 2018


Hola William, todavía no pude solucionar el problema y por desgracia no puedo subir la data ya que esta bajo un NDA, leyendo el link que me enviaste y teniendo un poco más de conocimiento en spark puede ser que el problema venga por el diseño mismo del data frame, voy a probar utilizando el driver de pymongo para poder utilizar los RDD como menciona en el post de jira de mongo.

Gracias por la info.
Saludos.

________________________________
De: pyar <pyar-bounces en python.org.ar> en nombre de William Bolívar <williamjbolivar en gmail.com>
Enviado: martes, 21 de agosto de 2018 14:22:01
Para: pyar en python.org.ar
Asunto: Re: [pyar] PYSPARK MongoDB, problemas de parseo

Hola Jean, Gusto saludarte, lograste solucionar el problema? , no no ser así, colocá ejemplo de la data que genera el problema y el código que la procesa para indagar un poco más, cualquier cosa te invito a chequear este tema acá el que se describe un caso similar al que tienes. https://groups.google.com/forum/#!topic/mongodb-user/lQjppYa21mQ saludos y éxitos con el tema

El lun., 20 ago. 2018 a las 0:53, Jean Jacques Delannoy (<jjdelannoy en hotmail.com<mailto:jjdelannoy en hotmail.com>>) escribió:

Hola lista buenos días hace poco me metí en el mundo de python y spark, y estoy teniendo un problema de parseo al guardar un data frame y no pude encontrar ninguna solución.
La situación es la siguiente:

Cuanto intento guardar el data frame sin modificarlo de ninguna forma en formato json o guardarlo en una nueva colección de mongodb recibo la siguiente excepción

Error:
com.mongodb.spark.exceptions.MongoTypeConversionException: Cannot cast STRING into a TimestampType (value: BsonString{value='2018-05-18T14:18:30.736Z'})

cuando realizo el printSchema del data frame a ningún campo se le asigna un conflict type.


información adicional:
driver:  org.mongodb.spark:mongo-spark-connector_2.11:2.2.0
Spark 2.2.0
Hadoop 2.7.3
Python 3.4


Ya no se que más  hacer para poder guardarlo, convertirlo a pandas no es posible porque el data set es muy grande.
cualquiera guía o dirección por la cual ir es bienvenida.

Gracias y Saludos.
Jean



_______________________________________________
Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar<mailto:pyar en python.org.ar>
Sitio web: http://www.python.org.ar/

Para administrar la lista (o desuscribirse) entrar a http://listas.python.org.ar/listinfo/pyar

La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de Argentina - http://www.usla.org.ar
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20180821/ad6b797b/attachment-0001.html>


Más información sobre la lista de distribución pyar