[pyar] PYSPARK MongoDB, problemas de parseo
Jean Jacques Delannoy
jjdelannoy en hotmail.com
Mar Ago 21 15:44:08 -03 2018
Hola William, todavía no pude solucionar el problema y por desgracia no puedo subir la data ya que esta bajo un NDA, leyendo el link que me enviaste y teniendo un poco más de conocimiento en spark puede ser que el problema venga por el diseño mismo del data frame, voy a probar utilizando el driver de pymongo para poder utilizar los RDD como menciona en el post de jira de mongo.
Gracias por la info.
Saludos.
________________________________
De: pyar <pyar-bounces en python.org.ar> en nombre de William Bolívar <williamjbolivar en gmail.com>
Enviado: martes, 21 de agosto de 2018 14:22:01
Para: pyar en python.org.ar
Asunto: Re: [pyar] PYSPARK MongoDB, problemas de parseo
Hola Jean, Gusto saludarte, lograste solucionar el problema? , no no ser así, colocá ejemplo de la data que genera el problema y el código que la procesa para indagar un poco más, cualquier cosa te invito a chequear este tema acá el que se describe un caso similar al que tienes. https://groups.google.com/forum/#!topic/mongodb-user/lQjppYa21mQ saludos y éxitos con el tema
El lun., 20 ago. 2018 a las 0:53, Jean Jacques Delannoy (<jjdelannoy en hotmail.com<mailto:jjdelannoy en hotmail.com>>) escribió:
Hola lista buenos días hace poco me metí en el mundo de python y spark, y estoy teniendo un problema de parseo al guardar un data frame y no pude encontrar ninguna solución.
La situación es la siguiente:
Cuanto intento guardar el data frame sin modificarlo de ninguna forma en formato json o guardarlo en una nueva colección de mongodb recibo la siguiente excepción
Error:
com.mongodb.spark.exceptions.MongoTypeConversionException: Cannot cast STRING into a TimestampType (value: BsonString{value='2018-05-18T14:18:30.736Z'})
cuando realizo el printSchema del data frame a ningún campo se le asigna un conflict type.
información adicional:
driver: org.mongodb.spark:mongo-spark-connector_2.11:2.2.0
Spark 2.2.0
Hadoop 2.7.3
Python 3.4
Ya no se que más hacer para poder guardarlo, convertirlo a pandas no es posible porque el data set es muy grande.
cualquiera guía o dirección por la cual ir es bienvenida.
Gracias y Saludos.
Jean
_______________________________________________
Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar<mailto:pyar en python.org.ar>
Sitio web: http://www.python.org.ar/
Para administrar la lista (o desuscribirse) entrar a http://listas.python.org.ar/listinfo/pyar
La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de Argentina - http://www.usla.org.ar
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20180821/ad6b797b/attachment-0001.html>
Más información sobre la lista de distribución pyar