[pyar] PYSPARK MongoDB, problemas de parseo

Jean Jacques Delannoy jjdelannoy en hotmail.com
Lun Ago 20 17:38:30 -03 2018


Gracias, Ernesto

________________________________
De: pyar <pyar-bounces en python.org.ar> en nombre de Ernesto Crespo <ecrespo en gmail.com>
Enviado: lunes, 20 de agosto de 2018 16:31:41
Para: Python Argentina
Asunto: Re: [pyar] PYSPARK MongoDB, problemas de parseo

Saludos Jean.
Yo en este momento me encuentro instalando spark, mongo, pyspark.  Te aviso cualquier cosa.


------------
Ernesto Crespo
https://medium.com/@_seraph1
http://ve.linkedin.com/in/ernestocrespo
http://<http://blog.crespo.org.ve>blog.crespo.org.ve<http://blog.crespo.org.ve>
https://people.djangoproject.com/ecrespo/
https://github.com/ecrespo
https://gitlab.com/ecrespo
https://bitbucket.org/ecrespo
https://twitter.com/_seraph1
https://www.facebook.com/ernesto.crespo
https://plus.google.com/u/0/+ErnestoCrespo
http://grooveshark.com/ernesto.crespo<http://grooveshark.com/>
Huella de clave = 10D1 46D5 A1E8 B40F 0993  BC9A 9683 1307 C973 0469 (nueva a 4096 bits)
Buenas personas que trabajan juntas pueden crear grandes cosas.
“Sé curioso. Lee mucho. Trata nuevas cosas. Creo que lo que mucha gente llama inteligencia solo se reduce a la curiosidad”. Aaron Swartz
‎"Comienzo con la premisa de que la función del lider es producir más líderes, no más seguidores." Ralph Nader



El dom., 19 de ago. de 2018 a la(s) 23:53, Jean Jacques Delannoy (jjdelannoy en hotmail.com<mailto:jjdelannoy en hotmail.com>) escribió:

Hola lista buenos días hace poco me metí en el mundo de python y spark, y estoy teniendo un problema de parseo al guardar un data frame y no pude encontrar ninguna solución.
La situación es la siguiente:

Cuanto intento guardar el data frame sin modificarlo de ninguna forma en formato json o guardarlo en una nueva colección de mongodb recibo la siguiente excepción

Error:
com.mongodb.spark.exceptions.MongoTypeConversionException: Cannot cast STRING into a TimestampType (value: BsonString{value='2018-05-18T14:18:30.736Z'})

cuando realizo el printSchema del data frame a ningún campo se le asigna un conflict type.


información adicional:
driver:  org.mongodb.spark:mongo-spark-connector_2.11:2.2.0
Spark 2.2.0
Hadoop 2.7.3
Python 3.4


Ya no se que más  hacer para poder guardarlo, convertirlo a pandas no es posible porque el data set es muy grande.
cualquiera guía o dirección por la cual ir es bienvenida.

Gracias y Saludos.
Jean



_______________________________________________
Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar<mailto:pyar en python.org.ar>
Sitio web: http://www.python.org.ar/

Para administrar la lista (o desuscribirse) entrar a http://listas.python.org.ar/listinfo/pyar

La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de Argentina - http://www.usla.org.ar
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20180820/290ea899/attachment-0001.html>


Más información sobre la lista de distribución pyar