[pyar] PYSPARK MongoDB, problemas de parseo
Ernesto Crespo
ecrespo en gmail.com
Mar Ago 21 19:12:43 -03 2018
Saludos.
YO seguí los pasos del enlace:
https://docs.mongodb.com/spark-connector/current/python-api/
Desde un entorno conda instalé pyspark, con spark y mongo instalado en el
mismo equipo, seguí los pasos del enlace y pude leer datos y escribir en
mongodb desde spark.
Ejecute pyspark desde el entorno de conda, ahí levantó jupyter y desde
jupyter hice las pruebas.
------------
Ernesto Crespo
https://medium.com/@_seraph1
http://ve.linkedin.com/in/ernestocrespo
http:// <http://blog.crespo.org.ve>*blog.crespo.org.ve
<http://blog.crespo.org.ve>*
https://people.djangoproject.com/ecrespo/
https://github.com/ecrespo
https://gitlab.com/ecrespo
https://bitbucket.org/ecrespo
https://twitter.com/_seraph1
https://www.facebook.com/ernesto.crespo
https://plus.google.com/u/0/+ErnestoCrespo
http://grooveshark.com/ernesto.crespo <http://grooveshark.com/>
Huella de clave = 10D1 46D5 A1E8 B40F 0993 BC9A 9683 1307 C973 0469 (nueva
a 4096 bits)
Buenas personas que trabajan juntas pueden crear grandes cosas.
“Sé curioso. Lee mucho. Trata nuevas cosas. Creo que lo que mucha gente
llama inteligencia solo se reduce a la curiosidad”. Aaron Swartz
"Comienzo con la premisa de que la función del lider es producir más
líderes, no más seguidores." Ralph Nader
El dom., 19 de ago. de 2018 a la(s) 23:53, Jean Jacques Delannoy (
jjdelannoy en hotmail.com) escribió:
> Hola lista buenos días hace poco me metí en el mundo de python y spark, y
> estoy teniendo un problema de parseo al guardar un data frame y no pude
> encontrar ninguna solución.
> La situación es la siguiente:
>
> Cuanto intento guardar el data frame sin modificarlo de ninguna forma en
> formato json o guardarlo en una nueva colección de mongodb recibo la
> siguiente excepción
>
>
> Error:
> com.mongodb.spark.exceptions.MongoTypeConversionException: Cannot cast
> STRING into a TimestampType (value:
> BsonString{value='2018-05-18T14:18:30.736Z'})
>
> cuando realizo el printSchema del data frame a ningún campo se le asigna
> un conflict type.
>
>
> información adicional:
> driver: org.mongodb.spark:mongo-spark-connector_2.11:2.2.0
> Spark 2.2.0
> Hadoop 2.7.3
> Python 3.4
>
>
> Ya no se que más hacer para poder guardarlo, convertirlo a pandas no es
> posible porque el data set es muy grande.
> cualquiera guía o dirección por la cual ir es bienvenida.
>
> Gracias y Saludos.
> Jean
>
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20180821/73c4bc93/attachment.html>
Más información sobre la lista de distribución pyar