[pyar] Pregunta termino data pipeline
Victor Andres Martinez Hernandez
victorliferock en gmail.com
Dom Sep 2 15:13:45 -03 2018
Hola Sebastian,
Te agradezco mucho el haberte tomado el tiempo para dar una respuesta tan
completa y clara. Entiendo ahora si lo que quiere decir, haré algunos proyectos
para ir aplicando como tal estas integraciones.
Muchas gracias!
On Fri, Aug 31, 2018 5:47 PM, Sebastian Bassi sbassi en google.com wrote:
Hola,
Hay que ver el contexto, pero en general se refiere al flujo de datos, desde el
origen y los pasos que lleva su procesamiento. Y depende la escala las
tecnologia relacionadas que podrias aprender. Por un lado leer los datos desde
las fuente, puede ser parseo (BeautifulSoup, parsers de XML, HTML, las
herramientas de panda tipo dataframe, etc ) y/o conectores con bases de datos
y/o APIs (ahi tenes que saber request y como consumir API RESTs, en algunos
casos, SOAP). Luego en el medio probablemente necesites manejo de colas, porque
varian las velocidades de consumo de la info con la de parseo, entonces tenes
que usar algo tipo RabbitMQ y/o Celery. O si te va AWS: SQS. La idea es que los
pasos intermedios de una transformacion de datos no tienen que estar acoplados.
cosa que si un server desaparece, no tengas que parar toda la producción, sino
que se vayan acumulando y luego se pueda redistribuir. A veces tambien esto
puede involucrar Hadoop o alguna implementacion de MapReduce. Luego esto termina
o un una DB (MySQL, PostGreSQL, MongoDB, DynamoDB, etc) o en una presentación
(Jupyter o alguna lib grafica).Ahi nombré varias tecnologias, no son las únicas,
porque en algunos lugares te pueden pedir que manejes cosas del deploy (y sea un
puesto mas de devop que dev puro) y tengas que saber tambien kubernetes y
dockers, pero entiendo que cuando se habla de data pipeline se refieren al uso
combinado de esas herramientas. Lo importante es la integración, no es algo que
se aprende leyendo el manual de cada una, sino usandolas para un proyecto.Espero
que te sirve como para tener una idea.
On Fri, Aug 31, 2018 at 1:15 PM Victor Andres Martinez Hernandez <
victorliferock en gmail.com> wrote:
Hola gente cómo van ?
Quisiera pedir ayuda con algo. Estoy buscando trabajo hace unos días, en temas
relacionados a Python, automatización Etl, bi etc. He visto muchos cargos de
Data Engineer y siempre salta un término que no conozco y lo piden mucho. El
término es "Data pipeline".
Realmente no sé si es un término "rebuscado" o fancy para referirse a un proceso
normal de tratamiento de datos o que... He buscado en Google pero no me queda
claro, alguien me puede ayudar ? Y en caso de que sea realmente algo que debo
aprender, tendrá alguna documentación al respecto ?
Gracias! _______________________________________________
Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
Sitio web: http://www.python.org.ar/
Para administrar la lista (o desuscribirse) entrar a
http://listas.python.org.ar/listinfo/pyar
La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de Argentina
- http://www.usla.org.ar
--
Sebastian Bassi
Victor Andres Martinez HernandezAdministrador de redes
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20180902/966026ad/attachment.html>
Más información sobre la lista de distribución pyar