[pyar] Pregunta termino data pipeline
Sebastian Bassi
sbassi en google.com
Vie Ago 31 19:47:01 -03 2018
Hola,
Hay que ver el contexto, pero en general se refiere al flujo de datos,
desde el origen y los pasos que lleva su procesamiento. Y depende la escala
las tecnologia relacionadas que podrias aprender. Por un lado leer los
datos desde las fuente, puede ser parseo (BeautifulSoup, parsers de XML,
HTML, las herramientas de panda tipo dataframe, etc ) y/o conectores con
bases de datos y/o APIs (ahi tenes que saber request y como consumir API
RESTs, en algunos casos, SOAP). Luego en el medio probablemente necesites
manejo de colas, porque varian las velocidades de consumo de la info con la
de parseo, entonces tenes que usar algo tipo RabbitMQ y/o Celery. O si te
va AWS: SQS. La idea es que los pasos intermedios de una transformacion de
datos no tienen que estar acoplados. cosa que si un server desaparece, no
tengas que parar toda la producción, sino que se vayan acumulando y luego
se pueda redistribuir. A veces tambien esto puede involucrar Hadoop o
alguna implementacion de MapReduce. Luego esto termina o un una DB (MySQL,
PostGreSQL, MongoDB, DynamoDB, etc) o en una presentación (Jupyter o alguna
lib grafica).
Ahi nombré varias tecnologias, no son las únicas, porque en algunos lugares
te pueden pedir que manejes cosas del deploy (y sea un puesto mas de devop
que dev puro) y tengas que saber tambien kubernetes y dockers, pero
entiendo que cuando se habla de data pipeline se refieren al uso combinado
de esas herramientas. Lo importante es la integración, no es algo que se
aprende leyendo el manual de cada una, sino usandolas para un proyecto.
Espero que te sirve como para tener una idea.
On Fri, Aug 31, 2018 at 1:15 PM Victor Andres Martinez Hernandez <
victorliferock at gmail.com> wrote:
> Hola gente cómo van ?
>
> Quisiera pedir ayuda con algo. Estoy buscando trabajo hace unos días, en
> temas relacionados a Python, automatización Etl, bi etc. He visto muchos
> cargos de Data Engineer y siempre salta un término que no conozco y lo
> piden mucho. El término es "Data pipeline".
>
> Realmente no sé si es un término "rebuscado" o fancy para referirse a un
> proceso normal de tratamiento de datos o que... He buscado en Google pero
> no me queda claro, alguien me puede ayudar ? Y en caso de que sea realmente
> algo que debo aprender, tendrá alguna documentación al respecto ?
>
> Gracias!
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar at python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
--
Sebastian Bassi
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20180831/0f3e8936/attachment.html>
Más información sobre la lista de distribución pyar