Implémenter un ETL avec Apache Airflow
Lorsqu'il s'agit d'orchestrer des flux de travail data de plus en plus complexes avec Python, Apache Airflow est la solution qu'il vous faut. Il permet de créer des interfaces web pour les modèles de machine learning.
Apache Airflow est une plateforme qui permet
Airflow a été inialement développé par Airbnb en octobre 2014 pour orchestrer leurs flux de travail. Depuis mars 2016, Airflow a été repris par la fondation Apache.
Apache Airflow permet de créer des workflow, de plannifier leurs exécution et d'assurer leur monitoring.
Les composantes
Apache Airflow est composée de trois composantes
- Webserver :
- Executor :
- Scheduler :
Direct Acyclic Graph
Un DAG est écrit en Python, il décrit les étapes d'un workflow.
À quoi ressemble un workflow
Dans cette formation, je vous montre comment créer un ETL Apache Airflow dans le cadre de l'intégration de données. Rendez-vous pour installer Airflow.