Aller au contenu

Implémenter un ETL avec Apache Airflow

Lorsqu'il s'agit d'orchestrer des flux de travail data de plus en plus complexes avec Python, Apache Airflow est la solution qu'il vous faut. Il permet de créer des interfaces web pour les modèles de machine learning.

Apache Airflow est une plateforme qui permet

Airflow a été inialement développé par Airbnb en octobre 2014 pour orchestrer leurs flux de travail. Depuis mars 2016, Airflow a été repris par la fondation Apache.

Apache Airflow permet de créer des workflow, de plannifier leurs exécution et d'assurer leur monitoring.

Les composantes

Apache Airflow est composée de trois composantes

  • Webserver :
  • Executor :
  • Scheduler :

Direct Acyclic Graph

Un DAG est écrit en Python, il décrit les étapes d'un workflow.

À quoi ressemble un workflow


Dans cette formation, je vous montre comment créer un ETL Apache Airflow dans le cadre de l'intégration de données. Rendez-vous pour installer Airflow.