Aller au contenu

Prise en main de PySpark - Le guide ultime


Spark est une plateforme open-source de traitement de données volumineuses. Au fil des années, Spark s'est imposé comme l'outil de référence pour l'ingénierie de données. Dans ce guide ultime, je vous présente PySpark, l'API Python de Spark.

Apache Spark

Spark est une plateforme open-source de traitement de données volumineuses. Le développement de Spark est piloté par la fondation Apache Spark et béneficie d'une grande communauté de contributeurs open source.

  • SQL
  • Streaming
  • GraphX
  • MLlib

Spark propose plusieurs API pour travailler depuis les langages de programmation

  • Java
  • Scala
  • Python
  • R

PySpark

PySpark est l'API Python pour Apache Spark. Il vous permet d'effectuer un traitement de données à grande échelle en temps réel dans un environnement distribué à l'aide de Python. Il propose également un shell PySpark pour analyser vos données de manière interactive.


Ce guide ultime couvre spécifiquement l'API Python de Spark à savoir PySpark. Dans la prochaine, nous verrons comment installer PySpark et mettre place l'environnement de travail.

Partagez sur les réseaux sociaux

Commentaires