Démarrer avec PySpark
Spark est une plateforme open-source de traitement de données volumineuses. Au fil des années, Spark s'est imposé comme l'outil de référence pour l'ingénierie de données. Dans ce guide ultime, je vous présente PySpark, l'API Python de Spark.
Importer PySpark
Créer une session Spark
Nous devons importer la classe SparkSession
depuis le module pyspark.sql
Créer un Dataframe
Nous allons préparer une petit dataset, la liste des colonnes et les enregistrements comme liste de tuples
Nous allons créer le dataframe à partir du dataset
Afficher le DataFrame
On fait appel à la méthode .show()
pour afficher le dataframe.
Sélection
Tri
Filtrage
Il existe cette synthaxe
Agrégation
Manipulation avec SQL
Spark offre la possibilité de manipuler les données avec SQL, c'est l'une de ses forces. Les professionnels des données qui utilisent SQL au quotidien s'y retrouvent assez facilement.
Fermer la session Spark
Une fois notre travail terminé, nous devons fermer la session.
Dans la prochaine section, nous verrons comment importer des données depuis des fichiers.