Import et Export#
Spark peut lire des données depuis des sources externes tels que les fichiers CSV, JSON, Parquet ou encore HDFS.
Pré-requis#
Afin d'accéder à la base de données Postgres, nous aurons besoin du driver Postgres. Rendez-vous sur la page de téléchargement Download pgJDBC.
Importer PySpark#
Créer une session Spark#
Nous devons importer la classe SparkSession
depuis le module pyspark.sql
Importer depuis un fichier CSV#
Récupérez le dataset StudentsPerformance.csv ici.
Nous allons préparer une petit dataset, la liste des colonnes et les enregistrements comme liste de tuples
Nous allons créer le dataframe à partir du dataset
Afficher le schéma#
Le schéma d'un DataFrame en PySpark est une représentation tabulaire qui expose la structure des données, incluant les noms des colonnes, les types de données associés à chaque colonne, et d'autres informations pertinentes. La méthode printSchema
permet d'afficher le schéma.
Lire un fichier à partir d'une URL#
Exporter vers un fichier CSV#
On fait appel à la méthode .show()
pour afficher le dataframe.
Exporter vers un fichier Parquet#
Apache Parquet est un format de fichier de données open source en colonnes, conçu pour stocker et récupérer des données avec une grande efficacité. Pour en savoir plus, merci de consulter ce lien Parquet, qu'est-ce que c'est ?
Fermer la session Spark#
Une fois notre travail terminé, nous devons fermer la session.
Dans la prochaine section, nous verrons comment importer des données depuis des fichiers.