Import et Export
Spark peut lire des données depuis des sources externes tels que les fichiers CSV, JSON, Parquet ou encore HDFS.
Pré-requis
Afin d'accéder à la base de données Postgres, nous aurons besoin du driver Postgres. Rendez-vous sur la page de téléchargement Download pgJDBC.
Importer PySpark
Créer une session Spark
Nous devons importer la classe SparkSession
depuis le module pyspark.sql
Importer depuis un fichier CSV
Récupérez le dataset StudentsPerformance.csv ici.
Nous allons préparer une petit dataset, la liste des colonnes et les enregistrements comme liste de tuples
Nous allons créer le dataframe à partir du dataset
Afficher le schéma
Le schéma d'un DataFrame en PySpark est une représentation tabulaire qui expose la structure des données, incluant les noms des colonnes, les types de données associés à chaque colonne, et d'autres informations pertinentes. La méthode printSchema
permet d'afficher le schéma.
Lire un fichier à partir d'une URL
Exporter vers un fichier CSV
On fait appel à la méthode .show()
pour afficher le dataframe.
Exporter vers un fichier Parquet
Apache Parquet est un format de fichier de données open source en colonnes, conçu pour stocker et récupérer des données avec une grande efficacité. Pour en savoir plus, merci de consulter ce lien Parquet, qu'est-ce que c'est ?
Fermer la session Spark
Une fois notre travail terminé, nous devons fermer la session.
Dans la prochaine section, nous verrons comment importer des données depuis des fichiers.