Aller au contenu

Prise en main de Pandas - Le guide ultime

Pandas est une libraire Open Source sous licence BSD. Il s'agit d'une librairie de manipulaion et d'analyse de données en python. Elle est la plus populaire et intuitive et facile à prendre.

Installer Pandas

Si vous travaillez avec Anaconda, Pandas est déjà installé sinon Pandas est disponible sur le répertoire PyPi

!pip install pandas

Importer Pandas

Pandas n'est pas une librairie native en Python, il faut l'installer au préalable. Si vous ne l'avez pas encore installée avez pas Pour importer Pandas if suffit de faire ceci import pandas mais il est plus courant de faire ceci import pandas as pd

import pandas as pd

Vous pouvez vérifier la version de Pandas

print(pd.__version__)

pandas.Series

Les limites trouvent leurs limites lorsqu'il s'agit de faire des analyses statistiques, il est certes possible d'avoir les minimum et maximun mais il n'est pas possible de connaitre la moyenne par exemple L'objet pandas.Series nous permet de nous affranchir de ces limites, il est donc possible de calculer les indicateurs statistiques sur les données à svaoir la moyenne, la variance entre autres.

names = ["Esso", "Lendjina", "Yemi", "Adboul", "Tracy", "Adjo", "Yacuba", "Degnon"]
countries = ["Togo", "Haïti", "Nigeria", "Burkina", "Ivory Cost", "Togo", "Niger", "Benin"]
sexes = ['M', 'F', 'M', 'M', 'F', 'F', 'F', 'F']
ages = [22, 18, 20,19, 31, 23, 26, 17]
heights = [1.73, 1.43, 1.52, 1.82, 1.45, 1.61, 1.90, 1.52]

Statistique descriptive

La statistique descriptive est une branche de la Statistique, elle
Nous pouvons calculer des indicateurs sur ces données, ce qui n'est pas possible avec les listes natives en python

pd_ages = pd.Series(ages) # convert list into a pandas.Series
mean = pd_ages.mean() # Moyenne
median = pd_ages.median() # Médiane
variance = pd_ages.var(ddof=0) # Variancce
no_biais_variance = pd_ages.var() # Variance non biasée
pd_ages.std(ddof=0) # Écart-tye
pd_ages.std() # Écart-tye non biaisé
4.65985898008574
pd_heights = pd.Series(heights)

pandas.DataFrame

Les limites trouvent leurs limites lorsqu'il s'agit de faire des analyses statistiques, il est certes possible d'avoir les minimum et maximun mais il n'est pas possible de connaitre la moyenne par exemple L'objet pandas.Series nous permet de nous affranchir de ces limites, il est donc possible de calculer les indicateurs statistiques sur les données à svaoir la moyenne, la variance entre autres.

data = pd.DataFrame({"name": names, "country": countries, "sex": sexes, "age": ages, "height": heights})
data # show the table
name country sex age height
0 Esso Togo M 22 1.73
1 Lendjina Haïti F 18 1.43
2 Yemi Nigeria M 20 1.52
3 Adboul Burkina M 19 1.82
4 Tracy Ivory Cost F 31 1.45
5 Adjo Togo F 23 1.61
6 Yacuba Niger F 26 1.90
7 Degnon Benin F 17 1.52
data.describe()
age height
count 8.000000 8.000000
mean 22.000000 1.622500
std 4.659859 0.175479
min 17.000000 1.430000
25% 18.750000 1.502500
50% 21.000000 1.565000
75% 23.750000 1.752500
max 31.000000 1.900000

Afficher les 4 premières lignes du tableau

data.head(n=4)
name country sex age height
0 Esso Togo M 22 1.73
1 Lendjina Haïti F 18 1.43
2 Yemi Nigeria M 20 1.52
3 Adboul Burkina M 19 1.82

Afficher les 4 dernières lignes du tableau

data.tail(n=4)
name country sex age height
4 Tracy Ivory Cost F 31 1.45
5 Adjo Togo F 23 1.61
6 Yacuba Niger F 26 1.90
7 Degnon Benin F 17 1.52

Afficher 4 lignes du tableau choisies au hazard

data.sample(n=4)
name country sex age height
6 Yacuba Niger F 26 1.90
7 Degnon Benin F 17 1.52
3 Adboul Burkina M 19 1.82
1 Lendjina Haïti F 18 1.43

Importer des données

En général, les données sur lesquelles l'on souhaite travailler sont stockées dans un fichier externe, la libraire Pandas permet d'importer des données depuis un fichier externe. Plusieurs extensions de fichiers sont prises en charge par Pandas, à savoir .csv le plus utilisé, .excel, .pickle

dt = pd.read_csv('datasets/iris.csv')

Exporter des données

dt.to_csv("backups/")

Visualisation

Références


Pour avoir plus de détails, merci de consulter la documentation officielle Numpy Docs