Pandas permet d’utiliser de manipuler des données dans un format de tableau avec chaque colonne qui correspond à une propriété et chaque ligne à un élément.
Sur cette page tu trouveras les fonctions de bases pour utiliser pandas :
Tu trouveras également ici la CheatSheet qui résume toutes les fonctions utiles de pandas et sert de point d’entrée de la documentation.
import pandas as pd
data = pd.read_csv('fichier.csv')
print(data.columns)
data_extrait = data[['nom_colonne1' , 'nom_colonne2']]
Tu peux trouver ici un code exemple qui illustre cette analyse et manipulation de données
Avant d’appliquer certaines fonctions, il peut être utile de « trier » les données. La fonction groupby permet de filtrer nos données et de récupérer toutes les lignes ou un élement est le même puis les autres.
Par exemple si j’ai une colone genre et un colonne salaire, je peux récupérer d’abord tous les hommes puis toutes les femmes afin de récupérer le salaire selon le genre.
genre_data.groupby(['Genre'])
Si on a plusieurs colonnes que l’on veut utiliser on peut les chainer
genre_data.groupby(['Colonne1','Colonne2'])
On peut faire la moyenne sur une colonne :
data['colonne'].mean()
Ou après un groupby pour faire la moyenne sur certains éléments de la colonne
genre_data.groupby(['Genre']).mean()
Pour se débarrasser des virgules on peut utiliser la fonction round()
data['colonne'].mean().round()
On peut récupérer le minimun et le maximum d’une colonne
data['colonne'].min() data['colonne'].max()
Pour compter le nombre de fois que chaque élément apparait dans une colonne :
data['colonne'].value_counts()
Pour afficher un tableau avec différents indicateurs statistiques (moyenne, minimum, maximum, médiane, quartiles, …) pour toutes les colonnes numériques :
data.describe()
data.sort_values(by=['colonne'])
Mais on peut aussi avoir l’ordre décroissant :
data.sort_values(by=['colonne'], ascending=False)
Pour afficher la répartition des données avec des histogrammes :
data['colonne'].plot.hist()
On peut aussi voir les histogrammes de différentes colonnes sur des figures différentes :
data[['colonne1','colonne2']].plot.hist(subplots = True)
Cette méthode est également compatible avec la fonction groupby() :
data[['Gender','BasePay']].groupby(['Gender']).plot.hist(subplots = True)
Il est possible de changer la taille de la figure :
data['colonne'].plot.hist(figsize = (largeur, hauteur)