Ressources IA Pandas – Ressources Magic Makers

Pandas

Pandas permet d’utiliser de manipuler des données dans un format de tableau avec chaque colonne qui correspond à une propriété et chaque ligne à un élément.

Sur cette page tu trouveras les fonctions de bases pour utiliser pandas :

- - Bases de manipulation d’un data frame
  - Analyse de donnée (min, max, tri, moyenne …)

Tu trouveras également ici la CheatSheet qui résume toutes les fonctions utiles de pandas et sert de point d’entrée de la documentation.

Bases de manipulation d’un data frame

Import de la librairie

import pandas as pd

Ouvrir un CSV

data = pd.read_csv('fichier.csv')

Afficher les intitulés des colonnes

print(data.columns)

Récupérer uniquement certaines colonnes

data_extrait = data[['nom_colonne1' , 'nom_colonne2']]

Analyse de données

Tu peux trouver ici un code exemple qui illustre cette analyse et manipulation de données

Groupby

Avant d’appliquer certaines fonctions, il peut être utile de « trier » les données. La fonction groupby permet de filtrer nos données et de récupérer toutes les lignes ou un élement est le même puis les autres.

Par exemple si j’ai une colone genre et un colonne salaire, je peux récupérer d’abord tous les hommes puis toutes les femmes afin de récupérer le salaire selon le genre.

genre_data.groupby(['Genre'])

Si on a plusieurs colonnes que l’on veut utiliser on peut les chainer

genre_data.groupby(['Colonne1','Colonne2'])

Moyenne : mean

On peut faire la moyenne sur une colonne :

data['colonne'].mean()

Ou après un groupby pour faire la moyenne sur certains éléments de la colonne

genre_data.groupby(['Genre']).mean()

Arrondi : round

Pour se débarrasser des virgules on peut utiliser la fonction round()

data['colonne'].mean().round()

min et max

On peut récupérer le minimun et le maximum d’une colonne

data['colonne'].min()
data['colonne'].max()

Compter les valeurs : value_counts

Pour compter le nombre de fois que chaque élément apparait dans une colonne :

data['colonne'].value_counts()

Afficher différents indicateurs statistiques

Pour afficher un tableau avec différents indicateurs statistiques (moyenne, minimum, maximum, médiane, quartiles, …) pour toutes les colonnes numériques :

data.describe()

Trier les valeurs

On peut trier les valeurs d’une base de données en indiquant la ou les colonnes de références dans l’ordre.

Par défaut c’est dans l’ordre croissant :

data.sort_values(by=['colonne'])

Mais on peut aussi avoir l’ordre décroissant :

data.sort_values(by=['colonne'], ascending=False)

Afficher des histogrammes

Pour afficher la répartition des données avec des histogrammes :

data['colonne'].plot.hist()

On peut aussi voir les histogrammes de différentes colonnes sur des figures différentes :

data[['colonne1','colonne2']].plot.hist(subplots = True)

Cette méthode est également compatible avec la fonction groupby() :

data[['Gender','BasePay']].groupby(['Gender']).plot.hist(subplots = True)

Il est possible de changer la taille de la figure :

data['colonne'].plot.hist(figsize = (largeur, hauteur)

EXPERIMENTER