Heatmap dans matplotlib avec pcolor?
j'aimerais faire une heatmap comme celle-ci (montré sur FlowingData ):
les données source sont ici , mais les données aléatoires et les étiquettes seraient bien à utiliser, i.e.
import numpy
column_labels = list('ABCD')
row_labels = list('WXYZ')
data = numpy.random.rand(4,4)
Faire de la heatmap est assez facile matplotlib:
from matplotlib import pyplot as plt
heatmap = plt.pcolor(data)
et j'ai même trouvé un colormap arguments qui regardent à droite: heatmap = plt.pcolor(data, cmap=matplotlib.cm.Blues)
mais au-delà de cela, je ne peux pas comprendre comment afficher les étiquettes pour les colonnes et les lignes et afficher les données dans la bonne orientation (origine en haut à gauche au lieu de bas à gauche).
les tentatives de manipulation de heatmap.axes
(par exemple heatmap.axes.set_xticklabels = column_labels
) ont toutes échoué. Ce qui me manque ici?
4 réponses
c'est tard, Mais voici mon implémentation en python du flowingdata NBA heatmap.
mise à jour:1/4/2014 : merci à tous
# -*- coding: utf-8 -*-
# <nbformat>3.0</nbformat>
# ------------------------------------------------------------------------
# Filename : heatmap.py
# Date : 2013-04-19
# Updated : 2014-01-04
# Author : @LotzJoe >> Joe Lotz
# Description: My attempt at reproducing the FlowingData graphic in Python
# Source : http://flowingdata.com/2010/01/21/how-to-make-a-heatmap-a-quick-and-easy-solution/
#
# Other Links:
# /q/heatmap-in-matplotlib-with-pcolor-71191/"http://datasets.flowingdata.com/ppg2008.csv")
nba = pd.read_csv(page, index_col=0)
# Normalize data columns
nba_norm = (nba - nba.mean()) / (nba.max() - nba.min())
# Sort data according to Points, lowest to highest
# This was just a design choice made by Yau
# inplace=False (default) ->thanks SO user d1337
nba_sort = nba_norm.sort('PTS', ascending=True)
nba_sort['PTS'].head(10)
# Plot it out
fig, ax = plt.subplots()
heatmap = ax.pcolor(nba_sort, cmap=plt.cm.Blues, alpha=0.8)
# Format
fig = plt.gcf()
fig.set_size_inches(8, 11)
# turn off the frame
ax.set_frame_on(False)
# put the major ticks at the middle of each cell
ax.set_yticks(np.arange(nba_sort.shape[0]) + 0.5, minor=False)
ax.set_xticks(np.arange(nba_sort.shape[1]) + 0.5, minor=False)
# want a more natural, table-like display
ax.invert_yaxis()
ax.xaxis.tick_top()
# Set the labels
# label source:https://en.wikipedia.org/wiki/Basketball_statistics
labels = [
'Games', 'Minutes', 'Points', 'Field goals made', 'Field goal attempts', 'Field goal percentage', 'Free throws made', 'Free throws attempts', 'Free throws percentage',
'Three-pointers made', 'Three-point attempt', 'Three-point percentage', 'Offensive rebounds', 'Defensive rebounds', 'Total rebounds', 'Assists', 'Steals', 'Blocks', 'Turnover', 'Personal foul']
# note I could have used nba_sort.columns but made "labels" instead
ax.set_xticklabels(labels, minor=False)
ax.set_yticklabels(nba_sort.index, minor=False)
# rotate the
plt.xticks(rotation=90)
ax.grid(False)
# Turn off all the ticks
ax = plt.gca()
for t in ax.xaxis.get_major_ticks():
t.tick1On = False
t.tick2On = False
for t in ax.yaxis.get_major_ticks():
t.tick1On = False
t.tick2On = False
La sortie ressemble à ceci:
il y a un carnet ipython avec tout ce code ici . J'ai appris beaucoup de " débordement, alors j'espère que quelqu'un va trouver cela utile.
le problème principal est que vous devez d'abord définir l'emplacement de vos coches x et Y. En outre, il aide à utiliser l'interface plus orientée objet à matplotlib. À savoir, interagir directement avec l'objet axes
.
import matplotlib.pyplot as plt
import numpy as np
column_labels = list('ABCD')
row_labels = list('WXYZ')
data = np.random.rand(4,4)
fig, ax = plt.subplots()
heatmap = ax.pcolor(data)
# put the major ticks at the middle of each cell, notice "reverse" use of dimension
ax.set_yticks(np.arange(data.shape[0])+0.5, minor=False)
ax.set_xticks(np.arange(data.shape[1])+0.5, minor=False)
ax.set_xticklabels(row_labels, minor=False)
ax.set_yticklabels(column_labels, minor=False)
plt.show()
Espère que ça aide.
le module Seaborn de python est basé sur matplotlib, et produit une très belle heatmap.
ci-dessous est une implémentation avec seaborn, conçu pour le bloc-notes ipython/jupyter.
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
# import the data directly into a pandas dataframe
nba = pd.read_csv("http://datasets.flowingdata.com/ppg2008.csv", index_col='Name ')
# remove index title
nba.index.name = ""
# normalize data columns
nba_norm = (nba - nba.mean()) / (nba.max() - nba.min())
# relabel columns
labels = ['Games', 'Minutes', 'Points', 'Field goals made', 'Field goal attempts', 'Field goal percentage', 'Free throws made',
'Free throws attempts', 'Free throws percentage','Three-pointers made', 'Three-point attempt', 'Three-point percentage',
'Offensive rebounds', 'Defensive rebounds', 'Total rebounds', 'Assists', 'Steals', 'Blocks', 'Turnover', 'Personal foul']
nba_norm.columns = labels
# set appropriate font and dpi
sns.set(font_scale=1.2)
sns.set_style({"savefig.dpi": 100})
# plot it out
ax = sns.heatmap(nba_norm, cmap=plt.cm.Blues, linewidths=.1)
# set the x-axis labels on the top
ax.xaxis.tick_top()
# rotate the x-axis labels
plt.xticks(rotation=90)
# get figure (usually obtained via "fig,ax=plt.subplots()" with matplotlib)
fig = ax.get_figure()
# specify dimensions and save
fig.set_size_inches(15, 20)
fig.savefig("nba.png")
La sortie ressemble à ceci: J'ai utilisé la carte couleur matplotlib Blues, mais personnellement trouver les couleurs par défaut assez belle. J'ai utilisé matplotlib pour faire tourner les étiquettes x-axis, car je ne trouvais pas la syntaxe seaborn. Comme l'a noté grexor, il a fallu préciser les dimensions (fig.set_size_inches) par essai et erreur, ce que j'ai trouvé un peu frustrant.
comme L'a noté Paul H, Vous pouvez facilement ajouter les valeurs aux cartes de chaleur (annot=True), mais dans ce cas, je ne pense pas qu'il a amélioré la figure. Plusieurs extraits de code ont été tirés de l'excellente réponse de joelotz.
Quelqu'un a modifié cette question pour supprimer le code que j'ai utilisé, donc j'ai été forcé de l'ajouter comme réponse. Merci à tous ceux qui ont répondu à cette question! Je pense que la plupart des autres réponses sont meilleures que ce code, je laisse ça ici pour référence.
avec des remerciements à Paul H , et unutbu (qui a répondu cette question ), j'ai quelques assez belle sortie:
import matplotlib.pyplot as plt
import numpy as np
column_labels = list('ABCD')
row_labels = list('WXYZ')
data = np.random.rand(4,4)
fig, ax = plt.subplots()
heatmap = ax.pcolor(data, cmap=plt.cm.Blues)
# put the major ticks at the middle of each cell
ax.set_xticks(np.arange(data.shape[0])+0.5, minor=False)
ax.set_yticks(np.arange(data.shape[1])+0.5, minor=False)
# want a more natural, table-like display
ax.invert_yaxis()
ax.xaxis.tick_top()
ax.set_xticklabels(row_labels, minor=False)
ax.set_yticklabels(column_labels, minor=False)
plt.show()
et voici la sortie: