représentation graphique pyramidale à L'aide de R et ggplot2
5 réponses
il s'agit essentiellement d'un barplot dos-à-dos, quelque chose comme ceux générés par ggplot2
dans l'excellent learnr blog: http://learnr.wordpress.com/2009/09/24/ggplot2-back-to-back-bar-charts/
Vous pouvez utiliser coord_flip
avec l'un de ces tracés, mais je ne suis pas sûr comment vous l'obtenez pour partager les étiquettes de l'axe des y entre les deux tracés comme ce que vous avez ci-dessus. Le code ci-dessous devrait vous obtenir assez proche de l'original:
d'abord créer un échantillon cadre de données de données, convertir la colonne de L'âge en un facteur avec les points de rupture requis:
require(ggplot2)
df <- data.frame(Type = sample(c('Male', 'Female', 'Female'), 1000, replace=TRUE),
Age = sample(18:60, 1000, replace=TRUE))
AgesFactor <- ordered( cut(df$Age, breaks = c(18,seq(20,60,5)),
include.lowest = TRUE))
df$Age <- AgesFactor
commencez maintenant à construire la parcelle: créez les parcelles mâles et femelles avec le sous-ensemble correspondant des données, supprimez les légendes, etc.
gg <- ggplot(data = df, aes(x=Age))
gg.male <- gg +
geom_bar( subset = .(Type == 'Male'),
aes( y = ..count../sum(..count..), fill = Age)) +
scale_y_continuous('', formatter = 'percent') +
opts(legend.position = 'none') +
opts(axis.text.y = theme_blank(), axis.title.y = theme_blank()) +
opts(title = 'Male', plot.title = theme_text( size = 10) ) +
coord_flip()
pour la placette des femelles, inversez l'axe du "pourcentage" en utilisant trans = "reverse"
...
gg.female <- gg +
geom_bar( subset = .(Type == 'Female'),
aes( y = ..count../sum(..count..), fill = Age)) +
scale_y_continuous('', formatter = 'percent', trans = 'reverse') +
opts(legend.position = 'none') +
opts(axis.text.y = theme_blank(),
axis.title.y = theme_blank(),
title = 'Female') +
opts( plot.title = theme_text( size = 10) ) +
coord_flip()
maintenant, créez un graphique juste pour afficher les tranches d'âge en utilisant geom_text
, mais aussi d'utiliser un mannequin geom_bar
pour s'assurer que la mise à l'échelle l'axe " âge " de cette parcelle est identique à celui des parcelles mâles et femelles:
gg.ages <- gg +
geom_bar( subset = .(Type == 'Male'), aes( y = 0, fill = alpha('white',0))) +
geom_text( aes( y = 0, label = as.character(Age)), size = 3) +
coord_flip() +
opts(title = 'Ages',
legend.position = 'none' ,
axis.text.y = theme_blank(),
axis.title.y = theme_blank(),
axis.text.x = theme_blank(),
axis.ticks = theme_blank(),
plot.title = theme_text( size = 10))
enfin, arrangez les parcelles sur une grille, en utilisant la méthode du livre de Hadley Wickham:
grid.newpage()
pushViewport( viewport( layout = grid.layout(1,3, widths = c(.4,.2,.4))))
vplayout <- function(x, y) viewport(layout.pos.row = x, layout.pos.col = y)
print(gg.female, vp = vplayout(1,1))
print(gg.ages, vp = vplayout(1,2))
print(gg.male, vp = vplayout(1,3))
Je l'ai fait avec un petit contournement - au lieu d'utiliser geom_bar, j'ai utilisé geom_linerange et geom_label.
library(magrittr)
library(dplyr)
library(ggplot2)
population <- read.csv("https://raw.githubusercontent.com/andriy-gazin/datasets/master/ageSexDistribution.csv")
population %<>%
tidyr::gather(sex, number, -year, - ageGroup) %>%
mutate(ageGroup = gsub("100 і старше", "≥100", ageGroup),
ageGroup = factor(ageGroup,
ordered = TRUE,
levels = c("0-4", "5-9", "10-14", "15-19", "20-24",
"25-29", "30-34", "35-39", "40-44",
"45-49", "50-54", "55-59", "60-64",
"65-69", "70-74", "75-79", "80-84",
"85-89", "90-94", "95-99", "≥100")),
number = ifelse(sex == "male", number*-1/10^6, number/10^6)) %>%
filter(year %in% c(1990, 1995, 2000, 2005, 2010, 2015))
png(filename = "~/R/pyramid.png", width = 900, height = 1000, type = "cairo")
ggplot(population, aes(x = ageGroup, color = sex))+
geom_linerange(data = population[population$sex=="male",],
aes(ymin = -0.3, ymax = -0.3+number), size = 3.5, alpha = 0.8)+
geom_linerange(data = population[population$sex=="female",],
aes(ymin = 0.3, ymax = 0.3+number), size = 3.5, alpha = 0.8)+
geom_label(aes(x = ageGroup, y = 0, label = ageGroup, family = "Ubuntu Condensed"),
inherit.aes = F,
size = 3.5, label.padding = unit(0.0, "lines"), label.size = 0,
label.r = unit(0.0, "lines"), fill = "#EFF2F4", alpha = 0.9, color = "#5D646F")+
scale_y_continuous(breaks = c(c(-2, -1.5, -1, -0.5, 0) + -0.3, c(0, 0.5, 1, 1.5, 2)+0.3),
labels = c("2", "1.5", "1", "0.5", "0", "0", "0.5", "1", "1.5", "2"))+
facet_wrap(~year, ncol = 2)+
coord_flip()+
labs(title = "Піраміда населення України",
subtitle = "Статево-вікові групи у 1990-2015 роках, млн осіб",
caption = "Дані: Держкомстат України")+
scale_color_manual(name = "", values = c(male = "#3E606F", female = "#8C3F4D"),
labels = c("жінки", "чоловіки"))+
theme_minimal(base_family = "Ubuntu Condensed")+
theme(text = element_text(color = "#3A3F4A"),
panel.grid.major.y = element_blank(),
panel.grid.minor = element_blank(),
panel.grid.major.x = element_line(linetype = "dotted", size = 0.3, color = "#3A3F4A"),
axis.title = element_blank(),
plot.title = element_text(face = "bold", size = 36, margin = margin(b = 10), hjust = 0.030),
plot.subtitle = element_text(size = 16, margin = margin(b = 20), hjust = 0.030),
plot.caption = element_text(size = 14, margin = margin(b = 10, t = 50), color = "#5D646F"),
axis.text.x = element_text(size = 12, color = "#5D646F"),
axis.text.y = element_blank(),
strip.text = element_text(color = "#5D646F", size = 18, face = "bold", hjust = 0.030),
plot.background = element_rect(fill = "#EFF2F4"),
plot.margin = unit(c(2, 2, 2, 2), "cm"),
legend.position = "top",
legend.margin = unit(0.1, "lines"),
legend.text = element_text(family = "Ubuntu Condensed", size = 14),
legend.text.align = 0)
dev.off()
et voici l'résultant de la parcelle:
Une légère modifier:
library(ggplot2)
library(plyr)
library(gridExtra)
## The Data
df <- data.frame(Type = sample(c('Male', 'Female', 'Female'), 1000, replace=TRUE),
Age = sample(18:60, 1000, replace=TRUE))
AgesFactor <- ordered(cut(df$Age, breaks = c(18,seq(20,60,5)),
include.lowest = TRUE))
df$Age <- AgesFactor
## Plotting
gg <- ggplot(data = df, aes(x=Age))
gg.male <- gg +
geom_bar( data=subset(df,Type == 'Male'),
aes( y = ..count../sum(..count..), fill = Age)) +
scale_y_continuous('', labels = scales::percent) +
theme(legend.position = 'none',
axis.title.y = element_blank(),
plot.title = element_text(size = 11.5),
plot.margin=unit(c(0.1,0.2,0.1,-.1),"cm"),
axis.ticks.y = element_blank(),
axis.text.y = theme_bw()$axis.text.y) +
ggtitle("Male") +
coord_flip()
gg.female <- gg +
geom_bar( data=subset(df,Type == 'Female'),
aes( y = ..count../sum(..count..), fill = Age)) +
scale_y_continuous('', labels = scales::percent,
trans = 'reverse') +
theme(legend.position = 'none',
axis.text.y = element_blank(),
axis.ticks.y = element_blank(),
plot.title = element_text(size = 11.5),
plot.margin=unit(c(0.1,0,0.1,0.05),"cm")) +
ggtitle("Female") +
coord_flip() +
ylab("Age")
## Plutting it together
grid.arrange(gg.female,
gg.male,
widths=c(0.4,0.6),
ncol=2
)
j'ai toujours envie de jouer avec des marges un peu plus (peut-être panel.margin
aiderait dans le theme
appeler ainsi).
j'ai assez aimé les intrigues de @andriy pour en faire une fonction personnalisée simplifiée:
Données devrait ressembler à ceci, et ageGroup
être commandés facteur.
head(population)
# ageGroup sex number
# 1 0-4 male 1.896459
# 2 5-9 male 1.914255
# 3 10-14 male 1.832594
# 4 15-19 male 1.849453
# 5 20-24 male 1.658733
# 6 25-29 male 1.918060
Puis vous fournir les données et les pauses :
pyramid(population,c(0, 0.5, 1, 1.5, 2))
Si nécessaire, la création de groupes d'âge peut être fait en utilisant la fonction age_cat
, que j'ai pris à partir de ce blog. Voir le code ci-dessous. J'ai légèrement modifié le nom d'origine et des paramètres par défaut.
Par exemple :
age_column <- sample(0:110,10000,TRUE)
table(age_cat(age_column))
# 0-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90-99 100+
# 885 836 885 927 942 953 886 882 935 872 997
fonctions
pyramid <- function(data,.breaks){
ggplot(data, aes(x = ageGroup, color = sex))+
geom_linerange(data = data[data$sex=="male",],
aes(ymin = -tail(.breaks,1)/7, ymax = -tail(.breaks,1)/7-number), size = 3.5, alpha = 0.8)+
geom_linerange(data = data[data$sex=="female",],
aes(ymin = tail(.breaks,1)/7, ymax = tail(.breaks,1)/7+number), size = 3.5, alpha = 0.8)+
geom_label(aes(x = ageGroup, y = 0, label = ageGroup),
inherit.aes = F,
size = 3.5, label.padding = unit(0.0, "lines"), label.size = NA,
label.r = unit(0.0, "lines"), fill = "white", alpha = 0.9, color = "#5D646F")+
scale_y_continuous(breaks = c(-rev(.breaks) -tail(.breaks,1)/7, .breaks+tail(.breaks,1)/7),
labels = c(rev(.breaks),.breaks))+
coord_flip()+
scale_color_manual(name = "", values = c(male = "#3E606F", female = "#8C3F4D"))+
theme_minimal()+
theme(text = element_text(color = "#3A3F4A"),
panel.grid.major.y = element_blank(),
panel.grid.minor = element_blank(),
panel.grid.major.x = element_line(linetype = "dotted", size = 0.3, color = "#3A3F4A"),
axis.title = element_blank(),
axis.text.x = element_text(size = 12, color = "#5D646F"),
axis.text.y = element_blank(),
strip.text = element_text(color = "#5D646F", size = 18, face = "bold", hjust = 0.030),
legend.position = "none")
}
age_cat <- function(x, lower = 0, upper = 100, by = 5,
sep = "-", above.char = "+") {
labs <- c(paste(seq(lower, upper - by, by = by),
seq(lower + by - 1, upper - 1, by = by),
sep = sep),
paste(upper, above.char, sep = ""))
cut(floor(x), breaks = c(seq(lower, upper, by = by), Inf),
right = FALSE, labels = labs)
}
library(dplyr)
library(ggplot2)
population <- read.csv("https://raw.githubusercontent.com/andriy-gazin/datasets/master/ageSexDistribution.csv")
population <- population %>%
tidyr::gather(sex, number, -year, - ageGroup) %>%
mutate(ageGroup = factor(ageGroup,
ordered = TRUE,
levels = c("0-4", "5-9", "10-14", "15-19", "20-24",
"25-29", "30-34", "35-39", "40-44",
"45-49", "50-54", "55-59", "60-64",
"65-69", "70-74", "75-79", "80-84",
"85-89", "90-94", "95-99", "100+")),
ageGroup = `[<-`(ageGroup,is.na(ageGroup),value="100+"),
number = number/10^6) %>%
dplyr::filter(year == 1990) %>%
select(-year)
j'ai joué avec les tables rondes résultant de facet_wrap()
pas mal pour obtenir des axes en miroir dans des facettes séparées - je pense que le résultat est très approprié pour les pyramides de population. Vous pouvez regarder le code ici.
puis, en utilisant le facet_share()
fonction:
library(magrittr)
library(ggpol)
population <- read.csv("https://raw.githubusercontent.com/andriy-gazin/datasets/master/ageSexDistribution.csv", encoding = "UTF-8")
population %<>%
mutate(ageGroup = factor(ageGroup, levels = ageGroup[seq(length(levels(ageGroup)))])) %>%
filter(year == 2015) %>%
mutate(male = male * -1) %>%
gather(gender, count, -year, -ageGroup) %>%
mutate(gender = factor(gender, levels = c("male", "female"))) %>%
filter(ageGroup != "100 і старше")
ggplot(population, aes(x = ageGroup, y = count, fill = gender)) +
geom_bar(stat = "identity") +
facet_share(~gender, dir = "h", scales = "free", reverse_num = TRUE) +
coord_flip() +
theme_minimal()