Science des données biologiques

Réalisé par le service d'Écologie numérique des Milieux aquatiques, Université de Mons (Belgique)

Préambule

Si vous n’avez jamais utilisé de tutoriel “learnr”, familiarisez-vous d’abord avec son interface ici.

Conformément au RGPD (Règlement Général sur la Protection des Données), nous sommes tenus de vous informer de ce que vos résultats seront collectés afin de suivre votre progression. Les données seront enregistrées au nom de l’utilisateur apparaissant en haut de cette page. Corrigez si nécessaire ! En utilisant ce tutoriel, vous marquez expressément votre accord pour que ces données puissent être collectées par vos enseignants et utilisées pour vous aider et vous évaluer. Après avoir été anonymisées, ces données pourront également servir à des études globales dans un cadre scientifique et/ou éducatif uniquement.

Objectifs

  • Vérifier l’acquisition des notions relatives à la réalisation de graphiques variés.

Visualisation graphique

La visualisation graphique est le point de départ dans l’analyse de données.

Dénombrement d’oursins perforant dans la baie de Tuléar (Madagascar)

La jeu de données nommé e_mathaei est un recensement de différentes variétés de l’oursin Echinometra mathaei.

e_mathaei <- data_frame(id = 1:345, variety = c(rep("black",  times = 236), 
                                                rep("purple", times = 40), 
                                                rep("brown",  times = 35), 
                                                rep("green",  times = 34)))
# Visualisation de quelques lignes du tableau de données
e_mathaei[c(200, 250, 300, 340), ]

Les scientifiques produisent le graphique suivant :

Reproduisez le graphique ci-dessus.

Nom du jeu de données et des variables importantes

[1] "e_mathaei" "variety"  
chart(e_mathaei, formula = ~ variety) +
  geom_bar() +
  coord_flip()
# Not yet...

Les chercheurs hésitent à proposer un graphique en cammembert dans l’article qu’ils écrivent.

Reproduisez ce graphique

Nom du jeu de données et des variables importantes

[1] "variety"   "e_mathaei"
chart(data = e_mathaei, ~ factor(0) %fill=% variety) +
  geom_bar(width = 1) + 
  coord_polar("y", start = 0) +
  theme_void() +
  scale_fill_viridis_d() +
  labs(fill = "Variety")
# Not yet...

Les chercheurs souhaitent en plus générer un graphique entièrement en français.

Reproduisez ce graphique.

Nom du jeu de données et des variables importantes

[1] "e_mathaei" "variety"  
e_mathaei$variety <- factor(e_mathaei$variety, levels = c("black", "brown", "green", "purple"), labels = c("Noir", "Brun", "Vert", "Mauve"))

chart(e_mathaei, formula = ~ variety) +
  geom_bar() +
  labs(x = "Variété", y  = "Dénombrement")
# Not yet...

Biométrie de crabes

Des scientifiques étudient la biométrie de Leptograpsus variegatus et ont obtenu le tableau ci-dessous.

(crabs <- read("crabs", package = "MASS", lang = "fr"))

Il décident de réaliser le graphique ci-dessous.

Reproduisez le graphique ci-dessus.

Nom du jeu de données et des variables importantes

[1] "length"  "shape"   "sex"     "species" "width"   "color"   "crabs"  
chart(crabs, length ~ width %color=% sex | species) +
  geom_point()
# Not yet...

Ensuite, les chercheurs proposent le graphique suivant :

Reproduisez le graphique ci-dessus.

Nom du jeu de données et des variables importantes

[1] "crabs"   "fill"    "length"  "width"   "species" "sex"    
give_n <- function(x)
  c(y = max(x) * 1.1, label = length(x)) 
give_n <- function(x)
  c(y = max(x) * 1.1, label = length(x)) 

chart(data = crabs, length ~ species %fill=% sex) +
  geom_boxplot() +
  stat_summary(fun.data = give_n, geom = "text", hjust = 0.5,
    position = position_dodge(0.75))
# Not yet...

Les chercheurs proposent ensuite ce graphique pour décrire les données.

`stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Reproduisez le graphique ci-dessus.

Nom du jeu de données et des variables importantes

[1] "sex"     "species" "length"  "fill"    "crabs"   "width"  
chart(crabs, formula = ~ front | species) +
  geom_histogram()
# Not yet...

Les chercheurs ne sont cependant pas satisfaits de ce graphique et réalisent la version suivante :

`stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
`stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Reproduisez le graphique ci-dessus.

Nom du jeu de données et des variables importantes

[1] "fill"    "crabs"   "length"  "species" "sex"     "width"  
chart(data = crabs, ~ front %fill=% species | species) +
  # histogramme d'arrière plan en gris ne tenant pas compte de la variable species
  geom_histogram(data = select(crabs, -species), fill = "grey") + 
  geom_histogram(show.legend = FALSE) +
  ylab("Occurences") +
  scale_fill_viridis_d()
# Not yet...

Transect entre Nice et la Corse

Les chercheurs réalisent un transect dans la Mer Méditerranée depuis le port de Nice jusqu’à la baie de Calvi en Corse. Ils vont donc réaliser des prélèvements en 68 stations entre ces deux extrêmes.

(marphy <- read("marphy", package = "pastecs"))
marphy$Station <- 1:68

Les chercheurs souhaitent tout d’abord représenter la température en fonction des stations.

Reproduisez le graphique ci-dessus.

Nom du jeu de données et des variables importantes

[1] "marphy"      "Temperature" "Station"    
chart(marphy, Temperature ~ Station) +
  geom_line() +
  geom_point() +
  labs(y = "Temperature [C°]")
# Not yet...

Les chercheurs souhaitent ensuite représenter la salinté en fonction des stations.

Reproduisez le graphique ci-dessus.

Nom du jeu de données et des variables importantes

[1] "Salinity" "marphy"   "Station" 
chart(marphy, Salinity ~ Station) +
  geom_line() +
  geom_point() +
  labs(y = "Salinité")
# Not yet...

Ils decident pour finir de représenter les deux graphiques ensembles dans une figure composite.

Reproduisez le graphique ci-dessus.

Nom du jeu de données et des variables importantes

[1] "Salinity"    "Temperature" "marphy"      "Station"    
a <- chart(marphy, Temperature ~ Station) +
  geom_line() +
  geom_point() +
  labs(y = "Temperature [C°]")

b <- chart(marphy, Salinity ~ Station) +
  geom_line() +
  geom_point() +
  labs(y = "Salinité")

combine_charts(list(a, b))
# Not yet...

QCM

Choix du graphiques le plus adéquats

Répondez aux questions à choix multiples ci-dessous.

Quiz

La boite de dispersion

Quiz

Conclusion

Bravo! Vous venez de terminer votre séance d’exercices dans un tutoriel “learnr”.

Laissez nous vos impressions sur cet outil pédagogique ou expérimentez encore dans la zone ci-dessous. Rappelez-vous que pour placer un commentaire dans une zone de code R, vous devez utilisez un dièse (#) devant vos phrases.

# Ajout de commentaires 
# ...
# Not yet...

Visualisation III

Guyliann Engels & Philippe Grosjean