Science des données biologiques

Réalisé par le service d'Écologie numérique des Milieux aquatiques, Université de Mons (Belgique)

Préambule

Si vous n’avez jamais utilisé de tutoriel “learnr”, familiarisez-vous d’abord avec son interface ici.

Conformément au RGPD (Règlement Général sur la Protection des Données), nous sommes tenus de vous informer de ce que vos résultats seront collecté afin de suivre votre progression. Les données seront enregistrées au nom de l’utilisateur apparaissant en haut de cette page. Corrigez si nécessaire ! En utilisant ce tutoriel, vous marquez expressément votre accord pour que ces données puissent être collectées par vos enseignants et utilisées pour vous aider et vous évaluer. Après avoir été anonymisées, ces données pourront également servir à des études globales dans un cadre scientifique et/ou éducatif uniquement.

Objectifs

  • Comprendre différents types de syntaxe dans R

Syntaxe dans R

Deux jeux de données vont être employés en parallèle afin de réaliser cette séance d’exercice. Les explications sont données avec le jeu de données biométrie humaine alors que les exercices sont à réaliser sur le jeu de données portant sur la biométrie des oursins.

Le jeu de données sur la biométrie humaine comprend 7 variables et 395 individus.

Le jeu de données sur la biométrie des oursins comprend 19 variables et 421 individus.

Calcul d’une nouvelle variable

La taille (height) est exprimée en centimètre dans le jeu de données biometry. Si nous souhaitons convertir cette variable en mètre, nous pouvons employer différentes instructions dans R.

  • Avec SciViews::R et tidyverse
biometry %>.%
  mutate(., height_m = height/100) -> biometry
# visualisation des premières lignes du tableau
head(biometry)
  • Avec R de base
biometry$height_cm <- biometry$height/100
# visualisation des premières lignes du tableau
head(biometry)

Calculez le diamètre moyen avec la formule suivante sur les données de “urchin” :

\[diameter \ = \ \frac{(diameter1 + diameter2)}{2}\] Affichez ensuite les premières lignes du tableau comprennant votre nouvelles variable avec la fonction head()

  • Avec le language proposé par Sciviews::R et tidyverse
# calcul de diameter
# 
# visualisation avec head()
# 
urchin %>.%
  mutate(., diameter = (diameter1 + diameter2)/ 2) -> urchin
# visualisation avec head()
head(urchin)
#TODO
  • Avec le language R de base
# calcul du diameter
# 
# visualisation avec head()
# 
urchin$diameter <- (urchin$diameter1 + urchin$diameter2)/2
# visualisation avec head()
head(urchin)
#TODO

Sélection de variables dans un jeu de données

Si nous souhaitons réduire le jeu de données biometry afin d’obtenir un sous tableau comprennant uniquement la variable gender, weight et height, nous pouvons employer différentes instructions dans R.

  • Avec SciViews::R et tidyverse
biometry %>.%
   select(., gender, weight, height) -> biom_sub
# visualisation des premières lignes du nouveau tableau
head(biom_sub)
  • Avec R de base
# avec le nom des variables d'intérêts
biom_sub <- biometry[ , c("gender", "weight", "height")]
# visualisation des premières lignes du nouveau tableau
head(biom_sub)
# avec la position des variables d'intérêts
biom_sub <- biometry[c(1,3,4)]
# visualisation des premières lignes du nouveau tableau
head(biom_sub)

Sélectionnez les variables “origin”, “height” and “weight” du jeu de données “urchin”.

Visualier les premières lignes de votre nouveau tableau de données avec la fonction head().

  • Avec SciViews::R et tidyverse
urchin %>.%
   select(., origin, weight, height) -> urchin_sub
# visualisation des premières lignes du nouveau tableau
head(urchin_sub)
#TODO
  • Avec R de base et le nom des variables d’intérêts
# avec le nom des variables d'intérêts
urchin_sub <- urchin[ , c("origin", "weight", "height")]
# visualisation des premières lignes du nouveau tableau
head(urchin_sub)
#TODO
  • Avec R de base et la position des variables d’intérêts
# avec le nom des variables d'intérêts
urchin_sub <- urchin[ , c(1, 4, 6)]
# visualisation des premières lignes du nouveau tableau
head(urchin_sub)
#TODO

Si nous souhaitons réduire le jeu de données biometry afin d’obtenir un sous tableau comprennant toute les variables à l’exception des variables “day_birth”, “year_measure” et “age”, nous pouvons employer différentes instructions dans R.

  • Avec SciViews::R et tidyverse
biometry %>.%
   select(., - wrist, - year_measure, - age) -> biom_sub
# visualisation des premières lignes du nouveau tableau
head(biom_sub)
  • Avec R de base
# avec les positions des variables d'intérêts
biom_sub <- biometry[ , -c(5, 6, 7)]
# visualisation des premières lignes du nouveau tableau
head(biom_sub)
# avec les positions des variables d'intérêts à nouveau
biom_sub <- biometry[ , -c(5:7)]
# visualisation des premières lignes du nouveau tableau
head(biom_sub)

Si nous souhaitons réduire le jeu de données urchin afin d’obtenir un sous tableau comprennant toutes les variables à l’exception des variables “diameter1”, “diameter2”, “skeleton”, “lantern”, “test” et “spines”, nous pouvons employer différentes instructions dans R.

Affichez ensuite les premières lignes du tableau comprennant votre nouvelles variable avec la fonction head()

  • Avec SciViews::R et tidyverse
urchin %>.%
  select(., - diameter1, - diameter2, - skeleton, -lantern, - test, -spines) -> urchin_sub
# visualisation des premières lignes du nouveau tableau
head(urchin_sub)
#TODO
  • Avec R de base et la position des variables
# avec les positions des variables d'intérêts à nouveau
urchin_sub <- urchin[ , -c(2:3, 14:17)]
# visualisation des premières lignes du nouveau tableau
head(urchin_sub)
#TODO

Sélection d’individus dans un jeu de données

Si nous souhaitons réduire le jeu de données biometry afin d’obtenir un sous tableau comprennant uniquement les individus du genre masculin, nous pouvons employer différentes instructions dans R.

  • Avec SciViews::R et tidyverse
biometry %>.%
  filter(., gender == "M") -> biom_sub
# visualisation des premières lignes du nouveau tableau
head(biom_sub)
  • Avec R de base
biom_sub <- biometry[ biometry$gender=="M", ]
# visualisation des premières lignes du nouveau tableau
head(biom_sub)

Si nous souhaitons réduire le jeu de données urchin afin d’obtenir un sous tableau comprennant uniquement les individus dont la hauteur est strictement supérieur à 30 mm , vous pouvez employer différentes instructions dans R.

Affichez ensuite les premières lignes du tableau comprennant votre nouvelles variable avec la fonction head()

  • Avec SciViews::R et tidyverse
urchin %>.%
  filter(., height > 30) -> urchin_sub
# visualisation des premières lignes du nouveau tableau
head(urchin_sub)
#TODO
  • Avec R de base
urchin_sub <- urchin[ urchin$height > 30, ]
# visualisation des premières lignes du nouveau tableau
head(urchin_sub)
#TODO

Filtre des lignes et sélection de colonnes

Si nous souhaitons réduire le jeu de données biometry afin d’obtenir un sous tableau comprennant uniquement les individus du genre féminin et dont la taille est supérieur ou égale à 180 cm. De plus, nous voulons que les variables gender, height, weigth uniquement, nous pouvons employer différentes instructions dans R.

  • Avec SciViews::R et tidyverse
biometry %>.%
  filter(., gender =="W" & height >= 180) %>.%
  select(., gender, height, weight) -> biom_sub
# visualisation des premières lignes du nouveau tableau
head(biom_sub)
  • Avec R de base
biom_sub <- biometry[biometry$gender =="W" & biometry$height >= 180, c(1, 3, 4)]
# visualisation des premières lignes du nouveau tableau
head(biom_sub)

Si nous souhaitons réduire le jeu de données urchin afin d’obtenir un sous tableau comprennant uniquement les individus dont la hauteur (“height”) est strictement supérieur à 30 mm et provenant d’élevage (“Farm”). De plus, ne gardez que les variables height, weight et skeleton. Vous pouvez employer différentes instructions dans R.

Affichez ensuite les premières lignes du tableau comprennant votre nouvelles variable avec la fonction head()

  • Avec SciViews::R et tidyverse
urchin %>.%
  filter(., origin == "Farm" & height > 30) %>.%
  select(., height, weight, skeleton) -> urchin_sub
head(urchin_sub)
#TODO
  • Avec R de base
urchin_sub <- urchin[ urchin$origin == "Farm" & urchin$height > 30, c("height", "weight", "skeleton")]
head(urchin_sub)
#TODO

Conclusion

Bravo! Vous venez de terminer votre séance d’exercices dans un tutoriel “learnr”.

Laissez nous vos impressions sur cet outil pédagogique ou expérimentez encore dans la zone ci-dessous. Rappelez-vous que pour placer un commentaire dans une zone de code R, vous devez utilisez un dièse (#) devant vos phrases.

# Ajout de commentaires 
# ...
# Not yet...

Traitement des données I

Guyliann Engels & Philippe Grosjean