plotly? plotly.js? plot.ly? ggplot? ggplotly? WHAT? Voilà quelques temps que j’entends parler de plotly, sans bien comprendre en quoi cela consiste (une API? un package?) ni en quoi cela pourrait m’être utile maintenant que j’ai trouvé l’épanouissement graphique avec le package ggplot2… Et pour cause! plot.ly, c’est un outil en ligne (disponible ici : https://plot.ly) qui permet de créer des graphiques en ligne, et qui s’appuie sur une librairie JavaScript.. Read More
Scraper Wikipedia
Ah, la mine d’informations (à portée de clic) qu’est le web! Est-ce que ça ne vous fait pas rêver? Moi, si! et c’est pourquoi je vais aujourd’hui m’aventurer à faire un peu de webmining. S’il est possible de « scraper » (i.e. « râcler », littéralement) n’importe quel site web avec un package comme rvest (qui permet de « parser » le html, i.e. de récupérer attributs et contenus des différentes sections de ce type de.. Read More
Torturer ses données pour les faire parler, c’est mal! (Oui, mais pourquoi?)
Le pavé dans la mare Il y a peu de temps je suis tombée sur cet article qui m’a laissée songeuse: Ioannidis JPA (2005) Why Most Published Research Findings Are False. PLoS Med 2(8):e124. (https://doi.org/10.1371/journal.pmed.0020124) Comme son titre l’indique, cet article s’appuie sur des calculs de probabilités pour montrer que lorsqu’un chercheur publie un résultat significatif, il y a en fait de fortes chances pour que ce résultat soit faux… Read More
dplyr: package magique pour manipuler ses tableaux de données
Ah, la joie de vous parler d’un package qui va me/vous simplifier la vie!… Aujourd’hui, il s’agit de dplyr, qui fait partie de la suite de packages tidyverse (qui comprend ggplot2, tidyr, stringr, lubridate et tellement d’autres) qui fait grand bruit en ce moment dans l’univ-R. dplyr vise à simplifier la manipulation de tables de données à travers l’usage de cinq « verbes » (ou fonctions): select, qui permet de sélectionner des.. Read More
Par ici les jolies cartes avec ggmap
Aujourd’hui est le début d’une grande aventure puisque je me lance dans l’espace (enfin, les données spatiales, quoi), ce qui ne manquera pas de faire plaisir à mes petits collègues géographes. Je vais commencer par vous montrer les possibilités du package ggmap qui comme son nom le laisse entendre est un peu le petit frère de ggplot2 (dont je vous ai déjà parlé ici, et qui fait l’objet d’un cours.. Read More
Comment utiliser un modèle bayésien (pour les nuls)
Dans le billet précédent, j’ai présenté le théorème de Bayes à travers l’exemple d’un modèle (très très simple) portant sur le comportement des ours. Ce modèle mettait en relation deux variables C et G où C est la variable indicatrice de l’évènement « L’ours est en colère » (C=o ou C=n) G est la variable indicatrice de l’événement « L’ours grogne » (G=o ou G=n). Il est possible d’utiliser un modèle bayésien (même un.. Read More
Comprendre le théorème de Bayes
Comprendre le théorème pour comprendre les modèles bayésiens Les modèles bayésiens viennent de faire une entrée subite et fracassante dans ma vie. Cela peut sembler étonnant car cela fait maintenant quelques années que le paradigme bayésien connaît un grand succès chez (notamment) les écologues, peut-être du fait des problèmes qu’ils connaissent avec les modèles inférentiels plus classiques (problèmes liés aux données manquantes ou trop peu nombreuses, aux distributions non gaussiennes,.. Read More
Classification ascendante hiérarchique
La classification ascendante hiérarchique (CAH) sert à définir des classes d’individus à partir d’une ou plusieurs variables quantitatives. La CAH s’accompagne de la construction d’un arbre de classification. Un exemple: caractéristiques de 7 personnages Considérons ce petit jeu de données: data_orphan=read.table(paste(dat.path, »data_orphan.csv »,sep= » »), sep= »; »,row.names=1,header=T) print(data_orphan) ## Sante Sante_Mentale Intellect Sociabilite Decision ## Sarah 8 8 7 4 6 ## Alison 7 6 6 8 8 ## Cosima 4 5 8 6 4.. Read More
Nettoyer et structurer ses données
Plus je travaille avec R, plus je travaille sur les données de collègues, et plus je réalise l’importance (en termes de temps, et en termes de conséquences sur l’analyse elle-même) de l’étape préalable à l’analyse: le nettoyage et la mise en forme des données. En effet, la façon dont on structure son jeu de données va d’une part conditionner notre capacité à comprendre, intuitivement, quelles sont les analyses que l’on.. Read More
Par ici les beaux graphiques avec ggplot2
ggplot2: pour quoi faire? ggplot2 est un des packages qui depuis quelques années font fureur parmi les utilisateurs de R. ggplot2 est utilisé pour réaliser des graphiques. Il est bâti selon une philosophie qui lui est propre (en l’occurrence, inspirée du livre « The Grammar of Graphics » de Leland Wilkinson, d’où son nom ggplot), et qui le distingue des autres outils de production graphique sous R, notamment les fonctions graphiques « de.. Read More