Ce document est un document de travail listant toutes les étapes nécessaires pour créer un package R. Je l'ai construit pour pouvoir m'y référer moi-même la prochaine fois que je souhaiterai créer un package. Il s'adresse donc à un public certes exigeant (mon moi du futur!) mais avec des besoins bien spécifiques. Il ne se veut donc pas exhaustif, et les termes que j'y emploie peuvent être, si ce n'est.. Read More
Régression loess
La régression loess (ou "lowess") est une méthode de régression non-paramétrique (c'est-à-dire qu'elle n'est pas associée à une équation, comme par exemple une régression linéaire ou polynomiale classique). Elle permet de produire des courbes lissées, ajustées à un nuage de point, un peu comme ici, par exemple: Mise en oeuvre Considérons le jeu de données data.csv: data=read.table(paste(dat.path,"data.csv",sep=""),sep=";",header=T) attach(data) Pour ajuster une régression loess, rien de plus simple... Il suffit de.. Read More
Classification par forêts aléatoires
Qu'est-ce que c'est ? Il y a quelques mois, je vous proposais un billet sur les arbres décisionnels. Comme on dit, c'était l'arbre qui cachait la forêt (ha!ha! quelle joie d'avoir un blog pour pouvoir faire de tels jeux de mots). Voici donc la suite naturelle de ce billet,cette fois sur les forêts d'arbres décisionnels ou forêts aléatoires (alias "random forests" en anglais). Les forêts aléatoires sont composées (comme le.. Read More
Réaliser une régression logistique avec R
Pour analyser une variable binaire (dont les valeurs seraient VRAI/FAUX, 0/1, ou encore OUI/NON) en fonction d'une variable explicative quantitative, on peut utiliser une régression logistique. Considérons par exemple les données suivantes, où x est l'âge de 40 personnes, et y la variable indiquant s'ils ont acheté un album de death metal au cours des 5 dernières années (1 si "oui", 0 si "non") Graphiquement, on constate que vraisemblablement, plus.. Read More
Autocorrélation de séries temporelles ou spatiales
Définition L'autocorrélation (ou l'autocovariance) d'une série fait référence au fait que dans une série temporelle ou spatiale, la mesure d'un phénomène à un instant t peut être corrélée aux mesures précédentes (au temps t − 1, t − 2, t − 3, etc.) ou aux mesures suivantes (à t + 1, t + 2, t + 3, ...). Une série autocorrélée est ainsi corrélée à elle-même, avec un décalage (lag) donné. Voici la définition mathématiques de l'autocovariance et de l'autocorrélation pour une.. Read More
Graphes pour la visualisation de réseaux
Réseaux et graphes: pour quoi faire? Un graphe est un ensemble de points (ou sommets, ou noeuds, ou vertices en anglais) qui peuvent être reliés deux à deux à deux par un ou plusieurs liens (ou arêtes, ou arcs, ou edges en anglais). Voilà une définition on ne peut plus générale (et donc une méthode on ne peut plus généraliste!!). On peut en effet représenter par un graphe un grand.. Read More
Détection automatique de ruptures dans un signal: package changepoint
Si vous travaillez sur des séries (temporelles, ou spatiales) alors ce qui suit pourrait vous intéresser. Comment faire, en effet, pour décrire et analyser des séries telles que celles-ci: Il y a évidemment des manières très différentes de procéder pour analyser ce type de signal. L'une des plus "intuitives" consiste à découper la série en segments "homogènes". Cette notion d'homogénéité peut recouvrir, par exemple, une homogénéité en moyenne, ou une.. Read More
Test des contrastes de Scheffé
Le test de Scheffé est un test qu'on applique souvent après une ANOVA: on parle de test post-hoc (au même titre, par exemple, qu'un test de Tukey). En effet, l'ANOVA à 1 facteur permet de mettre en évidence (le cas échéant) le fait qu'au moins un groupe a une moyenne différente des autres. Si on a affaire à 3 groupes ou plus, une question se pose alors: quels sont les.. Read More
Non-respect des hypothèses du modèle linéaire (ANOVA, régression): c'est grave, docteur??
Les hypothèses du modèle linéaire Beaucoup de personnes, lorsqu'elles souhaitent utiliser un modèle linéaire classique (régression linéaire ou ANOVA), se retrouvent confrontées au problème du non-respect des hypothèses de ce modèle. En effet, les hypothèses du modèle sont les suivantes: distribution gaussienne des résidus homoscedasticité des résidus (i.e. les résidus ont la même variance quel que soit le groupe considéré, ou quelle que soit la valeur de la variable explicative.. Read More
Régression linéaire: erreur et incertitude
Dans ce billet, je souhaite montrer comment estimer l'incertitude associée à l'estimation des paramètres (pente et ordonnée à l'origine) d'un modèle de régression linéaire simple. Pour ce faire, je vais: montrer comment le calcul d'incertitude dérive de résultats analytiques (i.e. d'équations qui permettent, si on le souhaite, de calculer l'incertitude "à la main"), fournir les lignes de code permettant de calculer (et représenter) ce même résultat sous R, illustrer (pour.. Read More