🏫 SEANCE 1

0) Introduction

💪 Objectifs:

comprendre l’intérêt et l’usage de R et de ses packages
comprendre l’intérêt et l’usage de RStudio
comprendre ce que sont un objet, un environnement et une ligne de commande,
comprendre la distinction entre script et console,

👁 Le cours en ligne

1) Objets de base

💪 Objectifs:

connaître différents types d’objets (vecteurs, facteurs, listes, tableaux de données…)
savoir créer différents types d’objets (vecteurs, facteurs, listes, tableaux de données…)
comprendre ce qu’est le mode d’un vecteur ou d’une matrice (logique, numérique, caractère…)
savoir convertir un objet d’un type/mode à un autre
savoir accéder aux valeurs des objets via leur système d’indexation

👁 Le cours en ligne

🏋 Les exercices en ligne => chapitre 1

2) Opérateurs et fonctions

💪 Objectifs:

connaître et savoir utiliser les opérateurs arithmétiques, logiques, et de comparaison
savoir utiliser une fonction
comprendre l’usage des arguments d’une fonction (nom, ordre, valeurs par défaut)
savoir rechercher des informations dans l’aide associée aux fonctions

👁 Le cours en ligne

🏋 Les exercices en ligne => chapitre 2

3) Tableaux de données

💪 Objectifs:

savoir lire un tableau de données
connaître le package dplyr pour la manipulation de tableaux de données
savoir sélectionner des colonnes à l’aide de select()
savoir filtrer les lignes à l’aide de filter()
savoir arranger l’ordre des lignes à l’aide de arrange()
savoir modifier/créer des colonnes à l’aide de mutate()
savoir résumer des tableaux à l’aide de summarise() et group_by()

👁 Le cours en ligne

🏋 Les exercices en ligne => chapitre 3

🏫 SEANCE 2

4) Graphiques avec ggplot2: Introduction

💪 Objectifs:

connaître le package ggplot2 pour la production de graphiques
savoir utiliser l’argument data, et l’argument mappingpour définir des esthétiques x et y
comprendre ce qu’est un geom et en explorer différents types

👁 Le cours en ligne

🏋 Les exercices en ligne => chapitre 4

5) Graphiques: Mapping et facettes

💪 Objectifs:

comprendre le mapping i.e. comment faire le lien entre une variable et une caractéristique graphique avec aes()
comprendre l’impact de l’esthétique appliquée au graphique vs appliquée à un geom
savoir créer différentes facettes d’un même graphique avec facet_grid() ou facet_wrap()

👁 Le cours en ligne

🏋 Les exercices en ligne => chapitre 5

6) Graphiques: approfondissement

💪 Objectifs:

savoir étiqueter les axes d’un graphique avec labs()
savoir modifier les échelles d’un graphique à l’aide de scale_..._...()
savoir paramétrer les axes d’un graphique à l’aide des arguments labels, breaks, limits,…
savoir modifier l’allure générale du graphique avec theme_...()
savoir rajouter des informations notamment des informations statistiques
savoir superposer un modèle de régression via geom_smooth()

👁 Le cours en ligne

🏋 Les exercices en ligne => chapitre 6

7) Projets et rapports

💪 Objectifs:

comprendre l’organisation et l’intérêt de travailler en projet
comprendre l’organisation et l’intérêt d’un rapport Rmarkdown
- savoir intégrer des chunks de code R dans un rapport
- comprendre comment tester le code des chunks depuis un document .Rmd
- savoir paramétrer les chunks

👁 Le cours en ligne.

🏋 Les exercices en ligne => chapitre 7

🏫 SEANCE 3

(NOPE cette année vous échappez aux tests statistiques avec moi!

8) Tests statistiques

💪 Objectifs:

comprendre le principe de l’échantillonnage et des distributions statistiques, ainsi que le principe de l’estimation statistique

comprendre le principe d’un t-test (hypothèse nulle, statistique, p-value)

savoir réaliser un t-test sous R

comprendre le principe général d’un test d’hypothèse, et les risques d’erreurs associés à ces tests

comprendre les hypothèses sous-jacentes à l’utilisation de tests d’hypothèse paramétriques et savoir utiliser des simulations pour les cas problématiques

👁 Le cours en ligne.

🏋 Les exercices en ligne => chapitre 8

9) Programmation

💪 Objectifs:

savoir créer une fonction
savoir construire une structure conditionnelle if
savoir itérer en construisant une boucle for
savoir itérer en programmation fonctionnelle en utilisant le package purrr

👁 Le cours en ligne.

🏋 Les exercices en ligne => chapitre 9

10) Objets spatiaux

💪 Objectifs:

comprendre le principe des “simple features” (package sf)
savoir lire des données spatiales vectorielles
connaître quelques fonctions de base quant aux systèmes de coordonnées, projections et affichage des objets sf.
comprendre l’articulation entre sf, dplyr et ggplot2

👁 Le cours en ligne.

🏋 L’exercice => première partie

11) Cartes

💪 Objectifs:

comprendre le principe du package tmap
savoir créer des cartes statiques ou dynamiques
savoir utiliser tm_shape() et tm_…() en fonction de l’objet sf considéré
savoir ajouter/changer/retirer la basemap
comprendre comment paramétrer ses cartes

👁 Le cours en ligne.

🏋 L’exercice => deuxième partie

🏠 Travail personnel

J’attends vos rendus le 9/11/2020. Les retards seront pénalisés (-2 points par semaine de retard)!

J’attends que vous me fournissiez à la fois:

le document Rmarkdown (qui, de fait, me permettra de voir l’intégralité des lignes de commande que vous aurez écrit)
le rapport “tricoté” (i.e. le fichier .doc, .html, ou .pdf selon vos préférences).

De ce fait, vous pouvez, si vous le souhaitez, ne pas me montrer les lignes de commandes dans le rapport pour faire “comme si” j’étais un interlocuteur qui ne connaît pas le langage et s’intéresse juste aux résultats…

Si vous me montrez des tableaux de données intermédiaires, essayez de me montrer seulement quelques lignes, ou leurs dimensions, pas des tableaux énormes qui vont générer 10 pages de rapport pour pas grand chose…

Enfin, ne soyez pas trop scolaires… Prenez cet exercice comme une “simulation” de rapport qu’on vous demanderait de produire dans le cadre d’un stage ou de votre travail… Je veux dire par là que vous avez le droit d’utiliser des fonctions autres que celles que je vous ai montrées, de faire des choses en plus par rapport à ce que je vous demande (pas en moins SVP :-p ), d’organiser le rapport pour que la progression soit la plus logique possible, etc. La description étape par étape que je vous indique n’est en effet là que pour vous aider dans votre progression (et pour assurer que vous révisiez bien différents aspects abordés dans le cours…), pas pour brimer votre imagination…

Vous allez travailler sur des données de la base Sirene de l’INSEE -ancien formattage, dispo ici: (http://perso.ens-lyon.fr/lise.vaudor/Supports_formation/cours_geonum/data/geo-sirene) -.

Ces données répertorient l’ensemble des entreprises et établissements actifs pour 5 départements. Les métadonnées associées à cette base sont en partie décrites dans ce tableau.

Mise en place

Installations, téléchargements, premiers tests sur le département 42

Si besoin, installez R et RStudio
Téléchargez les données du département 42, geo_siret_42.csv
Téléchargez la table qui renseigne les codes correspondant à l’Activité Principale de l’Etablissement (APE)APE_Type.csv

Lecture de tableaux de données

Depuis RStudio, créez un projet qui comprendra l’ensemble des données et documents nécessaires à réaliser l’ensemble des traitements qui vous seront demandés pour ce TP.
Créez le data.frame data42 en lisant la table geo-siret_42.csv.
Créez l’objet APE_Type en lisant le fichier relatif aux codes d’APE.

Code et types d’activités => commerces alimentaires

👁 Consultez ce billet de blog sur la manipulation de chaînes de caractères avec R et le package stringr

Combien d’entreprises ont un nom (enseigne1Etablissement) qui comprend le terme “BOULANGERIE”?
Ajoutez une variable Code à votre table en ne conservant que les quatre premiers caractères de la variable activitePrincipaleEtablissement (cela correspond à un pattern “^….”, à savoir le début de chaîne de caractère suivi de quatre caractères quelconques -cf ce billet de blog sur les expressions régulières-).
Filtrez les lignes de data42 pour ne retenir que celles pour lesquelles l’APE correspond aux commerces “alimentaires” -alimentation, boisson, restaurant, bar- (voir la liste contenue dans le fichier APE_Type)
Stockez le résultat de ces opérations dans un objet alim42.
👁 Allez jeter un coup d’oeil ici pour comprendre comment le principe et la réalisation des jointures à l’aide du package dplyr.Réalisez une jointure entre data42_alim (variable codeAPE) et APE_Type (variable Code), de manière à compléter alim42 avec les types de commerces (variables Type et TypeAbreg).

Résumé, classement

Quelles sont les 3 communes de votre base de données qui comptent le plus de magasins alimentaires?
Pour les communes qui ne comptent qu’un seul commerce “alimentaire”, de quel type est-il, le plus fréquemment?
Quelles communes de plus de 100 commerces comptent au moins 10 commerces de type “viande”?

Rapport, statistiques descriptives

A ce stade, votre script commence à être un peu long et (peut-être) un peu désordonné… Ne serait-ce pas plus agréable de continuer votre projet sous la forme d’un rapport Rmarkdown? (Ne répondez pas à cette question, elle est rhétorique…).

Créez un document ____.Rmd, structurez-le avec quelques titres, et répartissez les différents morceaux de code de votre script de manière pertinente dans différents chunks.
Vous pouvez maintenant rédiger des paragraphes en y intégrant des éléments de réponses aux questions posées précédemment. Rédigez un petit paragraphe pour nommer les 3 communes qui comptent le plus d’entreprises (exercice précédent) en utilisant l’insertion d’“inline chunks”.

A partir de maintenant, votre document de travail sera un document`___.Rmd’ et non le script que vous avez créé initialement…

Programmation: automatisation pour plusieurs départements

Fonction

Pour obtenir la table alim42, vous avez réalisé un certain nombre d’opérations. On voudrait réaliser l’ensemble de ces opérations pour les 5 départements suivants:

l’Ain (01)
l’Isère (38)
la Loire (42)
la Haute-Loire (43)
le Rhône (69)

Réutilisez les commandes que vous avez mises au point sur data42 pour écrire une fonction get_clean_data() qui réalisera l’ensemble de ces opérations sur le département de votre choix. L’input correspondra à un numéro de département (c’est-à-dire que vous pourrez utiliser la fonction en faisant, par exemple get_clean_data("01")).

💬 Pour lire le fichier, il faudra indiquer son chemin… Pensez à réutiliser ce que vous venez d’apprendre sur les chaînes de caractères pour reformer le chemin du fichier que vous intéresse à partir du numéro de département…

Certaines chaînes de caractère sont interprétées comme des chaînes de caractère pour certains jeux de données (par exemple pour les codes postaux de l’Ain, à cause du “0” en début de chaîne) tandis qu’elle est interprétée comme un numérique pour les autres jeux de données. Faites en sorte que votre fonction transforme bien cette variable pour qu’elles soient toujours de classe “character” en sortie (conversion par as.character()…).

Itération

Appelez cette fonction de manière itérative pour chacun des départements cités ci-dessus. Vous pouvez pour ce faire soit écrire une boucle for, soit utiliser la fonction map() du package purrr.

A partir des 5 jeux de données obtenus vous créerez un seul et même jeu de données alimRA_entr (données pour l’ancienne région Rhône-Alpes, où 1 ligne=1 entreprise).

💬 Vous pourrez si vous le souhaitez vous servir de la commande do.call("rbind",...) ou bind_rows().

Exemple:

ma_liste

## [[1]]
## # A tibble: 1 x 3
##   V1       V2    V3
##   <chr> <dbl> <dbl>
## 1 pouet    33  0.22
## 
## [[2]]
## # A tibble: 1 x 3
##   V1       V2    V3
##   <chr> <dbl> <dbl>
## 1 tut      56  0.18
## 
## [[3]]
## # A tibble: 1 x 3
##   V1       V2    V3
##   <chr> <dbl> <dbl>
## 1 cot      11  0.16

do.call("rbind",ma_liste)

## # A tibble: 3 x 3
##   V1       V2    V3
##   <chr> <dbl> <dbl>
## 1 pouet    33  0.22
## 2 tut      56  0.18
## 3 cot      11  0.16

dplyr::bind_rows(ma_liste)

## # A tibble: 3 x 3
##   V1       V2    V3
##   <chr> <dbl> <dbl>
## 1 pouet    33  0.22
## 2 tut      56  0.18
## 3 cot      11  0.16

Rajoutez une variable departement (correspondant au numéro de département) à votre jeu de données alimRA_entr. Peut-être par des manipulations sur le code postal?…

If et écriture de fichier

Vous avez dû remarquer que l’exécution de l’étape précédente prenait un peu de temps car les 5 fichiers geo-sirene lus sont très volumineux… En revanche la table alimRA_entr est de taille beaucoup plus raisonnable. Or, nous n’aurons besoin que de cette table pour la suite du projet. Pour éviter d’exécuter cette étape chronophage à chaque fois que vous travaillerez sur ce projet:

exportez alimRA_entr dans un fichier alimRA_entr.csv.
entourez la boucle for d’une structure conditionnelle if de sorte que la boucle ne soit exécutée que si le fichier alimRA_entr.csv n’existe pas (voir fonction file.exists()…)
écrivez à la suite la commande qui servira à lire alimRA_entr.csv à chaque “tricotage” de votre rapport Rmarkdown.

Résumé par commune et type de commerce

Agrégation des données par commune et type de commerce

Agrégez la table alimRA_entr par commune et type de commerce, pour créer une table alimRA_typeCom(où une ligne correspondra à un type de commerce pour une commune):

une variable nInCom correspondant au nombre de commerces par commune
une variable nInTypeCom correspondant au nombre de commerces par type et commune
une variable propInTypeCom correspondant à la proportion d’un type de commerce dans une commune
Quelles communes comptant plus de 100 commerces comptent au moins 5% de commerces de type “viande”?

Graphique

Réalisez un graphique montrant les proportions des différents types de commerces pour LYON 4EME et LYON 8EME.

Evolution dans le temps des créations d’entreprise

Manipuler des dates avec `lubridate`

Nous allons nous intéresser aux dates de création des entreprises de notre base alimRA_entr (variable dateCreationEtablissement).

🗯 Pour le moment, dateCreationEtablissement est considéré comme une variable de type “chaîne de caractères”. Pour faire comprendre à R qu’il s’agit en réalité d’une date (et lui faire comprendre comment elle est mise en forme) nous allons faire appel au package lubridate.

👁 Consultez ce billet de blog ou la vignette du package lubridate, qui explique succintement comment utiliser ce package.

Installez et chargez le package lubridate.
Transformez le tableau alimRA_entr en modifiant la classe de dateCreationEtablissement à l’aide d’une fonction de lubridate.
Ajoutez une variable annee au tableau alimRA_entr à l’aide, à nouveau, d’une des fonctions de lubridate.

Résumé, filtre

Créez une table alimRA_typeAn qui recense le **nombre d’entreprises par année (nInAn), et par type*année (nInTypeAn)**.
Filtrez les données de alimRA_typeAn pour ne garder que les entreprises dont la création correspond aux années >=1970.

Graphiques: évolution du nombre d’entreprises au cours du temps

Installez et chargez le package ggplot2
Réalisez un graphique représentant l’évolution des proportions d’entreprises (par type) par année.
Réalisez ce même graphique, mais en représentant le nombre de créations d’entreprises par année et par type, pour les 5 types comptant le plus de créations d’entreprises (au total).

Cartes

Carte des boulangeries-pâtisseries

Repartez de la table alim_entr pour en faire un objet de classe “sf”. Vous vous servirez pour cela des colonnes “longitude” et “latitude” et exclurez les entreprises pour lesquelles ces colonnes ne sont pas renseignées.
Réalisez une carte montrant le semis de points correspondant aux boulangeries-pâtisseries.
Essayez de représenter à travers cette carte l’année de création de l’entreprise (de la manière qui vous semblera la plus pertinente).

Carte des proportions de commerce par commune

Téléchargez le shapefile des limites de communes en France ici et filtrez pour ne garder que les départements considérés ci-dessus.
Joignez aux communes les informations concernant les commerces (st_join()…) et calculez le nombre de commerces par commune.
Produisez une carte montrant le nombre de commerces par commune. Vous aurez sans doute à retravailler l’échelle colorée…

Initiation à R, GeoNum

🏫 SEANCE 1

0) Introduction

1) Objets de base

2) Opérateurs et fonctions

3) Tableaux de données

🏫 SEANCE 2

4) Graphiques avec ggplot2: Introduction

5) Graphiques: Mapping et facettes

6) Graphiques: approfondissement

7) Projets et rapports

🏫 SEANCE 3

8) Tests statistiques

9) Programmation

10) Objets spatiaux

11) Cartes

🏠 Travail personnel

Mise en place

Installations, téléchargements, premiers tests sur le département 42

Lecture de tableaux de données

Code et types d’activités => commerces alimentaires

Résumé, classement

Rapport, statistiques descriptives

Programmation: automatisation pour plusieurs départements

Fonction

Itération

If et écriture de fichier

Résumé par commune et type de commerce

Agrégation des données par commune et type de commerce

Graphique

Evolution dans le temps des créations d’entreprise

Manipuler des dates avec lubridate

Résumé, filtre

Graphiques: évolution du nombre d’entreprises au cours du temps

Cartes

Carte des boulangeries-pâtisseries

Carte des proportions de commerce par commune

Manipuler des dates avec `lubridate`