Comprendre le théorème pour comprendre les modèles bayésiens

Les modèles bayésiens viennent de faire une entrée subite et fracassante dans ma vie. Cela peut sembler étonnant car cela fait maintenant quelques années que le paradigme bayésien connaît un grand succès chez (notamment) les écologues, peut-être du fait des problèmes qu’ils connaissent avec les modèles inférentiels plus classiques (problèmes liés aux données manquantes ou trop peu nombreuses, aux distributions non gaussiennes, aux difficultés d’ajustement des modèles, à l’importance des erreurs, etc.).

Avec ce billet sur le théorème de Bayes, je souhaite entamer une série de billets relatifs aux modèles bayésiens. J’aimerais notamment expliquer leur principe, montrer leurs avantages et inconvénients, et montrer (aussi succintement que possible) comment les construire, les ajuster, et les interpréter sous R.

Pour commencer, je vais me concentrer sur ce qui définit les modèles bayésiens, à savoir (comme leur nom l’indique), leur utilisation des probabilités et notamment du théorème de Bayes…

Le théorème de Bayes, en équation

Le théorème de Bayes est le suivant:

$$Pr(A|B)=\frac {Pr(B|A)Pr(A)}{Pr(B|A)Pr(A)+Pr(B|{\bar A})Pr({\bar A})}$$

Il exprime la probabilité de « A sachant B » en fonction des probabilités de « B sachant A » et de la probabilité de A.

Il dérive de cette définition des probas conditionnelles:

$$Pr(A\cap B)=Pr(A\vert B)Pr(B)=Pr(B\vert A)Pr(A)$$

Un exemple concret d’application du théorème

Imaginons un cas concret d’utilisation de ce théorème. Mettons, par exemple, que l’on essaie de comprendre le comportement des ours à travers le modèle suivant, où $$C$$ est la variable indicatrice de l’évènement « L’ours est en colère » ($$C=o$$ ou $$C=n$$) et $$G$$ est la variable indicatrice de l’événement « L’ours grogne » ($$G=o$$ ou $$G=n$$).

Supposons que l’on connaît la relation qui lie C à G -i.e. la table des probabilités conditionnelles qui donne $$Pr(G\vert C)$$-. Par exemple

$$Pr(G\vert C)$$ $$C=o$$ $$C=n$$
$$G=o$$ 0.90 0.25
$$G=n$$ 0.10 0.75

On peut lire cette table de la manière suivante:

  • la probabilité que l’ours grogne sachant qu’il est en colère est de 90%.
  • la probabilité que l’ours grogne sachant qu’il n’est pas en colère est de 25%. Ainsi, il arrive que les ours grognent même s’ils ne sont pas en colère.

Comment, dans ces conditions où les ours grognent à qui mieux mieux, interpréter leurs grognements?

Mettons que l’on suppose a priori que l’ours a une chance sur trois d’être en colère: -i.e. on a l’a priori suivant sur $$Pr(C)$$-:

$$Pr(C=o)=0.33$$

$$Pr(C=n)=0.67$$

Imaginons que nous observions l’ours une fois, et qu’il grogne.

Alors le théorème de Bayes va nous permettre de déterminer quelles sont les probabilités que l’ours soit en colère (ou non) sachant qu’il a grogné.

En effet:

$$Pr(C=o|G=o)=\frac{Pr(G=o|C=o)Pr(C=o)}{Pr(G=o|C=o)Pr(C=o)+Pr(G=o|C=n)Pr(C=n)}$$

$$Pr(C=o|G=o)=\frac{0.9\cdot 0.33}{0.9 \cdot 0.33+0.25\cdot0.67}$$

$$Pr(C=o|G=o)=0.64$$

donc, l’ours ayant grogné, on estime la probabilité qu’il ait été en colère à 64%.

Premier aperçu du paradigme bayésien

Quelques remarques, maintenant, quant aux principes qui sous-tendent l’utilisation du théorème de Bayes…

Remarquez d’abord comme le résultat (probabiliste) du modèle permet de retranscrire efficacement les incertitudes. En effet, on ne conclut pas de ce modèle « l’ours a grogné donc il devait être en colère » mais « l’ours a grogné donc la probabilité qu’il ait été en colère est de 64% ». L’incertitude est ici intégrée (plutôt qu’associée, comme dans la statistique inférentielle plus classique) au résultat.

Ainsi, en prenant en compte notre observation de G nous sommes passé d’une probabilité a priori $$Pr(C=o)=$$ 33% à la probabilité a posteriori $$Pr(C=o\vert G=o)=$$ 64%. Ainsi, le modèle nous a permis d’affiner notre connaissance de la distribution de C. On pensait a priori que l’ours n’était pas si colérique que ça, mais notre observation de son grognement nous pousse à revoir un peu notre jugement…

Si l’on était partis d’un a priori différent (par exemple $$Pr(C=o)=$$ 90%), la distribution a posteriori aurait été différente (ici $$Pr(C=o\vert G=o)$$= 99%). L’a priori a donc un effet non négligeable sur la distribution a posteriori et il convient de le définir avec soin. En pratique, néanmoins, on utilise souvent les modèles bayésiens en se basant sur de nombreuses observations (et non une seule comme nous l’avons fait plus haut)… Or plus les observations sont nombreuses, moins l’effet de l’a priori de départ se ressent sur la distribution a posteriori.