Peut-on se fier aux sondages au Québec?

Pas de mise à jour des projections ce matin puisqu'il n'y a pas eu de nouveau sondage (Mainstreet publie à tous les jours mais les changements sont faibles). Vous pouvez regarder les projections d'hier si vous voulez.

Ah les sondages! Magnifiques pour certains, outils anti-démocratiques et faux pour les autres. Je ne compte ici faire un débat sur l’utilité ou l’influence des sondages. Mon but est assez simple : mesurer la fiabilité des sondages au Canada et au Québec en particulier. Une question spécialement pertinente pour moi. En effet, mes projections ne seront fiables que dans la mesure où les sondages le sont également.

Soyons clairs ici, ce billet ne parlera pas des changements dans les intentions de vote durant une campagne. Oui Justin Trudeau était projeté avec très peu de chances au début de la campagne 2015 et a finalement gagné (le PLC était 3e à 25%). Cela ne signifie pas que les sondages du début de campagne étaient faux! Non, le but ici est de regarder les derniers sondages parus lors d’une campagne et de les comparer aux résultats.

Je vais utiliser des données des élections au Québec (2008, 2012 et 2014) ainsi que de l’Ontario, Alberta, Colombie-Britannique et des trois dernières élections fédérales.

Voici la méthodologie :

1) Collecter les sondages de fin de campagne. Wikipédia est en général très utile pour cela. J’utilise les sondages de la dernière semaine de campagne. Un seul sondage par firme. Moyenne simple, pas de formule compliquée basée sur la taille d’échantillon ou avoir été oublié 1 jour plus tôt (une étude faite par David Coletto d’Abacus et moi-même a montré que tous ces effets n’étaient pas significatifs).

2) Comparer cette moyenne aux résultats. En général pour les 3-5 partis majeurs (cela dépend de la province; Pas de règle stricte mais en général il s’agît simplement des partis inclus dans les sondages).

3) Calculer l’erreur absolue moyenne ainsi que les vraies marges d’erreur.

Un peu d’explications sont nécessaires pour le troisième point. L’erreur absolue est la suivante : imaginons que que le Parti Libéral soit à 25% dans les sondages mais récolte 27% le soir de l’élection. C’est une erreur de 2 points. L’erreur absolue serait la même si les sondages avaient plutôt surestimés ce parti par 2 points, à 29%. Prendre la valeur absolue est importante car sinon les erreurs s’annuleraient (entre partis) et cela nous donnerait la fausse impression que les sondages sont parfaits.

La « vraie marge d’erreur », ou marge d’erreur effective, est une mesure de l’incertitude des sondages dans le monde réel. Ce n’est pas la même chose que l’erreur absolue dans le sens où cette erreur est juste une moyenne alors que la marge d’erreur nous donne une idée de la distribution des erreurs. En d’autres mots : la marge d’erreur nous fournit le niveau d’incertitude des sondages, pas seulement la précision absolue. Les marges nous donnent un intervalle dans lequel le résultat actuel devrait y être 95% du temps.

Les sondages publient tous une marge d’erreur (le plus ou moins 3% 19 fois sur 20). Mais cette marge est théorique (et fausse en fait. Un parti à 45% n’a pas la même marge qu’un parti à 5%, mais oublions cela pour l’instant). Laissez-moi vous expliquer. Il y a essentiellement trois sources d’incertitude pour les sondages :

a) Le fait qu’on ait seulement un échantillon de la population
b) Le fait que les gens peuvent changer d’avis entre le moment où ils ont répondu au sondage et le moment de voter. Les gens peuvent aussi mentir.
c) Le fait que le sondage ne sonde pas les bonnes personnes. Imaginons un sondage où vous ne demander qu’aux francophones au Québec, oubliant les anglophones.

Les marges d’erreur des sondages ne tient compte que du point a). C’est une source importante d’erreur mais dans les faits, avec la multitude de sondages que nous avons, cette erreur est quasi nulle. En effet lorsque je fais une moyenne entre 5-6 sondages, la marge d’erreur devient très, très petite. S'il s'agissait de la seule source d'incertitude, faire une moyenne des sondages devrait nous donner des résultats super précis. Mais ce n'est pas le cas (et cela explique aussi pourquoi je m'en fous un peu de ces marges d'erreur. En particulier le débat sur les sondages en ligne qui n'ont pas un échantillon probabilistique est une perte de temps complète selon moi).

Mais les sondages ne sont pas parfaits, cela veut dire que b) et c) sont importants. B) peut se produire lorsqu’un évènement de dernière minute arrive ou que beaucoup d’électeurs étaient indécis entre deux ou trois options. Il y a aussi des cas où les gens cachent leurs vraies intentions. C’est possiblement le cas lorsqu’il y a des partis d’extrême droite (bien que cela ne semble plus tellement être le cas ces dernières années). Possiblement le cas au Québec avec la prime à l'urne des Libéraux.

Finalement, c) peut survenir lorsque les sondages font une erreur de ciblage. Aux USA en 2016, les sondages n'ont semble-t-il pas inclus assez de « hommes blancs sans éducation universitaire » dans leurs échantillons. Cela a sous-estimé Trump dans plusieurs États clé. Les sondages en général utilisent la pondération du recensement mais cela ne fonctionne pas quand les électeurs diffèrent substantiellement de ce recensement (15% de blancs sans éducation mais ils représentent 25% des électeurs disons).

Ce billet n’essaie pas d’estimer lequel de a, b ou c est plus important. Je mentionnais cela uniquement pour vous convaincre que les sondages ont une précision réelle bien plus faible que la précision théorique.

Sur ce, regardons les chiffres.

1. Au Québec seulement.

Prime à l’urne aux Libéraux? Autre source d’imprécision? Voici ce que nous obtenons pour les trois dernières élections.



Première remarque : les sondages avaient été vraiment très bons en 2014 mais moins bons tant en 2012 qu’en 2008. Tout le monde se souvient de 2012 car les Libéraux avaient failli créer la surprise en n’échouant qu’à 4 sièges du PQ. Le PLQ avait été sous-estimé par les sondages pas près de 5 points! Les gens ont probablement oublié que les sondages n’avaient déjà pas été extraordinaires en 2008 alors qu’ils avaient légèrement surestimé les Libéraux (la seule fois) et sous-estimé le PQ.

Une précision moyenne absolue de 1.6 points est assez bonne. Mais souvenez-vous qu’il s’agît d’une moyenne. En 2012 l’erreur moyenne n’était que de 1.9 points mais, tel que mentionné ci-dessus, le PLQ était près de 5 points trop bas. La moyenne est baissée car les sondages avaient par exemple estimé la CAQ quasi parfaitement. Dans les faits, chaque élection a eu un parti relativement loin des sondages (PQ sous-estimé par 2.8 pts en 2008, PLQ en 2012 et PLQ encore en 2014 mais seulement par 1.4 pts).

Une marge d’erreur de 3.8 points signifie que même après avoir fait une moyenne de plusieurs sondages, il reste une incertitude considérable. Si vous voulez créer des intervalles de confiance à 95% (donc un degré élevé de certitude), il vous faut ajouter et soustraire 3.8 points à chaque parti. Dans le cas de l’élection actuelle, cela signifie que le PLQ pourrait être à 34% et la CAQ à seulement 33% par exemple. Encore une fois, certains d'entres vous vont me dire que c'est proche du plus ou moins 3% des sondages mais ce n'est pas la même chose. Le plus ou moins 3% est l'incertitude théorique d'un seul sondage. Ce 3.8% est l'incertitude empirique de la moyenne.


2. Au Canada en règle générale

J’avais publié un article similaire, en anglais, lors de l’élection Ontarienne. Voici le graph (en anglais, dsl je ne voulais pas le refaire juste pour ce billet).



Si vous incluez les deux vraiment grosses erreurs en Alberta 2012 et CB en 2013, la marge d’erreur est de plus de 5 points! Cela veut dire que lorsqu'un parti est sondé, en moyenne, à 35%, il vous faudrait en fait imaginer plutôt un intervalle allant de 30 à 40%!


Conclusion

Les sondages, tant au Québec qu’au Canada ces dernières années, sont plutôt bons. Ils ont cependant quelques râtés majeurs comme au Québec en 2012, Alberta 2012 ou CB 2013 (il y a aussi de plus petites erreurs telles que l’élection fédérale de 2015 avec une sous-estimation importante du PLC, en particulier au Québec ou la récente élection Ontarienne où les sondages téléphoniques avaient tout bons mais les sondages en ligne étaient dans le champ. Note : de manière générale, je n’ai pas trouvé de différence systématique entre les deux méthodes).

Qui plus est, même lorsque les sondages sont plutôt bons, il reste une incertitude importante. Dépendamment des élections incluses dans le calcul, on parle de marge d’erreur pour la moyenne des sondages de 4-5%.


Voici mon avis personnel: les sondages sont fiables dans une certaine mesure. Espérer une précision absolue alors qu'ils essaient de mesurer quelque chose de difficile (les intentions de votes, qui sont une fonction de la participation, etc) est une erreur. Nous n'aurons jamais de précision absolue et les surprises arrivent relativement souvent, parfois petites, d'autres fois très grandes.

Cela ne veut pas dire cependant qu'il faut commencer à dire "tout peut arriver". Non, le fait est que votre parti est en bien meilleure position de gagner s'il est sondé en tête à quelques jours de l'élection. Ne prenez pas les 2-3 cas où les sondages avaient carrément le mauvais parti en tête comme étant la norme. Ce sont bel et bien des exceptions. L'espoir fait vivre mais peu aussi être trompeur.

C'est pourquoi je passe autant de temps à faire mes simulations et à les calibrer correctement selon la fiabilité moyenne des sondages. C'est aussi pour cela que je vous recommande de regarder surtout les chances de gagner et pas seulement le nombre de sièges en moyenne.