Présidentielle 2017: les sondages sont-ils précis?

La course à 4 entre Le Pen, Macron, Fillon et maintenant Mélenchon se confirme. Presque tous les sondages montrent que ces 4 candidats sont dans un écart de 4-5 points (entre 18 et 23% en gros). Je ne referai pas mes projections ici vu que les précédentes dataient de dimanche, mais les chances de Mélenchon d'accéder au 2e tour sont maintenant plus élevées (elles restent faibles cependant).

Le but de ce billet est de parler de la précision des sondages français. Vous êtes bien sûr familier avec les marges d'erreur. Celles-ci sont sensées représenter l'incertitude qui existe dû à l'échantillonnage. Les sondeurs français publient tous ces marges dans leurs rapports. Pour une taille d'échantillon de 1000 répondants, et pour un parti ou candidat à 20%, ces marges sont de plus ou moins 2.5% 19 fois sur 20.

Seulement voilà, les sondeurs français n'utilisent pas de l'échantillonnage purement aléatoire. Et ils "redressent" les résultats en pondérant en fonction du vote passé. Cela a pour effet qu'il y a très, très peu de variation entre les sondages. Ainsi, les marges d'erreur théoriques ci-dessus ne sont absolument pas valides. Aussi, les sondages ont d'autres sources d'incertitudes que l'échantillonnage (indécis, changement d'opinion, refus, etc).

J'ai ainsi décidé de regarder les 3 dernières élections présidentielles et d'analyser la précision des sondages. Pour chaque élection, j'ai collecté les sondages de fin de campagne (en général ceux faits lors de la dernière semaine), fait une moyenne et calculé l'erreur moyenne absolue. J'ai fait cela uniquement pour les 5 principaux candidats, simplement car bien franchement, je m'en fous un peu de savoir si les sondages ont bien estimé un ou une candidat-e à 0.5%. En plus, l'erreur pour les petits partis ou candidats est souvent faible, justement car on ne peut pas être vraiment dans l'erreur (si un candidat est à 0.5%, même si les sondeurs font une erreur et le surestiment doublement, l'erreur absolue n'est que 0.5 points).

Voici les résultats:

1. En moyenne, les sondages français ont une erreur pour les 5 principaux candidats de 1.6 points. En d'autres mots, si les sondages ont un candidat à 20%, ce dernier en moyenne va recevoir 21.6 ou 18.4% des vote. Cela nous donne un intervalle de 3.2 points.

Cette erreur moyenne était la plus faible en 2012 (1.5 points), et la plus haute en 2007 (1.8 points). 2002 était entre les deux (1.6). Cela peut sembler surprenant puisque 2002 est l'année où les sondages avaient manqué la percée de Jean-Marie Le Pen.

C'est une très bonne précision, ne le cachons pas. Bien meilleure par exemple que l'erreur moyenne aux États-Unis.

2. Ne pensez pas que cela signifie que tous les résultats de tous les candidats sont exactement 1.6 points différents des sondages. Non, les sondages ont en général 3 des 5 candidats correctement ciblés parfaitement. L'erreur provient en général des deux autres candidats. En 2002 par exemple, Le Pen avait été sous-estimé de 3.5 points et Jospin surestimé par 1.8. En 2007, Le Pen avait été surestimé par 3.5 points et Sarkozy sous-estimé par 2.9 points. Finalement, en 2012, Marine Le Pen avait récolté près de 2 points de plus que les sondages (à moins de ne prendre vraiment que les 2-3 derniers sondages publiés) et Mélenchon avait été surestimé par 2.9 points.

Au final, je dirais qu'il est raisonable de s'attendre à ce que les sondages soient très précis pour 3 candidats sur 5. Le problème naturellement est de prédire quels seront les deux candidates qui feront mieux ou pire que les sondages. À ce jeu-là, il semble que le Front National soit un habitué, avec deux sous-estimations et une surestimation.

3. En se basant sur ces résultats, la vraie marge d'erreur des sondages français est de 3.8 points (pour un candidat à environ 20%, encore une fois) 19 fois sur 20.

Cela montre bien l'incertitude qui existe actuellement. En gros, en appliquant cette marge d'erreur aux 4 candidats, on voit qu'ils sont tous techniquement à égalité. Macron peut être à moins de 20% tandis que Mélenchon peut être à 21%. Il est très improbable que les quatre candidats soient sous ou surestimés, mais il suffit d'un seul pour créer une surprise. Et vu qu'en moyenne il y a en deux, la surprise pourrait être totale le 23 avril.

C'est pour quoi nous ne pouvons actuellement exclure un second tour Le Pen - Mélenchon. Il suffirait pour cela que Macron soit surestimé par disons 2 points (donc il recevrait 21% des votes) alors que Mélenchon serait sous-estimé de 3 points (donc récoltant juste un peu plus de 21%). Un scénario qui n'est de loin pas le plus probable, mais loin d'être impossible.

Il suffit que l'un des deux candidats de têtes soit surestimé et l'un des deux candidats derrière soit sous-estimé pour que l'on ait un second tour différent de cela envisagé. L'écart entre Macron-Le Pen (tous deux à 23-24%) et Fillon-Mélenchon (18-19%) est juste, juste assez large pour que les deux favoris puissent "survivre" à une "erreur typique" (Le Pen pourrait par exemple ne faire que 21% mais Fillon ne ferait que 20.5%). Mais si l'écart devait se rétrécir d'un tout petit peu (mettons 1 point) alors une surprise serait presque probable! Je sais que cela peut sembler stupide, mais c'est la vérité.