La situation semble s'est stabilisée en France. Macron a stoppé sa chute (il semble même un peu remonter dans les derniers sondages) tandis que Mélenchon et Fillon ont arrêté leurs remontées (celle de Mélenchon étant de loin plus importante). Quant à Marine Le Pen, elle semble elle aussi être stable. À moins d'avoir des tendances très différentes dans les 2 prochains jours, j'ai l'impression que mes projections finales ressembleront beaucoup à celles de ce billet.

Voici un graphique avec ces sondages et les tendances:



En gros, Macron et Le Pen restent favoris pour accéder au 2e tour mais tant Fillon que Mélenchon ont leurs chances. Étant donnée la fiabilité des sondages français depuis 2002 et l'erreur moyenne (en particulier la tendance des sondages à être imprécis pour deux des 5 principaux candidats), on ne saurait exclure une surprise ce dimanche. L'écart entre les deux premiers et les autres est juste assez large pour faire en sorte qu'une surprise reste un scénario avec moins de 50% de chances d'arriver (oui, je sais, c'est la définition même d'une surprise, mais vous comprenez ce que je veux dire).

Premièrement, regardons les probabilités d'être au 2e tour ainsi que les intervalles de confiance pour les résultats au 1er tour.




Avec plus de 85% chacun, Macron et Le Pen restent favoris. Oui il y a les marges d'erreur et l'incertitude en général, mais il reste qu'être sondé devant par quasiment tous les sondages est mieux que de devoir compter sur une sous-estimaiton systématique dans les enquêtes d'opinion. Marine Le Pen continue d'être celle avec la plus faible incertitude car son électorat reste le plus définitf. Cela étant dit, elle avait déjà 80% d'électeurs déclarant leurs choix comme définitifs quand elle était à 25%. Elle est maintenant à moins de 23% et a toujours 80% d'électeurs solides. C'est un peu bizarre et cela montre qu'un électeur peut déclarer son choix comme définitif mais quand mêem changer d'avis après quelque temps. De tous les modèles, je crois que je suis le seul à tenir compte de cette variable. C'est peut-être une erreur mais en même temps, cette donnée est disponible dans tous les sondages et il serait tout autant étrange de l'ignorer. De plus, il semble logique que Macron ait davantage d'incertitude vu qu'il peut gagner (et perdre!) des deux bords.

Comparons mes probabilités à d'autres modèles. Depuis1958.fr donne 87% à Macron, 82% à Marine Le Pen, 16% à Mélenchon et 15% à Fillon. C'est hônnetement très proche (surtout que nos méthodologies sont très différentes). The Crosstab a davantage d'incertitude que moi. Macron et Le Pen sont en-dessous des 70% de chances alors que Fillon est à 35% et Mélenchon y est à 29%. Il faut dire qu'ils ont de plus larges marges d'erreur car ils ont calibrés leur modèle d'après la fiabilité des sondages depuis plus longtemps que moi (les sondages ont relativement bien fait depuis 2002). Finalement, The Economist est très similaire à The Crosstab, si ce n'est que les chances d Mélenchon y sont encore plus élevées.

Au final, les modèles s'entendent sur l'ensemble mais pas dans les détails.

Aussi, il nous faut mentionner que les sondeurs français sont actuellement accusés de "herding", cette tendance des sondeurs à tous avoir les mêmes chiffres. Cela arrive quand les sondeurs, au lieu de publier les chiffres réellement obtenus (et différents de la moyenne) font juste copier-coller la moyenne des sondages. Pourquoi? Comme ça vous ne pouvez pas être la seule firme dans l'erreur! à l'inverse, si les sondages ont tort, ils seront tous dans l'erreur!

J'avoue ignorer si ce phénomène est effectivement en train d'arriver en France mais force est de constater la super faible variation entre les sondages.

À noter qu'une seule firme fait des sondages par téléphone (Le Terrain) et les résultats sont différents des sondages faits en ligne. Je le mentionne car je trouve dommage que tous les sodneurs français utilisent la même méthode de collecte de données.

En termes de distributions, voici les simulations les plus récentes.

Je crois que cette image représente le mieux à quel point nous avons une course à 4. Pas une course égale avec tout le monde à 25%, mais une élection où 4 candidats ont de réelles chances d'être au 2e tour.

Parlant de 2e tour, voici les scénarios possibles:


Le scénario Macron - Le Pen reste de loin le plus probable mais nous avons maintenant 4 autres scénarios avec des chances non négligeables. Je ne projette pas actuellement le 2e tour mais la plupart ne seraient probablement pas très serrés (Macron gagne quasiment tous ses duels; le plus serré pourrait être Fillon contre Le Pen ou Mélenchon contre Macron).


Je ferai ma dernière mise à jour d'ici la fin de semaine, lorsque nous aurons tous les sondages.


Notes méthodologiques

Voici comment le modèle fonctionne.

1. Faire la moyenne pondérée des sondages en donnant plus de poids aux sondages récents.
2. Faire la moyenne du pourcentage d'électeurs pour chaque candidat qui déclarent leurs choix comme étant définitifs (plus de 80% pour Le Pen, environ 70% pour Macron par exemple).
3. Faire 50,000 simulations (avec écart type d'environ 1.3 pt). Donc ici, Macron (en moyenne à 23%) est parfois à 25% et d'autres fois à 21%.
4. Séparer les électeurs pour chaque candidat dans chaque simulation qui sont définitifs de ceux qui peuvent changer d'avis.
5. Parmi ceux qui peuvent changer, l'hypothèse est que la moitié, en moyenne, votera finalement pour ce candidat (distribution normale avec moyenne à 50%). L'autre moitié ne votera soit pas (fonction du taux prévu d'abstention) ou votera pour son 2e choix. Cette partie est difficile car peu de sondages fournissent cette information. J'ai dû y aller un peu subjectivement. Essentiellement, je me suis basé sur les affiliations idéologiques (Hamon et Mélenchon partagent beaucoup d'électeurs), les 2e choix de certains sondages ainsi que le report des voix au 2e tour. Autre hypothèse: à part les 5 principaux candidats, tous les autres ne peuvent que perdre des votes (=transférer aux 5 principaux), ils ne peuvent pas en recevoir.
6. Faire la somme des votes définitifs, des indécis ayant finalement décidé de rejoindre ce candidat ainsi que les transferts des autres candidats. Cela nous donne des marges d'erreur totales d'environ 3.8%, ce qui correspond exactement aux marges d'erreur effectives des sondages depuis 2002. En d'autres mots, le modèle contient la bonne quantité d'incertitude mais celle-ci est introduite de plusieurs manières (simulations au début, part des indécis qui votent pour un autre candidat, abstention, etc).
7. Calculer le nombre de fois où chaque candidat est dans les deux premiers.
New poll from Mainstreet this morning. It shows the Liberals rising a little bit and getting closer to the NDP while the Green also gain 2 points. Adding this poll to the average (and discounting the older polls) makes the projections very close between the main two parties.

Before we look into the numbers, let's discuss the BC Conservatives. The deadline to be candidate is today at 1pm and as I write these lines, this party officially only has 4 candidates. So let's call a spade a spade: for all intents and purposes, there is NO party named Conservatives in British Columbia. Polls have already shown this party on the decline but it's still way too high. So from now on, I'm adjusting the polling numbers according to the number of candidates.

This part is easy and straightforward. The tricky part is: where do these votes go to? And here, there isn't a perfect answer. Mainstreet had asked BC cons voters who they'd support in the eventuality where they couldn't vote for their first choice. Results showed that a good share wouldn't vote (around 30-40%), another good share was undecided while the remaining would, surprisingly, go to the BC NDP and, to a lesser extent, to the BC Liberals and Greens. On the other hand, I looked at the correlations of the various party supports over the last few months and I found that the BC Liberals tended to increase slightly more than the NDP when the Conservatives where decreasing. This correlation was very strong over the last 2 weeks. At the end of the day, I went with the following choice: 30% won't vote, 30% will go to the Liberals, 20% will go to the BC NDP, 10% will stay (for now) and 10% will go to "others". Yes it's pretty arbitrary and yes I could technically base everything on the data from Mainstreet. But this would be based on only one firm with small sample sizes 9for this specific population). And this would ignore my findings with the correlations. And it'd go against the intuition. At the end of the day, I expect the BC Cons to be dropped from the polls very soon and I won't have to deal with this any longer.

So anyway, here are the most up to date projections.

Voting intentions; Seat projections with confidence intervals; Chances of winning the most seats


This is as close as it gets to be a 50-50 race. And yes, as I have explained in the past, the Liberals have higher chances despite being projected with fewer seats. This is because one source of uncertainty comes from the Green. If this party outperforms the polls, it'll take 2-4 seats to the NDP.

Now a look at the possible outcomes:



It's almost perfectly symmetrical. Chances of a minority governments are around 17%. Add the 3% of ties (and a couple of times where one party gets more seats with fewer votes, as shown yesterday) and you have a good 20-25% chance of having a "weird" or complicated results.

Ever since I started this blog, I haven't yet covered an election where the final projections where close (I had the BC NDP heavy favourite in 2013. Obviously it was wrong but the fact remains that my projections weren't close). This election might be the first where the title of this blog would finally make sense! (Note: there is a high likelihood that the first election where this will happen will be the French election next week, as I explained in my articles in French)

That is all for now. Later this week I'll try to take a look at what kind of seat distribution we would get by taking into account the number of voters who are strongly committed and the second choices(so how they could ultimately vote). Similar to what I've been doing for the French election.

Below you can see the detailed projections.


No new poll so far (it's Easter Monday after all. Hope you found a lot of eggs and chocolate!), but let's take another look at the BC election after the first week of the campaign.

First of all, I stand by these projections - not a surprise given the above mentioned lack of new poll. I think that, if the trend continues, I'll start allocating more undecided to the BC NDP and fewer to the Green party in order to account for the strong "let's get rid of the BC Liberals" sentiments we can find in many polls.

Using Google Trends, we can see that the BC NDP "won" the first week but its leader John Horgan still trails Christy Clark (note: I didn't incldue the BC Green party because it doesn't register as a political party in Google Trends and I therefore can't do a topic search with this party).


Using all three parties but doing an exact term search instead:

 

And finally the leaders (here, weirdly, Google Trends is aware of who Andrew Weaver is but it doesn't seem to work for John Horgan...)

 

Somebody asked me how this tool would have fared in 2013 (you know, the year polls were dead wrong). Below is your answer:


Over the course of the 2013 campaign, Google Trends would have predicted the Liberals to be ahead (you get a bigger gap in favour of Christy Clark if you use the party leaders' names). It's interesting. The electoral track record of Google Trends is far from perfect but I see it as a valuable tool to use on top of the polls.

So we have contradicting evidence so far. It confirms that John Horgan has a serious problem of public awareness about him (especially compared to Christy Clark that everybody knows) but his party seems to have won the first week. Similar conclusions to my previous blog post.

So let's use the projections and look at some of the numbers and possible outcomes


I think it's interesting to see that the main two parties have almost identical total ranges (from 17 to 68 for the NDP for instance). It really shows how close this race could be.

Also, the BC Liberals have more chances to win more seats with fewer votes. Surprising since in 1996 the opposite happened. I guess this is likely due to the presence of the Green party and the lack of the Reform party (in other words: the left is split now, not the right).

Finally, and maybe the most important part, the election is really currently played in 13 ridings out of 87. You are never guaranteed a win of course but the model hasn't hisrtorically made many mistakes in ridings where one candidate had more than 70% chances of winning (duh, I know, the model would be fundamentally wrong if that was the case). Polling mistakes can skew the mistakes one way (by systematically underestimating one party) but the ridings switching first are the uncertain ones.
Mon boulot en tant "qu'analyste des sondages" est essentiellement de montrer les scénarios possibles en se basant sur l'information disponible. Plus précisément, j'essaie du mieux que je peux de montrer non seulement les scénarios possibles, mais les probabilités associées. Souvent, je trouve que les médias/journalistes ont tendance à tomber dans deux pièges. Le premier est de parler de la situation comme si les chances étaient de 100%. Un exemple typique de cela pouvait être observé durant la campagne présidentielle américaine en 2016 où mêmes des experts en sondages parlaient d'une victoire d'Hilary Clinton comme étant assurée (alors qu'il suffisait d'une erreur de 2 points dans 4-5 États pour changer cela). L'autre erreur que je vois souvent est de simplement dire, en gros, les sondages ne veulent rien dire et tout est possible.

Cela m'agace car bien que je reconnaisse les limites des sondages, ce n'est pas vrai que tout est possible. Et même si un résultat est techniquement possible, cela ne veut pas dire que tous les scénarios ont la même chance d'arriver. Oui vous pouvez gagner la lotterie, mais vos chances sont super faibles.

Si nous appliquons cela à l'élection présidentielle française, je crois qu'il s'agît de l'une des rares fois où "tout est possible" est possiblement plus approprié que mes calculs et nombres. Pourquoi? Car cette campagne a été assez folle avec plusieurs renversements de tendances et une incertitude majeure. Cela étant dit, regardons ce que mes calculs et simulations indiquent.

Ci-dessous vous avez mes plus récentes projections. Étant donné que l'élection est le 23 avril, elles sont de plus en plus proches d'être "finales". Je pense que nous aurons les derniers sondages vers mercredi ou jeudi de la semaine prochaine.

Probabilités d'être au second tour ainsi que les intervalles pour les résultats au 1er tour

Ainsi que la distribution des résultats possibles pour chaque candidat:



Essayons d'expliquer ces chiffres. Tout d'abord, le favori de cette élection reste Emmanuel Macron. Malgré une petite mais certaine chute aux cours des dernières semaines (de 25-26 à 23-24%), il reste dans le top 2. Surtout, il conserve une avance juste assez importante sur Fillon et Mélenchon. En effet, malgré quelques sondages plaçant les 3 candidats entre 20 et 22%, la moyenne reste telle que Macron détient une avance d'environ 3.5 points sur ses rivaux (excluant Le Pen). Étant donnée la fiabilité des sondages depuis 2002, cette avance ne garantit pas une présense au 2e tour mais les chances sont bonnes. Aussi, je voudrais faire remarquer que l'incertitude marche dans les deux sens. Oui Macron est possiblement à seulement 20%, mais il pourrait aussi être à 28%.

Marine Le Pen est en forte chute et il semble évident que certains de ses électeurs sont tentés par Mélenchon. Cela peut paraître étrange mais les "extrêmes" se rejoignent parfois. Dans le cas présent, on parle probablement d'électeurs désabusés du système et qui veulent voter pour quelque chose de différent. Le Pen et Mélenchon offrent tous les deux cela. La chef du Front National reste cependant favorite pour accéder au second tour car ses électeurs restent les plus définitifs. La tendance reste très mauvaise pour elle.

Avant de continuer, il faut mentionner que nous avons de bonnes raisons de penser que Le Pen pourrait être surestimée et Mélenchon sous-estimé. Cela pourrait se produire car les sondeurs français redressent leurs échantillons en fonction du vote à l'élection précédente. Concrêtement, si un échantillon a 10% d'électeurs déclarant avoir voté Le Pen en 2012 (alors qu'ils étaient en fait 17%), la maison de sondage fera des ajustements. Le problème est que cette méthode peut potentiellement sous-estimer un candidat en forte hausse. Le Pen (le père) sous-estimé en 2002 mais surestimé 5 ans plus tard. Sa fille sous-estimé en 2012. Comme le mentionnait Claire Durant sur twitter, il n'est pas illogique de parier sur une surestimation de Le Pen et une sous-estimation de Mélenchon cette année. Je n'en tiens cependant pas compte lors des mes simulations.

Mélenchon continue sa hausse même si elle s'est ralentie. Il dépasse Fillon dans certains sondages et atteint mêmes parfois les 20%. Il est rendu dans une position où son accession au second tour n'est de loin plus hypothétique. Remarquons cependant qu'en moyenne, il reste 4e (de très peu). Cela signifie qu'il lui faut dépasser deux candidats. Les raisons pour lesquelles ses chances sont inférieures à celle de Fillon sont car il est légèrement derrière (tel que mentionné) et car son vote est aussi moins définitif. Je crois cependant que mon modèle sous-estime probablement ses chances mais je ne vais pas le modifier juste en me basant sur mon intuition. Depuis1958.fr lui accorde 13.5% de chances tandis que les marchés lui donnent plutôt 20% de chances. Au final je crois que l'on devrait tous s'entendre sur le fait que Mélenchon est en forte hausse et a de sérieuses chances d'accéder au 2e tour. Il reste qu'il n'est pas actuellement favori pour cela.

Fillon continue sa très lente progression. Il semble maintenant approcher les 20%. Son vote semble sûr et concentré auprès d'un électorat qui va probablement voter le 23 avril. Soyons clairs, si Fillon n'avait pas eu ses problèmes avec ses supposés emplois fictifs, il serait probablement en tête des intentions de ce vote. Ainsi, il semble que nous assistions à un retour à la normale. Une autre façon de dire cela est que la "droite traditionnelle" revient au bercail. Je crois que Fillon est bien placé pour créer une surprise d'ici un peu plus d'une semaine. Remarquez que s'il était opposé à Macron au 2e tour, il n'aurait quasiment aucune chance. Ses espoirs de devenir président reposent sur un 2e tour contre Le Pen et donc une surestimation de Macron.

Finalement, Benoît Hamon continue sa baisse. La seule bonne nouvelle est qu'il est toujours à peu près assuré de rester au-dessus des 5%, un seuil important car cela signifie le remboursement de la moitié des dépenses électorales.

Au final, nous avons bel et bien une course à 4. Si les sondages n'ont pas de biais systématique, il reste deux favoris. Cependant, il suffit d'une simple erreur de ces sondages pour que le second tour entre Macron et Le Pen ne se réalise pas. Et si la tenance devait se maintenir cette semaine, attendez-vous à des projections finales la semaine prochaine où aucun candidat ne sera assuré de terminer dans les deux premiers et une incertitude encore plus importante que maintenant.

Ci-dessous vous avez les différents scénarios avec les probabilités associées.


We've got our fair share of polls at the beginning of this campaign. They all show the NDP ahead (some by a small margin, others by a larger one) but they also almost all have a large number of undecided. On top of that, IVR (automatic phone calls) polls seem to have the BC Conservative much higher than online polls.

Based on the latest polls, here are the most recent projections. More details on the BC Election page.

Voting intentions; Seat projections with confidence intervals; Chances of winning the most seats.

We of course all remember the polls in 2013. They were all predicting a BC NDP victory but they ended up dead wrong (this remains one of the biggest failures of the polls in Canadian history). So maybe, just maybe we should look at different indicator in order to predict the race.

One possible tool is online presence. Using Google Trend, Maclean's journalist Jason Kirby pretty much nailed the federal election in 2015. There are other evidence that this can indeed work, especially for party leaders.

I thus tried to use Google Trend and limited the results to the last 7 days in British Columbia. When searching for the leaders, I had to use "search terms" instead of the topic option because the latter wasn't working for John Horgan.

1. Google searches for the leaders (I tried to use the embedded code but it kept failing, so I decided to simply post pictures)



As you can see, Christy Clark is way ahead here. This confirms that she is by far the most known of the three party leaders. But being known isn't always a good thing, it also likely means more people dislike you.


2. Google searches for the main two parties (not possible to do a topic search for the Green party, only a term search, so I dropped the Green for this graph).



Here the race already looks different. The BC NDP is actually ahead. And if we do a search term with all three parties:



Assuming the BC Conservatives and "others" will do 5% combined, if we allocate the remaining 95% using the shares given by Google Trend, we get the following predictions

BC Liberals: 29%
BC NDP: 46%
BC Green: 19%

If we average the leader+party searches (it's possible people who want to vote for the BC Liberals are more likely to google Christy Clark since she is so well known while potential NDP voters will simply search for the party):

BC Liberals: 44%
BC NDP: 36%
BC Green: 15%

So right now, it seems the answer depends a lot on the exact variation we are using. In scientific terms, the results are far from being robust. What they do show is that John Horgan is not well known at all and he didn't catch up to Clark in the last 7 days.

If we focus on the main two parties and use the topic search option, we get a close race with the NDP slightly ahead, exactly like the polls. This might be the best tool moving forward.

I'll keep using this method throughout the campaign, just as an added tool. If anything, this is interesting.
Note: I'll talk about vote splitting in this blog post. I'm simply analyzing what the numbers are showing. Please do not get upset because you don't like the conclusions. Also, and this is important, I'm of the opinion that a party should never be blamed or attacked for splitting the vote. It's not their fault our electoral system is stupid and things like this can happen. I also strongly believe that people should just vote for their favourite party but I understand why many could be concerned with this vote splitting. Hence this article.

Day 2 of the campaign. I have updated the projections with the Ipsos poll published yesterday. Another poll with a BC NDP lead but with a very hugh number of undecided (20%), which means that my non-proportional allocation of undecided gives us pretty much the two parties tied. As I said yesterday, I understand some will be upset that I give slightly more undecided to the incumbent (instead of going purely proportionally), but this isn't a bias, this is based on a careful observation of multiple elections in this country. Also, As I mentioned as well, I'll likely change this allocation as the campaign goes on. This could particularly happen if the Green party falls below 10% and the BC NDP emerges as the anti-Christy Clark force. But as of right now, I'll defend my method and remind every one that allocating undecided proportionally is making just as big of an assumption, potentially an even bigger one.

Note: a new Forum poll was published and added to my average. The projections below are therefore not fully up to date. Go to the BC Election 2017 page to see the new projections.

Projections as of April 11th 2017

Anyway, you probably noticed that despite projecting more seats for the party of John Horgan, the chances of winning are lower. It is not a mistake. It actually makes complete sense and I'll explain it to you. Before I do however, notice the probabilities do not sum to 100%. This is because I have decided to treat ties as their own outcome. I understand that tradition and constitutional arrangements in this country dictate that Christy Clark would remain Premier, but it opens the door to a lot of complex situations.

The probabilities come from simulations where I randomize the voting intentions as well as the vote efficiency. So in some simulations the Liberals beat their poll numbers (and win more seats). In other simulations, the BC NDP does better than anticipated and win more seats. That's all good and symmetrical (mostly). However, here comes the Green party. When this party gets more votes than expected, it also wins more seats (in average of course, sometimes this vote is "useless"). But here's the kicker: these seats are taken from the NDP. Look at the detailed projections on the BC election 2017 page and you'll see that all the ridings where the Green party has chances (more than 0% but less than 50%) are ridings currently going NDP. Another way to see this is to look at the correlation between seat totals. The number of seats of the NDP and Green are strongly negatively correlated. On the other hand, the seats between the Green and Liberals are positively correlated (How? This happens when the NDP performs worse than expected which gives seats to the Green -on the Island- and the Liberals - elsewhere).

So this leads us to our topic of the day: do the Green split the vote with the NDP? This is an incredibly important question because many people in British Columbia, the majority actually, would like to change government. But the "change" vote is split between the NDP and the Green (and the BC Conservative I guess, but this party is already low and will likely go lower), this opens the door to a 5th consecutive mandate of the BC Liberals.

Our first evidence is what I mentioned above. The results are pretty clear and I'm very confident about them. But there are other ways to look at it.

We can for instance look at what the projections would look like if the Green party didn't exist. To do so, I'm using the second choices as provided to us by Mainstreet and Ipsos. The two firms have that a majority of Green voters have the BC NDP as second choice (and vice versa by the way). So let's average this out and redistribute the Green votes (note: I assume half the undecided wouldn't vote while the other half would break down as the decided. This is pure assumption but I think it's important to at least include the possibility that some voters wouldn't vote at all). The results are below:

Seats
BC Lib
BC NDP
BC green
BC Cons
projections
42
43
2
0
without Green
35
52
0
0

As you can see, the NDP would easily win a majority if the Green party didn't exist. At least based on the current projections and the available information regarding the second choices. So there as well, the conclusion would be that yes, the Green party is splitting the vote with the NDP.

Since I provided two pieces of evidence that a split is occurring, I want to mention evidence of the opposite. First of all, Andrew Weaver (the Green party leader) got elected 4 years ago thanks to an extraordinary personal effect (i.e: he performed much better than a "normal" Green candidate would have in this riding). This effect is estimated to be around 28 points (this is huge by Canadian politics standards). My estimations however show that this bonus was taken almost equally from the Liberals (-15 points) and the NDP (-13). So at least in this district the Green got a MLA by taking votes from both parties.

Secondly, the Green didn't run a full slate of candidates in 2013. In fact they only ran 61 candidates (out of 85 ridings). When I looked at what happened in the ridings where there used to be a Green candidate in 2009 and none in 2013, I consistently found that the BC Liberals benefited the most while the BC NDP barely took advantage of this. The effect is so strong that it partially explains how the Liberals managed to increase their shares of votes in a couple of ridings despite dropping provincially. So if the Green party runs a full slate of candidates this time around, it's not illogical to think they'll hurt the Liberals more.

At the end of the day, if I have to go with a yes or no answer to the question asked in the title, I'd have to go with yes, the Green party is splitting the vote. Or, more exactly, the BC NDP and BC Green are splitting a very similar vote. Since the BC NDP is currently ahead, I guess it makes sense to say the Green are the ones splitting the vote. As I mentioned at the beginning, I believe people should stop trying to do math before voting and just pick the candidate/party they like. But the electoral system being what it is, I understand the concerns of some of you. If you really just want to get rid of Christy Clark, voting NDP is most likely the rational choice. At least based on the current situation and information.
La course à 4 entre Le Pen, Macron, Fillon et maintenant Mélenchon se confirme. Presque tous les sondages montrent que ces 4 candidats sont dans un écart de 4-5 points (entre 18 et 23% en gros). Je ne referai pas mes projections ici vu que les précédentes dataient de dimanche, mais les chances de Mélenchon d'accéder au 2e tour sont maintenant plus élevées (elles restent faibles cependant).

Le but de ce billet est de parler de la précision des sondages français. Vous êtes bien sûr familier avec les marges d'erreur. Celles-ci sont sensées représenter l'incertitude qui existe dû à l'échantillonnage. Les sondeurs français publient tous ces marges dans leurs rapports. Pour une taille d'échantillon de 1000 répondants, et pour un parti ou candidat à 20%, ces marges sont de plus ou moins 2.5% 19 fois sur 20.

Seulement voilà, les sondeurs français n'utilisent pas de l'échantillonnage purement aléatoire. Et ils "redressent" les résultats en pondérant en fonction du vote passé. Cela a pour effet qu'il y a très, très peu de variation entre les sondages. Ainsi, les marges d'erreur théoriques ci-dessus ne sont absolument pas valides. Aussi, les sondages ont d'autres sources d'incertitudes que l'échantillonnage (indécis, changement d'opinion, refus, etc).

J'ai ainsi décidé de regarder les 3 dernières élections présidentielles et d'analyser la précision des sondages. Pour chaque élection, j'ai collecté les sondages de fin de campagne (en général ceux faits lors de la dernière semaine), fait une moyenne et calculé l'erreur moyenne absolue. J'ai fait cela uniquement pour les 5 principaux candidats, simplement car bien franchement, je m'en fous un peu de savoir si les sondages ont bien estimé un ou une candidat-e à 0.5%. En plus, l'erreur pour les petits partis ou candidats est souvent faible, justement car on ne peut pas être vraiment dans l'erreur (si un candidat est à 0.5%, même si les sondeurs font une erreur et le surestiment doublement, l'erreur absolue n'est que 0.5 points).

Voici les résultats:

1. En moyenne, les sondages français ont une erreur pour les 5 principaux candidats de 1.6 points. En d'autres mots, si les sondages ont un candidat à 20%, ce dernier en moyenne va recevoir 21.6 ou 18.4% des vote. Cela nous donne un intervalle de 3.2 points.

Cette erreur moyenne était la plus faible en 2012 (1.5 points), et la plus haute en 2007 (1.8 points). 2002 était entre les deux (1.6). Cela peut sembler surprenant puisque 2002 est l'année où les sondages avaient manqué la percée de Jean-Marie Le Pen.

C'est une très bonne précision, ne le cachons pas. Bien meilleure par exemple que l'erreur moyenne aux États-Unis.

2. Ne pensez pas que cela signifie que tous les résultats de tous les candidats sont exactement 1.6 points différents des sondages. Non, les sondages ont en général 3 des 5 candidats correctement ciblés parfaitement. L'erreur provient en général des deux autres candidats. En 2002 par exemple, Le Pen avait été sous-estimé de 3.5 points et Jospin surestimé par 1.8. En 2007, Le Pen avait été surestimé par 3.5 points et Sarkozy sous-estimé par 2.9 points. Finalement, en 2012, Marine Le Pen avait récolté près de 2 points de plus que les sondages (à moins de ne prendre vraiment que les 2-3 derniers sondages publiés) et Mélenchon avait été surestimé par 2.9 points.

Au final, je dirais qu'il est raisonable de s'attendre à ce que les sondages soient très précis pour 3 candidats sur 5. Le problème naturellement est de prédire quels seront les deux candidates qui feront mieux ou pire que les sondages. À ce jeu-là, il semble que le Front National soit un habitué, avec deux sous-estimations et une surestimation.

3. En se basant sur ces résultats, la vraie marge d'erreur des sondages français est de 3.8 points (pour un candidat à environ 20%, encore une fois) 19 fois sur 20.

Cela montre bien l'incertitude qui existe actuellement. En gros, en appliquant cette marge d'erreur aux 4 candidats, on voit qu'ils sont tous techniquement à égalité. Macron peut être à moins de 20% tandis que Mélenchon peut être à 21%. Il est très improbable que les quatre candidats soient sous ou surestimés, mais il suffit d'un seul pour créer une surprise. Et vu qu'en moyenne il y a en deux, la surprise pourrait être totale le 23 avril.

C'est pour quoi nous ne pouvons actuellement exclure un second tour Le Pen - Mélenchon. Il suffirait pour cela que Macron soit surestimé par disons 2 points (donc il recevrait 21% des votes) alors que Mélenchon serait sous-estimé de 3 points (donc récoltant juste un peu plus de 21%). Un scénario qui n'est de loin pas le plus probable, mais loin d'être impossible.

Il suffit que l'un des deux candidats de têtes soit surestimé et l'un des deux candidats derrière soit sous-estimé pour que l'on ait un second tour différent de cela envisagé. L'écart entre Macron-Le Pen (tous deux à 23-24%) et Fillon-Mélenchon (18-19%) est juste, juste assez large pour que les deux favoris puissent "survivre" à une "erreur typique" (Le Pen pourrait par exemple ne faire que 21% mais Fillon ne ferait que 20.5%). Mais si l'écart devait se rétrécir d'un tout petit peu (mettons 1 point) alors une surprise serait presque probable! Je sais que cela peut sembler stupide, mais c'est la vérité.