Modèle 2.0

14 Mars 2012: Ce billet a pour but d'expliquer en détails comment le nouveau modèle (quasiment définitif) fonctionne. La principale innovation vient du fait que le modèle est maintenant construit afin d'être robuste à l'extrapolation (i.e: quand un parti obtient un résultat bien au-dessus ou en-dessous de ses résultats précédents), tout en conservant tous les avantages du précédents modèle lorsqu'il n'y a pas d'extrapolation ou de variations très grandes. C'est un billet relativement technique mais illustré et l'objectif est simplement de fournir la méthodologie pour ceux que cela intéresse (et éviter ce que font bien d'autres sites de projections en cachant ou ne publiant pas vraiment leur méthode).

L'idée de base reste la même: utiliser l'information à notre disposition lors d'une élection (les résultats des élections précédentes ainsi que les sondages) afin de projeter le résultat de chaque parti dans chaque circonscription. Puisque le système électoral en place au Canada ne transpose pas les intentions de votes en sièges de manière proportionnelle, il est évidemment primordial de pouvoir interpréter les nombreux sondages en termes de sièges.

L'hypothèse de base est que le pourcentage de voix qu'un parti reçoit dans un comté est son résultat lors de l'élection précédente, plus une fonction de la variation provinciale de ce parti depuis la dernière élection. Cela revient à dire que comme le PLQ a obtenu 42% des voix en 2008, si le PLQ est à 42% dans les sondages actuels, ce parti ne bougera pas dans aucune circonscription. Cela semble fort bien fonctionner mais est naturellement faux en cas de bouleversement régional des intentions de votes. En effet, imaginez que le PLQ soit à 42% mais dans les faits, son support a bougé d'une région à l'autre. L'effet net, au niveau provincial, est zéro. Mais dans les faits, ce parti aurait connu beaucoup de variations. Heureusement pour nous, il semble que ce genre de variations ne soient pas si fréquentes, surtout pas dans la période de temps entre deux élections (soit 2-5 ans).

L'objectif est donc de calculer cette fonction de la variation provinciale. Le modèle le plus simple serait de dire que cette variation est uniforme: si un parti a chuté de 3 points provincialement, alors ce parti va perdre 3 points dans chaque circonscription. Cela fournit une relativement bonne approximation mais ne tient naturellement pas compte des effets régionaux ou du  fait d'être un candidat sortant. Ces effets sont importants et nous estimons que les ignorer est une erreur. Pensez par exemple à Mario Dumont. Lorsque son parti a chuté entre 2007 et 2008 de près de moitié, Dumont n'a pas perdu la moitié de ses votes. Il n'a pas non plus perdu autant de points de pourcentage que son parti. Dans les faits, chaque parti a des régions dans lesquelles il est plus ou moins stable. Le fait d'être le candidat sortant augmente aussi en général la résistance d'un parti.

L'idée est donc d'utiliser les résultats des élections précédentes pour estimer ces coefficients régionaux et le fait d'être le candidat sortant pour chaque parti. Ces coefficients vont ainsi nous permettre de transformer une variation de 1-point au niveau provincial en une variation différente dans chaque région du Québec. L'estimation de ces coefficients se fait par la méthode des moindres carrées ordinaires (MCO ou OLS en anglais). En utilisant un logiciel statistique, je régresse la variation d'un parti dans chaque circonscription sur une série de variables: régions (une variable dichotomique pour Montréal-Est, -Ouest, la Montérégie, etc) ainsi qu'une variable prenant la valeur 1 si le parti a remporté cette circonscription lors de la dernière élection. Ces variables sont interagies avec la variation provinciale du parti (afin de respecter notre hypothèse que si le parti ne bouge pas au niveau provincial, alors il ne bougera dans aucune circonscription. Pour la régression, j'utilise les résultats 2003, 2007 et 2008. Si le mot "régression" ne vous dit, pensez comparaisons. Par exemple, en regardant les résultats précédents, on voit que lorsque l'ADQ gagnait 15-points au niveau provincial, ce parti ne montait que de 10-points dans une région comme Mtl-Est. La régression permet simplement de faire ce genre de comparaisons avec plusieurs variables et contrôles.

Ces coefficients constituent le modèle 1.0. Ce dernier fonctionne fort bien mais peu rencontrer des problèmes si un parti connaît une forte variation depuis la dernière élection. Pensez NPD en 2011 ou ADQ en 2007. Cela arrive car le modèle estime les coefficients en utilisant les résultats passés. Or, la situation pour projeter le NPD lorsque ce dernier récolte 40% des voix est dure à estimer avec des données où ce parti oscillait entre 3% et 9%... Un problème en particulier est que le modèle va prévoir une variation linéaire. Par exemple, si le coefficient pour Mtl-Ouest du PLQ est de 0.5, cela signifie qu'une baisse de ce parti de 1 point provincialement ne se transforme en une baisse que de 0.5 point dans chaque comté de Mtl-Ouest. Cela est correct tant et aussi longtemps que le PLQ ne chute pas trop. Imaginez le cas extrême où le PLQ chute à 0%, cela ferait naturellement en sorte que le PLQ serait à 0% dans les comtés de Mtl-Ouest et aurait donc connu une variation forte importante dans cette région. En gros, le PLQ peut être résistant dans certaine régions, mais à un moment donné, la chute doit venir de ces régions aussi. C'est ce qui est arrivé en parti au PLC dans le GTA (Grand Toronto Area) en 2011. Le PLC était traditionnellement fort stable dans cette région. Sauf que voilà, ces appuis étaient en effet stables lorsque le PLC baissait de 50% à 40% en Ontario. Mais quand ce parti est tombé sous les 30% en 2011, la résistance de cette région a faibli.

Pour illustrer ceci, regardez le graphique ci-dessous. Sur l'axe horizontal, vous avez le pourcentage des votes que ce parti recevrait au niveau provincial. Sur l'axe vertical, vous avez les résultats de ce parti dans une région où ce parti performe mieux qu'ailleurs (Imaginons qu'il s'agît par exemple du PLQ dans Montréal Ouest).



Entre 33% et 45% au niveau provincial, on peut estimer la courbe rouge avec les élection précédentes, vu qu'il s'agît de la rangée de résultats observés pour le PLQ entre 2003 et 2008. Mais au-delà de 46% ou en-dessous de 33%, on commence à faire de l'extrapolation. Comme vous pouvez le voir, entre 33% et 45%, le PLQ est non seulement au-dessus de sa moyenne provinciale, mais il est également plus résistant. En effet, la pente de la courbe rouge est moins abrupte que la pente bleue. Cela signifie que lorsque le PLQ perd 1-point au niveau provincial, ce parti ne perd que (disons) 0.8-point dans cette région. Le modèle 1.0 aurait continué cette relation même en cas de forte chute du PLQ. Cela est représenté par la courbe verte. Comme vous pouvez le voir, cela ne fait pas vraiment de sens. En particulier, lorsque le PLQ est à 0% provincialement, le modèle 1.0 aurait continué de projeter ce parti à près de 40% dans cette région, alors qu'il est nécessairement à 0% dans les faits. La question est vraiment de décider à partir de quand ces ajustements sont nécessaires. Après tout, il est possible qu'un parti résiste vraiment bien pendant très longtemps. Mario Dumont dans son comté aurait probablement obtenu un large pourcentage des votes combien même l'ADQ aurait chuté à 5% par exemple.

Pour le modèle 2.0, je décide que ce genre d'ajustement commence si un parti baisse davantage que 10% sous son plus mauvais résultat provincial lors des trois dernière élection. Pour le PLQ, cela veut dire 2008 et son 33%. Ainsi, cela signifie en gros que je commence à modifier ou à ajuster les projections si le PLQ est à moins de 30% dans les sondages. Encore une fois, ce 10% est totalement arbitraire et je pourrais le changer ultérieurement. Cela signifie quand même qu'aucun ajustement n'est fait si le PLQ pointe entre 31% et 49%, un interval pas si petit que cela.

Cependant, l'ajustement est très progressif et n'affecte pas toutes les circonscriptions. Premièrement, je n'ajuste que les comtés dans lesquels le PLQ est au-dessous de sa moyenne provinciale. En effet, pas besoin de le faire si ce parti performe déjà moins bien dans cette circonscription qu'en moyenne (i.e: si la courbe rouge est déjà sous la ligne bleue). Deuxièmement, l'ajustement se fait ainsi: intentions de votes du parti/le seuil * différence entre la projection dans une circonscription et la moyenne provinciale de parti (=les intentions de votes du sondage). En mots, cela signifie que si (mettons) le PLQ est à 20% dans les sondages mais est toujours projeté à (mettons) 50% dans un comté de l'Ouest de l'île, alors l'ajustement se fait ainsi: 50%-1/3*(50%-20%). Le 1/3 vient du fait que le PLQ, a 20%, a perdu 1/3 de ses voix sous le seuil. Donc je retire de la projection 1/3 de la différence entre la projection (qui, rappelons-le, est au-dessus de la moyenne provinciale pour ce parti) et la moyenne nationale, c'est-à-dire ici 30%. Donc le PLQ serait projeté non pas à 50% (ce qui arriverait avec le modèle 1.0 qui ferait juste continuer le pente de la ligne rouge partout tel qu'illustré par la ligne verte), mais à 40%. Toujours supérieur à la moyenne provinciale, mais une chute plus importante. Et à mesure que le PLQ se rapproche de 0%, la projection est aussi ajustée afin de réduire de plus en plus l'écart entre la projection et la moyenne nationale. Comme vous pouvez le voir, dès que que l'on ajuste le résultat, la pente de la ligne rouge est davantage abrupte que la ligne bleue. Une façon plus sophistiquée serait d'avoir un ajustement moins linéaire. Mais pour l'instant, cela est suffisant. Après tout, les grands changements ne sont pas si fréquents en politique.

Un ajustement similaire se fait pour les circonscriptions sous la moyenne provinciale d'un parti si ce dernier connaît une forte poussée. En gros, cela ajuste pour le fait que si le NPD grimpe à 40%, alors ce parti aura augmenté même dans des régions traditionnellement peu séduite par ce parti.

Au final, pas besoin de comprendre tout cela afin de profiter des projections ou même d'utiliser le simulateur. Sachez simplement que le modèle actuel vous permet d'entrez les pourcentages que vous voulez. Donc si vous voulez voir ce qui arriverait si le PQ chutait à 15%, vous pouvez le faire. Rappelez-vous cependant que de telles variations sont de l'extrapolation et sont potentiellement moins fiables que si vous restez "proches" des intentions de résultats passés.

Ce billet (en anglais cependant) vous montre comment ces ajustements peuvent aider à avoir de meilleures projections lors de grands changements, comme ce fut le cas en 2011 au fédéral.