Utiliser des algorithmes pour prédire les élections: un chat avec Drew Linzer

2025

Drew présentera au Big Data Innovation Summit, les 30 et 31 janvier à Las Vegas: http://analytics.theiegroup.com/bigdata-lasvegas, aux côtés de conférenciers d'Obama pour l'Amérique, Best Buy, LinkedIn, The New York Times, Nokia, Bitly, Barnes & Nobles, Walmart Labs et bien d'autres.

Lien d'inscription: http://bit.ly/Zs3wms

Cette interview a été réalisée par George Hill et publiée dans le Big Data Innovation Magazine.

Quel genre de réaction avez-vous eu à vos prédictions?

La majeure partie de la réaction s'est concentrée sur la différence de précision entre ceux d'entre nous qui ont étudié les sondages d'opinion publique et les prédictions de «sentiment d'intestin» des experts et des commentateurs populaires. Le jour du scrutin, des analystes de données comme moi, Nate Silver (blog FiveThirtyEight du New York Times), Simon Jackman (Stanford University et Huffington Post) et Sam Wang (Princeton Election Consortium) ont tous placé les chances de réélection d'Obama à plus de 90% et ont correctement prévu 332 votes électoraux pour Obama comme résultat le plus probable. Pendant ce temps, des experts tels que Karl Rove, George Will et Steve Forbes ont déclaré que Romney allait gagner - et dans certains cas, facilement. Cela a conduit à parler d'une "victoire pour les quants" qui, je l'espère, se poursuivra jusqu'aux prochaines élections.

Comment évaluez-vous l'algorithme utilisé dans vos prédictions?

Mon modèle de prévision a estimé les résultats du vote de l'État et le vote électoral final, chaque jour de la campagne, à partir de juin. Je voulais que l'évaluation de ces prévisions soit aussi juste et objective que possible - et ne me laisse aucune marge de manœuvre si elles étaient erronées. Donc, environ un mois avant l'élection, j'ai affiché sur mon site Web un ensemble de huit critères d'évaluation que j'utiliserais une fois les résultats connus. Il s'est avéré que le modèle fonctionnait parfaitement. Il a prédit au cours de l'été qu'Obama gagnerait tous ses États de 2008 moins l'Indiana et la Caroline du Nord, et a à peine bougé de cette prédiction même après que le soutien à Obama ait légèrement augmenté en septembre, puis a plongé après le premier débat présidentiel.

La quantité de données utilisées tout au long de cette campagne à la fois par des analystes indépendants et des équipes de campagne a été énorme, quel genre d'implications cela at-il pour l'utilisation des données en 2016?

La campagne de 2012 a prouvé que de multiples sources diverses d'informations quantitatives pouvaient être gérées, fiables et appliquées avec succès à diverses fins. Nous, les étrangers, avons pu prédire le résultat des élections bien à l'avance. À l'intérieur des campagnes, d'énormes progrès ont été réalisés dans le ciblage des électeurs, le suivi des opinions, la collecte de fonds et la participation électorale. Maintenant que nous savons que ces méthodes peuvent fonctionner, je pense qu'il n'y a pas de retour en arrière. Je m'attends à ce que les journalistes et les commentateurs de campagne prennent l'agrégation des enquêtes beaucoup plus au sérieux en 2016. Et bien qu'Obama et les démocrates semblent actuellement détenir un avantage dans la technologie des campagnes, je serais surpris si les républicains ne rattrapaient pas rapidement le retard.

Pensez-vous que le succès de cette campagne axée sur les données signifie que les directeurs de campagne doivent désormais être à la fois analystes et stratèges?

Les directeurs de campagne n'ont peut-être pas besoin d'être eux-mêmes des analystes, mais ils devraient mieux comprendre comment les données et la technologie peuvent être exploitées à leur avantage. Les campagnes ont toujours utilisé la recherche par sondage pour formuler une stratégie et mesurer le sentiment des électeurs. Mais maintenant, il existe une gamme d'autres outils puissants disponibles: sites de réseautage social, bases de données d'électeurs, smartphones mobiles et marketing par e-mail, pour n'en nommer que quelques-uns. Et cela s'ajoute aux progrès récents des méthodologies de sondage et de la modélisation de l'opinion statistique. Il y a actuellement beaucoup d'innovations dans la politique électorale américaine.

Vous avez réussi à prédire les résultats des élections 6 mois à l'avance, quel est selon vous le délai maximum réaliste pour prédire avec précision un résultat à l'aide de vos techniques d'analyse?

Environ quatre ou cinq mois, c'est à peu près aussi loin que la science nous laisse aller maintenant; et cela pousse même un peu. Avant cela, les sondages ne sont tout simplement pas suffisamment informatifs sur le résultat final: trop de gens sont indécis ou n'ont pas commencé à prêter attention à la campagne. Les facteurs économiques et politiques historiques qui se sont révélés corrélés aux résultats des élections commencent également à perdre leur pouvoir prédictif une fois que nous avons dépassé la fourchette d'environ 4 à 5 mois. Heureusement, cela donne encore beaucoup de temps aux campagnes pour élaborer une stratégie et prendre des décisions sur la façon d'allouer leurs ressources.

Utiliser des algorithmes pour prédire les élections: un chat avec Drew Linzer

Planifier pour réussir: utiliser des modèles de processus pour atteindre les objectifs commerciaux

Comment les entreprises pourraient-elles utiliser des modèles forestiers aléatoires pour les prévisions?

Pourquoi la visualisation des données est-elle utile pour les algorithmes d'apprentissage automatique?

Le choix des éditeurs

Qu'est-ce qu'un routeur désigné? - définition de techopedia

Qu'est-ce que le pain d'épice Android? - définition de techopedia

Qu'est-ce que le système d'exploitation Android? - définition de techopedia

Qu'est-ce qu'une arme à radiofréquence à haute énergie (Herf)? - définition de techopedia

Le choix des éditeurs

Qu'est-ce que les services dépendants de l'emplacement? - définition de techopedia

Qu'est-ce que la découverte automatique rss? - définition de techopedia

Qu'est-ce qu'un registre de processeur? - définition de techopedia

Qu'est-ce qu'un logiciel de contrôle à distance? - définition de techopedia

Le choix des éditeurs

Qu'est-ce qu'un domaine personnalisé? - définition de techopedia

Qu'est-ce que la mémoire secondaire? - définition de techopedia

Qu'est-ce qu'un champ de caractères variables (varchar)? - définition de techopedia

Qu'est-ce que le graphique variationnel étendu (vgx)? - définition de techopedia

Le choix des éditeurs

Qu'est-ce que le grec? - définition de techopedia

Qu'est-ce que l'audio de forme d'onde (.wav)? - définition de techopedia

Qu'est-ce que la publication électronique? - définition de techopedia

Qu'est-ce que les mots par minute (wpm)? - définition de techopedia

Le choix des éditeurs

Qu'est-ce que la gestion des performances du cloud? - définition de techopedia

Qu'est-ce que la cryptographie à courbe elliptique (ECC)? - définition de techopedia

Qu'est-ce que la surveillance de l'intégrité des fichiers (FIM)? - définition de techopedia

Qu'est-ce qu'un module de sécurité matérielle (hsm)? - définition de techopedia

Catégories populaires