Concours d'affiche d'études de cas en analyse de données 2015

Un concours d’affiches d’études de cas en analyse de données aura lieu durant le congrès annuel à Halifax, du 14 au 17 juin 2015. Un prix sera décerné à la meilleure affiche pour chacune des deux études de cas. Le montant du prix pour chaque étude de cas est fixé à 500 $ pour 2015. Cette somme sera partagée en parts égales par les participants de chaque équipe gagnante. Le Comité du Prix des études de cas en analyse de données tiendra compte à la fois de la qualité de l’analyse des données et de la présentation des résultats. Le Comité du Prix des études de cas en analyse de données se réserve le droit de ne pas décerner de prix pour l’une ou l’autre des études de cas si le nombre de soumissions est insuffisant.

Les études de cas sont destinées à des équipes d’étudiants diplômés ou en dernière année de bac, travaillant avec ou sans professeur mentor. Chaque équipe choisira d’analyser l’un des deux ensembles de données décrits ci-après et présentera un résumé des méthodes utilisées et des résultats de ses analyses lors d’une séance d’affiches pendant le congrès annuel. La date et l'heure de l’évaluation des affiches seront communiqués à toutes les équipes à l'avance de la réunion annuelle.

Inscription au concours

Les équipes intéressées à participer doivent envoyer un courriel à Georges Monette en indiquant les noms de tous les membres de l’équipe, leurs adresses de courriel et l'étude de cas choisie pour le concours. La date limite pour l’inscription est le 30 avril 2015.

Notez qu'au moins un membre de chaque équipe doit s'inscrire et assister au congrès annuelle de la SSC. Notez également que la date limite pour les taux réduit sur les frais d'inscription est le 15 avril 2015.





 


Étude de cas 1: L’emploi des jeunes et la crise de 2008

Provenance des données: Statistique Canada. Enquête sur la population active grâce à l'Initiative de démocratisation des données: EPA 2002-2014

Organisatrice: Heather Krause, Datassist

Contexte:

On a dit que la crise financière de 2008 (Tancer, 2012) a causé une grande augmentation du chômage chez les jeunes et a peut-être eu un effet à long terme sur la demande par rapport à l'emploi dans les différents secteurs.

Questions:

Question 1: Basé sur votre analyse des données, est-ce vrai dans tous les domaines au Canada? Comment l'impact est-il différent pour les jeunes hommes et les jeunes femmes dans divers secteurs? Dans quelle mesure l'emploi des jeunes au sein de diverses industries a-t-elle récupéré?

Question 2: Vous avez une fille à l'école secondaire. Basé sur votre analyse de ces données, quels conseils de carrière lui donneriez-vous? Ces conseils sont-ils identiques ou différents pour son frère jumeau?

Données à utiliser:

L'enquête de Statistique Canada sur la population active (2015) compile des données sur les variables qui permettent une analyse des effets de la crise. Presque toutes les universités canadiennes participent à l'Initiative de démocratisation des données de Statistique Canada (IDD), qui donne aux étudiants l'accès aux microdonnées longitudinales de l'Enquête sur la population active. Un ensemble de données comprenant une sélection de variables de 2002 à 2014 a été compilé et est disponible à des étudiants inscrits dans les universités participant à l'IDD en contactant Georges Monette. Les participants à l'étude de cas peuvent également obtenir des variables supplémentaires , s’ils le souhaitent, par l’entremise des représentants de l'IDD à leur propre université. Voir la liste des établissements participants et leurs représentants.

Références:

[1] Daniel Tancer ( 2012 ). Canada Emploi Expositions marché disparités énormes , People Patterns rapport. Huffington Post . Publié le 5 septembre , 2012. Disponible à partir : http://www.huffingtonpost.ca/2012/05/09/canada-job-market-exhibit_n_1504...

[2] Statistique Canada ( 2015 ) Enquête sur la population active . Disponible à partir : http://www23.statcan.gc.ca/imdb/p2SV_f.pl?Function=getSurvey&SDDS=3701





 


Étude de cas 2: Stratégie du baseball

Provenance des données: Deux paquetages R: PitchRx, Lehman et le site Retrosheet (www.retrosheet.org)

Organisateur: Dave Campbell (dac5@sfu.ca)

Contexte:

De tous les sports, le baseball a probablement généré les analyses statistiques les plus vastes et les plus complexes. Albert (2010) propose un nombre de questions à explorer avec les données obtenues en combinant trois ensembles de données qui sont facilement disponibles. Deux de ces ensembles de données sont disponibles via les paquetages en R (R Core Team, 2014): le paquetage Lehman (Friendly, 2014) et le paquetage pitchRx (Sievert, 2014). Un troisième ensemble de données avec des données action-par-action (de l’anglais play-by-play), Retrosheet (Pankin, 2015), peut être téléchargé pour une utilisation dans R en suivant les instructions fournies par Albert (2014).

Questions:

Le but de cette étude de cas est d'utiliser ces ensembles de données afin d’explorer une de deux questions proposées dans une communication personnelle par Green (2015).

Chaque équipe choisit laquelle des deux questions elle souhaite explorer et elle doit présenter les résultats pour une seule question.

Question 1:Quelle est la valeur relative, pour une équipe, de la moyenne au bâton d’un joueur (non-lanceur) comparé avec sa compétence à la défense? Ce rapport dépendra de la position du joueur en défense. (Green, 2015)

Question 2: Quel est l'impact (sur les points marqués ou victoires) de l'ordre des joueurs au bâton? Traditionnellement, le joueur avec la moyenne au bâton la plus élevée frappe d'abord. Un frappeur de contact fort (avec peu de retraits sur prises) frappe en deuxième place. Les troisième et quatrième frappeurs sont des frappeurs forts qui frappent beaucoup de coups de circuit. Certains se sont prononcés contre cette tradition et ils prétendent que vous devez tout simplement mettre votre "meilleur" frappeur en première position, votre "deuxième meilleur" frappeur en deuxième, et ainsi de suite, sur la justification qu’ainsi vos meilleurs frappeurs passeront au bâton plus souvent, en moyenne, au cours d'une saison. Comment mesurer la qualité des frappeurs suscite une certaine controverse. (Green, 2015).

Références:

[1] Jim Albert (2010). Baseball data at Season, Play-by-Play, and Pitch-by-Pitch Levels. Journal of Statistics Education, 18, Récupérée de http://www.amstat.org/publications/jse/v18n3/albert.pdf

[2] Jim Albert (2014). Exploring Baseball Data with R, Récupérée de https://baseballwithr.wordpress.com/2014/02/10/downloading-retrosheet-da...

[3] Christopher Green (2015). Communication personnelle.

[4] Michael Friendly (2014). Lahman: Sean Lahman's Baseball Database. R package version 3.0-1.

[5] Mark Pankin (2015). Retrosheet. Récupérée de www.retrosheet.org

[6] R Core Team (2014). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL http://www.R-project.org/.

[7] Carson Sievert (2014). Taming PITCHf/x Data with {pitchRx} and {XML2R} The R Journal, 6(1). Récupérée de http://journal.r-project.org/archive/2014-1/sievert.pdf.

[8] Carson Sievert (2014). pitchRx: Tools for Harnessing MLBAM Gameday data and Visualizing PITCHf/x. R package version 1.6.