Statistique industrielle et de gestion : Méthodes d’apprentissage statistique en forage de données

Rob Tibshiran, Université Stanford

Hugh Chipman, Université Acadia
 

Cet atelier présente une vue d’ensemble des méthodes statistiques applicables au forage de données, à l’inférence et à la prédiction. La disponibilité croissante d’une « avalanche de données » a conduit à une demande accrue de compétences statistiques telles que la visualisation, l’apprentissage et la modélisation statistiques. Ce cours traite en détail des principaux outils de l’apprentissage supervisé, y compris les méthodes dites du lasso, des données éparses, des forêts aléatoires et du boosting. L’atelier couvre également de nombreux nouveaux domaines de l’apprentissage non supervisé et du forage de données, dont la visualisation, la réduction de la dimension linéaire et non linéaire, le regroupement et l’analyse de structures de données complexes telles les données fonctionnelles et de réseau. Nous discuterons du calcul et notamment de la mise en œuvre de certaines de ces méthodes sous R. Nous utiliserons pendant tout l’atelier des exemples tirés du monde des affaires, de l’industrie ou d’autres domaines pour prouver nos idées.