Défi des données CANDEV
Ottawa 2020 - Samedi - le 18 janvier
Cours accéléré de Github
Faites fonctionner votre dépôt Github dès la porte ! Apprenez les bases de Github et comment accéder au repo de CANDEV.
Par: Jean-Philippe Tissot
Requis: Git, Client Git GUI
FastText: classification du texte rapide
Fasttext apprend efficacement la représentation des mots pour classer le texte rapidement. Cette présentation vous guidera à travers le simple pipeline du nettoyage du texte brut pour prévoir des étiquettes.
Par: Joanne Yoon
Requis: un compilateur C++ // Bibliothèque: FastText (Python)
Développement d'un tableau de bord à l'aide de R-Shiny
Un guide étape par étape sur la création d'un tableau de bord R Shiny. Il y aura une démonstration d'un produit R Shiny développé par la division de l'agriculture de StatCan qui permet une analyse transversale de l'industrie agricole.
Par: Omar Youssouf
Requis: R/R Studio // Packages: reshape2, spdplyr, tidyverse, shinythemes, shiny, leaflet, rgdal, magrittr, rgeos, httr, stringi, readxl, plotly, ggplot2, lubridate
Intro à RegEx: Recherche de chaînes pour l'extraction et le nettoyage de données
Une introduction à la recherche de chaînes de caractères à l'aide d'expressions régulières, avec un accent sur l'extraction et le nettoyage de données à partir d'ensembles de données atypiques. Les concepts de base de regex seront introduits et mis en pratique avec des exercices.
Par: Margarita Bozhinova
Aucun logiciel requis
PowerBI: éléments de base
Familiarisez-vous avec PowerBI et apprenez comment importer et manipuler les données pour créer des visuels de données et des tableaux de bord dynamiques.
Par: Raphael Duteau
Aucun logiciel requis
Modélisation des sujets: Allocation Dirichlet latente avec R
Apprenez à utiliser le modèle bayésien hiérarchique pour déduire les sujets sous-jacents dans un ensemble de documents et comment affecter les proportions thématiques à chaque document, en utilisant R.
Par: Ken Chu
Requis: R/R Studio // Packages: text2vec, dplyr, tidyr, ComplexHeatmap, ggplot2, gplots, circlize, xml2, stopwords
Obtenir des données de l’Internet avec Python: API, requêtes et analyse HTML
Dans cet atelier, vous serez initié à l'utilisation de Python pour accéder aux données des API (à savoir, le géocodage et les directions de voyage de OpenRouteService), télécharger des données à partir de liens Internet, et effectuer le grattage Web de base des données tabulaires en utilisant BeautifulSoup.
Par: Joseph Kuchar
Requis: Anaconda (pour Python) // Bibliothèque: BeautifulSoup
Dimanche - le 19 janvier
Comment présenter efficacement
Apprenez comment vous pouvez adapter votre message pour vous propulser jusqu'à la ligne d'arrivée!
Par: Midia Shikh et Anthony Daigle
Aucun logiciel requis
Comment se préparer ?
Le Défi des données CANDEV est une excellente opportunité pour les étudiants de se familiariser avec de nouvelles technologies et méthodes statistiques. Nous offrirons des ateliers de courte durée et spécialisés qui aideront les étudiants à perfectionner leur solution et leur présentation devant les juges. Afin de tirer le meilleur parti des ateliers, nous demandons aux étudiants de télécharger les logiciels suivant (veuillez consulter le calendrier des ateliers pour connaître les exigences spécifiques):
- R et Rstudio
- Anaconda (pour Python 3.7)
- Microsoft Power BI Desktop
- Notepad++
- Pour plus d'information :
-
Visitez le site Web de Statistique Canada.
Suivez-nous en utilisant #CANDEV: LinkedIn | Twitter | Facebook | Instagram | YouTube
Besoin d'assistance? Contactez-nous.