Loading Events

« All Events

  • This event has passed.

Statistiques avec R

6 September 2021 | 8h30 10 September 2021 | 14h30 WAT

Pour une fois de bon

Entreprenez-vous ? Enseignez-vous ? Faites-vous de la recherche ?

Que vous soyez Entrepreneur(e), Enseignant(e) et ou Chercheur(e), Etudiant(e), etc., il est impératif de maitriser le maniement des outils statistiques et les principes sous-jacents tels que les théories statistiques pour parvenir à une bonne décision. Même si vous disposez d’un Scientifique ou Analyste des données, vous devriez vous outiller pour éviter de vous immerger dans la tromperie. Par ailleurs, les professionnels des données sont de plus en plus recherchés. Et si vous vous mettiez à jour ? Ça vous dit n’est-ce pas ? Accaparez dès maintenant les cinq (05) modules que nous vous avons préparé pour changer votre “Status” et vous démarquer. Aucun prérequis n’est demandé !

Pour avoir de réponse à une question après un constat ou une observation attentionnée, nous procédons très souvent à la collecte d’informations par une enquête, prise de notes sur le terrain ou par une expérimentation. Ces informations communément appelées ‘’les données ‘’ forment le dorsal des statistiques, qui étudient comment bien collecter ces données, les analyser et tirer la bonne conclusion. Dans ce module, vous apprendrez ces principes en des étapes ci-dessous :

1.1. Les transformations des des données

  • Importer des données sous leurs différentes formes (extensions)
  • Mettre en ordre les données
  • Discuter des types de variables
  • Muter la table des données par : conversion des types de variables, filtrage, sélection, ajout/soustraction des modalités, création de nouvelle variable, etc.

1.2. Les types d’étude

  • Définir des études observationnelles et expérimentales
  • Discuter de la portée de l’inférence Grille 2×2 avec assignation aléatoire et échantillonnage
  • Définir le paradoxe de Simpson

1.3. Les stratégies d’échantillonnage et plan expérimental

  • Définir un échantillon aléatoire simple (EAS), un échantillon stratifié, un échantillon en grappes, un échantillon à plusieurs degrés
  • Utiliser R pour obtenir le EAS et l’échantillon stratifié
  • Discuter des avantages et des inconvénients du choix d’un plan d’échantillonnage plutôt qu’un autre
  • Identifier les principes de la conception expérimentale
  • Discuter du but de chaque principe
  • Utilisez R pour effectuer une affectation

La première étape la plus logique et la plus utile de toute analyse de données est une analyse exploratoire. Et un élément très important et informatif de l’analyse exploratoire des données est la visualisation. Ce module vous permettra à utiliser des techniques graphiques et numériques pour découvrir la structure des données. Il sera également en partie les techniques de personnalisation (travailler avec les thèmes, légendes, axes, titres, couleurs, marges, fonds, lignes, textes, coordonnées, etc.) pour générer des graphiques à la fois perspicaces et beaux. Dans ce module, vous apprendrez :

2.1. Visualisation des données catégorielles

  • Représentation graphique de deux variables catégorielles
  • Représentation tabulaire de deux variables catégorielles
  • Représentation graphique d’une variable catégorielle

2.2. Visualisation des données numériques

  • Représentation graphique d’une variable catégorielle et d’une variable numérique
  • Boxplots
  • Courbes de densité
  • Représentation graphique d’une variable numérique
  • Histogramme
  • Détection des valeurs aberrantes

2.3. Résumer avec des statistiques

Statistiques pour décrire les distributions de données.

  • Centre : moyenne, médiane, mode
  • Forme : asymétrie, modalité
  • Etalage : plage, IQR, SD, variance
  • Observations inhabituelles
  • Transformations : Logarithme et sqrt pour réduire l’asymétrie dans les graphiques et faciliter les comparaisons.

L’analyse des données consiste à comprendre les relations entre les variables. L’exploration de données avec plusieurs variables nécessite de nouveaux outils plus complexes, mais permettent un ensemble de comparaisons plus riche. Dans ce module, vous apprendrez à décrire les relations entre deux variables numériques. Vous caractériserez ces relations graphiquement, sous forme de statistiques récapitulatives, et au travers de modèles de régression linéaire simples.

Vous passerez également au niveau supérieur avec vos compétences en régression linéaire simple. En apprenant les techniques de régression multiple et logistique, vous acquerrez les compétences nécessaires pour modéliser et prédire les résultats numériques et catégoriques à l’aide de plusieurs variables d’entrée. Vous apprendrez également à ajuster, visualiser et interpréter ces modèles. Ci-dessous se trouve le contenu du module.

3.1. Visualiser deux variables (module précédent)

  • Explorer graphiquement les relations bivariées
  • Caractériser les relations bivariées
  • Créer et interpréter des nuages ​​de points
  • Discuter des transformations
  • Identifier les valeurs aberrantes

3.2. Corrélation

  • Quantifier la force d’une relation linéaire
  • Calculer et interpréter la corrélation de Pearson
  • Identifier les fausses corrélations

3.3. Régression linéaire simple

  • Visualisez un modèle linéaire simple en tant que ligne de « meilleur ajustement »
  • Conceptualiser la régression linéaire simple
  • Ajuster et décrire des modèles de régression linéaire simples
  • Internaliser la régression à la moyenne

3.4. Interprétation des modèles de régression

  • Interpréter la signification des coefficients dans un modèle de régression
  • Comprendre l’impact des unités et des échelles
  • Travailler avec des objets de modèle linéaire dans R
  • Faire des prédictions à partir de modèles de régression
  • Superposer un modèle de régression sur un nuage de points

3.5. Ajustement du modèle

  • Évaluer la qualité de l’ajustement d’un modèle de régression
  • Interpréter R2
  • Mesurer l’ effet de levier et l’influence
  • Identifier et traiter les valeurs aberrantes

3.6. Pistes parallèles

  • Visualiser, ajuster et interpréter un modèle de pentes parallèles, qui a une variable explicative numérique et une variable catégorique
  • Décrire un modèle de trois manières différentes : mathématiquement, graphiquement et via la syntaxe R

3.7 – Évaluation et extension du modèle de pentes parallèles

  • Évaluer et interpréter l’ajustement du modèle
  • Calculer les résidus et les prédictions
  • Ajuster et interpréter les modèles d’interaction
  • Reconnaître le paradoxe de Simpson

3.8 – Régression multiple

  • Visualiser, ajuster et interpréter un modèle de régression multiple avec deux variables explicatives numériques
  • Visualiser, ajuster et interpréter un modèle de plans parallèles avec deux variables explicatives numériques et une variable catégorielle
  • Ajuster et interpréter des modèles de régression multiple dans des dimensions supérieures
  • Comprendre et identifier la multicolinéarité

3.9 – Régression logistique

  • Visualiser, ajuster et interpréter des modèles de régression logistique
  • Interpréter les coefficients sur trois échelles différentes
  • Faire des prédictions à partir d’un modèle de régression logistique

L’une des tâches fondamentales de la science et d’autres disciplines consiste à utiliser un échantillon de données pour comprendre les aspects d’une population plus large. Les conclusions tirées sur cette population utilisent une méthode appelée inférence statistique. Bien qu’apparemment à l’envers, la logique derrière l’inférence statistique est de rejeter une affirmation de recherche qui ne présente pas d’intérêt (validant ainsi l’affirmation d’intérêt).

L’inférence statistique joue un rôle dans de nombreuses analyses de données différentes. Dans ce module, nous introduisons l’idée d’une p-value. Nous introduisons également des intervalles de confiance qui fournissent une gamme de valeurs plausibles pour la mesure d’intérêt.

4.1. Variabilité d’échantillonnage

Le principe fondamental selon lequel il existe une variabilité entre différents échantillons sera étudié dans cette section. Vous serez en mesure de caractériser la variabilité entre les échantillons par rapport à la population sous-jacente. 

4.2. Test de randomisation

Vous saurez effectuer un test de randomisation complet. Pour un ensemble de données et une question de recherche donnés, vous identifierez des hypothèses et déciderez s’il est approprié ou non de rejeter l’hypothèse nulle.

4.3 Erreurs dans les tests d’hypothèses

Vous apprendrez à faire la distinction entre une erreur de type I et II. De plus, vous apprendrez le rôle important que joue le nombre d’observations dans la réduction des taux d’erreur.

4 – Paramètres et intervalles de confiance

Vous apprendrez à créer des intervalles de confiance pour une seule proportion de la population. Un intervalle de confiance fournira une gamme de valeurs plausibles pour estimer la valeur inconnue de la population. 

Dans ce module de formation vous apprendrez à générer un rapport dynamique incorporant du code R, les sorties de ce code (résultats, graphes, tableaux) et des commentaires avec R Markdown. Les documents R Markdown sont entièrement reproductibles et prennent en charge des dizaines de formats de sortie, tels que les PDF, les fichiers Word, les diaporamas, etc.

Ce module vous permettra de rédiger des rapports qui peuvent être être utilisés de trois manières :

  1. Pour communiquer avec les décideurs, qui veulent se concentrer sur les conclusions, pas sur le code derrière l’analyse.
  2. Pour avoir collaboré avec d’autres analyste des données (y compris votre futur !), qui sont intéressés à la fois par vos conclusions et par la manière dont vous les avez atteintes (c’est-à-dire le code).
  3. En tant qu’environnement où vous pouvez capturer non seulement ce que vous avez fait, mais aussi ce que vous pensiez.

Université d’Abomey-Calavi

Laboratoiree d'Ecologie Appliquée (LEA)/UAC
Abomey-Calavi, Bénin
+ Google Map
40400XOF Vous payerez 35.000 XOF si vous choisissez les cinq modules (13.36% de réduction)