Collecter et analyser des données (M376)

Contenu

Informations générales sur ce cours

Titre et compétences

Objectifs évaluateurs

Objectifs concrets

Rendu

Votre avis

Théorie - Les concepts de l'analyse des données

Données quantitative

Données qualificatives

Les niveaux d'analyse

L'analyse descriptive

L'analyse exploratoire

Analyse inférentielle

Analyse prédictive

L’analyse prescriptive

Les outils de la data analyse

Les outils propriétaires

Les langages de programmation

Les outils BI

L'outil universel

Théorie - Récolter les données

Conseils pour un sondage

Soigner son panel

Les questions statistiques

Les 7 conseils pour un sondage

Travail personnel - Préparer les données

Les principes de la normalisation des données

Les fichiers

Bonus

Théorie - Révision Excel

La révision est-elle nécessaire ?

Quelques exercices de révision

Les raccourcis clavier

Exercice final tableaux

Quelques fichiers

Fonctions utiles

Votre premier mandat de Data Analyste

Définition du mandat

Sources des données

Commencer votre Rapport - ex 1

Exercice 2 : vision globale

Autres exemples

Exercice 3 : Préparation rapport

Exercice 4 : Chiffres clé

Exercice 5

Python pour Data Analyse - les Bases

Tous les types de variabées

Numériques, int

String, boolean

List, boucle for

Variable de type list

Variable de type dict, dictionnaire

Ajouter un élément à un tableau

Théorie - Python pour Data Analyse - NumPy

Bibliothèque numPy

Créer un tableau à 1 dimension

Tableau à 2 dimensions

Récupérer la dimension d'un tableau

Fichier à télécharger

Ouvrier des données au format csv

Type de données d'un tableau

Importer au format UTF

Extraire la 2ème ligne (ligne 1)

Extraire une donnée précise

Sélectionner une colonne

Sélectionner une ligne

Choisir des lignes et des colonnes

Filtrer une table

Filtrer sur 2 critères

Copier un jeu de données

Remplacer des données

Support de cours

Informations générales sur ce cours

Titre et compétences

Module 376 Collecter et analyser des données

Compétence opérationnelle c3: Collecter les données
Si les données et informations nécessaires font défaut, les développeurs de business numérique CFC se chargent de les collecter de manière autonome:

Ils planifient la collecte des données et l’effectuent au moyen de la méthode appropriée. Pour ce faire, ils recourent typiquement à des interviews ou à des sondages simples. Ils enregistrent les données collectées sous une forme ad hoc et dans la qualité appropriée. Lors de la collecte des données, ils procèdent de manière analytique et avec le doigté nécessaire.

Compétence opérationnelle c6: Exploiter les données et établir des rapports simples
Les développeurs de business numérique CFC procèdent à des exploitations de données aisément compréhensibles:
Ils déterminent les outils appropriés, exploitent les données à l’aide de requêtes ciblées, établissent des rapports clairs en fonction des questions traitées et en tirent une conclusion concise. Ils documentent les résultats de manière compréhensible pour autrui. Ils peuvent aussi traiter de questions plus complexes et, si nécessaire, demander un soutien.

Voir l'ordonnance

Objectifs évaluateurs

c3.1 En fonction des exigences, ils planifient la collecte des données (y c. mode de collecte, sources, format cible des données).
c3.2 Ils colt les données dans le cadre d’interviews avec les personnes sélectionnées.
c3.3 Ils relèvent les données par le biais d’un sondage simple.
c3.4 Ils enregistrent les données recueillies dans la forme et la qualité appropriées.

c6.1 Ils déterminent les outils appropriés (p. ex. PowerBI, Tableau, Qlik) pour exploiter les données.
c6.2 Ils exploitent les données à l’aide de requêtes ciblées (p. ex. au moyen de SQL).
c6.3 Ils établissent des rapports simples et clairs selon les objectifs et les questions définis.
c6.4 Ils tirent une conclusion concise de l’exploitation des données et la consignent de manière compréhensible et étayée.

Objectifs concrets

Réaliser un projet complet de sondage
Tester d'autres formes d'acquisition de données
Analyser des données fournées avec plusieurs outils
Publier un rapport de synthèse
Créer un jeu de données sur votre sondage

Pour chaque tâche fournir un mini rapport qui décrit et illustre votre travail. Ces rapports devront être fournis en fin de cours lors de la clôture.

Jour 1 : réaliser un sondage

Objectif du sondage
Public cible
Définir les questions de votre client
Préparer le questionnaire
Décrire le questionnaire
Tester le questionnaire (camarades, famille, etc)

Phase 2

Exploiter les données (fictives?)
Créer la base de données
Nettoyer les données
Designer le rapport
Créer le rapport final
Présenter le rapport

Rendu

1 questionnaire / sondage, présentation des questions/champs

2 des réponses au questionnaire

3 une critique constructive de votre questionnaire

4 un rapport avec analyse des données récoltées (ou fictives)

1 présentation rapide de la structure de données spotify

2. un dossier pour client CIE Radio sur PowerPoint

1 un journal de travail (oral ou écrit)

Votre avis

Un dernier sondage

https://forms.gle/YG61jZj3oiLY9kzr8

Théorie - Les concepts de l'analyse des données

Données quantitative

La taille d’une personne, exprimée en centimètres (par exemple : 175 cm).

C’est une donnée quantitative car elle est mesurable numériquement et permet de faire des opérations mathématiques comme la moyenne, l’écart-type, etc.

Types

Donnée quantitative discrète

Peut prendre uniquement des valeurs entières (souvent issues d’un comptage).

Exemple :
Nombre d’enfants, nombre de voitures, nombre de messages reçus

Données quantitative continue

Peut prendre toutes les valeurs possibles dans un intervalle (même des décimales)

Exemple :
Taille (ex : 175,2 cm), poids (ex : 68,5 kg), température

Données qualificatives

Une donnée qualitative est une information qui décrit une qualité, une caractéristique ou une catégorie. Elle ne peut pas être mesurée numériquement, mais elle permet de classer ou nommer des éléments.

Exemples :
Nationalité : suisse, française, italienne…
Genre : homme, femme…
Musique préférée : jazz, rock, classique…
État civil : célibataire, marié, divorcé

Les données nominales

Donnée qualitative sans ordre particulier entre les valeursCouleur des yeux : bleu, vert, marron

Genre : homme, femme
Nationalité : suisse, italienne, française

On ne peut pas classer ou hiérarchiser les valeurs

Les données ordinales

Donnée qualitative avec un ordre logique entre les valeurs

Niveau d’étude : primaire, secondaire, universitaire
Niveau de satisfaction : faible, moyen, élevé
Taille de t-shirt : S, M, L, XL

On peut classer les valeurs selon un ordre

Les niveaux d'analyse

Analyse descriptive

But : Résumer et décrire les données observées.
Outils : Moyenne, médiane, écart-type, tableaux, graphiques (histogramme, diagramme circulaire…)
Exemple : Moyenne d’âge des étudiants d’une classe, répartition par genre.

Analyse exploratoire

But : Découvrir des tendances, structures ou relations cachées dans les données, sans hypothèse préalable.
Outils : Visualisations, corrélations, matrices de dispersion, ACP (analyse en composantes principales), regroupements (clusters).
Exemple : Explorer un grand jeu de données pour identifier des profils types de consommateurs.

Analyse inférentielle (ou statistique inférentielle)

But : Faire des prédictions ou des généralisations à partir d’un échantillon vers une population.
Outils : Tests d’hypothèse (t-test, chi², ANOVA), intervalles de confiance, régressions.
Exemple : Estimer la proportion de personnes favorables à une réforme dans une population, à partir d’un sondage.

Analyse prédictive

But : Prévoir des résultats futurs en se basant sur des données passées.
Outils : Régressions, arbres de décision, modèles de machine learning (réseaux de neurones, forêts aléatoires…)
Exemple : Prédire le chiffre d’affaires d’un magasin pour le mois prochain.

Analyse prescriptive

But : Recommander des actions en se basant sur des prédictions et des simulations.
Outils : Optimisation, scénarios, algorithmes de décision.
Exemple : Proposer le meilleur itinéraire de livraison en fonction du trafic et des coûts.

L'analyse descriptive

L’analyse descriptive consiste à résumer et présenter les données de manière simple et claire, sans en tirer de conclusions. Elle permet de comprendre les grandes tendances d’un ensemble de données.

Outils utilisés :

Moyenne, médiane, mode
Pourcentages
Tableaux, graphiques (camembert, histogramme…)

Exemple :

Calculer l’âge moyen des élèves d’une classe
Afficher la répartition des réponses à un sondage

L'analyse exploratoire

L’analyse exploratoire vise à explorer les données pour y découvrir des tendances, relations ou anomalies, sans idée préconçue au départ.

Outils utilisés :

Corrélations, nuages de points
Graphiques croisés, regroupements (clusters)
Analyse en composantes principales (ACP)

Exemple :

Identifier des groupes de clients avec des comportements d’achat similaires
Repérer des relations entre deux variables (ex : âge et revenu)

Analyse inférentielle

L’analyse inférentielle permet de tirer des conclusions ou de faire des généralisations sur une population à partir d’un échantillon de données.

Outils utilisés :

Tests d’hypothèse (t-test, chi², ANOVA)
Intervalles de confiance
Régressions

Exemple :

Tester si la moyenne des salaires dans une entreprise diffère selon le sexe
Estimer la proportion de personnes favorables à une réforme dans une population à partir d’un échantillon

Analyse prédictive

L’analyse prédictive utilise les données passées pour prévoir des événements futurs ou des tendances.

Outils utilisés :

Régression linéaire, séries temporelles
Modèles de machine learning (arbres de décision, réseaux de neurones, etc.)

Exemple :

Prédire le chiffre d'affaires d'un magasin pour les mois à venir
Estimer le risque de défaut de paiement d'un client

L’analyse prescriptive

L’analyse prescriptive recommande les meilleures actions à entreprendre pour atteindre un objectif, souvent en optimisant des processus ou des ressources.

Outils utilisés :

Algorithmes d'optimisation
Simulations, scénarios, arbres de décision

Exemple :

Recommander le meilleur itinéraire de livraison pour minimiser les coûts
Optimiser le planning de production dans une usine pour maximiser l'efficacité

Les outils de la data analyse

Les outils propriétaires

Il existe de nombreux outils qui proposent d'analyser leurs propres données, je citerai

Salesforce : qui analyse le comportement des clients

Google Ad : qui analyse très bien le comportement des internautes autour d'un ensemble de sites

Les langages de programmation

Je relèverai ici 2 langages de programmation orientés vers l'analyse des données

Python

le langage R

Getting to know the R programming language - WorkingNation

Ces langages sont très ouverts, mais demandent un apprentissage relativement long.

Les outils BI

Ces outils sont payants dans leur version complète, mais offrent un panel de fonctionnalités très riche.

Power BI

Tableau

Tableau Logos

Qlik Sense

Qlik Sense | Profile | Carnal Software

L'outil universel

Excel

Puissant, universel et facilement ccessible.

Dans un projet d'envergure, Excel sera employé conjointement avec les autre soutils.

Théorie - Récolter les données

Conseils pour un sondage

Voici les règles principales à suivre pour réaliser un bon sondage et traiter les données avec des outils statistiques :

1. Définir clairement l'objectif du sondage

Pourquoi faire ce sondage ?
Quel type d’information ou de décision souhaitez-vous obtenir ?

2. Choisir un échantillon représentatif

Méthode d’échantillonnage : Utilisez des méthodes d’échantillonnage appropriées (échantillonnage aléatoire, stratifié, etc.) pour éviter les biais.
L’échantillon doit être suffisamment grand pour avoir une bonne représentativité de la population cible.

3. Formuler des questions claires et précises

Éviter les ambiguïtés : Les questions doivent être simples et compréhensibles par tous les répondants.
Questions fermées vs questions ouvertes : Choisissez selon le type de données que vous souhaitez recueillir (quantitatives ou qualitatives).

4. Assurer la confidentialité et la transparence

Les participants doivent savoir comment leurs réponses seront utilisées.
Il est crucial de protéger les données personnelles des répondants.

5. Testez le questionnaire avant de le déployer

Réalisez un test pilote sur un petit échantillon pour vérifier la clarté des questions et identifier d’éventuelles erreurs ou biais.

6. Garantir la validité et la fiabilité des réponses

Les données doivent être fiables : assurez-vous que les répondants comprennent les questions de manière similaire et qu’il n’y ait pas de confusion.
Évitez les biais : comme les biais de sélection ou de réponse.

7. Collecte des données de manière cohérente

Uniformité dans la manière de collecter les données (en ligne, téléphone, face-à-face, etc.) pour éviter de fausser les résultats.

8. Analyse des données avec des outils statistiques appropriés

Nettoyage des données : Vérifiez les erreurs et anomalies (données manquantes, incohérences).
Choisissez les outils statistiques adaptés selon les objectifs du sondage :
- Moyennes, médianes, modes pour des analyses descriptives
- Tests d’hypothèses pour des analyses inférentielles
- Modèles prédictifs si vous souhaitez faire des prédictions basées sur les résultats.

9. Interprétation des résultats avec prudence

Évitez de généraliser au-delà de la population cible.
Prenez en compte les limites méthodologiques de votre sondage, telles que la taille de l’échantillon ou les biais potentiels.

10. Représenter les résultats de manière compréhensible

Utilisez des graphismes et des tableaux pour rendre les résultats facilement accessibles et compréhensibles par tous, même ceux sans expertise statistique.

Soigner son panel

1. Transparence de l’information : Clarifiez l’objectif de l’étude et l’utilisation des données de manière explicite. Mettez en place des politiques de confidentialité transparentes et obtenez le consentement des participants, assurant ainsi une communication ouverte et honnête.

2. Anonymat dans la collecte : Préservez la confidentialité en utilisant des méthodes de collecte anonymes. Encouragez l’anonymat, en particulier pour des sujets délicats, et ajustez les mesures de protection en fonction du degré de sensibilité des informations collectées.

3. Protection des données : Formez le personnel sur les bonnes pratiques de gestion des données. Établissez des contrôles d’accès stricts pour garantir la sécurité des informations. Développez un plan solide pour l’élimination ou la conservation sécurisée des données, renforçant ainsi la protection des données sensibles.

4. Respect des réglementations : Intégrez dès la conception des questionnaires les normes de protection des données. Restez informé des évolutions légales, en particulier en ce qui concerne les réglementations en vigueur, pour assurer une conformité continue.

5. Usage de panels préétablis : Simplifiez le processus d’étude en privilégiant l’utilisation de panels existants. Optez pour des panels gérés activement afin de garantir la qualité des résultats. Cultivez la confiance des participants pour établir des partenariats durables.

Les questions statistiques

Questions statistiques

(Elles nécessitent des données, souvent issues d'un échantillon ou d'une population, pour y répondre)

Combien d'heures en moyenne les élèves de ma classe dorment-ils par nuit ?
Il faut interroger plusieurs élèves pour obtenir des données.
Quelle est la taille moyenne des enfants de 10 ans en Suisse ?
On a besoin de mesurer plusieurs enfants pour répondre.
Quel est le pourcentage de personnes qui prennent les transports en commun pour aller au travail ?
Cela nécessite une enquête ou des statistiques officielles.
Combien de films les lycéens regardent-ils par mois en moyenne ?
On doit collecter les réponses de plusieurs lycéens.
Quelle est la répartition des notes au dernier examen de maths ?
Cela demande les notes de tous les élèves.

Questions non statistiques

(Elles concernent des faits uniques ou des opinions, pas besoin de recueillir des données)

Combien d'heures as-tu dormi cette nuit ?
Question personnelle, réponse unique.
Quelle est la capitale de la Suisse ?
C’est un fait, la réponse est fixe (Berne).
Aimes-tu les maths ?
C’est une opinion personnelle.
Quelle est la note de Paul au dernier test ?
Une seule donnée, donc ce n’est pas statistique.
Quelle est ta couleur préférée ?
Réponse subjective, pas besoin de collecter plusieurs réponses.

Les 7 conseils pour un sondage

1. Préférez les questions fermées aux questions ouvertes

Pour des données faciles à recueillir et à analyser, privilégiez les questions fermées. En effet, elles produisent des données quantitatives qui peuvent servir à mesurer des variables.

En règle générale, essayez de vous limiter à deux questions ouvertes par sondage ou enquête. Si possible, placez-les à la fin du sondage.

2. Posez des questions neutres et objectives

Adoptez un ton objectif en vous abstenant d’exprimer votre opinion. Pour cet exemple, formulez votre question ainsi.

3. Proposez des choix de réponse équilibrés

es participants doivent avoir l’opportunité de proposer des réponses honnêtes et réfléchies, seul gage de crédibilité de votre sondage.

4. Ne vous dispersez pas

Ne pas poser une question double, c’est-à-dire une question à deux volets, qui demande aux participants d’évaluer deux choses différentes en même temps.

5. Variez vos questions et vos choix de réponse

Répondre cinquante fois à la même question finirait probablement par agacer.

6. Limitez les questions obligatoires

Parfois, les participants ne connaissent pas les réponses à vos questions. Peut-être sont-ils gênés par certaines d’entre elles et ne souhaitent pas y répondre. Pourtant, vous avez besoin de leur feedback.

7. Testez votre sondage

Partagez votre sondage avec vos collègues ou votre entourage avant de l’envoyer à votre population cible. Il suffit parfois d’un regard neuf ou d’un avis objectif pour repérer des erreurs.

Travail personnel - Préparer les données

Les principes de la normalisation des données

1. Ouvrir et explorer le fichier
Commencez par examiner rapidement le fichier :

Vérifiez le séparateur utilisé (, ; ou tabulation).
Contrôlez l’encodage du fichier (UTF-8 est recommandé).
Identifiez la présence éventuelle de lignes vides, de lignes de commentaires, ou de titres en double.

2. Supprimer les colonnes ou lignes non pertinentes

Retirez les colonnes qui ne sont pas utiles pour l’analyse.

Supprimez les lignes vides, les totaux automatiques, ou les en-têtes répétés au milieu du fichier.

3. Standardiser les noms de colonnes

Choisissez des noms de colonnes :
Courts, explicites et sans accents.
Sans espaces (utilisez des underscores _).
Exemple : Nom de la personne devient nom_personne.

4. Traiter les valeurs manquantes

Repérez les cellules vides ou les codes tels que "NA", "?", "n/a", etc.

Plusieurs options s’offrent à vous :

Supprimer les lignes concernées (si elles sont peu nombreuses).
Imputer les valeurs manquantes (avec la moyenne, médiane, ou autre).
Laisser vide, si votre outil de traitement peut gérer ces cas.

5. Uniformiser les formats de données

Dates : assurez-vous qu’elles sont toutes au même format (YYYY-MM-DD par exemple).

Nombres : remplacez les virgules par des points si nécessaire (1,5 → 1.5).

Texte : appliquez une casse cohérente (tout en minuscules, par exemple).

6. Éliminer les doublons

Vérifiez s’il existe des enregistrements identiques ou très similaires.
Supprimez-les selon des critères logiques (ex : identifiants ou combinaisons de champs identiques).

7. Valider les types de données

Assurez-vous que chaque colonne contient le bon type :
Numérique, date, texte, booléen, etc.
Corrigez les erreurs éventuelles (ex. texte dans une colonne censée être numérique).

8. Re-coder certaines variables si nécessaire

Transformez les réponses textuelles en codes numériques pour l’analyse :

"Oui" / "Non" → 1 / 0
"Homme" / "Femme" → M / F ou 0 / 1
Regroupez ou uniformisez les catégories similaires si besoin.

9. Documenter les modifications

Notez toutes les transformations apportées au fichier :

Remplacements de valeurs
Suppressions de colonnes
Recodages, imputations, etc.

Cela vous permettra de reproduire ou justifier vos choix plus tard.

10. Sauvegarder une version propre

Exportez le fichier nettoyé au format .csv (avec l'encodage UTF-8).
Conservez une copie de la version originale, sans aucune modification.

Les fichiers

Télécharger le fichier VENTES

Télécharger le fichier INCOHERENCES

Bonus

import pandas as pd
import numpy as np

# 1. Charger le fichier Excel
df = pd.read_excel("donnees_avec_legers_problemes.xlsx")

# 2. Vérifier et convertir les types de données
df['age'] = pd.to_numeric(df['age'], errors='coerce')
df['revenu_mensuel'] = pd.to_numeric(df['revenu_mensuel'], errors='coerce')
df['date_naissance'] = pd.to_datetime(df['date_naissance'], errors='coerce')

# 3. Nettoyer les valeurs aberrantes

# Supprimer ou corriger les âges aberrants
df.loc[(df['age'] < 0) | (df['age'] > 100), 'age'] = np.nan

# Supprimer les revenus excessifs (>20 000€)
df.loc[df['revenu_mensuel'] > 20000, 'revenu_mensuel'] = np.nan

# Supprimer les dates de naissance irréalistes
df.loc[(df['date_naissance'].dt.year < 1900) | (df['date_naissance'].dt.year > 2024), 'date_naissance'] = pd.NaT

# 4. Gérer les valeurs manquantes
# Imputation simple : moyenne pour âge et revenu
df['age'].fillna(df['age'].mean(), inplace=True)
df['revenu_mensuel'].fillna(df['revenu_mensuel'].mean(), inplace=True)

# Suppression des lignes sans date de naissance
df = df.dropna(subset=['date_naissance'])

# 5. Vérification du genre (doit être "Homme" ou "Femme")
df['genre'] = df['genre'].where(df['genre'].isin(['Homme', 'Femme']))

# 6. Exporter le fichier nettoyé
df.to_excel("donnees_nettoyees.xlsx", index=False)
print("✅ Données nettoyées enregistrées dans 'donnees_nettoyees.xlsx'")

Théorie - Révision Excel

La révision est-elle nécessaire ?

Afin d'avoir un niveau suffisant avec Excel, mais aussi les autres produits tels que Tableau ou Power BI il faudrait connaître les 4 points suivants suivants :

Savez-vous :

Incrémenter une série ?
Faire des références à des cellules ou des plages ?
Effectuer des calculs basiques (+ - * / % ) ?
Utiliser des fonctions (Somme, moyenne, rechercheV, NB.si etc.) ?

Si non une petite mise à niveau s'impose

Quelques exercices de révision

Incrémenter les valeurs - Télécharger

Référencer des cellules et des plages - Télécharger

Calculs simples - Télécharger

Calculs sur des ensembles - Télécharger

Exercices sur les fonctions de base : Télécharger (SOMME/MOYENNE/SI/NB)

Créer des tableaux de données no tableau - Télécharger

Créer des tableaux de données // Médailles - Télécharger

Les raccourcis clavier

Raccourci	Définition
Tab	passer à la cellule suivante (à droite)
Shift+Tab	passer à la cellule précédente (à gauche)
Ctrl+Flèche	atteindre l’extrémité d’un tableau de données (ou de la feuille)
Shift+Flèche	sélectionner les données des cellules adjacentes
Ctrl+Shift+Flèche	sélectionner un tableau de données facilement sur Excel
Ctrl+A	sélectionner tout un tableau sur Excel
Touche Suppr	effacer le contenu d’une cellule Excel
Ctrl+Molette	zoomer ou dézoomer sur Excel
Ctrl+O	ouvrir une feuille de calcul
Ctrl+W	fermer une feuille de calcul
Ctrl+S	sauvegarder un fichier Excel
Ctrl+F	rechercher et remplacer une valeur sur Excel
Ctrl+N	créer un nouveau classeur
Ctrl+Z	annuler la dernière action
Ctrl+Y	effectuer une action précédemment annulée

Exercice final tableaux

Télécharger le fichier d'exercices et ressortir les informations suivantes

1. Modifiez les données initiales afin de pouvoir les transformer en tableau
2. Modifiez le nom du tableau en "gender data" (pas d'accents)
3. Le football apparait 2 fois, supprimez les doublons
4. Ajoutez la ligne de total et faites la somme de chaque colonne
5. Créez une nouvelle colonne calculant le pourcentage de femmes pour chaque sport
6. Dans la cellule "maximum d'athlètes", calculez le nombre maximum d'athlètes pour un sport

Quelques fichiers

Fonctions utiles

=nbval()

=nb()

=nb.vide()

=nb.si(;">100")

=nb.si.ens()

=min()

=max()

=min.si.ens()

=moyenne.si.ens()

=mediane()

=mode()

=ecartype.standard()

Votre premier mandat de Data Analyste

Définition du mandat

Un nouvelle radio va commencer la diffusion dans la région lémanique, tant en France qu'en Suisse. Son objectif est essentiellement musical et vise essentiellement les lieux collectifs (bars, restaurants, boutiques, etc.)

Son choix initial est de diffuser la musique actuelle pop, rock, latino et dance essentiellement. Son objectif et de s'adapter aux heures de la journée pour diffuser une musique énergique. L'énergie de la musique est importante aux yeux de la direction.

Votre mission est de valider le choix de la direction de la radio en vous basant sur les statistiques d'écoute de Spotify. Et surtout de conseiller la Direction qui est issue d'un milieu éloigné de la radio, la presse écrite.

Sources des données

Les données proviennent du site :

https://charts.spotify.com/home

Qui vous donne semaine après semaine les charts

Ici, pour l'exercice, nous récupérons le travail d'un informaticien qui a compilé les charts semaine après semaine sur plusieurs mois.

Nous vous avons également un peu facilité la tâche en tentant de traduire les colonnes de la manière la plus fidèle possible

Télécharger le fichier

Commencer votre Rapport - ex 1

Etablir un document (Word ou autre) pour décrire le fichier :

quantité
plage temporelle concernée
description et analyse des colonnes
recherche de données incomplètes et les décrire.

Pur chaque colonne déterminer si la données

est Quantitative ou Qualitative

et si Quantitative, est-elle discrète ou continue

Exercice 2 : vision globale

Donner les informations suivantes

Le nombre maximal d'écoutes
Le nombre minimal d'écoutes
L'étendue des écoutes
Début des analyses
Fin des analyses

Autres exemples

Fournitures des centrales nucléaires (moyenne quotidienne)

Exercice 3 : Préparation rapport

Questions posées par la Direction de Radio CIE ?

Exemple :

Est-ce que ce sont seulement les superstars qui se retrouvent dans le Top 200?
Y a-t-il un style de musique qui donne plus d'énergie que d'autres ?
Sont-ce uniquement les musiques qui viennent de sortir qui se trouvent au Top ?

Votre rapport

Définition du jeu de données :

Extraits hebdomadaires compiles (2020-2021)
Informations sur le morceau
Nom Artiste, style, date de sortie
Informations de performance
meilleure position, nb apparitions, nb d'écoutes, nb followers
Caractéristiques internes
popularité, énergie, dansabilité [0 à 1]

Exercice 4 : Chiffres clé

Télécharger le fichier

Exercice 5

Publier un beau rapport (PPW)

Ajouter, par exemple, le poids de chaque genre musical dans le Top 200

Le lien entre le genre de musique et l'écoute

Le lien entre le genre de musique et la positivité.

Python pour Data Analyse - les Bases

Tous les types de variabées

x = "Hello World" str
x = 20 int
x = 20.5 float
x = 1j complex
x = ["apple", "banana", "cherry"] list
x = ("apple", "banana", "cherry") tuple
x = range(6) range
x = {"name" : "John", "age" : 36} dict
x = {"apple", "banana", "cherry"} set
x = frozenset({"apple", "banana", "cherry"}) frozenset
x = True bool
x = b"Hello" bytes
x = bytearray(5) bytearray
x = memoryview(bytes(5)) memoryview
x = None NoneType

print( type ( x ) )

Numériques, int

nb_jours = 365
print( nb_jours )
print( type (nb_jours ) )

String, boolean

jour = "Vendredi"
print( jour )
print( type( jour ))

ferie = False
print( ferie )
print( type( ferie ))

List, boucle for

fruits_stock = {}
print(fruits_stock)

fruits = ['citron', 'banane', 'pomme', 'poire', 'banane', 'pomme', 'pomme', 'poire', 'banane', 'banane']

for fruit in fruits:
if fruit in fruits_stock:
fruits_stock[fruit] +=1
else :
fruits_stock[fruit] =1

print(fruits)
print( type ( fruits ))

Variable de type list

Variable de type dict, dictionnaire

Ajouter un élément à un tableau

fruits = ['citron', 'banane', 'pomme', 'poire', 'banane', 'pomme', 'pomme', 'poire', 'banane', 'banane']
fruits.append('framboise')
print(fruits)

Théorie - Python pour Data Analyse - NumPy

Bibliothèque numPy

# NumPy (Numerical Python) est une bibliothèque utilisée pour :
# Manipuler des tableaux/matrices de données (appelés ndarray)
# Faire des opérations mathématiques rapides
# Travailler efficacement avec des grandes quantités de données numériques

import numpy as np

# Créer un tableau numpy
a = np.array([1, 2, 3, 4, 5])

# Quelques opérations
print("Tableau :", a)
print("Somme :", np.sum(a))
print("Moyenne :", np.mean(a))
print("Max :", np.max(a))

import numpy as np

liste = [1, 2, 3]
tableau = np.array(liste)

# Multiplie chaque élément par 2
print(liste * 2) # => [1, 2, 3, 1, 2, 3] (concatène)
print(tableau * 2) # => [2 4 6] (multiplie)

Créer un tableau à 1 dimension

import numpy as np

# Création d'un tableau 1D
mon_tableau = np.array([10, 20, 30, 40, 50])

# Afficher le tableau
print("Tableau :", mon_tableau)

# Afficher le type de données de chaque élément
print("Type des éléments :", mon_tableau.dtype)

# Afficher le type Python de l'objet (structure)
print("Type du tableau :", type(mon_tableau))

Tableau à 2 dimensions

import numpy as np

# Création d'un tableau 2D
mon_tableau_2d = np.array([[10, 20, 30], [40, 50, 60]])

# Afficher le tableau 2D
print("Tableau 2D :\n", mon_tableau_2d)

# Afficher le type de données des éléments
print("\nType des éléments :", mon_tableau_2d.dtype)

# Afficher le type Python de l'objet (structure)
print("\nType du tableau :", type(mon_tableau_2d))

Récupérer la dimension d'un tableau

print(matrice.shape)

Fichier à télécharger

Fichier

Ouvrier des données au format csv

import numpy as np

# Lire un fichier CSV avec numpy
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding=None, skip_header=1)

# Afficher le tableau chargé
print(tableau)

# Afficher le type du tableau
print(type(tableau))

Type de données d'un tableau

fichier.dtype

Importer au format UTF

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Afficher le tableau chargé
print(tableau)

# Afficher le type du tableau
print(type(tableau))

Extraire la 2ème ligne (ligne 1)

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Extraire la 2ème ligne (index 1)
deuxieme_ligne = tableau[1]

# Afficher la 2ème ligne
print("Deuxième ligne :", deuxieme_ligne)

Extraire une donnée précise

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Extraire la valeur de la 2ème ligne et 3ème colonne (index 1, 2)
valeur = tableau[1, 2]

# Afficher la valeur extraite
print("Valeur extraite :", valeur)

Sélectionner une colonne

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Sélectionner la 2ème colonne (index 1)
colonne_2 = tableau[:, 1]

# Afficher la colonne sélectionnée
print("2ème colonne :", colonne_2)

# Sélectionner plusieurs colonnes :

tableau[:, [0, 1]].

Sélectionner une ligne

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Sélectionner la 2ème ligne (index 1)
ligne_2 = tableau[1]

# Afficher la ligne sélectionnée
print("2ème ligne :", ligne_2)

Choisir des lignes et des colonnes

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Sélectionner les 1ère et 2ème lignes (index 0 et 1)
# Sélectionner les 2ème et 3ème colonnes (index 1 et 2)
selection = tableau[0:2, 1:3]

# Afficher la sélection
print("Sélection des lignes et colonnes spécifiques :\n", selection)

Filtrer une table

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Filtrer les lignes où l'âge (2ème colonne) est supérieur à 30
filtre = tableau[tableau[:, 1] > 30]

# Afficher le tableau filtré
print("Tableau filtré :\n", filtre)

Filtrer sur 2 critères

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Filtrer les lignes où l'âge est supérieur à 25 et la ville est "Paris"
filtre = tableau[(tableau[:, 1] > 25) & (tableau[:, 2] == 'Paris')]

# Afficher le tableau filtré
print("Tableau filtré sur 2 critères :\n", filtre)

Copier un jeu de données

fivhier2= fichier.copy()

Remplacer des données

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Remplacer les âges supérieurs à 30 par 30
tableau[tableau[:, 1] > 30, 1] = 30

# Afficher le tableau modifié
print("Tableau après remplacement :\n", tableau)

Collecter et analyser des données (M376)

Contenu

Support de cours

Informations générales sur ce cours

Titre et compétences

Objectifs évaluateurs

Objectifs concrets

Rendu

Votre avis

Théorie - Les concepts de l'analyse des données

Données quantitative

Donnée quantitative discrète

Données quantitative continue

Données qualificatives

Les données nominales

Les données ordinales

Les niveaux d'analyse

Analyse descriptive

Analyse exploratoire

Analyse inférentielle (ou statistique inférentielle)

Analyse prédictive

Analyse prescriptive

L'analyse descriptive

Outils utilisés :

Exemple :

L'analyse exploratoire

Outils utilisés :

Exemple :

Analyse inférentielle

Outils utilisés :

Exemple :

Analyse prédictive

Outils utilisés :

Exemple :

L’analyse prescriptive

Outils utilisés :

Exemple :

Les outils de la data analyse

Les outils propriétaires

Les langages de programmation

Les outils BI

Power BI

Tableau

Qlik Sense

L'outil universel

Excel

Théorie - Récolter les données

Conseils pour un sondage

1. Définir clairement l'objectif du sondage

2. Choisir un échantillon représentatif

3. Formuler des questions claires et précises

4. Assurer la confidentialité et la transparence

5. Testez le questionnaire avant de le déployer

6. Garantir la validité et la fiabilité des réponses

7. Collecte des données de manière cohérente

8. Analyse des données avec des outils statistiques appropriés

9. Interprétation des résultats avec prudence

10. Représenter les résultats de manière compréhensible

Soigner son panel

Les questions statistiques

Questions statistiques

Questions non statistiques

Les 7 conseils pour un sondage

1. Préférez les questions fermées aux questions ouvertes

2. Posez des questions neutres et objectives

3. Proposez des choix de réponse équilibrés

4. Ne vous dispersez pas

5. Variez vos questions et vos choix de réponse

6. Limitez les questions obligatoires

7. Testez votre sondage

Travail personnel - Préparer les données

Les principes de la normalisation des données

1. Ouvrir et explorer le fichier Commencez par examiner rapidement le fichier :

2. Supprimer les colonnes ou lignes non pertinentes

3. Standardiser les noms de colonnes

4. Traiter les valeurs manquantes

6. Éliminer les doublons

7. Valider les types de données

8. Re-coder certaines variables si nécessaire

9. Documenter les modifications

1. Ouvrir et explorer le fichier
Commencez par examiner rapidement le fichier :