Collecter et analyser des données (M376)

Contenu

Informations générales sur ce cours
Titre et compétences
Objectifs évaluateurs
Objectifs concrets
Rendu
Théorie - Les concepts de l'analyse des données
Données quantitative
Données qualificatives
Les niveaux d'analyse
L'analyse descriptive
L'analyse exploratoire
Analyse inférentielle
Analyse prédictive
L’analyse prescriptive
Les outils de la data analyse
Les outils propriétaires
Les langages de programmation
Les outils BI
L'outil universel
Théorie - Récolter les données
Conseils pour un sondage
Soigner son panel
Les questions statistiques
Les 7 conseils pour un sondage
Travail personnel - Préparer les données
Les principes de la normalisation des données
Les fichiers
Bonus
Théorie - Révision Excel
La révision est-elle nécessaire ?
Quelques exercices de révision
Les raccourcis clavier
Exercice final tableaux
Quelques fichiers
Fonctions utiles
Votre premier mandat de Data Analyste
Définition du mandat
Sources des données
Commencer votre Rapport - ex 1
Exercice 2 : vision globale
Autres exemples
Exercice 3 : Préparation rapport
Exercice 4 : Chiffres clé
Exercice 5
Python pour Data Analyse - les Bases
Tous les types de variabées
Numériques, int
String, boolean
List, boucle for
Variable de type list
Variable de type dict, dictionnaire
Ajouter un élément à un tableau
Théorie - Python pour Data Analyse - NumPy
Bibliothèque numPy
Créer un tableau à 1 dimension
Tableau à 2 dimensions
Récupérer la dimension d'un tableau
Fichier à télécharger
Ouvrier des données au format csv
Type de données d'un tableau
Importer au format UTF
Extraire la 2ème ligne (ligne 1)
Extraire une donnée précise
Sélectionner une colonne
Sélectionner une ligne
Choisir des lignes et des colonnes
Filtrer une table
Filtrer sur 2 critères
Copier un jeu de données
Remplacer des données

Support de cours

Informations générales sur ce cours

Titre et compétences

Module 376 Collecter et analyser des données

Compétence opérationnelle c3: Collecter les données
Si les données et informations nécessaires font défaut, les développeurs de business numérique CFC se chargent de les collecter de manière autonome:

Ils planifient la collecte des données et l’effectuent au moyen de la méthode appropriée. Pour ce faire, ils recourent typiquement à des interviews ou à des sondages simples. Ils enregistrent les données collectées sous une forme ad hoc et dans la qualité appropriée. Lors de la collecte des données, ils procèdent de manière analytique et avec le doigté nécessaire.

Compétence opérationnelle c6: Exploiter les données et établir des rapports simples
Les développeurs de business numérique CFC procèdent à des exploitations de données aisément compréhensibles:
Ils déterminent les outils appropriés, exploitent les données à l’aide de requêtes ciblées, établissent des rapports clairs en fonction des questions traitées et en tirent une conclusion concise. Ils documentent les résultats de manière compréhensible pour autrui. Ils peuvent aussi traiter de questions plus complexes et, si nécessaire, demander un soutien.

Voir l'ordonnance

Objectifs évaluateurs

c3.1 En fonction des exigences, ils planifient la collecte des données (y c. mode de collecte, sources, format cible des données).
c3.2 Ils colt les données dans le cadre d’interviews avec les personnes sélectionnées.
c3.3 Ils relèvent les données par le biais d’un sondage simple.
c3.4 Ils enregistrent les données recueillies dans la forme et la qualité appropriées.

c6.1 Ils déterminent les outils appropriés (p. ex. PowerBI, Tableau, Qlik) pour exploiter les données.
c6.2 Ils exploitent les données à l’aide de requêtes ciblées (p. ex. au moyen de SQL).
c6.3 Ils établissent des rapports simples et clairs selon les objectifs et les questions définis.
c6.4 Ils tirent une conclusion concise de l’exploitation des données et la consignent de manière compréhensible et étayée.

 

Objectifs concrets

  • Réaliser un projet complet de sondage
  • Tester d'autres formes d'acquisition de données
  • Analyser des données fournées avec plusieurs outils
  • Publier un rapport de synthèse
  • Créer un jeu de données sur votre sondage

Pour chaque tâche fournir un mini rapport qui décrit et illustre votre travail. Ces rapports devront être fournis en fin de cours lors de la clôture.

Jour 1 : réaliser un sondage

  • Objectif du sondage
  • Public cible
  • Définir les questions de votre client
  • Préparer le questionnaire
  • Décrire le questionnaire
  • Tester le questionnaire (camarades, famille, etc)

Phase 2

  • Exploiter les données (fictives?)
  • Créer la base de données
  • Nettoyer les données
  • Designer le rapport
  • Créer le rapport final
  • Présenter le rapport

 

 

 

 

Rendu

1 questionnaire / sondage, présentation des questions/champs

2 des réponses au questionnaire

3 une critique constructive de votre questionnaire

4 un rapport avec analyse des données récoltées (ou fictives)


1 présentation rapide de la structure de données spotify

2. un dossier pour client CIE Radio sur PowerPoint


1 un journal de travail (oral ou écrit)

Théorie - Les concepts de l'analyse des données

Données quantitative

La taille d’une personne, exprimée en centimètres (par exemple : 175 cm).

C’est une donnée quantitative car elle est mesurable numériquement et permet de faire des opérations mathématiques comme la moyenne, l’écart-type, etc.

Types

Donnée quantitative discrète 

Peut prendre uniquement des valeurs entières (souvent issues d’un comptage).

Exemple :
Nombre d’enfants, nombre de voitures, nombre de messages reçus

Données quantitative continue

Peut prendre toutes les valeurs possibles dans un intervalle (même des décimales)

Exemple :
Taille (ex : 175,2 cm), poids (ex : 68,5 kg), température

 

Données qualificatives

Une donnée qualitative est une information qui décrit une qualité, une caractéristique ou une catégorie. Elle ne peut pas être mesurée numériquement, mais elle permet de classer ou nommer des éléments.

Exemples :
Nationalité : suisse, française, italienne…
Genre : homme, femme…
Musique préférée : jazz, rock, classique…
État civil : célibataire, marié, divorcé

Les données nominales 

Donnée qualitative sans ordre particulier entre les valeursCouleur des yeux : bleu, vert, marron

Genre : homme, femme
Nationalité : suisse, italienne, française

On ne peut pas classer ou hiérarchiser les valeurs

Les données ordinales

Donnée qualitative avec un ordre logique entre les valeurs

Niveau d’étude : primaire, secondaire, universitaire
Niveau de satisfaction : faible, moyen, élevé
Taille de t-shirt : S, M, L, XL

On peut classer les valeurs selon un ordre

Les niveaux d'analyse

Analyse descriptive

But : Résumer et décrire les données observées.
Outils : Moyenne, médiane, écart-type, tableaux, graphiques (histogramme, diagramme circulaire…)
Exemple : Moyenne d’âge des étudiants d’une classe, répartition par genre.

Analyse exploratoire

But : Découvrir des tendances, structures ou relations cachées dans les données, sans hypothèse préalable.
Outils : Visualisations, corrélations, matrices de dispersion, ACP (analyse en composantes principales), regroupements (clusters).
Exemple : Explorer un grand jeu de données pour identifier des profils types de consommateurs.

Analyse inférentielle (ou statistique inférentielle)

But : Faire des prédictions ou des généralisations à partir d’un échantillon vers une population.
Outils : Tests d’hypothèse (t-test, chi², ANOVA), intervalles de confiance, régressions.
Exemple : Estimer la proportion de personnes favorables à une réforme dans une population, à partir d’un sondage.

Analyse prédictive

But : Prévoir des résultats futurs en se basant sur des données passées.
Outils : Régressions, arbres de décision, modèles de machine learning (réseaux de neurones, forêts aléatoires…)
Exemple : Prédire le chiffre d’affaires d’un magasin pour le mois prochain.

Analyse prescriptive

But : Recommander des actions en se basant sur des prédictions et des simulations.
Outils : Optimisation, scénarios, algorithmes de décision.
Exemple : Proposer le meilleur itinéraire de livraison en fonction du trafic et des coûts.

L'analyse descriptive

L’analyse descriptive consiste à résumer et présenter les données de manière simple et claire, sans en tirer de conclusions. Elle permet de comprendre les grandes tendances d’un ensemble de données.

Outils utilisés :

  • Moyenne, médiane, mode
    Pourcentages

  • Tableaux, graphiques (camembert, histogramme…)

Exemple :

  • Calculer l’âge moyen des élèves d’une classe

  • Afficher la répartition des réponses à un sondage

L'analyse exploratoire

L’analyse exploratoire vise à explorer les données pour y découvrir des tendances, relations ou anomalies, sans idée préconçue au départ.

Outils utilisés :

  • Corrélations, nuages de points
  • Graphiques croisés, regroupements (clusters)
  • Analyse en composantes principales (ACP)

Exemple :

  • Identifier des groupes de clients avec des comportements d’achat similaires
  • Repérer des relations entre deux variables (ex : âge et revenu)

Analyse inférentielle

L’analyse inférentielle permet de tirer des conclusions ou de faire des généralisations sur une population à partir d’un échantillon de données.

Outils utilisés :

  • Tests d’hypothèse (t-test, chi², ANOVA)
  • Intervalles de confiance
  • Régressions

Exemple :

  • Tester si la moyenne des salaires dans une entreprise diffère selon le sexe
  • Estimer la proportion de personnes favorables à une réforme dans une population à partir d’un échantillon

Analyse prédictive

L’analyse prédictive utilise les données passées pour prévoir des événements futurs ou des tendances.

Outils utilisés :

  • Régression linéaire, séries temporelles
  • Modèles de machine learning (arbres de décision, réseaux de neurones, etc.)

Exemple :

  • Prédire le chiffre d'affaires d'un magasin pour les mois à venir
  • Estimer le risque de défaut de paiement d'un client

L’analyse prescriptive

L’analyse prescriptive recommande les meilleures actions à entreprendre pour atteindre un objectif, souvent en optimisant des processus ou des ressources.

Outils utilisés :

  • Algorithmes d'optimisation
  • Simulations, scénarios, arbres de décision

Exemple :

  • Recommander le meilleur itinéraire de livraison pour minimiser les coûts
  • Optimiser le planning de production dans une usine pour maximiser l'efficacité

Les outils de la data analyse

Les outils propriétaires

Il existe de nombreux outils qui proposent d'analyser leurs propres données, je citerai

Salesforce : qui analyse le comportement des clients

Salesforce Logo, symbol, meaning, history, PNG, brand

et

Google Ads Logo PNG Images Transparent Free Download | PNGMart

Google Ad : qui analyse très bien le comportement des internautes autour d'un ensemble de sites

Les langages de programmation

Je relèverai ici 2 langages de programmation orientés vers l'analyse des données

Python

The Best Popular Programming Languages : Python

et

le langage R

Getting to know the R programming language - WorkingNation

Ces langages sont très ouverts, mais demandent un apprentissage relativement long.

 

Les outils BI

Ces outils sont payants dans leur version complète, mais offrent un panel de fonctionnalités très riche.

Power BI

Tableau

Tableau Logos

Qlik Sense

Qlik Sense | Profile | Carnal Software

L'outil universel

Excel

Microsoft Excel Logo - PNG e Vetor - Download de Logo

Puissant, universel et facilement ccessible.

Dans un projet d'envergure, Excel sera employé conjointement avec les autre soutils.

Théorie - Récolter les données

Conseils pour un sondage

Voici les règles principales à suivre pour réaliser un bon sondage et traiter les données avec des outils statistiques :

1. Définir clairement l'objectif du sondage

  • Pourquoi faire ce sondage ?

  • Quel type d’information ou de décision souhaitez-vous obtenir ?

2. Choisir un échantillon représentatif

  • Méthode d’échantillonnage : Utilisez des méthodes d’échantillonnage appropriées (échantillonnage aléatoire, stratifié, etc.) pour éviter les biais.

  • L’échantillon doit être suffisamment grand pour avoir une bonne représentativité de la population cible.

3. Formuler des questions claires et précises

  • Éviter les ambiguïtés : Les questions doivent être simples et compréhensibles par tous les répondants.

  • Questions fermées vs questions ouvertes : Choisissez selon le type de données que vous souhaitez recueillir (quantitatives ou qualitatives).

4. Assurer la confidentialité et la transparence

  • Les participants doivent savoir comment leurs réponses seront utilisées.

  • Il est crucial de protéger les données personnelles des répondants.

5. Testez le questionnaire avant de le déployer

  • Réalisez un test pilote sur un petit échantillon pour vérifier la clarté des questions et identifier d’éventuelles erreurs ou biais.

6. Garantir la validité et la fiabilité des réponses

  • Les données doivent être fiables : assurez-vous que les répondants comprennent les questions de manière similaire et qu’il n’y ait pas de confusion.

  • Évitez les biais : comme les biais de sélection ou de réponse.

7. Collecte des données de manière cohérente

  • Uniformité dans la manière de collecter les données (en ligne, téléphone, face-à-face, etc.) pour éviter de fausser les résultats.

8. Analyse des données avec des outils statistiques appropriés

  • Nettoyage des données : Vérifiez les erreurs et anomalies (données manquantes, incohérences).

  • Choisissez les outils statistiques adaptés selon les objectifs du sondage :

    • Moyennes, médianes, modes pour des analyses descriptives

    • Tests d’hypothèses pour des analyses inférentielles

    • Modèles prédictifs si vous souhaitez faire des prédictions basées sur les résultats.

9. Interprétation des résultats avec prudence

  • Évitez de généraliser au-delà de la population cible.

  • Prenez en compte les limites méthodologiques de votre sondage, telles que la taille de l’échantillon ou les biais potentiels.

10. Représenter les résultats de manière compréhensible

  • Utilisez des graphismes et des tableaux pour rendre les résultats facilement accessibles et compréhensibles par tous, même ceux sans expertise statistique.

Soigner son panel

1. Transparence de l’information : Clarifiez l’objectif de l’étude et l’utilisation des données de manière explicite. Mettez en place des politiques de confidentialité transparentes et obtenez le consentement des participants, assurant ainsi une communication ouverte et honnête.

2. Anonymat dans la collecte : Préservez la confidentialité en utilisant des méthodes de collecte anonymes. Encouragez l’anonymat, en particulier pour des sujets délicats, et ajustez les mesures de protection en fonction du degré de sensibilité des informations collectées.

3. Protection des données : Formez le personnel sur les bonnes pratiques de gestion des données. Établissez des contrôles d’accès stricts pour garantir la sécurité des informations. Développez un plan solide pour l’élimination ou la conservation sécurisée des données, renforçant ainsi la protection des données sensibles.

4. Respect des réglementations : Intégrez dès la conception des questionnaires les normes de protection des données. Restez informé des évolutions légales, en particulier en ce qui concerne les réglementations en vigueur, pour assurer une conformité continue.

5. Usage de panels préétablis : Simplifiez le processus d’étude en privilégiant l’utilisation de panels existants. Optez pour des panels gérés activement afin de garantir la qualité des résultats. Cultivez la confiance des participants pour établir des partenariats durables.

Les questions statistiques

Questions statistiques

(Elles nécessitent des données, souvent issues d'un échantillon ou d'une population, pour y répondre)

  • Combien d'heures en moyenne les élèves de ma classe dorment-ils par nuit ?
    Il faut interroger plusieurs élèves pour obtenir des données.
  • Quelle est la taille moyenne des enfants de 10 ans en Suisse ?
    On a besoin de mesurer plusieurs enfants pour répondre.
  • Quel est le pourcentage de personnes qui prennent les transports en commun pour aller au travail ?
    Cela nécessite une enquête ou des statistiques officielles.
  • Combien de films les lycéens regardent-ils par mois en moyenne ?
    On doit collecter les réponses de plusieurs lycéens.
  • Quelle est la répartition des notes au dernier examen de maths ?
    Cela demande les notes de tous les élèves.

Questions non statistiques

(Elles concernent des faits uniques ou des opinions, pas besoin de recueillir des données)

  • Combien d'heures as-tu dormi cette nuit ?
    Question personnelle, réponse unique.
  • Quelle est la capitale de la Suisse ?
    C’est un fait, la réponse est fixe (Berne).
  • Aimes-tu les maths ?
    C’est une opinion personnelle.
  • Quelle est la note de Paul au dernier test ?
    Une seule donnée, donc ce n’est pas statistique.
  • Quelle est ta couleur préférée ?
    Réponse subjective, pas besoin de collecter plusieurs réponses.

Les 7 conseils pour un sondage

1. Préférez les questions fermées aux questions ouvertes

Pour des données faciles à recueillir et à analyser, privilégiez les questions fermées. En effet, elles produisent des données quantitatives qui peuvent servir à mesurer des variables.

En règle générale, essayez de vous limiter à deux questions ouvertes par sondage ou enquête. Si possible, placez-les à la fin du sondage.

2. Posez des questions neutres et objectives

Adoptez un ton objectif en vous abstenant d’exprimer votre opinion. Pour cet exemple, formulez votre question ainsi.

3. Proposez des choix de réponse équilibrés

es participants doivent avoir l’opportunité de proposer des réponses honnêtes et réfléchies, seul gage de crédibilité de votre sondage.

4. Ne vous dispersez pas

Ne pas poser une question double, c’est-à-dire une question à deux volets, qui demande aux participants d’évaluer deux choses différentes en même temps.

5. Variez vos questions et vos choix de réponse

Répondre cinquante fois à la même question finirait probablement par agacer.

6. Limitez les questions obligatoires

Parfois, les participants ne connaissent pas les réponses à vos questions. Peut-être sont-ils gênés par certaines d’entre elles et ne souhaitent pas y répondre. Pourtant, vous avez besoin de leur feedback.

7. Testez votre sondage

Partagez votre sondage avec vos collègues ou votre entourage avant de l’envoyer à votre population cible. Il suffit parfois d’un regard neuf ou d’un avis objectif pour repérer des erreurs.

Travail personnel - Préparer les données

Les principes de la normalisation des données

1. Ouvrir et explorer le fichier
Commencez par examiner rapidement le fichier :

  • Vérifiez le séparateur utilisé (, ; ou tabulation).
  • Contrôlez l’encodage du fichier (UTF-8 est recommandé).
  • Identifiez la présence éventuelle de lignes vides, de lignes de commentaires, ou de titres en double.

2. Supprimer les colonnes ou lignes non pertinentes

Retirez les colonnes qui ne sont pas utiles pour l’analyse.

  • Supprimez les lignes vides, les totaux automatiques, ou les en-têtes répétés au milieu du fichier.

3. Standardiser les noms de colonnes

  • Choisissez des noms de colonnes :
    Courts, explicites et sans accents.
    Sans espaces (utilisez des underscores _).
    Exemple : Nom de la personne devient nom_personne.

4. Traiter les valeurs manquantes

  • Repérez les cellules vides ou les codes tels que "NA", "?", "n/a", etc.

Plusieurs options s’offrent à vous :

  • Supprimer les lignes concernées (si elles sont peu nombreuses).
  • Imputer les valeurs manquantes (avec la moyenne, médiane, ou autre).
  • Laisser vide, si votre outil de traitement peut gérer ces cas.

5. Uniformiser les formats de données

Dates : assurez-vous qu’elles sont toutes au même format (YYYY-MM-DD par exemple).

Nombres : remplacez les virgules par des points si nécessaire (1,5 → 1.5).

Texte : appliquez une casse cohérente (tout en minuscules, par exemple).

6. Éliminer les doublons

  • Vérifiez s’il existe des enregistrements identiques ou très similaires.
  • Supprimez-les selon des critères logiques (ex : identifiants ou combinaisons de champs identiques).

7. Valider les types de données

  • Assurez-vous que chaque colonne contient le bon type :
    Numérique, date, texte, booléen, etc.
  • Corrigez les erreurs éventuelles (ex. texte dans une colonne censée être numérique).

8. Re-coder certaines variables si nécessaire

Transformez les réponses textuelles en codes numériques pour l’analyse :

  • "Oui" / "Non" → 1 / 0
  • "Homme" / "Femme" → M / F ou 0 / 1
  • Regroupez ou uniformisez les catégories similaires si besoin.

9. Documenter les modifications

Notez toutes les transformations apportées au fichier :

  • Remplacements de valeurs
  • Suppressions de colonnes
  • Recodages, imputations, etc.

Cela vous permettra de reproduire ou justifier vos choix plus tard.

10. Sauvegarder une version propre

  • Exportez le fichier nettoyé au format .csv (avec l'encodage UTF-8).
  • Conservez une copie de la version originale, sans aucune modification.

 

Les fichiers

 

Télécharger le fichier VENTES

Télécharger le fichier INCOHERENCES

Bonus

import pandas as pd
import numpy as np

# 1. Charger le fichier Excel
df = pd.read_excel("donnees_avec_legers_problemes.xlsx")

# 2. Vérifier et convertir les types de données
df['age'] = pd.to_numeric(df['age'], errors='coerce')
df['revenu_mensuel'] = pd.to_numeric(df['revenu_mensuel'], errors='coerce')
df['date_naissance'] = pd.to_datetime(df['date_naissance'], errors='coerce')

# 3. Nettoyer les valeurs aberrantes

# Supprimer ou corriger les âges aberrants
df.loc[(df['age'] < 0) | (df['age'] > 100), 'age'] = np.nan

# Supprimer les revenus excessifs (>20 000€)
df.loc[df['revenu_mensuel'] > 20000, 'revenu_mensuel'] = np.nan

# Supprimer les dates de naissance irréalistes
df.loc[(df['date_naissance'].dt.year < 1900) | (df['date_naissance'].dt.year > 2024), 'date_naissance'] = pd.NaT

# 4. Gérer les valeurs manquantes
# Imputation simple : moyenne pour âge et revenu
df['age'].fillna(df['age'].mean(), inplace=True)
df['revenu_mensuel'].fillna(df['revenu_mensuel'].mean(), inplace=True)

# Suppression des lignes sans date de naissance
df = df.dropna(subset=['date_naissance'])

# 5. Vérification du genre (doit être "Homme" ou "Femme")
df['genre'] = df['genre'].where(df['genre'].isin(['Homme', 'Femme']))

# 6. Exporter le fichier nettoyé
df.to_excel("donnees_nettoyees.xlsx", index=False)
print("✅ Données nettoyées enregistrées dans 'donnees_nettoyees.xlsx'")

Théorie - Révision Excel

La révision est-elle nécessaire ?

Afin d'avoir un niveau suffisant avec Excel, mais aussi les autres produits tels que Tableau ou Power BI il faudrait connaître les 4 points suivants suivants :

Savez-vous :

  • Incrémenter une série ?
  • Faire des références à des cellules ou des plages ?
  • Effectuer des calculs basiques (+ - * / % ) ?
  • Utiliser des fonctions (Somme, moyenne, rechercheV, NB.si etc.) ?

Si non une petite mise à niveau s'impose

Quelques exercices de révision

Incrémenter les valeurs - Télécharger

Référencer des cellules et des plages - Télécharger 

Calculs simples - Télécharger

Calculs sur des ensembles - Télécharger

Exercices sur les fonctions de base : Télécharger  (SOMME/MOYENNE/SI/NB)

Créer des tableaux de données no tableau - Télécharger

Créer des tableaux de données // Médailles - Télécharger

 

Les raccourcis clavier

Raccourci Définition
Tab passer à la cellule suivante (à droite)
Shift+Tab passer à la cellule précédente (à gauche)
Ctrl+Flèche atteindre l’extrémité d’un tableau de données (ou de la feuille)
Shift+Flèche sélectionner les données des cellules adjacentes
Ctrl+Shift+Flèche sélectionner un tableau de données facilement sur Excel
Ctrl+A sélectionner tout un tableau sur Excel
Touche Suppr effacer le contenu d’une cellule Excel
Ctrl+Molette zoomer ou dézoomer sur Excel
Ctrl+O ouvrir une feuille de calcul
Ctrl+W fermer une feuille de calcul
Ctrl+S sauvegarder un fichier Excel
Ctrl+F rechercher et remplacer une valeur sur Excel
Ctrl+N créer un nouveau classeur
Ctrl+Z annuler la dernière action
Ctrl+Y effectuer une action précédemment annulée

Exercice final tableaux

Télécharger le fichier d'exercices et ressortir les informations suivantes

1. Modifiez les données initiales afin de pouvoir les transformer en tableau
2. Modifiez le nom du tableau en "gender data" (pas d'accents)
3. Le football apparait 2 fois, supprimez les doublons
4. Ajoutez la ligne de total et faites la somme de chaque colonne
5. Créez une nouvelle colonne calculant le pourcentage de femmes pour chaque sport
6. Dans la cellule "maximum d'athlètes", calculez le nombre maximum d'athlètes pour un sport

Fonctions utiles

=nbval()

=nb()

=nb.vide()

=nb.si(;">100")

=nb.si.ens()

=min()

=max()

=min.si.ens()

=moyenne.si.ens()

=mediane()

=mode()

=ecartype.standard()

 

Votre premier mandat de Data Analyste

Définition du mandat

 

Un nouvelle radio va commencer la diffusion dans la région lémanique, tant en France qu'en Suisse. Son objectif est essentiellement musical et vise essentiellement les lieux collectifs (bars, restaurants, boutiques, etc.)

Son choix initial est de diffuser la musique actuelle pop, rock, latino et dance essentiellement.   Son objectif et de s'adapter aux heures de la journée pour diffuser une musique énergique. L'énergie de la musique est importante aux yeux de la direction.

Votre mission est de valider le choix de la direction de la radio en vous basant sur les statistiques d'écoute de Spotify. Et surtout de conseiller la Direction qui est issue d'un milieu éloigné de la radio, la presse écrite.

Sources des données

Les données proviennent du site :

https://charts.spotify.com/home

Qui vous donne semaine après semaine les charts

Ici, pour l'exercice, nous récupérons le travail d'un informaticien qui a compilé les charts semaine après semaine sur plusieurs mois.

Nous vous avons également un peu facilité la tâche en tentant de traduire les colonnes de la manière la plus fidèle possible

Télécharger le fichier

 

Commencer votre Rapport - ex 1

Etablir un document (Word ou autre) pour décrire le fichier :

  • quantité
  • plage temporelle concernée
  • description et analyse des colonnes
  • recherche de données incomplètes et les décrire.

Pur chaque colonne déterminer si la données

est Quantitative ou Qualitative

et si Quantitative, est-elle discrète ou continue 

Exercice 2 : vision globale

Donner les informations suivantes

  • Le nombre maximal d'écoutes
  • Le nombre minimal  d'écoutes
  • L'étendue des écoutes
  • Début des analyses
  • Fin des analyses

Exercice 3 : Préparation rapport

Questions posées par la Direction de Radio CIE ?

Exemple :

Est-ce que ce sont seulement les superstars qui se retrouvent dans le Top 200?
Y a-t-il un style de musique qui donne plus d'énergie que d'autres ?
Sont-ce uniquement les musiques qui viennent de sortir qui se trouvent au Top ?

Votre rapport

Définition du jeu de données :

  • Extraits hebdomadaires compiles (2020-2021)
  • Informations sur le morceau
    Nom Artiste, style, date de sortie
  • Informations de performance
    meilleure position, nb apparitions, nb d'écoutes, nb followers
  • Caractéristiques internes
    popularité, énergie, dansabilité [0 à 1]

Exercice 4 : Chiffres clé

Exercice 5

Publier un beau rapport (PPW)

Ajouter, par exemple, le poids de chaque genre musical dans le Top 200

Le lien entre le genre de musique et l'écoute

Le lien entre le genre de musique et la positivité.

 

 

Python pour Data Analyse - les Bases

Tous les types de variabées

x = "Hello World" str
x = 20 int
x = 20.5 float
x = 1j complex
x = ["apple", "banana", "cherry"] list
x = ("apple", "banana", "cherry") tuple
x = range(6) range
x = {"name" : "John", "age" : 36} dict
x = {"apple", "banana", "cherry"} set
x = frozenset({"apple", "banana", "cherry"}) frozenset
x = True bool
x = b"Hello" bytes
x = bytearray(5) bytearray
x = memoryview(bytes(5)) memoryview
x = None NoneType

print( type ( x ) )

Numériques, int

nb_jours = 365
print( nb_jours )
print( type (nb_jours ) )

 

String, boolean

jour = "Vendredi"
print( jour )
print( type( jour ))

ferie = False
print( ferie )
print( type( ferie ))

List, boucle for

fruits_stock = {}
print(fruits_stock)

fruits = ['citron', 'banane', 'pomme', 'poire', 'banane', 'pomme', 'pomme', 'poire', 'banane', 'banane']

for fruit in fruits:
if fruit in fruits_stock:
fruits_stock[fruit] +=1
else :
fruits_stock[fruit] =1

print(fruits)
print( type ( fruits ))

Variable de type list

Variable de type dict, dictionnaire

Ajouter un élément à un tableau

fruits = ['citron', 'banane', 'pomme', 'poire', 'banane', 'pomme', 'pomme', 'poire', 'banane', 'banane']
fruits.append('framboise')
print(fruits)

Théorie - Python pour Data Analyse - NumPy

Bibliothèque numPy

# NumPy (Numerical Python) est une bibliothèque utilisée pour :
# Manipuler des tableaux/matrices de données (appelés ndarray)
# Faire des opérations mathématiques rapides
# Travailler efficacement avec des grandes quantités de données numériques

 

import numpy as np

# Créer un tableau numpy
a = np.array([1, 2, 3, 4, 5])

# Quelques opérations
print("Tableau :", a)
print("Somme :", np.sum(a))
print("Moyenne :", np.mean(a))
print("Max :", np.max(a))

 

import numpy as np

liste = [1, 2, 3]
tableau = np.array(liste)

# Multiplie chaque élément par 2
print(liste * 2) # => [1, 2, 3, 1, 2, 3] (concatène)
print(tableau * 2) # => [2 4 6] (multiplie)

 

 

 

 

Créer un tableau à 1 dimension

import numpy as np

# Création d'un tableau 1D
mon_tableau = np.array([10, 20, 30, 40, 50])

# Afficher le tableau
print("Tableau :", mon_tableau)

# Afficher le type de données de chaque élément
print("Type des éléments :", mon_tableau.dtype)

# Afficher le type Python de l'objet (structure)
print("Type du tableau :", type(mon_tableau))

Tableau à 2 dimensions

import numpy as np

# Création d'un tableau 2D
mon_tableau_2d = np.array([[10, 20, 30], [40, 50, 60]])

# Afficher le tableau 2D
print("Tableau 2D :\n", mon_tableau_2d)

# Afficher le type de données des éléments
print("\nType des éléments :", mon_tableau_2d.dtype)

# Afficher le type Python de l'objet (structure)
print("\nType du tableau :", type(mon_tableau_2d))

 

Récupérer la dimension d'un tableau

print(matrice.shape)

Fichier à télécharger

Ouvrier des données au format csv

import numpy as np

# Lire un fichier CSV avec numpy
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding=None, skip_header=1)

# Afficher le tableau chargé
print(tableau)

# Afficher le type du tableau
print(type(tableau))

Type de données d'un tableau

fichier.dtype

 

Importer au format UTF

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Afficher le tableau chargé
print(tableau)

# Afficher le type du tableau
print(type(tableau))

Extraire la 2ème ligne (ligne 1)

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Extraire la 2ème ligne (index 1)
deuxieme_ligne = tableau[1]

# Afficher la 2ème ligne
print("Deuxième ligne :", deuxieme_ligne)

 

Extraire une donnée précise

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Extraire la valeur de la 2ème ligne et 3ème colonne (index 1, 2)
valeur = tableau[1, 2]

# Afficher la valeur extraite
print("Valeur extraite :", valeur)

Sélectionner une colonne

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Sélectionner la 2ème colonne (index 1)
colonne_2 = tableau[:, 1]

# Afficher la colonne sélectionnée
print("2ème colonne :", colonne_2)

 

 

# Sélectionner plusieurs colonnes :

 tableau[:, [0, 1]].

Sélectionner une ligne

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Sélectionner la 2ème ligne (index 1)
ligne_2 = tableau[1]

# Afficher la ligne sélectionnée
print("2ème ligne :", ligne_2)

 

Choisir des lignes et des colonnes

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Sélectionner les 1ère et 2ème lignes (index 0 et 1)
# Sélectionner les 2ème et 3ème colonnes (index 1 et 2)
selection = tableau[0:2, 1:3]

# Afficher la sélection
print("Sélection des lignes et colonnes spécifiques :\n", selection)

 

Filtrer une table

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Filtrer les lignes où l'âge (2ème colonne) est supérieur à 30
filtre = tableau[tableau[:, 1] > 30]

# Afficher le tableau filtré
print("Tableau filtré :\n", filtre)

 

Filtrer sur 2 critères

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Filtrer les lignes où l'âge est supérieur à 25 et la ville est "Paris"
filtre = tableau[(tableau[:, 1] > 25) & (tableau[:, 2] == 'Paris')]

# Afficher le tableau filtré
print("Tableau filtré sur 2 critères :\n", filtre)

Copier un jeu de données

fivhier2= fichier.copy()

Remplacer des données

import numpy as np

# Lire le fichier CSV avec l'encodage UTF-8
fichier = 'fichier.csv'
tableau = np.genfromtxt(fichier, delimiter=',', dtype=None, encoding='utf-8', skip_header=1)

# Remplacer les âges supérieurs à 30 par 30
tableau[tableau[:, 1] > 30, 1] = 30

# Afficher le tableau modifié
print("Tableau après remplacement :\n", tableau)

Topbee Sàrl
Rte de la Plantaz 8
1870 Monthey

info@topbee.ch
crossmenuchevron-down