Collecter et analyser des données (M376)

Table des matières

Objectifs du cours
Titre et compétences
Objectifs évaluateurs
Objectifs concrets
Rendu
Questionnaire
Les concepts de l'analyse des données
Données quantitative
Données qualificatives
Les niveaux d'analyse
L'analyse descriptive
L'analyse diagnostique
L'analyse prédictive
Les outils de la data analyse
Les outils propriétaires
Les langages de programmation
Les outils BI
L'outil universel
Récolter les données
Conseils pour un sondage
Soigner son panel
Les questions statistiques
Les 7 conseils pour un sondage
Préparer les données
Règles essentielles
Révision Excel (facultatif)
La révision est-elle nécessaire
Quelques exercices de révision
Les raccourcis clavier
Exercice final tableaux
Votre premier mandat de Data Analyste
Définition du mandat
Sources des données
Commencer votre Rapport - ex 1
Exercice 2 : vision globale
Autres exemples
Exercice 3 : Préparation rapport
Exercice 4 : Chiffres clé
Exercice 5
Python pour Data Analyse - les Bases
Tous les types de variabées
Numériques, int
String, boolean
List, boucle for
Variable de type list
Variable de type dict, dictionnaire
Ajouter un élément à un tableau
Python pour Data Analyse - NumPy
Importer la bibliothèque
Créer un tableau à 1 dimension
Tableau à 2 dimensions
Récupérer la dimension d'un tableau
Ouvrier des données au format csv
Type de données d'un tableau
Afficher le tableau importé
Importer au format UTF
Extraire la 2ème ligne (ligne 1)
Extraire une donnée précise
Sélectionner une colonne
Sélectionner une ligne
Choisir des lignes et des colonnes
Récupérer une liste
Filtrer une table
Filtrer sur un champ numérique
Filtrer sur 2 critères
Copier un jeu de données
Remplacer des données

Les supports de cours

Objectifs du cours

Titre et compétences

Module 376 Collecter et analyser des données

Compétence opérationnelle c3: Collecter les données
Si les données et informations nécessaires font défaut, les développeurs de business numérique CFC se chargent de les collecter de manière autonome:

Ils planifient la collecte des données et l’effectuent au moyen de la méthode appropriée. Pour ce faire, ils recourent typiquement à des interviews ou à des sondages simples. Ils enregistrent les données collectées sous une forme ad hoc et dans la qualité appropriée. Lors de la collecte des données, ils procèdent de manière analytique et avec le doigté nécessaire.

Compétence opérationnelle c6: Exploiter les données et établir des rapports simples
Les développeurs de business numérique CFC procèdent à des exploitations de données aisément compréhensibles:
Ils déterminent les outils appropriés, exploitent les données à l’aide de requêtes ciblées, établissent des rapports clairs en fonction des questions traitées et en tirent une conclusion concise. Ils documentent les résultats de manière compréhensible pour autrui. Ils peuvent aussi traiter de questions plus complexes et, si nécessaire, demander un soutien.

Voir l'ordonnance

Objectifs évaluateurs

c3.1 En fonction des exigences, ils planifient la collecte des données (y c. mode de collecte, sources, format cible des données).
c3.2 Ils colt les données dans le cadre d’interviews avec les personnes sélectionnées.
c3.3 Ils relèvent les données par le biais d’un sondage simple.
c3.4 Ils enregistrent les données recueillies dans la forme et la qualité appropriées.

c6.1 Ils déterminent les outils appropriés (p. ex. PowerBI, Tableau, Qlik) pour exploiter les données.
c6.2 Ils exploitent les données à l’aide de requêtes ciblées (p. ex. au moyen de SQL).
c6.3 Ils établissent des rapports simples et clairs selon les objectifs et les questions définis.
c6.4 Ils tirent une conclusion concise de l’exploitation des données et la consignent de manière compréhensible et étayée.

 

Objectifs concrets

  • Réaliser un projet complet de sondage
  • Tester d'autres formes d'acquisition de données
  • Analyser des données fournées avec plusieurs outils
  • Publier un rapport de synthèse
  • Créer un jeu de données sur votre sondage

Pour chaque tâche fournir un mini rapport qui décrit et illustre votre travail. Ces rapports devront être fournis en fin de cours lors de la clôture.

Jour 1 : réaliser un sondage

  • Objectif du sondage
  • Public cible
  • Définir les questions de votre client
  • Préparer le questionnaire
  • Décrire le questionnaire
  • Tester le questionnaire (camarades, famille, etc)

Phase 2

  • Exploiter les données (fictives?)
  • Créer la base de données
  • Nettoyer les données
  • Designer le rapport
  • Créer le rapport final
  • Présenter le rapport

 

 

 

 

Rendu

1 questionnaire / sondage, présentation des questions/champs

2 des réponses au questionnaire

3 une critique constructive de votre questionnaire

4 un rapport avec analyse des données récoltées (ou fictives)


1 présentation rapide de la structure de données spotify

2. un dossier pour client CIE Radio sur PowerPoint


1 un journal de travail (oral ou écrit)

Questionnaire

https://forms.gle/CiXqS53p7n2Sa8jk8

Les concepts de l'analyse des données

Données quantitative

Si l’information peut être comptée ou mesurée en lui assignant une valeur numérique, il s’agit alors de données quantitatives. Les données quantitatives peuvent par conséquence être obtenues en se posant des questions faisant référence à une quantité comme « combien » ou « à quelle fréquence ».

Par exemple : combien de personnes ont assisté au webinaire de la semaine dernière ? Quel est le chiffre d’affaires réalisé par l’entreprise en 2023 ? À quelle fréquence un certain groupe de clients se connecte à plateforme de e-banking ?

Exemples :

  • Mon meilleur ami mesure 1,80 m
  • Il fait du 43
  • Il pèse 70 kilogrammes
  • Il a deux frères aînés et trois sœurs plus jeunes
  • Il a deux chats
  • Il habite à vingt kilomètres de chez moi
  • Il va nager quatre fois par semaine

Types

Les données quantitatives discrètes prennent des valeurs numériques fixes et ne peuvent pas être décomposées davantage. Un exemple de données discrètes est lorsque vous comptez quelque chose, comme le nombre de personnes dans une pièce. Si vous comptez 32 personnes, c’est fixe et fini.

Les données quantitatives continues peuvent être placées sur un continuum et décomposées à l’infini en unités plus petites. Il peut prendre n’importe quelle valeur ; par exemple, un morceau de ficelle peut mesurer 20,4 cm de long ou la température ambiante peut être de 30,8 degrés.

Données qualificatives

Contrairement aux données quantitatives, les données qualitatives ne peuvent pas être mesurées ou comptées.
Elles sont descriptives et exprimées en termes de langage plutôt qu’en valeurs numériques.

Les chercheurs se tourneront souvent vers des données qualitatives pour répondre à des questions comme « Pourquoi ? » ou « Comment ? ». Par exemple, si un certain visiteur du site Web a abandonné son panier trois fois en une semaine, vous souhaiterez probablement rechercher pourquoi via la collecte de données qualitatives auprès de l’utilisateur.

Les données qualitatives font également référence aux mots ou étiquettes utilisés pour décrire certaines caractéristiques. Par exemple, décrire le ciel comme bleu ou encore étiqueter une saveur de crème glacée particulière comme la vanille.

Exemples

  • Ma meilleure amie a les cheveux bruns bouclés
  • Elle a les yeux verts
  • Mon meilleur ami est drôle
  • Il peut aussi être impatient et impulsif parfois
  • Mon meilleur ami conduit une voiture rouge
  • Elle a un visage très amical et un sourire contagieux

Types

Les données nominales sont utilisées pour étiqueter ou catégoriser certaines variables sans leur donner aucun type de valeur quantitative. Par exemple, si vous collectiez des données sur votre public cible, vous souhaiteriez sûrement savoir où il vit. Sont-ils basés au Royaume-Uni, aux États-Unis, en Asie ou en Australie ? Chacune de ces classifications géographiques compte comme une donnée nominale. Un autre exemple simple pourrait être l’utilisation d’étiquettes comme « bleu », « marron » et « vert » pour décrire la couleur des yeux.

Les données ordinales sont lorsque les catégories utilisées pour classer vos données qualitatives tombent dans un ordre naturel ou dans une hiérarchie. Par exemple, si vous souhaitez explorer la satisfaction client, vous pouvez demander à chaque client de sélectionner si son expérience avec votre produit a été « médiocre », « satisfaisante », « bonne » ou « exceptionnelle ». Il est clair que « exceptionnel » vaut mieux que « médiocre », mais il n’y a aucun moyen de mesurer ou de quantifier la « distance » entre les deux catégories.

Les données nominales et ordinales ont tendance à apparaître dans le cadre de la réalisation de questionnaires et d’enquêtes. Cela inclut également des données non structurées telles que ce que les gens disent dans une interview, ce qu’ils écrivent dans une critique de produit ou ce qu’ils publient sur les réseaux sociaux.

Les niveaux d'analyse

  1. Analyse descriptive : Elle consiste à décrire les caractéristiques clés des données, telles que la moyenne, la médiane, l'écart-type, etc., pour comprendre ce que les données nous disent à un niveau global.
  2. Analyse exploratoire : Elle vise à découvrir des modèles, des tendances ou des relations cachées dans les données en utilisant des techniques telles que la visualisation de données, les analyses de corrélation, etc.
  3. Analyse diagnostique : Cette analyse vise à déterminer pourquoi quelque chose s'est produit en examinant les données pour identifier les causes sous-jacentes des tendances ou des événements observés.
  4. Analyse prédictive : Elle utilise des modèles statistiques et des techniques d'apprentissage automatique pour faire des prédictions sur des événements futurs en se basant sur des données passées et actuelles.
  5. Analyse prescriptive : Elle va au-delà de la simple prédiction en recommandant des actions spécifiques à prendre pour atteindre un objectif donné. Elle utilise généralement des techniques d'optimisation pour trouver les meilleures solutions possibles.
  6. Analyse quantitative : Elle implique l'utilisation de méthodes quantitatives pour analyser les données, telles que des tests statistiques, des modèles mathématiques, etc.
  7. Analyse qualitative : Elle se concentre sur la compréhension en profondeur des données non numériques, telles que les textes, les images ou les vidéos, en utilisant des méthodes telles que l'analyse de contenu, l'analyse sémiotique, etc.
  8. Analyse spatiale : Elle se concentre sur l'analyse de données géographiques pour comprendre les modèles spatiaux et les relations entre les différents emplacements géographiques.

L'analyse descriptive

L'analyse descriptive est une étape fondamentale dans le processus d'analyse de données. Son objectif principal est de décrire et de résumer les caractéristiques clés des données de manière concise et significative. Voici quelques points importants à connaître sur l'analyse descriptive :

  1. Description des données : L'analyse descriptive commence par une exploration des données pour comprendre leur structure et leurs propriétés. Cela implique souvent de calculer des mesures statistiques de base telles que la moyenne, la médiane, l'écart-type, le minimum, le maximum, etc.
  2. Visualisation des données : La visualisation joue un rôle crucial dans l'analyse descriptive. Les graphiques tels que les histogrammes, les diagrammes en boîte, les diagrammes à barres, les diagrammes circulaires, etc., aident à représenter visuellement les données et à en extraire des informations significatives.
  3. Identification des tendances et des modèles : L'analyse descriptive permet souvent de repérer des tendances, des schémas ou des anomalies dans les données. Par exemple, elle peut révéler si les données suivent une distribution normale, s'il existe des valeurs aberrantes, des saisons ou des cycles, etc.
  4. Compréhension des distributions : Une partie importante de l'analyse descriptive consiste à comprendre la distribution des données. Cela peut inclure l'examen de la symétrie, de l'aplatissement et de la queue de la distribution, ainsi que des tests de normalité si les données semblent suivre une distribution normale.
  5. Interprétation des résultats : Une fois que les caractéristiques des données ont été décrites et résumées, l'analyse descriptive implique souvent une interprétation des résultats. Cela peut impliquer de tirer des conclusions sur la distribution des données, de formuler des hypothèses sur les tendances observées, etc.
  6. Utilité dans la prise de décision : Bien que l'analyse descriptive ne soit pas destinée à fournir des prédictions ou des recommandations directes, elle fournit une base solide pour la prise de décision en fournissant une compréhension approfondie des données. Les décideurs peuvent utiliser ces informations pour formuler des stratégies ou prendre des décisions éclairées.

En résumé, l'analyse descriptive est une étape cruciale dans l'exploration initiale des données, fournissant une compréhension approfondie de leurs caractéristiques et de leur structure. Cela aide à poser les bases pour des analyses plus avancées et des prises de décision informées.

L'analyse diagnostique

L'analyse diagnostique est un processus utilisé pour identifier la cause sous-jacente d'un problème ou d'une condition. Elle est couramment employée dans divers domaines comme la médecine, l'ingénierie, l'informatique et la psychologie. Voici quelques éléments clés de l'analyse diagnostique :
1. Collecte d'informations
L'analyse commence par la collecte de données détaillées sur le problème. En médecine, cela peut inclure l'histoire médicale du patient, des examens physiques, et des tests diagnostiques comme des analyses de sang ou des imageries médicales. Dans d'autres domaines, cela pourrait impliquer l'examen des logs de système, des rapports d'erreurs, ou d'autres données pertinentes.
2. Évaluation et Analyse
Les informations recueillies sont évaluées pour identifier des modèles ou des anomalies qui pourraient indiquer la cause du problème. Les professionnels utilisent souvent des outils diagnostiques spécifiques tels que des logiciels de diagnostic, des instruments spécialisés, ou des méthodes d'analyse statistique.
3. Hypothèses et Tests
Sur la base de l'évaluation initiale, des hypothèses sont formulées concernant la cause probable du problème. Ces hypothèses sont ensuite testées par des méthodes supplémentaires. Par exemple, en médecine, cela pourrait signifier l'administration de traitements spécifiques pour voir s'ils améliorent la condition, ou en ingénierie, cela pourrait signifier l'application de correctifs ou de modifications pour observer si le problème persiste.
4. Conclusion et Suivi
Après les tests, une conclusion est tirée sur la cause la plus probable du problème. Un plan de traitement ou de réparation est élaboré et mis en œuvre. Le suivi est crucial pour s'assurer que la solution est efficace et que le problème ne se reproduit pas.
5. Rapport
Les résultats de l'analyse diagnostique sont souvent documentés dans un rapport détaillé qui inclut la description du problème, les méthodes utilisées pour le diagnostiquer, les résultats des tests, la conclusion, et les recommandations pour les mesures futures.
Dans chaque domaine, les techniques et outils spécifiques utilisés dans l'analyse diagnostique peuvent varier, mais l'objectif reste le même : identifier précisément la cause d'un problème afin de pouvoir le résoudre efficacement.

L'analyse prédictive

L'analyse prédictive est une branche de la science des données qui utilise des techniques statistiques et des algorithmes d'apprentissage machine pour prédire les résultats futurs à partir de données historiques. Voici les principaux aspects de l'analyse prédictive :

1. Collecte et préparation des données

Avant de pouvoir construire un modèle prédictif, il est nécessaire de rassembler et de préparer les données appropriées. Cela inclut la collecte de données historiques pertinentes, le nettoyage des données pour éliminer les erreurs ou les valeurs aberrantes, et la transformation des données pour les rendre utilisables par les modèles de machine learning. La préparation des données est souvent considérée comme l'une des phases les plus cruciales et les plus laborieuses du processus.

2. Exploration des données

Cette étape implique l'analyse exploratoire des données pour comprendre les tendances, les modèles, et les anomalies dans les données. Cela peut inclure des statistiques descriptives, des visualisations de données, et d'autres méthodes pour obtenir un aperçu significatif des caractéristiques des données.

3. Choix et entraînement des modèles

Différents algorithmes peuvent être appliqués pour créer des modèles prédictifs, tels que la régression linéaire, les forêts aléatoires, les machines à vecteurs de support, ou les réseaux de neurones. Le choix de l'algorithme dépend de la nature de la tâche prédictive (par exemple, classification ou régression) et des caractéristiques des données. Les modèles sont ensuite entraînés sur les données historiques pour apprendre à prédire les résultats.

4. Validation et optimisation des modèles

Après l'entraînement, les modèles doivent être validés pour vérifier leur précision et leur généralisabilité. Cela est souvent réalisé en utilisant des techniques telles que la validation croisée. Les paramètres des modèles peuvent être ajustés à cette étape pour améliorer leurs performances, un processus connu sous le nom de tuning des hyperparamètres.

5. Déploiement et surveillance

Une fois qu'un modèle est validé et optimisé, il peut être déployé dans un environnement de production pour effectuer des prédictions en temps réel ou sur de nouvelles données. La surveillance continue est nécessaire pour s'assurer que le modèle reste précis et pertinent avec le temps, surtout si les conditions sous-jacentes des données changent.

6. Mise à jour des modèles

Les modèles prédictifs peuvent nécessiter des mises à jour périodiques pour intégrer de nouvelles données ou pour s'ajuster à des changements dans les tendances sous-jacentes. Ceci est crucial pour maintenir la fiabilité des prédictions.

L'analyse prédictive est largement utilisée dans de nombreux domaines, tels que la finance pour la gestion des risques et la prévision boursière, le marketing pour l'analyse de la segmentation et la prévision des comportements des clients, les soins de santé pour prédire les maladies ou les réadmissions hospitalières, et bien d'autres domaines industriels. Elle permet aux organisations de prendre des décisions plus éclairées en anticipant les événements futurs et en planifiant en conséquence.

Les outils de la data analyse

Les outils propriétaires

Il existe de nombreux outils qui proposent d'analyser leurs propres données, je citerai

Salesforce : qui analyse le comportement des clients

Salesforce Logo, symbol, meaning, history, PNG, brand

et

Google Ads Logo PNG Images Transparent Free Download | PNGMart

Google Ad : qui analyse très bien le comportement des internautes autour d'un ensemble de sites

Les langages de programmation

Je relèverai ici 2 langages de programmation orientés vers l'analyse des données

Python

The Best Popular Programming Languages : Python

et

le langage R

Getting to know the R programming language - WorkingNation

Ces langages sont très ouverts, mais demandent un apprentissage relativement long.

 

Les outils BI

Ces outils sont payants dans leur version complète, mais offrent un panel de fonctionnalités très riche.

Power BI

Tableau

Tableau Logos

Qlik Sense

Qlik Sense | Profile | Carnal Software

L'outil universel

Excel

Microsoft Excel Logo - PNG e Vetor - Download de Logo

Puissant, universel et facilement ccessible.

Dans un projet d'envergure, Excel sera employé conjointement avec les autre soutils.

Récolter les données

Conseils pour un sondage

Maîtriser le temps nécessaire pour répondre au questionnaire.

Poser des question précises et pertinentes

Poser des questions de type varié ( qualitatif ou quantitatif)

Structurer le questionnaire (du général vers le spécifique)

Tester le sondage avec des proches

Donner envie de répondre (introduction)

Prévoir un texte libre (feedbacks)

Soigner son panel

1. Transparence de l’information : Clarifiez l’objectif de l’étude et l’utilisation des données de manière explicite. Mettez en place des politiques de confidentialité transparentes et obtenez le consentement des participants, assurant ainsi une communication ouverte et honnête.

2. Anonymat dans la collecte : Préservez la confidentialité en utilisant des méthodes de collecte anonymes. Encouragez l’anonymat, en particulier pour des sujets délicats, et ajustez les mesures de protection en fonction du degré de sensibilité des informations collectées.

3. Protection des données : Formez le personnel sur les bonnes pratiques de gestion des données. Établissez des contrôles d’accès stricts pour garantir la sécurité des informations. Développez un plan solide pour l’élimination ou la conservation sécurisée des données, renforçant ainsi la protection des données sensibles.

4. Respect des réglementations : Intégrez dès la conception des questionnaires les normes de protection des données. Restez informé des évolutions légales, en particulier en ce qui concerne les réglementations en vigueur, pour assurer une conformité continue.

5. Usage de panels préétablis : Simplifiez le processus d’étude en privilégiant l’utilisation de panels existants. Optez pour des panels gérés activement afin de garantir la qualité des résultats. Cultivez la confiance des participants pour établir des partenariats durables.

Les questions statistiques

Quelle(s) question(s) ci-dessous est une question statistique ?

Quel est le prix le chiffre d'affaires de votre entreprise hier ?

Chez cet importateur de voitures, prix de ventes de BMW est-il, de manière générale, plus élevé que les prix de vente des Mercédès ?

Combien de manteaux sont suspendus dans la penderie de ce restaurant à ce moment ?

Combien de romans policiers par an lisent les suisses ?

Jacques, as-tu lu le journal aujourd'hui ?

Quel est le poids moyen des éléphants en Afrique ?

 

 

 

Les 7 conseils pour un sondage

1. Préférez les questions fermées aux questions ouvertes

Pour des données faciles à recueillir et à analyser, privilégiez les questions fermées. En effet, elles produisent des données quantitatives qui peuvent servir à mesurer des variables.

En règle générale, essayez de vous limiter à deux questions ouvertes par sondage ou enquête. Si possible, placez-les à la fin du sondage.

2. Posez des questions neutres et objectives

Adoptez un ton objectif en vous abstenant d’exprimer votre opinion. Pour cet exemple, formulez votre question ainsi.

3. Proposez des choix de réponse équilibrés

es participants doivent avoir l’opportunité de proposer des réponses honnêtes et réfléchies, seul gage de crédibilité de votre sondage.

4. Ne vous dispersez pas

Ne pas poser une question double, c’est-à-dire une question à deux volets, qui demande aux participants d’évaluer deux choses différentes en même temps.

5. Variez vos questions et vos choix de réponse

Répondre cinquante fois à la même question finirait probablement par agacer.

6. Limitez les questions obligatoires

Parfois, les participants ne connaissent pas les réponses à vos questions. Peut-être sont-ils gênés par certaines d’entre elles et ne souhaitent pas y répondre. Pourtant, vous avez besoin de leur feedback.

7. Testez votre sondage

Partagez votre sondage avec vos collègues ou votre entourage avant de l’envoyer à votre population cible. Il suffit parfois d’un regard neuf ou d’un avis objectif pour repérer des erreurs.

Préparer les données

Règles essentielles

Dans Excel (aussi csv)

Nommer clairement les colonnes

Ne pas contenir de totaux ou sous-totauix.

Vérifier le type des données (numérique/texte/date, etc)

Télécharger le fichier de ventes

 

Révision Excel (facultatif)

La révision est-elle nécessaire

Afin d'avoir un niveau suffisant avec Excel, mais aussi les autres produits tels que Tableau ou Power BI il faudrait connaître les 4 points suivants suivants :

Savez-vous :

  • Incrémenter une série ?
  • Faire des références à des cellules ou des plages ?
  • Effectuer des calculs basiques (+ - * / % ) ?
  • Utiliser des fonctions (Somme, moyenne, rechercheV, NB.si etc.) ?

Si non une petite mise à niveau s'impose

Quelques exercices de révision

Incrémenter les valeurs - Télécharger

Référencer des cellules et des plages - Télécharger 

Calculs simples - Télécharger

Calculs sur des ensembles - Télécharger

Exercices sur les fonctions de base : Télécharger  (SOMME/MOYENNE/SI/NB)

Créer des tableaux de données no tableau - Télécharger

Créer des tableaux de données // Médailles - Télécharger

 

Les raccourcis clavier

Raccourci Définition
Tab passer à la cellule suivante (à droite)
Shift+Tab passer à la cellule précédente (à gauche)
Ctrl+Flèche atteindre l’extrémité d’un tableau de données (ou de la feuille)
Shift+Flèche sélectionner les données des cellules adjacentes
Ctrl+Shift+Flèche sélectionner un tableau de données facilement sur Excel
Ctrl+A sélectionner tout un tableau sur Excel
Touche Suppr effacer le contenu d’une cellule Excel
Ctrl+Molette zoomer ou dézoomer sur Excel
Ctrl+O ouvrir une feuille de calcul
Ctrl+W fermer une feuille de calcul
Ctrl+S sauvegarder un fichier Excel
Ctrl+F rechercher et remplacer une valeur sur Excel
Ctrl+N créer un nouveau classeur
Ctrl+Z annuler la dernière action
Ctrl+Y effectuer une action précédemment annulée

Exercice final tableaux

Télécharger le fichier d'exercices et ressortir les informations suivantes

1. Modifiez les données initiales afin de pouvoir les transformer en tableau
2. Modifiez le nom du tableau en "gender data" (pas d'accents)
3. Le football apparait 2 fois, supprimez les doublons
4. Ajoutez la ligne de total et faites la somme de chaque colonne
5. Créez une nouvelle colonne calculant le pourcentage de femmes pour chaque sport
6. Dans la cellule "maximum d'athlètes", calculez le nombre maximum d'athlètes pour un sport

Votre premier mandat de Data Analyste

Définition du mandat

 

Un nouvelle radio va commencer la diffusion dans la région lémanique, tant en France qu'en Suisse. Son objectif est essentiellement musical et vise essentiellement les lieux collectifs (bars, restaurants, boutiques, etc.)

Son choix initial est de diffuser la musique actuelle pop, rock, latino et dance essentiellement.   Son objectif et de s'adapter aux heures de la journée pour diffuser une musique énergique. L'énergie de la musique est importante aux yeux de la direction.

Votre mission est de valider le choix de la direction de la radio en vous basant sur les statistiques d'écoute de Spotify. Et surtout de conseiller la Direction qui est issue d'un milieu éloigné de la radio, la presse écrite.

Sources des données

Les données proviennent du site :

https://charts.spotify.com/home

Qui vous donne semaine après semaine les charts

Ici, pour l'exercice, nous récupérons le travail d'un informaticien qui a compilé les charts semaine après semaine sur plusieurs mois.

Nous vous avons également un peu facilité la tâche en tentant de traduire les colonnes de la manière la plus fidèle possible

Télécharger le fichier

 

Commencer votre Rapport - ex 1

Etablir un document (Word ou autre) pour décrire le fichier :

  • quantité
  • plage temporelle concernée
  • description et analyse des colonnes
  • recherche de données incomplètes et les décrire.

Pur chaque colonne déterminer si la données

est Quantitative ou Qualitative

et si Quantitative, est-elle discrète ou continue 

Exercice 2 : vision globale

Donner les informations suivantes

  • Le nombre maximal d'écoutes
  • Le nombre minimal  d'écoutes
  • L'étendue des écoutes
  • Début des analyses
  • Fin des analyses

Exercice 3 : Préparation rapport

Questions posées par la Direction de Radio CIE ?

Exemple :

Est-ce que ce sont seulement les superstars qui se retrouvent dans le Top 200?
Y a-t-il un style de musique qui donne plus d'énergie que d'autres ?
Sont-ce uniquement les musiques qui viennent de sortir qui se trouvent au Top ?

Votre rapport

Définition du jeu de données :

  • Extraits hebdomadaires compiles (2020-2021)
  • Informations sur le morceau
    Nom Artiste, style, date de sortie
  • Informations de performance
    meilleure position, nb apparitions, nb d'écoutes, nb followers
  • Caractéristiques internes
    popularité, énergie, dansabilité [0 à 1]

Exercice 4 : Chiffres clé

Exercice 5

Publier un beau rapport (PPW)

Ajouter, par exemple, le poids de chaque genre musical dans le Top 200

Le lien entre le genre de musique et l'écoute

Le lien entre le genre de musique et la positivité.

 

 

Python pour Data Analyse - les Bases

Tous les types de variabées

x = "Hello World" str
x = 20 int
x = 20.5 float
x = 1j complex
x = ["apple", "banana", "cherry"] list
x = ("apple", "banana", "cherry") tuple
x = range(6) range
x = {"name" : "John", "age" : 36} dict
x = {"apple", "banana", "cherry"} set
x = frozenset({"apple", "banana", "cherry"}) frozenset
x = True bool
x = b"Hello" bytes
x = bytearray(5) bytearray
x = memoryview(bytes(5)) memoryview
x = None NoneType

print( type ( x ) )

Numériques, int

nb_jours = 365
print( nb_jours )
print( type (nb_jours ) )

 

String, boolean

jour = "Vendredi"
print( jour )
print( type( jour ))

ferie = False
print( ferie )
print( type( ferie ))

List, boucle for

fruits_stock = {}
print(fruits_stock)

fruits = ['citron', 'banane', 'pomme', 'poire', 'banane', 'pomme', 'pomme', 'poire', 'banane', 'banane']

for fruit in fruits:
if fruit in fruits_stock:
fruits_stock[fruit] +=1
else :
fruits_stock[fruit] =1

print(fruits)
print( type ( fruits ))

Variable de type list

Variable de type dict, dictionnaire

Ajouter un élément à un tableau

fruits = ['citron', 'banane', 'pomme', 'poire', 'banane', 'pomme', 'pomme', 'poire', 'banane', 'banane']
fruits.append('framboise')
print(fruits)

Python pour Data Analyse - NumPy

Importer la bibliothèque

import numpy as np

Créer un tableau à 1 dimension

import numpy as np

vecteur = np.array([3,4,8,19])
print(vecteur)
print( type( vecteur ))

 

Tableau à 2 dimensions

import numpy as np
matrice = np.array( [[2, 5, 12],
[20, 50, 120],
[21, 51, 121]]
)
print(matrice)
print( type( matrice ))

Récupérer la dimension d'un tableau

print(matrice.shape)

Ouvrier des données au format csv

import numpy as np

alcool = np.genfromtxt("world_alcohol.csv",delimiter=",")
print(type(alcool))

Type de données d'un tableau

alcool.dtype

Afficher le tableau importé

Les champs de type "texte" ne sont pas affichables (NAN = not a Number"

Importer au format UTF

import numpy as np

alcool = np.genfromtxt("world_alcohol.csv",delimiter=",", dtype="U75")
print( alcool )

Extraire la 2ème ligne (ligne 1)

print(alcool[1])

Extraire une donnée précise

print(alcool[1][0])

Sélectionner une colonne

alcool[:,1]

Sélectionner une ligne

alcool[2,:]

Choisir des lignes et des colonnes

alcool[1:3,1]

Récupérer une liste

pays = alcool[:,2]
print( type ( pays ))
print(pays)

Filtrer une table

estPays= (alcool[:,2] == "Algeria")
print( estPays )
print("--------------------")
pays = alcool[estPays]
print( pays )

Filtrer sur un champ numérique

estAnnee = alcool[:,0] == '1984'
annee = alcool[estAnnee]
print( annee )

Filtrer sur 2 critères

estPaysAnnee = (alcool[:,2] == "Algeria") & (alcool[:,0] == "1984")
PaysAnnee = alcool[estPaysAnnee]
print( PaysAnnee )

Copier un jeu de données

alcool2 = alcool.copy()

Remplacer des données

estWine = alcool2[:,3] == "Wine"

alcool2[estWine,3]= "Vin"

print( alcool2 )

 

Topbee Sàrl
Rte de la Plantaz 8
1870 Monthey

info@topbee.ch
crossmenuchevron-down