Module 376 Collecter et analyser des données
Compétence opérationnelle c3: Collecter les données
Si les données et informations nécessaires font défaut, les développeurs de business numérique CFC se chargent de les collecter de manière autonome:
Ils planifient la collecte des données et l’effectuent au moyen de la méthode appropriée. Pour ce faire, ils recourent typiquement à des interviews ou à des sondages simples. Ils enregistrent les données collectées sous une forme ad hoc et dans la qualité appropriée. Lors de la collecte des données, ils procèdent de manière analytique et avec le doigté nécessaire.
Compétence opérationnelle c6: Exploiter les données et établir des rapports simples
Les développeurs de business numérique CFC procèdent à des exploitations de données aisément compréhensibles:
Ils déterminent les outils appropriés, exploitent les données à l’aide de requêtes ciblées, établissent des rapports clairs en fonction des questions traitées et en tirent une conclusion concise. Ils documentent les résultats de manière compréhensible pour autrui. Ils peuvent aussi traiter de questions plus complexes et, si nécessaire, demander un soutien.
c3.1 En fonction des exigences, ils planifient la collecte des données (y c. mode de collecte, sources, format cible des données).
c3.2 Ils colt les données dans le cadre d’interviews avec les personnes sélectionnées.
c3.3 Ils relèvent les données par le biais d’un sondage simple.
c3.4 Ils enregistrent les données recueillies dans la forme et la qualité appropriées.
c6.1 Ils déterminent les outils appropriés (p. ex. PowerBI, Tableau, Qlik) pour exploiter les données.
c6.2 Ils exploitent les données à l’aide de requêtes ciblées (p. ex. au moyen de SQL).
c6.3 Ils établissent des rapports simples et clairs selon les objectifs et les questions définis.
c6.4 Ils tirent une conclusion concise de l’exploitation des données et la consignent de manière compréhensible et étayée.
Pour chaque tâche fournir un mini rapport qui décrit et illustre votre travail. Ces rapports devront être fournis en fin de cours lors de la clôture.
Jour 1 : réaliser un sondage
Phase 2
1 questionnaire / sondage, présentation des questions/champs
2 des réponses au questionnaire
3 une critique constructive de votre questionnaire
4 un rapport avec analyse des données récoltées (ou fictives)
1 présentation rapide de la structure de données spotify
2. un dossier pour client CIE Radio sur PowerPoint
1 un journal de travail (oral ou écrit)
https://forms.gle/CiXqS53p7n2Sa8jk8
Si l’information peut être comptée ou mesurée en lui assignant une valeur numérique, il s’agit alors de données quantitatives. Les données quantitatives peuvent par conséquence être obtenues en se posant des questions faisant référence à une quantité comme « combien » ou « à quelle fréquence ».
Par exemple : combien de personnes ont assisté au webinaire de la semaine dernière ? Quel est le chiffre d’affaires réalisé par l’entreprise en 2023 ? À quelle fréquence un certain groupe de clients se connecte à plateforme de e-banking ?
Exemples :
Types
Les données quantitatives discrètes prennent des valeurs numériques fixes et ne peuvent pas être décomposées davantage. Un exemple de données discrètes est lorsque vous comptez quelque chose, comme le nombre de personnes dans une pièce. Si vous comptez 32 personnes, c’est fixe et fini.
Les données quantitatives continues peuvent être placées sur un continuum et décomposées à l’infini en unités plus petites. Il peut prendre n’importe quelle valeur ; par exemple, un morceau de ficelle peut mesurer 20,4 cm de long ou la température ambiante peut être de 30,8 degrés.
Contrairement aux données quantitatives, les données qualitatives ne peuvent pas être mesurées ou comptées.
Elles sont descriptives et exprimées en termes de langage plutôt qu’en valeurs numériques.
Les chercheurs se tourneront souvent vers des données qualitatives pour répondre à des questions comme « Pourquoi ? » ou « Comment ? ». Par exemple, si un certain visiteur du site Web a abandonné son panier trois fois en une semaine, vous souhaiterez probablement rechercher pourquoi via la collecte de données qualitatives auprès de l’utilisateur.
Les données qualitatives font également référence aux mots ou étiquettes utilisés pour décrire certaines caractéristiques. Par exemple, décrire le ciel comme bleu ou encore étiqueter une saveur de crème glacée particulière comme la vanille.
Exemples
Types
Les données nominales sont utilisées pour étiqueter ou catégoriser certaines variables sans leur donner aucun type de valeur quantitative. Par exemple, si vous collectiez des données sur votre public cible, vous souhaiteriez sûrement savoir où il vit. Sont-ils basés au Royaume-Uni, aux États-Unis, en Asie ou en Australie ? Chacune de ces classifications géographiques compte comme une donnée nominale. Un autre exemple simple pourrait être l’utilisation d’étiquettes comme « bleu », « marron » et « vert » pour décrire la couleur des yeux.
Les données ordinales sont lorsque les catégories utilisées pour classer vos données qualitatives tombent dans un ordre naturel ou dans une hiérarchie. Par exemple, si vous souhaitez explorer la satisfaction client, vous pouvez demander à chaque client de sélectionner si son expérience avec votre produit a été « médiocre », « satisfaisante », « bonne » ou « exceptionnelle ». Il est clair que « exceptionnel » vaut mieux que « médiocre », mais il n’y a aucun moyen de mesurer ou de quantifier la « distance » entre les deux catégories.
Les données nominales et ordinales ont tendance à apparaître dans le cadre de la réalisation de questionnaires et d’enquêtes. Cela inclut également des données non structurées telles que ce que les gens disent dans une interview, ce qu’ils écrivent dans une critique de produit ou ce qu’ils publient sur les réseaux sociaux.
L'analyse prédictive est une branche de la science des données qui utilise des techniques statistiques et des algorithmes d'apprentissage machine pour prédire les résultats futurs à partir de données historiques. Voici les principaux aspects de l'analyse prédictive :
Avant de pouvoir construire un modèle prédictif, il est nécessaire de rassembler et de préparer les données appropriées. Cela inclut la collecte de données historiques pertinentes, le nettoyage des données pour éliminer les erreurs ou les valeurs aberrantes, et la transformation des données pour les rendre utilisables par les modèles de machine learning. La préparation des données est souvent considérée comme l'une des phases les plus cruciales et les plus laborieuses du processus.
Cette étape implique l'analyse exploratoire des données pour comprendre les tendances, les modèles, et les anomalies dans les données. Cela peut inclure des statistiques descriptives, des visualisations de données, et d'autres méthodes pour obtenir un aperçu significatif des caractéristiques des données.
3. Choix et entraînement des modèles
Différents algorithmes peuvent être appliqués pour créer des modèles prédictifs, tels que la régression linéaire, les forêts aléatoires, les machines à vecteurs de support, ou les réseaux de neurones. Le choix de l'algorithme dépend de la nature de la tâche prédictive (par exemple, classification ou régression) et des caractéristiques des données. Les modèles sont ensuite entraînés sur les données historiques pour apprendre à prédire les résultats.
Après l'entraînement, les modèles doivent être validés pour vérifier leur précision et leur généralisabilité. Cela est souvent réalisé en utilisant des techniques telles que la validation croisée. Les paramètres des modèles peuvent être ajustés à cette étape pour améliorer leurs performances, un processus connu sous le nom de tuning des hyperparamètres.
Une fois qu'un modèle est validé et optimisé, il peut être déployé dans un environnement de production pour effectuer des prédictions en temps réel ou sur de nouvelles données. La surveillance continue est nécessaire pour s'assurer que le modèle reste précis et pertinent avec le temps, surtout si les conditions sous-jacentes des données changent.
Les modèles prédictifs peuvent nécessiter des mises à jour périodiques pour intégrer de nouvelles données ou pour s'ajuster à des changements dans les tendances sous-jacentes. Ceci est crucial pour maintenir la fiabilité des prédictions.
L'analyse prédictive est largement utilisée dans de nombreux domaines, tels que la finance pour la gestion des risques et la prévision boursière, le marketing pour l'analyse de la segmentation et la prévision des comportements des clients, les soins de santé pour prédire les maladies ou les réadmissions hospitalières, et bien d'autres domaines industriels. Elle permet aux organisations de prendre des décisions plus éclairées en anticipant les événements futurs et en planifiant en conséquence.
Il existe de nombreux outils qui proposent d'analyser leurs propres données, je citerai
Salesforce : qui analyse le comportement des clients
et
Google Ad : qui analyse très bien le comportement des internautes autour d'un ensemble de sites
Je relèverai ici 2 langages de programmation orientés vers l'analyse des données
Python
et
le langage R
Ces langages sont très ouverts, mais demandent un apprentissage relativement long.
Ces outils sont payants dans leur version complète, mais offrent un panel de fonctionnalités très riche.
Puissant, universel et facilement ccessible.
Dans un projet d'envergure, Excel sera employé conjointement avec les autre soutils.
Maîtriser le temps nécessaire pour répondre au questionnaire.
Poser des question précises et pertinentes
Poser des questions de type varié ( qualitatif ou quantitatif)
Structurer le questionnaire (du général vers le spécifique)
Tester le sondage avec des proches
Donner envie de répondre (introduction)
Prévoir un texte libre (feedbacks)
1. Transparence de l’information : Clarifiez l’objectif de l’étude et l’utilisation des données de manière explicite. Mettez en place des politiques de confidentialité transparentes et obtenez le consentement des participants, assurant ainsi une communication ouverte et honnête.
2. Anonymat dans la collecte : Préservez la confidentialité en utilisant des méthodes de collecte anonymes. Encouragez l’anonymat, en particulier pour des sujets délicats, et ajustez les mesures de protection en fonction du degré de sensibilité des informations collectées.
3. Protection des données : Formez le personnel sur les bonnes pratiques de gestion des données. Établissez des contrôles d’accès stricts pour garantir la sécurité des informations. Développez un plan solide pour l’élimination ou la conservation sécurisée des données, renforçant ainsi la protection des données sensibles.
4. Respect des réglementations : Intégrez dès la conception des questionnaires les normes de protection des données. Restez informé des évolutions légales, en particulier en ce qui concerne les réglementations en vigueur, pour assurer une conformité continue.
5. Usage de panels préétablis : Simplifiez le processus d’étude en privilégiant l’utilisation de panels existants. Optez pour des panels gérés activement afin de garantir la qualité des résultats. Cultivez la confiance des participants pour établir des partenariats durables.
Quelle(s) question(s) ci-dessous est une question statistique ?
Quel est le prix le chiffre d'affaires de votre entreprise hier ?
Chez cet importateur de voitures, prix de ventes de BMW est-il, de manière générale, plus élevé que les prix de vente des Mercédès ?
Combien de manteaux sont suspendus dans la penderie de ce restaurant à ce moment ?
Combien de romans policiers par an lisent les suisses ?
Jacques, as-tu lu le journal aujourd'hui ?
Quel est le poids moyen des éléphants en Afrique ?
Pour des données faciles à recueillir et à analyser, privilégiez les questions fermées. En effet, elles produisent des données quantitatives qui peuvent servir à mesurer des variables.
En règle générale, essayez de vous limiter à deux questions ouvertes par sondage ou enquête. Si possible, placez-les à la fin du sondage.
Adoptez un ton objectif en vous abstenant d’exprimer votre opinion. Pour cet exemple, formulez votre question ainsi.
es participants doivent avoir l’opportunité de proposer des réponses honnêtes et réfléchies, seul gage de crédibilité de votre sondage.
Ne pas poser une question double, c’est-à-dire une question à deux volets, qui demande aux participants d’évaluer deux choses différentes en même temps.
Répondre cinquante fois à la même question finirait probablement par agacer.
Parfois, les participants ne connaissent pas les réponses à vos questions. Peut-être sont-ils gênés par certaines d’entre elles et ne souhaitent pas y répondre. Pourtant, vous avez besoin de leur feedback.
Partagez votre sondage avec vos collègues ou votre entourage avant de l’envoyer à votre population cible. Il suffit parfois d’un regard neuf ou d’un avis objectif pour repérer des erreurs.
Dans Excel (aussi csv)
Nommer clairement les colonnes
Ne pas contenir de totaux ou sous-totauix.
Vérifier le type des données (numérique/texte/date, etc)
Télécharger le fichier de ventes
Afin d'avoir un niveau suffisant avec Excel, mais aussi les autres produits tels que Tableau ou Power BI il faudrait connaître les 4 points suivants suivants :
Savez-vous :
Si non une petite mise à niveau s'impose
Incrémenter les valeurs - Télécharger
Référencer des cellules et des plages - Télécharger
Calculs simples - Télécharger
Calculs sur des ensembles - Télécharger
Exercices sur les fonctions de base : Télécharger (SOMME/MOYENNE/SI/NB)
Créer des tableaux de données no tableau - Télécharger
Créer des tableaux de données // Médailles - Télécharger
Raccourci | Définition |
Tab | passer à la cellule suivante (à droite) |
Shift+Tab | passer à la cellule précédente (à gauche) |
Ctrl+Flèche | atteindre l’extrémité d’un tableau de données (ou de la feuille) |
Shift+Flèche | sélectionner les données des cellules adjacentes |
Ctrl+Shift+Flèche | sélectionner un tableau de données facilement sur Excel |
Ctrl+A | sélectionner tout un tableau sur Excel |
Touche Suppr | effacer le contenu d’une cellule Excel |
Ctrl+Molette | zoomer ou dézoomer sur Excel |
Ctrl+O | ouvrir une feuille de calcul |
Ctrl+W | fermer une feuille de calcul |
Ctrl+S | sauvegarder un fichier Excel |
Ctrl+F | rechercher et remplacer une valeur sur Excel |
Ctrl+N | créer un nouveau classeur |
Ctrl+Z | annuler la dernière action |
Ctrl+Y | effectuer une action précédemment annulée |
Télécharger le fichier d'exercices et ressortir les informations suivantes
1. Modifiez les données initiales afin de pouvoir les transformer en tableau
2. Modifiez le nom du tableau en "gender data" (pas d'accents)
3. Le football apparait 2 fois, supprimez les doublons
4. Ajoutez la ligne de total et faites la somme de chaque colonne
5. Créez une nouvelle colonne calculant le pourcentage de femmes pour chaque sport
6. Dans la cellule "maximum d'athlètes", calculez le nombre maximum d'athlètes pour un sport
Un nouvelle radio va commencer la diffusion dans la région lémanique, tant en France qu'en Suisse. Son objectif est essentiellement musical et vise essentiellement les lieux collectifs (bars, restaurants, boutiques, etc.)
Son choix initial est de diffuser la musique actuelle pop, rock, latino et dance essentiellement. Son objectif et de s'adapter aux heures de la journée pour diffuser une musique énergique. L'énergie de la musique est importante aux yeux de la direction.
Votre mission est de valider le choix de la direction de la radio en vous basant sur les statistiques d'écoute de Spotify. Et surtout de conseiller la Direction qui est issue d'un milieu éloigné de la radio, la presse écrite.
Les données proviennent du site :
https://charts.spotify.com/home
Qui vous donne semaine après semaine les charts
Ici, pour l'exercice, nous récupérons le travail d'un informaticien qui a compilé les charts semaine après semaine sur plusieurs mois.
Nous vous avons également un peu facilité la tâche en tentant de traduire les colonnes de la manière la plus fidèle possible
Etablir un document (Word ou autre) pour décrire le fichier :
Pur chaque colonne déterminer si la données
est Quantitative ou Qualitative
et si Quantitative, est-elle discrète ou continue
Donner les informations suivantes
Questions posées par la Direction de Radio CIE ?
Exemple :
Est-ce que ce sont seulement les superstars qui se retrouvent dans le Top 200?
Y a-t-il un style de musique qui donne plus d'énergie que d'autres ?
Sont-ce uniquement les musiques qui viennent de sortir qui se trouvent au Top ?
Définition du jeu de données :
Publier un beau rapport (PPW)
Ajouter, par exemple, le poids de chaque genre musical dans le Top 200
Le lien entre le genre de musique et l'écoute
Le lien entre le genre de musique et la positivité.
x = "Hello World" str
x = 20 int
x = 20.5 float
x = 1j complex
x = ["apple", "banana", "cherry"] list
x = ("apple", "banana", "cherry") tuple
x = range(6) range
x = {"name" : "John", "age" : 36} dict
x = {"apple", "banana", "cherry"} set
x = frozenset({"apple", "banana", "cherry"}) frozenset
x = True bool
x = b"Hello" bytes
x = bytearray(5) bytearray
x = memoryview(bytes(5)) memoryview
x = None NoneType
print( type ( x ) )
nb_jours = 365
print( nb_jours )
print( type (nb_jours ) )
jour = "Vendredi"
print( jour )
print( type( jour ))
ferie = False
print( ferie )
print( type( ferie ))
fruits_stock = {}
print(fruits_stock)
fruits = ['citron', 'banane', 'pomme', 'poire', 'banane', 'pomme', 'pomme', 'poire', 'banane', 'banane']
for fruit in fruits:
if fruit in fruits_stock:
fruits_stock[fruit] +=1
else :
fruits_stock[fruit] =1
print(fruits)
print( type ( fruits ))
fruits = ['citron', 'banane', 'pomme', 'poire', 'banane', 'pomme', 'pomme', 'poire', 'banane', 'banane']
fruits.append('framboise')
print(fruits)
import numpy as np
import numpy as np
vecteur = np.array([3,4,8,19])
print(vecteur)
print( type( vecteur ))
import numpy as np
matrice = np.array( [[2, 5, 12],
[20, 50, 120],
[21, 51, 121]]
)
print(matrice)
print( type( matrice ))
print(matrice.shape)
import numpy as np
alcool = np.genfromtxt("world_alcohol.csv",delimiter=",")
print(type(alcool))
alcool.dtype
Les champs de type "texte" ne sont pas affichables (NAN = not a Number"
import numpy as np
alcool = np.genfromtxt("world_alcohol.csv",delimiter=",", dtype="U75")
print( alcool )
print(alcool[1])
print(alcool[1][0])
alcool[:,1]
alcool[2,:]
alcool[1:3,1]
pays = alcool[:,2]
print( type ( pays ))
print(pays)
estPays= (alcool[:,2] == "Algeria")
print( estPays )
print("--------------------")
pays = alcool[estPays]
print( pays )
estAnnee = alcool[:,0] == '1984'
annee = alcool[estAnnee]
print( annee )
estPaysAnnee = (alcool[:,2] == "Algeria") & (alcool[:,0] == "1984")
PaysAnnee = alcool[estPaysAnnee]
print( PaysAnnee )
alcool2 = alcool.copy()
estWine = alcool2[:,3] == "Wine"
alcool2[estWine,3]= "Vin"
print( alcool2 )