Big data
DéfinitionLe big data désigne des volumes massifs de données hétérogènes produits à grande vitesse, que les outils classiques ne savent plus traiter. Il se caractérise par les 5 V : Volume, Vélocité, Variété, Véracité, Valeur.
1. Volume et Vélocité VOLUME : téraoctets, pétaoctets de données (logs, capteurs, transactions, réseaux sociaux). VÉLOCITÉ : génération en TEMPS RÉEL ou quasi-temps réel, l'analyse doit suivre le flux, pas se faire après coup.
2. Variété et Véracité VARIÉTÉ : structurées (bases SQL), semi-structurées (JSON, XML) et NON STRUCTURÉES (texte, image, son, vidéo). VÉRACITÉ : qualité, fiabilité, biais des données, un big data biaisé produit des décisions biaisées.
3. Valeur — la finalité business Le 5e V est crucial : la donnée n'a de sens que si elle PRODUIT DE LA VALEUR. Recommandation client (Netflix), maintenance prédictive (Air France), tarification dynamique (SNCF), détection de fraude (banques).
4. Enjeux organisationnels et éthiques INFRASTRUCTURES (data lakes, cloud), COMPÉTENCES (data scientists), GOUVERNANCE (qualité, sécurité). CADRE LÉGAL : RGPD en Europe (consentement, droit à l'oubli, minimisation). Risques éthiques : surveillance, discrimination algorithmique.
5. Pièges courants Quatre notions à distinguer. BIG DATA : les 5V. DATA classique : volumes modestes, base relationnelle SQL. ANALYTICS : analyse, qui peut porter sur du big data ou non. DATA SCIENCE : discipline qui exploite. Sans les 5V, ce n'est pas du big data.
Quels sont les 5 V qui caractérisent le big data ?
Exact. C'était bien B.
Pas tout à fait. La bonne réponse était B : « Volume, Vélocité, Variété, Véracité, Valeur (finalité business) ».
Envie d'enchaîner sur d'autres notions ?