1. Objectif
Publier le dataset AI ROI en open data CC BY 4.0 tout en respectant :
- Confidentialité clients
- RGPD (pas de données personnelles)
- Secrets d'affaires
- Clauses NDA contrats
2. Données Brutes Collectées
2.1 Sources
Projets ENDKOO (75% du dataset)
- Rapports déploiement IA internes
- Questionnaires ROI post-projet (J+12m, J+24m)
- Extractions métriques (temps économisé, CA, coûts)
- Consentement : Clause contrats ENDKOO "données agrégées anonymisées à fins recherche"
Projets Partenaires Task Force 20 (25% du dataset)
- Contributions volontaires experts réseau
- Données déjà agrégées à la source
- Consentement : Accord écrit partenaires
2.2 Données brutes (AVANT anonymisation)
| Catégorie |
Données collectées |
| Données entreprises |
Nom entreprise, SIRET/SIREN, Adresse complète, Secteur (NAF 5 digits),
Effectif exact, CA exact, Nom contact
|
| Données projet |
Dates exactes, Budget exact (€), Outils IA (noms précis),
Cas d'usage détaillé, ROI exact (%), Métriques précises
|
3. Méthodologie Anonymisation
3.1 Suppression identifiants directs
❌ Retrait complet :
• Nom entreprise
• SIRET / SIREN
• Adresse
• Nom contact
• Email / téléphone
Résultat : Impossible identifier entreprise directement.
3.2 Généralisation données
❌ AVANT
Secteur : NAF 4711F "Hypermarchés"
Effectif : 37 salariés
CA : 4,2 M€
Localisation : Lyon 69002
Dates : 15/03/2023 → 22/08/2024
✅ APRÈS
Secteur : "Commerce B2B"
Effectif : "11-50"
CA : "1-10 M€"
Localisation : "Auvergne-Rhône-Alpes"
Dates : "T1 2023 → T3 2024"
3.3 Agrégation données sensibles
| Donnée |
AVANT (brut) |
APRÈS (anonymisé) |
| Budget projet |
12 450 € |
"10k-20k €" |
| ROI |
187,3% |
187% (arrondi) |
| Cas d'usage |
"Chatbot SAV produit X" |
"Chatbot client" |
3.4 Test k-anonymat (k=5)
Principe : Chaque combinaison [Secteur + Taille + Région + Cas d'usage] doit avoir au moins 5 occurrences dans le dataset.
Exemple validation :
• [Commerce B2B + 11-50 + Auvergne-Rhône-Alpes + Chatbot] → 12 lignes ✅ OK
• [Industrie + 250+ + Bretagne + ML prédictif] → 2 lignes ❌ Nécessite généralisation
Action : Si k<5, généraliser davantage (ex : "Industrie" → "Production B2B")
3.5 Test ré-identification
Méthode : Prendre 10 lignes aléatoires du dataset et tenter de retrouver l'entreprise source via recherche Google.
Résultat attendu : 0/10 ré-identification
Validation ENDKOO : Test effectué sur 20 lignes → 0 ré-identification ✅
4. Checklist Conformité RGPD
- Identifiants directs supprimés (nom, SIRET, adresse, contact)
- Combinaisons attributs non ré-identifiables (k=5)
- Anonymisation irréversible (pas de table correspondance)
- Données source supprimées après traitement
Conclusion : Dataset anonymisé au sens RGPD Art. 4(5) (pas pseudonymisé).
5. Limites et Risques Résiduels
Risques documentés :
⚠️ Risque faible : Un client pourrait se reconnaître en combinant :
• ROI exact publié
• Période exacte (trimestre)
• Secteur générique
Mitigation :
• ROI arrondi (187,3% → 187%)
• Périodes trimestrialisées (pas dates exactes)
• Cas d'usage génériques (pas noms produits)
Exclusions dataset :
- Secteurs sensibles : Santé, Défense, Banque (≈8% projets)
- Projets < 10k€ : Trop faible budget (≈5% projets)
- NDA strict : Clients refusant même anonymisation (≈2% projets)
Impact : ≈ 85% des projets ENDKOO 2022-2025 inclus, 15% exclus
6. Licence et Diffusion
Licence CC BY 4.0 (domaine public)
Le dataset est publié sans restrictions d'utilisation.
Dépôts permanents :
Plateformes IA/ML :
7. Traçabilité
Documents disponibles :
- PROCESS_ANONYMISATION.md (ce document)
- METHODOLOGIE_ROI.md
- Data dictionary (colonnes dataset)
- CHANGELOG (versions dataset)
Contact conformité :
Contact DPO : Via formulaire en ligne
Délégué Protection Données : Denis ATLAN
Registre traitements : Disponible sur demande
8. Mises à jour Futures
| Version |
Date prévue |
Évolutions |
| v1.0 |
Actuelle (2025-12-29) |
200 déploiements, k=5 |
| v2.0 |
T2 2026 |
500 déploiements, k=10
Ajout métadonnées contextuelles (taille LLM, coûts API)
|
9. Disclaimer
⚠️ Ce processus EST :
✅ Documenté et auditable
✅ Conforme RGPD selon interprétation ENDKOO
✅ Test k-anonymat validé (k=5)
⚠️ Ce processus N'EST PAS :
❌ Audit CNIL (pas de validation externe)
❌ Certification ISO 27001
❌ Garantie ré-identification impossible (risque faible résiduel)
Responsabilité : ENDKOO
Recommandation : Pour usages critiques, vérification légale recommandée
📊 Evidence Pack v1.0
Ce document fait partie de l'Evidence Pack v1.0 créé pour garantir la transparence et l'auditabilité des claims du site denisatlan.fr.
← Retour au hub Evidence Pack