🔒 Collecte de Données & Anonymisation RGPD

AI ROI Dataset | Version 1.0 - 29 décembre 2025

✓ Conforme RGPD Art. 4(5) ⚠️ Auto-déclaré

1. Objectif

Publier le dataset AI ROI en open data CC BY 4.0 tout en respectant :

2. Données Brutes Collectées

2.1 Sources

Projets ENDKOO (75% du dataset)

  • Rapports déploiement IA internes
  • Questionnaires ROI post-projet (J+12m, J+24m)
  • Extractions métriques (temps économisé, CA, coûts)
  • Consentement : Clause contrats ENDKOO "données agrégées anonymisées à fins recherche"

Projets Partenaires Task Force 20 (25% du dataset)

  • Contributions volontaires experts réseau
  • Données déjà agrégées à la source
  • Consentement : Accord écrit partenaires

2.2 Données brutes (AVANT anonymisation)

Catégorie Données collectées
Données entreprises Nom entreprise, SIRET/SIREN, Adresse complète, Secteur (NAF 5 digits), Effectif exact, CA exact, Nom contact
Données projet Dates exactes, Budget exact (€), Outils IA (noms précis), Cas d'usage détaillé, ROI exact (%), Métriques précises

3. Méthodologie Anonymisation

3.1 Suppression identifiants directs

❌ Retrait complet :
• Nom entreprise
• SIRET / SIREN
• Adresse
• Nom contact
• Email / téléphone

Résultat : Impossible identifier entreprise directement.

3.2 Généralisation données

❌ AVANT

Secteur : NAF 4711F "Hypermarchés"

Effectif : 37 salariés

CA : 4,2 M€

Localisation : Lyon 69002

Dates : 15/03/2023 → 22/08/2024

✅ APRÈS

Secteur : "Commerce B2B"

Effectif : "11-50"

CA : "1-10 M€"

Localisation : "Auvergne-Rhône-Alpes"

Dates : "T1 2023 → T3 2024"

3.3 Agrégation données sensibles

Donnée AVANT (brut) APRÈS (anonymisé)
Budget projet 12 450 € "10k-20k €"
ROI 187,3% 187% (arrondi)
Cas d'usage "Chatbot SAV produit X" "Chatbot client"

3.4 Test k-anonymat (k=5)

Principe : Chaque combinaison [Secteur + Taille + Région + Cas d'usage] doit avoir au moins 5 occurrences dans le dataset.

Exemple validation :
• [Commerce B2B + 11-50 + Auvergne-Rhône-Alpes + Chatbot] → 12 lignes ✅ OK
• [Industrie + 250+ + Bretagne + ML prédictif] → 2 lignes ❌ Nécessite généralisation

Action : Si k<5, généraliser davantage (ex : "Industrie" → "Production B2B")

3.5 Test ré-identification

Méthode : Prendre 10 lignes aléatoires du dataset et tenter de retrouver l'entreprise source via recherche Google.

Résultat attendu : 0/10 ré-identification
Validation ENDKOO : Test effectué sur 20 lignes → 0 ré-identification ✅

4. Checklist Conformité RGPD

Conclusion : Dataset anonymisé au sens RGPD Art. 4(5) (pas pseudonymisé).

5. Limites et Risques Résiduels

Risques documentés :

⚠️ Risque faible : Un client pourrait se reconnaître en combinant :
• ROI exact publié
• Période exacte (trimestre)
• Secteur générique

Mitigation :
• ROI arrondi (187,3% → 187%)
• Périodes trimestrialisées (pas dates exactes)
• Cas d'usage génériques (pas noms produits)

Exclusions dataset :

Impact : ≈ 85% des projets ENDKOO 2022-2025 inclus, 15% exclus

6. Licence et Diffusion

Licence CC BY 4.0 (domaine public)

Le dataset est publié sans restrictions d'utilisation.

Dépôts permanents :

Plateformes IA/ML :

7. Traçabilité

Documents disponibles :

Contact conformité :

Contact DPO : Via formulaire en ligne

Délégué Protection Données : Denis ATLAN

Registre traitements : Disponible sur demande

8. Mises à jour Futures

Version Date prévue Évolutions
v1.0 Actuelle (2025-12-29) 200 déploiements, k=5
v2.0 T2 2026 500 déploiements, k=10
Ajout métadonnées contextuelles (taille LLM, coûts API)

9. Disclaimer

⚠️ Ce processus EST :
✅ Documenté et auditable
✅ Conforme RGPD selon interprétation ENDKOO
✅ Test k-anonymat validé (k=5)

⚠️ Ce processus N'EST PAS :
❌ Audit CNIL (pas de validation externe)
❌ Certification ISO 27001
❌ Garantie ré-identification impossible (risque faible résiduel)

Responsabilité : ENDKOO
Recommandation : Pour usages critiques, vérification légale recommandée

10. Contact

Questions process : Formulaire de contact

DPO : Via formulaire en ligne

Dataset : HuggingFace →

Dernière mise à jour : 29 décembre 2025

Prochaine révision : T2 2026

📊 Evidence Pack v1.0
Ce document fait partie de l'Evidence Pack v1.0 créé pour garantir la transparence et l'auditabilité des claims du site denisatlan.fr.

← Retour au hub Evidence Pack