Concevoir des produits d'IA durables

09. Utiliser efficacement les données

Utiliser efficacement les données

Pourquoi est-ce important ?

La gestion intelligente des données n'est pas seulement une bonne pratique, elle est également meilleure pour la planète. En tant que chef de projet, vous pouvez contribuer à stocker et à déplacer moins de données. Cela réduit la consommation d'énergie et les émissions, et le fait de ne conserver que ce dont vous avez besoin peut en fait améliorer les performances du modèle et éviter le surajustement. De plus, l'utilisation des données appropriées pour le modèle et l'architecture adéquats permet de réduire le temps de traitement, et donc d'économiser de l'énergie et de l'eau. En tant que chefs de projet, nous avons ici une réelle opportunité : en privilégiant la qualité plutôt que la quantité, nous pouvons guider nos équipes vers la création d'une IA plus performante tout en réduisant son empreinte environnementale.

Que puis-je faire ?

  • Ne collectez que les données strictement nécessaires. Collaborez avec vos parties prenantes (par exemple, les équipes juridiques, de conception, d'analyse) afin de définir clairement les points de données essentiels pour chaque fonctionnalité du produit, en supprimant la collecte de données non essentielles ou redondantes. Encouragez de meilleures pratiques en matière d'efficacité des données en posant simplement la question suivante : avons-nous vraiment besoin de ces données ?

  • Pour répondre aux préoccupations liées à la perte potentielle d'informations due au manque de données, mettez l'accent sur l'la qualité plutôt que la quantité des données et démontrez, à l'aide de projets pilotes, comment des ensembles de données ciblés et minimaux peuvent offrir des performances égales ou supérieures, tout en réduisant considérablement les coûts et les risques.

  • Restez à l'affût des techniques en constante évolution. Par exemple, en janvier 2025, DeepSeek a montré que l'IA pouvait bien raisonner sans ensembles de données d'entraînement massifs. Ils y sont parvenus grâce à l'apprentissage par renforcement, qui a permis à leur modèle de s'améliorer par essais et erreurs. Il s'agit d'une formation intelligente, et non d'une augmentation des données.

  • Une fois que vous avez identifié les données dont vous avez besoin, vous pouvez aider votre équipe technique à mettre en œuvre des politiques strictes de conservation des données, telles que la durée de stockage par type de données, et à réduire au minimum les données obscures (les données inutilisées et inutiles) qui occupent beaucoup d'espace de stockage.

  • Si vous n'êtes pas sûr que les données resteront inutilisées, encouragez le stockage local des données obscures en vue d'une utilisation potentielle future. Vous pouvez étendre cette approche aux SLA (accords de niveau de service) et aux SLO (objectifs de niveau de service) de vos fournisseurs (par exemple, réduire la durée de conservation des fichiers journaux).

  • Avec votre équipe chargée des données, évitez les traitements inutiles en investissant massivement dans le prétraitement des données afin de garantir leur hygiène et d'améliorer leur qualité. Évitez l'effet « Garbage in - Garbage Out » (si l'on entre des données erronées, on obtient des résultats erronés) et optimisez la qualité des réponses dès le départ.

  • Recommandez la centralisation de vos données ainsi que l'utilisation de formats légers (par exemple, JSON, Avif) afin de minimiser les mouvements et les migrations de données.

  • Mettez en œuvre la compression des données afin de réduire le nombre de bits nécessaires pour représenter certaines données. (Vous pouvez utiliser le ML à cette fin, en gardant à l'esprit l'empreinte carbone que cela peut générer).

  • Soutenez l'optimisation des pipelines de données en réduisant la redondance et en permettant la mise en cache des réponses avec votre équipe d'ingénieurs.

  • Dans la mesure du possible, utilisez des ensembles de données open source (plutôt que d'émettre de nouveaux GES lors de la création de votre propre pipeline de données), par exemple en tirant parti de Étreindre le visage et Kaggle.

  • Si votre application ne nécessite pas de collecte de données en direct ou « à la demande », envisagez de décaler la demande (lorsque/là où de l'énergie verte est disponible).

Éléments à prendre en considération

  • 🧑💰 Traitement et gestion optimisés des données pour améliorer les performances des applications

  • 🧑💰 Utilisation efficace des centres de données et des serveurs pour des opérations plus écologiques

À quoi ressemble le succès ?

Vérifiez régulièrement et supprimez les données obsolètes ou inutilisées. N'oubliez pas les environnements de test ou de développement, qui contiennent souvent des données redondantes qui passent inaperçues.