Perché è importante?
La gestione intelligente dei dati non è solo una buona pratica, ma è anche benefica per il pianeta. In qualità di PM, puoi contribuire a ridurre la quantità di dati archiviati e trasferiti. Ciò riduce il consumo energetico e le emissioni, e conservare solo ciò che è necessario può effettivamente migliorare le prestazioni del modello ed evitare il sovradattamento. Inoltre, l'utilizzo dei dati giusti per il modello e l'architettura giusti contribuisce a ridurre i tempi di elaborazione, risparmiando energia e acqua. Come PM, abbiamo una reale opportunità: privilegiando la qualità rispetto alla quantità, possiamo guidare i nostri team nella creazione di un'IA più performante, riducendo al contempo il suo impatto ambientale.
Cosa posso fare?
-
Raccogli solo i dati strettamente necessari. Collabora con i tuoi stakeholder (ad esempio, team legali, di progettazione, di analisi) per definire chiaramente i punti dati essenziali per ogni caratteristica del prodotto, eliminando la raccolta di dati non essenziali o ridondanti. Promuovi pratiche di efficienza dei dati migliori semplicemente chiedendo: abbiamo davvero bisogno di questi dati?
-
Per affrontare le preoccupazioni relative alla potenziale perdita di informazioni a causa della mancanza di dati, enfatizzate l'la qualità prima della quantitàe dei dati e dimostrate attraverso progetti pilota come set di dati mirati e minimi possano garantire prestazioni di prodotto uguali o migliori con costi e rischi significativamente ridotti.
-
Rimanete aggiornati sulle tecniche in continua evoluzione. Ad esempio, nel gennaio 2025, DeepSeek ha dimostrato che l'IA è in grado di ragionare bene senza enormi set di dati di addestramento: questo risultato è stato ottenuto attraverso l'apprendimento per rinforzo, che ha permesso al modello di migliorare attraverso tentativi ed errori. Si tratta di una formazione intelligente, non di una maggiore quantità di dati.
-
Una volta identificati i dati necessari, potete aiutare il vostro team tecnico ad attuare politiche rigorose di conservazione dei dati, come il periodo di conservazione per tipo di dati, e ridurre al minimo i dati oscuri (i dati inutilizzati e non necessari) che occupano molto spazio di archiviazione.
-
Se non siete sicuri che i dati rimarranno inutilizzati, incoraggiate la conservazione locale dei dati oscuri per un eventuale utilizzo futuro. Puoi estendere questo approccio agli SLA (accordi sul livello di servizio) e agli SLO (obiettivi sul livello di servizio) dei tuoi fornitori (ad esempio, ridurre il tempo di conservazione dei file di log).
-
Con il tuo team addetto ai dati, risparmia elaborazioni non necessarie investendo molto nella pre-elaborazione dei dati per garantire l'igiene dei dati e aumentarne la qualità. Evita l'effetto "Garbage in - Garbage Out" e ottimizza la qualità della risposta fin dall'inizio.
-
Raccomandate la centralizzazione dei vostri dati e l'uso di formati leggeri (ad esempio JSON, Avif) per ridurre al minimo i movimenti e le migrazioni dei dati.
-
Implementate la compressione dei dati per ridurre il numero di bit necessari a rappresentarli. (Potreste usare il ML tenendo presente l'impronta di carbonio che potrebbe generare).
-
Supportate l'ottimizzazione delle pipeline di dati, riducendo la ridondanza, e consentite la memorizzazione delle risposte con il vostro team di ingegneri.
-
Quando possibile, utilizzare set di dati open source (anziché emettere nuovi gas serra durante la creazione della propria pipeline di dati), ad esempio sfruttando Abbracciare il viso e Kaggle.
-
Se la vostra applicazione non richiede la raccolta di dati in tempo reale o "su richiesta", prendete in considerazione lo spostamento della domanda (quando e dove è disponibile energia verde).
Cose da considerare
-
🧑💰 Elaborazione e gestione ottimizzate dei dati per migliorare le prestazioni delle applicazioni
-
🧑💰 Utilizzo efficiente dei data center e dei server per operazioni più ecologiche
Che aspetto ha il successo?
Controlla regolarmente ed elimina i dati obsoleti o inutilizzati. Non dimenticare gli ambienti di staging o di sviluppo: spesso contengono dati ridondanti che vengono trascurati.