¿Por qué es importante?
La gestión inteligente de datos no solo es una buena práctica, sino que también es mejor para el planeta. Como gestor de proyectos, puedes contribuir a almacenar y mover menos datos. Esto reduce el consumo de energía y las emisiones, y conservar solo lo necesario puede mejorar el rendimiento del modelo y evitar el sobreajuste. Además, utilizar los datos adecuados para el modelo y la arquitectura adecuados ayuda a reducir el tiempo de procesamiento, ahorrando energía y agua. Como gestores de proyectos, tenemos aquí una oportunidad real: al defender la calidad por encima de la cantidad, podemos guiar a nuestros equipos para que construyan una IA con mejor rendimiento y, al mismo tiempo, reduzcan su huella medioambiental.
¿Qué puedo hacer?
-
Recopile solo los datos estrictamente necesarios. Colabore con las partes interesadas (por ejemplo, equipos jurídicos, de diseño y de análisis) para definir claramente los puntos de datos esenciales para cada característica del producto, eliminando la recopilación de datos no esenciales o redundantes. Impulse mejores prácticas de eficiencia de datos simplemente preguntando: ¿Realmente necesitamos estos datos?
-
Para abordar las preocupaciones sobre la posible pérdida de información debido a la falta de datos, haga hincapié en la ecalidad antes que cantidad de los datos y demuestre mediante pruebas piloto cómo los conjuntos de datos mínimos y específicos pueden ofrecer un rendimiento igual o superior del producto con una reducción significativa de los costes y los riesgos.
-
Manténgase al día de las técnicas en constante evolución. Por ejemplo, en enero de 2025, DeepSeek demostró que la IA puede razonar bien sin conjuntos de datos de entrenamiento masivos: lo lograron mediante el aprendizaje por refuerzo, lo que permitió que su modelo mejorara a través del ensayo y el error. Se trata de un entrenamiento inteligente, no de más datos.
-
Una vez que identifique los datos que necesita, puede ayudar a su equipo técnico a implementar políticas estrictas de retención de datos, como el período de almacenamiento por tipo de datos, y minimizar los datos oscuros (los datos no utilizados e innecesarios), que ocupan mucho espacio de almacenamiento.
-
Si no está seguro de que los datos vayan a permanecer sin utilizar, fomente que los datos oscuros se almacenen localmente para su posible uso futuro. Puede extender este enfoque a los SLA (acuerdos de nivel de servicio) y SLO (objetivos de nivel de servicio) de sus proveedores (por ejemplo, reducir el tiempo de retención de los archivos de registro).
-
Con su equipo de datos, ahorre procesamiento innecesario invirtiendo mucho en el preprocesamiento de datos para garantizar la higiene de los datos y aumentar su calidad. Evite el efecto «basura entra, basura sale» y optimice la calidad de la respuesta desde el principio.
-
Recomiende la centralización de sus datos, así como el uso de formatos ligeros (por ejemplo, JSON, Avif) para minimizar los movimientos y las migraciones de datos.
-
Implemente la compresión de datos para reducir el número de bits necesarios para representar algunos datos. (Podría utilizar el aprendizaje automático para ello, teniendo en cuenta la huella de carbono que puede generar).
-
Apoye la optimización de los flujos de datos reduciendo la redundancia y habilite el almacenamiento en caché de respuestas con su equipo de ingeniería.
-
Siempre que sea posible, utilice conjuntos de datos de código abierto (en lugar de emitir nuevos gases de efecto invernadero al crear su propio canal de datos), por ejemplo, aprovechando Abrazo facial y Kaggle.
-
Si su aplicación no necesita la recopilación de datos en tiempo real o «bajo demanda», considere la posibilidad de cambiar la demanda (cuándo y dónde hay energía verde disponible).
Aspectos a tener en cuenta
-
🧑💰 Procesamiento y gestión de datos optimizados para mejorar el rendimiento de las aplicaciones
-
🧑💰 Utilización eficiente de los centros de datos y servidores para operaciones más ecológicas
¿Cómo se ve el éxito?
Audite y elimine periódicamente los datos obsoletos o que no se utilicen. No se olvide de los entornos de prueba o desarrollo, ya que a menudo contienen datos redundantes que se pasan por alto.