11 mejores prácticas para ingenieros de datos (parte I)

Nunca ha habido un mejor momento para ser un Ingeniero de Datos. Hace menos de un año, CNBC clasificó a esta profesión como uno de los 25 empleos de más rápido crecimiento en los EE. UU.

BGE

 

 

Si eres un ingeniero de datos que busca tomar decisiones correctas sobre estrategias de datos y herramientas para su organización, aquí están las 11 mejores prácticas que pueden significar la diferencia entre rentabilidad y pérdida.

  1. Habilita tus fuentes de información para la resolución de cargas de trabajo concurrentes.
    Tu empresa recibe información desde diferentes fuentes:  web, dispositivos móviles y dispositivos de Internet de las cosas (IoT). Tu fuente de datos tiene que cargar los datos mientras los científicos analizan y las aplicaciones posteriores los procesan para su uso.

    Una fuente de datos moderna que vive en la nube y cuenta con una arquitectura elástica de datos compartidos en varios clústeres, permite el manejo de cargas de trabajo simultáneas. Puedes asignar múltiples clústeres independientes y aislados para procesamiento, carga de datos, transformación y análisis, mientras se comparten los datos al mismo tiempo sin contención de recursos.
  2. Aprovecha tus habilidades actuales para hacer el trabajo.
    Muchas fuentes utilizan algoritmos complejos que aparentemente requieren ingenieros de datos para usar: Apache Spark, Apache Kafka o Python. No es obligatorio aprender sobre nuevas plataformas para resolver problemas, puedes encontrar una manera de utilizar tus habilidades actuales. 
  3. Emplea la transmisión de datos en lugar de ingestión por lotes.
    La ingestión periódica por lotes puede provocar pérdida de información de eventos recientes con consecuencias catastróficas, como fallas para detectar fraude o una violación de datos.
    Además, la información obsoleta también puede afectar la rentabilidad. Es vital comprender las capacidades de transmisión disponibles, cómo trabajar con diferentes arquitecturas e implementar fuentes que puedan manejar lotes y transmisión de datos.

  4. Coordina fuentes racionalizadas con procesos de desarrollo.
    Para garantizar la validez de la producción de datos, usa una plataforma de datos en la nube para crear canalizaciones en un entorno de prueba donde puedas ejecutar código y algoritmos constantemente hasta que estén listos para un entorno de producción.
    Esto acelerará el tiempo para el  desarrollo de la prueba y la producción, y será mucho más rápido que construir esas mismas fuentes en los servidores.

  5. Opera el desarrollo de fuentes.
    Después de generar una canalización, es posible que debas modificar o escalarla para acomodar más fuentes de datos. Diséñalas para modificarse fácil o escaladamente.
    Este concepto se conoce como "DataOps" o DevOps para datos, y consiste en construir integración, entrega y despliegue continuos en la fuente empleando la automatización y, en algunos casos, inteligencia artificial. La incorporación de DataOps en tu fuente de datos hará que sea más confiable.

  6. Invierte en herramientas con conectividad integrada.
    Una canalización de datos moderna basada en la nube se adapta a muchas herramientas y plataformas que necesitan comunicarse juntas. Construir conexiones entre la fuente de sistemas, almacenes de datos, Data Lakes y análisis, así como las aplicaciones, requiere tiempo, trabajo y dinero. En lugar de invertir en herramientas con conexiones integradas entre sí, ve más allá almacenando datos en una forma genérica como el formato utilizado por Amazon Simple Storage Service (S3) para que otras herramientas puedan recogerlo.

 

A medida que la información crece exponencialmente y las fuentes o tipos de datos se vuelven más complicados, los ingenieros deben conocer lo último en estrategias y herramientas para ayudar al negocio a aumentar la rentabilidad y el crecimiento mediante los datos.

¡No te pierdas la segunda entrega para saber las 5 mejores prácticas restantes!