Buscar otros temas

Categories

¿Cómo implementar un data lake en mi empresa?

Decir que un data lake es un repositorio de información que busca conglomerar diferentes fuentes de datos, en su forma bruta, para obtener de ellos cierto valor, es una definición demasiado simple y va más allá que eso. Un data lake es el lugar donde yace toda la información necesaria para crear modelos de inteligencia artificial y realizar analítica de datos, que facilitarán la toma de decisiones estratégicas en los negocios. 

data lake comó implementarlo?

Esta atractiva idea de tener un repositorio de información, suele sesgar el juicio al momento de llevar a cabo un proyecto de data lake, porque en realidad, las cosas no son tan sencillas. Al iniciar la etapa de planificación y entendimiento, surgen muchas interrogantes y grandes retos al darnos cuenta de que reunir diferentes fuentes de datos (que fueron pensadas para soportar diversas soluciones), se vuelve un auténtico rompecabezas.

En Grupodot, la experiencia de trabajar con data lakes no solo nos ha permitido aprender sobre  estrategias de ingesta y almacenamiento, sino también sobre la fisonomía de los datos y de su correcto tratamiento, el adecuado para obtener de ellos la mayor utilidad posible. 

A continuación compartimos algunas ideas y conceptos que pueden dar claridad sobre cómo implementar un proyecto de data lake.

¿Por qué tener un data lake?

Partamos de lo básico, una compañía medianamente grande se compone de diferentes áreas funcionales como administración, producción, ventas, contabilidad y mercadeo, dependiendo de su actividad económica. 

Generalmente, cada una de esas dependencias tiene el dominio de sus propios datos y estos se usan constantemente para el beneficio productivo de la misma. Pero, ¿qué tal si esa compañía desea utilizar todos los datos que tiene en sus diferentes áreas para generar mayor valor y obtener beneficios positivos a través de su explotación?

Pues esta es una de las principales razones que motivan tener un repositorio de información, pero el hecho de que cada área sea independiente y maneje sus datos de forma particular, genera el primer obstáculo en esta cruzada.

Si bien cada compañía tiene un área de tecnología, que de manera centralizada controla los sistemas de toda la organización y el acceso a la información, no es garantía de evitar los siguientes escenarios:

data lake porqué tenerlo?
  • Se conoce dónde se encuentran los datos pero no hay claridad para acceder a ellos.
  • El sistema donde está la información es subcontratado y el acceso o administración es solo a través de ellos.
  • No se permite el acceso a la información ya que es sensible y de uso restringido.
  • Los datos se encuentran en un sistema legacy, del cual no se conoce muy bien su funcionamiento.

Y así podrían haber muchas razones más por las cuales no sería fácil acceder a los datos, además de requerir ciertos trámites y permisos para llegar a ellos. 

Para efectos del caso, supondremos que tenemos, finalmente, acceso a los datos requeridos e iniciamos la etapa de exploración, pero al momento de revisarlos no son fáciles de comprender o tienen una estructura poco familiar.

En este punto puede ser frustrante acceder a la información, truncando así los procesos de analítica y machine learning de la compañía cuando no existe un data lake. Es como navegar sin remos y tratar de remar con los brazos.

En el escenario de una compañía con presencia nacional o mundial, su estructura organizacińonal es más compleja. Esto causa que el acceso a los datos sea más restrictivo, por lo cual, las estrategias al momento de implementar un data lake se vuelven mucho más retadoras.

Un “charco” de datos

Es normal que ciertas compañías, impulsadas por la necesidad de competir en el mercado, se involucren en pequeños proyectos de analítica, los cuales conllevan a que se empleen esfuerzos en conjunto con sus áreas de tecnología para poder realizar modelos de recomendación, pronósticos, métodos de clasificación, detección de fallos, entre otros. 

Estos esfuerzos resultan en acumulación y estructuración de información para un fin en particular, pero eso no significa que ya tengan un data lake; simplemente es un charco de información que sirve a un propósito muy particular. También es muy probable que los mecanismos que se emplearon para su extracción, almacenamiento y transformación no sirvan para otro tipo de datos que existan en la compañía.

Democratización de datos 

Una de las características que da mayor valor a un data lake, es poder democratizar los datos, esto significa que todo aquel que lo requiera pueda acceder sin enormes restricciones, ya que uno de los atributos es poder tener acceso a la información para la toma de decisiones estratégicas. En un data lake existe una capa que juega un papel crucial en este aspecto, se le conoce como catálogo de datos.

Un catálogo de datos, en un data lake, es el primer punto de consulta dentro de una compañía para que los interesados puedan navegar por diferentes fuentes de datos, no solo en el data lake sino dentro de toda la compañía.

Pero, ¿esto no representa un riesgo para la seguridad de la información? No, no lo hace. Precisamente su función radica en permitir el acceso a ciertas fuentes de información sin alterarlas, a través de la exploración de los metadatos que describe la fuente sin tener que consultarla directamente. Solo si se considera de utilidad para el proyecto de analitica en curso, podrá solicitarse el acceso al responsable de los datos y negociar las condiciones para trabajar con ellos.

Llenar el data lake

data lake comó llenarlo?

Si se requiere una fuente de datos que todavía no se encuentra en el data lake, ¿cómo se podría trabajar con ellas? Al hablar sobre el catálogo de datos, mencioné que este también debe tener fuentes foráneas al data lake, siendo uno de los principales retos al momento de implementar este tipo de soluciones. 

Realizar ingesta de todo tipo de fuentes de datos, en grandes volúmenes, con diferentes tipos de frecuencia y en algunos casos, con cierto tipo de restricción, es en definitiva otro factor de éxito en un data lake, por ello es necesario definir una arquitectura que sea capaz, no solo de ingestar las fuentes de datos que se requieren a priori, sino también pensar en aquellas que se podrían necesitar a futuro.

Las estrategias en este punto pueden ser muy variables y no existe una herramienta definitiva para la ingesta de datos, incluso, en ocasiones se puede llegar a combinar varias de ellas para cumplir el objetivo.

Si tomamos el ejemplo de la naturaleza, vemos que un lago no siempre se alimenta de un solo río, es probable que existan diferentes fuentes fluviales que llenen este cuerpo de agua. De igual forma pasa en este caso, podríamos tener diferentes medios y canales de comunicación que logren llenar nuestro data lake con los datos que se requieren. 

Sin embargo, se debe ser cuidadoso al elegir las tecnologías y medios al momento de extraer, transportar y almacenar los datos, ya que a futuro se podría invertir demasiado tiempo en tener que solucionar problemas causados por una tecnología inadecuada.

¿Por qué puede ser difícil un proyecto de data lake?

Cualquier compañía que tenga poca o nula experiencia en el campo de la inteligencia artificial y el big data, podría presentar dificultades a la hora de implementar un proyecto de data lake, ya que son un paradigma completamente diferente a los procesos convencionales de almacenamiento y administración de datos.

Se requiere combinar diferentes tipos de tecnologías, tener algo de experiencia aplicando prácticas de big data y, si adicionalmente se desea realizar analítica avanzada, también hay que aprender técnicas y procesos de machine learning. 

Adicionalmente, este objetivo no se logra con una o dos personas que conozcan sobre el tema. Para tener éxito, lo mejor es conformar un buen equipo multidisciplinario, con la capacidad para resolver las necesidades de este tipo de proyectos.

Para alguien que desee incursionar, la curva de aprendizaje en este tipo de procesos puede ser bastante amplia. Esto significa empezar a experimentar cosas básicas, con diferentes tecnologías y plataformas que representan una gran inversión de tiempo, esfuerzo y dinero, ya que la forma más rápida de probar este tipo de alternativas es la nube.

Si se desea minimizar el impacto en la implementación de este tipo de proyectos, la opción indicada es tomar asesoría de quienes ya lo han hecho, empresas que cuentan con la experiencia y el equipo idóneo, que además conceden la propiedad intelectual y material de todos los entregables construidos dentro de un proyecto de data lake.