Mucho se habla actualmente de las arquitecturas de datos más modernas, etc... realmente no existe una única arquitectura de datos que se este usando en la actualidad (por otro lado, hay muchos tipos de compañías y con necesidades - datos, volúmenes, etc... - muy diferentes)
En cualquier caso, desde TodoBI, nuestro compañero Emilio Arias nos hace una aproximación de cual podría ser el 'stack' y principales tecnologías que se pueden usar
Qué es una 'moderna arquitectura de datos'?
- Tiene que dar respuesta a una explosión en el volumen y tipología de los datos
- Tiene que dar respuesta a consultas tanto batch, near real time y real time
- Deben tener un interfaz accesible para usuarios de negocio
- Se ha convertido en un punto clave en las estrategias de las compañías (de todo tipo). Transformación Digital, Data Driven Company...son conceptos que están en la mesa de las decisiones de los comités de dirección de las empresas de los sectores más variados
- Las compañías han perdido el miedo y apostado por el Cloud
- Las compañías han perdido el miedo y apostado por el Open Source
- Los grandes players: Microsoft, Amazon, Google, etc... han adaptado sus estrategias, ofertas, productos y servicios a lo anterior
- Se toman como referencia para estas arquitecturas las desarrolladas por compañías punteras como Netflix, Uber, Amazon, etc...
- Se ha producido una 'explosión' en la oferta tecnológica (en este diagrama de Vertex Ventures se comentan muchas de ellas)
10. Además, debido tanto a requerimientos legales externos e internos, este stack debe cubrir el Gobierno de Dato, Data lineage, etc... de forma adecuada
11. Otro requisito fundamental que debe tener un moderno data stack es la capacidad de ofrecer funcionalidades de Augmented Analytics (haciendo el sistema totalmente proactivo), gracias al uso de la AI y Machine Learning
12. Uno de los aspectos clave y, quizás, de los más importantes, es que sean arquitecturas abiertas y que permitan la interoperabilidad entre sistemas
13. El llevar estos stacks al cloud, muchas veces implica el riesgo de que los costes puedan dispararse al cabo de unos meses/años por la explosión de datos mencionada anteriormente por lo que estas arquitecturas deben se muy fléxibles, adaptables y 'migrables' en cortos intervalos de tiempo
14. Finalmente, la arquitectura debe permitir un modo de trabajo de todos aquellos que interacturán con él (cada vez un mayor número de personas, roles, terceros...) de forma colaborativa, con herramientas integradas que lo permitan
En mi opinión y, aplicado en nuestra compañía para muchas grandes organizaciones, hemos optado por el siguiente stack, siempre abierto a nuevas tecnologías: Apache Airflow, Snowflake, Clickhouse...
Si queréis profundizar más a nivel técnico sobre muchas de estas tecnologías, os dejo un enlace en donde puedes acceder a muchos videotutoriales, aplicaciones, demos, etc... todos ellos gratuitos
Por cierto, os dejamos un video en donde se entiende y aprende muy bien cuando hablamos de fuentes de datos, real time, batch, cloud, machine learning, big data, visualización, etc... que han realizado nuestros amigos de Stratebi
Lo usamos mucho en nuestros cursos. Una forma sencilla de entender, incluso para no expertos, como son las arquitecturas de datos