TodoBI - Business Intelligence, Big Data, ML y AI TodoBI - Business Intelligence, Big Data, ML y AI

Curiosidades y Rarezas en el mundo de los Datos

🚀 En el mundo de los Datos, donde todo parece estar muy estructurado, 𝗵𝗮𝘆 𝗺𝘂𝗰𝗵𝗮𝘀 𝗰𝘂𝗿𝗶𝗼𝘀𝗶𝗱𝗮𝗱𝗲𝘀 𝘆 𝗿𝗮𝗿𝗲𝘇𝗮𝘀, que os cuento por aquí algunas

1. El “Data Lake” nació de un blog post casual: El término Data Lake fue acuñado por James Dixon, nuestro amigo de hace años (Pentaho CTO) en 2010 en un blog, criticando la moda de los Data Marts. No fue un paper formal, sino una analogía improvisada

2. Snowflake fue fundado en un café de montaña: Benoit Dageville y Thierry Cruanes (ex Oracle) diseñaron el primer esquema de Snowflake en una cafetería de Tahoe, viendo caer la nieve, de ahí su nombre.

3. Amazon Redshift fue originalmente un fork de PostgreSQL: Aunque ahora es un sistema masivamente distribuido, sus primeras versiones (2013) eran una versión modificada de PostgreSQL 8.0 con un motor columnar añadido

4. El dataset de entrenamiento de la NASA perdido: En 1999, la NASA perdió datos del Mars Climate Orbiter porque un equipo usó unidades imperiales (libras) y otro métricas (newtons), un fallo de integración de datos que costó 327 millones de dólares

5. El “Data Scientist” fue inventado en un correo interno: El término moderno se popularizó cuando Jeff Hammerbacher (Facebook) y DJ Patil (LinkedIn) se escribieron mails en 2008 buscando “un título que suene mejor que analista de datos”

6. SQL fue casi llamado “SEQUEL”: Su nombre original era Structured English Query Language (SEQUEL), pero tuvo que cambiarse a SQL por una disputa de marca con una empresa aeronáutica británica (Hawker Siddeley).

7. BigQuery usa Dremel, que se inspiró en árboles de Navidad: La arquitectura interna de Dremel (base de BigQuery) usa un modelo de consulta jerárquico parecido a un árbol.

8.  El “error del millón de dólares” en Excel (2007): La versión inicial de Excel 2007 tenía un bug donde el resultado de =850*77.1 devolvía 100000 en lugar de 65535

9. El primer “dashboard” fue analógico: En los años 60, IBM instaló en oficinas paneles físicos con luces que mostraban KPIs en tiempo real conectados a mainframes. Literalmente un dashboard de bombillas

10. El fallo de la base de datos que detuvo la bolsa de Londres (2008): Un índice mal configurado en un sistema de Oracle RAC provocó un deadlock que detuvo el mercado por más de siete horas. No fue un hack, sino una inconsistencia en el clúster

11. El dataset más famoso del mundo tiene flores: El dataset de Iris (1936), usado en miles de papers de Machine Learning, fue creado por un botánico, Ronald Fisher, mucho antes de existir los ordenadores modernos

12. El modelo que aprendió racismo por error: 2016, Microsoft lanzó el chatbot “Tay” en Twitter para aprender del lenguaje humano y en menos de 24h, los usuarios lo habían corrompido hasta hacerlo tóxico. Fue desconectado al día siguiente

13. El problema de los “espacios” en BI: Tableau y Power BI han tenido múltiples bugs históricos donde los nombres de columnas con espacios ("Sales Amount") rompían fórmulas DAX o cálculos