TodoBI - Business Intelligence, Big Data, ML y AI TodoBI - Business Intelligence, Big Data, ML y AI

Cómo convertirse en especialista IA si vienes del mundo Data y BI

Es mas fácil y parecido de lo que imaginas

Sigue siendo lo más importante la ingesta de datos, calidad y modelado

Tareas a realizar en un proyecto:

🔹 Fase 1. Ingesta y Procesamiento de DatosAntes se usaba ETLs con Informatica, SSIS o Talend, y cargabas a un DWH central (Teradata, Oracle, SQL Server), ahora usas Airflow / NiFi como orquestador de pipelines (similar a ETL jobs). Con ML pipelines, usa KubeflowCon LangChain Document Loaders o Haystack Pipelines, ingieres PDFs, docs, emails o cualquier fuente semiestructurada. OpenSearch hace el papel de indexador inicial, como un “staging area” pero para texto/documentos

🔹 Fase 2. Normalización y Feature EngineeringEn BI limpiabas dimensiones, generabas campos calculados y métricas en staging. Ahora, en vez de tablas normalizadas, transformas texto en embeddings (vectores), usando HuggingFace Transformers, Jina AI, NomicEs como pasar de campos numéricos a representaciones matemáticas de frases enteras

🔹 Fase 3. Almacenamiento de Datos (Vector Database)En BI antes cargabas todo en un Data Warehouse (ej. SQL Server, Oracle, Snowflake). El almacen ahora es una Vector Database (como un DWH, optimizado para buscar similitudes). Usa Weaviate, Milvus, pgVector (si vienes de Postgres te sonará), Pinecone, ChromaEn BI hacías un JOIN o un WHERE region='EMEA', aquí haces queries tipo: “dame todos los documentos similares a este embedding”

🔹 Fase 4. Recuperación y RankingTenías índices OLAP o queries SQL con ranking/ordenación.Ahora, entra la capa de Elasticsearch kNN, Weaviate Hybrid Search o Haystack Retrievers. Son los motores que hacen la búsqueda eficiente en millones de embeddings.

🔹 Fase 5. LLMs (Modelo de Lenguaje)En DWH, el analista humano interpreta datos y sacaa conclusiones. Ahora, ese rol lo asume el LLM (ej. LLaMA, Mistral, Gemma, DeepSeek, Qwen).El modelo recibe la pregunta del usuario, recupera contexto de la Vector DB y genera la respuesta en lenguaje natural. Es como un “report dinámico” pero textual, interactivo y en lenguaje humano

🔹 Fase 6. Orquestación con Frameworks de LLMSe usaba la parte admin de PowerBI, Tableau, Cognos para conectar fuentes, generar dashboards y exponer KPIs. Ahora usas frameworks como LangChain, Haystack, LlamaIndex. Es como “la capa semántica del cubo OLAP”, pero para LLMs.Definen cómo se conecta la ingesta, embeddings, vector DB y el LLM para dar una respuesta coherente

🔹 Fase 7. Exposición y Consumo (Frontend)Tenías PowerBI, Tableau... y ahora expones la aplicación con frameworks web como NextJS, SvelteKit, Streamlit o VueJS.En vez de gráficos estáticos, el usuario conversa con la IA: pregunta en lenguaje natural y recibe respuestas con citas, datos o explicaciones. Es como pasar de un “dashboard con filtros” a una “conversación con tu DWH”Imagen: ByteByteGo