Plan de Implementación — Plataforma Big Data + IA 2026¶
Horizonte: 18 meses (Q3 2026 → Q4 2027) Objetivo: consolidar un lakehouse abierto sobre Apache Iceberg con catálogo activo, gobernanza AI-ready, observabilidad estilo Monte Carlo y capa semántica/RAG productiva. Tamaño organización destino: 50–500 empleados, gasto cloud de datos $50K–$2M/año. Stack de referencia: Iceberg + S3/MinIO + Spark/Trino/Flink + Kafka + dbt + Airflow + DataHub + MLflow + pgvector/Qdrant + Monte Carlo/Soda.
0. TL;DR Ejecutivo¶
| Fase | Duración | Inversión típica | Resultado entregable | Métrica de éxito |
|---|---|---|---|---|
| 0 — Foundations | 0–2 meses | $30–80K | Lakehouse Iceberg mínimo + 1 fuente Bronze/Silver/Gold + CI/CD | 1 producto Gold servido a BI |
| 1 — Modern Data Stack | 2–5 meses | $80–250K | Ingesta CDC + dbt + Airflow + capa semántica | ≥5 productos Gold con contratos |
| 2 — Governance & Quality | 5–8 meses | $60–180K | Catálogo activo + observabilidad + contratos | <1% tablas con incidentes silenciosos |
| 3 — Streaming & Real-Time | 8–11 meses | $80–200K | Flink+Kafka+Iceberg, latencias <30s | ≥3 use cases real-time |
| 4 — ML/AI Foundation | 11–14 meses | $100–300K | MLflow + feature store + vector DB + RAG hybrid | ≥2 modelos en prod + 1 RAG con citación |
| 5 — Agents & Self-Service | 14–18 meses | $120–400K | Text-to-SQL, agentes, GraphRAG, mesh-on-fabric | ≥30% queries por usuarios no técnicos |
Total 18 meses: $470K–$1,4M (excluye salarios). Equipo recomendado: 1 Data Architect, 3 Data Engineers, 1 Analytics Engineer, 1 ML/AI Engineer, 0,5 FinOps, 0,5 Data Governance Lead.
1. Principios Rectores¶
- Open formats first. Iceberg como formato único de mesa; Parquet como formato de archivo; Avro para Kafka. Evitar lock-ins propietarios donde no sea necesario.
- Catálogo único, motores múltiples. Un solo catálogo REST (Polaris, Unity, Nessie) consumido por Spark, Trino, Flink, Snowflake/BigQuery.
- Contratos antes que pipelines. Toda tabla Gold tiene un contrato versionado (schema + SLA + owner + calidad esperada) revisado por consumidor y productor.
- Calidad como código. Tests en CI; observabilidad continua en producción; incidentes con SLO y blameless postmortems.
- AI-ready desde día 1. Cada dataset Gold mantiene linaje, descripciones de negocio y embeddings semánticos para que LLMs y agentes los descubran.
- FinOps from day zero. Etiquetado obligatorio, presupuestos por dominio, anomaly detection sobre gasto.
- Composable y reversible. Cada decisión de stack debe poder revertirse en ≤90 días moviendo datos vía Iceberg + DBT/Trino.
2. Fase 0 — Foundations (semanas 0–8)¶
2.1 Objetivo¶
Establecer el lakehouse mínimo viable con Iceberg, una fuente de datos productiva en arquitectura medallion y CI/CD básico. Entrega un único producto Gold consumido por al menos un dashboard de BI.
2.2 Workstreams¶
2.2.1 Storage y catálogo (semanas 0–3)¶
- Decisión cloud: AWS (S3 + Glue/Polaris), GCP (GCS + BigLake), o Azure (ADLS + Unity).
- Bucket layout:
- Catálogo Iceberg REST: desplegar Polaris (Snowflake OSS) o Unity Catalog. Alternativa managed: AWS Glue Iceberg REST endpoint, Cloudflare R2 Catalog, Databricks Unity Catalog managed.
- Particionado: hidden partitioning con transforms (
bucket,truncate,day); evitaryear/month/dayHive-style. - Compactación y vacuum: definir job semanal (Spark
rewrite_data_files,expire_snapshots).
2.2.2 Cómputo (semanas 1–4)¶
- Batch: Spark 4.0 (Databricks/EMR/Dataproc) o motor managed (Snowflake con Iceberg native, BigQuery con BigLake).
- Query interactivo: Trino o motor warehouse equivalente.
- Entorno local: docker-compose con MinIO + Spark + Trino + Iceberg REST (incluido en
infrastructure/docker-compose.yml).
2.2.3 Pipeline mínimo end-to-end (semanas 3–6)¶
- Fuente: una base operacional (Postgres/MySQL) o un SaaS (Stripe, HubSpot).
- Ingesta inicial: Fivetran/Airbyte con destino Iceberg, o batch Python.
- Transformación: dbt-iceberg adapter o dbt-trino.
- Modelo: un star schema Gold con 1 tabla de hechos + 3 dimensiones.
- Consumo: Power BI / Looker / Tableau apuntando a Trino/Snowflake.
2.2.4 CI/CD y entornos (semanas 4–7)¶
- Git: monorepo
data-platform/con subcarpetaspipelines/,dbt/,infra/. - Branching:
main→ producción,dev→ entorno preview, PRs con tests obligatorios. - CI: GitHub Actions o GitLab CI ejecutando dbt-build, dbt-test, lint SQL (SQLFluff), security scan.
- Iceberg branches (Nessie) o dbt clones: cada PR genera dataset preview, se destruye al merge.
2.2.5 FinOps inicial (semana 6–8)¶
- Etiquetar todo recurso con
env,domain,owner,cost_center. - Activar AWS Cost Anomaly Detection / GCP Recommender / Azure Cost Management.
- Definir presupuestos por entorno con alertas a 70% y 90%.
2.3 Gate de salida Fase 0¶
- [ ] Iceberg table consultable desde 3 motores distintos (Spark, Trino, motor warehouse).
- [ ] 1 dashboard en producción con datos refrescados <24h, latencia query <5s p95.
- [ ] CI bloquea merges con tests dbt fallidos.
- [ ] Costo cloud mensual ≤ presupuesto +/-10%.
2.4 Riesgos y mitigaciones¶
| Riesgo | Probabilidad | Mitigación |
|---|---|---|
| Equipo sin experiencia Iceberg | Alta | Training 1 semana + pair programming con vendor (Databricks/Snowflake/Tabular/Onehouse) |
| Catálogo REST inmaduro (Polaris) | Media | Empezar con Glue Iceberg REST o Unity Catalog managed, migrar después |
| Permisos S3/IAM mal configurados | Media | Terraform desde el día 1; revisión por SecOps obligatoria |
2.5 Inversión Fase 0¶
- Cloud: $5–15K/mes ($10–30K total)
- Software: dbt Cloud $100/dev/mes, Fivetran $1–3K/mes (opcional)
- Servicios profesionales (1 vendor partner): $20–50K
- Total: $30–80K
3. Fase 1 — Modern Data Stack (semanas 8–20)¶
3.1 Objetivo¶
Productizar la ingesta y transformación. Salir con ≥5 productos Gold contractuales, capa semántica documentada y orquestación robusta.
3.2 Workstreams¶
3.2.1 Ingesta multi-fuente (semanas 8–12)¶
- SaaS connectors: Fivetran o Airbyte para CRM, ERP, marketing, soporte.
- Bases operacionales con CDC: Debezium + Kafka, AWS DMS, o Estuary Flow.
- Files / SFTP: Airbyte o pipelines Python custom orquestados.
- API custom: clientes Python con
requests+pyicebergpara escritura directa. - Schema registry: Confluent Schema Registry o Apicurio para Kafka topics.
3.2.2 Orquestación (semanas 10–14)¶
- Airflow 3 (Astronomer/MWAA) o Dagster (preferible si software-defined assets).
- Patrón: DAG por dominio, no por tabla; sensores para dependencias cross-DAG.
- Idempotencia y retries: todo task Spark/dbt re-ejecutable; usar Iceberg
MERGE INTOy snapshots para puntos de recuperación.
3.2.3 Transformación dbt (semanas 9–16)¶
- Estructura:
- Modelado: dimensional (Kimball) por defecto; Data Vault 2.0 si historización empresarial requerida.
- Materialization strategy:
- Bronze:
incremental+mergecon Iceberg - Silver:
incrementalconunique_key - Gold:
incrementalotable;snapshotpara SCD2 - Tests: schema + custom singular tests + dbt-expectations + dbt-unit-testing.
3.2.4 Capa semántica (semanas 14–18)¶
- Opciones: dbt Semantic Layer (MetricFlow), Cube.dev, AtScale.
- Inventario inicial: 20–40 métricas core (revenue, MAU, churn, CAC, LTV).
- Naming convention:
metric_<domain>_<grain>(ej.metric_sales_arr_monthly). - Consumo: APIs desde BI (Power BI Direct Query, Hex, ThoughtSpot, Streamlit).
3.2.5 Documentación (semanas 16–20)¶
- dbt docs auto-generados; publicación en S3/Pages internas.
- Glosario de negocio en herramienta de catálogo (DataHub, Atlan).
- Diagramas de linaje exportados al menos mensualmente.
3.3 Gate de salida Fase 1¶
- [ ] ≥5 productos Gold en producción con contrato versionado.
- [ ] ≥80% modelos dbt con descripciones y tests.
- [ ] Capa semántica con ≥20 métricas usadas por ≥2 herramientas BI.
- [ ] DAGs de Airflow con SLA <24h; 95% éxito a primer intento.
3.4 Inversión Fase 1¶
- Cloud: $10–25K/mes
- Fivetran/Airbyte: $2–8K/mes
- dbt Cloud Enterprise: $2–5K/mes
- Airflow managed (Astronomer): $1–3K/mes
- Servicios + training: $30–60K
- Total: $80–250K
4. Fase 2 — Governance & Quality (semanas 20–32)¶
4.1 Objetivo¶
Pasar de "los datos funcionan" a "los datos son confiables y auditables". Activar catálogo, observabilidad, contratos como código y gobernanza federada por dominio.
4.2 Workstreams¶
4.2.1 Catálogo activo (semanas 20–24)¶
- Selección: DataHub OSS (gratis, requiere ops) o Atlan/Collibra (enterprise managed).
- Ingestión: conectores nativos a Iceberg, dbt, Airflow, BI, fuentes operacionales.
- Glosario: crear ≥50 términos de negocio mapeados a columnas Gold.
- Owners y stewards: asignar a 100% tablas Gold y ≥80% Silver.
4.2.2 Data Contracts (semanas 22–28)¶
- Spec: YAML versionado en repo
data-contracts/: - CI enforcement: schema diff check; cambios breaking requieren aprobación de consumidores listados.
- Runtime check: validar al escribir en Gold (Soda/Great Expectations) y bloquear publicación si SLA violado.
4.2.3 Observabilidad (semanas 24–30)¶
- Selección:
- Enterprise: Monte Carlo, Acceldata, Bigeye, Sifflet (incluyen agentic features 2025–2026).
- OSS: Soda Core + Elementary + dbt artifacts + Grafana.
- 5 pilares (Gartner): data, pipelines, infra/cost, code, usage.
- Alertas: Slack/Teams + PagerDuty para datasets P0.
- Postmortems: todo incidente >1h con SLO impact tiene postmortem público.
4.2.4 Privacidad y compliance (semanas 26–32)¶
- Inventario PII/sensitive: clasificación automática + manual.
- Masking dinámico: Snowflake / Databricks UC / BigQuery row-level + column-level policies.
- Retention policies: TTL por tipo de dato; integrar con Iceberg
expire_snapshots. - Audit trail: Snowflake Access History, UC audit logs, AWS CloudTrail centralizados en SIEM.
- GDPR/CCPA/AI Act: revisar pipelines con DPO; especial atención al EU AI Act 2 ago 2026 si hay sistemas de hiring.
4.3 Gate de salida Fase 2¶
- [ ] 100% tablas Gold con owner, contrato y observabilidad activa.
- [ ] <5 incidentes P1 en 30 días; MTTD <15min, MTTR <2h.
- [ ] Catálogo con >70% adopción semanal por usuarios analíticos.
- [ ] Audit pass de privacidad/compliance ejecutado por SecOps + DPO.
4.4 Inversión Fase 2¶
- Observability tool: $30–100K/año
- Catálogo enterprise (si aplica): $50–150K/año
- Servicios privacidad: $20–60K
- Total: $60–180K
5. Fase 3 — Streaming & Real-Time (semanas 32–44)¶
5.1 Objetivo¶
Habilitar latencias <30s end-to-end para 3 use cases prioritarios (fraude, personalización, alertas operativas). Migrar pipelines críticos a Kappa o híbrido.
5.2 Workstreams¶
5.2.1 Plataforma streaming (semanas 32–36)¶
- Kafka managed: Confluent Cloud, AWS MSK, Redpanda. Diskless Kafka (WarpStream, AutoMQ) si optimización de costo > latencia ultra-baja.
- Schema registry obligatorio: Avro o Protobuf; JSON solo en bordes.
- Topic naming:
<domain>.<entity>.<event>.v<n>. - Particiones: dimensionar por throughput esperado x2 headroom; reconsiderar trimestralmente.
5.2.2 Stream processing (semanas 34–40)¶
- Flink managed: Confluent Cloud Flink, Decodable, Databricks DLT, Ververica Cloud.
- Patrones aplicables:
- Enrichment con lookups a Iceberg (vía Flink Iceberg sink + temporal joins).
- Aggregations windowed (sliding/session) escritas a tablas Iceberg como "live aggregates".
- CDC join (Debezium → Flink → Iceberg upsert).
- State management: RocksDB local + checkpoints a S3.
5.2.3 Iceberg streaming-native (semanas 38–42)¶
- Patrón: Flink writes Iceberg con commits cada 30–60s; lectores SQL ven datos frescos.
- Compactación: job hourly de
rewrite_data_filespara evitar fragmentación. - Branching: usar Iceberg branches para validar antes de publicar a
main.
5.2.4 Use cases entregables (semanas 36–44)¶
- Caso 1 (fraude/anomalía): Kafka → Flink modelo scoring → alerta + tabla Gold real-time.
- Caso 2 (personalización): clickstream → features online (Tecton/Feast online store) → API.
- Caso 3 (operaciones): IoT/logs → Flink → dashboard real-time (Tinybird/Materialize/ClickHouse).
5.3 Gate de salida Fase 3¶
- [ ] Latencia P95 end-to-end <30s para ≥3 pipelines.
- [ ] Tasas de pérdida <0.01% / duplicación <0.1%.
- [ ] Postmortems de ≥2 incidentes streaming ejecutados.
5.4 Inversión Fase 3¶
- Kafka managed: $3–10K/mes
- Flink managed: $5–15K/mes
- Servicios + training: $30–80K
- Total: $80–200K
6. Fase 4 — ML/AI Foundation (semanas 44–56)¶
6.1 Objetivo¶
Productivizar ≥2 modelos ML clásicos y 1 RAG enterprise con citación. Establecer MLOps + feature store + vector DB + evaluación continua.
6.2 Workstreams¶
6.2.1 MLOps con MLflow (semanas 44–48)¶
- MLflow Tracking + Registry + Serving desplegado en Databricks / SageMaker / Vertex / self-hosted Kubernetes.
- Convención de proyectos:
- Promoción a producción: PR review + métricas mínimas + canary deployment (5%→25%→100%).
- Monitoring: drift (Evidently, WhyLabs), latencia, error rate; alertas.
6.2.2 Feature store (semanas 46–52)¶
- Selección:
- <10 modelos en prod: Feast OSS con online store en Redis y offline en Iceberg.
- ≥10 modelos o real-time crítico: Tecton o Databricks Feature Store / Vertex / SageMaker.
- Convenciones: features definidos como código; entity → feature → freshness SLA.
- Training/serving consistency: misma transformación batch y online (DSL declarativo).
6.2.3 Vector DB y embeddings (semanas 48–54)¶
- Embedding model: OpenAI
text-embedding-3-large, Cohere Embed v3, Voyage AI, BGE-M3 self-hosted. - Vector DB selection matrix: | Volumen vectores | Latencia objetivo | Recomendación | |---|---|---| | <50M | <100ms | pgvector + pgvectorscale (HNSW) | | 50M–1B | <50ms | Qdrant, Weaviate, Milvus self-hosted | | >1B o multi-tenant SaaS | <30ms | Pinecone, Zilliz Cloud |
- Hybrid search: vector + BM25 + filtros metadata + reranker (
bge-reranker-v2-m3). - Ingestion pipeline: Airflow DAG → embedder → upsert vector DB; mantener referencia a fuente Iceberg.
6.2.4 RAG productivo (semanas 50–56)¶
- Arquitectura recomendada:
- Evaluación continua: RAGAS (faithfulness, context relevance, answer relevance) + golden set humano.
- Guardrails: input filtering (prompt injection), output checking (hallucination flags), PII redaction.
- Costos: monitor tokens/query, cache embeddings, considerar fine-tune embeddings dominio si >10K queries/día.
6.3 Gate de salida Fase 4¶
- [ ] ≥2 modelos ML en producción con monitoring drift activo.
- [ ] 1 RAG con citación, faithfulness >85% en golden set.
- [ ] Tiempo medio de "idea → modelo en producción" <6 semanas.
6.4 Inversión Fase 4¶
- LLM API: $2–10K/mes (variable)
- Vector DB: $0.5–5K/mes
- Feature store enterprise (si aplica): $40–100K/año
- GPU compute para fine-tune: variable
- Servicios + AI engineer dedicado: $40–100K
- Total: $100–300K
7. Fase 5 — Agents & Self-Service (semanas 56–72)¶
7.1 Objetivo¶
Llegar a un estado donde ≥30% de las consultas analíticas son hechas por usuarios no técnicos via lenguaje natural, y al menos un agente autónomo opera flujos completos (e.g., monitoring + diagnóstico + remediación).
7.2 Workstreams¶
7.2.1 Text-to-SQL productivo (semanas 56–62)¶
- Opciones: Snowflake Cortex Analyst, Databricks Genie, Vanna.ai self-hosted, custom con LangChain + DSPy.
- Datos clave para precisión: capa semántica + descripciones ricas + ejemplos few-shot por dominio.
- Evaluación: golden set de 200 queries con execution accuracy >75% antes de roll-out.
- UX: integrar en BI (Hex, ThoughtSpot, Power BI Copilot) y Slack/Teams.
7.2.2 GraphRAG (semanas 60–66)¶
- Caso de uso: dominios complejos (regulatorio, médico, financiero, legal).
- Stack: Neo4j / Memgraph + extracción de entidades (LLM) + Cypher retrieval híbrido vector+grafo.
- Métrica: correctness +30 puntos vs RAG plano (Amazon/Lettria benchmark).
7.2.3 Agentes IA (semanas 62–70)¶
- MCP (Model Context Protocol): estandarizar acceso a herramientas (warehouse, catálogo, BI).
- Patrones implementables:
- Agente Data Quality: detecta anomalía → diagnostica root cause → abre Jira → notifica owner.
- Agente Cost optimizer: detecta query expensive → propone refactor → crea PR dbt.
- Agente Onboarding: usuario nuevo pregunta "¿cómo accedo a X?" → guía paso a paso con permisos.
- Governance runtime enforcement: Gartner predice 50% de fallos de agentes por falta de gobernanza runtime → instrumentar logging, evals, rollback.
7.2.4 Mesh-on-Fabric (semanas 60–72)¶
- Solo si la organización supera 1000 personas y ≥6 dominios maduros.
- Productos de datos por dominio: cada uno con team, contrato, SLOs, catálogo entry, observabilidad.
- Plataforma compartida: infraestructura, CI/CD, librerías de transformación, herramientas governance — operada por el equipo central.
- Federated computational governance: políticas centrales + ownership descentralizado.
7.3 Gate de salida Fase 5¶
- [ ] ≥30% queries analíticas via NLQ/text-to-SQL.
- [ ] ≥1 agente autónomo cerrando incidentes data quality con human-in-loop.
- [ ] CSAT analistas + business users ≥4.5/5.
7.4 Inversión Fase 5¶
- LLM API + tooling: $10–30K/mes
- GraphRAG infra (Neo4j Aura o self-hosted): $2–10K/mes
- Agent framework + governance: $30–100K
- Servicios + AI agent engineer: $60–200K
- Total: $120–400K
8. Equipo y RACI¶
8.1 Roles mínimos viables¶
| Rol | FTE | Responsabilidad principal |
|---|---|---|
| Data Platform Lead / Architect | 1 | Decisiones de arquitectura, roadmap, gates |
| Data Engineer Sr | 2 | Pipelines, lakehouse, ingesta, performance |
| Data Engineer Mid | 1 | Soporte, ingestas SaaS, automatización |
| Analytics Engineer | 1 | dbt, capa semántica, modelado, BI handoff |
| ML/AI Engineer | 1 | MLflow, feature store, RAG, vector DB |
| Data Governance Lead | 0.5 | Catálogo, contratos, compliance, lineage |
| FinOps / Platform SRE | 0.5 | Costos, observability infra, CI/CD |
| Product Manager — Data | 0.5 | Priorización, stakeholders, roadmap |
8.2 RACI por fase¶
| Tarea \ Rol | Arch | DE | AE | MLE | Gov | FinOps | PM |
|---|---|---|---|---|---|---|---|
| Selección cloud / motor | A | C | C | C | C | R | I |
| Modelado dbt y métricas | I | C | A/R | C | C | I | C |
| Ingesta CDC/streaming | I | A/R | I | I | C | I | I |
| MLOps / RAG | C | C | I | A/R | C | I | C |
| Catálogo + contratos | C | C | R | C | A/R | I | C |
| FinOps & cost control | A | C | I | I | I | R | I |
| Roadmap & stakeholders | C | I | I | I | I | I | A/R |
9. Métricas de Éxito (Cuadro de Mando)¶
9.1 Operacionales (semanal)¶
- Pipeline SLA hit rate: ≥95% (Fase 1 onward).
- Freshness: P95 dataset Gold <SLA contractual.
- Quality incidents: P1 ≤2/mes, P2 ≤8/mes (Fase 2 onward).
- MTTD/MTTR: <15min / <2h para P0.
9.2 Adopción (mensual)¶
- Usuarios activos catálogo: crecimiento MoM ≥10%.
- Tablas Gold con contrato: 100% (Fase 2 onward).
- NLQ queries / total: ≥30% (Fase 5).
- Productos de datos en marketplace interno: ≥1/dominio.
9.3 Financieras (mensual)¶
- Cost per TB processed: -10% YoY.
- Cloud spend variance vs budget: ±10%.
- % gasto compartido distribuible: ≥80% (vs 30% baseline industria).
9.4 Estratégicas (trimestral)¶
- Time to insight: "pregunta de negocio → respuesta accionable" <72h para 80% queries.
- AI/ML in production: ≥2 modelos Fase 4, ≥1 agente Fase 5.
- Trust score (NPS interno de datos): ≥40 (Fase 2), ≥60 (Fase 5).
10. Riesgos Top-10 y Mitigaciones¶
| # | Riesgo | Probabilidad | Impacto | Mitigación |
|---|---|---|---|---|
| 1 | Calidad de datos mata adopción IA | Alta | Crítico | Fase 2 ANTES de Fase 4; contratos + observabilidad |
| 2 | Lock-in inadvertido en formato propietario | Media | Alto | Iceberg desde día 1; políticas de export |
| 3 | Equipo sin skill GenAI/agentes | Alta | Alto | Hiring AI Engineer en Fase 3; training continuo |
| 4 | Catálogo deviene "shelfware" | Media | Alto | Gamificación, OKRs adopción, integración natural en workflow |
| 5 | Costos cloud descontrolados | Alta | Alto | FinOps desde Fase 0; anomaly detection + budgets |
| 6 | Incidente privacidad (GDPR/CCPA) | Baja | Crítico | DPO involucrado Fase 2; PETs; classification automática |
| 7 | Vendor consolidation (dbt+Fivetran, Databricks+Tabular) cambia roadmap | Media | Medio | Stack abierto; planes de salida en cada contrato |
| 8 | EU AI Act enforcement 2026 | Media | Alto | Inventory de sistemas IA; risk classification; compliance Q1 2027 |
| 9 | Streaming complexity > beneficio | Media | Medio | Solo migrar a streaming use cases con SLA <5min |
| 10 | Agentes IA descontrolados | Media | Alto | Human-in-loop; governance runtime enforcement; evals continuas |
11. Stack de Referencia (resumen de decisión)¶
11.1 Por tamaño¶
| Empresa | Storage | Cómputo | Catálogo | BI | ML/AI |
|---|---|---|---|---|---|
| Pequeña (<50) | DuckDB/MotherDuck o BigQuery | DuckDB, ClickHouse single-node | Glue + LookML | Metabase, Looker Studio | OpenAI API + pgvector |
| Media (50–500) | S3 + Iceberg | Snowflake o Databricks | Unity / Polaris + DataHub | Power BI o Looker | MLflow + Feast + Qdrant |
| Grande (500–5000) | S3/GCS + Iceberg | Databricks + Trino + Snowflake | Atlan o Collibra | Power BI + Tableau + ThoughtSpot | MLflow + Tecton + Pinecone |
| Enterprise (>5000) | Multi-cloud Iceberg | Databricks + Snowflake + custom | Atlan + Collibra | Multi-tool federated | SageMaker + Vertex + custom |
11.2 Decisiones que mueven la aguja¶
- Si >70% de carga es ML/AI: Databricks sobre Snowflake.
- Si 100% GCP nativa: BigQuery con BigLake/Iceberg suele ganar TCO.
- Si <100GB e intermitente: DuckDB/MotherDuck o ClickHouse single-node (10x más barato que DW SaaS).
- Si EU/regulado: considerar OVHcloud, IONOS, Scaleway o Databricks/Snowflake on PrivateLink + BYOK.
12. Próximos Pasos Inmediatos (semana 1)¶
- Day 1: Workshop alineamiento con stakeholders (CTO, CDO, líderes dominio).
- Day 2-3: Decisión cloud + selección catálogo + selección herramienta observability shortlist.
- Day 4-5: Setup repositorio
data-platform/, branching, primer PR. - Week 2: Spike técnico Iceberg + Spark + Trino local (este proyecto incluye
docker-compose.yml). - Week 3: Primer pipeline Bronze → Silver → Gold con dataset real.
- Week 4: Dashboard productivo + retrospectiva + ajuste de plan.
Regla de oro: no compres herramienta para problema que no has experimentado. Empieza con OSS o tier gratuito; eleva cuando el dolor sea real y medible.
Anexos¶
- Arquitectura de referencia
- Roadmap visual
- Documentación técnica por dominio
- Infraestructura local
- Plantilla de contrato de datos
Este plan se revisa trimestralmente. Cambios en hitos requieren PR al repositorio y aprobación de Data Architect + Product Manager.