Plan de Implementación — Plataforma Big Data + IA 2026¶

Horizonte: 18 meses (Q3 2026 → Q4 2027) Objetivo: consolidar un lakehouse abierto sobre Apache Iceberg con catálogo activo, gobernanza AI-ready, observabilidad estilo Monte Carlo y capa semántica/RAG productiva. Tamaño organización destino: 50–500 empleados, gasto cloud de datos $50K–$2M/año. Stack de referencia: Iceberg + S3/MinIO + Spark/Trino/Flink + Kafka + dbt + Airflow + DataHub + MLflow + pgvector/Qdrant + Monte Carlo/Soda.

0. TL;DR Ejecutivo¶

Fase	Duración	Inversión típica	Resultado entregable	Métrica de éxito
0 — Foundations	0–2 meses	$30–80K	Lakehouse Iceberg mínimo + 1 fuente Bronze/Silver/Gold + CI/CD	1 producto Gold servido a BI
1 — Modern Data Stack	2–5 meses	$80–250K	Ingesta CDC + dbt + Airflow + capa semántica	≥5 productos Gold con contratos
2 — Governance & Quality	5–8 meses	$60–180K	Catálogo activo + observabilidad + contratos	<1% tablas con incidentes silenciosos
3 — Streaming & Real-Time	8–11 meses	$80–200K	Flink+Kafka+Iceberg, latencias <30s	≥3 use cases real-time
4 — ML/AI Foundation	11–14 meses	$100–300K	MLflow + feature store + vector DB + RAG hybrid	≥2 modelos en prod + 1 RAG con citación
5 — Agents & Self-Service	14–18 meses	$120–400K	Text-to-SQL, agentes, GraphRAG, mesh-on-fabric	≥30% queries por usuarios no técnicos

Total 18 meses: $470K–$1,4M (excluye salarios). Equipo recomendado: 1 Data Architect, 3 Data Engineers, 1 Analytics Engineer, 1 ML/AI Engineer, 0,5 FinOps, 0,5 Data Governance Lead.

1. Principios Rectores¶

Open formats first. Iceberg como formato único de mesa; Parquet como formato de archivo; Avro para Kafka. Evitar lock-ins propietarios donde no sea necesario.
Catálogo único, motores múltiples. Un solo catálogo REST (Polaris, Unity, Nessie) consumido por Spark, Trino, Flink, Snowflake/BigQuery.
Contratos antes que pipelines. Toda tabla Gold tiene un contrato versionado (schema + SLA + owner + calidad esperada) revisado por consumidor y productor.
Calidad como código. Tests en CI; observabilidad continua en producción; incidentes con SLO y blameless postmortems.
AI-ready desde día 1. Cada dataset Gold mantiene linaje, descripciones de negocio y embeddings semánticos para que LLMs y agentes los descubran.
FinOps from day zero. Etiquetado obligatorio, presupuestos por dominio, anomaly detection sobre gasto.
Composable y reversible. Cada decisión de stack debe poder revertirse en ≤90 días moviendo datos vía Iceberg + DBT/Trino.

2. Fase 0 — Foundations (semanas 0–8)¶

2.1 Objetivo¶

Establecer el lakehouse mínimo viable con Iceberg, una fuente de datos productiva en arquitectura medallion y CI/CD básico. Entrega un único producto Gold consumido por al menos un dashboard de BI.

2.2 Workstreams¶

2.2.1 Storage y catálogo (semanas 0–3)¶

Decisión cloud: AWS (S3 + Glue/Polaris), GCP (GCS + BigLake), o Azure (ADLS + Unity).

Bucket layout:

s3://lakehouse-prod/
  ├── bronze/{source}/{table}/data/
  ├── silver/{domain}/{table}/data/
  ├── gold/{product}/{table}/data/
  └── _catalog/  (Iceberg metadata si self-managed)

Catálogo Iceberg REST: desplegar Polaris (Snowflake OSS) o Unity Catalog. Alternativa managed: AWS Glue Iceberg REST endpoint, Cloudflare R2 Catalog, Databricks Unity Catalog managed.
Particionado: hidden partitioning con transforms (bucket, truncate, day); evitar year/month/day Hive-style.
Compactación y vacuum: definir job semanal (Spark rewrite_data_files, expire_snapshots).

2.2.2 Cómputo (semanas 1–4)¶

Batch: Spark 4.0 (Databricks/EMR/Dataproc) o motor managed (Snowflake con Iceberg native, BigQuery con BigLake).
Query interactivo: Trino o motor warehouse equivalente.
Entorno local: docker-compose con MinIO + Spark + Trino + Iceberg REST (incluido en infrastructure/docker-compose.yml).

2.2.3 Pipeline mínimo end-to-end (semanas 3–6)¶

Fuente: una base operacional (Postgres/MySQL) o un SaaS (Stripe, HubSpot).
Ingesta inicial: Fivetran/Airbyte con destino Iceberg, o batch Python.
Transformación: dbt-iceberg adapter o dbt-trino.
Modelo: un star schema Gold con 1 tabla de hechos + 3 dimensiones.
Consumo: Power BI / Looker / Tableau apuntando a Trino/Snowflake.

2.2.4 CI/CD y entornos (semanas 4–7)¶

Git: monorepo data-platform/ con subcarpetas pipelines/, dbt/, infra/.
Branching: main → producción, dev → entorno preview, PRs con tests obligatorios.
CI: GitHub Actions o GitLab CI ejecutando dbt-build, dbt-test, lint SQL (SQLFluff), security scan.
Iceberg branches (Nessie) o dbt clones: cada PR genera dataset preview, se destruye al merge.

2.2.5 FinOps inicial (semana 6–8)¶

Etiquetar todo recurso con env, domain, owner, cost_center.
Activar AWS Cost Anomaly Detection / GCP Recommender / Azure Cost Management.
Definir presupuestos por entorno con alertas a 70% y 90%.

2.3 Gate de salida Fase 0¶

[ ] Iceberg table consultable desde 3 motores distintos (Spark, Trino, motor warehouse).
[ ] 1 dashboard en producción con datos refrescados <24h, latencia query <5s p95.
[ ] CI bloquea merges con tests dbt fallidos.
[ ] Costo cloud mensual ≤ presupuesto +/-10%.

2.4 Riesgos y mitigaciones¶

Riesgo	Probabilidad	Mitigación
Equipo sin experiencia Iceberg	Alta	Training 1 semana + pair programming con vendor (Databricks/Snowflake/Tabular/Onehouse)
Catálogo REST inmaduro (Polaris)	Media	Empezar con Glue Iceberg REST o Unity Catalog managed, migrar después
Permisos S3/IAM mal configurados	Media	Terraform desde el día 1; revisión por SecOps obligatoria

2.5 Inversión Fase 0¶

Cloud: $5–15K/mes ($10–30K total)
Software: dbt Cloud $100/dev/mes, Fivetran $1–3K/mes (opcional)
Servicios profesionales (1 vendor partner): $20–50K
Total: $30–80K

3. Fase 1 — Modern Data Stack (semanas 8–20)¶

3.1 Objetivo¶

Productizar la ingesta y transformación. Salir con ≥5 productos Gold contractuales, capa semántica documentada y orquestación robusta.

3.2 Workstreams¶

3.2.1 Ingesta multi-fuente (semanas 8–12)¶

SaaS connectors: Fivetran o Airbyte para CRM, ERP, marketing, soporte.
Bases operacionales con CDC: Debezium + Kafka, AWS DMS, o Estuary Flow.
Files / SFTP: Airbyte o pipelines Python custom orquestados.
API custom: clientes Python con requests + pyiceberg para escritura directa.
Schema registry: Confluent Schema Registry o Apicurio para Kafka topics.

3.2.2 Orquestación (semanas 10–14)¶

Airflow 3 (Astronomer/MWAA) o Dagster (preferible si software-defined assets).
Patrón: DAG por dominio, no por tabla; sensores para dependencias cross-DAG.
Idempotencia y retries: todo task Spark/dbt re-ejecutable; usar Iceberg MERGE INTO y snapshots para puntos de recuperación.

3.2.3 Transformación dbt (semanas 9–16)¶

Estructura:

dbt/
  models/
    bronze/    # raw + minimal cast
    silver/    # cleaned, deduped, conformed
    gold/      # business-ready, contractual
  macros/
  tests/
  seeds/

Modelado: dimensional (Kimball) por defecto; Data Vault 2.0 si historización empresarial requerida.
Materialization strategy:
Bronze: incremental + merge con Iceberg
Silver: incremental con unique_key
Gold: incremental o table; snapshot para SCD2
Tests: schema + custom singular tests + dbt-expectations + dbt-unit-testing.

3.2.4 Capa semántica (semanas 14–18)¶

Opciones: dbt Semantic Layer (MetricFlow), Cube.dev, AtScale.
Inventario inicial: 20–40 métricas core (revenue, MAU, churn, CAC, LTV).
Naming convention: metric_<domain>_<grain> (ej. metric_sales_arr_monthly).
Consumo: APIs desde BI (Power BI Direct Query, Hex, ThoughtSpot, Streamlit).

3.2.5 Documentación (semanas 16–20)¶

dbt docs auto-generados; publicación en S3/Pages internas.
Glosario de negocio en herramienta de catálogo (DataHub, Atlan).
Diagramas de linaje exportados al menos mensualmente.

3.3 Gate de salida Fase 1¶

[ ] ≥5 productos Gold en producción con contrato versionado.
[ ] ≥80% modelos dbt con descripciones y tests.
[ ] Capa semántica con ≥20 métricas usadas por ≥2 herramientas BI.
[ ] DAGs de Airflow con SLA <24h; 95% éxito a primer intento.

3.4 Inversión Fase 1¶

Cloud: $10–25K/mes
Fivetran/Airbyte: $2–8K/mes
dbt Cloud Enterprise: $2–5K/mes
Airflow managed (Astronomer): $1–3K/mes
Servicios + training: $30–60K
Total: $80–250K

4. Fase 2 — Governance & Quality (semanas 20–32)¶

4.1 Objetivo¶

Pasar de "los datos funcionan" a "los datos son confiables y auditables". Activar catálogo, observabilidad, contratos como código y gobernanza federada por dominio.

4.2 Workstreams¶

4.2.1 Catálogo activo (semanas 20–24)¶

Selección: DataHub OSS (gratis, requiere ops) o Atlan/Collibra (enterprise managed).
Ingestión: conectores nativos a Iceberg, dbt, Airflow, BI, fuentes operacionales.
Glosario: crear ≥50 términos de negocio mapeados a columnas Gold.
Owners y stewards: asignar a 100% tablas Gold y ≥80% Silver.

4.2.2 Data Contracts (semanas 22–28)¶

Spec: YAML versionado en repo data-contracts/:

schemaVersion: v0.1.0
contract:
  id: customer_dim_v2
  owner: customer-domain-team
  consumers: [analytics, marketing-ops]
  schema:
    - name: customer_id
      type: string
      constraints: [unique, not_null]
  sla:
    freshness: 1h
    completeness: 99.9%
  breakingChange: requires-pr-approval-from-consumers

CI enforcement: schema diff check; cambios breaking requieren aprobación de consumidores listados.
Runtime check: validar al escribir en Gold (Soda/Great Expectations) y bloquear publicación si SLA violado.

4.2.3 Observabilidad (semanas 24–30)¶

Selección:
Enterprise: Monte Carlo, Acceldata, Bigeye, Sifflet (incluyen agentic features 2025–2026).
OSS: Soda Core + Elementary + dbt artifacts + Grafana.
5 pilares (Gartner): data, pipelines, infra/cost, code, usage.
Alertas: Slack/Teams + PagerDuty para datasets P0.
Postmortems: todo incidente >1h con SLO impact tiene postmortem público.

4.2.4 Privacidad y compliance (semanas 26–32)¶

Inventario PII/sensitive: clasificación automática + manual.
Masking dinámico: Snowflake / Databricks UC / BigQuery row-level + column-level policies.
Retention policies: TTL por tipo de dato; integrar con Iceberg expire_snapshots.
Audit trail: Snowflake Access History, UC audit logs, AWS CloudTrail centralizados en SIEM.
GDPR/CCPA/AI Act: revisar pipelines con DPO; especial atención al EU AI Act 2 ago 2026 si hay sistemas de hiring.

4.3 Gate de salida Fase 2¶

[ ] 100% tablas Gold con owner, contrato y observabilidad activa.
[ ] <5 incidentes P1 en 30 días; MTTD <15min, MTTR <2h.
[ ] Catálogo con >70% adopción semanal por usuarios analíticos.
[ ] Audit pass de privacidad/compliance ejecutado por SecOps + DPO.

4.4 Inversión Fase 2¶

Observability tool: $30–100K/año
Catálogo enterprise (si aplica): $50–150K/año
Servicios privacidad: $20–60K
Total: $60–180K

5. Fase 3 — Streaming & Real-Time (semanas 32–44)¶

5.1 Objetivo¶

Habilitar latencias <30s end-to-end para 3 use cases prioritarios (fraude, personalización, alertas operativas). Migrar pipelines críticos a Kappa o híbrido.

5.2 Workstreams¶

5.2.1 Plataforma streaming (semanas 32–36)¶

Kafka managed: Confluent Cloud, AWS MSK, Redpanda. Diskless Kafka (WarpStream, AutoMQ) si optimización de costo > latencia ultra-baja.
Schema registry obligatorio: Avro o Protobuf; JSON solo en bordes.
Topic naming: <domain>.<entity>.<event>.v<n>.
Particiones: dimensionar por throughput esperado x2 headroom; reconsiderar trimestralmente.

5.2.2 Stream processing (semanas 34–40)¶

Flink managed: Confluent Cloud Flink, Decodable, Databricks DLT, Ververica Cloud.
Patrones aplicables:
Enrichment con lookups a Iceberg (vía Flink Iceberg sink + temporal joins).
Aggregations windowed (sliding/session) escritas a tablas Iceberg como "live aggregates".
CDC join (Debezium → Flink → Iceberg upsert).
State management: RocksDB local + checkpoints a S3.

5.2.3 Iceberg streaming-native (semanas 38–42)¶

Patrón: Flink writes Iceberg con commits cada 30–60s; lectores SQL ven datos frescos.
Compactación: job hourly de rewrite_data_files para evitar fragmentación.
Branching: usar Iceberg branches para validar antes de publicar a main.

5.2.4 Use cases entregables (semanas 36–44)¶

Caso 1 (fraude/anomalía): Kafka → Flink modelo scoring → alerta + tabla Gold real-time.
Caso 2 (personalización): clickstream → features online (Tecton/Feast online store) → API.
Caso 3 (operaciones): IoT/logs → Flink → dashboard real-time (Tinybird/Materialize/ClickHouse).

5.3 Gate de salida Fase 3¶

[ ] Latencia P95 end-to-end <30s para ≥3 pipelines.
[ ] Tasas de pérdida <0.01% / duplicación <0.1%.
[ ] Postmortems de ≥2 incidentes streaming ejecutados.

5.4 Inversión Fase 3¶

Kafka managed: $3–10K/mes
Flink managed: $5–15K/mes
Servicios + training: $30–80K
Total: $80–200K

6. Fase 4 — ML/AI Foundation (semanas 44–56)¶

6.1 Objetivo¶

Productivizar ≥2 modelos ML clásicos y 1 RAG enterprise con citación. Establecer MLOps + feature store + vector DB + evaluación continua.

6.2 Workstreams¶

6.2.1 MLOps con MLflow (semanas 44–48)¶

MLflow Tracking + Registry + Serving desplegado en Databricks / SageMaker / Vertex / self-hosted Kubernetes.

Convención de proyectos:

ml/<model_name>/
  notebooks/     # exploración
  src/           # código entrenamiento
  serving/       # FastAPI / BentoML
  tests/
  mlflow.yaml    # config experiment

Promoción a producción: PR review + métricas mínimas + canary deployment (5%→25%→100%).
Monitoring: drift (Evidently, WhyLabs), latencia, error rate; alertas.

6.2.2 Feature store (semanas 46–52)¶

Selección:
<10 modelos en prod: Feast OSS con online store en Redis y offline en Iceberg.
≥10 modelos o real-time crítico: Tecton o Databricks Feature Store / Vertex / SageMaker.
Convenciones: features definidos como código; entity → feature → freshness SLA.
Training/serving consistency: misma transformación batch y online (DSL declarativo).

6.2.3 Vector DB y embeddings (semanas 48–54)¶

Embedding model: OpenAI text-embedding-3-large, Cohere Embed v3, Voyage AI, BGE-M3 self-hosted.
Vector DB selection matrix: | Volumen vectores | Latencia objetivo | Recomendación | |---|---|---| | <50M | <100ms | pgvector + pgvectorscale (HNSW) | | 50M–1B | <50ms | Qdrant, Weaviate, Milvus self-hosted | | >1B o multi-tenant SaaS | <30ms | Pinecone, Zilliz Cloud |
Hybrid search: vector + BM25 + filtros metadata + reranker (bge-reranker-v2-m3).
Ingestion pipeline: Airflow DAG → embedder → upsert vector DB; mantener referencia a fuente Iceberg.

6.2.4 RAG productivo (semanas 50–56)¶

Arquitectura recomendada:

query → query rewriter (LLM) → hybrid retrieval (vector + BM25 + filters)
  → reranker → context assembly → LLM with citation prompt → response + cites

Evaluación continua: RAGAS (faithfulness, context relevance, answer relevance) + golden set humano.
Guardrails: input filtering (prompt injection), output checking (hallucination flags), PII redaction.
Costos: monitor tokens/query, cache embeddings, considerar fine-tune embeddings dominio si >10K queries/día.

6.3 Gate de salida Fase 4¶

[ ] ≥2 modelos ML en producción con monitoring drift activo.
[ ] 1 RAG con citación, faithfulness >85% en golden set.
[ ] Tiempo medio de "idea → modelo en producción" <6 semanas.

6.4 Inversión Fase 4¶

LLM API: $2–10K/mes (variable)
Vector DB: $0.5–5K/mes
Feature store enterprise (si aplica): $40–100K/año
GPU compute para fine-tune: variable
Servicios + AI engineer dedicado: $40–100K
Total: $100–300K

7. Fase 5 — Agents & Self-Service (semanas 56–72)¶

7.1 Objetivo¶

Llegar a un estado donde ≥30% de las consultas analíticas son hechas por usuarios no técnicos via lenguaje natural, y al menos un agente autónomo opera flujos completos (e.g., monitoring + diagnóstico + remediación).

7.2 Workstreams¶

7.2.1 Text-to-SQL productivo (semanas 56–62)¶

Opciones: Snowflake Cortex Analyst, Databricks Genie, Vanna.ai self-hosted, custom con LangChain + DSPy.
Datos clave para precisión: capa semántica + descripciones ricas + ejemplos few-shot por dominio.
Evaluación: golden set de 200 queries con execution accuracy >75% antes de roll-out.
UX: integrar en BI (Hex, ThoughtSpot, Power BI Copilot) y Slack/Teams.

7.2.2 GraphRAG (semanas 60–66)¶

Caso de uso: dominios complejos (regulatorio, médico, financiero, legal).
Stack: Neo4j / Memgraph + extracción de entidades (LLM) + Cypher retrieval híbrido vector+grafo.
Métrica: correctness +30 puntos vs RAG plano (Amazon/Lettria benchmark).

7.2.3 Agentes IA (semanas 62–70)¶

MCP (Model Context Protocol): estandarizar acceso a herramientas (warehouse, catálogo, BI).
Patrones implementables:
Agente Data Quality: detecta anomalía → diagnostica root cause → abre Jira → notifica owner.
Agente Cost optimizer: detecta query expensive → propone refactor → crea PR dbt.
Agente Onboarding: usuario nuevo pregunta "¿cómo accedo a X?" → guía paso a paso con permisos.
Governance runtime enforcement: Gartner predice 50% de fallos de agentes por falta de gobernanza runtime → instrumentar logging, evals, rollback.

7.2.4 Mesh-on-Fabric (semanas 60–72)¶

Solo si la organización supera 1000 personas y ≥6 dominios maduros.
Productos de datos por dominio: cada uno con team, contrato, SLOs, catálogo entry, observabilidad.
Plataforma compartida: infraestructura, CI/CD, librerías de transformación, herramientas governance — operada por el equipo central.
Federated computational governance: políticas centrales + ownership descentralizado.

7.3 Gate de salida Fase 5¶

[ ] ≥30% queries analíticas via NLQ/text-to-SQL.
[ ] ≥1 agente autónomo cerrando incidentes data quality con human-in-loop.
[ ] CSAT analistas + business users ≥4.5/5.

7.4 Inversión Fase 5¶

LLM API + tooling: $10–30K/mes
GraphRAG infra (Neo4j Aura o self-hosted): $2–10K/mes
Agent framework + governance: $30–100K
Servicios + AI agent engineer: $60–200K
Total: $120–400K

8. Equipo y RACI¶

8.1 Roles mínimos viables¶

Rol	FTE	Responsabilidad principal
Data Platform Lead / Architect	1	Decisiones de arquitectura, roadmap, gates
Data Engineer Sr	2	Pipelines, lakehouse, ingesta, performance
Data Engineer Mid	1	Soporte, ingestas SaaS, automatización
Analytics Engineer	1	dbt, capa semántica, modelado, BI handoff
ML/AI Engineer	1	MLflow, feature store, RAG, vector DB
Data Governance Lead	0.5	Catálogo, contratos, compliance, lineage
FinOps / Platform SRE	0.5	Costos, observability infra, CI/CD
Product Manager — Data	0.5	Priorización, stakeholders, roadmap

8.2 RACI por fase¶

Tarea \ Rol	Arch	DE	AE	MLE	Gov	FinOps	PM
Selección cloud / motor	A	C	C	C	C	R	I
Modelado dbt y métricas	I	C	A/R	C	C	I	C
Ingesta CDC/streaming	I	A/R	I	I	C	I	I
MLOps / RAG	C	C	I	A/R	C	I	C
Catálogo + contratos	C	C	R	C	A/R	I	C
FinOps & cost control	A	C	I	I	I	R	I
Roadmap & stakeholders	C	I	I	I	I	I	A/R

9. Métricas de Éxito (Cuadro de Mando)¶

9.1 Operacionales (semanal)¶

Pipeline SLA hit rate: ≥95% (Fase 1 onward).
Freshness: P95 dataset Gold <SLA contractual.
Quality incidents: P1 ≤2/mes, P2 ≤8/mes (Fase 2 onward).
MTTD/MTTR: <15min / <2h para P0.

9.2 Adopción (mensual)¶

Usuarios activos catálogo: crecimiento MoM ≥10%.
Tablas Gold con contrato: 100% (Fase 2 onward).
NLQ queries / total: ≥30% (Fase 5).
Productos de datos en marketplace interno: ≥1/dominio.

9.3 Financieras (mensual)¶

Cost per TB processed: -10% YoY.
Cloud spend variance vs budget: ±10%.
% gasto compartido distribuible: ≥80% (vs 30% baseline industria).

9.4 Estratégicas (trimestral)¶

Time to insight: "pregunta de negocio → respuesta accionable" <72h para 80% queries.
AI/ML in production: ≥2 modelos Fase 4, ≥1 agente Fase 5.
Trust score (NPS interno de datos): ≥40 (Fase 2), ≥60 (Fase 5).

10. Riesgos Top-10 y Mitigaciones¶

#	Riesgo	Probabilidad	Impacto	Mitigación
1	Calidad de datos mata adopción IA	Alta	Crítico	Fase 2 ANTES de Fase 4; contratos + observabilidad
2	Lock-in inadvertido en formato propietario	Media	Alto	Iceberg desde día 1; políticas de export
3	Equipo sin skill GenAI/agentes	Alta	Alto	Hiring AI Engineer en Fase 3; training continuo
4	Catálogo deviene "shelfware"	Media	Alto	Gamificación, OKRs adopción, integración natural en workflow
5	Costos cloud descontrolados	Alta	Alto	FinOps desde Fase 0; anomaly detection + budgets
6	Incidente privacidad (GDPR/CCPA)	Baja	Crítico	DPO involucrado Fase 2; PETs; classification automática
7	Vendor consolidation (dbt+Fivetran, Databricks+Tabular) cambia roadmap	Media	Medio	Stack abierto; planes de salida en cada contrato
8	EU AI Act enforcement 2026	Media	Alto	Inventory de sistemas IA; risk classification; compliance Q1 2027
9	Streaming complexity > beneficio	Media	Medio	Solo migrar a streaming use cases con SLA <5min
10	Agentes IA descontrolados	Media	Alto	Human-in-loop; governance runtime enforcement; evals continuas

11. Stack de Referencia (resumen de decisión)¶

11.1 Por tamaño¶

Empresa	Storage	Cómputo	Catálogo	BI	ML/AI
Pequeña (<50)	DuckDB/MotherDuck o BigQuery	DuckDB, ClickHouse single-node	Glue + LookML	Metabase, Looker Studio	OpenAI API + pgvector
Media (50–500)	S3 + Iceberg	Snowflake o Databricks	Unity / Polaris + DataHub	Power BI o Looker	MLflow + Feast + Qdrant
Grande (500–5000)	S3/GCS + Iceberg	Databricks + Trino + Snowflake	Atlan o Collibra	Power BI + Tableau + ThoughtSpot	MLflow + Tecton + Pinecone
Enterprise (>5000)	Multi-cloud Iceberg	Databricks + Snowflake + custom	Atlan + Collibra	Multi-tool federated	SageMaker + Vertex + custom

11.2 Decisiones que mueven la aguja¶

Si >70% de carga es ML/AI: Databricks sobre Snowflake.
Si 100% GCP nativa: BigQuery con BigLake/Iceberg suele ganar TCO.
Si <100GB e intermitente: DuckDB/MotherDuck o ClickHouse single-node (10x más barato que DW SaaS).
Si EU/regulado: considerar OVHcloud, IONOS, Scaleway o Databricks/Snowflake on PrivateLink + BYOK.

12. Próximos Pasos Inmediatos (semana 1)¶

Day 1: Workshop alineamiento con stakeholders (CTO, CDO, líderes dominio).
Day 2-3: Decisión cloud + selección catálogo + selección herramienta observability shortlist.
Day 4-5: Setup repositorio data-platform/, branching, primer PR.
Week 2: Spike técnico Iceberg + Spark + Trino local (este proyecto incluye docker-compose.yml).
Week 3: Primer pipeline Bronze → Silver → Gold con dataset real.
Week 4: Dashboard productivo + retrospectiva + ajuste de plan.

Regla de oro: no compres herramienta para problema que no has experimentado. Empieza con OSS o tier gratuito; eleva cuando el dolor sea real y medible.

Anexos¶

Este plan se revisa trimestralmente. Cambios en hitos requieren PR al repositorio y aprobación de Data Architect + Product Manager.