Saltar a contenido

Plan de Implementación — Plataforma Big Data + IA 2026

Horizonte: 18 meses (Q3 2026 → Q4 2027) Objetivo: consolidar un lakehouse abierto sobre Apache Iceberg con catálogo activo, gobernanza AI-ready, observabilidad estilo Monte Carlo y capa semántica/RAG productiva. Tamaño organización destino: 50–500 empleados, gasto cloud de datos $50K–$2M/año. Stack de referencia: Iceberg + S3/MinIO + Spark/Trino/Flink + Kafka + dbt + Airflow + DataHub + MLflow + pgvector/Qdrant + Monte Carlo/Soda.


0. TL;DR Ejecutivo

Fase Duración Inversión típica Resultado entregable Métrica de éxito
0 — Foundations 0–2 meses $30–80K Lakehouse Iceberg mínimo + 1 fuente Bronze/Silver/Gold + CI/CD 1 producto Gold servido a BI
1 — Modern Data Stack 2–5 meses $80–250K Ingesta CDC + dbt + Airflow + capa semántica ≥5 productos Gold con contratos
2 — Governance & Quality 5–8 meses $60–180K Catálogo activo + observabilidad + contratos <1% tablas con incidentes silenciosos
3 — Streaming & Real-Time 8–11 meses $80–200K Flink+Kafka+Iceberg, latencias <30s ≥3 use cases real-time
4 — ML/AI Foundation 11–14 meses $100–300K MLflow + feature store + vector DB + RAG hybrid ≥2 modelos en prod + 1 RAG con citación
5 — Agents & Self-Service 14–18 meses $120–400K Text-to-SQL, agentes, GraphRAG, mesh-on-fabric ≥30% queries por usuarios no técnicos

Total 18 meses: $470K–$1,4M (excluye salarios). Equipo recomendado: 1 Data Architect, 3 Data Engineers, 1 Analytics Engineer, 1 ML/AI Engineer, 0,5 FinOps, 0,5 Data Governance Lead.


1. Principios Rectores

  1. Open formats first. Iceberg como formato único de mesa; Parquet como formato de archivo; Avro para Kafka. Evitar lock-ins propietarios donde no sea necesario.
  2. Catálogo único, motores múltiples. Un solo catálogo REST (Polaris, Unity, Nessie) consumido por Spark, Trino, Flink, Snowflake/BigQuery.
  3. Contratos antes que pipelines. Toda tabla Gold tiene un contrato versionado (schema + SLA + owner + calidad esperada) revisado por consumidor y productor.
  4. Calidad como código. Tests en CI; observabilidad continua en producción; incidentes con SLO y blameless postmortems.
  5. AI-ready desde día 1. Cada dataset Gold mantiene linaje, descripciones de negocio y embeddings semánticos para que LLMs y agentes los descubran.
  6. FinOps from day zero. Etiquetado obligatorio, presupuestos por dominio, anomaly detection sobre gasto.
  7. Composable y reversible. Cada decisión de stack debe poder revertirse en ≤90 días moviendo datos vía Iceberg + DBT/Trino.

2. Fase 0 — Foundations (semanas 0–8)

2.1 Objetivo

Establecer el lakehouse mínimo viable con Iceberg, una fuente de datos productiva en arquitectura medallion y CI/CD básico. Entrega un único producto Gold consumido por al menos un dashboard de BI.

2.2 Workstreams

2.2.1 Storage y catálogo (semanas 0–3)

  • Decisión cloud: AWS (S3 + Glue/Polaris), GCP (GCS + BigLake), o Azure (ADLS + Unity).
  • Bucket layout:
    s3://lakehouse-prod/
      ├── bronze/{source}/{table}/data/
      ├── silver/{domain}/{table}/data/
      ├── gold/{product}/{table}/data/
      └── _catalog/  (Iceberg metadata si self-managed)
    
  • Catálogo Iceberg REST: desplegar Polaris (Snowflake OSS) o Unity Catalog. Alternativa managed: AWS Glue Iceberg REST endpoint, Cloudflare R2 Catalog, Databricks Unity Catalog managed.
  • Particionado: hidden partitioning con transforms (bucket, truncate, day); evitar year/month/day Hive-style.
  • Compactación y vacuum: definir job semanal (Spark rewrite_data_files, expire_snapshots).

2.2.2 Cómputo (semanas 1–4)

  • Batch: Spark 4.0 (Databricks/EMR/Dataproc) o motor managed (Snowflake con Iceberg native, BigQuery con BigLake).
  • Query interactivo: Trino o motor warehouse equivalente.
  • Entorno local: docker-compose con MinIO + Spark + Trino + Iceberg REST (incluido en infrastructure/docker-compose.yml).

2.2.3 Pipeline mínimo end-to-end (semanas 3–6)

  • Fuente: una base operacional (Postgres/MySQL) o un SaaS (Stripe, HubSpot).
  • Ingesta inicial: Fivetran/Airbyte con destino Iceberg, o batch Python.
  • Transformación: dbt-iceberg adapter o dbt-trino.
  • Modelo: un star schema Gold con 1 tabla de hechos + 3 dimensiones.
  • Consumo: Power BI / Looker / Tableau apuntando a Trino/Snowflake.

2.2.4 CI/CD y entornos (semanas 4–7)

  • Git: monorepo data-platform/ con subcarpetas pipelines/, dbt/, infra/.
  • Branching: main → producción, dev → entorno preview, PRs con tests obligatorios.
  • CI: GitHub Actions o GitLab CI ejecutando dbt-build, dbt-test, lint SQL (SQLFluff), security scan.
  • Iceberg branches (Nessie) o dbt clones: cada PR genera dataset preview, se destruye al merge.

2.2.5 FinOps inicial (semana 6–8)

  • Etiquetar todo recurso con env, domain, owner, cost_center.
  • Activar AWS Cost Anomaly Detection / GCP Recommender / Azure Cost Management.
  • Definir presupuestos por entorno con alertas a 70% y 90%.

2.3 Gate de salida Fase 0

  • [ ] Iceberg table consultable desde 3 motores distintos (Spark, Trino, motor warehouse).
  • [ ] 1 dashboard en producción con datos refrescados <24h, latencia query <5s p95.
  • [ ] CI bloquea merges con tests dbt fallidos.
  • [ ] Costo cloud mensual ≤ presupuesto +/-10%.

2.4 Riesgos y mitigaciones

Riesgo Probabilidad Mitigación
Equipo sin experiencia Iceberg Alta Training 1 semana + pair programming con vendor (Databricks/Snowflake/Tabular/Onehouse)
Catálogo REST inmaduro (Polaris) Media Empezar con Glue Iceberg REST o Unity Catalog managed, migrar después
Permisos S3/IAM mal configurados Media Terraform desde el día 1; revisión por SecOps obligatoria

2.5 Inversión Fase 0

  • Cloud: $5–15K/mes ($10–30K total)
  • Software: dbt Cloud $100/dev/mes, Fivetran $1–3K/mes (opcional)
  • Servicios profesionales (1 vendor partner): $20–50K
  • Total: $30–80K

3. Fase 1 — Modern Data Stack (semanas 8–20)

3.1 Objetivo

Productizar la ingesta y transformación. Salir con ≥5 productos Gold contractuales, capa semántica documentada y orquestación robusta.

3.2 Workstreams

3.2.1 Ingesta multi-fuente (semanas 8–12)

  • SaaS connectors: Fivetran o Airbyte para CRM, ERP, marketing, soporte.
  • Bases operacionales con CDC: Debezium + Kafka, AWS DMS, o Estuary Flow.
  • Files / SFTP: Airbyte o pipelines Python custom orquestados.
  • API custom: clientes Python con requests + pyiceberg para escritura directa.
  • Schema registry: Confluent Schema Registry o Apicurio para Kafka topics.

3.2.2 Orquestación (semanas 10–14)

  • Airflow 3 (Astronomer/MWAA) o Dagster (preferible si software-defined assets).
  • Patrón: DAG por dominio, no por tabla; sensores para dependencias cross-DAG.
  • Idempotencia y retries: todo task Spark/dbt re-ejecutable; usar Iceberg MERGE INTO y snapshots para puntos de recuperación.

3.2.3 Transformación dbt (semanas 9–16)

  • Estructura:
    dbt/
      models/
        bronze/    # raw + minimal cast
        silver/    # cleaned, deduped, conformed
        gold/      # business-ready, contractual
      macros/
      tests/
      seeds/
    
  • Modelado: dimensional (Kimball) por defecto; Data Vault 2.0 si historización empresarial requerida.
  • Materialization strategy:
  • Bronze: incremental + merge con Iceberg
  • Silver: incremental con unique_key
  • Gold: incremental o table; snapshot para SCD2
  • Tests: schema + custom singular tests + dbt-expectations + dbt-unit-testing.

3.2.4 Capa semántica (semanas 14–18)

  • Opciones: dbt Semantic Layer (MetricFlow), Cube.dev, AtScale.
  • Inventario inicial: 20–40 métricas core (revenue, MAU, churn, CAC, LTV).
  • Naming convention: metric_<domain>_<grain> (ej. metric_sales_arr_monthly).
  • Consumo: APIs desde BI (Power BI Direct Query, Hex, ThoughtSpot, Streamlit).

3.2.5 Documentación (semanas 16–20)

  • dbt docs auto-generados; publicación en S3/Pages internas.
  • Glosario de negocio en herramienta de catálogo (DataHub, Atlan).
  • Diagramas de linaje exportados al menos mensualmente.

3.3 Gate de salida Fase 1

  • [ ] ≥5 productos Gold en producción con contrato versionado.
  • [ ] ≥80% modelos dbt con descripciones y tests.
  • [ ] Capa semántica con ≥20 métricas usadas por ≥2 herramientas BI.
  • [ ] DAGs de Airflow con SLA <24h; 95% éxito a primer intento.

3.4 Inversión Fase 1

  • Cloud: $10–25K/mes
  • Fivetran/Airbyte: $2–8K/mes
  • dbt Cloud Enterprise: $2–5K/mes
  • Airflow managed (Astronomer): $1–3K/mes
  • Servicios + training: $30–60K
  • Total: $80–250K

4. Fase 2 — Governance & Quality (semanas 20–32)

4.1 Objetivo

Pasar de "los datos funcionan" a "los datos son confiables y auditables". Activar catálogo, observabilidad, contratos como código y gobernanza federada por dominio.

4.2 Workstreams

4.2.1 Catálogo activo (semanas 20–24)

  • Selección: DataHub OSS (gratis, requiere ops) o Atlan/Collibra (enterprise managed).
  • Ingestión: conectores nativos a Iceberg, dbt, Airflow, BI, fuentes operacionales.
  • Glosario: crear ≥50 términos de negocio mapeados a columnas Gold.
  • Owners y stewards: asignar a 100% tablas Gold y ≥80% Silver.

4.2.2 Data Contracts (semanas 22–28)

  • Spec: YAML versionado en repo data-contracts/:
    schemaVersion: v0.1.0
    contract:
      id: customer_dim_v2
      owner: customer-domain-team
      consumers: [analytics, marketing-ops]
      schema:
        - name: customer_id
          type: string
          constraints: [unique, not_null]
      sla:
        freshness: 1h
        completeness: 99.9%
      breakingChange: requires-pr-approval-from-consumers
    
  • CI enforcement: schema diff check; cambios breaking requieren aprobación de consumidores listados.
  • Runtime check: validar al escribir en Gold (Soda/Great Expectations) y bloquear publicación si SLA violado.

4.2.3 Observabilidad (semanas 24–30)

  • Selección:
  • Enterprise: Monte Carlo, Acceldata, Bigeye, Sifflet (incluyen agentic features 2025–2026).
  • OSS: Soda Core + Elementary + dbt artifacts + Grafana.
  • 5 pilares (Gartner): data, pipelines, infra/cost, code, usage.
  • Alertas: Slack/Teams + PagerDuty para datasets P0.
  • Postmortems: todo incidente >1h con SLO impact tiene postmortem público.

4.2.4 Privacidad y compliance (semanas 26–32)

  • Inventario PII/sensitive: clasificación automática + manual.
  • Masking dinámico: Snowflake / Databricks UC / BigQuery row-level + column-level policies.
  • Retention policies: TTL por tipo de dato; integrar con Iceberg expire_snapshots.
  • Audit trail: Snowflake Access History, UC audit logs, AWS CloudTrail centralizados en SIEM.
  • GDPR/CCPA/AI Act: revisar pipelines con DPO; especial atención al EU AI Act 2 ago 2026 si hay sistemas de hiring.

4.3 Gate de salida Fase 2

  • [ ] 100% tablas Gold con owner, contrato y observabilidad activa.
  • [ ] <5 incidentes P1 en 30 días; MTTD <15min, MTTR <2h.
  • [ ] Catálogo con >70% adopción semanal por usuarios analíticos.
  • [ ] Audit pass de privacidad/compliance ejecutado por SecOps + DPO.

4.4 Inversión Fase 2

  • Observability tool: $30–100K/año
  • Catálogo enterprise (si aplica): $50–150K/año
  • Servicios privacidad: $20–60K
  • Total: $60–180K

5. Fase 3 — Streaming & Real-Time (semanas 32–44)

5.1 Objetivo

Habilitar latencias <30s end-to-end para 3 use cases prioritarios (fraude, personalización, alertas operativas). Migrar pipelines críticos a Kappa o híbrido.

5.2 Workstreams

5.2.1 Plataforma streaming (semanas 32–36)

  • Kafka managed: Confluent Cloud, AWS MSK, Redpanda. Diskless Kafka (WarpStream, AutoMQ) si optimización de costo > latencia ultra-baja.
  • Schema registry obligatorio: Avro o Protobuf; JSON solo en bordes.
  • Topic naming: <domain>.<entity>.<event>.v<n>.
  • Particiones: dimensionar por throughput esperado x2 headroom; reconsiderar trimestralmente.

5.2.2 Stream processing (semanas 34–40)

  • Flink managed: Confluent Cloud Flink, Decodable, Databricks DLT, Ververica Cloud.
  • Patrones aplicables:
  • Enrichment con lookups a Iceberg (vía Flink Iceberg sink + temporal joins).
  • Aggregations windowed (sliding/session) escritas a tablas Iceberg como "live aggregates".
  • CDC join (Debezium → Flink → Iceberg upsert).
  • State management: RocksDB local + checkpoints a S3.

5.2.3 Iceberg streaming-native (semanas 38–42)

  • Patrón: Flink writes Iceberg con commits cada 30–60s; lectores SQL ven datos frescos.
  • Compactación: job hourly de rewrite_data_files para evitar fragmentación.
  • Branching: usar Iceberg branches para validar antes de publicar a main.

5.2.4 Use cases entregables (semanas 36–44)

  • Caso 1 (fraude/anomalía): Kafka → Flink modelo scoring → alerta + tabla Gold real-time.
  • Caso 2 (personalización): clickstream → features online (Tecton/Feast online store) → API.
  • Caso 3 (operaciones): IoT/logs → Flink → dashboard real-time (Tinybird/Materialize/ClickHouse).

5.3 Gate de salida Fase 3

  • [ ] Latencia P95 end-to-end <30s para ≥3 pipelines.
  • [ ] Tasas de pérdida <0.01% / duplicación <0.1%.
  • [ ] Postmortems de ≥2 incidentes streaming ejecutados.

5.4 Inversión Fase 3

  • Kafka managed: $3–10K/mes
  • Flink managed: $5–15K/mes
  • Servicios + training: $30–80K
  • Total: $80–200K

6. Fase 4 — ML/AI Foundation (semanas 44–56)

6.1 Objetivo

Productivizar ≥2 modelos ML clásicos y 1 RAG enterprise con citación. Establecer MLOps + feature store + vector DB + evaluación continua.

6.2 Workstreams

6.2.1 MLOps con MLflow (semanas 44–48)

  • MLflow Tracking + Registry + Serving desplegado en Databricks / SageMaker / Vertex / self-hosted Kubernetes.
  • Convención de proyectos:
    ml/<model_name>/
      notebooks/     # exploración
      src/           # código entrenamiento
      serving/       # FastAPI / BentoML
      tests/
      mlflow.yaml    # config experiment
    
  • Promoción a producción: PR review + métricas mínimas + canary deployment (5%→25%→100%).
  • Monitoring: drift (Evidently, WhyLabs), latencia, error rate; alertas.

6.2.2 Feature store (semanas 46–52)

  • Selección:
  • <10 modelos en prod: Feast OSS con online store en Redis y offline en Iceberg.
  • ≥10 modelos o real-time crítico: Tecton o Databricks Feature Store / Vertex / SageMaker.
  • Convenciones: features definidos como código; entity → feature → freshness SLA.
  • Training/serving consistency: misma transformación batch y online (DSL declarativo).

6.2.3 Vector DB y embeddings (semanas 48–54)

  • Embedding model: OpenAI text-embedding-3-large, Cohere Embed v3, Voyage AI, BGE-M3 self-hosted.
  • Vector DB selection matrix: | Volumen vectores | Latencia objetivo | Recomendación | |---|---|---| | <50M | <100ms | pgvector + pgvectorscale (HNSW) | | 50M–1B | <50ms | Qdrant, Weaviate, Milvus self-hosted | | >1B o multi-tenant SaaS | <30ms | Pinecone, Zilliz Cloud |
  • Hybrid search: vector + BM25 + filtros metadata + reranker (bge-reranker-v2-m3).
  • Ingestion pipeline: Airflow DAG → embedder → upsert vector DB; mantener referencia a fuente Iceberg.

6.2.4 RAG productivo (semanas 50–56)

  • Arquitectura recomendada:
    query → query rewriter (LLM) → hybrid retrieval (vector + BM25 + filters)
      → reranker → context assembly → LLM with citation prompt → response + cites
    
  • Evaluación continua: RAGAS (faithfulness, context relevance, answer relevance) + golden set humano.
  • Guardrails: input filtering (prompt injection), output checking (hallucination flags), PII redaction.
  • Costos: monitor tokens/query, cache embeddings, considerar fine-tune embeddings dominio si >10K queries/día.

6.3 Gate de salida Fase 4

  • [ ] ≥2 modelos ML en producción con monitoring drift activo.
  • [ ] 1 RAG con citación, faithfulness >85% en golden set.
  • [ ] Tiempo medio de "idea → modelo en producción" <6 semanas.

6.4 Inversión Fase 4

  • LLM API: $2–10K/mes (variable)
  • Vector DB: $0.5–5K/mes
  • Feature store enterprise (si aplica): $40–100K/año
  • GPU compute para fine-tune: variable
  • Servicios + AI engineer dedicado: $40–100K
  • Total: $100–300K

7. Fase 5 — Agents & Self-Service (semanas 56–72)

7.1 Objetivo

Llegar a un estado donde ≥30% de las consultas analíticas son hechas por usuarios no técnicos via lenguaje natural, y al menos un agente autónomo opera flujos completos (e.g., monitoring + diagnóstico + remediación).

7.2 Workstreams

7.2.1 Text-to-SQL productivo (semanas 56–62)

  • Opciones: Snowflake Cortex Analyst, Databricks Genie, Vanna.ai self-hosted, custom con LangChain + DSPy.
  • Datos clave para precisión: capa semántica + descripciones ricas + ejemplos few-shot por dominio.
  • Evaluación: golden set de 200 queries con execution accuracy >75% antes de roll-out.
  • UX: integrar en BI (Hex, ThoughtSpot, Power BI Copilot) y Slack/Teams.

7.2.2 GraphRAG (semanas 60–66)

  • Caso de uso: dominios complejos (regulatorio, médico, financiero, legal).
  • Stack: Neo4j / Memgraph + extracción de entidades (LLM) + Cypher retrieval híbrido vector+grafo.
  • Métrica: correctness +30 puntos vs RAG plano (Amazon/Lettria benchmark).

7.2.3 Agentes IA (semanas 62–70)

  • MCP (Model Context Protocol): estandarizar acceso a herramientas (warehouse, catálogo, BI).
  • Patrones implementables:
  • Agente Data Quality: detecta anomalía → diagnostica root cause → abre Jira → notifica owner.
  • Agente Cost optimizer: detecta query expensive → propone refactor → crea PR dbt.
  • Agente Onboarding: usuario nuevo pregunta "¿cómo accedo a X?" → guía paso a paso con permisos.
  • Governance runtime enforcement: Gartner predice 50% de fallos de agentes por falta de gobernanza runtime → instrumentar logging, evals, rollback.

7.2.4 Mesh-on-Fabric (semanas 60–72)

  • Solo si la organización supera 1000 personas y ≥6 dominios maduros.
  • Productos de datos por dominio: cada uno con team, contrato, SLOs, catálogo entry, observabilidad.
  • Plataforma compartida: infraestructura, CI/CD, librerías de transformación, herramientas governance — operada por el equipo central.
  • Federated computational governance: políticas centrales + ownership descentralizado.

7.3 Gate de salida Fase 5

  • [ ] ≥30% queries analíticas via NLQ/text-to-SQL.
  • [ ] ≥1 agente autónomo cerrando incidentes data quality con human-in-loop.
  • [ ] CSAT analistas + business users ≥4.5/5.

7.4 Inversión Fase 5

  • LLM API + tooling: $10–30K/mes
  • GraphRAG infra (Neo4j Aura o self-hosted): $2–10K/mes
  • Agent framework + governance: $30–100K
  • Servicios + AI agent engineer: $60–200K
  • Total: $120–400K

8. Equipo y RACI

8.1 Roles mínimos viables

Rol FTE Responsabilidad principal
Data Platform Lead / Architect 1 Decisiones de arquitectura, roadmap, gates
Data Engineer Sr 2 Pipelines, lakehouse, ingesta, performance
Data Engineer Mid 1 Soporte, ingestas SaaS, automatización
Analytics Engineer 1 dbt, capa semántica, modelado, BI handoff
ML/AI Engineer 1 MLflow, feature store, RAG, vector DB
Data Governance Lead 0.5 Catálogo, contratos, compliance, lineage
FinOps / Platform SRE 0.5 Costos, observability infra, CI/CD
Product Manager — Data 0.5 Priorización, stakeholders, roadmap

8.2 RACI por fase

Tarea \ Rol Arch DE AE MLE Gov FinOps PM
Selección cloud / motor A C C C C R I
Modelado dbt y métricas I C A/R C C I C
Ingesta CDC/streaming I A/R I I C I I
MLOps / RAG C C I A/R C I C
Catálogo + contratos C C R C A/R I C
FinOps & cost control A C I I I R I
Roadmap & stakeholders C I I I I I A/R

9. Métricas de Éxito (Cuadro de Mando)

9.1 Operacionales (semanal)

  • Pipeline SLA hit rate: ≥95% (Fase 1 onward).
  • Freshness: P95 dataset Gold <SLA contractual.
  • Quality incidents: P1 ≤2/mes, P2 ≤8/mes (Fase 2 onward).
  • MTTD/MTTR: <15min / <2h para P0.

9.2 Adopción (mensual)

  • Usuarios activos catálogo: crecimiento MoM ≥10%.
  • Tablas Gold con contrato: 100% (Fase 2 onward).
  • NLQ queries / total: ≥30% (Fase 5).
  • Productos de datos en marketplace interno: ≥1/dominio.

9.3 Financieras (mensual)

  • Cost per TB processed: -10% YoY.
  • Cloud spend variance vs budget: ±10%.
  • % gasto compartido distribuible: ≥80% (vs 30% baseline industria).

9.4 Estratégicas (trimestral)

  • Time to insight: "pregunta de negocio → respuesta accionable" <72h para 80% queries.
  • AI/ML in production: ≥2 modelos Fase 4, ≥1 agente Fase 5.
  • Trust score (NPS interno de datos): ≥40 (Fase 2), ≥60 (Fase 5).

10. Riesgos Top-10 y Mitigaciones

# Riesgo Probabilidad Impacto Mitigación
1 Calidad de datos mata adopción IA Alta Crítico Fase 2 ANTES de Fase 4; contratos + observabilidad
2 Lock-in inadvertido en formato propietario Media Alto Iceberg desde día 1; políticas de export
3 Equipo sin skill GenAI/agentes Alta Alto Hiring AI Engineer en Fase 3; training continuo
4 Catálogo deviene "shelfware" Media Alto Gamificación, OKRs adopción, integración natural en workflow
5 Costos cloud descontrolados Alta Alto FinOps desde Fase 0; anomaly detection + budgets
6 Incidente privacidad (GDPR/CCPA) Baja Crítico DPO involucrado Fase 2; PETs; classification automática
7 Vendor consolidation (dbt+Fivetran, Databricks+Tabular) cambia roadmap Media Medio Stack abierto; planes de salida en cada contrato
8 EU AI Act enforcement 2026 Media Alto Inventory de sistemas IA; risk classification; compliance Q1 2027
9 Streaming complexity > beneficio Media Medio Solo migrar a streaming use cases con SLA <5min
10 Agentes IA descontrolados Media Alto Human-in-loop; governance runtime enforcement; evals continuas

11. Stack de Referencia (resumen de decisión)

11.1 Por tamaño

Empresa Storage Cómputo Catálogo BI ML/AI
Pequeña (<50) DuckDB/MotherDuck o BigQuery DuckDB, ClickHouse single-node Glue + LookML Metabase, Looker Studio OpenAI API + pgvector
Media (50–500) S3 + Iceberg Snowflake o Databricks Unity / Polaris + DataHub Power BI o Looker MLflow + Feast + Qdrant
Grande (500–5000) S3/GCS + Iceberg Databricks + Trino + Snowflake Atlan o Collibra Power BI + Tableau + ThoughtSpot MLflow + Tecton + Pinecone
Enterprise (>5000) Multi-cloud Iceberg Databricks + Snowflake + custom Atlan + Collibra Multi-tool federated SageMaker + Vertex + custom

11.2 Decisiones que mueven la aguja

  • Si >70% de carga es ML/AI: Databricks sobre Snowflake.
  • Si 100% GCP nativa: BigQuery con BigLake/Iceberg suele ganar TCO.
  • Si <100GB e intermitente: DuckDB/MotherDuck o ClickHouse single-node (10x más barato que DW SaaS).
  • Si EU/regulado: considerar OVHcloud, IONOS, Scaleway o Databricks/Snowflake on PrivateLink + BYOK.

12. Próximos Pasos Inmediatos (semana 1)

  1. Day 1: Workshop alineamiento con stakeholders (CTO, CDO, líderes dominio).
  2. Day 2-3: Decisión cloud + selección catálogo + selección herramienta observability shortlist.
  3. Day 4-5: Setup repositorio data-platform/, branching, primer PR.
  4. Week 2: Spike técnico Iceberg + Spark + Trino local (este proyecto incluye docker-compose.yml).
  5. Week 3: Primer pipeline Bronze → Silver → Gold con dataset real.
  6. Week 4: Dashboard productivo + retrospectiva + ajuste de plan.

Regla de oro: no compres herramienta para problema que no has experimentado. Empieza con OSS o tier gratuito; eleva cuando el dolor sea real y medible.


Anexos

Este plan se revisa trimestralmente. Cambios en hitos requieren PR al repositorio y aprobación de Data Architect + Product Manager.