Checklist de Implementación¶

Lista de control end-to-end por fase. Marcar [x] al cumplir.

Fase 0 — Foundations (semanas 0–8)¶

Setup técnico¶

[ ] Cloud account configurada con SSO/IAM Identity Center
[ ] Terraform backend (S3 + DynamoDB lock) creado
[ ] Repositorio data-platform/ inicializado con branching strategy
[ ] CI/CD básico (GitHub Actions) corre lint + dbt parse en cada PR
[ ] Bucket S3 lakehouse-prod con encryption, versioning, lifecycle policies
[ ] Catálogo Iceberg REST corriendo (Glue / Polaris / Unity)
[ ] Spark/Trino cluster mínimo en producción
[ ] dbt-iceberg / dbt-trino con perfil prod conectado al catálogo

Data engineering¶

[ ] 1 fuente operacional integrada vía CDC o batch
[ ] Pipeline bronze → silver → gold para esa fuente
[ ] 1 tabla Gold con contrato YAML versionado
[ ] 1 dashboard productivo (Power BI/Looker/Tableau) consumiendo Gold
[ ] Refresh diario funcionando con SLA documentado

Calidad y observabilidad básica¶

[ ] dbt tests (not_null, unique, relationships) en silver/gold
[ ] Soda Core checks corriendo en CI
[ ] Alertas Slack para fallas de pipeline
[ ] dbt docs publicados

Governance inicial¶

[ ] Tagging policy definida (env, domain, owner, cost_center)
[ ] AWS Cost Anomaly Detection activo
[ ] Presupuesto mensual con alertas 70%/90%

Gate Fase 0: todos los items técnicos + dashboard productivo + cost ±10% del budget.

Fase 1 — Modern Data Stack (semanas 8–20)¶

Ingesta¶

[ ] Fivetran/Airbyte conectado a ≥3 fuentes SaaS
[ ] Debezium CDC en ≥1 base operacional crítica
[ ] Schema Registry obligatorio para todos los topics Kafka
[ ] Reverse ETL (Hightouch/Census) para activación en ≥1 herramienta operativa

Transformación¶

[ ] ≥5 productos Gold productivos
[ ] Modelado dimensional Kimball (o Data Vault si aplica)
[ ] Capa semántica con ≥20 métricas core
[ ] Documentación dbt completa (descripciones, tests, owners)

Orquestación¶

[ ] Airflow/Dagster con SLA <24h
[ ] DAGs idempotentes con retries y alertas
[ ] Iceberg branches o dbt clones para PRs

Gate Fase 1: ≥5 Gold productos con contrato + 95% pipelines pass first-try.

Fase 2 — Governance & Quality (semanas 20–32)¶

Catálogo¶

[ ] DataHub/Atlan en producción con ingestion automatizada
[ ] Owners asignados en 100% tablas Gold
[ ] Glosario de negocio con ≥50 términos
[ ] PII tagging automático + revisión manual

Contratos¶

[ ] 100% tablas Gold con contrato YAML versionado
[ ] CI bloquea breaking changes sin aprobación
[ ] Runtime validation (Soda/GE) en cada publish

Observabilidad¶

[ ] Monte Carlo / Soda Cloud / Acceldata desplegado
[ ] 5 pilares Gartner cubiertos
[ ] Alertas P0/P1 → PagerDuty
[ ] Postmortem template + cadencia mensual

Compliance¶

[ ] Inventario PII completo
[ ] Masking policies en Snowflake/UC/BigQuery
[ ] Retention policies por dato class
[ ] GDPR right-to-be-forgotten workflow probado
[ ] Audit centralizado en SIEM
[ ] Audit privacidad pasado por DPO

Gate Fase 2: <5 incidentes P1/30 días, MTTD <15min, audit pass.

Fase 3 — Streaming & Real-Time (semanas 32–44)¶

Plataforma¶

[ ] Kafka managed (Confluent/MSK/Redpanda) en prod
[ ] Schema Registry obligatorio
[ ] Flink managed con checkpointing a object storage
[ ] Iceberg streaming sink validado (commit cadence 30-60s)

Use cases¶

[ ] ≥3 pipelines real-time con latencia P95 <30s
[ ] Compaction job hourly automatizado
[ ] DLQ por cada stream pipeline
[ ] Monitoreo de lag y backpressure

Gate Fase 3: 3 use cases <30s, <0.01% data loss, <0.1% duplicación.

Fase 4 — ML/AI Foundation (semanas 44–56)¶

MLOps¶

[ ] MLflow Tracking + Registry desplegado
[ ] Model promotion workflow con canary deployment
[ ] Drift monitoring con Evidently/WhyLabs
[ ] Feature store (Feast/Tecton) con ≥3 feature views

Vector DB y RAG¶

[ ] Vector DB elegido + indexación pipeline
[ ] RAG hybrid retrieval (vector+BM25+rerank) productivo
[ ] Evaluación RAGAS contra golden set
[ ] Faithfulness >85% en queries productivas
[ ] Guardrails: prompt injection check, PII redaction

Modelos en producción¶

[ ] ≥2 modelos ML productivos con monitoring
[ ] 1 RAG con citación de fuentes
[ ] Tiempo idea → producción <6 semanas

Gate Fase 4: 2 modelos prod + 1 RAG con cites + faithfulness >85%.

Fase 5 — Agents & Self-Service (semanas 56–72)¶

Self-service¶

[ ] Text-to-SQL desplegado (Cortex Analyst / Genie / custom)
[ ] Execution accuracy >75% en golden set
[ ] ≥30% queries por usuarios no técnicos
[ ] NLQ integrado en BI + Slack

Agentes¶

[ ] ≥1 agente IA en producción con human-in-loop
[ ] MCP server expuesto para warehouse + catálogo
[ ] Governance runtime enforcement
[ ] Logging + evals continuos

Mesh-on-fabric (si aplica)¶

[ ] ≥3 dominios con productos de datos propios
[ ] Plataforma compartida operada por equipo central
[ ] Federated computational governance
[ ] CSAT analistas + business ≥4.5/5

Gate Fase 5: ≥30% NLQ adoption + 1 agente cerrando incidentes + CSAT ≥4.5.

Mantenimiento (continuo)¶

Diario¶

[ ] Revisar alertas P0/P1
[ ] Verificar SLA cumplido en datasets críticos
[ ] Revisar budget anomalies

Semanal¶

[ ] Postmortems pendientes cerrados
[ ] Top 10 queries más caros revisados
[ ] dbt run + test verde

Mensual¶

[ ] Showback por dominio
[ ] Revisión catálogo: owners y descripciones actualizados
[ ] Right-sizing de clusters/warehouses
[ ] Audit logs revisados por seguridad

Trimestral¶

[ ] Right-sizing de reservaciones cloud
[ ] Roadmap revisado con stakeholders
[ ] Vendor renewals
[ ] Compliance audit interno
[ ] Skills gap analysis y training plan