Checklist de Implementación¶
Lista de control end-to-end por fase. Marcar [x] al cumplir.
Fase 0 — Foundations (semanas 0–8)¶
Setup técnico¶
- [ ] Cloud account configurada con SSO/IAM Identity Center
- [ ] Terraform backend (S3 + DynamoDB lock) creado
- [ ] Repositorio
data-platform/inicializado con branching strategy - [ ] CI/CD básico (GitHub Actions) corre lint + dbt parse en cada PR
- [ ] Bucket S3
lakehouse-prodcon encryption, versioning, lifecycle policies - [ ] Catálogo Iceberg REST corriendo (Glue / Polaris / Unity)
- [ ] Spark/Trino cluster mínimo en producción
- [ ] dbt-iceberg / dbt-trino con perfil prod conectado al catálogo
Data engineering¶
- [ ] 1 fuente operacional integrada vía CDC o batch
- [ ] Pipeline bronze → silver → gold para esa fuente
- [ ] 1 tabla Gold con contrato YAML versionado
- [ ] 1 dashboard productivo (Power BI/Looker/Tableau) consumiendo Gold
- [ ] Refresh diario funcionando con SLA documentado
Calidad y observabilidad básica¶
- [ ] dbt tests (not_null, unique, relationships) en silver/gold
- [ ] Soda Core checks corriendo en CI
- [ ] Alertas Slack para fallas de pipeline
- [ ] dbt docs publicados
Governance inicial¶
- [ ] Tagging policy definida (env, domain, owner, cost_center)
- [ ] AWS Cost Anomaly Detection activo
- [ ] Presupuesto mensual con alertas 70%/90%
Gate Fase 0: todos los items técnicos + dashboard productivo + cost ±10% del budget.
Fase 1 — Modern Data Stack (semanas 8–20)¶
Ingesta¶
- [ ] Fivetran/Airbyte conectado a ≥3 fuentes SaaS
- [ ] Debezium CDC en ≥1 base operacional crítica
- [ ] Schema Registry obligatorio para todos los topics Kafka
- [ ] Reverse ETL (Hightouch/Census) para activación en ≥1 herramienta operativa
Transformación¶
- [ ] ≥5 productos Gold productivos
- [ ] Modelado dimensional Kimball (o Data Vault si aplica)
- [ ] Capa semántica con ≥20 métricas core
- [ ] Documentación dbt completa (descripciones, tests, owners)
Orquestación¶
- [ ] Airflow/Dagster con SLA <24h
- [ ] DAGs idempotentes con retries y alertas
- [ ] Iceberg branches o dbt clones para PRs
Gate Fase 1: ≥5 Gold productos con contrato + 95% pipelines pass first-try.
Fase 2 — Governance & Quality (semanas 20–32)¶
Catálogo¶
- [ ] DataHub/Atlan en producción con ingestion automatizada
- [ ] Owners asignados en 100% tablas Gold
- [ ] Glosario de negocio con ≥50 términos
- [ ] PII tagging automático + revisión manual
Contratos¶
- [ ] 100% tablas Gold con contrato YAML versionado
- [ ] CI bloquea breaking changes sin aprobación
- [ ] Runtime validation (Soda/GE) en cada publish
Observabilidad¶
- [ ] Monte Carlo / Soda Cloud / Acceldata desplegado
- [ ] 5 pilares Gartner cubiertos
- [ ] Alertas P0/P1 → PagerDuty
- [ ] Postmortem template + cadencia mensual
Compliance¶
- [ ] Inventario PII completo
- [ ] Masking policies en Snowflake/UC/BigQuery
- [ ] Retention policies por dato class
- [ ] GDPR right-to-be-forgotten workflow probado
- [ ] Audit centralizado en SIEM
- [ ] Audit privacidad pasado por DPO
Gate Fase 2: <5 incidentes P1/30 días, MTTD <15min, audit pass.
Fase 3 — Streaming & Real-Time (semanas 32–44)¶
Plataforma¶
- [ ] Kafka managed (Confluent/MSK/Redpanda) en prod
- [ ] Schema Registry obligatorio
- [ ] Flink managed con checkpointing a object storage
- [ ] Iceberg streaming sink validado (commit cadence 30-60s)
Use cases¶
- [ ] ≥3 pipelines real-time con latencia P95 <30s
- [ ] Compaction job hourly automatizado
- [ ] DLQ por cada stream pipeline
- [ ] Monitoreo de lag y backpressure
Gate Fase 3: 3 use cases <30s, <0.01% data loss, <0.1% duplicación.
Fase 4 — ML/AI Foundation (semanas 44–56)¶
MLOps¶
- [ ] MLflow Tracking + Registry desplegado
- [ ] Model promotion workflow con canary deployment
- [ ] Drift monitoring con Evidently/WhyLabs
- [ ] Feature store (Feast/Tecton) con ≥3 feature views
Vector DB y RAG¶
- [ ] Vector DB elegido + indexación pipeline
- [ ] RAG hybrid retrieval (vector+BM25+rerank) productivo
- [ ] Evaluación RAGAS contra golden set
- [ ] Faithfulness >85% en queries productivas
- [ ] Guardrails: prompt injection check, PII redaction
Modelos en producción¶
- [ ] ≥2 modelos ML productivos con monitoring
- [ ] 1 RAG con citación de fuentes
- [ ] Tiempo idea → producción <6 semanas
Gate Fase 4: 2 modelos prod + 1 RAG con cites + faithfulness >85%.
Fase 5 — Agents & Self-Service (semanas 56–72)¶
Self-service¶
- [ ] Text-to-SQL desplegado (Cortex Analyst / Genie / custom)
- [ ] Execution accuracy >75% en golden set
- [ ] ≥30% queries por usuarios no técnicos
- [ ] NLQ integrado en BI + Slack
Agentes¶
- [ ] ≥1 agente IA en producción con human-in-loop
- [ ] MCP server expuesto para warehouse + catálogo
- [ ] Governance runtime enforcement
- [ ] Logging + evals continuos
Mesh-on-fabric (si aplica)¶
- [ ] ≥3 dominios con productos de datos propios
- [ ] Plataforma compartida operada por equipo central
- [ ] Federated computational governance
- [ ] CSAT analistas + business ≥4.5/5
Gate Fase 5: ≥30% NLQ adoption + 1 agente cerrando incidentes + CSAT ≥4.5.
Mantenimiento (continuo)¶
Diario¶
- [ ] Revisar alertas P0/P1
- [ ] Verificar SLA cumplido en datasets críticos
- [ ] Revisar budget anomalies
Semanal¶
- [ ] Postmortems pendientes cerrados
- [ ] Top 10 queries más caros revisados
- [ ] dbt run + test verde
Mensual¶
- [ ] Showback por dominio
- [ ] Revisión catálogo: owners y descripciones actualizados
- [ ] Right-sizing de clusters/warehouses
- [ ] Audit logs revisados por seguridad
Trimestral¶
- [ ] Right-sizing de reservaciones cloud
- [ ] Roadmap revisado con stakeholders
- [ ] Vendor renewals
- [ ] Compliance audit interno
- [ ] Skills gap analysis y training plan