Saltar a contenido

Checklist de Implementación

Lista de control end-to-end por fase. Marcar [x] al cumplir.

Fase 0 — Foundations (semanas 0–8)

Setup técnico

  • [ ] Cloud account configurada con SSO/IAM Identity Center
  • [ ] Terraform backend (S3 + DynamoDB lock) creado
  • [ ] Repositorio data-platform/ inicializado con branching strategy
  • [ ] CI/CD básico (GitHub Actions) corre lint + dbt parse en cada PR
  • [ ] Bucket S3 lakehouse-prod con encryption, versioning, lifecycle policies
  • [ ] Catálogo Iceberg REST corriendo (Glue / Polaris / Unity)
  • [ ] Spark/Trino cluster mínimo en producción
  • [ ] dbt-iceberg / dbt-trino con perfil prod conectado al catálogo

Data engineering

  • [ ] 1 fuente operacional integrada vía CDC o batch
  • [ ] Pipeline bronze → silver → gold para esa fuente
  • [ ] 1 tabla Gold con contrato YAML versionado
  • [ ] 1 dashboard productivo (Power BI/Looker/Tableau) consumiendo Gold
  • [ ] Refresh diario funcionando con SLA documentado

Calidad y observabilidad básica

  • [ ] dbt tests (not_null, unique, relationships) en silver/gold
  • [ ] Soda Core checks corriendo en CI
  • [ ] Alertas Slack para fallas de pipeline
  • [ ] dbt docs publicados

Governance inicial

  • [ ] Tagging policy definida (env, domain, owner, cost_center)
  • [ ] AWS Cost Anomaly Detection activo
  • [ ] Presupuesto mensual con alertas 70%/90%

Gate Fase 0: todos los items técnicos + dashboard productivo + cost ±10% del budget.


Fase 1 — Modern Data Stack (semanas 8–20)

Ingesta

  • [ ] Fivetran/Airbyte conectado a ≥3 fuentes SaaS
  • [ ] Debezium CDC en ≥1 base operacional crítica
  • [ ] Schema Registry obligatorio para todos los topics Kafka
  • [ ] Reverse ETL (Hightouch/Census) para activación en ≥1 herramienta operativa

Transformación

  • [ ] ≥5 productos Gold productivos
  • [ ] Modelado dimensional Kimball (o Data Vault si aplica)
  • [ ] Capa semántica con ≥20 métricas core
  • [ ] Documentación dbt completa (descripciones, tests, owners)

Orquestación

  • [ ] Airflow/Dagster con SLA <24h
  • [ ] DAGs idempotentes con retries y alertas
  • [ ] Iceberg branches o dbt clones para PRs

Gate Fase 1: ≥5 Gold productos con contrato + 95% pipelines pass first-try.


Fase 2 — Governance & Quality (semanas 20–32)

  • [ ] DataHub/Atlan en producción con ingestion automatizada
  • [ ] Owners asignados en 100% tablas Gold
  • [ ] Glosario de negocio con ≥50 términos
  • [ ] PII tagging automático + revisión manual

Contratos

  • [ ] 100% tablas Gold con contrato YAML versionado
  • [ ] CI bloquea breaking changes sin aprobación
  • [ ] Runtime validation (Soda/GE) en cada publish

Observabilidad

  • [ ] Monte Carlo / Soda Cloud / Acceldata desplegado
  • [ ] 5 pilares Gartner cubiertos
  • [ ] Alertas P0/P1 → PagerDuty
  • [ ] Postmortem template + cadencia mensual

Compliance

  • [ ] Inventario PII completo
  • [ ] Masking policies en Snowflake/UC/BigQuery
  • [ ] Retention policies por dato class
  • [ ] GDPR right-to-be-forgotten workflow probado
  • [ ] Audit centralizado en SIEM
  • [ ] Audit privacidad pasado por DPO

Gate Fase 2: <5 incidentes P1/30 días, MTTD <15min, audit pass.


Fase 3 — Streaming & Real-Time (semanas 32–44)

Plataforma

  • [ ] Kafka managed (Confluent/MSK/Redpanda) en prod
  • [ ] Schema Registry obligatorio
  • [ ] Flink managed con checkpointing a object storage
  • [ ] Iceberg streaming sink validado (commit cadence 30-60s)

Use cases

  • [ ] ≥3 pipelines real-time con latencia P95 <30s
  • [ ] Compaction job hourly automatizado
  • [ ] DLQ por cada stream pipeline
  • [ ] Monitoreo de lag y backpressure

Gate Fase 3: 3 use cases <30s, <0.01% data loss, <0.1% duplicación.


Fase 4 — ML/AI Foundation (semanas 44–56)

MLOps

  • [ ] MLflow Tracking + Registry desplegado
  • [ ] Model promotion workflow con canary deployment
  • [ ] Drift monitoring con Evidently/WhyLabs
  • [ ] Feature store (Feast/Tecton) con ≥3 feature views

Vector DB y RAG

  • [ ] Vector DB elegido + indexación pipeline
  • [ ] RAG hybrid retrieval (vector+BM25+rerank) productivo
  • [ ] Evaluación RAGAS contra golden set
  • [ ] Faithfulness >85% en queries productivas
  • [ ] Guardrails: prompt injection check, PII redaction

Modelos en producción

  • [ ] ≥2 modelos ML productivos con monitoring
  • [ ] 1 RAG con citación de fuentes
  • [ ] Tiempo idea → producción <6 semanas

Gate Fase 4: 2 modelos prod + 1 RAG con cites + faithfulness >85%.


Fase 5 — Agents & Self-Service (semanas 56–72)

Self-service

  • [ ] Text-to-SQL desplegado (Cortex Analyst / Genie / custom)
  • [ ] Execution accuracy >75% en golden set
  • [ ] ≥30% queries por usuarios no técnicos
  • [ ] NLQ integrado en BI + Slack

Agentes

  • [ ] ≥1 agente IA en producción con human-in-loop
  • [ ] MCP server expuesto para warehouse + catálogo
  • [ ] Governance runtime enforcement
  • [ ] Logging + evals continuos

Mesh-on-fabric (si aplica)

  • [ ] ≥3 dominios con productos de datos propios
  • [ ] Plataforma compartida operada por equipo central
  • [ ] Federated computational governance
  • [ ] CSAT analistas + business ≥4.5/5

Gate Fase 5: ≥30% NLQ adoption + 1 agente cerrando incidentes + CSAT ≥4.5.


Mantenimiento (continuo)

Diario

  • [ ] Revisar alertas P0/P1
  • [ ] Verificar SLA cumplido en datasets críticos
  • [ ] Revisar budget anomalies

Semanal

  • [ ] Postmortems pendientes cerrados
  • [ ] Top 10 queries más caros revisados
  • [ ] dbt run + test verde

Mensual

  • [ ] Showback por dominio
  • [ ] Revisión catálogo: owners y descripciones actualizados
  • [ ] Right-sizing de clusters/warehouses
  • [ ] Audit logs revisados por seguridad

Trimestral

  • [ ] Right-sizing de reservaciones cloud
  • [ ] Roadmap revisado con stakeholders
  • [ ] Vendor renewals
  • [ ] Compliance audit interno
  • [ ] Skills gap analysis y training plan