BIG=DATA — Plataforma de Datos + IA de Referencia 2026¶
Implementación de referencia de una plataforma Big Data + IA siguiendo el Estado del Arte 2025–2026: lakehouse abierto sobre Apache Iceberg, gobernanza AI-ready, observabilidad estilo Monte Carlo y capa semántica/RAG productiva.
Documentos clave¶
| Documento | Propósito |
|---|---|
| PLAN_IMPLEMENTACION.md | Plan de 18 meses, 6 fases, gates, RACI, presupuesto |
| ARQUITECTURA.md | Arquitectura de referencia, diagramas, decisiones técnicas |
| ROADMAP.md | Línea temporal visual de los hitos |
| docs/ | Guías técnicas por dominio (lakehouse, streaming, governance, ML/AI, observability, FinOps) |
Estructura del proyecto¶
BIG=DATA/
├── README.md ← (este archivo)
├── PLAN_IMPLEMENTACION.md ← plan maestro de 18 meses
├── ARQUITECTURA.md ← decisiones y diagramas
├── ROADMAP.md ← timeline visual
├── docs/ ← guías técnicas
├── infrastructure/ ← Docker Compose + Terraform + K8s
├── pipelines/
│ ├── ingestion/ ← Kafka, Debezium, Airbyte configs
│ ├── streaming/ ← Flink, Spark Structured Streaming
│ ├── transformation/dbt/ ← proyecto dbt medallion
│ └── orchestration/airflow/ ← DAGs ejemplo
├── lakehouse/ ← DDLs Iceberg + catalog setup
├── ml-ai/
│ ├── rag/ ← pipeline RAG hybrid + GraphRAG
│ ├── vector-db/ ← pgvector + Qdrant setup
│ ├── feature-store/ ← Feast repo
│ └── mlflow/ ← experiment tracking
├── governance/
│ ├── data-contracts/ ← YAML contracts versionados
│ ├── quality/ ← Great Expectations + Soda
│ └── catalog/ ← DataHub ingestion
├── observability/ ← Monte Carlo / Soda dashboards
├── examples/ ← demos end-to-end
└── scripts/ ← setup/teardown
Quickstart (entorno local)¶
Requisitos: Docker 24+, Docker Compose v2, 16GB RAM mínimo, 32GB recomendado.
# 1. Clonar / abrir el proyecto
cd "/Users/mac_mini2/Documents/BIG=DATA"
# 2. Copiar variables de entorno
cp .env.example .env
# editar .env con credenciales si vas a usar APIs externas
# 3. Levantar stack completo (MinIO + Iceberg + Spark + Trino + Kafka + Flink + Postgres)
./scripts/setup.sh
# 4. Verificar
docker compose -f infrastructure/docker-compose.yml ps
# 5. Acceder a UIs
# - MinIO console: http://localhost:9001 (admin / admin12345)
# - Spark UI: http://localhost:8080
# - Trino: http://localhost:8081
# - Kafka UI: http://localhost:8082
# - Flink dashboard: http://localhost:8083
# - Airflow: http://localhost:8084 (admin / admin)
# - DataHub: http://localhost:9002
# 6. Crear tablas Iceberg demo
docker compose exec spark spark-sql -f /workspace/lakehouse/iceberg_ddl.sql
# 7. Correr pipeline medallion demo
docker compose exec airflow airflow dags trigger medallion_pipeline
# 8. Teardown
./scripts/teardown.sh
Stack tecnológico (referencia 2026)¶
| Capa | Componente | Por qué |
|---|---|---|
| Storage | S3 / MinIO (local) + Apache Iceberg | Estándar abierto ganador post-Tabular acquisition |
| Cómputo batch | Spark 4.0 / Trino | Spark para ETL, Trino para query federado |
| Streaming | Kafka + Flink | Estándar de facto; Confluent migró ksqlDB → Flink |
| Transformación | dbt-trino / dbt-iceberg | Industria converge en dbt; SQLMesh como alternativa |
| Orquestación | Airflow 3 / Dagster | Airflow #1 según CNCF/SlashData Q4 2025 |
| Catálogo | DataHub + Iceberg REST (Polaris / Unity) | OSS robusto + estándar técnico |
| Calidad | Soda Core + Elementary + Great Expectations | Cobertura amplia, integra con dbt |
| Observability | Monte Carlo (enterprise) o Soda OSS | Líder Forrester Wave 2025 |
| ML lifecycle | MLflow + BentoML + Triton | MLflow >30M descargas/mes |
| Feature store | Feast (start) → Tecton (scale) | Feast OSS, Tecton para >10 modelos prod |
| Vector DB | pgvector (start) → Qdrant / Pinecone | pgvectorscale 471 QPS @ 99% recall en 50M |
| Embedding | OpenAI text-embedding-3-large / BGE-M3 | Calidad vs costo / on-prem |
| BI | Power BI / Looker / Hex + ThoughtSpot NLQ | Power BI 22.45% market share (6sense 2026) |
| IaC | Terraform + Helm | Estándar multi-cloud |
| CI/CD | GitHub Actions + dbt Cloud | Integración nativa con stack |
Cómo navegar este repo¶
- Si eres CTO/CDO: empieza por PLAN_IMPLEMENTACION.md → ARQUITECTURA.md → docs/07-finops.md.
- Si eres Data Architect: ARQUITECTURA.md → docs/02-lakehouse-iceberg.md →
infrastructure/. - Si eres Data Engineer:
pipelines/→lakehouse/iceberg_ddl.sql→pipelines/transformation/dbt/. - Si eres ML/AI Engineer:
ml-ai/→ docs/05-ml-ai-rag.md →examples/agentic-rag/. - Si eres Data Governance Lead:
governance/→ docs/04-governance.md.
Decisiones explícitas¶
- Iceberg sobre Delta/Hudi: ganador estructural post-2024. Delta sigue interoperando vía UniForm; Iceberg v3 (2025) cubre Deletion Vectors + Row Lineage + VARIANT.
- MinIO sobre Localstack: rendimiento real S3-compatible; en producción usar S3/GCS/ADLS.
- DataHub sobre Atlan/Collibra para OSS: mejor balance features/costo en self-hosted.
- Soda + Elementary sobre Monte Carlo en OSS: suficiente para Fase 0–2; migrar a Monte Carlo si SLA crítico.
- pgvector como vector DB inicial: suficiente para <50M vectores; migrar a Qdrant/Pinecone cuando crezca.
- dbt sobre SQLMesh: ecosistema más maduro; reconsiderar tras fusión Fivetran-dbt si cambian roadmap.
Métricas que monitoreamos¶
- Pipeline SLA hit rate ≥95%
- MTTD/MTTR <15min / <2h para P0
- Tablas Gold con contrato = 100%
- Cloud cost variance vs budget ±10%
- NLQ adoption rate ≥30% (Fase 5)
Contribuir¶
Branching: feature/* → PR a dev → tests CI → review por owner → merge → CI promueve a main.
Pre-commit: SQLFluff, dbt-build, Great Expectations smoke tests.
Licencia y caveats¶
Plantilla de referencia. Adapta a tu contexto: tamaño organización, sector regulado (HIPAA/GDPR/AI Act), presupuesto, skills disponibles. No copies decisiones sin entender por qué.
Las cifras de mercado y benchmarks citados son orientativos; consulta fuentes primarias (Gartner, IDC, vendor 10-Ks) antes de decidir.
Mantenido por: equipo Data Platform. Última actualización: 2026-05-20. Versión: 1.0.0