BIG=DATA — Plataforma de Datos + IA de Referencia 2026¶

Implementación de referencia de una plataforma Big Data + IA siguiendo el Estado del Arte 2025–2026: lakehouse abierto sobre Apache Iceberg, gobernanza AI-ready, observabilidad estilo Monte Carlo y capa semántica/RAG productiva.

Documentos clave¶

Documento	Propósito
PLAN_IMPLEMENTACION.md	Plan de 18 meses, 6 fases, gates, RACI, presupuesto
ARQUITECTURA.md	Arquitectura de referencia, diagramas, decisiones técnicas
ROADMAP.md	Línea temporal visual de los hitos
docs/	Guías técnicas por dominio (lakehouse, streaming, governance, ML/AI, observability, FinOps)

Estructura del proyecto¶

BIG=DATA/
├── README.md                      ← (este archivo)
├── PLAN_IMPLEMENTACION.md         ← plan maestro de 18 meses
├── ARQUITECTURA.md                ← decisiones y diagramas
├── ROADMAP.md                     ← timeline visual
├── docs/                          ← guías técnicas
├── infrastructure/                ← Docker Compose + Terraform + K8s
├── pipelines/
│   ├── ingestion/                 ← Kafka, Debezium, Airbyte configs
│   ├── streaming/                 ← Flink, Spark Structured Streaming
│   ├── transformation/dbt/        ← proyecto dbt medallion
│   └── orchestration/airflow/     ← DAGs ejemplo
├── lakehouse/                     ← DDLs Iceberg + catalog setup
├── ml-ai/
│   ├── rag/                       ← pipeline RAG hybrid + GraphRAG
│   ├── vector-db/                 ← pgvector + Qdrant setup
│   ├── feature-store/             ← Feast repo
│   └── mlflow/                    ← experiment tracking
├── governance/
│   ├── data-contracts/            ← YAML contracts versionados
│   ├── quality/                   ← Great Expectations + Soda
│   └── catalog/                   ← DataHub ingestion
├── observability/                 ← Monte Carlo / Soda dashboards
├── examples/                      ← demos end-to-end
└── scripts/                       ← setup/teardown

Quickstart (entorno local)¶

Requisitos: Docker 24+, Docker Compose v2, 16GB RAM mínimo, 32GB recomendado.

# 1. Clonar / abrir el proyecto
cd "/Users/mac_mini2/Documents/BIG=DATA"

# 2. Copiar variables de entorno
cp .env.example .env
# editar .env con credenciales si vas a usar APIs externas

# 3. Levantar stack completo (MinIO + Iceberg + Spark + Trino + Kafka + Flink + Postgres)
./scripts/setup.sh

# 4. Verificar
docker compose -f infrastructure/docker-compose.yml ps

# 5. Acceder a UIs
# - MinIO console:        http://localhost:9001  (admin / admin12345)
# - Spark UI:             http://localhost:8080
# - Trino:                http://localhost:8081
# - Kafka UI:             http://localhost:8082
# - Flink dashboard:      http://localhost:8083
# - Airflow:              http://localhost:8084  (admin / admin)
# - DataHub:              http://localhost:9002

# 6. Crear tablas Iceberg demo
docker compose exec spark spark-sql -f /workspace/lakehouse/iceberg_ddl.sql

# 7. Correr pipeline medallion demo
docker compose exec airflow airflow dags trigger medallion_pipeline

# 8. Teardown
./scripts/teardown.sh

Stack tecnológico (referencia 2026)¶

Capa	Componente	Por qué
Storage	S3 / MinIO (local) + Apache Iceberg	Estándar abierto ganador post-Tabular acquisition
Cómputo batch	Spark 4.0 / Trino	Spark para ETL, Trino para query federado
Streaming	Kafka + Flink	Estándar de facto; Confluent migró ksqlDB → Flink
Transformación	dbt-trino / dbt-iceberg	Industria converge en dbt; SQLMesh como alternativa
Orquestación	Airflow 3 / Dagster	Airflow #1 según CNCF/SlashData Q4 2025
Catálogo	DataHub + Iceberg REST (Polaris / Unity)	OSS robusto + estándar técnico
Calidad	Soda Core + Elementary + Great Expectations	Cobertura amplia, integra con dbt
Observability	Monte Carlo (enterprise) o Soda OSS	Líder Forrester Wave 2025
ML lifecycle	MLflow + BentoML + Triton	MLflow >30M descargas/mes
Feature store	Feast (start) → Tecton (scale)	Feast OSS, Tecton para >10 modelos prod
Vector DB	pgvector (start) → Qdrant / Pinecone	pgvectorscale 471 QPS @ 99% recall en 50M
Embedding	OpenAI text-embedding-3-large / BGE-M3	Calidad vs costo / on-prem
BI	Power BI / Looker / Hex + ThoughtSpot NLQ	Power BI 22.45% market share (6sense 2026)
IaC	Terraform + Helm	Estándar multi-cloud
CI/CD	GitHub Actions + dbt Cloud	Integración nativa con stack

Cómo navegar este repo¶

Si eres CTO/CDO: empieza por PLAN_IMPLEMENTACION.md → ARQUITECTURA.md → docs/07-finops.md.
Si eres Data Architect: ARQUITECTURA.md → docs/02-lakehouse-iceberg.md → infrastructure/.
Si eres Data Engineer: pipelines/ → lakehouse/iceberg_ddl.sql → pipelines/transformation/dbt/.
Si eres ML/AI Engineer: ml-ai/ → docs/05-ml-ai-rag.md → examples/agentic-rag/.
Si eres Data Governance Lead: governance/ → docs/04-governance.md.

Decisiones explícitas¶

Iceberg sobre Delta/Hudi: ganador estructural post-2024. Delta sigue interoperando vía UniForm; Iceberg v3 (2025) cubre Deletion Vectors + Row Lineage + VARIANT.
MinIO sobre Localstack: rendimiento real S3-compatible; en producción usar S3/GCS/ADLS.
DataHub sobre Atlan/Collibra para OSS: mejor balance features/costo en self-hosted.
Soda + Elementary sobre Monte Carlo en OSS: suficiente para Fase 0–2; migrar a Monte Carlo si SLA crítico.
pgvector como vector DB inicial: suficiente para <50M vectores; migrar a Qdrant/Pinecone cuando crezca.
dbt sobre SQLMesh: ecosistema más maduro; reconsiderar tras fusión Fivetran-dbt si cambian roadmap.

Métricas que monitoreamos¶

Pipeline SLA hit rate ≥95%
MTTD/MTTR <15min / <2h para P0
Tablas Gold con contrato = 100%
Cloud cost variance vs budget ±10%
NLQ adoption rate ≥30% (Fase 5)

Contribuir¶

Branching: feature/* → PR a dev → tests CI → review por owner → merge → CI promueve a main.

Pre-commit: SQLFluff, dbt-build, Great Expectations smoke tests.

Licencia y caveats¶

Plantilla de referencia. Adapta a tu contexto: tamaño organización, sector regulado (HIPAA/GDPR/AI Act), presupuesto, skills disponibles. No copies decisiones sin entender por qué.

Las cifras de mercado y benchmarks citados son orientativos; consulta fuentes primarias (Gartner, IDC, vendor 10-Ks) antes de decidir.

Mantenido por: equipo Data Platform. Última actualización: 2026-05-20. Versión: 1.0.0