Saltar a contenido

BIG=DATA — Plataforma de Datos + IA de Referencia 2026

Implementación de referencia de una plataforma Big Data + IA siguiendo el Estado del Arte 2025–2026: lakehouse abierto sobre Apache Iceberg, gobernanza AI-ready, observabilidad estilo Monte Carlo y capa semántica/RAG productiva.

Documentos clave

Documento Propósito
PLAN_IMPLEMENTACION.md Plan de 18 meses, 6 fases, gates, RACI, presupuesto
ARQUITECTURA.md Arquitectura de referencia, diagramas, decisiones técnicas
ROADMAP.md Línea temporal visual de los hitos
docs/ Guías técnicas por dominio (lakehouse, streaming, governance, ML/AI, observability, FinOps)

Estructura del proyecto

BIG=DATA/
├── README.md                      ← (este archivo)
├── PLAN_IMPLEMENTACION.md         ← plan maestro de 18 meses
├── ARQUITECTURA.md                ← decisiones y diagramas
├── ROADMAP.md                     ← timeline visual
├── docs/                          ← guías técnicas
├── infrastructure/                ← Docker Compose + Terraform + K8s
├── pipelines/
│   ├── ingestion/                 ← Kafka, Debezium, Airbyte configs
│   ├── streaming/                 ← Flink, Spark Structured Streaming
│   ├── transformation/dbt/        ← proyecto dbt medallion
│   └── orchestration/airflow/     ← DAGs ejemplo
├── lakehouse/                     ← DDLs Iceberg + catalog setup
├── ml-ai/
│   ├── rag/                       ← pipeline RAG hybrid + GraphRAG
│   ├── vector-db/                 ← pgvector + Qdrant setup
│   ├── feature-store/             ← Feast repo
│   └── mlflow/                    ← experiment tracking
├── governance/
│   ├── data-contracts/            ← YAML contracts versionados
│   ├── quality/                   ← Great Expectations + Soda
│   └── catalog/                   ← DataHub ingestion
├── observability/                 ← Monte Carlo / Soda dashboards
├── examples/                      ← demos end-to-end
└── scripts/                       ← setup/teardown

Quickstart (entorno local)

Requisitos: Docker 24+, Docker Compose v2, 16GB RAM mínimo, 32GB recomendado.

# 1. Clonar / abrir el proyecto
cd "/Users/mac_mini2/Documents/BIG=DATA"

# 2. Copiar variables de entorno
cp .env.example .env
# editar .env con credenciales si vas a usar APIs externas

# 3. Levantar stack completo (MinIO + Iceberg + Spark + Trino + Kafka + Flink + Postgres)
./scripts/setup.sh

# 4. Verificar
docker compose -f infrastructure/docker-compose.yml ps

# 5. Acceder a UIs
# - MinIO console:        http://localhost:9001  (admin / admin12345)
# - Spark UI:             http://localhost:8080
# - Trino:                http://localhost:8081
# - Kafka UI:             http://localhost:8082
# - Flink dashboard:      http://localhost:8083
# - Airflow:              http://localhost:8084  (admin / admin)
# - DataHub:              http://localhost:9002

# 6. Crear tablas Iceberg demo
docker compose exec spark spark-sql -f /workspace/lakehouse/iceberg_ddl.sql

# 7. Correr pipeline medallion demo
docker compose exec airflow airflow dags trigger medallion_pipeline

# 8. Teardown
./scripts/teardown.sh

Stack tecnológico (referencia 2026)

Capa Componente Por qué
Storage S3 / MinIO (local) + Apache Iceberg Estándar abierto ganador post-Tabular acquisition
Cómputo batch Spark 4.0 / Trino Spark para ETL, Trino para query federado
Streaming Kafka + Flink Estándar de facto; Confluent migró ksqlDB → Flink
Transformación dbt-trino / dbt-iceberg Industria converge en dbt; SQLMesh como alternativa
Orquestación Airflow 3 / Dagster Airflow #1 según CNCF/SlashData Q4 2025
Catálogo DataHub + Iceberg REST (Polaris / Unity) OSS robusto + estándar técnico
Calidad Soda Core + Elementary + Great Expectations Cobertura amplia, integra con dbt
Observability Monte Carlo (enterprise) o Soda OSS Líder Forrester Wave 2025
ML lifecycle MLflow + BentoML + Triton MLflow >30M descargas/mes
Feature store Feast (start) → Tecton (scale) Feast OSS, Tecton para >10 modelos prod
Vector DB pgvector (start) → Qdrant / Pinecone pgvectorscale 471 QPS @ 99% recall en 50M
Embedding OpenAI text-embedding-3-large / BGE-M3 Calidad vs costo / on-prem
BI Power BI / Looker / Hex + ThoughtSpot NLQ Power BI 22.45% market share (6sense 2026)
IaC Terraform + Helm Estándar multi-cloud
CI/CD GitHub Actions + dbt Cloud Integración nativa con stack

Cómo navegar este repo

  1. Si eres CTO/CDO: empieza por PLAN_IMPLEMENTACION.mdARQUITECTURA.mddocs/07-finops.md.
  2. Si eres Data Architect: ARQUITECTURA.mddocs/02-lakehouse-iceberg.mdinfrastructure/.
  3. Si eres Data Engineer: pipelines/lakehouse/iceberg_ddl.sqlpipelines/transformation/dbt/.
  4. Si eres ML/AI Engineer: ml-ai/docs/05-ml-ai-rag.mdexamples/agentic-rag/.
  5. Si eres Data Governance Lead: governance/docs/04-governance.md.

Decisiones explícitas

  • Iceberg sobre Delta/Hudi: ganador estructural post-2024. Delta sigue interoperando vía UniForm; Iceberg v3 (2025) cubre Deletion Vectors + Row Lineage + VARIANT.
  • MinIO sobre Localstack: rendimiento real S3-compatible; en producción usar S3/GCS/ADLS.
  • DataHub sobre Atlan/Collibra para OSS: mejor balance features/costo en self-hosted.
  • Soda + Elementary sobre Monte Carlo en OSS: suficiente para Fase 0–2; migrar a Monte Carlo si SLA crítico.
  • pgvector como vector DB inicial: suficiente para <50M vectores; migrar a Qdrant/Pinecone cuando crezca.
  • dbt sobre SQLMesh: ecosistema más maduro; reconsiderar tras fusión Fivetran-dbt si cambian roadmap.

Métricas que monitoreamos

  • Pipeline SLA hit rate ≥95%
  • MTTD/MTTR <15min / <2h para P0
  • Tablas Gold con contrato = 100%
  • Cloud cost variance vs budget ±10%
  • NLQ adoption rate ≥30% (Fase 5)

Contribuir

Branching: feature/* → PR a dev → tests CI → review por owner → merge → CI promueve a main.

Pre-commit: SQLFluff, dbt-build, Great Expectations smoke tests.

Licencia y caveats

Plantilla de referencia. Adapta a tu contexto: tamaño organización, sector regulado (HIPAA/GDPR/AI Act), presupuesto, skills disponibles. No copies decisiones sin entender por qué.

Las cifras de mercado y benchmarks citados son orientativos; consulta fuentes primarias (Gartner, IDC, vendor 10-Ks) antes de decidir.


Mantenido por: equipo Data Platform. Última actualización: 2026-05-20. Versión: 1.0.0