Guía 01 — Stack Tecnológico 2026¶
Selección por capa¶
Storage y formato¶
- Object storage: S3 (AWS), GCS (GCP), ADLS Gen2 (Azure), MinIO (local/on-prem). Cloudflare R2 si egress cero es prioridad.
- Formato archivo: Parquet con compresión Zstd (balance óptimo) o Snappy (CPU mínimo).
- Formato tabla: Apache Iceberg v3. Delta solo si Databricks lo requiere (con UniForm). Hudi si CDC streaming masivo con upserts continuos.
Cómputo¶
- ETL batch: Spark 4.0 (Databricks, EMR, Dataproc, self-hosted en K8s).
- Query interactivo: Trino (Starburst Galaxy si SaaS), Dremio.
- Warehouse SaaS: Snowflake, BigQuery, Databricks SQL, Redshift, Fabric.
- Embedded / single-node: DuckDB, MotherDuck, ClickHouse, Polars.
Streaming¶
- Bus: Kafka (Confluent Cloud, MSK), Redpanda, WarpStream (diskless).
- Procesamiento: Flink (Confluent, Decodable, Databricks DLT, Ververica).
- CDC: Debezium + Kafka Connect, AWS DMS, Estuary Flow, Striim.
Transformación y orquestación¶
- dbt: estándar 2026. Adapter
dbt-trinoodbt-icebergsegún motor. - SQLMesh: alternativa con virtual data environments.
- Airflow 3 / Dagster / Prefect / Metaflow: orquestación.
Catálogo y governance¶
- Técnico (Iceberg REST): Polaris (Snowflake/ASF), Unity Catalog (Databricks), Nessie (Dremio), Glue, Hive Metastore (legacy).
- Activo: Atlan, Collibra, Alation, Informatica EDC (enterprise); DataHub, OpenMetadata, Amundsen (OSS).
- Calidad: Great Expectations, Soda, dbt tests, Elementary, Deequ.
- Observabilidad: Monte Carlo, Acceldata, Bigeye, Sifflet, Anomalo, Soda Cloud.
- Contratos: Data Contract CLI, OpenMetadata DataContract spec, PayPal template.
ML/AI¶
- Lifecycle: MLflow (Tracking, Registry, Serving).
- Serving: BentoML, NVIDIA Triton, TensorFlow Serving.
- Feature store: Feast (OSS), Tecton, Hopsworks, Databricks Feature Store.
- Vector DB: pgvector + pgvectorscale (Postgres), Qdrant, Weaviate, Milvus/Zilliz, Pinecone, Chroma.
- LLM frameworks: LangChain, LlamaIndex, Haystack, DSPy, semantic-kernel.
- Evaluación RAG: RAGAS, MLflow Evaluation, Snorkel, Promptfoo, DeepEval.
- Agentes: MCP (Model Context Protocol), Llama Stack, Agent2Agent.
Análisis y BI¶
- Power BI (22.45% market share según 6sense 2026; Leader Gartner MQ 2025).
- Tableau (Salesforce).
- Looker / Looker Studio (Google).
- Hex, Mode, Deepnote, Observable (notebook BI).
- ThoughtSpot, Sigma, Cube.dev (NLQ y semantic).
- OSS: Apache Superset, Metabase, Lightdash.
Activación / reverse ETL¶
- Hightouch, Census, Polytomic.
- CDPs: Salesforce Data Cloud, Adobe RT-CDP, Segment, mParticle, Treasure Data.
Infra y plataforma¶
- IaC: Terraform, Pulumi.
- K8s: EKS, GKE, AKS; ArgoCD para GitOps; Helm.
- CI/CD: GitHub Actions, GitLab CI, CircleCI, Buildkite.
- Secret management: AWS Secrets Manager, GCP Secret Manager, HashiCorp Vault.
Cuadro de decisión rápida¶
| Necesidad | Recomendación 2026 |
|---|---|
| Lakehouse abierto multi-engine | Iceberg + Polaris/Unity |
| OLAP <100GB, costo bajo | DuckDB / MotherDuck |
| OLAP TB-scale, multi-tenant | ClickHouse Cloud o Snowflake |
| ML/AI heavy workload | Databricks |
| 100% GCP, cost-conscious | BigQuery + BigLake/Iceberg |
| Streaming <30s SLA | Kafka + Flink + Iceberg |
| RAG enterprise con citas | LangChain/DSPy + Qdrant + RAGAS |
| Catálogo OSS | DataHub |
| Catálogo enterprise managed | Atlan |
| Calidad OSS suficiente | Soda + Elementary |
| Calidad enterprise SLA | Monte Carlo |
Antipatrones de stack¶
- 3+ herramientas para misma capa. Consolida.
- Cambio de stack cada año. Cada migración cuesta 3-6 meses de focus.
- Tooling sin training. Compra herramienta + training, no solo herramienta.
- OSS sin equipo SRE. OSS no es gratis: requiere ops capacity.