Saltar a contenido

Guía 01 — Stack Tecnológico 2026

Selección por capa

Storage y formato

  • Object storage: S3 (AWS), GCS (GCP), ADLS Gen2 (Azure), MinIO (local/on-prem). Cloudflare R2 si egress cero es prioridad.
  • Formato archivo: Parquet con compresión Zstd (balance óptimo) o Snappy (CPU mínimo).
  • Formato tabla: Apache Iceberg v3. Delta solo si Databricks lo requiere (con UniForm). Hudi si CDC streaming masivo con upserts continuos.

Cómputo

  • ETL batch: Spark 4.0 (Databricks, EMR, Dataproc, self-hosted en K8s).
  • Query interactivo: Trino (Starburst Galaxy si SaaS), Dremio.
  • Warehouse SaaS: Snowflake, BigQuery, Databricks SQL, Redshift, Fabric.
  • Embedded / single-node: DuckDB, MotherDuck, ClickHouse, Polars.

Streaming

  • Bus: Kafka (Confluent Cloud, MSK), Redpanda, WarpStream (diskless).
  • Procesamiento: Flink (Confluent, Decodable, Databricks DLT, Ververica).
  • CDC: Debezium + Kafka Connect, AWS DMS, Estuary Flow, Striim.

Transformación y orquestación

  • dbt: estándar 2026. Adapter dbt-trino o dbt-iceberg según motor.
  • SQLMesh: alternativa con virtual data environments.
  • Airflow 3 / Dagster / Prefect / Metaflow: orquestación.

Catálogo y governance

  • Técnico (Iceberg REST): Polaris (Snowflake/ASF), Unity Catalog (Databricks), Nessie (Dremio), Glue, Hive Metastore (legacy).
  • Activo: Atlan, Collibra, Alation, Informatica EDC (enterprise); DataHub, OpenMetadata, Amundsen (OSS).
  • Calidad: Great Expectations, Soda, dbt tests, Elementary, Deequ.
  • Observabilidad: Monte Carlo, Acceldata, Bigeye, Sifflet, Anomalo, Soda Cloud.
  • Contratos: Data Contract CLI, OpenMetadata DataContract spec, PayPal template.

ML/AI

  • Lifecycle: MLflow (Tracking, Registry, Serving).
  • Serving: BentoML, NVIDIA Triton, TensorFlow Serving.
  • Feature store: Feast (OSS), Tecton, Hopsworks, Databricks Feature Store.
  • Vector DB: pgvector + pgvectorscale (Postgres), Qdrant, Weaviate, Milvus/Zilliz, Pinecone, Chroma.
  • LLM frameworks: LangChain, LlamaIndex, Haystack, DSPy, semantic-kernel.
  • Evaluación RAG: RAGAS, MLflow Evaluation, Snorkel, Promptfoo, DeepEval.
  • Agentes: MCP (Model Context Protocol), Llama Stack, Agent2Agent.

Análisis y BI

  • Power BI (22.45% market share según 6sense 2026; Leader Gartner MQ 2025).
  • Tableau (Salesforce).
  • Looker / Looker Studio (Google).
  • Hex, Mode, Deepnote, Observable (notebook BI).
  • ThoughtSpot, Sigma, Cube.dev (NLQ y semantic).
  • OSS: Apache Superset, Metabase, Lightdash.

Activación / reverse ETL

  • Hightouch, Census, Polytomic.
  • CDPs: Salesforce Data Cloud, Adobe RT-CDP, Segment, mParticle, Treasure Data.

Infra y plataforma

  • IaC: Terraform, Pulumi.
  • K8s: EKS, GKE, AKS; ArgoCD para GitOps; Helm.
  • CI/CD: GitHub Actions, GitLab CI, CircleCI, Buildkite.
  • Secret management: AWS Secrets Manager, GCP Secret Manager, HashiCorp Vault.

Cuadro de decisión rápida

Necesidad Recomendación 2026
Lakehouse abierto multi-engine Iceberg + Polaris/Unity
OLAP <100GB, costo bajo DuckDB / MotherDuck
OLAP TB-scale, multi-tenant ClickHouse Cloud o Snowflake
ML/AI heavy workload Databricks
100% GCP, cost-conscious BigQuery + BigLake/Iceberg
Streaming <30s SLA Kafka + Flink + Iceberg
RAG enterprise con citas LangChain/DSPy + Qdrant + RAGAS
Catálogo OSS DataHub
Catálogo enterprise managed Atlan
Calidad OSS suficiente Soda + Elementary
Calidad enterprise SLA Monte Carlo

Antipatrones de stack

  • 3+ herramientas para misma capa. Consolida.
  • Cambio de stack cada año. Cada migración cuesta 3-6 meses de focus.
  • Tooling sin training. Compra herramienta + training, no solo herramienta.
  • OSS sin equipo SRE. OSS no es gratis: requiere ops capacity.