📊 Data+AI 全球日报

2026-04-08 · 严格只包含过去24小时信息

🔥 今日最重要的3个变化

  1. 流数据与湖仓的架构边界正在消失,流即表、表即流成为可落地方案
  2. 数据平台应用层部署方式从手动上传转向 GitOps 全流程管控
  3. 跨平台 Iceberg 写入互操作逐步扩展,湖仓开放生态的实质性进展加速
总判断:流处理正经历从"独立基础设施"到"湖仓原生能力"的架构跃迁,这将重新定义数据团队构建实时管道的方式和成本结构。数据平台的应用层和治理层同步向 GitOps 和开放格式演进,平台锁定的成本正在系统性降低。
A

Top Signals

1. StreamNative 发布 Lakestream 架构与 Ursa for Kafka:每个 Kafka Topic 自动成为 Iceberg/Delta Lake 表

StreamNative(Apache Pulsar 创始团队创立)4 月 7 日发布 Lakestream 架构范式,并推出 Ursa for Kafka(UFK)进入 Limited Public Preview。UFK 是 Apache Kafka 4.2+ 的原生 fork(非兼容层),运行在对象存储上,每个 topic 同时是一个实时事件流和一个可查询的 Iceberg/Delta Lake 表。采用无主(leaderless)架构,消除了分区 leader 选举和副本再平衡,broker 作为无状态计算节点可像 Web 服务器一样弹性伸缩。内置联邦目录自动注册至 Databricks Unity Catalog、Snowflake Horizon Catalog 和 AWS S3 Tables。

为什么对数据平台重要:这是流数据与湖仓架构融合的标志性事件。传统模式下,从 Kafka 到湖仓需要 Kafka Connect + ETL 管道,延迟高、运维复杂。Lakestream 将互操作下推到存储和目录层,声称可降低 95% 的云流处理成本(消除跨 AZ 复制这一最大成本项)。如果性能指标经受住生产验证,这将直接冲击 Confluent/IBM、Amazon MSK、Redpanda 的市场定位。
B

Product & Tech

1. Databricks Apps 支持 Git 仓库部署正式 GA

Databricks 4 月 7 日宣布 Git-backed app deployments 正式 GA。用户可直接从 Git 仓库部署 Databricks Apps,支持配置 Git 引用、指定源代码路径,并可在工作区级别强制要求仅通过 Git 部署。

对数据平台的影响:这标志着 Databricks 的应用层从"上传部署"全面转向 GitOps 模式,与企业软件工程的 CI/CD 标准实践对齐。对于在 Databricks 上构建数据应用和 AI 应用的团队,版本控制、审计追溯和自动化部署流水线成为一等公民能力。

2. DataOps.live 4 月更新:SOLE 新增 Snowflake Hybrid Table 权限和 GENERATION 参数支持

DataOps.live 4 月 7 日发布 Orchestrators 5-latest 预发布更新。Snowflake Object Lifecycle Engine(SOLE)新增对 CREATE HYBRID TABLE 权限(Snowflake BCR 2026_02)、仓库 GENERATION 参数和文件格式 USE_LOGICAL_TYPE 参数的支持,以及安全修复。

对数据平台的影响:Snowflake Hybrid Table 权限的支持表明 Snowflake 的混合事务+分析(HTAP)能力正在被 DevOps 工具链跟进,GENERATION 参数则关联 Snowflake 新一代计算资源管理。生态工具的跟进速度反映了 Snowflake 新功能的采用热度。
C

观点与洞察

今日窗口内无符合准入标准的机构研究或关键人物观点。

D

投融资

今日窗口内无符合准入标准的投融资、财报或收购兼并事件。

E

Watchlist

降级Snowflake Apache Iceberg 表写支持 Databricks Unity Catalog on Azure 正式 GA

为什么值得继续看:Snowflake 4 月 6 日宣布 Apache Iceberg 表对 Databricks Unity Catalog on Azure 的写支持正式 GA。这意味着 Snowflake 用户可以直接写入由 Databricks Unity Catalog 管理的 Iceberg 表,跨平台数据互操作从"只读"进入"读写双向"阶段。降级原因:发布日期 4 月 6 日,早于今日窗口起点(4 月 7 日 08:00 CST)。

需要等待什么信号确认:实际使用中的写入性能和一致性表现、AWS 和 GCP 平台的同步支持时间表、Databricks 侧的官方响应。

跟踪StreamNative Lakestream 生态整合与性能验证

为什么值得继续看:Ursa for Kafka 声称 95% 成本降低和 5 GB/s 吞吐量,但目前仅在 Limited Public Preview 阶段(AWS/GCP),Azure 尚未支持。其 Universal Linking 功能支持从现有 Kafka 部署(Confluent、MSK、Redpanda、自建)持续复制至 UFK,迁移路径设计值得关注。

需要等待什么信号确认:生产级工作负载的第三方性能验证、Unity Catalog/Snowflake Horizon 目录集成的实际延迟、IBM/Confluent 整合后对流处理市场竞争格局的实质影响。