📊 Data+AI 全球日报

2026-03-20 · 严格只包含过去24小时信息

🔥 今日最重要的3个变化

  1. 流批一体架构的最后短板被补上,实时处理不再需要独立引擎
  2. GPU 训练正在从基础设施工程变成按需调用的平台服务
  3. 第二梯队平台密集补课,数据平台功能差距在快速收窄
总判断:数据平台竞争正式进入"谁能让用户最快从数据到 AI 产出"的阶段。流处理和训练基础设施的产品化是今天最明确的信号,头部玩家在拉开身位的同时,第二梯队也在密集追赶,窗口期在收窄。
A

Top Signals

1. Databricks Real-Time Mode 正式 GA:Spark Structured Streaming 进入亚毫秒时代

来源:Databricks 官方博客(2026年3月19日)

Databricks 宣布 Real-Time Mode(RTM)在 Spark Structured Streaming 中正式 GA,将端到端延迟从传统的秒级/分钟级降至毫秒级。RTM 通过三大架构创新实现:(1)连续数据流 — 数据到达即处理,不再按批次离散化;(2)管道调度 — 各阶段并行执行不阻塞;(3)流式 Shuffle — 任务间直接传递数据,绕过传统磁盘 Shuffle 延迟。内部基准测试显示 RTM 比 Apache Flink 快最高 92%。

GA 版本新增:OSS 支持(RTM 无状态转换已进入开源 Apache Spark 4.1)、Standard Access Mode 支持、异步状态检查点和初始状态加载。Coinbase 实现端到端延迟降低 80%+(P99 亚 100ms),MakeMyTrip 实现亚 50ms P50 延迟并带来 7% CTR 提升。

为什么对数据平台重要:这是 Spark 流处理能力的里程碑式升级。RTM GA 意味着企业可以用同一套 Spark API 覆盖批处理和实时流处理,真正实现流批一体。RTM 进入开源 Spark 4.1 更意味着这不是 Databricks 的私有功能,而是整个 Spark 生态的能力跃升。在 IBM 刚完成 Confluent 收购、强化 Kafka 流处理定位的背景下,Databricks 用 Spark 原生实时能力回应,数据平台的流处理竞争进入新阶段。

2. Databricks 发布 AI Runtime 公测:Serverless NVIDIA GPU 训练即开即用

来源:Databricks 官方博客(2026年3月19日)

Databricks 宣布 AI Runtime(AIR)进入公测,支持在 Notebook 中即时获取 NVIDIA A10 和 H100 GPU 进行分布式训练和微调,无需搭建集群或管理基础设施。核心特性:按需 Serverless GPU、预装 PyTorch/CUDA 的优化分布式训练、Lakeflow 生产级编排、Unity Catalog 统一治理。

当前公测支持单节点 8×H100,多节点支持处于私测阶段。Rivian、FactSet、YipitData 等客户已在 Beta 阶段使用。

为什么对数据平台重要:AI Runtime 解决了数据平台用户在训练 AI 模型时面临的最大摩擦点 — 基础设施管理。将 GPU 训练封装为 Serverless 服务,意味着数据工程师和数据科学家可以在同一个 Lakehouse 平台中完成从数据准备到模型训练的全流程。结合 Unity Catalog 的治理能力,这进一步巩固了 Databricks 作为"数据+AI 一体化平台"的定位。

3. Microsoft Fabric 3月功能大更新:FabCon 2026 期间密集释放平台能力

来源:Microsoft Fabric Blog(2026年3月19日);Power BI Blog(2026年3月15日)

微软在 FabCon 2026 期间发布 Fabric 3月功能汇总更新,涵盖平台各产品线的数十项新功能和改进。配合大会 300+ 场 Session 和 Workshop 的展示,Fabric 从 Keynote 公告(Database Hub、Fabric IQ、Runtime 2.0)延伸到全面的功能落地。FabCon 26 是 Microsoft Fabric 有史以来规模最大的社区会议。

为什么对数据平台重要:FabCon 2026 标志着 Microsoft Fabric 从"产品发布期"进入"平台成熟期"。3月功能更新的密集程度表明 Fabric 正在快速填充功能矩阵,缩小与 Databricks 和 Snowflake 在特定场景下的差距。对于已在 Azure 生态中的企业数据团队,Fabric 正成为一个越来越难以忽视的统一平台选项。
B

Product & Tech

4. Databricks AI Runtime 技术架构:RDMA + Unity Catalog + Lakeflow 编排

来源:Databricks 官方博客(2026年3月19日)

AI Runtime 的技术架构包含多项数据平台相关能力:(1)RDMA 优化数据加载 — 分布式训练时直接从 Lakehouse 存储高速读取训练数据;(2)Unity Catalog 治理 — 训练数据、模型和实验全部通过 Unity Catalog 管理权限和血缘;(3)MLflow 可观测性 — GPU 利用率和实验跟踪统一到 MLflow;(4)Genie Code 集成 — AI 辅助编写和调试训练代码。

对数据平台的影响:RDMA 数据加载意味着 Lakehouse 存储层可以直接为 GPU 训练提供高带宽数据供给,消除了传统方案中数据从湖仓拷贝到训练集群的额外环节。Unity Catalog 的治理能力确保训练数据与分析数据共享同一套权限体系,这对数据合规要求严格的企业(金融、医疗)尤为关键。

5. Databricks RTM GA 新增开源支持:Real-Time Mode 进入 Apache Spark 4.1

来源:Databricks 官方博客(2026年3月19日)

RTM GA 版本的一个关键更新是 Real-Time Mode 对无状态转换的支持已贡献回开源 Apache Spark 4.1。这意味着非 Databricks 用户也可以在原生 Spark 4.1 中使用 RTM 的连续处理模式。GA 版本还增加了 Standard Access Mode 支持、异步状态检查点(显著降低有状态流的延迟)、以及从 Delta 表加载初始状态的能力。

对数据平台的影响:RTM 核心能力回馈开源是一个重要信号 — Databricks 选择让 Spark 社区而非仅 Databricks 用户受益。这强化了 Spark 作为统一数据处理引擎的生态地位,同时也可能影响 Flink 在实时流处理场景中的市场份额。
C

Views & Research

6. SoftwareReviews(Info-Tech):IBM 收购 Confluent 对数据平台技术选型的结构性影响

来源:SoftwareReviews(Igor Ikonnikov、Shashi Bellamkonda,2026年3月19日)

SoftwareReviews 在 IBM 3/17 完成收购后发布首份深度技术影响分析。核心论点:(1)IBM 将沿用 Red Hat 模式 — 保持 Kafka 开源以最大化采纳,通过企业级"包装层"(治理、安全、运维控制)变现;(2)竞争格局未根本改变 — AWS MSK、Azure Event Hubs、Google Pub/Sub 和自建 Kafka 仍是有效替代;(3)风险提示:IBM 在 Confluent 已成为关键依赖的客户中议价能力将增强;(4)建议现有客户在续约前要求 IBM 明确定价路线图,避免签订多年期合同。

映射到数据平台的判断:如果 IBM 确实保持 Kafka 开源+企业层收费的策略,那么 Kafka 的开源生态不会受损,但 Confluent Cloud 的定价和捆绑策略可能发生变化。对数据平台技术选型团队,短期内应保持现有合同不动,但需在下次续约前建立竞争性替代评估的技术储备。
D

Capital & Corporate

7. 收购兼并 IBM 完成 Confluent 110 亿美元收购后的市场后续反应

来源:CRNFinancial Content(2026年3月19日后续报道)

核心数据:企业价值约 110 亿美元,每股 31 美元现金。Confluent 拥有超 6,500 家企业客户(40% 财富 500 强)。Day-1 整合覆盖 watsonx.data、IBM MQ、IBM webMethods 和 IBM Z。

IBM 于 3/17 正式完成收购(已在 3/18 日报详细覆盖),3/19 市场进入消化和分析阶段。CRN 指出该收购使 IBM 获得了 AI 就绪的实时数据处理平台。市场关注焦点转向:客户关系整合、Confluent Cloud 定价策略和 Apache Kafka 开源社区独立性。

对数据平台的影响:110 亿美元收购完成后的市场反应确认了行业共识:实时数据流已从"可选中间件"升级为"AI 基础设施必选项"。这是继 IBM 收购 Red Hat(340 亿美元)和 HashiCorp 后在企业基础设施领域的又一次重大押注,数据平台行业整合趋势仍在加速。
E

Watchlist

8. 【跟踪】Databricks RTM GA 对 Apache Flink 市场份额的潜在影响

来源:Databricks 官方博客(2026年3月19日)

为什么值得继续看:Databricks 声称 RTM 比 Flink 快 92% 并已贡献回开源 Spark 4.1,如果这一性能优势在更多真实场景中得到验证,可能改变实时流处理的技术选型格局。目前 Flink 在流处理领域仍拥有最成熟的有状态处理和事件时间语义能力。

需要等待什么信号:(1)更多非 Databricks 用户在开源 Spark 4.1 上的 RTM 基准测试;(2)有状态流处理场景的延迟表现是否同样优于 Flink;(3)Confluent/IBM 和 Flink 社区的竞争回应。

9. 【跟踪】FabCon 2026 持续进行中:Session 级技术细节待消化

来源:FabCon 官网(2026年3月16-20日)

为什么值得继续看:FabCon 2026 的 300+ 场 Session 中大量技术细节将在后续几天陆续披露。Keynote 级公告已在 3/19 日报覆盖,Session 级深度技术内容可能包含对数据平台选型有实际指导意义的信息。

需要等待什么信号:(1)Database Hub 公测接入方式和支持的数据库引擎清单;(2)Fabric IQ MCP 服务器的 API 文档和第三方集成案例;(3)Runtime 2.0(Spark 4.x)的性能基准对比数据。