CASE STUDY

MaxQ 引擎

加速 AI 时代的数据仓库

背景

在人工智能快速发展的背景下，传统数据仓库正成为显著的瓶颈。数据工程师和 AI 研究人员发现自己将 70% 的时间花在基础设施维护上，而不是模型开发上。该项目涉及一个由 12 名工程师和数据科学家组成的跨职能团队，旨在打破金融科技和医疗保健行业的现状。

核心挑战在于：我们如何才能大幅减少 AI 驱动应用的“洞察时间”，同时保持企业数据的严格合规性和可扩展性要求？

将数据管道设置时间减少 90%。

为 LLM 工作负载启用原生向量搜索支持。

确保不同项目之间组件的 100% 可重用性。

在 PB 级规模下保持亚秒级查询延迟。

我们采用了混合方法，包括：

对 50 多名高级数据工程师进行定性访谈。

对现有解决方案（Snowflake, Databricks）进行定量性能基准测试。

使用 Rust 进行核心引擎的迭代原型设计。

开发历程历时 18 个月。我们从单体架构开始，但很快转向了基于“基因组”的模块化设计。每个数据转换都被视为一个基因，能够排序成独特的管道。这需要从头开始构建自定义的有向无环图（DAG）调度程序。

应用“数据网格”原则，我们将数据视为产品。“基因组”可视化代表了数据管道的不可变定义。通过将计算与存储解耦并引入语义元数据层，我们实现了一定程度的抽象，允许“自愈”管道。

数据基因组

设置时间减少

查询性能

入职时间

新架构的性能明显优于遗留系统。我们发现，基于元数据的编排消除了 ETL 管道中常见的“脆弱性”。

速度规模AI矢量搜索数据仓库DX云原生计算存储实时

向 AI 原生仓库的转变证明，元数据优先的架构对于现代工作负载更为优越。然而，这需要团队在看待数据所有权方面进行范式转变。

MaxQ 成功弥合了复杂数据基础设施与快速应用开发之间的鸿沟，证明了开发者体验（DX）是数据工程生产力的关键因素。

组织应优先考虑元数据层，并尽早采用向量原生存储。投资于抽象基础设施复杂性的内部开发者平台（IDP）。

当前版本针对非结构化和半结构化数据进行了优化。对传统事务性（OLTP）工作负载的支持目前处于测试阶段。

内部性能基准测试，2024

用户研究报告：“数据工程现状”，2024 年第三季度

白皮书：“数据管道的基因组架构”