CASE STUDY

MaxQ 引擎

加速 AI 时代的数据仓库

背景

在人工智能快速发展的背景下,传统数据仓库正成为显著的瓶颈。数据工程师和 AI 研究人员发现自己将 70% 的时间花在基础设施维护上,而不是模型开发上。该项目涉及一个由 12 名工程师和数据科学家组成的跨职能团队,旨在打破金融科技和医疗保健行业的现状。
01

挑战

核心挑战在于:我们如何才能大幅减少 AI 驱动应用的“洞察时间”,同时保持企业数据的严格合规性和可扩展性要求?

核心目标

将数据管道设置时间减少 90%。
为 LLM 工作负载启用原生向量搜索支持。
确保不同项目之间组件的 100% 可重用性。
在 PB 级规模下保持亚秒级查询延迟。

我们的方法

我们采用了混合方法,包括:

对 50 多名高级数据工程师进行定性访谈。

对现有解决方案(Snowflake, Databricks)进行定量性能基准测试。

使用 Rust 进行核心引擎的迭代原型设计。

解决方案

开发历程历时 18 个月。我们从单体架构开始,但很快转向了基于“基因组”的模块化设计。每个数据转换都被视为一个基因,能够排序成独特的管道。这需要从头开始构建自定义的有向无环图(DAG)调度程序。
应用“数据网格”原则,我们将数据视为产品。“基因组”可视化代表了数据管道的不可变定义。通过将计算与存储解耦并引入语义元数据层,我们实现了一定程度的抽象,允许“自愈”管道。
数据基因组

影响与结果

90%

设置时间减少

40%+

查询性能

2 天

入职时间

新架构的性能明显优于遗留系统。我们发现,基于元数据的编排消除了 ETL 管道中常见的“脆弱性”。
速度规模AI矢量搜索数据仓库DX原生计算存储实时

重要性

向 AI 原生仓库的转变证明,元数据优先的架构对于现代工作负载更为优越。然而,这需要团队在看待数据所有权方面进行范式转变。

总结

MaxQ 成功弥合了复杂数据基础设施与快速应用开发之间的鸿沟,证明了开发者体验(DX)是数据工程生产力的关键因素。

未来路线图

组织应优先考虑元数据层,并尽早采用向量原生存储。投资于抽象基础设施复杂性的内部开发者平台(IDP)。
当前版本针对非结构化和半结构化数据进行了优化。对传统事务性(OLTP)工作负载的支持目前处于测试阶段。

来源

内部性能基准测试,2024
用户研究报告:“数据工程现状”,2024 年第三季度
白皮书:“数据管道的基因组架构”