CASE STUDY
MaxQ 引擎
加速 AI 时代的数据仓库
背景
在人工智能快速发展的背景下,传统数据仓库正成为显著的瓶颈。数据工程师和 AI 研究人员发现自己将 70% 的时间花在基础设施维护上,而不是模型开发上。该项目涉及一个由 12 名工程师和数据科学家组成的跨职能团队,旨在打破金融科技和医疗保健行业的现状。
01
挑战
核心挑战在于:我们如何才能大幅减少 AI 驱动应用的“洞察时间”,同时保持企业数据的严格合规性和可扩展性要求?
核心目标
将数据管道设置时间减少 90%。
为 LLM 工作负载启用原生向量搜索支持。
确保不同项目之间组件的 100% 可重用性。
在 PB 级规模下保持亚秒级查询延迟。
我们的方法
我们采用了混合方法,包括:
对 50 多名高级数据工程师进行定性访谈。
对现有解决方案(Snowflake, Databricks)进行定量性能基准测试。
使用 Rust 进行核心引擎的迭代原型设计。
解决方案
开发历程历时 18 个月。我们从单体架构开始,但很快转向了基于“基因组”的模块化设计。每个数据转换都被视为一个基因,能够排序成独特的管道。这需要从头开始构建自定义的有向无环图(DAG)调度程序。
应用“数据网格”原则,我们将数据视为产品。“基因组”可视化代表了数据管道的不可变定义。通过将计算与存储解耦并引入语义元数据层,我们实现了一定程度的抽象,允许“自愈”管道。
数据基因组
影响与结果
90%
设置时间减少
40%+
查询性能
2 天
入职时间
新架构的性能明显优于遗留系统。我们发现,基于元数据的编排消除了 ETL 管道中常见的“脆弱性”。
速度规模AI矢量搜索数据仓库DX云原生计算存储实时
重要性
向 AI 原生仓库的转变证明,元数据优先的架构对于现代工作负载更为优越。然而,这需要团队在看待数据所有权方面进行范式转变。
总结
MaxQ 成功弥合了复杂数据基础设施与快速应用开发之间的鸿沟,证明了开发者体验(DX)是数据工程生产力的关键因素。
未来路线图
组织应优先考虑元数据层,并尽早采用向量原生存储。投资于抽象基础设施复杂性的内部开发者平台(IDP)。
当前版本针对非结构化和半结构化数据进行了优化。对传统事务性(OLTP)工作负载的支持目前处于测试阶段。
来源
内部性能基准测试,2024
用户研究报告:“数据工程现状”,2024 年第三季度
白皮书:“数据管道的基因组架构”