CASE STUDY

Движок MaxQ

Ускорение хранилищ данных в эпоху ИИ

Контекст

В быстро меняющемся ландшафте искусственного интеллекта традиционные хранилища данных становились значительными узкими местами. Инженеры данных и исследователи ИИ тратили 70% своего времени на обслуживание инфраструктуры, а не на разработку моделей. Проект включал кросс-функциональную команду из 12 инженеров и специалистов по данным, стремящихся изменить статус-кво в секторах финтеха и здравоохранения.

Задача

Главная задача заключалась в следующем: как мы можем кардинально сократить «время до получения инсайта» для приложений на базе ИИ, сохраняя при этом строгие требования к соответствию и масштабируемости корпоративных данных?

Ключевые цели

Сократить время настройки конвейера данных на 90%.

Включить нативную поддержку векторного поиска для нагрузок LLM.

Обеспечить 100% повторное использование компонентов в разных проектах.

Поддерживать задержку запросов менее секунды в масштабе петабайт.

Наш подход

Мы приняли подход смешанных методов, включающий:

Качественные интервью с 50+ старшими инженерами данных.

Количественный сравнительный анализ производительности существующих решений (Snowflake, Databricks).

Итеративное прототипирование с использованием Rust для основного движка.

Решение

Путь разработки занял 18 месяцев. Мы начали с монолитной архитектуры, но быстро перешли к модульной конструкции на основе «генома». Каждое преобразование данных рассматривалось как ген, способный выстраиваться в уникальные конвейеры. Это потребовало создания пользовательского планировщика направленного ациклического графа (DAG) с нуля.

Применяя принцип «Data Mesh», мы рассматривали данные как продукт. Визуализация «Геном» представляет собой неизменяемое определение конвейера данных. Отделив вычисления от хранения и внедрив семантический слой метаданных, мы достигли уровня абстракции, который позволил создать «самовосстанавливающиеся» конвейеры.

ДНК данных

Влияние и результаты

90%

Сокращение времени настройки

40%+

Производительность запросов

2 Дня

Время адаптации

Новая архитектура значительно превзошла устаревшие системы. Мы обнаружили, что оркестрация на основе метаданных устраняет «хрупкость», характерную для конвейеров ETL.

СкоростьМасштабИИВекторПоискДанныеХранилищеDXОблакоНативныйВычисленияХранениеРеальное время

Почему это важно

Переход к хранилищам, ориентированным на ИИ, доказывает, что архитектуры, ориентированные на метаданные, превосходят современные нагрузки. Однако это требует смены парадигмы в том, как команды рассматривают владение данными.

Итоги

MaxQ успешно преодолел разрыв между сложной инфраструктурой данных и быстрой разработкой приложений, доказав, что опыт разработчика (DX) является критическим фактором продуктивности инженерии данных.

Планы на будущее

Организации должны отдавать приоритет слоям метаданных и внедрять векторно-нативное хранение на ранних этапах. Инвестируйте во внутренние платформы разработчиков (IDP), которые абстрагируют сложность инфраструктуры.

Текущая версия оптимизирована для неструктурированных и полуструктурированных данных. Поддержка традиционных транзакционных (OLTP) нагрузок в настоящее время находится в бета-версии.

Источники

Внутренние тесты производительности, 2024

Исследование пользователей: «Состояние инженерии данных», Q3 2024

Белая книга: «Архитектура Генома для конвейеров данных»