CASE STUDY
Движок MaxQ
Ускорение хранилищ данных в эпоху ИИ
Контекст
В быстро меняющемся ландшафте искусственного интеллекта традиционные хранилища данных становились значительными узкими местами. Инженеры данных и исследователи ИИ тратили 70% своего времени на обслуживание инфраструктуры, а не на разработку моделей. Проект включал кросс-функциональную команду из 12 инженеров и специалистов по данным, стремящихся изменить статус-кво в секторах финтеха и здравоохранения.
01
Задача
Главная задача заключалась в следующем: как мы можем кардинально сократить «время до получения инсайта» для приложений на базе ИИ, сохраняя при этом строгие требования к соответствию и масштабируемости корпоративных данных?
Ключевые цели
Сократить время настройки конвейера данных на 90%.
Включить нативную поддержку векторного поиска для нагрузок LLM.
Обеспечить 100% повторное использование компонентов в разных проектах.
Поддерживать задержку запросов менее секунды в масштабе петабайт.
Наш подход
Мы приняли подход смешанных методов, включающий:
Качественные интервью с 50+ старшими инженерами данных.
Количественный сравнительный анализ производительности существующих решений (Snowflake, Databricks).
Итеративное прототипирование с использованием Rust для основного движка.
Решение
Путь разработки занял 18 месяцев. Мы начали с монолитной архитектуры, но быстро перешли к модульной конструкции на основе «генома». Каждое преобразование данных рассматривалось как ген, способный выстраиваться в уникальные конвейеры. Это потребовало создания пользовательского планировщика направленного ациклического графа (DAG) с нуля.
Применяя принцип «Data Mesh», мы рассматривали данные как продукт. Визуализация «Геном» представляет собой неизменяемое определение конвейера данных. Отделив вычисления от хранения и внедрив семантический слой метаданных, мы достигли уровня абстракции, который позволил создать «самовосстанавливающиеся» конвейеры.
ДНК данных
Влияние и результаты
90%
Сокращение времени настройки
40%+
Производительность запросов
2 Дня
Время адаптации
Новая архитектура значительно превзошла устаревшие системы. Мы обнаружили, что оркестрация на основе метаданных устраняет «хрупкость», характерную для конвейеров ETL.
СкоростьМасштабИИВекторПоискДанныеХранилищеDXОблакоНативныйВычисленияХранениеРеальное время
Почему это важно
Переход к хранилищам, ориентированным на ИИ, доказывает, что архитектуры, ориентированные на метаданные, превосходят современные нагрузки. Однако это требует смены парадигмы в том, как команды рассматривают владение данными.
Итоги
MaxQ успешно преодолел разрыв между сложной инфраструктурой данных и быстрой разработкой приложений, доказав, что опыт разработчика (DX) является критическим фактором продуктивности инженерии данных.
Планы на будущее
Организации должны отдавать приоритет слоям метаданных и внедрять векторно-нативное хранение на ранних этапах. Инвестируйте во внутренние платформы разработчиков (IDP), которые абстрагируют сложность инфраструктуры.
Текущая версия оптимизирована для неструктурированных и полуструктурированных данных. Поддержка традиционных транзакционных (OLTP) нагрузок в настоящее время находится в бета-версии.
Источники
Внутренние тесты производительности, 2024
Исследование пользователей: «Состояние инженерии данных», Q3 2024
Белая книга: «Архитектура Генома для конвейеров данных»