CASE STUDY

מנוע MaxQ

האצת מחסני נתונים בעידן ה-AI

ההקשר

בנוף המתפתח במהירות של בינה מלאכותית, מחסני נתונים מסורתיים הפכו לצווארי בקבוק משמעותיים. מהנדסי נתונים וחוקרי AI מצאו את עצמם מבלים 70% מזמנם על תחזוקת תשתיות במקום על פיתוח מודלים. הפרויקט כלל צוות חוצה-תפקודים של 12 מהנדסים ומדעני נתונים במטרה לשבש את הסטטוס קוו במגזרי הפינטק והבריאות.
01

האתגר

האתגר המרכזי היה: כיצד נוכל להפחית באופן דרסטי את 'הזמן לתובנה' עבור יישומים מונעי AI תוך שמירה על דרישות התאימות והסקלאביליות הקפדניות של נתונים ארגוניים?

יעדים מרכזיים

הפחתת זמן הקמת צינור נתונים ב-90%.
אפשר תמיכה מקומית בחיפוש וקטורי עבור עומסי עבודה של LLM.
הבטחת 100% שימוש חוזר ברכיבים בפרויקטים שונים.
שמירה על זמן אחזור שאילתות תת-שנייה בקנה מידה של פטה-בייט.

הגישה שלנו

אימצנו גישה של שיטות מעורבות הכוללת:

ראיונות איכותניים עם 50+ מהנדסי נתונים בכירים.

השוואת ביצועים כמותית של פתרונות קיימים (Snowflake, Databricks).

בניית אב טיפוס איטרטיבית באמצעות Rust למנוע הליבה.

הפתרון

מסע הפיתוח נמשך 18 חודשים. התחלנו עם ארכיטקטורה מונוליתית אך עברנו במהירות לעיצוב מודולרי מבוסס 'גנום'. כל טרנספורמציית נתונים טופלה כגן, המסוגל להיות מסודר לצינורות ייחודיים. זה דרש בניית מתזמן Directed Acyclic Graph (DAG) מותאם אישית מאפס.
ביישום עקרון 'Data Mesh', התייחסנו לנתונים כמוצר. הדמיית ה-'Genome' מייצגת את ההגדרה הבלתי ניתנת לשינוי של צינור נתונים. על ידי ניתוק מחשוב מאחסון והצגת שכבת מטא-נתונים סמנטית, השגנו רמת הפשטה שאפשרה צינורות 'ריפוי עצמי'.
גנום נתונים

השפעה ותוצאות

90%

הפחתת זמן הקמה

40%+

ביצועי שאילתות

יומיים

זמן כניסה לתפקיד

הארכיטקטורה החדשה הציגה ביצועים טובים משמעותית ממערכות מורשת. גילינו שתזמור מונחה מטא-נתונים מבטל את ה'שבריריות' הנפוצה בצינורות ETL.
מהירותקנה מידהAIוקטורחיפושנתוניםמחסןDXענןטבעיחישובאחסוןזמן אמת

למה זה חשוב

המעבר למחסני נתונים מותאמי AI מוכיח שארכיטקטורות מונחות מטא-נתונים עדיפות לעומסי עבודה מודרניים. עם זאת, זה דורש שינוי פרדיגמה באופן שבו צוותים רואים בעלות על נתונים.

מחשבות לסיכום

MaxQ גישר בהצלחה על הפער בין תשתיות נתונים מורכבות לפיתוח יישומים מהיר, והוכיח שחווית מפתח (DX) היא גורם קריטי בפרודוקטיביות של הנדסת נתונים.

מפת דרכים עתידית

ארגונים צריכים לתעדף שכבות מטא-נתונים ולאמץ אחסון וקטורי-טבעי מוקדם. השקיעו בפלטפורמות מפתחים פנימיות (IDPs) המפשיטות את מורכבות התשתית.
הגרסה הנוכחית מותאמת לנתונים לא מובנים וחצי מובנים. תמיכה בעומסי עבודה טרנזקציוניים מסורתיים (OLTP) נמצאת כרגע בבטא.

מקורות

מבחני ביצועים פנימיים, 2024
מחקר משתמשים: 'מצב הנדסת הנתונים', רבעון 3 2024
מסמך טכני: 'ארכיטקטורת הגנום לצינורות נתונים'