זהו כנראה השלב הבא באבולוציה של Gen AI, והוא ממש לא מה שחשבתם

updated on 08 December 2024
1728039181166-d1gt4

לפני שמתחילים צריך להבין שמה שהפוך מודלי שפה גדולים (LLMs) כמו Chat GPT לכל כך מוצלחים, היא ארכיטקטורת הטרנספורמר.
הטרנספורמר הוא ה-T ב- GPT, והוא מתבסס על מנגנון "תשומת הלב" (Attention Mechanism), ובקצרה הוא ה"קסם" שגורם למודלי שפה גדולים להיות כלכך "חכמים".
אבל לכל טוב הזה יש מחיר, חישוב מטריצת תשומת הלב דורש זמן ריצה וזיכרון בסדר גודל של O(n^2), (כאשר n הוא אורך הרצף), כלומר שככול שהקלט גדל, כך נדרשים יותר משאבי מחשוב בריבוע.
הטרנספורמים אפקטיבים, אבל מאוד יקרים להרצה ומחיר גדל בצורה אקספוננטציאלית ככל שהקלט גדול יותר.


🔸אז מה יותר משוכלל מטרנספורמר? מודל ליניארי פשוט! (טוב, אולי לא פשוט)

כדי להתגבר על מגבלות אלו, חוקרים עובדים על ארכיטקטורות חלופיות. אחת הגישות המבטיחות ביותר היא השימוש במודלים מרחב מצב (State Space Models - SSM), שנעשה בה שימוש במודל קוד פתוח בשם Mamba. המודלים מסוג זה מציעים מורכבות לינארית O(n) גם בזמן וגם בזיכרון. למרות שהם "חסכונייים" הביצועים שלהם מתחרים בטרנספורמרים "הרעבים".


🔸וזה לא רק מחקר, זו כבר מציאות ואפילו עם טאצ' של גאווה ישראלית

חברת AI21 Labs התבססה על מודל ה- Mamba ובנתה את המודל החדש שלה Jamba.
מודל Jamba הוא היברידי ומשלב שכבות SSM (Mamba) עם שכבות טרנספורמר "מסורתיות" ושכבות Mixture of Experts (MoE). ארכיטקטורה זו, המכונה "Blocks and Layers".
המודל החדש מאפשר להנות מכל היתרונת: עם חלון קונטקסט של עשורות אלפי טוקנים, מהירות עיבוד גבוהה, ויכולת לרוץ על חומרות סטנדרטיות ולא רק על קלסטרים של GPUs יקרים מפז.


🔸האם זה ה- Chat GPT killer?

לפחות היום, כנראה שלא, אבל יישומים תאגידים רציניים של LLMs דורשים מודלים עם חלונות קוטקסט ענקיים ועם דרישת משאבים שתאפשר להריץ אותם בעולות הגיוניות, ולכן אני מוכן להמר שהעתיד של Gen AI לישומים רציניים הוא בארכיטקטורות אלטרנטיביות לטרנספורמים וחברות כמו AI21 Labs מובילות לשם את הדרך.  

Read more