כמה מילים על DGX Spark של NVidia

חברת NVidia החלה למכור לאחרונה בצורה ישירה ודרך יצרני מחשבים נוספים כמו Dell, HPE, Lenovo, Asus (שמוכרים מחשב שהוא זהה פנימית, אך באריזה שונה) – את ה-Spark, מחשב מיני קטן שמיועד למפתחי AI/ML ואימוני Dataset.

מבחינה חיצונית ובהשוואה למחשבי מיני PC אחרים שקיימים בשוק, ה-Spark שונה כמעט בכל דבר: אין לו חיבורי HDMI או חיבורי USB Type A, אין לו חיבור חשמל קנייני, אין בו מעבד X86 או GPU יעודי, ואין בו זכרון רגיל שמופרד ל-CPU ו-GPU. המחשב כולל את הטכנולוגיות החדשות – רק חיבורי USB-C, זכרון אחוד שמשותף ל-CPU/GPU0, מעבד ARM שכולל CPU/GPU, וחיבורי רשת שלא קיימים באף מחשב אחר: חיבור 10 ג׳יגהביט ב-RJ45 ו-2 חיבורים במהירות 100 ג׳יגהביט (חיבור QSFP56) המאפשרים לשרשר ישירות עוד מחשבי Spark במהירות גבוהה. לאלו שרוצים, יש גם Wifi..

הבדל נוסף ומאוד מהותי קשור בכל מה שיש מבחינת תוכנה: אין Windows (ולא נראה שיש כוונה להציע עליו את מערכת ההפעלה הזו) אלא אובונטו בגירסה של Nvidia (שנקרא DGX_OS), והשינוי הכי גדול שיכול מאוד לסייע למפתחים – הוא מאגר תוכנות ופלטפורמות AI/LM שזמינות להורדה והתקנה עם Playbooks מיד כשמפעילים לראשונה את המחשב, ואם מישהו לא מכיר מה לעשות ואיך, המערכת כולל מודל פנימי המאפשר למפתח ״לשוחח״ ישירות עם המודל ולקבל את הפרטים איך לעשות ומה. בקיצור, NVidia עשו הכל כדי לתת למפתחים חיים יותר קלים מבלי לשבור את הראש על תאימות מערכת הפעלה, דרייברים, התקנת פלטפורמות וכו׳

מה בעצם נותן SPARK שפתרונות אחרים לא נותנים? בכדי לענות על כך, צריך לזכור שכיום, כאשר מפתח רוצה לאמן Dataset כלשהו על מודל, הוא צריך להעלות את המודל על ה-VRAM של ה-GPU ובנוסף להעלות גם את ה-Dataset (כולו או חלקו) אל ה-VRAM, כך שלשם ביצוע הדברים הללו, יש צורך בכרטיס GPU יקר (או 2), או להשתמש במודלים שהוגדרו מראש ל-Floating Point נמוך כמו 8 או 4 ביט (FP4) שאינם תופסים זכרון VRAM יקר.

ה-Spark מאפשר לעשות זאת ביתר קלות: המחשב מכיל כ-128 ג׳יגהבייט זכרון אחוד, כך שיש מספיק מקום בזכרון להשתמש הן במודל והן ב-Dataset (או חלקו), אולם חשוב לזכור: ה-Spark מצטיין ב-FP4 ונצטרך להשתמש במודל עם Quantization כזה על מנת לבצע אימון (אפשר לעשות על FP8 ואחרים, אך הביצועים יהיו איטיים מאוד). הביצועים בכל מקרה לא יהיו כמו מערכת של שרת DGX או כרטיס גרפי RTX, אך הם יספיקו למפתח לנסות ולכוונן Dataset חלקי, לראות שהכל עובד – ואז להעביר את האימון המלא לשרתים.

יתרון נוסף לפתרון כמו של Spark הוא אפשרות הגדילה: צריכים 256 ג׳יגהבייט זכרון אחוד? קונים עוד מערכת, ומחברים דרך כבל DAC בחיבור ה-100 ג׳יגה ביניהם, ואם רוצים לבנות אשכול שלם, משתמשים במתג 100 ג׳יגהביט. למתחרים, אגב – אין פתרון כזה.

ואם דיברנו על מתחרים: הפתרונות המתחרים שיש כיום הם פתרונות מבוססים Ryzen AI Max של AMD שיש להם יתרונות וחסרונות: מצד אחד, גם הם כוללים פתרון זכרון אחוד, אפשרות להפעיל Windows ותאימות X86 עם ביצועים שאינם כה רחוקים מה-Spark, אולם החסרון הוא שאין רשמית CUDA (יש משהו שנקרא ZLUDA אבל זה פתרון שעדיין בפיתוח) ולכן יש צורך בשימוש ROCm או Vulkan. יתרון גדול הוא המחיר – כמחצית ממה ש-Nvidia מבקשים.

לסיכום: Spark הוא פתרון מעולה שמתאים למפתחים בחברות, ארגונים וכל מקום שיכול להרשות לעצמו להשקיע 4000$ במכונה ושהם צריכים זאת. מצד שני, למשתמש הביתי, ה-Home Lab, או זה שיודע לינוקס טוב ויודע לקמפל ולהגדיר דברים גם כשאין CUDA – אפשר להשתמש בפתרון המבוסס AMD או PC עם כרטיס RTX יקר.

התקלה הגדולה ב-AWS וביזור אמיתי של ענן

אתמול התרחשה תקלה מאוד משמעותית ב-AWS, תקלה שהשביתה אתרים רבים, כולל אתרים גדולים וידועים שהתארחו על AWS, והפעם – גם אתרים שגיבשו ומימשו תהליך שרידות של Multi Zone או Multi Region, מצאו את עצמם סובלים בדיוק כמו אחרים.

לשמחתינו, בניגוד לכל מיני ספקים ישראליים (אינני מדברת על הנציגויות של ספקי הענן העולמיים) – אמזון שיתפה מידע לגבי התקלה: מתברר כי קריאות API ל-DynamoDB הגדול שמנהל פנימית את כל השרותים של אמזון ונמצא ב-US-EAST-1 – לא קיבל ולא שלח תשובות לקריאות עקב תקלות DNS (לאלו המעוניינים,הנה הסבר יותר מפורט של ג׳מיני לתקלה – בעברית)

במילים אחרות, אמזון לא כל כך יישמה את החלק של הביזור במערכות הקריטיות הפנימיות שלה, וכל קריאה לשרות גלובאלי – הועברה לאזור US-EAST-1, וברגע שהתרחשה התקלה באזור זה, רוב האזורים האחרים בעולם נפגעו מכך (כולל ישראל). אין ספק שאמזון יצטרכו כבר בימים הקרובים לתכנן מחדש את המערכת.

תקלה כזו מראה כמה חשוב לכל אתר שצריך להיות באויר בכל זמן – לחשוב ביתר רצינות על פתרונות המבוססים Multi Cloud, כך שאם נופל שרות זה או אחר אצל ספק ענן A, המערכת תעבור אוטומטית לספק שרותים מספק ענן B, וכיום פלטפורמות כמו Terraform מסייעים מאוד להקים פתרונות כאלו.

מערכת Windows 10 רוצה שתשדרגו. מה עושים?

בימים האחרונים יותר ויותר אנשים מקבלים הודעה ממערכות ה-Windows שלהם בבית כי עליהם לשדרג ל-Windows 11, ורבים לא יודעים אם לעשות זאת, מה הסיכונים, מה המחיר ומה האלטרנטיבות. אם נסתכל לפי הרשת, נראה מגוון עצות, ולכן החלטתי להתייחס ל-4 עצות העיקריות:

  • כן, לשדרג ל-Windows 11. העצה הזו מגיעה מגורמים רבים והיא בסופו של דבר עצה טובה ברמת המאקרו. סביר להניח שכל האפליקציות שלכם ימשיכו לעבוד וההגדרות שלכם ישמרו בעת שדרוג.
    אז האם כדאי לשדרג? כן, אבל חשוב לזכור: Windows 11 הופכת את המחשב שלכם למחשב עם פרסומות מכאן ועד הודעה חדשה, ועם כריכת שרותי אונליין לשרותים רגילים (נסו לשמור תמונה ותראו איך מיקרוסופט מתעקשת שתשמרו אותה אונליין ולא מקומית, לדוגמא) מה שמתורגם לכך שתוציאו יותר כסף, ובנוסף – השדרוג מתקין שורה של תכונות ותוכנות נוספות שכביכול אמורות לשפר את חויית השימושיות, אבל בפועל – זה מאיט יותר את המחשב ותופס יותר מקום על דיסק.
    לכן, אם רוצים לבחור באופציה זו, כדאי להריץ את Debloater על מנת להסיר חלקים שונים ב-Windows שרק תופסים מקום ומשאבים (חשוב: אם אין לכם נסיון במחשבים, תנו למישהו שיש לו נסיון להפעיל את ה-Debloater).
  • לא לשדרג – זו גם אופציה אפשרית, אבל חשוב  לזכור: מיקרוסופט לא תשחרר יותר בחינם שדרוגי אבטחה, וזה יכול לעלות לכם כלום או 30 דולר, תלוי באיזה אופציה תבחרו במסגרת תוכנית ESU. בכל מקרה, תצטרכו ליצור חשבון במיקרוסופט (אם לא יצרתם והתחברתם אליו), וזו נקודה שחשובה לחלק מהאנשים שלא מעוניינים בה.
  • לעבור ל-מק או לעבור ללינוקס: זו הצעה שמאוד ״תופסת גובה״ בפורומים השונים, אולם כאחת שיש לה יותר מ-8 שרתי לינוקס ו-5 מחשבי מק בביתה, אני ממליצה דווקא לא לבחור באופציות הללו, אלא אם אותו משתמש מוכן להשקיע את הזמן ומאמץ ללמוד מערכת אחרת, כולל את כל ה״שטיקים״ שלה ובאגים או הגדרות שיש לעשות על מנת לעבוד באופן רגיל ושוטף, ולכן זו האופציה האחרונה שאינני ממליצה (ואם מתעקשים ללכת במסלול הזה, אני ממליצה על מק… לינוקס, עדיין, אינו מוכן לשימוש כדסקטופ, אלא אם המשתמש מכיר טוב לינוקס)

לסיכום: מיקרוסופט רוצה שתשדרג, ועכשיו, ויש המון קולות ללכת לכאן או לכאן, אבל חשוב לשקול היטב את האופציות השונות, ורק אז ליישם (ואם אין לכם כח להחליט עכשיו ואתם חושבים להחליט עוד חודש חודשיים, אתם תמיד יכולים לשנות משהו קטן, הנה קליפ שמסביר מה ואיך):

כמה מילים על הרכישות של OpenAI

לאחרונה אנחנו נתקלים ביותר ויותר חדשות לגבי OpenAI והרכישות המאסיביות שלה. כאן החברה עושה עיסקה סיבובית עם Nvidia לגבי רכישת ציוד בגודל ״10 ג׳יגהוואט״ (איפה הימים שפשוט היו סופרים כרטיסים או מערכות..)  – ובמקביל Nvidia משקיעה ב-OpenAI סכום ״צנוע״ של 100 מיליארד דולר..

אבל זו כמובן לא העיסקה היחידה. קדמה לה עיסקה של OpenAI עם ברודקום, בסכום של 10 מיליארד דולר. במסגרת עיסקה זו, ברודקום תיצור שבב עבור OpenAI (כלומר ASIC) שישמש, כנראה, לצרכי Inference.. או משהו. החברות לא הרחיבו על כך.

אז השבבים של Nvidia ישמשו לאימון (training), השבבים של AMD ש-OpenAI רכשה ורוכשת ישמשו לצרכי Inference והשבבים מ-ברודקום יחליפו בהדרגה את הדור הנוכחי והישן יותר מ-Nvidia…?

לא בדיוק..

רק לפני מס׳ ימים הכריזו AMD ו-OpenAI כי האחרונה תרכוש מהראשונה כמות המוערכת ב-״6 ג׳יגהוואט״ של GPU מהסוג החדש ש-AMD תוציא בשנה הבאה (ה-MI450). ב-OpenAI, כפי שציינתי, משתמשים בשבבים של AMD לצרכי Inference, אך מה שאינו מובן לי לגבי עיסקה זו – היא הצורך בה. אתם מזמינים ב-10 מיליארד דולר שבבי Custom, אז למה אתם צריכים את השבבים של AMD?

העניין נראה עוד יותר תמוה כשמבינים (ליתר דיוק .. מנסים להבין) את העסקאות הסיבוביות. במקרה עם Nvidia, חברת OpenAI אמנם משלמת על הכרטיסים, אבל היא מקבלת בחזרה כסף בצורת השקעה מצד Nvidia, כך שזה יוצא מכיס אחד, אבל נכנס מהכיס השני (נכנס פי 10, ליתר דיוק) בכפוף לעמידה ביעדים. במקרה עם AMD זה נעשה יותר מורכב: OpenAI תשלם ל-AMD על הציוד, אבל היא תקבל לאחר מילוי ההזמנה הראשונה (של 1 ג׳יגהוואט) ״צו רכישה״ (תרגום של ג׳מיני) של מניות במחיר של 1 פני, עד 160 מיליון מניות. מניות אלו יהיו ניתנות למימוש רק אם החברות תעמודנה באבני דרך להקמת הפרויקט, ורק אם המניה תעמוד ביעדי מחיר ספציפיים, ואם מחיר המניה יגיע ל-600 דולר, OpenAI יוכלו לממש את כל החבילה.

אין ספק שהתנאים הללו הם תנאים מעולים ל-OpenAI, אבל כאן מגיעה הבעיה היותר גדולה: הקמת חוות השרתים. כשמדובר בחוות של 1 ג׳יגהוואט ומעלה (להלן קישור לקליפ מהערוץ של
Anastasi In Tech על הקמת חוות השרתים של xAI) – מדובר באתגר עצום שאינו קל לפתרון, והבעיה פחות קשורה לרכישת וקבלת GPU אלא דברים שקשה להשיג ולהקים, כמו חשמל, קירור ועוד, וכשמדברים על מעבר ל-1 ג׳יגהוואט, הבעיה מכפילה את עצמה ומעבר.

כך שבסופו של יום, לא בטוח ש-OpenAI תצליח לעמוד באתגרים הללו. החברה מזמינה ציוד על ימין ועל שמאל, ובנוסף חותמת עם אורקל לאספקת שרות בשווי מוערך של 300 מיליארד דולר ל-5 השנים הקרובות (ואורקל תצטרך להלוות 100 מיליארד דולר בפריסה של 4 שנים רק כדי להקים את אותן חוות ולרכוש את הציוד), אבל גם כאן, הסיכון הוא עצום.

האם יהיה כאן מה שהגשש החיוור קרא ״40 קומות באוויר, 20 קומות באדמה״? כלומר .. בועה שתגרום לחברות רבות להינזק?

ימים יגידו..