התקלה הגדולה ב-AWS וביזור אמיתי של ענן

אתמול התרחשה תקלה מאוד משמעותית ב-AWS, תקלה שהשביתה אתרים רבים, כולל אתרים גדולים וידועים שהתארחו על AWS, והפעם – גם אתרים שגיבשו ומימשו תהליך שרידות של Multi Zone או Multi Region, מצאו את עצמם סובלים בדיוק כמו אחרים.

לשמחתינו, בניגוד לכל מיני ספקים ישראליים (אינני מדברת על הנציגויות של ספקי הענן העולמיים) – אמזון שיתפה מידע לגבי התקלה: מתברר כי קריאות API ל-DynamoDB הגדול שמנהל פנימית את כל השרותים של אמזון ונמצא ב-US-EAST-1 – לא קיבל ולא שלח תשובות לקריאות עקב תקלות DNS (לאלו המעוניינים,הנה הסבר יותר מפורט של ג׳מיני לתקלה – בעברית)

במילים אחרות, אמזון לא כל כך יישמה את החלק של הביזור במערכות הקריטיות הפנימיות שלה, וכל קריאה לשרות גלובאלי – הועברה לאזור US-EAST-1, וברגע שהתרחשה התקלה באזור זה, רוב האזורים האחרים בעולם נפגעו מכך (כולל ישראל). אין ספק שאמזון יצטרכו כבר בימים הקרובים לתכנן מחדש את המערכת.

תקלה כזו מראה כמה חשוב לכל אתר שצריך להיות באויר בכל זמן – לחשוב ביתר רצינות על פתרונות המבוססים Multi Cloud, כך שאם נופל שרות זה או אחר אצל ספק ענן A, המערכת תעבור אוטומטית לספק שרותים מספק ענן B, וכיום פלטפורמות כמו Terraform מסייעים מאוד להקים פתרונות כאלו.

כמה מילים על הרכישות של OpenAI

לאחרונה אנחנו נתקלים ביותר ויותר חדשות לגבי OpenAI והרכישות המאסיביות שלה. כאן החברה עושה עיסקה סיבובית עם Nvidia לגבי רכישת ציוד בגודל ״10 ג׳יגהוואט״ (איפה הימים שפשוט היו סופרים כרטיסים או מערכות..)  – ובמקביל Nvidia משקיעה ב-OpenAI סכום ״צנוע״ של 100 מיליארד דולר..

אבל זו כמובן לא העיסקה היחידה. קדמה לה עיסקה של OpenAI עם ברודקום, בסכום של 10 מיליארד דולר. במסגרת עיסקה זו, ברודקום תיצור שבב עבור OpenAI (כלומר ASIC) שישמש, כנראה, לצרכי Inference.. או משהו. החברות לא הרחיבו על כך.

אז השבבים של Nvidia ישמשו לאימון (training), השבבים של AMD ש-OpenAI רכשה ורוכשת ישמשו לצרכי Inference והשבבים מ-ברודקום יחליפו בהדרגה את הדור הנוכחי והישן יותר מ-Nvidia…?

לא בדיוק..

רק לפני מס׳ ימים הכריזו AMD ו-OpenAI כי האחרונה תרכוש מהראשונה כמות המוערכת ב-״6 ג׳יגהוואט״ של GPU מהסוג החדש ש-AMD תוציא בשנה הבאה (ה-MI450). ב-OpenAI, כפי שציינתי, משתמשים בשבבים של AMD לצרכי Inference, אך מה שאינו מובן לי לגבי עיסקה זו – היא הצורך בה. אתם מזמינים ב-10 מיליארד דולר שבבי Custom, אז למה אתם צריכים את השבבים של AMD?

העניין נראה עוד יותר תמוה כשמבינים (ליתר דיוק .. מנסים להבין) את העסקאות הסיבוביות. במקרה עם Nvidia, חברת OpenAI אמנם משלמת על הכרטיסים, אבל היא מקבלת בחזרה כסף בצורת השקעה מצד Nvidia, כך שזה יוצא מכיס אחד, אבל נכנס מהכיס השני (נכנס פי 10, ליתר דיוק) בכפוף לעמידה ביעדים. במקרה עם AMD זה נעשה יותר מורכב: OpenAI תשלם ל-AMD על הציוד, אבל היא תקבל לאחר מילוי ההזמנה הראשונה (של 1 ג׳יגהוואט) ״צו רכישה״ (תרגום של ג׳מיני) של מניות במחיר של 1 פני, עד 160 מיליון מניות. מניות אלו יהיו ניתנות למימוש רק אם החברות תעמודנה באבני דרך להקמת הפרויקט, ורק אם המניה תעמוד ביעדי מחיר ספציפיים, ואם מחיר המניה יגיע ל-600 דולר, OpenAI יוכלו לממש את כל החבילה.

אין ספק שהתנאים הללו הם תנאים מעולים ל-OpenAI, אבל כאן מגיעה הבעיה היותר גדולה: הקמת חוות השרתים. כשמדובר בחוות של 1 ג׳יגהוואט ומעלה (להלן קישור לקליפ מהערוץ של
Anastasi In Tech על הקמת חוות השרתים של xAI) – מדובר באתגר עצום שאינו קל לפתרון, והבעיה פחות קשורה לרכישת וקבלת GPU אלא דברים שקשה להשיג ולהקים, כמו חשמל, קירור ועוד, וכשמדברים על מעבר ל-1 ג׳יגהוואט, הבעיה מכפילה את עצמה ומעבר.

כך שבסופו של יום, לא בטוח ש-OpenAI תצליח לעמוד באתגרים הללו. החברה מזמינה ציוד על ימין ועל שמאל, ובנוסף חותמת עם אורקל לאספקת שרות בשווי מוערך של 300 מיליארד דולר ל-5 השנים הקרובות (ואורקל תצטרך להלוות 100 מיליארד דולר בפריסה של 4 שנים רק כדי להקים את אותן חוות ולרכוש את הציוד), אבל גם כאן, הסיכון הוא עצום.

האם יהיה כאן מה שהגשש החיוור קרא ״40 קומות באוויר, 20 קומות באדמה״? כלומר .. בועה שתגרום לחברות רבות להינזק?

ימים יגידו..