כשילד לומד לזהות חתולים, הוא רואה עשרות חתולים שונים ובהדרגה מפתח הבנה פנימית של המאפיינים המשותפים להם. בדיוק כך פועלת בינה מלאכותית, במקום לקבל הוראות מפורשות מהמתכנת, היא לומדת מנתונים. הקב״ה ברא את האדם עם יכולת למידה טבעית זו, והמדענים מנסים לשכפל אותה במחשבים.
ההבדל המהותי בין תוכנה רגילה לבינה מלאכותית טמון בגמישות. תוכנת ניהול מלאי רגילה תזמין מוצרים לפי כללים קבועים שהמתכנת הגדיר מראש, למשל, "כשנשארים פחות מ-10 יחידות, הזמן 50 יחידות חדשות". לעומת זאת, מערכת בינה מלאכותית יכולה ללמוד מנתונים היסטוריים ולזהות דפוסים מורכבים: היא תבחין שבחודשים מסוימים הביקוש עולה משמעותית, שבימי גשם מוכרים יותר מוצרים מסוימים, ושאירועים חריגים משפיעים על ההזמנות. המערכת לא קיבלה הוראות מפורשות לגבי כל המצבים הללו, היא למדה אותם מהנתונים.
הרעיון המרכזי פשוט להפליא: בין כל קלט לפלט קיים קשר מתמטי. אם נאמן מחשב על מספיק דוגמאות של זוגות קלט-פלט, הוא יוכל לגלות את הקשר הזה בעצמו ולהחיל אותו על מקרים חדשים. כך, אפליקציה לזיהוי פנים תלמד מאלפי תמונות מתויגות איך נראים פנים אנושיים, ואז תוכל לזהות פנים גם בתמונות שמעולם לא ראתה. זה בדיוק כמו שילד שלמד לזהות חתולים יכול לזהות חתול חדש שמעולם לא ראה.
שלוש שיטות למידת מכונה מתקדמות
למידת מכונה מתחלקת לשלוש גישות עיקריות, כשכל אחת מתאימה לסוג אחר של בעיות. הגישה הראשונה והנפוצה ביותר נקראת למידה מפוקחת, כאן מדעני הנתונים מספקים למחשב דוגמאות מתויגות. למשל, כדי לאמן מערכת לזיהוי דואר זבל, מזינים אליה אלפי הודעות דואר אלקטרוני שבני אדם תייגו כבר כ״זבל״ או ״לגיטימי״. המערכת לומדת לזהות את הדפוסים המשותפים להודעות הזבל, מילים מסוימות, מבנה המשפטים, כתובות השולח, ואז היא יכולה לסווג הודעות חדשות בעצמה.
בלמידה לא מפוקחת, המחשב מקבל נתונים ללא תיוג ומחפש בהם דפוסים בכוחות עצמו. זה שימושי כאשר אין לנו הגדרה ברורה למה שאנחנו מחפשים. למשל, מערכת כזו יכולה לנתח את דפוסי הקנייה של לקוחות באתר מסחר אלקטרוני ולגלות בעצמה שיש מספר קבוצות לקוחות שונות, כאלה שקונים בעיקר בבוקר, כאלה שמעדיפים מוצרים מסוימים, וכאלה שרגישים במיוחד למחיר. המערכת לא קיבלה הגדרות מראש של הקבוצות הללו, היא גילתה אותן בעצמה.
הגישה השלישית, למידת חיזוק, מאמנת מכונות דרך ניסוי וטעייה. המערכת מקבלת ״תגמול״ כשהיא מצליחה ו״עונש״ כשהיא טועה, ולומדת בהדרגה אילו פעולות מובילות לתוצאות טובות. זו הדרך שבה מאמנים מחשבים לשחק משחקים מורכבים כמו שחמט או Go, המערכת משחקת אלפי משחקים נגד עצמה, לומדת מהטעויות ומשתפרת בהדרגה. באותו אופן מאמנים מכוניות אוטונומיות: המערכת מקבלת תגמול כשהיא נוהגת בבטחה ועונש כשהיא מבצעת תמרון מסוכן.
רשתות נוירונים ומודלי שפה גדולים
בליבת הבינה המלאכותית המודרנית עומדות רשתות נוירונים מלאכותיות, מבנים חישוביים המחקים את אופן הפעולה של המוח האנושי. רשת נוירונים מורכבת משכבות של "נוירונים" מלאכותיים המחוברים זה לזה. כל נוירון מקבל מידע, מעבד אותו בצורה פשוטה ומעביר את התוצאה הלאה. הקב"ה ברא את המוח האנושי במבנה מורכב המאפשר למידה והבנה, והמדענים מנסים לשכפל עיקרון זה.
כשמדברים על למידה עמוקה, הכוונה היא לרשתות נוירונים עם שכבות רבות, לעיתים מאות שכבות. כל שכבה לומדת לזהות תכונות ברמת מורכבות שונה. בזיהוי תמונות, למשל, השכבות הראשונות מזהות קווים ופינות פשוטים, השכבות האמצעיות מזהות צורות מורכבות יותר כמו עיניים ואוזניים, והשכבות האחרונות מזהות את התמונה השלמה. היכולת לחלץ תכונות באופן אוטומטי היא שהופכת את הלמידה העמוקה לעוצמתית כל כך.

הפריצה הגדולה באה עם הופעת הטרנספורמרים ב־2017, ארכיטקטורה חדשה שהפכה למנוע המרכזי של מודלי שפה גדולים כמו ChatGPT. הסוד של הטרנספורמרים הוא מנגנון הנקרא "תשומת לב" (attention), המאפשר למודל להתמקד בחלקים הרלוונטיים ביותר של הטקסט בכל רגע נתון. כשהמודל קורא משפט ארוך, הוא יכול "לשים לב" למילים החשובות ביותר להבנת ההקשר, בדיוק כפי שאדם קורא טקסט ומתמקד בחלקים המשמעותיים.
מודלי שפה גדולים מאומנים על כמויות אדירות של טקסט, ספרים, מאמרים, אתרי אינטרנט, ולומדים את הדפוסים של השפה. GPT-3.5, למשל, מכיל 175 מיליארד פרמטרים, משקולות מתמטיות הקובעות כיצד המודל מעבד את המידע. כל פרמטר כזה תורם ליכולת המודל לזהות ניואנסים בשפה ובהקשר. התהליך פשוט במהותו: המודל מנחש מהי המילה הבאה הסבירה ביותר בהתאם להקשר, אבל הוא עושה זאת בצורה מתוחכמת כל כך שהתוצאה נראית כמו הבנה אמיתית של השפה.
האימון של מודלים כאלה דורש משאבי חישוב עצומים. תהליך האימון של מודל יסוד גדול יכול לארוך שבועות של עיבוד על אלפי כרטיסי מסך מתקדמים ולעלות מיליוני דולרים. אבל ברגע שהמודל מאומן, ניתן לכוונן אותו למשימות ספציפיות בעלות נמוכה הרבה יותר. זו הסיבה שחברות רבות יכולות כיום להשתמש במודלים מוכנים ולהתאים אותם לצרכיהן, מבלי לשלם את המחיר המלא של פיתוח מודל מאפס.
תגובות (0)
אין עדיין תגובות. היו הראשונים להגיב!