גמרו לקרוא את האינטרנט עכשיו קוראים אתכם

דלג לתוכן העמוד

תארו לעצמכם ספרייה ענקית שספרנים מיומנים קראו בה כל ספר, כל עיתון, כל פתק שהונח על המדפים. עכשיו הספרייה ריקה. זה בדיוק המצב שבו מצאו את עצמן חברות הבינה המלאכותית הגדולות בעולם.

המתכון שיצר את ג'יפיטי, קלוד וג'מיני של גוגל היה פשוט בבסיסו: לאסוף כמויות עצומות של טקסט אנושי מהאינטרנט, להזין אותו למחשבים עוצמתיים, ולתת למערכת ללמוד. ויקיפדיה, המכלול, פורומים, ספרים דיגיטליים, מאמרים אקדמיים, מיליארדי שיחות ברשת, הכל נסרק, עובד ונבלע. אבל הסיר התחיל להתרוקן.

דריו אמודאי, מנכ"ל חברת אנת'רופיק, אמר זאת בגלוי: "המגבלות מאחורי סקאלת הבינה המלאכותית כוללות מחסור בנתונים איכותיים לפיתוח מודלים מתקדמים." OpenAI ואנת'רופיק אישרו שפחות מ-5% מהתוכן הנותר באינטרנט עומד בסטנדרטים של איכות ורישוי הנדרשים לאימון מודלים מתקדמים. האכלת מודלים באותו תוכן שוב ושוב כבר אינה מניבה שיפורים של ממש. חוקי הסקאלה שעבדו בעבר מתיישרים.

ואז, בשקט ובלי הכרזות, החל מרדף חדש: המרדף אחר הדאטה הפרטי שלכם.

השוק שמתעשר מהנתונים שלכם

שוק מכירת נתוני האימון לבינה מלאכותית הגיע ב-2024 לשווי של כ-2.8 מיליארד דולר, ולפי תחזיות חברת המחקר Markets&Markets הוא צפוי לטפס לכמעט 10 מיליארד דולר עד 2029, קצב צמיחה של כמעט 28% בשנה. מי הקונים? OpenAI, אנת'רופיק, גוגל, מטא, מיקרוסופט ואמזון, חברות הטכנולוגיה הגדולות בעולם שהפכו נתוני אימון לאחד המשאבים האסטרטגיים החשובים ביותר שלהן. מי המוכרים? כאן מתחיל הסיפור המעניין.

חלק מהעסקאות כבר ידועות לציבור. ניוז קורפ, הקונצרן התקשורתי שמחזיק בוול סטריט ג'ורנל, מכר ל-OpenAI גישה לארכיון הכתבות שלו תמורת יותר מ-250 מיליון דולר על פני 5 שנים. "רדיט", פורום הדיונים הגדול בעולם, חתם על עסקה עם גוגל ב-60 מיליון דולר לשנה ועם OpenAI בכ-70 מיליון דולר לשנה. שאטרסטוק, בנק התמונות הענק, מכרה גישה למאות מיליוני תמונות ל-Apple, מטא, גוגל ואמזון, הסכמים שהחלו בטווח של 25 עד 50 מיליון דולר והורחבו מאז.

ספרייה ענקית וריקה עם מדפים גבוהים כמעט שוממים, המדגישה מחסור בנתונים לאימון AI.
כמו ספרייה ריקה. אחרי שסיימו לקרוא את הכל. המידע האיכותי לאימון מודלי בינה מלאכותית נהיה דל.

אבל מה עם שאר הדאטה? מה עם הנתונים שלכם? מתווכי דאטה פרטיים פועלים ברחבי השוק הזה, ולפי הערכות בתעשייה, סוגי נתונים שונים נסחרים במחירים שונים בתכלית: שיחות טקסט ופרטי תקשורת, רשומות רפואיות, קוד תוכנה ממאגרים ארגוניים, וסרטוני וידאו מתויגים, כולם הפכו לסחורה בעלת ערך כלכלי ממשי. הנתונים שלכם שווים כסף. רק לא לכם.

התיק הרפואי שלכם נמכר

הפער בין מה שאנשים מאמינים שהנתונים הרפואיים שלהם שווים לבין מה שמשלמים עליהם בפועל הוא תהום של ממש. פריצת הסייבר של Change Healthcare ב-2024, חברת בת של UnitedHealth Group, חשפה נתונים של עשרות מיליוני אמריקאים. כאשר מחלקים את סכום הכופר שדווח במספר הרשומות שנחשפו, מתקבלת עלות של סנטים בודדים לרשומה, שבר זעיר ממה שאנשים מצפים לקבל עבור המידע האישי שלהם.

רשומות רפואיות שונות נסחרות בטווחי מחירים רחבים בהתאם לסוגן ולרמת הפירוט שלהן: רשומות רפואה ראשונית בסיסיות נחשבות לבעלות ערך נמוך יחסית, בעוד שרשומות אונקולוגיות ונתונים גנומיים המשולבים עם מידע קליני נחשבים לבעלי ערך גבוה במיוחד. אלו לא מחירים חד-פעמיים; זה הכנסות מצטברות ממכירות חוזרות ללקוחות שונים לאורך זמן.

מסמכים רפואיים וכדורים מתפזרים לרשת דיגיטלית, סמל להפרת פרטיות וניצול דאטה אישי רגיש על ידי AI.
התיק הרפואי שלכם הופך לסחורה דיגיטלית יקרה? גלו מי מרוויח ממידע הבריאות האישי שלכם.

חברת 23andMe, שמכרה ערכות בדיקת DNA ביתיות לצרכנים, אספה נתונים גנטיים ממיליוני אנשים. מודל העסקים שלה כלל גם מכירת גישה לנתונים לחברות תרופות, ביניהן GlaxoSmithKline. ב-2025 הגישה החברה בקשה לפשיטת רגל ונמכרה בשווי הנמוך בהרבה משווי השיא שלה. המשתמשים שמסרו את המידע הביולוגי האינטימי ביותר שלהם גילו שהוא הפך לנכס בעסקאות תאגידיות שאין להם שום שליטה עליהן.

אז מה לגבי ההגנה החוקית? חוק HIPAA האמריקאי, שאמור להגן על פרטיות המידע הרפואי, מוגבל בהיקף הכיסוי שלו. כל השאר פתוח לניצול מסחרי: חיפושים ברשת על תסמינים, נתוני שעון חכם, אפליקציות כושר, היסטוריית קניות של תרופות, אף אחד מאלה אינו מוגן. דיווחים שונים חשפו שפיקסלי מעקב של חברות טכנולוגיה גדולות מוטמעים באתרי בתי חולים וקליניקות, ואיש לא ביקש את רשותכם.

מה דעתך על הכתבה?

תגובות (0)

התגובה תיבדק ותפורסם לאחר אישור מנהלי האתר.

אין עדיין תגובות. היו הראשונים להגיב!