דלג לתוכן (מקש קיצור 's')
חדשות

חדשות והודעות הפקולטה למדעי המחשב ע"ש הנרי ומרילין טאוב

ברכות לרום הימלשטיין ועמית לוי, סטודנטים לתואר שני בפקולטה, על קבלת ציון לשבח במסגרת פרס המחקר הלאומי הישראלי לבטיחות בבינה מלאכותית
Sunday, June 21, 2026

ברכות לרום הימלשטיין ועמית לוי, סטודנטים לתארים מתקדמים בפקולטה, בהנחיית פרופ' אבי מנדלסון וד"ר ברית יונגמן, על קבלת ציון לשבח במסגרת פרס המחקר הלאומי הישראלי לבטיחות בבינה מלאכותית!

מחקרם, "Silenced Biases: The Dark Side LLMs Learned to Refuse" הוצג בכנס AAAI 2026 בסינגפור, ואף נבחר להצגה פרונטלית מתוך עשרות אלפי עבודות שהוגשו לכנס.

במחקר חשפו החוקרים כשל משמעותי באופן שבו נהוג למדוד הטיות במודלי בינה מלאכותית. הם הראו כי במקרים רבים מודלים נראים "הוגנים" רק משום שהם מסרבים לענות על שאלות רגישות, בעוד שהטיות וסטריאוטיפים עדיין קיימים בייצוגים הפנימיים שלהם.

כדי להתמודד עם הבעיה פיתחו החוקרים דרך חדשנית למדוד את ההטיות הללו בצורה מדויקת יותר, גם כאשר המודל מנסה להימנע ממתן תשובה. הם הבחינו שבנצ׳מרקים רבים, המשמשים גם במחקר וגם בחברות הטכנולוגיה הגדולות, עלולים למדוד את רמת ההטיה של המודל באופן שגוי. 

לדוגמה, כדי לבדוק אם מודל מקשר מקצועות מסוימים לגברים או לנשים, או תכונות חיוביות ושליליות לקבוצות לאומיות, דתיות או אתניות, מציגים לו שאלות רב־ברירה. לצד האפשרויות מופיעה גם תשובה כמו -"אי אפשר לקבוע על סמך המידע הנתון”. כאשר המודל בוחר באפשרות הזאת, המדד עשוי לפרש אותו כמודל הוגן.
אלא שהמודל לא בהכרח בוחר לסרב משום שאין לו העדפה ואינו משקף בהכרח את מה שהמודל למד או את ההעדפות הקיימות בייצוגים הפנימיים שלו.

הקבוצה חקרה את הנושא וגילתה שכאשר גורמים למודל לענות במקום לסרב, נחשפים סטריאוטיפים חמורים שלא הופיעו במדידה הרגילה.
בעקבות התוצאות הם פיתחו שיטת הערכה חדשה ובנו את Silenced Bias Benchmark ‏(SBB) - בנצ׳מרק הכולל אלפי שאלות, עשרות נושאים ומגוון רחב של קבוצות דמוגרפיות, באמצעותו הם בחנו מספר משפחות של מודלי שפה והראו שקיים פער משמעותי בין ההתנהגות החיצונית של המודל לבין ההעדפות החבויות בתוכו.

כל הכבוד!

[בחזרה לאינדקס החדשות]