יום חמישי, 20 ביוני 2013

על ייחוס, הטיות בחירה ורמי אמיתי

כשחיפשתי נתונים על נשירה מבתי ספר לתזה שלי, דוקטור גוגל הקפיץ לי את הכתבה הזאת. הכתבה כבר די ישנה ומבחינות מסוימות לא רלוונטית אבל היא מאפשרת לי להסביר כמה דברים חשובים על סיבתיות. בכתבה נידונה השאלה האם יש לפרסם את "מדד הנשירה" לצד ממוצעי הבגרות של בתי ספר תיכוניים בישראל. מה בכלל הסיבה שמדדים כאלו יעניינו מישהו ועל מה כל הויכוח ? את התשובה אפשר לסכם במילה "ייחוס". לא מדובר במובן האריסטוקראטי של המילה אלא בשאלה למה אנחנו מייחסים את התופעה. במקרה של בתי ספר, השאלה היא האם אנחנו מייחסים את ההבדלים בממוצעי הבגרויות (ואת שיעור הנשירה) להבדלים בין קבוצות התלמידים או להבדלים בין בתי הספר. זה נשמע קצת אותו הדבר לא ? זה לא. כדי לפשט את העניין בואו ניקח רק שני בתי ספר לדוגמא. נקרא להם א' וב'. בדקנו ומצאנו שממוצע הבגרות בבית הספר א' גבוה יותר. נניח גם שבדקנו לאורך זמן והתוצאה הזאת חוזרת על עצמה כל שנה. האם ניתן לומר כעת שבית ספר א' מכין את התלמידים לבגרות בצורה טובה יותר ? לא. יכול להיות שבתי הספר האלו משרתים אוכלוסיות תלמידים שונות והאוכלוסייה של בית ספר א' עמידה יותר, חזקה יותר או מגיעה ממקומות שבהם מערכת החינוך הטרום תיכונית טובה יותר.

השאלה האם לייחס את ההבדלים בין קבוצות למאפיין של הקבוצה (בית ספר טוב יותר בדוגמא שלנו) או למאפייני היחידים היא שאלה חשובה מאוד במדעי החברה. רבים מהמחקרים במדעי החברה, ולא רק, עוסקים בהבדלים בין קבוצות. דוגמאות ? בבקשה. האם יש הבדל בין השכר הממוצע של נשים לזה של גברים ? האם שחורים נוטים להצביע למפלגה הדמוקראטית יותר מאשר לבנים ? האם אלו שיש להם חיית בית מחלימים מהר יותר מניתוחי לב ? האם הנבדקים שקיבלו את התרופה מרגישים טוב יותר ? האם אלו שהלימונדה ששתו הומתקה בגלוקוז מצליחים יותר במטלה שדורשת הקצאת קשב ? האם אלו שבבדיקת הקולנסקופייה השאירו להם את הצינור ברקטום גם לאחר סיום הבדיקה (אבל את החלק הזה עשו פחות עמוק) יחזרו על הבדיקה דווקא יותר מאלו שבסוף הבדיקה פשוט שחררו אותם ? (התשובה אגב, היא כן). יכול להיות ששמתם לב שבשלושת הדוגמאות הראשונות השיוך לקבוצה הוא תכונה של הנבדק ולכן עורכי המחקר לא יכולים לשלוט על שיוך הנבדק לקבוצה. עורכי המחקר לא יכולים לקחת קבוצה של אנשים חסרי מגדר ולחלק אותם ל"קבוצת הנשים" ו"קבוצת הגברים". צביעת עורם של אנשים לצורך מחקר היא אפשרית אבל אדם שעורו נצבע אינו "לבן" או "שחור" מבחינת המשמעות החברתית של הביטויים. לעומת זאת, חוקרים יכולים לקבוע מי מהנבדקים יקבל תרופה ולמי יעריכו עוד קצת את הבדיקה. השיטה הטובה ביותר לחלוקת נבדקים לקבוצות (מה שנקרא לפעמים "הקצאה") היא הגרלה, חלוקה מקרית. חלוקה מקרית יכולה להתגבר על שתי בעיות שנקראות "הטיות בחירה" ויכולות ליצור טעויות בהסקת המסקנות לגבי ייחוס ההבדלים לנבדקים או לקבוצה.

שני סוגים של הטיות בחירה הן "הטיית בחירה עצמית" ו"הטיית בחירה חיצונית". הטיית בחירה עצמית הוא מצב שבו אנשים בעלי מאפיינים מסוימים נוטים לבחור להשתייך לקבוצה אחת ולא לשנייה. דוגמא, נניח שנרצה לבדוק האם שימוש בתרופה כלשהי עוזר להפסיק לעשן. נחלק את הנבדקים שלנו לשתי קבוצות, קבוצת שתקבל את התרופה האמיתית וקבוצה שתקבל תרופת דמה ונבדוק האם בקבוצה שקיבלה את התרופה האמיתית ירד מספר הסיגריות היומי יותר מאשר בקבוצה שקיבלה את תרופת הדמה. כל זה טוב ויפה, אבל אם נשאל בתחילת התהליך כל נבדק לאיזו קבוצה הוא רוצה להצטרף, סביר להניח שאלו שיש להם יותר מוטיבציה יבחרו בקבוצת התרופה האמיתית ולכן התוצאה הסיבה לירידת כמות הסיגריות היא לא התרופה אלא המוטיבציה. הטיית בחירה חיצונית הוא מצב שבו הנבדקים מחולקים לקבוצות שלא על פי בחירתם אבל בכל זאת בצורה שהקבוצות שונות במאפיין חשוב עוד לפני תחילת המחקר. למשל, אם ניתן לרופא להחליט לאיזו קבוצה לשייך את הנבדקים מהניסוי הקודם, יכול להיות שהוא ישלח את אלו שלדעתו נמצאים בסיכון גבוהה יותר לתחלואה עקב עישון לקבוצה שתקבל את התרופה האמיתית. הבעיה במחקר היא אותה הבעיה.

כלומר, במחקרים בהם מחלקים נבדקים לקבוצות חשוב לעשות זאת באופן מקרי (או לכל הפחות על סמך מידע שאינו קשור לנושא המחקר). אבל מה לגבי מצב שבו בוחנים הבדלים בין קבוצות קיימות ? כפי שאמרנו, לא ניתן להחליט באופן מקרי האם נבדק יהיה גבר או אישה או מה יהיה צבע עורו. הבעיה הזאת מאפיינת כמעט את כל המחקרים שנערכים בשטח ולא במעבדה. ברוב מחקרי השטח אין לחוקר שליטה על חלוקת הנבדקים ולכן תמיד יכולה לעלות השאלה האם ההבדל נובע ממאפייני הנבדקים לפני החלוקה לקבוצות או ממה שקרה לאחר מכן. הדוברים בכתבה מדברים בדיוק על הבעיות האלו. השוואה של בתי ספר שמגיעים אליהם תלמידים משכבות שונות באוכלוסיה (הטיה של בחירה עצמית) ונתוני קבלה שונים בבתי ספר שונים (הטיה של בחירה חיצונית).

על הרקע הזה ניתן גם לקבל את דבריו של רמי אמיתי (שמובאים בסוף הכתבה). רמי אמיתי טוען כי ניסיון לגרום לכל התלמידים לסיים את בית הספר משדר מסר בעייתי שתלמיד יוכל לעשות מה שהוא רוצה ובכל זאת לא יסולק מבית הספר. אם נעזוב לרגע את ענייני המחקר, אני מסכים עם הטיעון הזה וחושב שאין טעם להחזיק בבית הספר תלמיד שהשהות בבית הספר לא מועילה לו (ולא לבית הספר), ואולי גם פוגעת. אבל חשוב לשים לב שזה לא קשור לפרסום מדד נשירה. כיוון שסביר להניח שבכל בית ספר תהיה נשירה מסוימת, המדד משווה בין בתי ספר קיימים ולא בהכרח בין המצב הקיים למצב תיאורטי של אפס נשירה. מה שניתן לטעון הוא שלמטרת השוואה בין בתי ספר המדד בעייתי בגלל הטיות בחירה אישית. יכול להיות שלבית ספר אחד הגיעו יותר תלמידים שיש להם פוטנציאל נשירה ("יש לו פוטנציאל נשירה...") מאשר לבית ספר אחר.

כן ? אז זהו, שלא בדיוק.

המצבים שבהם יש חלוקה מקרית של נבדקים לקבוצות למרות שמדובר במחקר שטח ולא מעבדה הם לא שכיחים אבל קיימים. מה שמעניין הוא שמצב כזה התקיים בכפר סבא בשנים הראשונות לקיומו של בית ספר גלילי. בערך באמצע כיתה ט', כשהגשתי בקשה להתקבל ל"תיכון עיוני" בכפר סבא, ידעתי שאני לא יכול לבחור בין שני בתי הספר העיוניים שיהיו אז בעיר (בתי הספר גלילי וכצנלסון). ידעתי שכל תלמיד שעומד בסף הקבלה (האחיד) של בתי הספר האלו יכול להגיש בקשה ומשובץ לבית הספר על ידי "המחשב של העירייה". את זה ידעתי, מה לא ידעתי ?

לא ידעתי שהמשמעות היא שדווקא ניתן לומר שהבדלים בין בתי הספר לא נובעים מהבדלים בתלמידים שהגיעו לבית  הספר (כי הם חולקו מקרית) אלא מהבדלים בבתי הספר עצמם. לא ידעתי שהמחשב ישבץ אותי בבית הספר גלילי ושרמי אמיתי יהיה מנהל בית הספר שלי. לא ידעתי שאני אהיה חלק מנתוני הנשירה (אם כי אני לא בטוח שזה היה מפתיע אותי). והכי חשוב, לא ידעתי שכמה שנים אחר כך אני אלמד באוניברסיטה על שיטות מחקר ואוכל לכתוב בבלוג שלי: רמי, אם יש לך מדיניות ויש לה נימוקים טובים (וכאמור, אני חושב שכן), תעמוד מאחוריה ועל תנסה להתנגד לפרסום של מדדים שבודקים את התוצאות של המדיניות הזאת.

יום חמישי, 13 ביוני 2013

מה שברני הדינוזאור לא יודע

"אמנם מר"ן ברני הדינוזאור טוען ש"כל אחד הוא מיוחד מאוד", אבל זה לא נכון. כולנו סטטיסטיקה, תודה לאל."

אני שמח שעירית לינור פרסמה את הפוסט הזה. הוא נתן לי רעיונות לפחות לשני פוסטים. זה הראשון.

בתור הקדמה, אפשר לקרוא את הפוסט המקורי (אבל לא חייבים).

אני אשאיר בצד את החלקים שאני לא מבין בהם כלום (ברני הדינוזאור ואלוהים) ואדבר על החלק במשפט המחץ הזה שבו אני כן קצת מבין, סטטיסטיקה.
אמנם עירית לינור מזהה סטטיסטיקה עם "כולנו אותו הדבר" אבל זה לא נכון. זה ממש לא נכון. אם רק עירית לינור הייתה נופלת לטעות הזאת, שיהיה, אבל היא לא היחידה. זאת טעות נפוצה, נפוצה מדיי.
ההנחה הבסיסית של ניתוחים סטטיסטיים היא שכל אחד הוא מיוחד. בלי זה אין משמעות למודלים סטטיסטיים. מה הכוונה ?
המטרה של ניתוחים סטטיסטיים היא ללמוד מה הם הגורמים המשפיעים על תופעה. בלשון סטטיסטית מחקרית ה"תופעה" נקראת "משתנה תלוי" או "משנה מטרה". אני אתאר בקצרה (ובלי נוסחאות) איך בונים מודל סטטיסטי. נאמר שאנחנו מעוניינים לבחון את הגורמים המשפיעים על גובה המשכורת של עובד. לרשותנו עומד קובץ נתונים של סקר הכנסות ויש בו תיעוד של כמה אלפי אנשים, משכורותיהם ועוד פרטים על דמוגרפיים ופרטים על אופי העבודה של המשיב לסקר.
עכשיו נשחק, אנחנו צריכים לנחש את המשכורת של כל אחד מהמשיבים לסקר. המטרה היא לתת "ניחושים" כך שהטעויות שלנו יהיו מינימאליות. כשאין מידע על המשיב הספציפי, הניחוש הטוב ביותר שנוכל לתת יהיה הממוצע. הסיבה היא שהממוצע מחושב כך שכל ה"טעויות" כלפי מטה (למשל, ניחשתי ששכרו של אדם הוא 10,000 ₪ אבל בעצם הוא 8,000 ₪) מתקזזות עם הטעויות כלפי מעלה (למשל, "ניחשתי" ששכרו של אדם הוא 10,000 ₪ אבל בעצם הוא 12,000 ₪). יותר מזה, כשאני מעריך את ה"ניחושים", אני רוצה "להיענש" על "טעויות" גדולות יותר מאשר על "טעויות" קטנות. לכן, נעלה בריבוע את כל ה"טעויות" כך שהגדולות יגדלו יותר מהקטנות וכל הטעויות יהפכו להיות מספרים חיוביים ולכן לא יהיה קיזוז של הטעויות כלפי מעלה וכלפי מטה. נחלק את מה שיצא במספר המשיבים. מה שיצא ידוע בשפה הסטטיסטית בשם "שונות". השונות משמשת כמדד לגודל הטעות של המודל אם השונות גדולה זה אומר שהניחושים שלי פחות טובים ולכן המודל פחות טוב, אם היא קטנה, הניחושים יותר טובים והמודל יותר טוב.
כל זה טוב ויפה נכון במצב שבו לא ידוע מיהו המשיב שאת שכרו מנסים "לנחש". עכשיו נתחיל להתייחס למידע נוסף שיש לנו על המשיב. בסטטיסטית קוראים לזה "להוסיף משתנים למודל". דבר ראשון, יכול להיות שהמשיב הוא בכלל לא משיב, זאת משיבה. מן הידועות הוא שממוצע השכר של נשים שונה ממוצע השכר של גברים. אם כך, במקום את הממוצע הכללי, עדיף "לנחש" את הממוצע של הנשים (או הגברים) בקובץ הנתונים שלי. עכשיו נמדוד שוב את הטעויות ונחשב מתוכן את השונות. מה שיוצא הוא מספר קטן יותר ממה שיצא קודם. כלומר, שימוש במידע נוסף גרם לי ליצור ניחושים טובים יותר. אחר כך אפשר להתייחס למידע נוסף, למשל, האם למשיב\משיבה שלנו יש השכלה אקדמאית. עכשיו "ננחש" לכל אחד\אחת את אחד מארבעה ממוצעים (גבר אקדמאי, אישה אקדמאית, גבר ללא השכלה אקדמאית, אישה ללא השכלה אקדמאית) ונקטין את מדד הטעויות שלנו עוד יותר.
בלשון סטטיסטית קוראים להפרש בין ערכי מדד הטעות לפני הוספת המשתנים ואחרי הוספת המשתנים בשם "שונות מוסברת". המונח "שונות מוסברת" הוא הבסיס לכל ניתוח סטטיסטי (לפחות במדעי החברה). אם גורם (למשל מגדר או השכלה בדוגמא שלנו) "מסביר" חלק גדול של השונות זה אומר שיש לו השפעה גדולה על ה"משתנה התלוי".
אחרי שמשתמשים בכל המידע שיש בקובץ הנתונים, מה שקראנו "להוסיף משתנים" ואחרי שהסברנו עוד ועוד מהשונות, תמיד, אבל תמיד, נשארת שונות. כלומר, עדיין אין "ניחוש" מדויק לכל אחד. השונות שנשארת מאחור מכונה "שונות בלתי מוסברת". כפי כתבתי קודם, ככל שכמות הטעויות (כלומר השונות הבלתי מוסברת) קטנות יותר, כך המודל טוב יותר. את זה בודקים על ידי בדיקת היחס בין ה"שונות המוסברת" ל"שונות הבלתי מוסברת". ככל שהיחס הזה גדול יותר, חלק גדול יותר של השונות מוסבר ולכן המודל טוב יותר.

עכשיו אני מרגיש את העגבניות הרקובות כבר פוגעות בי ואנשים בקהל צורחים "קיבינימט, מה הXXX הזה קשור?".
אז תנו לי שתי דקות לנגב את העגבניות ואסביר.
ה"טעות" שנשארת, נקראת בסטטיסטית "אפסילון". מי שנתן את השם הזה רצה לומר שהטעויות שנשארו אחרי המודל הן קטנות, מקריות ובסך הכל לא משמעותיות. גם אני חשבתי פעם ככה. אבל אז הלכתי ללמוד אצל אחד האנשים הכי חכמים שהכרתי. פרופסור גיא סטקלוב (היום ראש המחלקה לסוציולוגיה האוניברסיטה העברית). משפט אחד שלו גרם לי להבין את העניין ולהבין למה עירית לינור כל כך טועה. הוא אמר שהאפסילון הזה (הטעות שנשארת) נראה קטן אבל הוא מבטא את כל מה שלא מדדנו או במילים אחרות, כל העולם. חשוב תמיד לזכור שבמודלים סטטיסטיים רק מה שמדדנו מגיע לביטוי. בגלל שלא ניתן למדוד הכל (במיוחד כשעוסקים באנשים), תמיד נשארות טעויות כאלו. אלו ההבדלים בין האנשים שיש להם את אותם הערכים במדידות שאותן עשינו.

כל סטטיסטיקאי יודע שאנשים שונים זה מזה מכיוון שה"טעויות" האלו הן ההבדלים בין האנשים שהם אותו הדבר.

יום חמישי, 6 ביוני 2013

דנקנר, מפרץ החזירים ופרקליט השטן

בדה מרקר קראו לזה "שכרון כח". אני לא יודע מה באמת קרה או קורה בישיבות ההנהלה של דנקנר. מה שתפס אותי בכתבה הזאת הוא ההדגמה (לפחות לפי הכתבה) לאחת התופעות הכי מעניינות שאני מכיר בפסיכולוגיה חברתית, ה"חשיבה הקבוצתית" (group think). בניגוד למה שחשבתי כששמעתי לראשונה את המושג הזה לא מדובר על היכולת של קבוצות של מקבלי החלטות לנצל את היכולות של כל חבריהן ולהפיק דיונים והחלטות טובות יותר, ממש לא, בדיוק ההיפך. אפשר לומר שמצב של "חשיבה קבוצתית" הוא ההיפוך של "סיעור מוחות". במצב של חשיבה קבוצתית כל הקבוצה מתחילה לחשוב באופן יותר ויותר אחיד, ביקורות ודעות שונות מושתקות או מורחקות, ומתחילה התעלמות ממידע שיכול לשנות את ההחלטות או את מוקד הדיון. בסופו של דבר אם התהליך הזה ממשיך, מקבלי ההחלטות ידחפו את עצמם (ואת כל מי שמושפע מההחלטות שלהם) ישר לתוך הקטסטרופה. כשהתהליך הזה מתחיל, זה כמעט וודאי. כשתבוא הקטסטרופה כולם נורא יופתעו כי הרי היה צוות של אנשים כל כך חכמים ומלאי מוטיבציה טובה והיו להם מקורות מידע כל כך טובים, אז איך ההחלטות היו כל כך מטומטמות ? לאחר מעשה מסתכלים ופתאום זה נראה ברור לגמרי שנעשתה כאן שטות נוראית. פתאום רואים את כל הסימנים. אגב, ברגע הזה, מי שחושב על המילה "קונספציה", כן, זה בדיוק זה. כמו מחקרים וגילויים אחרים בפסיכולוגיה החברתית, גם ראשית תחום המחקר הזה הוא באירוע שאף אחד לא הצליח להבין אותו. במקרה הזה מדובר על הפלישה למפרץ החזירים (לקרוא כאן על הפרשה). בדיעבד זה באמת נראה משונה. איך מישהו (שלא לדבר על שני נשיאים די גדולים של ארצות הברית שאחד מהם פיקד על מבצע הנחיתה הגדול בהיסטוריה) חושבים שפלישה של שניים שלושה גדודים יכולה לעורר מרי עממי ולהפיל שלטון אהוד. החידוש במושג החשיבה הקבוצתית הוא חיפוש התשובה לא באישיותם של מקבלי החלטות, המידע שעמד (או לא) לרשותם אלא בתהליך שעובר על הקבוצה בדרך להחלטה.
אז מה גורם לתהליך ההרסני הזה ומה מגביר אותו ? פסיכולוגים חברתיים מצביעים על כמה גורמים ומאפיינים. ראשית, אפקט המנהיג. במקרה שבו במרכז הקבוצה נמצא מנהיג חזק וכריזמטי, הנטייה להתנגד להצעות שלו עלולה לקטון עם הזמן. בנוסף, יהיה יותר ויותר קשה להשמיע ביקורת או לנסות להציע תיקונים בתוכניות של המנהיג. בדיונים, קורה פעמים רבות שהמנהיג מביע את דעתו ראשון וכך גורם לנטייה "ליישר קו". שנית, אפקט ה"אויב שבחוץ והאויב שבפנים". קבוצות שעוסקות בקבלת החלטות מול (או נגד) קבוצה אחרת, למשל בפוליטיקה או במצב של תחרות מסחרית, נמצאות בסיכון גבוה יותר לפתח חשיבה קבוצתית. הפחד מפני האויב גורם לחברי הקבוצה "לחפש את הבוגדים" מה שיגרום להאשמות הספקנים בחוסר לויאליות. החלק הזה בתהליך גם מגביר את עצמו על ידי הפחד של המתלבטים להיראות בצד ה"לא נכון". שלישית, ההתלהבות והמוטיבציה. התלהבות היא הדלק של המוטיבציה ומוטיבציה גבוהה היא תנאי כמעט הכרחי למימוש מטרות ותוכניות. הבעיה היא שהתלהבות מפריעה לביקורות להישמע שכן אף אחד לא רוצה להיות "עוכר השמחות". אחד המאפיינים של מצב של חשיבה קבוצתית שגם מגביר את התהליך הוא תחושת אומניפוטנטיות שהולכת ונבנית אצל חברי הקבוצה. התחושה של "אנחנו חזקים ולא יכולים לטעות" (ובמיוחד המנהיג שלנו) הולכת ומשתלטת בהיעדר מידע שיסתור אותה. תופעה נוספת היא קיומם של "שומרי סף". אנשים מתוך הקבוצה שלוקחים על עצמם (בלי שמונו לתפקיד ובלי להיות מודעים להשפעתם) לא לאפשר כניסה של מתנגדים לפגישות הקבוצה וכך מונעים את "ערבוב" המידע והעמדות.
נחזור קצת להיסטוריה, אחרי הפיאסקו במפרץ החזירים, שאלו את עצמם מקבלי ההחלטות בבית הלבן "איך זה קרה" ? וניסו לנקוט אמצעים על מנת להקטין את הסיכון ליפול שוב לאותה המלכודת.
אז מה הן הפעולות שיכולות להקטין את הסיכוי של חשיבה קבוצתית ? השאלה הזאת העסיקה גם חוקרים באקדמיה וגם את אלו שמתעסקים באופן יום יומי בקבלת החלטות בקבוצה (מנהלים, יועצים ארגוניים, קציני מטה ועוד). בגדול, התשובה היא לגוון כמה שאפשר את הדעות הנשמעות בדיונים ואת המידע שעליו מתבססת ההחלטה בסופו של דבר. מבחינה מעשית יש כמה עצות ספציפיות מקובלות. העצה הראשונה מתייחסת למנהיג. מומלץ מאוד שהמנהיג (או מנהל, לא ניכנס כאן להבדלים) יעלה את הנושא לדיון אבל לא יביע את דעתו כבר בתחילת הדיון. חשוב שהמנהיג ייתן לכל הדעות בחדר להישמע. חשוב לעודד ערעור על ההסכמות המושגות על ידי שיתוף אנשים שונים בדיונים ושימוש במקורות מידע מגוונים. יש לתת מקום ולעודד דיון גם בכישלונות (של חברי הקבוצה, הארגון ושיטות העבודה) על מנת "לשבור" את תחושת האומניפוטנטיות. באופן אישי, השיטה האהובה עלי ביותר היא "פרקליטו של השטן". ממנים אדם שתפקידו המוצהר הוא למצוא כשלים, טעויות ומידע שסותר את דעת הקבוצה המתגבשת. בארגונים גדולים ניתן אפילו לקיים שתי יחידות שעוסקות באיסוף מידע ולבקש מהאחת להביא נתונים שסותרים את ההערכה אותה סיפקה השנייה.

שיהיה ברור, למרות שפרקליט השטן הוא תפקיד חשוב, מילויו יגרום להרבה רגשות שליליים כלפי אותו חבר קבוצה. אף אחד לא אוהב את משבית השמחות אבל חייבים לשמוע אותו. הדבר הזה נכון כמובן גם ברמה של מדינה ולכן יש חשיבות מעשית (ולא רק מוסרית) לערכים כמו חופש הביטוי, פלורליזם וקבלת האחר.