יום חמישי, 13 ביוני 2013

מה שברני הדינוזאור לא יודע

"אמנם מר"ן ברני הדינוזאור טוען ש"כל אחד הוא מיוחד מאוד", אבל זה לא נכון. כולנו סטטיסטיקה, תודה לאל."

אני שמח שעירית לינור פרסמה את הפוסט הזה. הוא נתן לי רעיונות לפחות לשני פוסטים. זה הראשון.

בתור הקדמה, אפשר לקרוא את הפוסט המקורי (אבל לא חייבים).

אני אשאיר בצד את החלקים שאני לא מבין בהם כלום (ברני הדינוזאור ואלוהים) ואדבר על החלק במשפט המחץ הזה שבו אני כן קצת מבין, סטטיסטיקה.
אמנם עירית לינור מזהה סטטיסטיקה עם "כולנו אותו הדבר" אבל זה לא נכון. זה ממש לא נכון. אם רק עירית לינור הייתה נופלת לטעות הזאת, שיהיה, אבל היא לא היחידה. זאת טעות נפוצה, נפוצה מדיי.
ההנחה הבסיסית של ניתוחים סטטיסטיים היא שכל אחד הוא מיוחד. בלי זה אין משמעות למודלים סטטיסטיים. מה הכוונה ?
המטרה של ניתוחים סטטיסטיים היא ללמוד מה הם הגורמים המשפיעים על תופעה. בלשון סטטיסטית מחקרית ה"תופעה" נקראת "משתנה תלוי" או "משנה מטרה". אני אתאר בקצרה (ובלי נוסחאות) איך בונים מודל סטטיסטי. נאמר שאנחנו מעוניינים לבחון את הגורמים המשפיעים על גובה המשכורת של עובד. לרשותנו עומד קובץ נתונים של סקר הכנסות ויש בו תיעוד של כמה אלפי אנשים, משכורותיהם ועוד פרטים על דמוגרפיים ופרטים על אופי העבודה של המשיב לסקר.
עכשיו נשחק, אנחנו צריכים לנחש את המשכורת של כל אחד מהמשיבים לסקר. המטרה היא לתת "ניחושים" כך שהטעויות שלנו יהיו מינימאליות. כשאין מידע על המשיב הספציפי, הניחוש הטוב ביותר שנוכל לתת יהיה הממוצע. הסיבה היא שהממוצע מחושב כך שכל ה"טעויות" כלפי מטה (למשל, ניחשתי ששכרו של אדם הוא 10,000 ₪ אבל בעצם הוא 8,000 ₪) מתקזזות עם הטעויות כלפי מעלה (למשל, "ניחשתי" ששכרו של אדם הוא 10,000 ₪ אבל בעצם הוא 12,000 ₪). יותר מזה, כשאני מעריך את ה"ניחושים", אני רוצה "להיענש" על "טעויות" גדולות יותר מאשר על "טעויות" קטנות. לכן, נעלה בריבוע את כל ה"טעויות" כך שהגדולות יגדלו יותר מהקטנות וכל הטעויות יהפכו להיות מספרים חיוביים ולכן לא יהיה קיזוז של הטעויות כלפי מעלה וכלפי מטה. נחלק את מה שיצא במספר המשיבים. מה שיצא ידוע בשפה הסטטיסטית בשם "שונות". השונות משמשת כמדד לגודל הטעות של המודל אם השונות גדולה זה אומר שהניחושים שלי פחות טובים ולכן המודל פחות טוב, אם היא קטנה, הניחושים יותר טובים והמודל יותר טוב.
כל זה טוב ויפה נכון במצב שבו לא ידוע מיהו המשיב שאת שכרו מנסים "לנחש". עכשיו נתחיל להתייחס למידע נוסף שיש לנו על המשיב. בסטטיסטית קוראים לזה "להוסיף משתנים למודל". דבר ראשון, יכול להיות שהמשיב הוא בכלל לא משיב, זאת משיבה. מן הידועות הוא שממוצע השכר של נשים שונה ממוצע השכר של גברים. אם כך, במקום את הממוצע הכללי, עדיף "לנחש" את הממוצע של הנשים (או הגברים) בקובץ הנתונים שלי. עכשיו נמדוד שוב את הטעויות ונחשב מתוכן את השונות. מה שיוצא הוא מספר קטן יותר ממה שיצא קודם. כלומר, שימוש במידע נוסף גרם לי ליצור ניחושים טובים יותר. אחר כך אפשר להתייחס למידע נוסף, למשל, האם למשיב\משיבה שלנו יש השכלה אקדמאית. עכשיו "ננחש" לכל אחד\אחת את אחד מארבעה ממוצעים (גבר אקדמאי, אישה אקדמאית, גבר ללא השכלה אקדמאית, אישה ללא השכלה אקדמאית) ונקטין את מדד הטעויות שלנו עוד יותר.
בלשון סטטיסטית קוראים להפרש בין ערכי מדד הטעות לפני הוספת המשתנים ואחרי הוספת המשתנים בשם "שונות מוסברת". המונח "שונות מוסברת" הוא הבסיס לכל ניתוח סטטיסטי (לפחות במדעי החברה). אם גורם (למשל מגדר או השכלה בדוגמא שלנו) "מסביר" חלק גדול של השונות זה אומר שיש לו השפעה גדולה על ה"משתנה התלוי".
אחרי שמשתמשים בכל המידע שיש בקובץ הנתונים, מה שקראנו "להוסיף משתנים" ואחרי שהסברנו עוד ועוד מהשונות, תמיד, אבל תמיד, נשארת שונות. כלומר, עדיין אין "ניחוש" מדויק לכל אחד. השונות שנשארת מאחור מכונה "שונות בלתי מוסברת". כפי כתבתי קודם, ככל שכמות הטעויות (כלומר השונות הבלתי מוסברת) קטנות יותר, כך המודל טוב יותר. את זה בודקים על ידי בדיקת היחס בין ה"שונות המוסברת" ל"שונות הבלתי מוסברת". ככל שהיחס הזה גדול יותר, חלק גדול יותר של השונות מוסבר ולכן המודל טוב יותר.

עכשיו אני מרגיש את העגבניות הרקובות כבר פוגעות בי ואנשים בקהל צורחים "קיבינימט, מה הXXX הזה קשור?".
אז תנו לי שתי דקות לנגב את העגבניות ואסביר.
ה"טעות" שנשארת, נקראת בסטטיסטית "אפסילון". מי שנתן את השם הזה רצה לומר שהטעויות שנשארו אחרי המודל הן קטנות, מקריות ובסך הכל לא משמעותיות. גם אני חשבתי פעם ככה. אבל אז הלכתי ללמוד אצל אחד האנשים הכי חכמים שהכרתי. פרופסור גיא סטקלוב (היום ראש המחלקה לסוציולוגיה האוניברסיטה העברית). משפט אחד שלו גרם לי להבין את העניין ולהבין למה עירית לינור כל כך טועה. הוא אמר שהאפסילון הזה (הטעות שנשארת) נראה קטן אבל הוא מבטא את כל מה שלא מדדנו או במילים אחרות, כל העולם. חשוב תמיד לזכור שבמודלים סטטיסטיים רק מה שמדדנו מגיע לביטוי. בגלל שלא ניתן למדוד הכל (במיוחד כשעוסקים באנשים), תמיד נשארות טעויות כאלו. אלו ההבדלים בין האנשים שיש להם את אותם הערכים במדידות שאותן עשינו.

כל סטטיסטיקאי יודע שאנשים שונים זה מזה מכיוון שה"טעויות" האלו הן ההבדלים בין האנשים שהם אותו הדבר.

תגובה 1: