דבר ראשון - תודה @Ender על הת’רד הזה. אני בטוח שיש כאן כמה גיקים שיוכלו להנות ממנו, ובעיקר להחכים.
שאלה ראשונה. כולנו שומעים נתונים בסגנון “קבוצה מסויימת ניצחה את היריבה שלה ב25 מתוך 30 המפגשים האחרונים של הקבוצות”. השאלה היא, האם לנתונים אלה יש משמעות?
מצד אחד - למפגשים לפני 15 שנה אין שום קשר לקבוצות הנוכחיות ולכן לא אמור להיות קשר בין התוצאות של לפני 15 שנה להיום. מצד שני - בדרך כלל מועדונים שומרים על רמתם פחות או יותר (כל עוד לא קורים דברים דרמטיים כמו ירידה לליגה הרביעית ע"ע מלאגה או דפור), ולכן הפערים נשמרים, ולכן לסטטיסטיקת הניצחונות של הקבוצות יש משמעות.
בתמצית, השאלה היא האם אפשר להתייחס לסטטיסטיקת התוצאות בין קבוצות כאומד, ועל פיו לחשב הסתברות לניצחון של קבוצה מסויימת על פני האחרת?
האם המדגם של כ20-30 משחקים מספיק כדי לדבר בכלל על סטטיסטיקות של משחקי כדורגל שתוצאותיהן מושפעות מעשרות גורמים?
על פניו מתמטית 30 דגימות זה מספיק כדי ליצור סטטיסטיקה אמינה, אבל האינסטינקט כאוהד כדורגל אומר שלנתונים האלה יש מעט מאוד משמעות. אני גם מניח שגם אם ניתן להתייחס לזה כאומד, יש לו סטיית תקן מאוד גדולה שדיי מכסחת משמעות אפשרית שיש לו. אבל אשמח לשמוע מה עוד אנשים חושבים.
בהימורים ההסתברות לקבל קומבינציה מסוימת (פעמיים 6 נניח) מגיעה מהתפלגות ידועה ואילו הסיטואציה עליה אתה מדבר יותר דומה ל forecasting כשהתצפית אתמול הרבה יותר משמעותית מהתצפית שלשום ותהליך יצירת הדאטא לא ידוע.
אם אתה מכיר את ההתפלגות אז הכל אמור להתכנס יפה, אבל זה קורה במעט מאוד מקרים. הדגמה יפה היא הgalton box (כן, אותו אחד מהפוסט הקודם שלי): לכל כדור יש מסע אקראי בינומי משלו ובקירוב ההתפלגות תצא נורמלית.
Sample Size זה מעין כלל אצבע בעייתי שגם ככה לא באמת רלוונטי למשימה הזאת. באופן כללי מספרי הקסם n>30 או pv<0.05 לא שווים שום דבר, בינאריזציה זה אם כל חטאת בסטטיסטיקה.
בקבלת החלטות אין אפשרות לא לקבל החלטה, אתה משתמש בכל האינפורמציה שיש לך על מנת לאפטם אסטרטגיה.
אין כזה דבר “מספיק” או “לא מספיק”, אתה אומד בצורה הכי טובה שאתה יכול.
אפס משמעות.
המשמעות היחידה שעשויה להיות לנתון כזה היא פסיכולוגית, במידה והשחקנים עצמם מודעים לנתון מה שעשוי לגרום להם לשחק אחרת - וגם אז ההשפעה עשויה להיות בדיוק הפוכה ולגרום להם לשחק “חזק” יותר כדי לנסות ולהפריך את הסטטיסטיקה, ולכן בסה"כ ההשפעות מבטלות זו את זו.
מה שכתבת בהמשך לגבי ‘רמת הקבוצות שנשארת פחות או יותר זהה לאורך השנים’ - הוא לא ממש מדוייק, וגם לא רלוונטי למקרה הזה.
הוא לא מדוייק, כי גם אם בגדול רמת מועדון מסויים נשארת יחסית דומה בד"כ לאורך השנים - מה שמעניין ומשפיע על התוצאה במשחק מחר, הוא בדיוק המידה בה הרמה הזו השתנתה - ובעיקר היחס בינה לבין רמת המועדון שממול (שלא לדבר על מקרים של מועדונים שבהם הרמה כן השתנתה בצורה משמעותית לאורך השנים, החל מיונייטד, סיטי ועד לה קורוניה או סנט אטיין).
והוא לא רלוונטי, כי לרוב מביאים את הסטטיסטיקות האלה דווקא כשהן חריגות (מה שנקרא בלעז צ’רי פיקינג) - נניח שני מועדונים ברמה יחסית דומה, שאחד הפסיד לשני בכמות יחסית חריגה ביחס לפערי הרמות הקטנים, ואז הסטטיסטיקה הזאת באמת חסרת משמעות לחלוטין (בניגוד נניח לאם ניקח את הסטטיסטיקה של ריאל מדריד מול ראיו ואייקנו, לדוגמה, שאז כן יש “משמעות”/סיבה טובה לכך שראיו וייקאנו בד"כ מפסידה לריאל - סיבה שככל הנראה רלוונטית גם למשחק הקרוב).
לסטטיסטיקות האלה יש פחות או יותר את אותה משמעות כמו זו שיש לתוצאות של 10 הטלות מטבע, על תוצאת ההטלה הבאה (בהנחה של מטבע הוגן, כמובן). כלומר, כאמור: אפס משמעות והשפעה.
למעשה, יש להן רק טיפה יותר משמעות מזו, בשל תוצאות המשחקים האחרונים בין שתי הקבוצות (במידה ושוחקו יחסית לאחרונה, כמובן). אם המשחק האחרון ששוחק בין השתיים היה עם סגל שונה לחלוטין, מאמנים שונים, וכו’ - אז המשמעות משתווה לזו של הדוגמה שהבאתי קודם, כלומר - אפס מוחלט.
וכל זה בלי לדבר על זה שלרוב הסטטיסטיקות המומצאות האלה לא מסתכמות “רק” ב’X הפסידה ל-Y ב-25 מתוך 30 המשחקים האחרונים’, אלא לרוב תתובל בעוד שכבה של טשטוש מוחלט של המשמעות בסגנון ‘בכל אחד ממשחקי החוץ ששוחקו במסגרת גביע הליגה’ - שאז גם מעט הקוהרנטיות שהיה לטיעון, מאבד גם הוא את ערכו לחלוטין.
באופן כללי, אינדיקטור סופר פשוט וסופר חזק לניבוי תוצאה של משחקים הוא מודל רגרסיה עם משתנה מסביר אחד בלבד - היחס בין ערכי ה transfermarkt value של קבוצת הבית וקבוצת החוץ. זה לבד תופס בערך 85% ממה שתופסים המודלים הסופר מורכבים שחברות הימורים בונות.
מעבר לאלגנטיות הכללית של התוצאה הזו - זה גם עונה בעקיפין על השאלה שלך. ערך ה transfermarkt value בהווה יותר משמעותי בסדר גודל מכל מיני סיפורים על העבר. במתמטיקה התכונה הזו נקראת מרקוביות - בשביל לנבא את העתיד על בסיס ההווה והעבר, מספיק לדעת את ההווה. כלומר ההיסטוריה לא חשובה. דוגמה אינטואיטיבית - הגעת לעמדה מסוימת בשחמט, ואתה בא לנתח מה כדאי לעשות במסע הבא. מעניין מה העמדה, לא כל כך מעניין (עד כדי דברים כמו האם מותר להצריח) איך הגעת לעמדה.
תודה לכם על התגובות. אכן מעולם לא ייחסתי לזה חשיבות, גם בגלל הסיבות שהסברתם אבל גם כי אני חושב (נטו מתוך אינסטינקט של אוהד) שמומנטום נוכחי של קבוצות הרבה יותר חשוב ממשחקי העבר.
עם זאת, תוצאות מפגשי העבר מקבלות ספוטלייט רחב וניתן למצוא אותם בכל חור. למשל, באפליקציה שבה אני נוהג להתעדכן על תוצאות יש טאב ייעודי למפגשי העבר
בנוסף, אמנם יש מקרים יוצאים מן הכלל (מה שלי קופץ לראש זה ריאל לא מנצחת 17 שנה בריאזור), אבל בסך הכל, לרוב הקבוצות הגדולות יש סטטיסטיקה טובה יותר מול הקטנות יותר, ולקבוצות הגדולות יש בסך הכל סיכויים טובים יותר לנצח את היריבות שלהן. כלומר, יש איזושהי קורלציה ברורה בין השניים.
ניסיתי להימנע כי למה להכניס ראש בריא למיטה מתמטית, אבל אם אתה מתעקש:
יש בקורסרה קורס חמוד על אנליטיקת ספורט
יש שם פרק שנקרא Prediction Models with Sports Data
בפרק הם מתארים את המודל הבא:
יש להם המון דטא של משחקים בפרמייר ליג, עם משתנה תוצאה מהזווית של קבוצת הבית (W/D/L), ועם משתנה מסביר אחד כאמור (לכל משחק, הערך של log of (home TM / away TM))
ואז הם מתאימים מודל שנקרא ordered logistic regression שזה בגדול מודל רגרסיה (כמו y=ax+b המוכר לטוב) אבל כזה שבנוי לא לתוצאה רציפה (למשל מספר ממשי - מחיר של דירה) אלא לתוצאות בדידות שיש ביניהן סדר היררכי (ניצחון - תיקו - הפסד)
ואז הם משווים את התוצאות של המודל הזה על דטא חדש, למודל של פשוט לקחת את יחסי ההימורים על הדטא החדש, וב-85% מהמקרים שני המודלים מסכימים על התוצאה הצפויה.
בהערת אגב, אמרתי שזה משתנה אחד, אבל זה בעצם יש פה הטלה ממרחב תלת מימדי למרחב חד מימדי. המרחב התלת מימדי: השווי של קבוצה אחת, השווי של קבוצה שתיים, ומי מהקבוצות מארחת. המרחב החד מימדי: היחס בין השווי של המארחת לשווי של המתארחת.
כלומר יש פה שני היבטים: מי מהקבוצות טובה (שווה) יותר, ומי מארחת. וצריך לבנות מודל כדי לדעת איזה משקל בדיוק לתת לכל אחד משני הגורמים האלה כשבאים לחזות מה תוצאת המשחק הצפויה. זה ברור שברצלונה פייבוריטית נגד אייבאר גם בבית וגם בחוץ, אבל האם למשל אתלטיקו מדריד פייבוריטית גם כשהיא מגיעה לסאן מאמס של בילבאו? בעולם שבו אין לך יחסי הימורים, זו לא שאלה טריוויאלית.
האמת שזה מעניין ומוזר כאחד, כי טרנספרמרקט לוקח בחשבון נותנים כמו גיל ונותן להם משקל משקל גדול, מה שלא בהכרח מעיד על יכולת. לשחקנים מבוגרים כמעט אין ערך כשלפעמים עדיין מדובר בשחקנים מהשורה הראשונה.
סתם מעניין - בווינר בארץ הם עובדים עם בני אדם שמעריכים את היחסים ופחות עם ׳מודלים׳. מה שמצחיק זה שבדרך כלל כשיש פער הוא נסגר לכיוון הווינר (כלומר היחסים בחברות הזרות מיישרים קו) ולא להפך, ללמדנו שהם יודעים מה הם עושים.
אמת. אם הייתי צריך לחשוב איך לשפר את המודל הזה, הייתי חושב על להוסיף פרמטרים כמו גיל (כדי לתקן את הבעיה שתיארת), ואולי מומנטום (למשל תוצאות של 5 משחקים אחרונים), כדי לנסות לתפוס דברים כמו כושר גרוע (שעדיין לא הספיק לקבל ביטוי בערך טרנספרמרקט מן הסתם). אבל כאמור - זה כסף קטן (שכנראה בדיוק בעזרתו חברות ההימורים עושות את הכסף הגדול שלהן…)
בהחלט מעניין ונשמע מאוד מפתיע. אם אתה יכול להרחיב על שיטת העבודה של ווינר אשמח.
אני חושד אגב שטרנספרמרקט (שהשיטה שלו היא בסוף סוג של חכמת המונים) משמעותית פחות טוב לליגות זניחות כמו ישראל, שיש פחות המונים שצופים בהן. זה יכול אולי להסביר למה הווינר מסוגל לנצח אותם.
יש גם דוגמאות של פרשנים שמצליחים לאורך זמן “לנצח” את יחסי ההימורים:
יש היבט של חכמת המונים שחברות ההימורים יכולות להשתמש בו, ויש היבט שבהינתן שכבר שמו אצלם כסף תחת יחסי הימורים מסוימים, לפעמים משתלם להם לשנות את יחסי ההימורים החדשים שהם מציעים, למשהו שהם פחות מאמינים בו, כדי להבטיח לעצמם רווח.
מעבר לזה כמובן כל העסק בנוי לא רק על זה שהם יודעים יותר טוב ממך, אלא שהם גם גוזרים קופון. אם למשל המשחק שקול (ונניח אין אופציה לתיקו) אז במקום לתת יחס 2 לניצחון של כל אחת מהקבוצות, הם נותנים יחס של 1.9.
אגב, בדיוק נתקלתי במקרה בפוסט נחמד, שמדגים בדיוק ובתמצות את חוסר המשמעות המוחלט של סטטיסטיקות ה’30 המפגשים האחרונים נגמרו כך וכך’ (ולגמרי במקרה (או שלא) - הפוסט הזה הוא של לא אחרים מאשר טרנספר מרקט, שהוזכרו כאן בהמשך הדיון):
רק אדייק אותך - להיפך, פער כזה ביכולת חיזוי התוצאות, הוא דווקא בדיוק המקום שבו המהמרים יכולים לבוא ולעשות כסף. חברות ההימורים עצמן, כמו שכתבת נכון בהמשך, עושות את הכסף שלהם דווקא מחיזוי מדוייק ככל הניתן של התוצאות - ויצירת פער מלאכותי ביחסים, לטובתן.
אם לחברות ההימורים אכן יש פער של 15% בדיוק החיזוי שלהן, לדוגמה, ככל הנראה הן יחפו על הפער הזה באמצעות יצירת יחסים מוטים יותר לטובתן. מכאן שהמטרה שלהן (כמובן מאליו), היא לדייק ככל הניתן את מודלי החיזוי שלהן - על-מנת לתת יחסים אטרקטיביים ככל הניתן ללקוחות שלהן מצד אחד, ומצד שני להבטיח את ‘היתרון של הבית’.
לאלא. אני אומר - מודל פשוט (שכל בוגר שנה א’ בסטטיסטיקה יכול ליצור) כבר נותן לך 85% מהמודל המורכב של חברות ההימורים. התוספת (המסובכת! לפי כלל ה-80/20 הידוע) של ה-15% האחרונים היא בדיוק הסוד העסקי של חברות ההימורים, שבזכותו הם ינצחו בחור חמוד וקצת נאיבי שסיים קורס בסיסי בסטטיסטיקה וחושב שהוא הולך לתת את המכה הגדולה.
לא יודע להגיד הרבה, פשוט מכיר מישהו שזו העבודה שלו.
המתמטיקאי יתמקד במודלים האלה. הכלכלן יגיד שזה מודל כלכלי שתפקידו שהבית תמיד ירוויח, וכחלק מכך המודל המתמטי תפקידו למקסם את הרווח עד שהעצה והביקוש יעשו את שלהם ויכתיבו את היחס.
וואי, אתה מזכיר לי איך גירדתי את הראש ונעתי בחוסר נוחות על הכיסא בשיעור הראשון למבוא לסטטיסטיקה באונ’ כשדיברו על הקטע הזה של n>30.
לגבי הימורי ספורט אגב, ממה שתיחקרתי קצת בעבר מישהו מהתחום, בגדול יש כל מיני יחסי בסיס שמוגדרים מסטטיסטיקות עבר (בסוף, גם הימור פשוט לפי משחק בית/חוץ מבוסס על “היסטוריה”), משם זה מתקדם להשפעות של הימורים בפועל בשווקים שנפתחו להם ההימורים בשלב יותר מוקדם, ואז לאחר הפתיחה של כלל השווקים כמובן שהיחסים נעים לפי ההימורים בפועל לצורך הבטחת הרווח.
גם תחת פרדיגמה פריקווינטיסטית (=מה שמלמדים) כלל האצבע עבור התפלגות הממוצעים לא באמת תקף באותה המידה עבור כל התפלגות. אתה יכול לשחק כאן אם בא לך ולשפוט בעצמך לפי העיניים מתי ההתפלגות נראית נורמלית:
בגדול צריך לחשוד בכל דבר בינארי בסטטיסטיקה גם מבלי להבין יותר מדי לעומק מתמטיקה:
n>=30 זו המקבילה של “עבר את המהירות המותרת”, ההבדל דרמתי מן הסתם אם מדובר ב70 קמ"ש או ב180 קמ"ש.
אם יש כאן מישהו שבטעות עושה קורס בסטטיסטיקה וצריך עזרה אז אישתי מעבירה שיעורים פרטיים
לא יודע מה אתכם אבל כשאמרו לי שהמדגם צריך להיות מעל 30 (והיה עוד תנאי על npq גדול מ5 או משהו כזה) אז רשמתי ולא חשבתי על זה מעולם, זה החרא האחרון שהטריד אותי בלימודים.
בפשטות - זה יחסית קל לזכור (לראייה - כולנו), יחסית קל לקיום, יחסית קל לבדיקה, ובהרבה מקרים יחסית קרוב למציאות. אני חושב אגב שבמדעים מדויקים לא מלמדים את זה, רק במדעי החברה…