אנליטיקת כדורגל

אני לא בטוח אם יש עניין לנושא הזה, אבל @SantiagoBernabeu הבטיח שכמות המתעניינים גדולה ממש מאפס, ותכלס זה כבר לא מאוד שונה כמותית מדיון השחמט שפתחתי, אז יאללה - פותח דיון על שילוב בין שני התחביבים הגדולים ביותר שלי - מתמטיקה וכדורגל.

אז באופן כללי התחום של sports analytics נמצא בעלייה גדולה מאז פרסום הסרט מאניבול ב-2011, שמבוסס על ספר שעוקב אחרי הסיפור האמיתי של קבוצת בייסבול עם תקציב נמוך, שהבינה שאם היא תעשה בדיוק מה שעושות הקבוצות עם התקציב הגבוה בליגה, היא תצליח פחות מהן, ולכן היא צריכה לעשות דברים אחרת. היא החליטה להעסיק כלכלן בתור העוזר של המנהל המקצועי, ולגייס שחקנים על בסיס תובנות של אנליטיקת בייסבול (באופן ספציפי ובהפשטה מסוימת - יש תכונה של שחקני בייסבול שהייתה מאוד קורלטיבית להצלחה ולא קורלטיבית לשכר - כלומר היה כשל שוק שהיא לא הייתה מוערכת מספיק - אז הם ניצלו את זה כדי להביא שחקנים טובים בזול). הם הצליחו להגיע לביצועים הרבה מעל התקציב שלהם, ואז כולם בתעשייה התחילו להשתמש בזה, ואז הלך להם היתרון היחסי (והיום התכונה הזו קורלטיבית כבר גם לשכר).

ובחזרה לכדורגל - football analyitcs. היום אין למיטב ידיעתי אף מועדון בפרמייר ליג שלא מעסיק לפחות data scientist אחד. אפשר להתווכח אם אותם מתמטיקאים נמצאים שם ליופי או אשכרה לוקחים חלק פעיל בקבלת ההחלטות, אבל נתעלם כרגע מהנקודה הזו. יש מועדונים שממש משתמשים באנליטיקס כדרך קיום, שניים מהבולטים בהם הם ברנטפורד וברייטון - שבגדול נרכשו על ידי שני אוהדים-מתמטיקאים שעשו את הכסף שלהם ממודלים מתמטיים של הימורי ספורט. גם ליברפול ידועה במחלקת הדטא החזקה במיוחד שלה.

זהו, אז זה הדיון שבו נוכל לדבר על התחום. המלצתי בעבר על הקורס החינמי הבא לכל מי שרוצה להיכנס קצת למתמטיקה של הדברים:

הרקע - בזמן הקורונה כשכולנו היינו לכודים בבית, התיישבו כמה חבר’ה לדבר על איך הם משתמשים במתמטיקה בעבודה שלהם בתוך מועדוני כדורגל. מככבים שם בין היתר דוקטורים לפיזיקה מהארוורד, ואנשים עם ניסיון תעסוקתי במועדוני הכדורגל של ברצלונה, מנצ’סטר סיטי וליברפול.

למטיבי לכת, אינסוף חומר מהתעשייה ניתן למצוא בלינק הבא:

ומי שיותר בקטע של מאמרים אקדמיים יכול לקרוא פה:

השיחה עם @SantiagoBernabeu הייתה לפני כמה שבועות. מה שנתן לי את הפוש הסופי לפתוח את הדיון הוא הרצון לשתף ראיון שאני רואה ביוטיוב כרגע:

רק התחלתי אותו, ייתכן שהוא משעמם. ראיון אחר עם אותו בחור (שפיתח את הקורס שאיתו התחלתי את הדיון) ששמעתי ואני ממליץ עליו בלב שלב נמצא פה:

יאללה מתמטיקה :slight_smile:

14 לייקים

שני דברים להגיד בעניין:

א. כן, זה מעניין.

ב. אני צריך זמן לעבור על כל מה ששלחת בשביל אשכרה ארגיש שאני יכול לקחת חלק בדיון

לייק 1

תכתוב על הדוקטורט אם זה לא סודי @Ender

כידוע לך אישית אני סקפטי מאוד.

האם יש Oakland Athletics בכדורגל? או ג’נ’רל מנג’ר כמו בילי בין ממאניבול שאשכרה יקח את האנליטיקות האלו ברצינות?

ברפואה התחום הרבה יותר משמעותי ועדיין העיקר מתפספס מסיבות דומות. על הכל כנראה שוחחתי עם אדם אבל אולי זה בטעות יעניין מישהו:

  • בהימורים חיזוי זו משימה יחסית קלה מכיוון שההחלטה להמר על תוצאה לא משפיעה ישירות על הסיכוי לתוצאה, האתגר המהותי הוא לא לחזות את ההסתברות לאירוע אלא לחזות את ההסתברות לאירוע תחת אסטרטגיות שונות. לכן בכל קורס ML למתחילים יש prediction אבל כמעט ואין counterfactual-prediction והספרות בנושא כמעט ולא קיימת (יש לי ערוץ טלגרם בנושא אם זה אשכרה מעניין מישהו).
  • בחיל אוויר מי שמחליט זה הטייס, בעולם הרפואה מי שמחליט זה הרופא ובכדורגל מי שמנהל מקצועית את המועדון זה דקו בברצלונה או רפאלוב במכבי חיפה. תרבותית, מי שמקבל את ההחלטות הוא ממש לא איש דאטא ובמקרה הטוב האנליסטים יכולים לייצר מוצרים שתומכים בקבלת החלטות.
  • מדברים המון על big-data, אבל רוב המודלים פשוט מתעלמים לחלוטין מהדאטא הקיים וזה כולל כל השמות המפוצצים שאולי שמעתם עליהם (“רשתות נוירוניות” וכו’). אני לא יודע איך זה בכדורגל, אבל ברפואה מימד שנזנח זה הזמן לאירוע (time-to-event) וחומרת האירוע (multi/ordinal state), לרוב מסתפקים בכן / לא.
  • מהפכת הLLM מביאה אפילו עוד זבל לשולחן מכיוון שהיא גורמת לאנשים לחשוב שchat-gpt ודומיו מסוגלים לחזות (הם לא).
  • בניגוד לרפואה אין RCT (ניסויים מבוקרים) אלא אם חושבים על משחקי אימון כמעין ניסויים, כלומר כל הדאטא תצפיתי וזה הופך את הכל לקשה הרבה יותר.
  • בניגוד לענפי ספורט אחרים (כל הזבל האמריקאי שדורש זמן מסך לפרסומות - בייסבול, כדורסל, פוטבול) האירועים תלויים מאוד אחד בשני ואי אפשר באמת לבודד אותם למעט אירועים נקודתיים ויחסית משעממים כמו קרנות או בעיטות חופשיות.

אם כבר פותחים, כל תחום הסטטיסטיקה בעיני נחטף לפני מאה שנה על ידי חבורה של גזענים יהירים. אני נוטה להיות במחנה שתומך במבחן “העיניים”, אבל הסיבה לכך היא שהמתודולוגיה לרוב פשוט דפוקה מהבסיס.

5 לייקים

זו שאלה טובה. בדיוק בסרטון הראשון שהבאתי (שסיימתי לראות בינתיים - ועכשיו ממליץ עליו כמו על הסרטון השני) סאמפטר אומר שאין לנו ממש מקרה הצלחה בולט בכדורגל עדיין, שמקביל לאייז מהבייסבול. הוא מציין את ליברפול בתור מי שמשתמשים במודלים מתקדמים, ואת ברייטון וברנטפורד בתור מי שמשתמשים בסטטיסטיקה יחסית בסיסית (שזה עדיין יותר מרוב הקבוצות בעולם), ובעיקר - מתנהלים כמועדון מסודר (ויש בין הדברים קורלציה חזקה, גם אם לא בהכרח סיבתיות). הוא אגב מזכיר את ברצלונה בתור מועדון שבנה צוות דטא חזק מאוד, אבל לא בדיוק איפשר לצוות להשפיע על קבלת ההחלטות (עיין ערך דקו/רפאלוב והמאמר שקישרתי אליו מהניו יורק טיימס), ולכן איש הדטא הבכיר עזב.

האם ניתן לקבוע שליברפול לקחו אליפות בזכות צוות דטא חזק, ולא בזכות מאמן היסטורי שהביא לפני זה אליפויות בק2בק לדורטמונד הקטנה הרבה יותר? לא בטוח, אבל בוודאי יהיה מי שינסה:

אני חושב שהמקרים של ברייטון וברנטפורד (ושל קבוצת האחות של ברנטפורד בדנמרק, מיטילנד) הרבה יותר מובהקים. ברנטפורד ירדו לליגה השנייה ב-1994. המתמטיקאי רכש אותם ב-2012 כשהם בליגה השלישית. עלו ב-2014 לליגה השנייה, חזרו לפרמייר ליג ב-2021, ובתחושה יחסית הולכים קדימה כל הזמן. יש כל מיני סרטונים שמתייחסים לזה ברמה זו או אחרת: פה, פה, פה, ופה.

מעניין, יכול להרחיב? :slight_smile:
(במהות לא אמירה מאוד מפתיעה כשהיא באה מאיש של כת ההסקה הסיבתית)
(אני גם חבר בכת הזו…)

אני קצת לא מבין את הטענה הזאת. אפשר לדבר על איך הדברים בהכרח נמדדים כי הטענה היא שיש שונים בין הכלים והאופל בו הם אוספים פרמטרים, אבל בפרמטרים ישנם. משחק אימון הוא משהו שלא ממש עוקבים אחריו, אבל אתה יכול בהסתכלות רחבה לדבר על תנאים דומים כשאתה מייצר השוואה בין שחקנים בטורנירים זהים כמו נגיד ליגה.

איפה שאנחנו מחפשים עוד אנאליטיקס זה אספקטים של performance כמו נגיד מספר ספרינטים שהפך לעוד פרמטר שמצביע על הצלחה של קבוצה. הבעיה היא שהוא לא חשוף לאף אחד, לפחות לא באמצעים המוכרים לכולם.

מה שכן חסר לי זאת הסתכלות קיימת על המאגרים והאופן בו המידע נאסף. או זה יכול מעט לסבר את האוזן בכל הנוגע אליך אנחנו מקבלים את המידע ואיזה מידע מוצע עבורינו

לייק 1

גלטון, פירסון, פישר ודומיהם היו גזענים במובן הכי פשוט של המילה וההשפעה שלהם על התורה הנאצית היתה ישירה. פירסון לדוגמה התנגד להגירה של יהודים לבריטניה מתוך פחד שאלו יחלישו את המקומיים מבחינה גזעית, למעשה ההערצה שלו לפרוסים/גרמנים גרמה לו לשנות את ההשם שלו מCarl לKarl.

ההבדל בין כת לבין דת זה הגודל :slight_smile:
וברצינות - גם גדולי הפריקווינטיסטים לא יכולים לפסול הסקה סיבתית, הביקורת המשמעותית היחידה היא היכולת ליישם מודלים סיבתיים בפרקטיקה. מצד שני זה לא שיש מישהו שמבין מה זה באמת אומר p.value, רווח-סמך וכו’.

זו אולי המיסקונספציה הכי בעייתית בעולם הדאטא המודרני, המון דגש על איסוף נתונים (מילים מפוצצות כמו ביג דאטא וכו’) ומעט דגש על השאלת נתונים מתצפיות דומות שזה בתכלס מה שכולם כאן עושים בפורום.

מה היה קורה אם מסי היה דופק ספרינטים על ימין ועל שמאל במקום ללכת חצי משחק?
מצד אחד הפעולות היו פחות חדות, מצד שני משחק הלחץ היה אפקטיבי יותר. האם זו אסטרטגיה טובה יותר? בתכלס אי אפשר לדעת מכיוון שאין ניסוי מבוקר.

זה לא עניין של איך לאסוף נתונים אלא עניין של השאלת נתונים מתצפיות קרובות. למשל סוארס לוחץ כמו חולה נפש והפעולות שלו פחות חדות, ניתן להניח שהתוצאה תהיה דומה אצל מסי אבל קשה מאוד להעריך מה הרווח ומה ההפסד.

@Uriah הרגע אמרת זבל על פוטבול אמריקאי? אולי אני כבר לא שמח שחזרת… חילול הקודש ממש!

אדם, מה עם יוסטון רוקטס והשלשות? חתיכת סיפור ביחס לאנליטיקס וגם קצת ביחס לקריסה שבאה אח’'כ ולזה שדריל מורי לא מצליח לשחזר את ההישגים.

אני מכיר רק פוטבול אחד וזה לא אמריקאי…

אני לא מבין גדול באנליטיקת כדורסל אבל בוודאי שהתחום קיים.

לגבי הרוקטס והשלשות - זה שזריקות חצי מרחק הן כלי לא יעיל באופן כללי ביחס לחלופות של מתחת לסל ושל שלשה זה לא מאוד מפתיע (בדומה לבעיטות מחוץ לרחבה בכדורגל). לא ברור שהמסקנה המתבקשת היא לא לזרוק זריקות כאלה כמעט בכלל (משיקולים של תורת המשחקים למשל, כדאי לפעמים לשלב בין האסטרטגיה הכי יעילה שלך לבין אסטרטגיה פחות יעילה, כדי להקשות על היריב להתכונן אליך).

מזכיר לי גם את ה trust the process של פילי. אולי זה פחות אנליטיקס מתקדם ויותר ניהול “חכם” של מועדון (נטו ברמת ניצול החוקים, יש עם זה בעיות אחרות מן הסתם…), מה שקצת מזכיר אולי את ברנטפורד (שאחד הצעדים הראשונים שלהם היה לסגור את מחלקת הנוער כי הם לא יכולים להתחרות עם טריליון מועדוני העל של לונדון, ובמקום זה החתימו בוגרי אקדמיה של הגדולות שנדחקו החוצה אחרי גיל נוער).

העניין שדריל מורי הוא GM שהגיע מתחום האנליטיקס. הוא יישם מדיניות משחק חדשה, התמסר אליה, וכמעט העיף את גולדן סטייט הגדולה. אולי אסטרטגית הוא טעה, אבל סטטיסטית זה הצליח לו כולל מדיניות רכש וכולל סט תרגילים קטן יותר באימונים.

אה כמובן, אני לא טוען שהוא טועה. הוא מבין בזה הרבה יותר ממני מן הסתם :sweat_smile:

האמירה שלי שלפעמים משתלם אסטרטגית לעשות אסטרטגיה לא יעילה היא אמירה כללית. איפה בדיוק עובר הגבול תלוי בהמון גורמים ותלוי בכל מקרה לגופו. תחשוב למשל על פנדלים, שגם אם יותר קל לך לבעוט ימינה מאשר שמאלה, כדאי לפעמים לבעוט גם שמאלה כי אחרת שוערים תמיד יקפצו נכון נגדך.

אגב, ופה נלך קצת לעולמות של כלכלה התנהגותית ופסיכולוגיית ספורט - בפנדלים בכלל יש תופעה של סאב אופטימליות, גם של השוערים וגם של הבועטים. בועט יימנע מבעיטות יעילות שעלולות ללכת מחוץ למסגרת כי יותר מביך ללכת מחוץ למסגרת מאשר ששוער יהדוף לך, ושוער יימנע מעמידה במרכז השער כי יותר מביך לספוג כשעמדת במרכז השער מאשר לספוג כשזינקת לא נכון. אם אני לא טועה, האמירות האלה מגובות במחקר, שנעשה אפילו על ידי פרופסור ישראלי - מיקי בר-אלי.

מחילה @Cockroach_Crazy, אבל הצפייה בNBA (יותר נכון ביוקיץ’) גרמה לי להיות אנטי-אמריקאי.
חצי מהזמן אני מחכה שהמשחק יתחדש, בפוטבול זה אחרת?

נדמה לי שבאופן כללי בייסבול/פוטבול/באסקטבול הם הרבה פחות כאוטיים מכדורגל.

צריך לעשות סוויצ’ במחשבה כשרואים ספורט אמריקאי.

חברים, אוכל, נדברים על דברים תוך כדי (בפרסומות כמובן, במשחק לא מדברים) וכו.

החלק היפה בפוטבול שהוא משחק המתומצת לרגעים בודדים, אתה מחכה להם, הם נגמרים אחרי 4-5 שניות, ורוב, המשחק עם האסטרטגיה והמצ’אפים. פוטבול זה המשחק הכי מורכב מבחינת כמות תרגילים וכמות מערכים, זה שחמט רק עם אנשים אמיתיים.

זה דיון שהוא רק סביב מאניבול במובן המובהק של המילה? כנראה שרוב האנשים יסכימו שעוד לא מצאו דרך למדל את המשחק כמו ענפי ספורט אחרים. זה לא אומר שאין לזה שימוש…

כנראה שהסוויט ספוט הוא עדיין לא מאניבול אבל בוודאי שיש מקום לאנליסטים בצוותים מקצועיים.

אני חושב שמדובר בנושאים מספיק איזוטריים כדי לאחד כמה מהם ביחד.

אנליסטים זו מילה טריקית. יש מה שנקרא performance analyst או video analyst. כשמו כן הוא, מדובר בניתוח וידאו. כרונולוגית זה הגיע לכדורגל לפני שהגיע data analyst או data scientist שזה חבר’ה שעובדים יותר עם מספרים. אם על האחרון אמרתי שהיום יש כזה בכל קבוצה באנגליה, אז לגבי הראשון יש כזה היום בכל קבוצה בישראל אפילו. בין אם זה בוגרי רדווד ובין אם זה בוגרי קורס אנליסטים של ספורט פאנל או של ההתאחדות לכדורגל.

ומה עם, למשל, המקרה הבא:
טוני קרוס פורש והצוות מחליט לאתר לו מחליף בדמות שחקן עם נתונים גבוהים של passes completed ו - packing. איפה זה על הרצף?

בגדול זו התשובה. הדברים האלה לא בינאריים, ויכולה להיות משימה שכמה בעלי תפקידים מסוגלים לבצע.

באופן כללי, כמו שיוסיף למאמן אם הוא יידע לעשות וידאו (הרצאת הוידאו הכי טובה שראיתי עד היום הייתה של ברק בכר), ככה יוסיף לאנליסט אם הוא יידע לעבוד עם דטא (בפרט משימות פשוטות יחסית כמו מה שתיארת).

אם כי ספציפית לעיסוק בדטא עבור אנשים שאינם אנשי דטא, צריך להיזהר מה-danger zone המפורסם של דטא סיינס (לא רק בכדורגל, ובולט מאוד בהייטק, ובתלונות של @Uriah), הזכור לטוב:

למה זה שונה מכל תחום אחר?
כדי להגיע למסקנות משמעותיות, אתה תמיד צריך מומחיות נושאית בנוסף למיומנות הטכנית. חברות fraud analytics או דטה סיינטיסט שעושה growth hacking למוצר צריכות את מי שמבין בתחום, הם מפרים אחד את השני.

כמובן שבתחום הכדורגל המשחק הוא מסובך (או איך שלא תכנה את זה מבחינת המונח הטכני הנכון), ולכן אין דיל מבחן העין בכדורגל כדין מודל שצופה כדאיות של מתן הלוואה (הבנקאי לא מסתכל על אם הלווה בא לו או לא בא לו בטוב בעין ולפי זה מחליט).

מה זה אומר? שמנסים, ימשיכו לנסות, יטעו, ולאט לאט ימצאו יותר ויותר נקודות שאפשר לתת ערך אמיתי וגם אז הוא לא יהיה מדיד לגמרי.

אם אני מביא חלוץ ברור לי שאני רוצה להסתכל על האקס ג׳י שלו ואם אני משחק נגד קבוצה במחזור הבא ברור שמעניין אותי מאיזה צדדים היא מקבלת גולים. אחר כך אני אבדוק אם המגן שמקבל גולים מהצד שלו משחק ואולי המאמן היריב יעשה לי התאמות וכו’. אבל ברור שזה כבר עכשיו כלי שאי אפשר להתעלם ממנו

השאלה המהותית היא האם ההחלטה שלך תהיה data-driven או לחילופין תבדוק אם הנתונים מתיישרים עם האמונה האפריורית שלך.

בכל אופן לדעתי מעמדו של איש הנתונים בעולם הכדורגל הוא הרבה פחות גבוה ממה שמדמיינים.

ישנו ענף ספורט בסגנון הזה שבו המילה האחרונה היא של הדטה? כמו כן, תלוי בסוג ההחלטה וכו’

אני סבור שבעולם האיתור למשל, ואני לא מדבר על ‘לאתר’ את ניקו וויליאמס אלא יותר למצוא זר ליגה שניה בבולגריה - יש בהחלט מקרים בהם הנתונים הם מה שצד את העין. משם צריך ‘לצפות בקלטות’ (ביטוי נפלא לטעמי), וברור שמבחן העין הוא קריטי.

דוגמה נוספת: הכנה למשחק. יתכן מאד שהאנליסט יבחין יבחין ששחקן x נוטה יותר למסור ימינה משמאלה באופן מובהק או ימסור הרבה יותר לשחקן y במקום z. משם תגיע חפירה בוידאו שבה הם יגלו שהרבה פעמים z היה פנוי ולא קיבל את הכדור (ולך תדע מה ההסבר, אולי סתם קשרי חברות). השלב הבא זה להחליט מה לעשות, כלומר להביא את זה לפתחו של המאמן. אולי כלום, כי עדיף לו של y יקבל את הכדור. אולי ידריך את אחד הקשרים שלו להתמקם במקום נכון כדי לסגור את נתיב המסירה.

קשה לי לסווג האם אלו החלטות שהן דטה דריבן או לא. או בקיצור: הנתונים הם מרכיב בשרשרת, לא הפקטור הקובע אבל לפעמים פקטור שבלעדיו לא הייתה מתקבלת ההחלטה מלכתחילה.

מעבר למקרים אנקדוטלים אני לא בטוח שחושבים ככה. אולי אולי בבועת הטוויטר קצת, כי אלה האנליסטים שמהדהדים את עצמם ואז נוצר רושם מוטעה.