Frekvenca X

Frekvenca X: Podatkovno rudarjenje v športu

podatki2

Foto: Flickr

Podatkovni rudarji sistematično iščejo informacije v veliki količini podatkov.  Znanstveniki se vedno bolj poglabljajo tudi v  športne statistike, iz katerih skušajo izluščiti različna pravila in vzorce, prednosti in slabosti nasprotnikov.

Nekateri nogometni klubi s pomočjo podatkovnega rudarjenja skušajo  ugotoviti verjetnost poškodb svojih igralcev, v košarkarski ligi NBA pa želijo moštva s pomočjo tovrstnih analiz optimizirati svojo igro, podatkovno rudarjenje pa je uporabno celo pri športnih stavah!

Statistik in velik poznavalec baseballa Bill James je prve statistične metode razvil že v 70. letih prejšnjega stoletja. Ugotovil je, da skoraj 100 let stare statistike, ki merijo različne dosežke v baseballu, niso najbolj ustrezne in ne prikazujejo prave vrednosti posameznih igralcev.

Primer Oaklanda

Jamesova poplava številk je bila skoraj 30 let le črka na papirju, moč potenciala se je pokazala šele leta 2002, ko je generalni menedžer Oaklanda igralce začel novačiti na podlagi metričnega sistema.

Sistem se je izkazal za odličnega, saj se je Oakland uvrstil v končnico, pred tem pa nanizal 20 zaporednih zmag, kar je še vedno rekord v več kot 100 let stari ligi. Oakland nato sicer ni osvojil naslova, a so podoben sistem prevzele nekatere druge ekipe. Boston je zaradi uporabe tega metričnega sistema osvojil dva naslova prvaka.

Intervju: prof. Rob Schumaker

Poklicali smo Roba Schumakerja, profesorja na univerzi v Clevelandu, ki se ukvarja s podatkovnim rudarjenjem.

Profesor, kaj je športno podatkovno rudarjenje? Kako se je razvilo in kaj je njegov poglavitni cilj?

Športno podatkovno rudarjenje je proces, v katerem iščemo vzorce v številnih informacijah, ki jih imamo o nekem športu ali klubu. S tem skušamo najti prednosti, ki jih ima posamezna ekipa ter slabosti njihovih nasprotnikov. Pri športnem podatkovnem rudarjenju imamo torej na voljo veliko podatkov, z različnimi računalniškimi programi pa nato iščemo skrite vzorce, ki nam pomagajo ugotoviti prednosti in slabosti.

Pred desetimi leti je Oakland v ameriški poklicni ligi v baseballu postal prvi večji klub, ki je izkoristil prednosti podatkovnega rudarjenja, ki sicer obstaja že bistveno dlje. Zakaj je bilo potrebnega toliko časa, da se je tovrstna analiza podatkov preselila v prakso in dokazala svoj potencial?

Res je bilo potrebnega veliko časa. V baseballu je danes znana metoda “sabermetrics” iz družine podatkovnega rudarjenja nastala že v 70. letih, a nikoli ni prestopila v profesionalni šport. To se je zgodilo šele sredi 90-ih let, ko se je generalni menedžer Oaklanda Billy Bean začel poigravati s to idejo. Toliko časa je minilo zato, ker je v športu vedno čutiti odpor, saj so ekipe že dolgo časa navajene delovati po istem receptu.

Polega Oaklanda so bili med baseball moštvi še bolj uspešni Boston Red Sox. Ko je bil njihov generalni menedžer Theo Epstein, je uvedel to metodo in ekipo popeljal do dveh naslovov prvaka. Tako lahko rečemo, da ta sistem deluje, a še vedno ga uporabljajo le redke ekipe. Rad bi videl, da bi ga prevzele vse ekipe.

Zgodovina podatkovnega rudarjenja pa vendarle kaže, da nekatere uveljavljene statistike niso najbolj ustrezne in ne povedo veliko. To velja predvsem za baseball. Kakšna je pot do bolj uporabnih statističnih podatkov?

To je res. Podatkovno rudarjenje skuša najti tiste statistične podatke, ki so tesno povezani s končnim ciljem igre-torej s tekom, dosegom gola, koša … V baseballu so na primer močno precenjeni oziroma narobe uporabljeni podatki o udarcih, cilj igre je namreč zelo povezan s tekom. Ko začnemo gledati po številnih podatkih, tako lahko najdemo tiste podatke, ki so (naj)bolj pomembni za cilj igre.

Si s podatkovnim rudarjenjem pomagajo tudi ekipe na EP v nogometu? (Foto: MMC RTVSLO)

V svoji knjigi navajate koristi podatkovnega rudarstva predvsem za ekipne športe. Pa je lahko takšen pristop uporaben tudi pri individualnih športih?

Seveda, veliko tehnik lahko preslikamo iz ekipnih v individualne športih. Eden najbolj primernih športov je atletika. Tu lahko opazujemo mehaniko gibov posameznega športnika. Na podlagi njihovih telesnih zmožnosti lahko delamo napovedi. Podatkovno rudarjenje lahko uporabimo tudi za številne druge športe. A trik je v vprašanju, kako sistem prenesti v sam šport. Vprašati se je treba, kaj želimo meriti, nato to tudi dovolj natančno izmeriti in na koncu prenesti v šport.

Ena od kritik podatkovnega rudarjenja pravi, da to lahko avtomatizira šport, športniki pa lahko postanejo roboti. Kako gledate na to?

Brez dvoma imajo kritiki vsaj malo prav, saj gledanje in upoštevanje številk deloma res vodi v avtomatizacijo. A še vedno imajo veliko vlogo športnikova motivacija, odločenost, počutje in zdravje. Še vedno obstaja veliko spremenljivk, ki jih podatkovno rudarjenje ne more upoštevati in imajo vpliv na razplet tekme. Mislim, da z uvajanjem podatkovnega rudarjenja šport ne bi postal nezanimiv, saj bi se še vedno dogajale stvari, ki bi nas presenetile.

Podatkovno rudarjenje lahko celo pomaga ugotoviti, kateri športnik je poškodovan. Ali mislite, da ima kakšna ekipa morda razvito celo svojo metodo, ki jo uporablja, a je ne želi razkriti, saj bi s tem izgubila konkurenčno prednost?

Brez dvoma. Sami ste omenili napovedovanje poškodb, to že nekaj časa počnejo v nogometnem klubu Milan. Tam opazujejo biomehanične podatke in jih preverjamo s podatki, pridobljenimi na treningih. S tem iščejo vzorce anomalij, ki bi lahko napovedovale morebitno poškodbo. Nekatere ekipe prav gotovo to počnejo in ne oglašujejo na veliki boben o svojih metodah, da ne bi izgubili potencialno prednost.

Poglejmo tudi primer košarke, kjer obstaja program »B ball«, ki analizira klubske igralce in menjave in omogoča optimizirati igro skozi vso sezono. Mogoče je predvideti določene poteze: če bi se na primer poškodoval nek igralec, kdo bi ga lahko najbolje zamenjal in podobno. A v Ligi NBA pri tem ni skrivnosti, saj vodstvo lige vsaki ekipi dovoljuje uporabo tega programa. Na eni strani ekstrema imamo lahko tako popolne skrivnosti, na drugi pa neki program, ki ga lahko vsi uporabljajo.

Profesor, ob koncu pa še zanimivo vprašanje, ki bo zanimalo tudi zagrete navijače. Je lahko podatkovno rudarjenje v pomoč tudi pri športnih stavah?

Seveda. Pred kratkim sem skupaj s sodelavcem končal raziskavo o pasjih in konjskih dirkah, kjer sva našla vzorce, ki jih niti najbolj izkušeni poznavalci teh dirk niso našli. Te vzorce lahko do neke mere uporabimo za vplačilo športnih stav. V preizkusu sva pravilno zadela več pravilnih zmagovalcev, kot so jih najbolj izkušeni poznavalci teh dirk. Na tem področju podatkovno rudarjenje deluje zelo dobro.