머신러닝으로 구해본 기대 승점
Serie A
Premier League
(GF, GA, Pts, xG, xGA는 각각 득점, 실점, 승점, 기대 득점, 기대 실점입니다,)
맨 오른쪽의 Logistic_Pts가 기대 승점입니다. 이걸 통해 얻을 수 있는 점은 간단하게 해당 팀의 경기력이라고 생각합니다. 또는 이런식으로 시즌을 치룬다면 얻게 될, 예상 승점도 알 수 있겠죠.(38을 곱하면 됩니다.) 일단 현재 해당팀의 실제 승점과 예측 승점을 비교해서 시즌이 잘 풀리고 있는지, 운이 없는지 정도는 파악할 수 있을 것 같습니다. 리버풀은 7-2 여파인지 좋은 평가를 받지 못하고 있습니다. 사수올로와 빌라의 약진이 눈에 띄구요.
EPL과 Serie A만 해보았는데 나머지 3개 리그도 궁금하시다면 올려드리겠습니다.
재미없는 설명
원리는 팀의 4가지 성적지표(승점, 득점, 기대 득점, 기대 실점)과 승점의 상관관계를 파악해서 승점을 예측하는 겁니다. 야구의 피타고라스 승률과 비슷합니다. 대신 이거는 변수가 4개인 방정식인 셈이죠. 중요한 것은 상수를 정하는 것인데, 이걸 머신러닝의 지도학습 중 다중회귀분석을 이용해 구했습니다. 상관관계를 파악하는데는 지난 3시즌 간의 유럽 5대리그 데이터가 사용되었습니다.
이 모델의 정확도는 어떻게 되는가 보면, 위 그래프는 지난 3년간의 성적 중 일부인데 x축이 실제 승점, y축이 주어진 정보로 예측한 승점입니다. y=x가 일정하게 보이는걸로 봐서 아주 높은 설명도를 가지고 있다고 보시면 되겠습니다. 그 정도는 95%입니다.
2020-11-26 01:05:03
밀란의 경우 실제 실점이 기대실점보다 적으니 실제 경기력에 비해서는 좋은 성적을 거두고 있거나 골키퍼의 선방이 어느정도 큰 역할을 하고 있다고 볼 수 있는거겠죠..? |
글쓰기 |
생각하고 있던건데
데이터 수집도 노가다라 막상하려니 귀찮았는데
잘봤습니다. 다중회기가 기초면서도 제일 많이쓰이는듯해요
Rnn이나 cnn같은 응용은 막상 정확도도 별로고 생각만큼 잘안되는디