Sobre o uso de análise de dados no futebol

A primeira parte deste texto traz um resumo das principais aplicações da análise de dados no futebol, chamado também de soccer (football) analytics. A segunda parte trará exemplos de aplicação usando técnicas de ciência de dados.

Na última edição do programa Redação SporTV de 2020 (dia 31 de dezembro) o jornalista Guilherme Roseguini trouxe uma provocação interessante: o futebol brasileiro está ficando para trás no uso de dados como ferramenta para tomada de decisão. Trouxe um exemplo interessante do clube dinamarquês Midtjylland que tem levado a iniciativa do uso de dados tão a sério que tem sido chamado de o “Oakland A” do futebol, em referência ao clube retratado no livro e filme Moneyball.

O uso de dados no futebol esbarra em algumas questões fundamentais -cultural e técnica -, principalmente. O aspecto cultural é o mesmo encontrado em todas as outras áreas que decidem se digitalizar (e que é tão bem retratada Moneyball para o mundo dos esportes): substituir décadas de tomada de decisão baseadas em experiência aliada a intuição e subjetividade pelo rigor científico. E, em novo paralelo com o filme, um exemplo disso é na atuação dos olheiros. O uso de dados atingiu como avalanche esse nicho do futebol. Em muitos clubes hoje os olheiros sequer viajam para assistir potenciais jogadores, baseando suas tomadas de decisões em relatórios com informações como “% de desarmes”, “número de assistências que resultaram em gol” e outras métricas bem como o uso de vídeos. Um exemplo famoso é a contratação de Shinji Kagawa pelo Borussia Dortmund em 2010. Kagawa jogava na segunda divisão japonesa e sua contratação pelo clube alemão foi uma quebra de paradigma à época.

Em termos técnicos, as dificuldades residem no fato de um jogo de futebol ser extremamente complexo de se reduzir a indicadores e números, em que individual e coletivo coexistem com eventos aleatórios que influenciam uns aos outros para contar a história do jogo. Afinal, se Barcelona e Celtic jogassem 10 vezes em 2012 quantas vezes veríamos o resultado que vimos?

Estatísticas de Celtic x Barcelona, Champions League 2012.

Tanto que em 2010 o New York Times escreveu que, dentre os esportes, o futebol é aquele em que a análise estatística é menos capaz de ser influente. Mas, como veremos, muita coisa mudou em 10 anos.

Em termos técnicos, o estudo de uma partida de futebol caracteriza-se dentro do campo matemático da Análise de Sistemas Complexos, isto é, um sistema em que os atores (os jogadores) que compõem o sistema (jogo de futebol delimitado pelo campo) podem interagir todos entre si em muitas combinações distintas tanto em quantidade quanto complexidade.

Para além dessa dificuldade técnica, o uso de dados no futebol enfrenta dois principais dilemas até hoje em termos técnicos: a forma de coleta de dados e como estes dados são transformados em informação. O primeiro ponto é endereçado por empresas como a Opta e a Wyscout e a coleta de dados é feita manualmente através da análise visual da partida por vídeo usando um teclado especial e realizando o chamado “tagging”: as principais ações da partidas são registradas e caracterizadas como “eventos”, que podem ser passes, dribles, chute a gol, defesa pelo goleiro, desarmes e assim por diante. Atualmente, coleta-se em torno de 1600 a 2000 eventos por jogo. A coleta de dados evoluiu tanto nos últimos 10 anos que já se encontra um nível de granularidade impressionante nos dados: algumas bases de dados hoje vem com um registro de coordenadas (x,y em relação ao campo de futebol) permitindo saber de onde cada passe e chute saiu e até onde chegou.

Esse texto baseia-se em larga escala no livro “Football Hackers” de Christoph Biermann e no artigo científico publicado recentemente na revista Nature por Luca Pappalardo e colaboradores (ver lista de fontes ao final do texto). Encontrei dificuldade em encontrar material em português de origem brasileira, apesar de ter visto que a CBF oferece módulos de análise de dados em alguns cursos de formação acadêmica. Apesar disso, o uso de análise de dados já acontece no meio futebolístico nacional, mas fica a impressão de que existe grande espaço para difusão, em especial na mídia.

É possível dividir as aplicações do uso de dados no futebol em 2 grandes vertentes:

Análise do desempenho coletivo da equipe
Análise do desempenho individual de atletas

Análise do desempenho coletivo da equipe

A grande diferença do futebol para outros esportes coletivos em que o uso de dados se disseminou é que o fato determinante do jogo ocorre muito pouco durante os 90 minutos de jogo: o gol. No basquete pode-se ter mais de centena de cestas e no beisebol dezenas de rebatidas, facilitando trabalhos de correlação. Para o futebol, portanto, novas métricas precisaram ser criadas para mensurar o desempenho coletivo dos times. A principal delas foi a expectativa de gols (expected goals no inglês, comumente abreviado como xG), que é a probabilidade de que um chute resultará em um gol com base nas características do chute, como localização, parte do corpo (pé, seja ele o bom ou ruim, ou cabeça), tipo de passe (cruzamento, lançamento) e tipo de ataque (jogada ensaiada, contra ataque, jogada construída). Cada chute é comparado com milhares de outros com características semelhantes para determinar a probabilidade de que um chute resulte em um gol. Um xG de 0.5 para um determinado chute significa que se chutes dessa natureza forem tentados 10 vezes, 5 resultarão em um gol pelo jogador médio. Algumas aplicações do uso do xG podem ser: comparar o xG de um determinado jogador com o número de gols de fato feito por este jogador para verificar se é um finalizador acima da média. Também o xG pode ser extrapolado a nível de time, calculando a expectativa de gols total do time com base nas chances criadas durante a partida, bem como seu oposto, a expectativa de gols concedidos (xGA — expected goals allowed). E a diferença entre ambos ser um indicativo da performance esperada de um time. A análise da xGA de um time pode mostrar onde o time está falhando defensivamente.

Um dos pioneiros no uso desta métrica, Colin Trainor, escreveu um artigo impressionante analisando a primeira metade da temporada 2014 do Borussia Dortmund que corria o risco de terminar a primeira metade do campeonato na zona de rebaixamento depois de ter ficado em segundo na temporada anterior e chegado à final da Champions League dois anos antes. Dois fatores principais contribuíram para o desempenho ruim: mau aproveitamento no ataque e na defesa. E os dois podiam ser quebrados até uma explicação comum: a perda de Lewandowski para o Bayern após o fim da temporada passada. Lewandowski tinha não só um aproveitamento incrível em converter chances, como também exercia um papel muito importante defensivamente roubando bolas no ataque, fator crucial para o sistema Gegenpressing de Klopp, que encantou com o Liverpool atual com muita pressão na marcação e transição rápida entre defesa e ataque. O substituto de Lewandowski, Ciro Immobile, simplesmente não conseguiu repetir as atuações da Itália que levaram à sua contratação. Porém o time jogava bem e tinha potencial para estar no topo da tabela caso o xG da equipe estivesse próximo do esperado (expectativa de estar no G4 na liga). Com base nisso, Colin previu que até o fim da temporada o time se recuperaria, ganhando a maioria dos pontos e terminando o campeonato no meio da tabela. O que de fato aconteceu, com o time acabando na sétima posição, após ter um aproveitamento de pontos muito melhor na segunda metade do campeonato.

Esse é um exemplo de como o uso de dados aliado a uma análise sólida ajuda a ter uma análise mais acertada de um resultado de time de futebol: em outros cenários, olhando simplesmente para os resultados possivelmente a conclusão seria algo simples e rasa como “Klopp já deu o que tinha que dar” ou “esse time não é nada sem Lewandowski”. Trainor não ignorou o componente do aleatório e que não pode ser mensurado tão facilmente entendendo que estava faltando possivelmente sorte para o time e que com o tempo atingiria o nível de alta performance que os dados mostravam serem capazes de alcançar. Este vídeo da Opta explica muito bem o conceito de expectativa de gols e o ilustra com exemplos. Uma outra métrica, análoga ao xG é o Packing, que possui boa difusão também.

Análise do desempenho individual de atletas

Para além do exemplo da contratação de Kagawa pelo Borussia Dortmund, o uso de análise de dados hoje em dia já é padrão na maioria dos clubes e revolucionou a maneira de fazer scouting (termo inglês para o trabalho dos olheiros de recrutamento de jogadores). Bases de dados com informações detalhadas de estatísticas de jogadores norteiam a contratação com base nas características desejadas pelo clube. A expansão da coleta de dados dos jogos através do tagging para campeonatos menores e segundas divisões de ligas permitem aos olheiros encontrar jogadores bons a preços bastante acessíveis. E isso tem dado algumas vantagens a clubes menores, que normalmente são mais dispostos a apostarem em jogadores mais desconhecidos, além de poderem oferecer a estes jogadores algo que muitas vezes não ocorre em clubes maiores: tempo de jogo. Esse tipo de análise já virou produto em forma de software, inclusive, tendo a Scoutpanel como uma das líderes de mercado. Usando o programa é possível procurar um jogador com características bastante específicas como “lateral esquerdo” / “defensivo” / “no mínimo 2000 minutos jogados” / “entre 16 e 23 anos”. Com base nos jogadores que atendam aos filtros, selecionar o que mais interessar com base em estatísticas como desarmes, assistências, xG e xA. Outro exemplo famoso desse tipo de análise foi a contratação de Mahrez pelo Leicester por 750.000€ da segunda divisão francesa, que se tornou um dos pilares da conquista histórica da Premier League 2015/2016, sendo em seguida vendido por 60 milhões de libras para o Manchester City. Este vídeo ilustra bem esse cenário.

Outras menções

Existem diversas outras aplicações que podem se encaixar como uso de dados no futebol. A nível individual a análise do perfil psicológico de atletas com base em testes customizados tem se popularizado bastante nos últimos anos. O intuito é dar ao técnico informações sobre como motivar e extrair o melhor rendimento dos atletas. Alguns perfis são mais estimulados com cobranças e discursos motivacionais, outros já precisam de diferentes tipos de incentivos, como exercerem algum tipo de liderança.

O uso de análises de vídeo pura e simples talvez tenha sido a primeira revolução neste sentido e ainda é muito útil e difundida a despeito das coletas de dados que são feitas. Muitos treinadores são conhecidos por passarem diversas horas analisando adversários usando essa ferramenta, como Pep Guardiola. No campo de soccer analytics o analista Carl Carpenter faz um trabalho notável neste sentido.

Principais referências bibliográficas (outras foram citadas como ao longo do texto como links):

1- Pappalardo et al., (2019) A public data set of spatio-temporal match events in soccer competitions, Nature Scientific Data 6:236, https://www.nature.com/articles/s41597-019-0247-7

2 – Pappalardo et al. (2019) PlayeRank: Data-driven Performance Evaluation and Player Ranking in Soccer via a Machine Learning Approach. ACM Transactions on Intellingent Systems and Technologies (TIST) 10, 5, Article 59 (September 2019), 27 pages. DOI: https://doi.org/10.1145/3343172

3- Football Hackers: The Science and Art of a Data Revolution (2019)- Christoph Bierman

4- https://spacespacespaceletter.com/meet-the-people-who-explained-soccer-in-2020/

Sobre o uso de análise de dados no futebol — parte 1

Compartilhe isso:

Deixe um comentário Cancelar resposta