Issuu on Google+


com mineração de dados e outras técnicas


Introduçã


prever por quĂŞ?


futebol ĂŠ

popular...


muito popular!


e se pode ganhar dinheiro com...


Aposta$


mas...


mas... como

prever?


Opção A métodos matemáticos e estatísticos


Opção B

mineração de dados


opiniões subjetivas Opção C


TĂŠcnicas Utilizadas


mineração vs estatísticas


mineração o 0-R o Ridor o PART o REPTree o Bagging com REPTree o Multilayer Perceptron (MLP) o Naïve Bayes o K* o Bayes Net - K2 o Logistic


o Sem Influência – Mandante (SI[m]) o Sem Influência – Visitante (SI[v]) o Com Influência – Mandante (CI[m]) o Com Influência – Visitante (CI[v]) o Confrontos Diretos – Sem Influência (CD-SI) o Confrontos Diretos – Com Influência (CD-CI)


outras o Mandante Sempre Ganha o Visitante Sempre Ganha o Sempre Empate o Rand么mica o Subjetiva

Fixas


Metodologia


Meta: prever brasileirĂŁo sĂŠries A e B de 2005 a 2008


Teste: 34%


SQL Ruby WEKA C++


Resultados e Anรกlise


Taxas o Taxas de acerto específicas › Vitória do mandante › Empate › Derrota do mandante o Taxa de acerto específica média o Taxa de acerto global


Resultados


Tabela de classificação: taxa de acerto de derrotas Posição

Método

100,0000

11

Naïve Bayes

20,0765

SI[v]

52,9107

12

K*

18,7838

3

SI[m]

46,6611

13

PART

16,9059

4

Logistic

36,1092

14

Bagging

12,7529

5

Randômica

34,7940

15

CI[m]

8,5680

6

CD-SI

28,5863

16

CI[v]

5,9615

7

MLP

27,1320

17

REPTree

5,7001

8

Subjetiva

26,3006

18

CD-CI

1,8750

9

Ridor

24,8099

19

0-R

0,0000

10

Bayes Net

20,7830

20

SE

0,0000

21

MSG

0,0000

Posição

Método

1

VSG

2

% der

% der


Tabela de classificação: taxa de acerto de empates Posição

Método

100,0000

11

Naïve Bayes

22,8294

CD-SI

68,5896

12

Ridor

17,2242

3

Randômica

37,1153

13

REPTree

9,4338

4

Subjetiva

30,8684

14

CI[v]

8,8273

5

Logistic

29,6014

15

CI[m]

5,4819

6

MLP

25,6998

16

SI[m]

4,7817

7

PART

24,0744

17

SI[v]

4,7542

8

Bayes Net

23,3502

18

0-R

0,0000

9

Bagging

23,2628

19

CD-CI

0,0000

10

K*

23,0026

20

MSG

0,0000

21

VSG

0,0000

Posição

Método

1

SE

2

% emp

% emp


Tabela de classificação: taxa de acerto de vitórias Posição

Método

100,0000

11

Ridor

58,0790

100,0000

12

SI[m]

55,6988

CD-CI

99,3535

13

MLP

54,4160

4

CI[m]

89,5361

14

PART

54,3088

5

CI[v]

89,1539

15

SI[v]

53,0162

6

REPTree

86,1997

16

Logistic

49,9697

7

Bagging

71,7765

17

Subjetiva

45,8904

8

K*

61,0418

18

Randômica

33,4841

9

Naïve Bayes

60,9424

19

CD-SI

12,0457

10

Bayes Net

60,6676

20

SE

0,0000

21

VSG

0,0000

Posição

Método

1

MSG

2

0-R

3

% vit

% vit


Tabela de classificação: taxa de acerto específica média Posição

Método

38,5601

11

CI[m]

34,5287

SI[v]

36,8937

12

Subjetiva

34,3531

3

CD-SI

36,4072

13

K*

34,2760

4

Bagging

35,9307

14

REPTree

33,7778

5

MLP

35,7493

15

CD-CI

33,7428

6

SI[m]

35,7139

16

Ridor

33,3710

7

Randômica

35,1311

17

SE

33,3333

8

Bayes Net

34,9336

18

MSG

33,3333

9

CI[v]

34,6476

19

VSG

33,3333

10

Naïve Bayes

34,6161

20

0-R

33,3333

21

PART

31,7630

Posição

Método

1

Logistic

2

% méd esp

% méd esp


Tabela de classificação: taxa de acerto global Posição

Método

55,6020

11

SI[m]

42,4390

CD-CI

54,5870

12

SI[v]

42,2210

3

MDG

54,5870

13

Ridor

41,8402

4

CI[m]

52,4098

14

MLP

41,5489

5

CI[v]

52,0069

15

PART

41,2297

6

REPTree

50,7515

16

Logistic

40,7511

7

Bagging

47,5099

17

Subjetiva

38,1909

8

Bayes Net

43,0885

18

Randômica

34,7942

9

K*

42,9843

19

CD-SI

28,1370

10

SI[m]

42,9016

20

VSG

22,8341

21

SE

22,5790

Posição

Método

1

0-R

2

% geral

% geral


Anรกlise


Taxas específicas: derrota o Técnicas Estatísticas (SI[v] e SI[m]) com melhores resultados o Só uma de mineração (Logistic) melhor que “Randômico” o Técnica “Subjetiva” em 8ª posição com 26,30%


Taxas específicas: empate o Técnica Estatística (CD-SI) com melhor resultado com 68,59% o Melhor técnica de mineração (Logistic) em 5ª posição o Técnica “Rândomico” em 3º e abordagem “Subjetiva” em 4º


Taxas específicas: vitória o Técnica de mineração de dados (0R) com melhor resultado o A melhor de mineração nos anteriores (Logistic) em 16º o “Subjetiva” (17º) e “Randômica” (18º) com seus piores postos


Taxa específica média

oTécnica de mineração (Logistic) com melhor resultado oTécnicas estatísticas em 2º (SI[v]) e 3º (CD-SI) oTécnica “Randômica” em 7ª posição com 35,13% oAbordagens “Fixas” em 16º lugar com 33,33%


Taxa global o Técnicas de mineração (0R) com melhor resultado de 55,60% o Técnica estatística (CD-CI) em 2ª posição com 54,59% o “Subjetiva” em 16º (38,19% ), “Randômico” em 17º (34,79%) o A “Sempre Empate” se mostra a pior com 22,58%


% de previsão por ano e por série Série A

Série B

60 55 50 45 40 35 30 2005

2006

2007

2008


Conclus達o


oÉ possível prever com mineração dados oResultados com mineração apresentam melhor distribuição acertos das taxas específicas oAbordagens estatísticas tem bom desempenho nas previsões de derrota e de vitória do mandante


oA tĂŠcnica de conhecimento comum de mandante semp ganhar tem bom desenho geral oA abordagem nĂŁo usada como padrĂŁo de sempre ser empate de fato teve o pior desempenho no geral


oA técnica subjetiva tem bom desempenho prevendo empate oO resultado de vitória do mandante é ma acertado (“previsível”) oO resultado de empate é o menos acerta


oA série B e mais prevísivel que a A oAs técnicas apresentam no geral o mesmo comportame ao longos dos anos para cada série


OBRIGADO!


Previsão de resultados de jogos de futebol com mineração de dados e outras técnicas