Introdução à Análise de Dados Categóricos com Aplicações (prévia)

Page 1

Capa_Giolo_intro dados categoricos_12mm.pdf 1 29/09/2017 09:16:02

Enrico AntĂ´nio Colosimo

Giolo

Professor do Departamento de EstatĂ­stica da UFMG. Ph.D. em EstatĂ­stica pela University of Wisconsin-Madison. Editor associado da Revista Brasileira de ,Z[H[xZ[PJH *V H\[VY KV SP]YV *VUĂ„HIPSPKHKL! (UmSPZL KL ;LTWV KL -HSOH L ;LZ[LZ KL =PKH (JLSLYHKVZ (Z Z\HZ mYLHZ KL PU[LYLZZL ZqV Tt[VKVZ LZ[H[xZ[PJVZ LT HUmSPZL KL ZVIYL]P]vUJPH JVUĂ„HIPSPKHKL THU\[LUsqV L KHKVZ SVUNP[\KPUHPZ

INTRODUĂ‡ĂƒO Ă€ ANĂ LISE DE DADOS CATEGĂ“RICOS COM APLICAÇÕES

Y

CM

MY

CY

Professora do Departamento de EstatĂ­stica da Universidade Federal do ParanĂĄ (UFPR). Licenciada em MatemĂĄtica e graduada em EstatĂ­stica pela Universidade Estadual Paulista “JĂşlio de Mesquita Filhoâ€? (Unesp), mestre em EstatĂ­stica pela Universidade Estadual de Campinas (Unicamp) e doutora em EstatĂ­stica e Experimentação AgronĂ´mica pela Escola Superior de Agricultura “Luiz de Queirozâ€? da Universidade de SĂŁo Paulo (ESALQ/USP) e pela Lancaster University, Inglaterra. Realizou pĂłs-doutorado em CiĂŞncias BiolĂłgicas no Instituto do Coração (InCor) e no Instituto de MatemĂĄtica e EstatĂ­stica (IME) da USP, com perĂ­odo na Mayo Clinic, Rochester, Estados Unidos. É coautora do livro AnĂĄlise de sobrevivĂŞncia aplicada e tem diversos artigos publicados em suas principais ĂĄreas de interesse, que incluem anĂĄlise de dados categĂłricos, anĂĄlise de sobrevivĂŞncia e mĂŠtodos estatĂ­sticos em genĂŠtica quantitativa e genĂ´mica.

CMY

K

Sobre o livro Este livro aborda conceitos båsicos, testes e diversos modelos estatísticos propostos para a anålise de dados categóricos. Dentre os modelos, podem ser citados o de regressão logística e o de logitos cumulativos. Com o propósito de ilustrar as metodologias estatísticas apresentadas, vårios exemplos são analisados no texto. Para a execução das anålises, foi adotado o software estatístico R, de domínio público. Os códigos utilizados estão disponíveis em um link no site da editora. De modo geral, o livro pode ser utilizado tanto por alunos de Estatística quanto por alunos, profissionais e pesquisadores de outras åreas (Saúde, Biológicas, Humanas, Engenharias etc.) que tenham interesse em mÊtodos estatísticos para a anålise de dados categóricos.

INTRODUĂ‡ĂƒO Ă€ ANĂ LISE DE DADOS CATEGĂ“RICOS COM APLICAÇÕES

M

INTRODUĂ‡ĂƒO Ă€ ANĂ LISE Professora do Departamento de EstatĂ­stica da UFPR. Licenciada em DE DADOS CATEGĂ“RICOS 4H[LTm[PJH L NYHK\HKH LT ,Z[H[xZ[PJH WLSH <ULZW YLHSPaV\ ZL\ TLZ[YHKV LT ,Z[H[xZ[PJH UH <UPJHTW L ZL\ KV\[VYHKV LT ,Z[H[xZ[PJH L ,_WLYPTLU[HsqV (NYVU TPJH UH ,:(38 <:7 L 3HUJHZ[LY <UP]LYZP[` 0UNSH[LYYH ,U[YL Z\HZ COM APLICAÇÕES mYLHZ KL PU[LYLZZL LZ[qV HUmSPZL KL ZVIYL]P]vUJPH KL KHKVZ SVUNP[\KPUHPZ L KL Enrico AntĂ´ Suely Ruiz Giolo

Suely Ruiz Giolo

C

Suely Ruiz Giolo

KHKVZ JH[LN}YPJVZ

Professor do D University of Resumo sobre o livro ,Z[H[xZ[PJH *V 5LZ[L SP]YV ZqV HWYLZLU[HKVZ JVUJLP[VZ ImZPJVZ [tJUPJHZ UqV WHYHTt[YPJHZ KL =PKH (JLSL L VZ WYPUJPWHPZ TVKLSVZ WYVIHIPSxZ[PJVZ L KL YLNYLZZqV \[PSPaHKVZ UH HUmSPZL HUmSPZL KL ZVI

KL KHKVZ KL ZVIYL]P]vUJPH +LU[YL VZ TVKLSVZ WVKL ZL JP[HY V KL *V_ V HKP[P]V KL (HSLU V KL MYHNPSPKHKL NHTH L HSN\UZ TVKLSVZ WHYH KHKVZ KL JLUZ\YH PU[LY]HSHY L NY\WHKVZ +P]LYZVZ L_LTWSVZ YLHPZ WYV]LUPLU[LZ UH Z\H THPVYPH KL ZP[\Hs LZ JSxUPJHZ ZqV HUHSPZHKVZ L PS\Z[YHT HZ [tJUPJHZ L TVKLSVZ HWYLZLU[HKVZ 7HYH VI[LUsqV KVZ YLZ\S[HKVZ LZ[H[xZ[PJVZ t \[PSPaHKV V WHJV[L LZ[H[xZ[PJV 9 J\QVZ JVTHUKVZ ZqV KLZJYP[VZ UV [L_[V +L TVKV NLYHS LZ[L SP]YV WVKL ZLY \[PSPaHKV WVY HS\UVZ KL NYHK\HsqV L KL W}Z NYHK\HsqV LT ,Z[H[xZ[PJH ILT JVTV WVY HS\UVZ WYVĂ„ZZPVUHPZ L WLZX\PZHKVYLZ KL V\[YHZ mYLHZ TtKPJH IPVS}NPJH L[J X\L [LUOHT PU[LYLZZL LT HUmSPZL KL ZVIYL]P]vUJPH

ABE - PROJETO FISHER capa colosimo.indd 1

Professora d 4H[LTm[PJH L LT ,Z[H[xZ[PJH (NYVU TPJH mYLHZ KL PU[LY KHKVZ JH[LN}Y

Resumo sob

5LZ[L SP]YV Zq L VZ WYPUJPWH KL KHKVZ KL HKP[P]V KL (H JLUZ\YH PU[LY] THPVYPH KL ZP HWYLZLU[HKVZ LZ[H[xZ[PJV 9 J WVKL ZLY \[PSPa ILT JVTV WV IPVS}NPJH L[J

www.blucher.com.br

ABE - PROJETO FISHER

Suely Ruiz G


“Iniciais” — 2017/7/30 — 17:19 — page 3 — #3

Introdu¸c˜ ao ` a an´ alise de dados categ´ oricos com aplica¸ c˜ oes

Suely Ruiz Giolo Departamento de Estat´ıstica Universidade Federal do Paran´a


“Iniciais” — 2017/9/28 — 17:47 — page 4 — #4 ✐

Introdu¸ca ˜o ` a an´ alise de dados categ´ oricos com aplica¸co ˜es c 2017 Suely Ruiz Giolo Editora Edgard Bl¨ ucher Ltda. Imagem da capa: cortesia de cooldesign em FreeDigitalPhotos.net

Dados Internacionais de Cataloga¸ca ˜o na Publica¸ca ˜o (CIP) Ang´ elica Ilacqua CRB-8/7057 Rua Pedroso Alvarenga, 1245, 4 o andar 04531-934 - S˜ ao Paulo - SP - Brasil Tel.: 55 11 3078-5366 contato@blucher.com.br www.blucher.com.br

Giolo, Suely Ruiz Introdu¸ca ˜o ` a an´ alise de dados categ´ oricos com aplica¸co ˜es / Suely Ruiz Giolo. – S˜ ao Paulo : Blucher, 2017. 256 p. : il.

Segundo o Novo Acordo Ortogr´ afico, conforme 5. ed. do Vocabul´ ario da L´ıngua Portuguesa, Academia Brasileira de Letras, mar¸co de 2009.

Bibliografia ISBN 978-85-212-1187-7

1. Estat´ıstica 2. Estat´ıstica matem´ atica I. T´ıtulo. ´ proibida a reprodu¸ca E ˜o total ou parcial por quaisquer meios sem autoriza¸ca ˜o escrita da editora.

17-0504

Todos os direitos reservados pela Editora Edgard Bl¨ ucher Ltda.

´Indices para cat´ alogo sistem´ atico: 1. Estat´ıstica

CDD 519.5

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page vii — #7 ✐

Conte´ udo

Pref´ acio

xiii

1 Conceitos introdut´ orios

1

1.1

Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2

Classifica¸c˜ ao de vari´ aveis . . . . . . . . . . . . . . . . . . . .

2

1.3

Terminologia e nota¸c˜ao . . . . . . . . . . . . . . . . . . . . .

3

1.4

Exemplos de estudos cl´ınico-epidemiol´ogicos . . . . . . . . .

5

1.4.1

Estudos de coorte . . . . . . . . . . . . . . . . . . .

5

1.4.2

Estudos caso-controle . . . . . . . . . . . . . . . . .

8

1.4.3

Estudos transversais . . . . . . . . . . . . . . . . . .

11

1.4.4

Ensaios cl´ınicos aleatorizados . . . . . . . . . . . . .

13

Estudos h´ıbridos . . . . . . . . . . . . . . . . . . . . . . . .

15

1.5.1

Estudo caso-controle encaixado em uma coorte . . .

15

1.5.2

Estudos caso-coorte . . . . . . . . . . . . . . . . . .

16

Exemplos em outras ´areas de pesquisa . . . . . . . . . . . .

17

1.6.1

Estudos em entomologia . . . . . . . . . . . . . . . .

17

1.6.2

Estudos em ciˆencia animal . . . . . . . . . . . . . . .

18

Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

1.5

1.6

1.7

2 Delineamentos amostrais e modelos associados

23

2.1

Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

2.2

Delineamentos usuais e modelos associados . . . . . . . . .

23

vii ✐

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page viii — #8 ✐

viii

Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es

2.2.1

Modelo produto de binomiais . . . . . . . . . . . . .

23

2.2.2

Modelo produto de multinomiais . . . . . . . . . . .

27

2.2.3

Modelo multinomial . . . . . . . . . . . . . . . . . .

28

2.2.4

Modelo produto de distribui¸c˜oes de Poisson . . . . .

30

2.3

Considera¸c˜ oes sobre os delineamentos

2.4

Representa¸c˜ ao gr´ afica de dados categ´oricos

2.5

. . . . . . . . . . . .

31

. . . . . . . . .

33

2.4.1

Gr´ aficos de colunas, de barras e de setores . . . . . .

33

2.4.2

Gr´ aficos qu´adruplo e mosaico . . . . . . . . . . . . .

36

Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

3 Tabelas de contingˆ encia 2 × 2

41

3.1

Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

3.2

Testes em tabelas de contingˆencia 2 × 2 . . . . . . . . . . .

41

3.2.1

Delineamentos com totais marginais-linha fixos . . .

41

3.2.2

Delineamentos com totais marginais-coluna fixos . .

43

3.2.3

Delineamentos com total amostral n fixo . . . . . . .

44

3.2.4

Delineamentos com totais aleat´orios . . . . . . . . .

45

3.2.5

Coment´ arios sobre os testes qui-quadrado . . . . . .

46

3.2.6

Amostras pequenas: teste exato de Fisher . . . . . .

47

Medidas de associa¸c˜ ao em tabelas 2 × 2 . . . . . . . . . . .

48

3.3.1

Risco relativo . . . . . . . . . . . . . . . . . . . . . .

48

3.3.2

Diferen¸ca entre propor¸c˜oes ou risco atribu´ıvel . . . .

50

3.3.3

Raz˜ ao de chances . . . . . . . . . . . . . . . . . . . .

50

3.3.4

Rela¸c˜ ao entre risco relativo e raz˜ ao de chances . . .

54

Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . .

56

3.4.1

Avalia¸c˜ ao de um medicamento . . . . . . . . . . . .

56

3.4.2

Armadilhas na atra¸c˜ao de insetos . . . . . . . . . . .

57

3.4.3

Tabagismo e cˆ ancer de pulm˜ao . . . . . . . . . . . .

58

3.4.4

Doen¸cas respirat´orias em crian¸cas . . . . . . . . . .

60

3.4.5

Medicamentos para infec¸c˜oes graves . . . . . . . . .

61

3.3

3.4

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page ix — #9 ✐

Conte´ udo

ix

3.5

Coment´ arios . . . . . . . . . . . . . . . . . . . . . . . . . . .

62

3.6

Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . .

62

4 Tabelas de contingˆ encia s × r

65

4.1

Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .

65

4.2

An´alise de tabelas de contingˆencia 2 × r . . . . . . . . . . .

65

4.2.1

Sobre a escolha dos escores . . . . . . . . . . . . . .

68

4.3

An´alise de tabelas de contingˆencia s × 2 . . . . . . . . . . .

69

4.4

An´alise de tabelas de contingˆencia s × r . . . . . . . . . . .

72

4.4.1

Associa¸c˜ ao em tabelas bidimensionais s × r . . . . .

72

4.4.2

Teste exato de Fisher em tabelas s × r . . . . . . . .

74

4.4.3

Medidas de associa¸c˜ao em tabelas s × r . . . . . . .

74

Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75

4.5.1

Local de moradia e afilia¸c˜oes pol´ıtico-partid´arias . .

75

4.5.2

Medicamentos para tratamento da cefaleia . . . . . .

75

4.5.3

Produtos de limpeza e intensidade da limpeza . . . .

77

4.5.4

Ve´ıculo adquirido e fonte de propaganda . . . . . . .

79

4.6

Coment´ arios . . . . . . . . . . . . . . . . . . . . . . . . . . .

79

4.7

Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . .

81

4.5

5 An´ alise estratificada 5.1

85

Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .

85

5.1.1

Confundimento e efeito modificador . . . . . . . . .

86

Exemplos de an´ alise estratificada . . . . . . . . . . . . . . .

88

5.2.1

Ensaio cl´ınico multicentros . . . . . . . . . . . . . .

88

5.2.2

Ensaio cl´ınico duplo cego . . . . . . . . . . . . . . .

92

5.2.3

Estudo transversal . . . . . . . . . . . . . . . . . . .

94

5.3

An´alise estratificada em tabelas s × r . . . . . . . . . . . .

96

5.4

Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . .

96

5.2

✐ ✐


“Categoricos” — 2017/9/28 — 16:42 — page x — #10 ✐

x

Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es

6 Tabelas com dados relacionados

99

6.1

Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .

99

6.2

Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . .

99

6.2.1

Taxa de aprova¸c˜ao de um pol´ıtico

99

6.2.2

Acur´ acia de exames laboratoriais . . . . . . . . . . . 101

6.3

6.4

. . . . . . . . . .

Concordˆancia entre avaliadores . . . . . . . . . . . . . . . . 108 6.3.1

Estat´ıstica κ ou capa . . . . . . . . . . . . . . . . . . 109

6.3.2

Estat´ıstica κw ou capa ponderada . . . . . . . . . . 110

6.3.3

Exemplo sobre concordˆancia de diagn´ osticos . . . . . 111

Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

7 Regress˜ ao binomial

119

7.1

Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

7.2

Regress˜ ao log´ıstica dicotˆ omica . . . . . . . . . . . . . . . . . 119

7.3

7.4

7.5

7.2.1

Estima¸c˜ ao dos parˆ ametros . . . . . . . . . . . . . . . 123

7.2.2

Significˆancia dos efeitos das vari´ aveis . . . . . . . . . 127

7.2.3

Qualidade do modelo ajustado . . . . . . . . . . . . 131

7.2.4

Diagn´ ostico em regress˜ao log´ıstica . . . . . . . . . . 132

7.2.5

Modelo ajustado e interpreta¸c˜oes . . . . . . . . . . . 134

Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 7.3.1

Exemplo 1: estudo sobre doen¸ca coron´ aria . . . . . . 135

7.3.2

Exemplo 2: estudo sobre infec¸c˜oes urin´arias . . . . . 140

7.3.3

Exemplo 3: estudo sobre bronquite . . . . . . . . . . 144

7.3.4

Exemplo 4: outro estudo sobre doen¸ca coron´ aria . . 148

Diagn´ ostico do modelo: m´etodos auxiliares . . . . . . . . . 153 7.4.1

Gr´ afico quantil-quantil com envelope simulado . . . 153

7.4.2

Poder preditivo do modelo e medidas auxiliares . . . 154

Modelos alternativos para dados bin´ arios . . . . . . . . . . . 156 7.5.1

7.6

Ilustra¸c˜ ao de modelos alternativos . . . . . . . . . . 158

Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page xi — #11 ✐

xi

Conte´ udo

8 Regress˜ ao multinomial

167

8.1

Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

8.2

Modelo logitos categoria de referˆencia . . . . . . . . . . . . 167 8.2.1

8.3

8.4

8.5

Ilustra¸c˜ ao do modelo logitos categoria de referˆencia . 170

Modelo logitos cumulativos . . . . . . . . . . . . . . . . . . 176 8.3.1

MLC com chances n˜ ao proporcionais . . . . . . . . . 177

8.3.2

MLC com chances proporcionais . . . . . . . . . . . 178

8.3.3

MLC com chances proporcionais parciais

8.3.4

Sele¸c˜ ao e qualidade de ajuste dos MLC . . . . . . . 181

8.3.5

Ilustra¸c˜ ao do modelo logitos cumulativos . . . . . . . 183

. . . . . . 180

Outros modelos para respostas ordinais . . . . . . . . . . . 188 8.4.1

Modelo logitos categorias adjacentes . . . . . . . . . 188

8.4.2

Ilustra¸c˜ ao do modelo logitos categorias adjacentes . 190

8.4.3

Modelo logitos raz˜ ao cont´ınua . . . . . . . . . . . . . 195

8.4.4

Ilustra¸c˜ ao do modelo logitos raz˜ ao cont´ınua . . . . . 197

8.4.5

Coment´ arios

. . . . . . . . . . . . . . . . . . . . . . 203

Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

9 Regress˜ ao log´ıstica condicional

207

9.1

Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

9.2

Modelo de regress˜ao log´ıstica condicional . . . . . . . . . . . 208

9.3

9.2.1

Ensaio cl´ınico com frequˆencia pequena nos estratos . 208

9.2.2

Estudos cruzados de dois ou mais per´ıodos . . . . . 212

9.2.3

Estudos retrospectivos com observa¸c˜oes pareadas . . 216

Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

Apˆ endices

221

Referˆ encias

231

´ Indice remissivo

239

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 1 — #15 ✐

Cap´ıtulo 1 Conceitos introdut´ orios 1.1

Introdu¸ c˜ ao

Analistas se deparam frequentemente com experimentos em que diversas das vari´ aveis de interesse s˜ ao categ´oricas (ou qualitativas), refletindo assim categorias de informa¸c˜ ao em vez da usual escala intervalar. Exemplos de vari´ aveis categ´ oricas s˜ ao, dentre outros, melhora do paciente (sim ou n˜ ao), sintomas de uma doen¸ca (sim ou n˜ ao), desempenho do candidato (bom, regular ou p´essimo) e classe social (baixa, m´edia ou alta). Dependendo do delineamento amostral utilizado para obten¸c˜ao dos dados, bem como dos objetivos para a an´ alise dos mesmos, as vari´ aveis de interesse podem ser classificadas em vari´ aveis respostas ou explicativas. Aquelas descrevendo a livre resposta de cada unidade amostral e que, por isso, est˜ ao sujeitas a modelos probabil´ısticos que estejam de acordo com o esquema de obten¸c˜ ao dos dados, s˜ ao denominadas vari´ aveis respostas. J´ a aquelas consideradas fixas, seja pelo delineamento amostral ou pela a¸c˜ao causal atribu´ıda a elas no contexto dos dados, s˜ ao comumente denominadas vari´ aveis explicativas (ou ainda fatores, covari´ aveis, dentre outros). O objetivo desse texto ´e o de apresentar um material introdut´ orio sobre a an´ alise de dados provenientes de estudos em que o interesse se concentra 1 ✐

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 2 — #16 ✐

2

Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es

em uma vari´ avel resposta categ´orica. A an´ alise de dados dessa natureza ´e comumente denominada an´ alise de dados categ´oricos ou an´ alise de dados discretos. Isso porque distribui¸c˜oes discretas de probabilidade (binomial, Poisson, multinomial etc.) est˜ ao associadas `a vari´ avel resposta. As demais vari´ aveis envolvidas nesses estudos, as quais usualmente se tem interesse em verificar suas respectivas associa¸c˜oes com a vari´ avel resposta, podem ser tanto categ´ oricas quanto cont´ınuas. Vari´ aveis cont´ınuas podem tamb´em ser categorizadas, seja por interesse do pesquisador ou por conveniˆencia. Por exemplo, a idade pode ser categorizada em faixas et´arias, bem como o resultado de um exame m´edico categorizado em normal ou anormal. O peso, por sua vez, pode ser categorizado em obeso e n˜ ao obeso ou, ainda, em intervalos tais como < 60, [60, 100), [100, 150) e ≥ 150 kg.

1.2

Classifica¸ c˜ ao de vari´ aveis

Dos exemplos de vari´ aveis categ´oricas citados na Se¸c˜ao 1.1 ´e poss´ıvel notar algumas diferen¸cas entre elas. Por exemplo, algumas apresentam duas categorias mutuamente exclusivas, outras trˆes ou mais, bem como algumas apresentam uma ordena¸c˜ao natural das categorias e outras n˜ ao. Vari´ aveis categ´ oricas que apresentam somente duas categorias s˜ ao denominadas dicotˆ omicas ou bin´ arias. J´ a as que apresentam trˆes ou mais categorias s˜ ao denominadas politˆ omicas. Em geral, vari´ aveis categ´oricas s˜ ao classificadas de acordo com sua escala de mensura¸c˜ao em ordinais ou nominais. As que apresentam categorias ordenadas s˜ ao ditas ordinais. Por exemplo: a) efeito produzido por um medicamento (nenhum, algum ou acentuado); ou ainda b) grau de pureza da ´agua (baixo, m´edio ou alto). Nesses dois exemplos, nota-se a existˆencia de uma ordem natural das categorias com as distˆ ancias absolutas entre elas sendo, contudo, desconhecidas. Em contrapartida, vari´ aveis cujas categorias n˜ ao exibem uma ordena¸c˜ao natural s˜ ao ditas nominais. Como exemplos tem-se: i) preferˆencia de local

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 23 — #37 ✐

Cap´ıtulo 2 Delineamentos amostrais e modelos associados 2.1

Introdu¸ c˜ ao

Identificar o delineamento amostral que produziu os dados ´e importante para que se possa determinar uma an´ alise apropriada e, consequentemente, fazer as inferˆencias de interesse. Neste cap´ıtulo, s˜ ao descritos alguns dos delineamentos amostrais mais usuais, bem como os modelos probabil´ısticos frequentemente assumidos para eles.

2.2 2.2.1

Delineamentos usuais e modelos associados Modelo produto de binomiais

Suponha que um estudo seja planejado de modo que a popula¸c˜ao alvo seja dividida em duas subpopulac˜ oes independentes de acordo com as categorias i = 1, 2 de uma vari´ avel X e que, a seguir, sejam extra´ıdas duas amostras aleat´ orias, uma de tamanho n1+ da subpopula¸c˜ao 1 e outra de tamanho n2+ da subpopula¸c˜ao 2. Uma vez extra´ıdas as amostras, os indiv´ıduos s˜ ao acompanhados por um per´ıodo de tempo, registrando-se os 23 ✐

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 24 — #38 ✐

24

Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es

que apresentam as categorias j = 1 e j = 2 da vari´ avel resposta Y. Os dados de estudos conduzidos desse modo s˜ ao comumente apresentados em tabelas de contingˆencia como os da Tabela 1.1. Sob o delineamento amostral descrito, nota-se que os totais marginais n1+ e n2+ (e consequentemente n) s˜ ao fixos, enquanto os valores nij , associados ` as vari´ aveis Nij , i, j = 1, 2, com Nij sendo a frequˆencia de indiv´ıduos apresentando a categoria j de Y dentre os ni+ na categoria i de X, dependem da realiza¸c˜ ao do estudo para serem conhecidos.

Ainda, como

ni1 + ni2 = ni+ , i = 1, 2, segue que o conjunto {0, 1, . . . , ni+ } determina os valores poss´ıveis de ni1 , com ni2 = ni+ − ni1 para i = 1, 2. Para os leitores familiarizados com t´ecnicas de amostragem (COCHRAN, 1977; BOLFARINE; BUSSAB, 2005), ressalta-se que o delineamento descrito corresponde a um processo de amostragem estratificada, em que para cada estrato ´e selecionada uma amostra aleat´oria simples. Ainda, como cada indiv´ıduo ´e classificado de acordo com uma vari´ avel resposta Y dicotˆ omica, tem-se que cada amostra define uma sequˆencia de ni+ ensaios de Bernoulli, i = 1, 2 (DANTAS, 2000). Assim, assumindo as condi¸c˜oes a seguir v´alidas, i) ocorrˆencia somente da categoria j = 1 ou j = 2 da vari´ avel resposta Y em cada ensaio da sequˆencia i, i = 1, 2; ii) ensaios independentes em cada sequˆencia i, isto ´e, independˆencia entre as respostas dos ni+ indiv´ıduos (i = 1, 2); e iii) probabilidade constante de ocorrˆencia da categoria de resposta j = 1, denotada por p(i)1 , em cada ensaio da sequˆencia i, i = 1, 2, segue que as vari´ aveis aleat´ orias Ni1 , i = 1, 2, com Ni1 representando a frequˆencia de indiv´ıduos apresentando a categoria j = 1 de Y dentre os que pertencem ` a categoria i de X, tˆem distribui¸c˜ao binomial com parˆ ametros ni+ e p(i)1 , isto ´e, Ni1 | (ni+ , p(i)1 ) ∼ Bin(ni+ , p(i)1 ), para i = 1, 2. Uma vez que as distribui¸c˜ oes associadas `as vari´ aveis Ni1 , i = 1, 2, s˜ ao independentes, o que resulta do fato de as amostras de tamanhos n1+ e n2+

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 41 — #55 ✐

Cap´ıtulo 3 Tabelas de contingˆ encia 2 × 2 3.1

Introdu¸ c˜ ao

Estrat´egias de an´ alise associadas aos estudos em que os dados s˜ ao dispostos em tabelas de contingˆencia 2 × 2 s˜ ao tratadas neste cap´ıtulo. Ser´ a visto que diversas quest˜ oes de interesse podem ser respondidas testando-se hip´ oteses de associa¸c˜ ao.

3.2

Testes em tabelas de contingˆ encia 2 × 2

Para estudos conduzidos sob um dos delineamentos amostrais descritos no Cap´ıtulo 2 s˜ ao estabelecidas, a seguir, as hip´ oteses de interesse e as correspondentes estat´ısticas para test´ a-las.

3.2.1

Delineamentos com totais marginais-linha fixos

Como visto nos cap´ıtulos anteriores, existem estudos que s˜ ao planejados de modo que os totais marginais n1+ e n2+ associados `as categorias da vari´ avel X s˜ ao fixos. Como exemplo, considere os dados dispostos na Tabela 3.1 e no gr´ afico de colunas m´ ultiplas ao seu lado, referentes a um ensaio cl´ınico aleatorizado em que o interesse est´ a em estudar a associa¸c˜ao entre as vari´ aveis medicamento (X) e melhora dos pacientes (Y ). 41 ✐

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 42 — #56 ✐

42

Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es

0,8

Proporções amostrais

Melhora: sim Melhora: não 0,75 0,67

Novo

40

20

60

Placebo

16

48

64

Totais

56

68

124

0,4

0,6

N˜ ao

0,2

Totais

Sim

0,0

Medicamento

Melhora

1,0

Tabela 3.1 – Resposta ao medicamento

0,33 0,25

Novo

Medicamentos

Placebo

Neste ensaio, a ausˆencia da associa¸c˜ao mencionada significa admitir que a probabilidade de melhora n˜ ao difere entre os pacientes que receberam o novo medicamento e os que receberam o placebo. Desse modo, levando-se em considera¸c˜ ao o delineamento amostral (ni+ fixos, i = 1, 2) e o modelo probabil´ıstico associado (produto de binomiais), as seguintes hip´ oteses podem ser estabelecidas para testar a associa¸c˜ao de interesse   H0 : p(1)1 = p(2)1 (= p+1 ) ⇒ ausˆencia de associa¸c˜ao  H : p A (1)1 6= p(2)1

⇒ presen¸ca de associa¸c˜ao.

Devido ` a hip´ otese nula H0 traduzir a igualdade de parˆ ametros distribu-

cionais, ela ´e usualmente denominada hip´ otese de homogeneidade. Formas p(1)1 equivalentes de express´ a-la s˜ ao: H0 : p(1)1 − p(2)1 = 0, H0 : = 1 ou, p(2)1 p(1)1 /(1 − p(1)1 ) = 1. ainda, H0 : p(2)1 /(1 − p(2)1 ) Como sob H0 tem-se Ni1 ∼ Bin(ni+ , p+1 ), segue que E(Ni1 ) = ni+ (p+1 ) N+j e E(Ni2 ) = ni+ (1 − p+1 ) = ni+ (p+2 ), i = 1, 2. Ainda, pb+j = , j = 1, 2, n (ni+ )(N+j ) o que implica ni+ (b p+j ) = , i, j = 1, 2. Desse modo, aos valores n num´ericos associados ` as esperan¸cas E(Nij ), denotados por eij =

(ni+ )(n+j ) , n

i, j = 1, 2,

tem-se os correspondentes valores das frequˆencias esperadas sob H0 . Usar as diferen¸cas entre os valores observados nij e os valores esperados sob H0 , eij , i, j = 1, 2, parece ser, portanto, intuitivo para a constru¸c˜ao de

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 65 — #79 ✐

Cap´ıtulo 4 Tabelas de contingˆ encia s × r 4.1

Introdu¸ c˜ ao

No cap´ıtulo anterior, foi abordada a an´ alise de tabelas de contingˆencia bidimensionais 2 × 2. Neste cap´ıtulo, ser´ a discutida a an´ alise de tabelas bidimensionais 2 × r, s × 2 e s × r, para r e s > 2.

4.2

An´ alise de tabelas de contingˆ encia 2 × r

Considere os dados dispostos na Tabela 4.1 e Figura 4.1, resultados de um ensaio cl´ınico aleatorizado realizado com o objetivo de pesquisar um tratamento para a artrite reumatoide. Como a vari´ avel resposta apresenta trˆes categorias e os totais marginais-linha n1+ e n2+ s˜ ao fixos, tem-se associado a esse estudo o modelo produto de multinomiais, em que as hip´ oteses de interesse s˜ ao   H : p =p 0 1 2  HA : p1 6= p2

⇒ hip´ otese de homogeneidade

com p1 = (p(1)1 , p(1)2 , p(1)3 ) e p2 = (p(2)1 , p(2)2 , p(2)3 ).

65 ✐

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 66 — #80 ✐

66

Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es

Tabela 4.1 – Ensaio cl´ınico aleatorizado referente `a artrite reumatoide Tratamento

Melhora do paciente

Totais

Nenhuma

Alguma

Acentuada

Ativo Placebo

13 29

7 7

21 7

41 43

Totais

42

14

28

84

1,0 0,8

Nenhuma melhora Alguma melhora Melhora acentuada

0,4

0,6

0,674 0,512 0,317 0,171

0,163

0,163

0,0

0,2

Proporções amostrais

Fonte: Stokes et al. (2000).

Ativo

Placebo Tratamento

Figura 4.1 – Gr´afico de colunas justapostas referente a ensaio cl´ınico realizado para pesquisar um tratamento para a artrite reumatoide.

Do que foi apresentado no Cap´ıtulo 3, as hip´ oteses mencionadas poderiam ser testadas por meio da estat´ıstica qui-quadrado de Pearson, 3 2 X X (nij − eij )2 , QP = eij

(4.1)

i=1 j=1

em que eij =

(ni+ )(n+j ) , n

i = 1, 2 e j = 1, 2, 3. Contudo, a natureza ordinal

da vari´ avel resposta n˜ ao estaria sendo levada em considera¸c˜ao. Assim, uma alternativa sugerida na literatura ´e a de se atribuir escores a = (a1 , a2 , a3 ) para as categorias da vari´ avel resposta e, ent˜ao, definir um escore m´edio para cada subpopula¸c˜ ao (linha) da tabela de contingˆencia, tal que F¯i =

3 X

aj p(i)j

i = 1, 2,

j=1

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 85 — #99 ✐

Cap´ıtulo 5 An´ alise estratificada 5.1

Introdu¸ c˜ ao

Nos estudos em que h´ a interesse em avaliar a existˆencia de associa¸c˜ao entre uma vari´ avel de exposi¸c˜ao X e uma vari´ avel resposta Y, aten¸c˜ao deve ser dada ` as vari´ aveis adicionais (secund´arias) que podem interferir na associa¸c˜ ao. Tais vari´ aveis s˜ ao denominadas interferentes e usualmente classificadas em dois tipos: as de confundimento e as modificadoras de efeito. As de confundimento distorcem ficticiamente a associa¸c˜ao entre as vari´ aveis X e Y, alterando-lhe a for¸ca ou mesmo o sentido. J´ a as modificadoras de efeito, mostram o efeito de X sobre Y variando de acordo com as categorias de uma vari´ avel adicional Z. Sendo assim, ao investigar a associa¸c˜ao entre X e Y ´e importante ajustar ou controlar para o efeito de vari´ aveis interferentes a fim de que n˜ ao sejam obtidas conclus˜oes errˆ oneas. An´alises que consideram o efeito dessas vari´ aveis s˜ ao usualmente denominadas an´ alises estratificadas, pois s˜ ao realizadas com os dados estratificados pelas categorias dessas vari´ aveis. Em alguns casos, a estratifica¸c˜ ao ´e resultado do pr´ oprio delineamento amostral considerado no estudo, tal como nos ensaios cl´ınicos multicentros. Em outros, aparece somente ap´ os a coleta dos dados, quando fica evidenciada a 85 ✐

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 86 — #100 ✐

86

Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es

necessidade de se ajustar para o efeito de certas vari´ aveis que de algum modo podem interferir na rela¸c˜ao causal entre as vari´ aveis X e Y. Como um exemplo de vari´ avel de confundimento, pode ser citado um estudo realizado para investigar a associa¸c˜ao entre fumo volunt´ario e cˆancer de pulm˜ao, em que o efeito de fumo passivo foi considerado no planejamento amostral e na an´ alise dos dados. A estratifica¸c˜ao pela vari´ avel fumo passivo foi feita, nesse caso, para evitar que o aparente efeito de fumo volunt´ario fosse distorcido devido ao fato desses dois fatores estarem confundidos (ou mesclados). Caso a influˆencia do confundimento entre fumo volunt´ario e fumo passivo n˜ ao fosse considerada na an´ alise, a associa¸c˜ao entre tabaco e cˆancer de pulm˜ao poderia at´e mesmo n˜ ao ser detectada. Desse modo, n˜ ao ´e a mera presen¸ca do confundimento que ´e importante controlar nesses casos, mas sim a magnitude desse confundimento. Se essa magnitude n˜ ao for muito acentuada, a associa¸c˜ao entre o fator de interesse e a resposta, caso exista, pode at´e ser observada mesmo sem a estratifica¸c˜ao. Por´em, a intensidade dessa associa¸c˜ ao n˜ ao ser´ a bem avaliada. Quanto ` as vari´ aveis modificadoras de efeito, pode ser mencionado um estudo realizado com crian¸cas, que teve por objetivo pesquisar a associa¸c˜ao entre o consumo de ferro na dieta (X) e a anemia (Y ) controlando pela vari´ avel idade (Z), que foi categorizada em: idade inferior a 2 anos e idade entre 2 e 6 anos. As conclus˜oes foram que o consumo de ferro na dieta estava de fato associado ` a anemia, mas que tal efeito variava de acordo com a idade (efeito maior entre as crian¸cas com idade inferior a 2 anos e efeito menor entre as com 2 e 6 anos). Ou seja, a idade se apresentou, nesse estudo, como uma vari´ avel modificadora de efeito.

5.1.1

Confundimento e efeito modificador

A fim de identificar se uma vari´ avel Z ´e de confundimento ou modificadora de efeito quando a associa¸c˜ao entre as vari´ aveis X e Y est´ a sendo pesquisada, o comparativo entre as medidas de associa¸c˜ao (raz˜ ao de chan-

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 99 — #113 ✐

Cap´ıtulo 6 Tabelas com dados relacionados 6.1

Introdu¸ c˜ ao

Neste cap´ıtulo, s˜ ao discutidos alguns m´etodos e medidas utilizados na an´ alise de dados dispostos em tabelas de contingˆencia que apresentam informa¸c˜ oes pareadas. Alguns exemplos s˜ ao: os estudos caso-controle com pareamento entre casos e controles, os estudos em que s˜ ao avaliados ´org˜ aos duplos de pacientes (olhos, rins etc.), bem como os estudos em que os indiv´ıduos s˜ ao observados em dois momentos distintos, tal como antes e ap´ os um procedimento. Exemplos s˜ ao discutidos a seguir.

6.2 6.2.1

Exemplos Taxa de aprova¸c˜ ao de um pol´ıtico

Situa¸c˜ oes em que h´ a o interesse em avaliar uma resposta antes e ap´ os um fato ou acontecimento n˜ ao s˜ ao incomuns. Um exemplo seria o estudo hipot´etico realizado para investigar a taxa de aprova¸c˜ao de um pol´ıtico antes e ap´ os o an´ uncio de certas medidas, como mostrado na Tabela 6.1. Como o interesse est´ a em testar se a propor¸c˜ao de indiv´ıduos que aprovam o referido pol´ıtico antes e ap´ os o an´ uncio das medidas diferem ou n˜ ao, pode-se estabelecer as seguintes hip´ oteses: 99 ✐

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 100 — #114 ✐

100

Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es

  H0 : p1+ = p+1 ⇒ hip´ otese de homogeneidade marginal  H : p 6= p . A 1+ +1

Visto que p1+ = p11 + p12 e p+1 = p11 + p21 , as hip´ oteses mencionadas

podem ser equivalentemente expressas por   H0 : p12 = p21 ⇒ hip´ otese de simetria  H : p 6= p . A 12 21

Esta equivalˆencia entre as hip´ oteses de homogeneidade marginal e de simetria sempre ocorre em tabelas 2 × 2, mas n˜ ao em tabelas s × s (s > 2). Para testar tais hip´ oteses, tendo em vista que sob H0 valores similares s˜ ao esperados para n12 e n21 , McNemar (1947) propˆos um teste baseado na distribui¸c˜ ao binomial. Este teste faz uso somente dos elementos da tabela fora da diagonal (n12 e n21 ) para determinar a existˆencia de diferen¸cas entre p12 e p21 , sendo sua estat´ıstica dada por QM c =

(n12 − n21 )2 , (n12 + n21 )

que, sob H0 e n12 + n21 > 10, tem distribui¸c˜ao aproximada qui-quadrado com 1 grau de liberdade (AGRESTI, 2007). Tabela 6.1 – Taxa de aprova¸ca˜o de um pol´ıtico Antes

Ap´os

Totais

Aprova

Reprova

Aprova

20

5

25

Reprova Totais

10 30

10 15

20 45

Para os dados na Tabela 6.1, tem-se QM c = 1,67 (p = 0,1967), o que indica evidˆencias de n˜ ao rejei¸ca˜o de H0 . Logo, n˜ ao ´e poss´ıvel afirmar que a taxa de aprova¸c˜ ao do pol´ıtico tenha se alterado ap´ os o an´ uncio das medidas.

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 119 — #133 ✐

Cap´ıtulo 7 Regress˜ ao binomial 7.1

Introdu¸ c˜ ao

Modelos de regress˜ao binomial s˜ ao frequentemente utilizados para modelar a associa¸c˜ ao entre um conjunto de vari´ aveis explicativas e uma vari´ avel resposta bin´ aria ou dicotˆ omica. As vari´ aveis explicativas s˜ ao, em geral, um misto de vari´ aveis categ´ oricas e cont´ınuas, sendo as categ´oricas usualmente incorporadas aos modelos por meio de vari´ aveis mudas ou fict´ıcias (do inglˆes dummy variables). Nesse contexto, o modelo de regress˜ao log´ıstica ´e um dos mais populares, sendo amplamente utilizado em diversas ´areas de pesquisa, e ser´ a abordado em detalhes neste cap´ıtulo. Sua extens˜ao para o caso em que a vari´ avel resposta apresenta mais do que duas categorias (politˆomica) ser´ a abordada no Cap´ıtulo 8.

7.2

Regress˜ ao log´ıstica dicotˆ omica

Para introduzir o modelo de regress˜ao log´ıstica, considere um estudo sobre doen¸ca arterial coron´ aria em que, para cada intervalo da vari´ avel explicativa X = idade (em anos), foram obtidas as frequˆencias de indiv´ıduos com e sem a doen¸ca, bem como uma estimativa da probabilidade de 119 ✐

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 120 — #134 ✐

120

Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es

ocorrˆencia da doen¸ca, isto ´e, P(Y = 1 | x) = E(Y | x), visto que E(Y | x) = 0 × P(Y = 0 | x) + 1 × P(Y = 1 | x), com Y a vari´ avel resposta (presen¸ca ou ausˆencia da doen¸ca). Os dados est˜ ao na Tabela 7.1. Tabela 7.1 – Dados sobre doen¸ca coron´aria por intervalo de idade Idade (X = x)

Doen¸ca coron´aria Sim (Y = 1)

N˜ ao (Y = 0)

Totais E(Y | x)

20-29

1

9

10

0,10

30-34

2

13

15

0,13

35-39

3

9

12

0,25

40-44

5

10

15

0,33

45-49

6

7

13

0,46

50-54

5

3

8

0,63

55-59

13

4

17

0,76

60-69

8

2

10

0,80

Totais

43

57

100

0,43

Fonte: Hosmer e Lemeshow (2000).

A partir da Tabela 7.1, bem como da Figura 7.1, que mostra as m´edias de cada intervalo de idade versus os valores estimados de E(Y | x), podese notar que, ` a medida que a idade cresce, cresce tamb´em a E(Y | x). A mudan¸ca na E(Y | x) por unidade de mudan¸ca em x torna-se tamb´em progressivamente menor quando E(Y | x) torna-se pr´ oxima de zero ou de um. Para esses dados, a rela¸c˜ ao entre idade e E(Y | x) n˜ ao ´e, portanto, linear, mas sim sigmoidal (em forma de S). Assim como em regress˜ao linear, o interesse aqui ´e o de modelar o valor m´edio da vari´ avel resposta condicional aos valores da vari´ avel X, isto ´e, E(Y | x). Existem, contudo, algumas caracter´ısticas importantes a serem consideradas. Por exemplo, E(Y | x) pertence ao intervalo [0, 1] e n˜ ao ao intervalo (−∞, +∞) como em regress˜ao linear. Al´em disso, a rela¸c˜ ao entre X e E(Y | x) tem a forma de S, lembrando a distribui¸c˜ ao acumulada de uma vari´ avel aleat´oria. Esse fato motivou o uso da

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 167 — #181 ✐

Cap´ıtulo 8 Regress˜ ao multinomial 8.1

Introdu¸ c˜ ao

Como mencionado previamente, o modelo de regress˜ao log´ıstica tamb´em pode ser utilizado para a an´ alise de dados que apresentam vari´ avel resposta politˆ omica, isto ´e, com trˆes ou mais categorias, sejam elas nominais ou ordinais. Neste cap´ıtulo, s˜ ao apresentados alguns dos modelos de regress˜ao multinomial propostos na literatura para essas situa¸c˜oes.

8.2

Modelo logitos categoria de referˆ encia

Um modelo proposto para a an´ alise de dados caracterizados por uma vari´ avel resposta Y politˆ omica nominal, com Y seguindo distribui¸c˜ao multinomial, ´e denominado modelo logitos categoria de referˆencia (MLCR). Para apresentar o MLCR considere Y com r categorias (r > 2), sendo a ordena¸c˜ ao das mesmas irrelevante. Ainda, denote por pj (x) a probabilidade de ocorrˆencia da categoria j (j = 1, . . . , r) para um dado vetor x de valores P de p vari´ aveis explicativas (covari´ aveis) tal que rj=1 pj (x) = 1. Os logitos no MLCR se baseiam em fixar uma categoria de referˆencia,

usualmente a u ´ltima. Fixada a categoria r como a categoria de referˆencia, 167 ✐

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 168 — #182 ✐

168

Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es

o modelo fica expresso em termos dos logitos por pj (x) P (Y = j | x) ln = ln = β0j + β ′j x, pr (x) P (Y = r | x)

(8.1)

em que j = 1, . . . , r−1 indexa os r−1 logitos, com o logito j correspondendo, para um dado vetor x, ao logaritmo da chance de ocorrˆencia da j-´esima categoria de resposta em rela¸ca˜o `a categoria de referˆencia. A partir de (8.1) ´e poss´ıvel notar que o MLCR assume intercepto β0 e vetor de parˆ ametros de regress˜ao β diferentes para cada logito, o que implica que os efeitos das covari´ aveis variam de acordo com a categoria de resposta que est´ a sendo comparada com a categoria de referˆencia. Embora o modelo (8.1) considere r − 1 logitos dentre todos os

r 2

poss´ıveis pares de categorias, nota-se que os r − 1 logitos considerados pelo modelo determinam os logitos para todos os outros pares de categorias. Por exemplo, para o par de categorias 1 e 2 segue que p1 (x) p1 (x) p2 (x) ln = ln − ln = (β01 + β ′1 x) − (β02 + β ′2 x). p2 (x) pr (x) pr (x) Em termos das probabilidades de resposta, as equa¸c˜oes que expressam o modelo (8.1) s˜ ao dadas por exp(β0j + β ′j x)

pj (x) = 1+

r−1 X

,

j = 1, . . . , r − 1,

exp(β0j + β ′j x)

j=1

e

pr (x) = 1+

r−1 X

1

,

exp(β0j + β ′j x)

j=1

tal que

Pr

j=1 pj (x)

= 1.

Estima¸c˜ ao dos parˆ ametros do modelo (8.1) pode ser realizada por meio do m´etodo de m´ axima verossimilhan¸ca. Para i = 1, . . . , n, em que yij = 1 se a resposta do indiv´ıduo i est´ a na categoria j, j = 1, . . . , r, e yij = 0,

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 207 — #221 ✐

Cap´ıtulo 9 Regress˜ ao log´ıstica condicional

9.1

Introdu¸ c˜ ao

Algumas vezes a abordagem de m´ axima verossimilhan¸ca utilizada para estima¸c˜ ao em regress˜ao log´ıstica n˜ ao se mostra apropriada quando os dados s˜ ao altamente estratificados (isto ´e, est˜ ao distribu´ıdos em muitos estratos existindo um n´ umero pequeno de indiv´ıduos em cada um deles). Exemplos comuns s˜ ao os de observa¸c˜oes pareadas tais como as de gˆemeos fraternos, lados esquerdo e direito do corpo em estudos dermatol´ogicos ou, ainda, uma opini˜ ao coletada em duas ocasi˜ oes distintas. Para dados dessa natureza, o modelo de regress˜ao log´ıstica cl´assico pode ser invi´avel, tendo em vista o tamanho amostral ser insuficiente para estimar adequadamente o efeito do par. Contudo, se forem utilizados argumentos condicionais, ´e poss´ıvel remover o efeito do par e estimar os demais efeitos de interesse. Um modelo de regress˜ao sugerido para a an´ alise de dados como os que foram mencionados ´e denominado modelo de regress˜ao log´ıstica condicional. O termo condicional em tal modelo se deve `a estima¸c˜ao dos parˆ ametros ser realizada com base em uma fun¸c˜ao de verossimilhan¸ca condicional. 207 ✐

✐ ✐


“Categoricos” — 2017/7/30 — 17:19 — page 208 — #222 ✐

208

Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es

9.2

Modelo de regress˜ ao log´ıstica condicional

Algumas situa¸c˜ oes que ilustram a utiliza¸c˜ao do modelo de regress˜ao log´ıstica condicional s˜ ao apresentadas a seguir.

9.2.1

Ensaio cl´ınico com frequˆ encia pequena nos estratos

Considere um ensaio cl´ınico em que em cada um dos i = 1, . . . , q centros m´edicos escolhidos para a sua realiza¸c˜ao foram selecionados dois pacientes, um para receber o tratamento A sob pesquisa e o outro um placebo. O interesse se concentra na avalia¸c˜ao da melhora do paciente. Nota-se que h´ a somente duas observa¸c˜ oes por centro, o que inviabiliza que o efeito de centro seja estimado adequadamente. Suponha, para o ensaio mencionado, que Yij = 1 denote a ocorrˆencia de melhora e Yij = 0 a n˜ ao ocorrˆencia de melhora do paciente, em que j = 1 indexa o tratamento A e j = 2 o placebo (i = 1, . . . , q centros m´edicos). Suponha, ainda, que a vari´ avel tratamento seja definida tal que   1 se tratamento A Xij =  0 se placebo,

bem como que zij = (zij1 , zij2 , . . . , zijk )′ represente os valores observados das demais vari´ aveis explanat´ orias. Se o modelo de regress˜ao log´ıstica cl´assico fosse considerado para os dados desse estudo, o mesmo ficaria expresso por P (Yij = 1) =

exp(αi + βxij + γ ′ zij ) , 1 + exp(αi + βxij + γ ′ zij )

sendo αi o efeito do i-´esimo centro, β o parˆ ametro associado ao tratamento A e γ = (γ1 , γ2 , . . . , γk )′ o vetor de parˆ ametros associado `as vari´ aveis explanat´ orias z. Como, no entanto, os parˆ ametros αi (i = 1, . . . , q) n˜ ao podem ser estimados adequadamente pelo fato de existirem somente duas observa¸c˜ oes por centro, uma alternativa ´e considerar um modelo baseado em

✐ ✐


Capa_Giolo_intro dados categoricos_12mm.pdf 1 29/09/2017 09:16:02

Enrico AntĂ´nio Colosimo

Giolo

Professor do Departamento de EstatĂ­stica da UFMG. Ph.D. em EstatĂ­stica pela University of Wisconsin-Madison. Editor associado da Revista Brasileira de ,Z[H[xZ[PJH *V H\[VY KV SP]YV *VUĂ„HIPSPKHKL! (UmSPZL KL ;LTWV KL -HSOH L ;LZ[LZ KL =PKH (JLSLYHKVZ (Z Z\HZ mYLHZ KL PU[LYLZZL ZqV Tt[VKVZ LZ[H[xZ[PJVZ LT HUmSPZL KL ZVIYL]P]vUJPH JVUĂ„HIPSPKHKL THU\[LUsqV L KHKVZ SVUNP[\KPUHPZ

INTRODUĂ‡ĂƒO Ă€ ANĂ LISE DE DADOS CATEGĂ“RICOS COM APLICAÇÕES

Y

CM

MY

CY

Professora do Departamento de EstatĂ­stica da Universidade Federal do ParanĂĄ (UFPR). Licenciada em MatemĂĄtica e graduada em EstatĂ­stica pela Universidade Estadual Paulista “JĂşlio de Mesquita Filhoâ€? (Unesp), mestre em EstatĂ­stica pela Universidade Estadual de Campinas (Unicamp) e doutora em EstatĂ­stica e Experimentação AgronĂ´mica pela Escola Superior de Agricultura “Luiz de Queirozâ€? da Universidade de SĂŁo Paulo (ESALQ/USP) e pela Lancaster University, Inglaterra. Realizou pĂłs-doutorado em CiĂŞncias BiolĂłgicas no Instituto do Coração (InCor) e no Instituto de MatemĂĄtica e EstatĂ­stica (IME) da USP, com perĂ­odo na Mayo Clinic, Rochester, Estados Unidos. É coautora do livro AnĂĄlise de sobrevivĂŞncia aplicada e tem diversos artigos publicados em suas principais ĂĄreas de interesse, que incluem anĂĄlise de dados categĂłricos, anĂĄlise de sobrevivĂŞncia e mĂŠtodos estatĂ­sticos em genĂŠtica quantitativa e genĂ´mica.

CMY

K

Sobre o livro Este livro aborda conceitos båsicos, testes e diversos modelos estatísticos propostos para a anålise de dados categóricos. Dentre os modelos, podem ser citados o de regressão logística e o de logitos cumulativos. Com o propósito de ilustrar as metodologias estatísticas apresentadas, vårios exemplos são analisados no texto. Para a execução das anålises, foi adotado o software estatístico R, de domínio público. Os códigos utilizados estão disponíveis em um link no site da editora. De modo geral, o livro pode ser utilizado tanto por alunos de Estatística quanto por alunos, profissionais e pesquisadores de outras åreas (Saúde, Biológicas, Humanas, Engenharias etc.) que tenham interesse em mÊtodos estatísticos para a anålise de dados categóricos.

INTRODUĂ‡ĂƒO Ă€ ANĂ LISE DE DADOS CATEGĂ“RICOS COM APLICAÇÕES

M

INTRODUĂ‡ĂƒO Ă€ ANĂ LISE Professora do Departamento de EstatĂ­stica da UFPR. Licenciada em DE DADOS CATEGĂ“RICOS 4H[LTm[PJH L NYHK\HKH LT ,Z[H[xZ[PJH WLSH <ULZW YLHSPaV\ ZL\ TLZ[YHKV LT ,Z[H[xZ[PJH UH <UPJHTW L ZL\ KV\[VYHKV LT ,Z[H[xZ[PJH L ,_WLYPTLU[HsqV (NYVU TPJH UH ,:(38 <:7 L 3HUJHZ[LY <UP]LYZP[` 0UNSH[LYYH ,U[YL Z\HZ COM APLICAÇÕES mYLHZ KL PU[LYLZZL LZ[qV HUmSPZL KL ZVIYL]P]vUJPH KL KHKVZ SVUNP[\KPUHPZ L KL Enrico AntĂ´ Suely Ruiz Giolo

Suely Ruiz Giolo

C

Suely Ruiz Giolo

KHKVZ JH[LN}YPJVZ

Professor do D University of Resumo sobre o livro ,Z[H[xZ[PJH *V 5LZ[L SP]YV ZqV HWYLZLU[HKVZ JVUJLP[VZ ImZPJVZ [tJUPJHZ UqV WHYHTt[YPJHZ KL =PKH (JLSL L VZ WYPUJPWHPZ TVKLSVZ WYVIHIPSxZ[PJVZ L KL YLNYLZZqV \[PSPaHKVZ UH HUmSPZL HUmSPZL KL ZVI

KL KHKVZ KL ZVIYL]P]vUJPH +LU[YL VZ TVKLSVZ WVKL ZL JP[HY V KL *V_ V HKP[P]V KL (HSLU V KL MYHNPSPKHKL NHTH L HSN\UZ TVKLSVZ WHYH KHKVZ KL JLUZ\YH PU[LY]HSHY L NY\WHKVZ +P]LYZVZ L_LTWSVZ YLHPZ WYV]LUPLU[LZ UH Z\H THPVYPH KL ZP[\Hs LZ JSxUPJHZ ZqV HUHSPZHKVZ L PS\Z[YHT HZ [tJUPJHZ L TVKLSVZ HWYLZLU[HKVZ 7HYH VI[LUsqV KVZ YLZ\S[HKVZ LZ[H[xZ[PJVZ t \[PSPaHKV V WHJV[L LZ[H[xZ[PJV 9 J\QVZ JVTHUKVZ ZqV KLZJYP[VZ UV [L_[V +L TVKV NLYHS LZ[L SP]YV WVKL ZLY \[PSPaHKV WVY HS\UVZ KL NYHK\HsqV L KL W}Z NYHK\HsqV LT ,Z[H[xZ[PJH ILT JVTV WVY HS\UVZ WYVĂ„ZZPVUHPZ L WLZX\PZHKVYLZ KL V\[YHZ mYLHZ TtKPJH IPVS}NPJH L[J X\L [LUOHT PU[LYLZZL LT HUmSPZL KL ZVIYL]P]vUJPH

ABE - PROJETO FISHER capa colosimo.indd 1

Professora d 4H[LTm[PJH L LT ,Z[H[xZ[PJH (NYVU TPJH mYLHZ KL PU[LY KHKVZ JH[LN}Y

Resumo sob

5LZ[L SP]YV Zq L VZ WYPUJPWH KL KHKVZ KL HKP[P]V KL (H JLUZ\YH PU[LY] THPVYPH KL ZP HWYLZLU[HKVZ LZ[H[xZ[PJV 9 J WVKL ZLY \[PSPa ILT JVTV WV IPVS}NPJH L[J

www.blucher.com.br

ABE - PROJETO FISHER

Suely Ruiz G


Clique aqui e:

Veja na loja

Introdução à Análise de Dados Categóricos com Aplicações Suely Ruiz Giolo ISBN: 9788521211877 Páginas: 256 Formato: 17 x 24 cm Ano de Publicação: 2017


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.