Capa_Giolo_intro dados categoricos_12mm.pdf 1 29/09/2017 09:16:02
Enrico AntĂ´nio Colosimo
Giolo
Professor do Departamento de EstatĂstica da UFMG. Ph.D. em EstatĂstica pela University of Wisconsin-Madison. Editor associado da Revista Brasileira de ,Z[H[xZ[PJH *V H\[VY KV SP]YV *VUĂ„HIPSPKHKL! (UmSPZL KL ;LTWV KL -HSOH L ;LZ[LZ KL =PKH (JLSLYHKVZ (Z Z\HZ mYLHZ KL PU[LYLZZL ZqV Tt[VKVZ LZ[H[xZ[PJVZ LT HUmSPZL KL ZVIYL]P]vUJPH JVUĂ„HIPSPKHKL THU\[LUsqV L KHKVZ SVUNP[\KPUHPZ
INTRODUĂ‡ĂƒO Ă€ ANĂ LISE DE DADOS CATEGĂ“RICOS COM APLICAÇÕES
Y
CM
MY
CY
Professora do Departamento de EstatĂstica da Universidade Federal do ParanĂĄ (UFPR). Licenciada em MatemĂĄtica e graduada em EstatĂstica pela Universidade Estadual Paulista “JĂşlio de Mesquita Filhoâ€? (Unesp), mestre em EstatĂstica pela Universidade Estadual de Campinas (Unicamp) e doutora em EstatĂstica e Experimentação AgronĂ´mica pela Escola Superior de Agricultura “Luiz de Queirozâ€? da Universidade de SĂŁo Paulo (ESALQ/USP) e pela Lancaster University, Inglaterra. Realizou pĂłs-doutorado em CiĂŞncias BiolĂłgicas no Instituto do Coração (InCor) e no Instituto de MatemĂĄtica e EstatĂstica (IME) da USP, com perĂodo na Mayo Clinic, Rochester, Estados Unidos. É coautora do livro AnĂĄlise de sobrevivĂŞncia aplicada e tem diversos artigos publicados em suas principais ĂĄreas de interesse, que incluem anĂĄlise de dados categĂłricos, anĂĄlise de sobrevivĂŞncia e mĂŠtodos estatĂsticos em genĂŠtica quantitativa e genĂ´mica.
CMY
K
Sobre o livro Este livro aborda conceitos bĂĄsicos, testes e diversos modelos estatĂsticos propostos para a anĂĄlise de dados categĂłricos. Dentre os modelos, podem ser citados o de regressĂŁo logĂstica e o de logitos cumulativos. Com o propĂłsito de ilustrar as metodologias estatĂsticas apresentadas, vĂĄrios exemplos sĂŁo analisados no texto. Para a execução das anĂĄlises, foi adotado o software estatĂstico R, de domĂnio pĂşblico. Os cĂłdigos utilizados estĂŁo disponĂveis em um link no site da editora. De modo geral, o livro pode ser utilizado tanto por alunos de EstatĂstica quanto por alunos, profissionais e pesquisadores de outras ĂĄreas (SaĂşde, BiolĂłgicas, Humanas, Engenharias etc.) que tenham interesse em mĂŠtodos estatĂsticos para a anĂĄlise de dados categĂłricos.
INTRODUĂ‡ĂƒO Ă€ ANĂ LISE DE DADOS CATEGĂ“RICOS COM APLICAÇÕES
M
INTRODUĂ&#x2021;Ă&#x192;O Ă&#x20AC; ANĂ LISE Professora do Departamento de EstatĂstica da UFPR. Licenciada em DE DADOS CATEGĂ&#x201C;RICOS 4H[LTm[PJH L NYHK\HKH LT ,Z[H[xZ[PJH WLSH <ULZW YLHSPaV\ ZL\ TLZ[YHKV LT ,Z[H[xZ[PJH UH <UPJHTW L ZL\ KV\[VYHKV LT ,Z[H[xZ[PJH L ,_WLYPTLU[HsqV (NYVU TPJH UH ,:(38 <:7 L 3HUJHZ[LY <UP]LYZP[` 0UNSH[LYYH ,U[YL Z\HZ COM APLICAĂ&#x2021;Ă&#x2022;ES mYLHZ KL PU[LYLZZL LZ[qV HUmSPZL KL ZVIYL]P]vUJPH KL KHKVZ SVUNP[\KPUHPZ L KL Enrico AntĂ´ Suely Ruiz Giolo
Suely Ruiz Giolo
C
Suely Ruiz Giolo
KHKVZ JH[LN}YPJVZ
Professor do D University of Resumo sobre o livro ,Z[H[xZ[PJH *V 5LZ[L SP]YV ZqV HWYLZLU[HKVZ JVUJLP[VZ ImZPJVZ [tJUPJHZ UqV WHYHTt[YPJHZ KL =PKH (JLSL L VZ WYPUJPWHPZ TVKLSVZ WYVIHIPSxZ[PJVZ L KL YLNYLZZqV \[PSPaHKVZ UH HUmSPZL HUmSPZL KL ZVI
KL KHKVZ KL ZVIYL]P]vUJPH +LU[YL VZ TVKLSVZ WVKL ZL JP[HY V KL *V_ V HKP[P]V KL (HSLU V KL MYHNPSPKHKL NHTH L HSN\UZ TVKLSVZ WHYH KHKVZ KL JLUZ\YH PU[LY]HSHY L NY\WHKVZ +P]LYZVZ L_LTWSVZ YLHPZ WYV]LUPLU[LZ UH Z\H THPVYPH KL ZP[\Hs LZ JSxUPJHZ ZqV HUHSPZHKVZ L PS\Z[YHT HZ [tJUPJHZ L TVKLSVZ HWYLZLU[HKVZ 7HYH VI[LUsqV KVZ YLZ\S[HKVZ LZ[H[xZ[PJVZ t \[PSPaHKV V WHJV[L LZ[H[xZ[PJV 9 J\QVZ JVTHUKVZ ZqV KLZJYP[VZ UV [L_[V +L TVKV NLYHS LZ[L SP]YV WVKL ZLY \[PSPaHKV WVY HS\UVZ KL NYHK\HsqV L KL W}Z NYHK\HsqV LT ,Z[H[xZ[PJH ILT JVTV WVY HS\UVZ WYVĂ&#x201E;ZZPVUHPZ L WLZX\PZHKVYLZ KL V\[YHZ mYLHZ TtKPJH IPVS}NPJH L[J X\L [LUOHT PU[LYLZZL LT HUmSPZL KL ZVIYL]P]vUJPH
ABE - PROJETO FISHER capa colosimo.indd 1
Professora d 4H[LTm[PJH L LT ,Z[H[xZ[PJH (NYVU TPJH mYLHZ KL PU[LY KHKVZ JH[LN}Y
Resumo sob
5LZ[L SP]YV Zq L VZ WYPUJPWH KL KHKVZ KL HKP[P]V KL (H JLUZ\YH PU[LY] THPVYPH KL ZP HWYLZLU[HKVZ LZ[H[xZ[PJV 9 J WVKL ZLY \[PSPa ILT JVTV WV IPVS}NPJH L[J
www.blucher.com.br
ABE - PROJETO FISHER
Suely Ruiz G
“Iniciais” — 2017/7/30 — 17:19 — page 3 — #3
Introdu¸c˜ ao ` a an´ alise de dados categ´ oricos com aplica¸ c˜ oes
Suely Ruiz Giolo Departamento de Estat´ıstica Universidade Federal do Paran´a
✐
✐
“Iniciais” — 2017/9/28 — 17:47 — page 4 — #4 ✐
✐
Introdu¸ca ˜o ` a an´ alise de dados categ´ oricos com aplica¸co ˜es c 2017 Suely Ruiz Giolo Editora Edgard Bl¨ ucher Ltda. Imagem da capa: cortesia de cooldesign em FreeDigitalPhotos.net
Dados Internacionais de Cataloga¸ca ˜o na Publica¸ca ˜o (CIP) Ang´ elica Ilacqua CRB-8/7057 Rua Pedroso Alvarenga, 1245, 4 o andar 04531-934 - S˜ ao Paulo - SP - Brasil Tel.: 55 11 3078-5366 contato@blucher.com.br www.blucher.com.br
Giolo, Suely Ruiz Introdu¸ca ˜o ` a an´ alise de dados categ´ oricos com aplica¸co ˜es / Suely Ruiz Giolo. – S˜ ao Paulo : Blucher, 2017. 256 p. : il.
Segundo o Novo Acordo Ortogr´ afico, conforme 5. ed. do Vocabul´ ario da L´ıngua Portuguesa, Academia Brasileira de Letras, mar¸co de 2009.
Bibliografia ISBN 978-85-212-1187-7
1. Estat´ıstica 2. Estat´ıstica matem´ atica I. T´ıtulo. ´ proibida a reprodu¸ca E ˜o total ou parcial por quaisquer meios sem autoriza¸ca ˜o escrita da editora.
17-0504
Todos os direitos reservados pela Editora Edgard Bl¨ ucher Ltda.
´Indices para cat´ alogo sistem´ atico: 1. Estat´ıstica
CDD 519.5
✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page vii — #7 ✐
✐
Conte´ udo
Pref´ acio
xiii
1 Conceitos introdut´ orios
1
1.1
Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Classifica¸c˜ ao de vari´ aveis . . . . . . . . . . . . . . . . . . . .
2
1.3
Terminologia e nota¸c˜ao . . . . . . . . . . . . . . . . . . . . .
3
1.4
Exemplos de estudos cl´ınico-epidemiol´ogicos . . . . . . . . .
5
1.4.1
Estudos de coorte . . . . . . . . . . . . . . . . . . .
5
1.4.2
Estudos caso-controle . . . . . . . . . . . . . . . . .
8
1.4.3
Estudos transversais . . . . . . . . . . . . . . . . . .
11
1.4.4
Ensaios cl´ınicos aleatorizados . . . . . . . . . . . . .
13
Estudos h´ıbridos . . . . . . . . . . . . . . . . . . . . . . . .
15
1.5.1
Estudo caso-controle encaixado em uma coorte . . .
15
1.5.2
Estudos caso-coorte . . . . . . . . . . . . . . . . . .
16
Exemplos em outras ´areas de pesquisa . . . . . . . . . . . .
17
1.6.1
Estudos em entomologia . . . . . . . . . . . . . . . .
17
1.6.2
Estudos em ciˆencia animal . . . . . . . . . . . . . . .
18
Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
1.5
1.6
1.7
2 Delineamentos amostrais e modelos associados
23
2.1
Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.2
Delineamentos usuais e modelos associados . . . . . . . . .
23
vii ✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page viii — #8 ✐
✐
viii
Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es
2.2.1
Modelo produto de binomiais . . . . . . . . . . . . .
23
2.2.2
Modelo produto de multinomiais . . . . . . . . . . .
27
2.2.3
Modelo multinomial . . . . . . . . . . . . . . . . . .
28
2.2.4
Modelo produto de distribui¸c˜oes de Poisson . . . . .
30
2.3
Considera¸c˜ oes sobre os delineamentos
2.4
Representa¸c˜ ao gr´ afica de dados categ´oricos
2.5
. . . . . . . . . . . .
31
. . . . . . . . .
33
2.4.1
Gr´ aficos de colunas, de barras e de setores . . . . . .
33
2.4.2
Gr´ aficos qu´adruplo e mosaico . . . . . . . . . . . . .
36
Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
3 Tabelas de contingˆ encia 2 × 2
41
3.1
Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
3.2
Testes em tabelas de contingˆencia 2 × 2 . . . . . . . . . . .
41
3.2.1
Delineamentos com totais marginais-linha fixos . . .
41
3.2.2
Delineamentos com totais marginais-coluna fixos . .
43
3.2.3
Delineamentos com total amostral n fixo . . . . . . .
44
3.2.4
Delineamentos com totais aleat´orios . . . . . . . . .
45
3.2.5
Coment´ arios sobre os testes qui-quadrado . . . . . .
46
3.2.6
Amostras pequenas: teste exato de Fisher . . . . . .
47
Medidas de associa¸c˜ ao em tabelas 2 × 2 . . . . . . . . . . .
48
3.3.1
Risco relativo . . . . . . . . . . . . . . . . . . . . . .
48
3.3.2
Diferen¸ca entre propor¸c˜oes ou risco atribu´ıvel . . . .
50
3.3.3
Raz˜ ao de chances . . . . . . . . . . . . . . . . . . . .
50
3.3.4
Rela¸c˜ ao entre risco relativo e raz˜ ao de chances . . .
54
Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
3.4.1
Avalia¸c˜ ao de um medicamento . . . . . . . . . . . .
56
3.4.2
Armadilhas na atra¸c˜ao de insetos . . . . . . . . . . .
57
3.4.3
Tabagismo e cˆ ancer de pulm˜ao . . . . . . . . . . . .
58
3.4.4
Doen¸cas respirat´orias em crian¸cas . . . . . . . . . .
60
3.4.5
Medicamentos para infec¸c˜oes graves . . . . . . . . .
61
3.3
3.4
✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page ix — #9 ✐
✐
Conte´ udo
ix
3.5
Coment´ arios . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
3.6
Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
4 Tabelas de contingˆ encia s × r
65
4.1
Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
4.2
An´alise de tabelas de contingˆencia 2 × r . . . . . . . . . . .
65
4.2.1
Sobre a escolha dos escores . . . . . . . . . . . . . .
68
4.3
An´alise de tabelas de contingˆencia s × 2 . . . . . . . . . . .
69
4.4
An´alise de tabelas de contingˆencia s × r . . . . . . . . . . .
72
4.4.1
Associa¸c˜ ao em tabelas bidimensionais s × r . . . . .
72
4.4.2
Teste exato de Fisher em tabelas s × r . . . . . . . .
74
4.4.3
Medidas de associa¸c˜ao em tabelas s × r . . . . . . .
74
Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
4.5.1
Local de moradia e afilia¸c˜oes pol´ıtico-partid´arias . .
75
4.5.2
Medicamentos para tratamento da cefaleia . . . . . .
75
4.5.3
Produtos de limpeza e intensidade da limpeza . . . .
77
4.5.4
Ve´ıculo adquirido e fonte de propaganda . . . . . . .
79
4.6
Coment´ arios . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
4.7
Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
4.5
5 An´ alise estratificada 5.1
85
Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
5.1.1
Confundimento e efeito modificador . . . . . . . . .
86
Exemplos de an´ alise estratificada . . . . . . . . . . . . . . .
88
5.2.1
Ensaio cl´ınico multicentros . . . . . . . . . . . . . .
88
5.2.2
Ensaio cl´ınico duplo cego . . . . . . . . . . . . . . .
92
5.2.3
Estudo transversal . . . . . . . . . . . . . . . . . . .
94
5.3
An´alise estratificada em tabelas s × r . . . . . . . . . . . .
96
5.4
Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
5.2
✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/9/28 — 16:42 — page x — #10 ✐
✐
x
Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es
6 Tabelas com dados relacionados
99
6.1
Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
6.2
Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
6.2.1
Taxa de aprova¸c˜ao de um pol´ıtico
99
6.2.2
Acur´ acia de exames laboratoriais . . . . . . . . . . . 101
6.3
6.4
. . . . . . . . . .
Concordˆancia entre avaliadores . . . . . . . . . . . . . . . . 108 6.3.1
Estat´ıstica κ ou capa . . . . . . . . . . . . . . . . . . 109
6.3.2
Estat´ıstica κw ou capa ponderada . . . . . . . . . . 110
6.3.3
Exemplo sobre concordˆancia de diagn´ osticos . . . . . 111
Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
7 Regress˜ ao binomial
119
7.1
Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7.2
Regress˜ ao log´ıstica dicotˆ omica . . . . . . . . . . . . . . . . . 119
7.3
7.4
7.5
7.2.1
Estima¸c˜ ao dos parˆ ametros . . . . . . . . . . . . . . . 123
7.2.2
Significˆancia dos efeitos das vari´ aveis . . . . . . . . . 127
7.2.3
Qualidade do modelo ajustado . . . . . . . . . . . . 131
7.2.4
Diagn´ ostico em regress˜ao log´ıstica . . . . . . . . . . 132
7.2.5
Modelo ajustado e interpreta¸c˜oes . . . . . . . . . . . 134
Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 7.3.1
Exemplo 1: estudo sobre doen¸ca coron´ aria . . . . . . 135
7.3.2
Exemplo 2: estudo sobre infec¸c˜oes urin´arias . . . . . 140
7.3.3
Exemplo 3: estudo sobre bronquite . . . . . . . . . . 144
7.3.4
Exemplo 4: outro estudo sobre doen¸ca coron´ aria . . 148
Diagn´ ostico do modelo: m´etodos auxiliares . . . . . . . . . 153 7.4.1
Gr´ afico quantil-quantil com envelope simulado . . . 153
7.4.2
Poder preditivo do modelo e medidas auxiliares . . . 154
Modelos alternativos para dados bin´ arios . . . . . . . . . . . 156 7.5.1
7.6
Ilustra¸c˜ ao de modelos alternativos . . . . . . . . . . 158
Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page xi — #11 ✐
✐
xi
Conte´ udo
8 Regress˜ ao multinomial
167
8.1
Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
8.2
Modelo logitos categoria de referˆencia . . . . . . . . . . . . 167 8.2.1
8.3
8.4
8.5
Ilustra¸c˜ ao do modelo logitos categoria de referˆencia . 170
Modelo logitos cumulativos . . . . . . . . . . . . . . . . . . 176 8.3.1
MLC com chances n˜ ao proporcionais . . . . . . . . . 177
8.3.2
MLC com chances proporcionais . . . . . . . . . . . 178
8.3.3
MLC com chances proporcionais parciais
8.3.4
Sele¸c˜ ao e qualidade de ajuste dos MLC . . . . . . . 181
8.3.5
Ilustra¸c˜ ao do modelo logitos cumulativos . . . . . . . 183
. . . . . . 180
Outros modelos para respostas ordinais . . . . . . . . . . . 188 8.4.1
Modelo logitos categorias adjacentes . . . . . . . . . 188
8.4.2
Ilustra¸c˜ ao do modelo logitos categorias adjacentes . 190
8.4.3
Modelo logitos raz˜ ao cont´ınua . . . . . . . . . . . . . 195
8.4.4
Ilustra¸c˜ ao do modelo logitos raz˜ ao cont´ınua . . . . . 197
8.4.5
Coment´ arios
. . . . . . . . . . . . . . . . . . . . . . 203
Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
9 Regress˜ ao log´ıstica condicional
207
9.1
Introdu¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
9.2
Modelo de regress˜ao log´ıstica condicional . . . . . . . . . . . 208
9.3
9.2.1
Ensaio cl´ınico com frequˆencia pequena nos estratos . 208
9.2.2
Estudos cruzados de dois ou mais per´ıodos . . . . . 212
9.2.3
Estudos retrospectivos com observa¸c˜oes pareadas . . 216
Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
Apˆ endices
221
Referˆ encias
231
´ Indice remissivo
239
✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 1 — #15 ✐
✐
Cap´ıtulo 1 Conceitos introdut´ orios 1.1
Introdu¸ c˜ ao
Analistas se deparam frequentemente com experimentos em que diversas das vari´ aveis de interesse s˜ ao categ´oricas (ou qualitativas), refletindo assim categorias de informa¸c˜ ao em vez da usual escala intervalar. Exemplos de vari´ aveis categ´ oricas s˜ ao, dentre outros, melhora do paciente (sim ou n˜ ao), sintomas de uma doen¸ca (sim ou n˜ ao), desempenho do candidato (bom, regular ou p´essimo) e classe social (baixa, m´edia ou alta). Dependendo do delineamento amostral utilizado para obten¸c˜ao dos dados, bem como dos objetivos para a an´ alise dos mesmos, as vari´ aveis de interesse podem ser classificadas em vari´ aveis respostas ou explicativas. Aquelas descrevendo a livre resposta de cada unidade amostral e que, por isso, est˜ ao sujeitas a modelos probabil´ısticos que estejam de acordo com o esquema de obten¸c˜ ao dos dados, s˜ ao denominadas vari´ aveis respostas. J´ a aquelas consideradas fixas, seja pelo delineamento amostral ou pela a¸c˜ao causal atribu´ıda a elas no contexto dos dados, s˜ ao comumente denominadas vari´ aveis explicativas (ou ainda fatores, covari´ aveis, dentre outros). O objetivo desse texto ´e o de apresentar um material introdut´ orio sobre a an´ alise de dados provenientes de estudos em que o interesse se concentra 1 ✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 2 — #16 ✐
✐
2
Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es
em uma vari´ avel resposta categ´orica. A an´ alise de dados dessa natureza ´e comumente denominada an´ alise de dados categ´oricos ou an´ alise de dados discretos. Isso porque distribui¸c˜oes discretas de probabilidade (binomial, Poisson, multinomial etc.) est˜ ao associadas `a vari´ avel resposta. As demais vari´ aveis envolvidas nesses estudos, as quais usualmente se tem interesse em verificar suas respectivas associa¸c˜oes com a vari´ avel resposta, podem ser tanto categ´ oricas quanto cont´ınuas. Vari´ aveis cont´ınuas podem tamb´em ser categorizadas, seja por interesse do pesquisador ou por conveniˆencia. Por exemplo, a idade pode ser categorizada em faixas et´arias, bem como o resultado de um exame m´edico categorizado em normal ou anormal. O peso, por sua vez, pode ser categorizado em obeso e n˜ ao obeso ou, ainda, em intervalos tais como < 60, [60, 100), [100, 150) e ≥ 150 kg.
1.2
Classifica¸ c˜ ao de vari´ aveis
Dos exemplos de vari´ aveis categ´oricas citados na Se¸c˜ao 1.1 ´e poss´ıvel notar algumas diferen¸cas entre elas. Por exemplo, algumas apresentam duas categorias mutuamente exclusivas, outras trˆes ou mais, bem como algumas apresentam uma ordena¸c˜ao natural das categorias e outras n˜ ao. Vari´ aveis categ´ oricas que apresentam somente duas categorias s˜ ao denominadas dicotˆ omicas ou bin´ arias. J´ a as que apresentam trˆes ou mais categorias s˜ ao denominadas politˆ omicas. Em geral, vari´ aveis categ´oricas s˜ ao classificadas de acordo com sua escala de mensura¸c˜ao em ordinais ou nominais. As que apresentam categorias ordenadas s˜ ao ditas ordinais. Por exemplo: a) efeito produzido por um medicamento (nenhum, algum ou acentuado); ou ainda b) grau de pureza da ´agua (baixo, m´edio ou alto). Nesses dois exemplos, nota-se a existˆencia de uma ordem natural das categorias com as distˆ ancias absolutas entre elas sendo, contudo, desconhecidas. Em contrapartida, vari´ aveis cujas categorias n˜ ao exibem uma ordena¸c˜ao natural s˜ ao ditas nominais. Como exemplos tem-se: i) preferˆencia de local
✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 23 — #37 ✐
✐
Cap´ıtulo 2 Delineamentos amostrais e modelos associados 2.1
Introdu¸ c˜ ao
Identificar o delineamento amostral que produziu os dados ´e importante para que se possa determinar uma an´ alise apropriada e, consequentemente, fazer as inferˆencias de interesse. Neste cap´ıtulo, s˜ ao descritos alguns dos delineamentos amostrais mais usuais, bem como os modelos probabil´ısticos frequentemente assumidos para eles.
2.2 2.2.1
Delineamentos usuais e modelos associados Modelo produto de binomiais
Suponha que um estudo seja planejado de modo que a popula¸c˜ao alvo seja dividida em duas subpopulac˜ oes independentes de acordo com as categorias i = 1, 2 de uma vari´ avel X e que, a seguir, sejam extra´ıdas duas amostras aleat´ orias, uma de tamanho n1+ da subpopula¸c˜ao 1 e outra de tamanho n2+ da subpopula¸c˜ao 2. Uma vez extra´ıdas as amostras, os indiv´ıduos s˜ ao acompanhados por um per´ıodo de tempo, registrando-se os 23 ✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 24 — #38 ✐
✐
24
Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es
que apresentam as categorias j = 1 e j = 2 da vari´ avel resposta Y. Os dados de estudos conduzidos desse modo s˜ ao comumente apresentados em tabelas de contingˆencia como os da Tabela 1.1. Sob o delineamento amostral descrito, nota-se que os totais marginais n1+ e n2+ (e consequentemente n) s˜ ao fixos, enquanto os valores nij , associados ` as vari´ aveis Nij , i, j = 1, 2, com Nij sendo a frequˆencia de indiv´ıduos apresentando a categoria j de Y dentre os ni+ na categoria i de X, dependem da realiza¸c˜ ao do estudo para serem conhecidos.
Ainda, como
ni1 + ni2 = ni+ , i = 1, 2, segue que o conjunto {0, 1, . . . , ni+ } determina os valores poss´ıveis de ni1 , com ni2 = ni+ − ni1 para i = 1, 2. Para os leitores familiarizados com t´ecnicas de amostragem (COCHRAN, 1977; BOLFARINE; BUSSAB, 2005), ressalta-se que o delineamento descrito corresponde a um processo de amostragem estratificada, em que para cada estrato ´e selecionada uma amostra aleat´oria simples. Ainda, como cada indiv´ıduo ´e classificado de acordo com uma vari´ avel resposta Y dicotˆ omica, tem-se que cada amostra define uma sequˆencia de ni+ ensaios de Bernoulli, i = 1, 2 (DANTAS, 2000). Assim, assumindo as condi¸c˜oes a seguir v´alidas, i) ocorrˆencia somente da categoria j = 1 ou j = 2 da vari´ avel resposta Y em cada ensaio da sequˆencia i, i = 1, 2; ii) ensaios independentes em cada sequˆencia i, isto ´e, independˆencia entre as respostas dos ni+ indiv´ıduos (i = 1, 2); e iii) probabilidade constante de ocorrˆencia da categoria de resposta j = 1, denotada por p(i)1 , em cada ensaio da sequˆencia i, i = 1, 2, segue que as vari´ aveis aleat´ orias Ni1 , i = 1, 2, com Ni1 representando a frequˆencia de indiv´ıduos apresentando a categoria j = 1 de Y dentre os que pertencem ` a categoria i de X, tˆem distribui¸c˜ao binomial com parˆ ametros ni+ e p(i)1 , isto ´e, Ni1 | (ni+ , p(i)1 ) ∼ Bin(ni+ , p(i)1 ), para i = 1, 2. Uma vez que as distribui¸c˜ oes associadas `as vari´ aveis Ni1 , i = 1, 2, s˜ ao independentes, o que resulta do fato de as amostras de tamanhos n1+ e n2+
✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 41 — #55 ✐
✐
Cap´ıtulo 3 Tabelas de contingˆ encia 2 × 2 3.1
Introdu¸ c˜ ao
Estrat´egias de an´ alise associadas aos estudos em que os dados s˜ ao dispostos em tabelas de contingˆencia 2 × 2 s˜ ao tratadas neste cap´ıtulo. Ser´ a visto que diversas quest˜ oes de interesse podem ser respondidas testando-se hip´ oteses de associa¸c˜ ao.
3.2
Testes em tabelas de contingˆ encia 2 × 2
Para estudos conduzidos sob um dos delineamentos amostrais descritos no Cap´ıtulo 2 s˜ ao estabelecidas, a seguir, as hip´ oteses de interesse e as correspondentes estat´ısticas para test´ a-las.
3.2.1
Delineamentos com totais marginais-linha fixos
Como visto nos cap´ıtulos anteriores, existem estudos que s˜ ao planejados de modo que os totais marginais n1+ e n2+ associados `as categorias da vari´ avel X s˜ ao fixos. Como exemplo, considere os dados dispostos na Tabela 3.1 e no gr´ afico de colunas m´ ultiplas ao seu lado, referentes a um ensaio cl´ınico aleatorizado em que o interesse est´ a em estudar a associa¸c˜ao entre as vari´ aveis medicamento (X) e melhora dos pacientes (Y ). 41 ✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 42 — #56 ✐
✐
42
Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es
0,8
Proporções amostrais
Melhora: sim Melhora: não 0,75 0,67
Novo
40
20
60
Placebo
16
48
64
Totais
56
68
124
0,4
0,6
N˜ ao
0,2
Totais
Sim
0,0
Medicamento
Melhora
1,0
Tabela 3.1 – Resposta ao medicamento
0,33 0,25
Novo
Medicamentos
Placebo
Neste ensaio, a ausˆencia da associa¸c˜ao mencionada significa admitir que a probabilidade de melhora n˜ ao difere entre os pacientes que receberam o novo medicamento e os que receberam o placebo. Desse modo, levando-se em considera¸c˜ ao o delineamento amostral (ni+ fixos, i = 1, 2) e o modelo probabil´ıstico associado (produto de binomiais), as seguintes hip´ oteses podem ser estabelecidas para testar a associa¸c˜ao de interesse H0 : p(1)1 = p(2)1 (= p+1 ) ⇒ ausˆencia de associa¸c˜ao H : p A (1)1 6= p(2)1
⇒ presen¸ca de associa¸c˜ao.
Devido ` a hip´ otese nula H0 traduzir a igualdade de parˆ ametros distribu-
cionais, ela ´e usualmente denominada hip´ otese de homogeneidade. Formas p(1)1 equivalentes de express´ a-la s˜ ao: H0 : p(1)1 − p(2)1 = 0, H0 : = 1 ou, p(2)1 p(1)1 /(1 − p(1)1 ) = 1. ainda, H0 : p(2)1 /(1 − p(2)1 ) Como sob H0 tem-se Ni1 ∼ Bin(ni+ , p+1 ), segue que E(Ni1 ) = ni+ (p+1 ) N+j e E(Ni2 ) = ni+ (1 − p+1 ) = ni+ (p+2 ), i = 1, 2. Ainda, pb+j = , j = 1, 2, n (ni+ )(N+j ) o que implica ni+ (b p+j ) = , i, j = 1, 2. Desse modo, aos valores n num´ericos associados ` as esperan¸cas E(Nij ), denotados por eij =
(ni+ )(n+j ) , n
i, j = 1, 2,
tem-se os correspondentes valores das frequˆencias esperadas sob H0 . Usar as diferen¸cas entre os valores observados nij e os valores esperados sob H0 , eij , i, j = 1, 2, parece ser, portanto, intuitivo para a constru¸c˜ao de
✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 65 — #79 ✐
✐
Cap´ıtulo 4 Tabelas de contingˆ encia s × r 4.1
Introdu¸ c˜ ao
No cap´ıtulo anterior, foi abordada a an´ alise de tabelas de contingˆencia bidimensionais 2 × 2. Neste cap´ıtulo, ser´ a discutida a an´ alise de tabelas bidimensionais 2 × r, s × 2 e s × r, para r e s > 2.
4.2
An´ alise de tabelas de contingˆ encia 2 × r
Considere os dados dispostos na Tabela 4.1 e Figura 4.1, resultados de um ensaio cl´ınico aleatorizado realizado com o objetivo de pesquisar um tratamento para a artrite reumatoide. Como a vari´ avel resposta apresenta trˆes categorias e os totais marginais-linha n1+ e n2+ s˜ ao fixos, tem-se associado a esse estudo o modelo produto de multinomiais, em que as hip´ oteses de interesse s˜ ao H : p =p 0 1 2 HA : p1 6= p2
⇒ hip´ otese de homogeneidade
com p1 = (p(1)1 , p(1)2 , p(1)3 ) e p2 = (p(2)1 , p(2)2 , p(2)3 ).
65 ✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 66 — #80 ✐
✐
66
Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es
Tabela 4.1 – Ensaio cl´ınico aleatorizado referente `a artrite reumatoide Tratamento
Melhora do paciente
Totais
Nenhuma
Alguma
Acentuada
Ativo Placebo
13 29
7 7
21 7
41 43
Totais
42
14
28
84
1,0 0,8
Nenhuma melhora Alguma melhora Melhora acentuada
0,4
0,6
0,674 0,512 0,317 0,171
0,163
0,163
0,0
0,2
Proporções amostrais
Fonte: Stokes et al. (2000).
Ativo
Placebo Tratamento
Figura 4.1 – Gr´afico de colunas justapostas referente a ensaio cl´ınico realizado para pesquisar um tratamento para a artrite reumatoide.
Do que foi apresentado no Cap´ıtulo 3, as hip´ oteses mencionadas poderiam ser testadas por meio da estat´ıstica qui-quadrado de Pearson, 3 2 X X (nij − eij )2 , QP = eij
(4.1)
i=1 j=1
em que eij =
(ni+ )(n+j ) , n
i = 1, 2 e j = 1, 2, 3. Contudo, a natureza ordinal
da vari´ avel resposta n˜ ao estaria sendo levada em considera¸c˜ao. Assim, uma alternativa sugerida na literatura ´e a de se atribuir escores a = (a1 , a2 , a3 ) para as categorias da vari´ avel resposta e, ent˜ao, definir um escore m´edio para cada subpopula¸c˜ ao (linha) da tabela de contingˆencia, tal que F¯i =
3 X
aj p(i)j
i = 1, 2,
j=1
✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 85 — #99 ✐
✐
Cap´ıtulo 5 An´ alise estratificada 5.1
Introdu¸ c˜ ao
Nos estudos em que h´ a interesse em avaliar a existˆencia de associa¸c˜ao entre uma vari´ avel de exposi¸c˜ao X e uma vari´ avel resposta Y, aten¸c˜ao deve ser dada ` as vari´ aveis adicionais (secund´arias) que podem interferir na associa¸c˜ ao. Tais vari´ aveis s˜ ao denominadas interferentes e usualmente classificadas em dois tipos: as de confundimento e as modificadoras de efeito. As de confundimento distorcem ficticiamente a associa¸c˜ao entre as vari´ aveis X e Y, alterando-lhe a for¸ca ou mesmo o sentido. J´ a as modificadoras de efeito, mostram o efeito de X sobre Y variando de acordo com as categorias de uma vari´ avel adicional Z. Sendo assim, ao investigar a associa¸c˜ao entre X e Y ´e importante ajustar ou controlar para o efeito de vari´ aveis interferentes a fim de que n˜ ao sejam obtidas conclus˜oes errˆ oneas. An´alises que consideram o efeito dessas vari´ aveis s˜ ao usualmente denominadas an´ alises estratificadas, pois s˜ ao realizadas com os dados estratificados pelas categorias dessas vari´ aveis. Em alguns casos, a estratifica¸c˜ ao ´e resultado do pr´ oprio delineamento amostral considerado no estudo, tal como nos ensaios cl´ınicos multicentros. Em outros, aparece somente ap´ os a coleta dos dados, quando fica evidenciada a 85 ✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 86 — #100 ✐
✐
86
Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es
necessidade de se ajustar para o efeito de certas vari´ aveis que de algum modo podem interferir na rela¸c˜ao causal entre as vari´ aveis X e Y. Como um exemplo de vari´ avel de confundimento, pode ser citado um estudo realizado para investigar a associa¸c˜ao entre fumo volunt´ario e cˆancer de pulm˜ao, em que o efeito de fumo passivo foi considerado no planejamento amostral e na an´ alise dos dados. A estratifica¸c˜ao pela vari´ avel fumo passivo foi feita, nesse caso, para evitar que o aparente efeito de fumo volunt´ario fosse distorcido devido ao fato desses dois fatores estarem confundidos (ou mesclados). Caso a influˆencia do confundimento entre fumo volunt´ario e fumo passivo n˜ ao fosse considerada na an´ alise, a associa¸c˜ao entre tabaco e cˆancer de pulm˜ao poderia at´e mesmo n˜ ao ser detectada. Desse modo, n˜ ao ´e a mera presen¸ca do confundimento que ´e importante controlar nesses casos, mas sim a magnitude desse confundimento. Se essa magnitude n˜ ao for muito acentuada, a associa¸c˜ao entre o fator de interesse e a resposta, caso exista, pode at´e ser observada mesmo sem a estratifica¸c˜ao. Por´em, a intensidade dessa associa¸c˜ ao n˜ ao ser´ a bem avaliada. Quanto ` as vari´ aveis modificadoras de efeito, pode ser mencionado um estudo realizado com crian¸cas, que teve por objetivo pesquisar a associa¸c˜ao entre o consumo de ferro na dieta (X) e a anemia (Y ) controlando pela vari´ avel idade (Z), que foi categorizada em: idade inferior a 2 anos e idade entre 2 e 6 anos. As conclus˜oes foram que o consumo de ferro na dieta estava de fato associado ` a anemia, mas que tal efeito variava de acordo com a idade (efeito maior entre as crian¸cas com idade inferior a 2 anos e efeito menor entre as com 2 e 6 anos). Ou seja, a idade se apresentou, nesse estudo, como uma vari´ avel modificadora de efeito.
5.1.1
Confundimento e efeito modificador
A fim de identificar se uma vari´ avel Z ´e de confundimento ou modificadora de efeito quando a associa¸c˜ao entre as vari´ aveis X e Y est´ a sendo pesquisada, o comparativo entre as medidas de associa¸c˜ao (raz˜ ao de chan-
✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 99 — #113 ✐
✐
Cap´ıtulo 6 Tabelas com dados relacionados 6.1
Introdu¸ c˜ ao
Neste cap´ıtulo, s˜ ao discutidos alguns m´etodos e medidas utilizados na an´ alise de dados dispostos em tabelas de contingˆencia que apresentam informa¸c˜ oes pareadas. Alguns exemplos s˜ ao: os estudos caso-controle com pareamento entre casos e controles, os estudos em que s˜ ao avaliados ´org˜ aos duplos de pacientes (olhos, rins etc.), bem como os estudos em que os indiv´ıduos s˜ ao observados em dois momentos distintos, tal como antes e ap´ os um procedimento. Exemplos s˜ ao discutidos a seguir.
6.2 6.2.1
Exemplos Taxa de aprova¸c˜ ao de um pol´ıtico
Situa¸c˜ oes em que h´ a o interesse em avaliar uma resposta antes e ap´ os um fato ou acontecimento n˜ ao s˜ ao incomuns. Um exemplo seria o estudo hipot´etico realizado para investigar a taxa de aprova¸c˜ao de um pol´ıtico antes e ap´ os o an´ uncio de certas medidas, como mostrado na Tabela 6.1. Como o interesse est´ a em testar se a propor¸c˜ao de indiv´ıduos que aprovam o referido pol´ıtico antes e ap´ os o an´ uncio das medidas diferem ou n˜ ao, pode-se estabelecer as seguintes hip´ oteses: 99 ✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 100 — #114 ✐
✐
100
Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es
H0 : p1+ = p+1 ⇒ hip´ otese de homogeneidade marginal H : p 6= p . A 1+ +1
Visto que p1+ = p11 + p12 e p+1 = p11 + p21 , as hip´ oteses mencionadas
podem ser equivalentemente expressas por H0 : p12 = p21 ⇒ hip´ otese de simetria H : p 6= p . A 12 21
Esta equivalˆencia entre as hip´ oteses de homogeneidade marginal e de simetria sempre ocorre em tabelas 2 × 2, mas n˜ ao em tabelas s × s (s > 2). Para testar tais hip´ oteses, tendo em vista que sob H0 valores similares s˜ ao esperados para n12 e n21 , McNemar (1947) propˆos um teste baseado na distribui¸c˜ ao binomial. Este teste faz uso somente dos elementos da tabela fora da diagonal (n12 e n21 ) para determinar a existˆencia de diferen¸cas entre p12 e p21 , sendo sua estat´ıstica dada por QM c =
(n12 − n21 )2 , (n12 + n21 )
que, sob H0 e n12 + n21 > 10, tem distribui¸c˜ao aproximada qui-quadrado com 1 grau de liberdade (AGRESTI, 2007). Tabela 6.1 – Taxa de aprova¸ca˜o de um pol´ıtico Antes
Ap´os
Totais
Aprova
Reprova
Aprova
20
5
25
Reprova Totais
10 30
10 15
20 45
Para os dados na Tabela 6.1, tem-se QM c = 1,67 (p = 0,1967), o que indica evidˆencias de n˜ ao rejei¸ca˜o de H0 . Logo, n˜ ao ´e poss´ıvel afirmar que a taxa de aprova¸c˜ ao do pol´ıtico tenha se alterado ap´ os o an´ uncio das medidas.
✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 119 — #133 ✐
✐
Cap´ıtulo 7 Regress˜ ao binomial 7.1
Introdu¸ c˜ ao
Modelos de regress˜ao binomial s˜ ao frequentemente utilizados para modelar a associa¸c˜ ao entre um conjunto de vari´ aveis explicativas e uma vari´ avel resposta bin´ aria ou dicotˆ omica. As vari´ aveis explicativas s˜ ao, em geral, um misto de vari´ aveis categ´ oricas e cont´ınuas, sendo as categ´oricas usualmente incorporadas aos modelos por meio de vari´ aveis mudas ou fict´ıcias (do inglˆes dummy variables). Nesse contexto, o modelo de regress˜ao log´ıstica ´e um dos mais populares, sendo amplamente utilizado em diversas ´areas de pesquisa, e ser´ a abordado em detalhes neste cap´ıtulo. Sua extens˜ao para o caso em que a vari´ avel resposta apresenta mais do que duas categorias (politˆomica) ser´ a abordada no Cap´ıtulo 8.
7.2
Regress˜ ao log´ıstica dicotˆ omica
Para introduzir o modelo de regress˜ao log´ıstica, considere um estudo sobre doen¸ca arterial coron´ aria em que, para cada intervalo da vari´ avel explicativa X = idade (em anos), foram obtidas as frequˆencias de indiv´ıduos com e sem a doen¸ca, bem como uma estimativa da probabilidade de 119 ✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 120 — #134 ✐
✐
120
Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es
ocorrˆencia da doen¸ca, isto ´e, P(Y = 1 | x) = E(Y | x), visto que E(Y | x) = 0 × P(Y = 0 | x) + 1 × P(Y = 1 | x), com Y a vari´ avel resposta (presen¸ca ou ausˆencia da doen¸ca). Os dados est˜ ao na Tabela 7.1. Tabela 7.1 – Dados sobre doen¸ca coron´aria por intervalo de idade Idade (X = x)
Doen¸ca coron´aria Sim (Y = 1)
N˜ ao (Y = 0)
Totais E(Y | x)
20-29
1
9
10
0,10
30-34
2
13
15
0,13
35-39
3
9
12
0,25
40-44
5
10
15
0,33
45-49
6
7
13
0,46
50-54
5
3
8
0,63
55-59
13
4
17
0,76
60-69
8
2
10
0,80
Totais
43
57
100
0,43
Fonte: Hosmer e Lemeshow (2000).
A partir da Tabela 7.1, bem como da Figura 7.1, que mostra as m´edias de cada intervalo de idade versus os valores estimados de E(Y | x), podese notar que, ` a medida que a idade cresce, cresce tamb´em a E(Y | x). A mudan¸ca na E(Y | x) por unidade de mudan¸ca em x torna-se tamb´em progressivamente menor quando E(Y | x) torna-se pr´ oxima de zero ou de um. Para esses dados, a rela¸c˜ ao entre idade e E(Y | x) n˜ ao ´e, portanto, linear, mas sim sigmoidal (em forma de S). Assim como em regress˜ao linear, o interesse aqui ´e o de modelar o valor m´edio da vari´ avel resposta condicional aos valores da vari´ avel X, isto ´e, E(Y | x). Existem, contudo, algumas caracter´ısticas importantes a serem consideradas. Por exemplo, E(Y | x) pertence ao intervalo [0, 1] e n˜ ao ao intervalo (−∞, +∞) como em regress˜ao linear. Al´em disso, a rela¸c˜ ao entre X e E(Y | x) tem a forma de S, lembrando a distribui¸c˜ ao acumulada de uma vari´ avel aleat´oria. Esse fato motivou o uso da
✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 167 — #181 ✐
✐
Cap´ıtulo 8 Regress˜ ao multinomial 8.1
Introdu¸ c˜ ao
Como mencionado previamente, o modelo de regress˜ao log´ıstica tamb´em pode ser utilizado para a an´ alise de dados que apresentam vari´ avel resposta politˆ omica, isto ´e, com trˆes ou mais categorias, sejam elas nominais ou ordinais. Neste cap´ıtulo, s˜ ao apresentados alguns dos modelos de regress˜ao multinomial propostos na literatura para essas situa¸c˜oes.
8.2
Modelo logitos categoria de referˆ encia
Um modelo proposto para a an´ alise de dados caracterizados por uma vari´ avel resposta Y politˆ omica nominal, com Y seguindo distribui¸c˜ao multinomial, ´e denominado modelo logitos categoria de referˆencia (MLCR). Para apresentar o MLCR considere Y com r categorias (r > 2), sendo a ordena¸c˜ ao das mesmas irrelevante. Ainda, denote por pj (x) a probabilidade de ocorrˆencia da categoria j (j = 1, . . . , r) para um dado vetor x de valores P de p vari´ aveis explicativas (covari´ aveis) tal que rj=1 pj (x) = 1. Os logitos no MLCR se baseiam em fixar uma categoria de referˆencia,
usualmente a u ´ltima. Fixada a categoria r como a categoria de referˆencia, 167 ✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 168 — #182 ✐
✐
168
Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es
o modelo fica expresso em termos dos logitos por pj (x) P (Y = j | x) ln = ln = β0j + β ′j x, pr (x) P (Y = r | x)
(8.1)
em que j = 1, . . . , r−1 indexa os r−1 logitos, com o logito j correspondendo, para um dado vetor x, ao logaritmo da chance de ocorrˆencia da j-´esima categoria de resposta em rela¸ca˜o `a categoria de referˆencia. A partir de (8.1) ´e poss´ıvel notar que o MLCR assume intercepto β0 e vetor de parˆ ametros de regress˜ao β diferentes para cada logito, o que implica que os efeitos das covari´ aveis variam de acordo com a categoria de resposta que est´ a sendo comparada com a categoria de referˆencia. Embora o modelo (8.1) considere r − 1 logitos dentre todos os
r 2
poss´ıveis pares de categorias, nota-se que os r − 1 logitos considerados pelo modelo determinam os logitos para todos os outros pares de categorias. Por exemplo, para o par de categorias 1 e 2 segue que p1 (x) p1 (x) p2 (x) ln = ln − ln = (β01 + β ′1 x) − (β02 + β ′2 x). p2 (x) pr (x) pr (x) Em termos das probabilidades de resposta, as equa¸c˜oes que expressam o modelo (8.1) s˜ ao dadas por exp(β0j + β ′j x)
pj (x) = 1+
r−1 X
,
j = 1, . . . , r − 1,
exp(β0j + β ′j x)
j=1
e
pr (x) = 1+
r−1 X
1
,
exp(β0j + β ′j x)
j=1
tal que
Pr
j=1 pj (x)
= 1.
Estima¸c˜ ao dos parˆ ametros do modelo (8.1) pode ser realizada por meio do m´etodo de m´ axima verossimilhan¸ca. Para i = 1, . . . , n, em que yij = 1 se a resposta do indiv´ıduo i est´ a na categoria j, j = 1, . . . , r, e yij = 0,
✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 207 — #221 ✐
✐
Cap´ıtulo 9 Regress˜ ao log´ıstica condicional
9.1
Introdu¸ c˜ ao
Algumas vezes a abordagem de m´ axima verossimilhan¸ca utilizada para estima¸c˜ ao em regress˜ao log´ıstica n˜ ao se mostra apropriada quando os dados s˜ ao altamente estratificados (isto ´e, est˜ ao distribu´ıdos em muitos estratos existindo um n´ umero pequeno de indiv´ıduos em cada um deles). Exemplos comuns s˜ ao os de observa¸c˜oes pareadas tais como as de gˆemeos fraternos, lados esquerdo e direito do corpo em estudos dermatol´ogicos ou, ainda, uma opini˜ ao coletada em duas ocasi˜ oes distintas. Para dados dessa natureza, o modelo de regress˜ao log´ıstica cl´assico pode ser invi´avel, tendo em vista o tamanho amostral ser insuficiente para estimar adequadamente o efeito do par. Contudo, se forem utilizados argumentos condicionais, ´e poss´ıvel remover o efeito do par e estimar os demais efeitos de interesse. Um modelo de regress˜ao sugerido para a an´ alise de dados como os que foram mencionados ´e denominado modelo de regress˜ao log´ıstica condicional. O termo condicional em tal modelo se deve `a estima¸c˜ao dos parˆ ametros ser realizada com base em uma fun¸c˜ao de verossimilhan¸ca condicional. 207 ✐
✐ ✐
✐
✐
✐
“Categoricos” — 2017/7/30 — 17:19 — page 208 — #222 ✐
✐
208
Introdu¸ca˜o `a an´alise de dados categ´oricos com aplica¸co˜es
9.2
Modelo de regress˜ ao log´ıstica condicional
Algumas situa¸c˜ oes que ilustram a utiliza¸c˜ao do modelo de regress˜ao log´ıstica condicional s˜ ao apresentadas a seguir.
9.2.1
Ensaio cl´ınico com frequˆ encia pequena nos estratos
Considere um ensaio cl´ınico em que em cada um dos i = 1, . . . , q centros m´edicos escolhidos para a sua realiza¸c˜ao foram selecionados dois pacientes, um para receber o tratamento A sob pesquisa e o outro um placebo. O interesse se concentra na avalia¸c˜ao da melhora do paciente. Nota-se que h´ a somente duas observa¸c˜ oes por centro, o que inviabiliza que o efeito de centro seja estimado adequadamente. Suponha, para o ensaio mencionado, que Yij = 1 denote a ocorrˆencia de melhora e Yij = 0 a n˜ ao ocorrˆencia de melhora do paciente, em que j = 1 indexa o tratamento A e j = 2 o placebo (i = 1, . . . , q centros m´edicos). Suponha, ainda, que a vari´ avel tratamento seja definida tal que 1 se tratamento A Xij = 0 se placebo,
bem como que zij = (zij1 , zij2 , . . . , zijk )′ represente os valores observados das demais vari´ aveis explanat´ orias. Se o modelo de regress˜ao log´ıstica cl´assico fosse considerado para os dados desse estudo, o mesmo ficaria expresso por P (Yij = 1) =
exp(αi + βxij + γ ′ zij ) , 1 + exp(αi + βxij + γ ′ zij )
sendo αi o efeito do i-´esimo centro, β o parˆ ametro associado ao tratamento A e γ = (γ1 , γ2 , . . . , γk )′ o vetor de parˆ ametros associado `as vari´ aveis explanat´ orias z. Como, no entanto, os parˆ ametros αi (i = 1, . . . , q) n˜ ao podem ser estimados adequadamente pelo fato de existirem somente duas observa¸c˜ oes por centro, uma alternativa ´e considerar um modelo baseado em
✐
✐ ✐
✐
Capa_Giolo_intro dados categoricos_12mm.pdf 1 29/09/2017 09:16:02
Enrico AntĂ´nio Colosimo
Giolo
Professor do Departamento de EstatĂstica da UFMG. Ph.D. em EstatĂstica pela University of Wisconsin-Madison. Editor associado da Revista Brasileira de ,Z[H[xZ[PJH *V H\[VY KV SP]YV *VUĂ&#x201E;HIPSPKHKL! (UmSPZL KL ;LTWV KL -HSOH L ;LZ[LZ KL =PKH (JLSLYHKVZ (Z Z\HZ mYLHZ KL PU[LYLZZL ZqV Tt[VKVZ LZ[H[xZ[PJVZ LT HUmSPZL KL ZVIYL]P]vUJPH JVUĂ&#x201E;HIPSPKHKL THU\[LUsqV L KHKVZ SVUNP[\KPUHPZ
INTRODUĂ&#x2021;Ă&#x192;O Ă&#x20AC; ANĂ LISE DE DADOS CATEGĂ&#x201C;RICOS COM APLICAĂ&#x2021;Ă&#x2022;ES
Y
CM
MY
CY
Professora do Departamento de EstatĂstica da Universidade Federal do ParanĂĄ (UFPR). Licenciada em MatemĂĄtica e graduada em EstatĂstica pela Universidade Estadual Paulista â&#x20AC;&#x153;JĂşlio de Mesquita Filhoâ&#x20AC;? (Unesp), mestre em EstatĂstica pela Universidade Estadual de Campinas (Unicamp) e doutora em EstatĂstica e Experimentação AgronĂ´mica pela Escola Superior de Agricultura â&#x20AC;&#x153;Luiz de Queirozâ&#x20AC;? da Universidade de SĂŁo Paulo (ESALQ/USP) e pela Lancaster University, Inglaterra. Realizou pĂłs-doutorado em CiĂŞncias BiolĂłgicas no Instituto do Coração (InCor) e no Instituto de MatemĂĄtica e EstatĂstica (IME) da USP, com perĂodo na Mayo Clinic, Rochester, Estados Unidos. Ă&#x2030; coautora do livro AnĂĄlise de sobrevivĂŞncia aplicada e tem diversos artigos publicados em suas principais ĂĄreas de interesse, que incluem anĂĄlise de dados categĂłricos, anĂĄlise de sobrevivĂŞncia e mĂŠtodos estatĂsticos em genĂŠtica quantitativa e genĂ´mica.
CMY
K
Sobre o livro Este livro aborda conceitos bĂĄsicos, testes e diversos modelos estatĂsticos propostos para a anĂĄlise de dados categĂłricos. Dentre os modelos, podem ser citados o de regressĂŁo logĂstica e o de logitos cumulativos. Com o propĂłsito de ilustrar as metodologias estatĂsticas apresentadas, vĂĄrios exemplos sĂŁo analisados no texto. Para a execução das anĂĄlises, foi adotado o software estatĂstico R, de domĂnio pĂşblico. Os cĂłdigos utilizados estĂŁo disponĂveis em um link no site da editora. De modo geral, o livro pode ser utilizado tanto por alunos de EstatĂstica quanto por alunos, profissionais e pesquisadores de outras ĂĄreas (SaĂşde, BiolĂłgicas, Humanas, Engenharias etc.) que tenham interesse em mĂŠtodos estatĂsticos para a anĂĄlise de dados categĂłricos.
INTRODUĂ&#x2021;Ă&#x192;O Ă&#x20AC; ANĂ LISE DE DADOS CATEGĂ&#x201C;RICOS COM APLICAĂ&#x2021;Ă&#x2022;ES
M
INTRODUĂ&#x2021;Ă&#x192;O Ă&#x20AC; ANĂ LISE Professora do Departamento de EstatĂstica da UFPR. Licenciada em DE DADOS CATEGĂ&#x201C;RICOS 4H[LTm[PJH L NYHK\HKH LT ,Z[H[xZ[PJH WLSH <ULZW YLHSPaV\ ZL\ TLZ[YHKV LT ,Z[H[xZ[PJH UH <UPJHTW L ZL\ KV\[VYHKV LT ,Z[H[xZ[PJH L ,_WLYPTLU[HsqV (NYVU TPJH UH ,:(38 <:7 L 3HUJHZ[LY <UP]LYZP[` 0UNSH[LYYH ,U[YL Z\HZ COM APLICAĂ&#x2021;Ă&#x2022;ES mYLHZ KL PU[LYLZZL LZ[qV HUmSPZL KL ZVIYL]P]vUJPH KL KHKVZ SVUNP[\KPUHPZ L KL Enrico AntĂ´ Suely Ruiz Giolo
Suely Ruiz Giolo
C
Suely Ruiz Giolo
KHKVZ JH[LN}YPJVZ
Professor do D University of Resumo sobre o livro ,Z[H[xZ[PJH *V 5LZ[L SP]YV ZqV HWYLZLU[HKVZ JVUJLP[VZ ImZPJVZ [tJUPJHZ UqV WHYHTt[YPJHZ KL =PKH (JLSL L VZ WYPUJPWHPZ TVKLSVZ WYVIHIPSxZ[PJVZ L KL YLNYLZZqV \[PSPaHKVZ UH HUmSPZL HUmSPZL KL ZVI
KL KHKVZ KL ZVIYL]P]vUJPH +LU[YL VZ TVKLSVZ WVKL ZL JP[HY V KL *V_ V HKP[P]V KL (HSLU V KL MYHNPSPKHKL NHTH L HSN\UZ TVKLSVZ WHYH KHKVZ KL JLUZ\YH PU[LY]HSHY L NY\WHKVZ +P]LYZVZ L_LTWSVZ YLHPZ WYV]LUPLU[LZ UH Z\H THPVYPH KL ZP[\Hs LZ JSxUPJHZ ZqV HUHSPZHKVZ L PS\Z[YHT HZ [tJUPJHZ L TVKLSVZ HWYLZLU[HKVZ 7HYH VI[LUsqV KVZ YLZ\S[HKVZ LZ[H[xZ[PJVZ t \[PSPaHKV V WHJV[L LZ[H[xZ[PJV 9 J\QVZ JVTHUKVZ ZqV KLZJYP[VZ UV [L_[V +L TVKV NLYHS LZ[L SP]YV WVKL ZLY \[PSPaHKV WVY HS\UVZ KL NYHK\HsqV L KL W}Z NYHK\HsqV LT ,Z[H[xZ[PJH ILT JVTV WVY HS\UVZ WYVĂ&#x201E;ZZPVUHPZ L WLZX\PZHKVYLZ KL V\[YHZ mYLHZ TtKPJH IPVS}NPJH L[J X\L [LUOHT PU[LYLZZL LT HUmSPZL KL ZVIYL]P]vUJPH
ABE - PROJETO FISHER capa colosimo.indd 1
Professora d 4H[LTm[PJH L LT ,Z[H[xZ[PJH (NYVU TPJH mYLHZ KL PU[LY KHKVZ JH[LN}Y
Resumo sob
5LZ[L SP]YV Zq L VZ WYPUJPWH KL KHKVZ KL HKP[P]V KL (H JLUZ\YH PU[LY] THPVYPH KL ZP HWYLZLU[HKVZ LZ[H[xZ[PJV 9 J WVKL ZLY \[PSPa ILT JVTV WV IPVS}NPJH L[J
www.blucher.com.br
ABE - PROJETO FISHER
Suely Ruiz G
Clique aqui e:
Veja na loja
Introdução à Análise de Dados Categóricos com Aplicações Suely Ruiz Giolo ISBN: 9788521211877 Páginas: 256 Formato: 17 x 24 cm Ano de Publicação: 2017