Issuu on Google+

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.


As editoras que integram o GEN, respeitadas no mercado editorial, construíram catálogos inigualáveis, com obras decisivas na formação acadêmica e no aperfeiçoamento de várias gerações de profissionais e de estudantes de Administração, Direito, Engenharia, Enfer­ magem, Fisioterapia, Medicina, Odontologia, Educação Física e muitas outras ciências, tendo se tornado sinônimo de seriedade e respeito. Nossa missão é prover o melhor conteúdo científico e distribuí­lo de maneira flexível e conveniente, a preços justos, gerando benefícios e servindo a autores, docentes, livreiros, funcionários, colaboradores e acionistas. Nosso comportamento ético incondicional e nossa responsabilidade social e ambiental são reforçados pela natureza educacional de nossa atividade, sem comprometer o cresci­ mento contínuo e a rentabilidade do grupo.

cadzero.gupta.indd 2

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

O GEN | Grupo Editorial Nacional, a maior plataforma editorial no segmento CTP (cientí­ fico, técnico e profissional), publica nas áreas de saúde, ciências exatas, jurídicas, sociais aplicadas, humanas e de concursos, além de prover serviços direcionados a educação, capacitação médica continuada e preparação para concursos. Conheça nosso catálogo, composto por mais de cinco mil obras e três mil e­books, em www.grupogen.com.br.

12/07/16 08:58


Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

ESTATÍSTICA E PROBABILIDADE COM APLICAÇÕES PARA ENGENHEIROS E CIENTISTAS

Bhisham C. Gupta

Professor de Estatística University of Southern Maine Portland, ME

Irwin Guttman

Professor Emérito de Estatística SUNY at Buffalo e University of Toronto, Canada

Tradução e revisão técnica Ana Maria Lima de Farias, D.Sc. Professora-Associada, UFF Vera Regina Lima de Farias e Flores, M.Sc. Anteriormente Professora Adjunta, UFMG

cadzero.gupta.indd 3

12/07/16 08:58


Não é responsabilidade da editora nem dos autores a ocorrência de eventuais perdas ou danos a pessoas ou bens que tenham origem no uso desta publicação. Apesar dos melhores esforços dos autores, das tradutoras, do editor e dos revisores, é inevitável que surjam erros no texto. Assim, são bem-vindas as comunicações de usuários sobre correções ou sugestões referentes ao conteúdo ou ao nível pedagógico que auxiliem o aprimoramento de edições futuras. Os comentários dos leitores podem ser encaminhados à LTC — Livros Técnicos e Científicos Editora pelo e-mail ltc@grupogen.com.br. Traduzido de STATISTICS AND PROBABILITY WITH APPLICATIONS FOR ENGINEERS AND SCIENTISTIS, FIRST EDITION Copyright © 2013 by John Wiley & Sons, Inc. All Rights Reserved. Authorized translation from the English language edition published by John Wiley & Sons Limited. Responsibility for the accuracy of the translation rests solely with LTC — Livros Técnicos e Científicos Editora Ltda., and is not the responsibility of John Wiley & Sons Limited. No part of this book may be reproduced in any form without the written permission of the original copyright holder, John Wiley & Sons Limited. Esta edição é uma publicação por acordo com a John Wiley & Sons Limited. Traduzida pela LTC — Livros Técnicos e Científicos Editora Ltda. da versão original na língua inglesa. A responsabilidade pela exatidão da tradução é somente da LTC — Livros Técnicos e Científicos Editora Ltda., não tendo a John Wiley & Sons Limited nenhuma responsabilidade. Edição em língua PORTUGUESA publicada por LTC — LIVROS TÉCNICOS E CIENTÍFICOS EDITORA, Copyright © 2017. Direitos exclusivos para a língua portuguesa Copyright © 2017 by LTC — Livros Técnicos e Científicos Editora Ltda. Uma editora integrante do GEN | Grupo Editorial Nacional Reservados todos os direitos. É proibida a duplicação ou reprodução deste volume, no todo ou em parte, sob quaisquer formas ou por quaisquer meios (eletrônico, mecânico, gravação, fotocópia, distribuição na internet ou outros), sem permissão expressa da editora. Travessa do Ouvidor, 11 Rio de Janeiro, RJ – CEP 20040-040 Tels.: 21-3543-0770 / 11-5080-0770 Fax: 21-3543-0896 ltc@grupogen.com.br www.ltceditora.com.br Capa: Leonidas Leite Editoração eletrônica: Alsan Serviços de Editoração Ltda.

CIP-BRASIL. CATALOGAÇÃO NA PUBLICAÇÃO SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ G985e Gupta, C. Bhisham Estatística e probabilidade com aplicações para engenheiros e cientistas / Bhisham C. Gupta, Irwin Guttman ; tradução Ana Maria Lima de Farias, Vera Regina Lima de Farias e Flores. - 1. ed. - Rio de Janeiro : LTC, 2017.  il. ; 28 cm.                 Tradução de: Statistics and probability with applications for engineers and scientists Apêndice Inclui bibliografia e índice ISBN 978-85-216-3074-6 1. Estatística. 2. Estatística matemática. 3. Probabilidade. I. Guttman, Irwin. II. Farias, Ana Maria Lima de. III. Flores, Vera Regina Lima de Farias e. IV. Título. 16-30072

cadzero.gupta.indd 4

CDD: 519.5 CDU: 519.2

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

Os autores e a editora empenharam-se para citar adequadamente e dar o devido crédito a todos os detentores dos direitos autorais de qualquer material utilizado neste livro, dispondo-se a possíveis acertos caso, inadvertidamente, a identificação de algum deles tenha sido omitida.

12/07/16 08:58


Prefácio Capítulo 1  |  Introdução

xvii 1

 1.1 Experimento Planejado  1 1.1.1 Motivação para o Estudo  2 1.1.2 Investigação 4 1.1.3 Mudança de Critérios  4 1.1.4 Resumo das Várias Fases da Investigação  4  1.2 Uma Pesquisa  5  1.3 Um Estudo Observacional  5  1.4 Um Conjunto de Dados Históricos  6  1.5 Uma Breve Descrição do que é Visto neste Livro  6

PARTE I Capítulo 2  |  Descrição Gráfica e Numérica de Dados 11  2.1 Começando com a Estatística  11 2.1.1 O que é Estatística?  11 2.1.2 População e Amostra em um Estudo Estatístico  12  2.2 Classificação de Vários Tipos de Dados  14 2.2.1 Dados Nominais  15 2.2.2 Dados Ordinais  15 2.2.3 Dados Intervalares  15 2.2.4 Dados de Razão  16  2.3 Tabelas de Distribuição de Frequência para Dados Qualitativos e Quantitativos  16 2.3.1 Dados Qualitativos  17 2.3.2 Dados Quantitativos  19  2.4 Descrição Gráfica de Dados Qualitativos e Quantitativos  23 2.4.1 Diagrama de Pontos  23 2.4.2 Gráfico de Setores (Pizza)  24 2.4.3 Gráfico de Barras  25 2.4.4 Histogramas 28 2.4.5 Gráfico de Linha  33 2.4.6 Diagrama de Ramo e Folhas  34  2.5 Medidas Numéricas de Dados Quantitativos  38 2.5.1 Medidas de Centralidade  38 2.5.2 Medidas de Dispersão  43  2.6 Medidas Numéricas de Dados Agrupados  50 2.6.1 Média de Dados Agrupados  50 2.6.2 Mediana de Dados Agrupados  51 2.6.3 Moda de Dados Agrupados  51 2.6.4 Variância de Dados Agrupados  52  2.7 Medidas de Posição Relativa  53 2.7.1 Percentis 53 2.7.2 Quartis 54 2.7.3 Amplitude Interquartil  54 2.7.4 Coeficiente de Variação  55  2.8 Diagrama de Caixa  56 2.8.1 Construção de um Diagrama de Caixa  56 2.8.2 Como Usar um Diagrama de Caixa  57

cadzero.gupta.indd 9

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

Sumário

12/07/16 08:58


2.9 Medidas de Associação  61 2.10 Estudos de Caso  64 2.11 Usando o Jmp® 66 Problemas Práticos de Revisão  66

Capítulo 3  |  elementos de Probabilidade 73   3.1 Introdução  73   3.2 Experimentos Aleatórios, Espaços Amostrais e Eventos  74 3.2.1 Experimentos Aleatórios e Espaços Amostrais  74 3.2.2 Eventos 75   3.3 Conceitos de Probabilidade  77   3.4 Técnicas de Contagem de Pontos Amostrais  81 3.4.1 Diagrama de Árvore  81 3.4.2 Permutações 83 3.4.3 Combinações 83 3.4.4 Arranjos de n Objetos Envolvendo Vários Tipos de Objetos  84   3.5 Probabilidade Condicional  86   3.6 Teorema de Bayes  88   3.7 Introdução às Variáveis Aleatórias  91 Problemas Práticos de Revisão  92

Capítulo 4  |  Variáveis Aleatórias Discretas e Algumas Importantes Distribuições de Probabilidade Discreta 98   4.1 Descrições Gráficas de Distribuições Discretas  98   4.2 Média e Variância de uma Variável Aleatória Discreta  100 4.2.1 Valor Esperado de Variáveis Aleatórias Discretas e de suas Funções  100 4.2.2 A Função Geradora de Momentos – Valor Esperado de uma Função Especial de X 101   4.3 A Distribuição Uniforme Discreta  103   4.4 A Distribuição Hipergeométrica  104   4.5 A Distribuição de Bernoulli  108   4.6 A Distribuição Binomial  108   4.7 A Distribuição Multinomial  111   4.8 A Distribuição de Poisson  113 4.8.1 Definição e Propriedades da Distribuição de Poisson  113 4.8.2 Processo de Poisson  113 4.8.3 Distribuição de Poisson como Forma Limite da Binomial  113   4.9 A Distribuição Binomial Negativa  117 4.10 Algumas Deduções e Provas (Opcional)  119 4.11 Um Estudo de Caso  119 4.12 Usando o Jmp 120 Problemas Práticos de Revisão  120

Capítulo 5  |  Variáveis Aleatórias Contínuas e Algumas Importantes Distribuições de Probabilidade Contínuas 126   5.1 Variáveis Aleatórias Contínuas  126   5.2 Média e Variância de Variáveis Aleatórias Contínuas  128 5.2.1 Valor Esperado de Variáveis Aleatórias Contínuas e Suas Funções  128 5.2.2 Função Geradora de Momentos – Valor Esperado de uma Função Especial de X 130   5.3 Desigualdade de Chebychev   132   5.4 A Distribuição Uniforme  133 5.4.1 Definição e Propriedades  133 5.4.2 Média e Desvio-Padrão da Distribuição Uniforme  136   5.5 A Distribuição Normal  137 5.5.1 Definições e Propriedades  137 5.5.2 A Distribuição Normal Padrão  139

cadzero.gupta.indd 10

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

x  Sumário

12/07/16 08:58


5.5.3 A Função Geradora de Momentos da Distribuição Normal  143   5.6 Distribuição de Combinação Linear de Variáveis Normais Independentes  144   5.7 Aproximação das Distribuições Binomial e de Poisson pela Distribuição Normal  147 5.7.1 Aproximação da Distribuição Binomial pela Distribuição Normal  147 5.7.2 Aproximação da Distribuição de Poisson pela Distribuição Normal  149     5.8 Um Teste de Normalidade  149     5.9 Modelos Probabilísticos Comumente Usados na Teoria da Confiabilidade  153 5.9.1 A Distribuição Lognormal  153 5.9.2 A Distribuição Exponencial  156 5.9.3 A Distribuição Gama  160 5.9.4 A Distribuição de Weibull  162 5.10 Um Estudo de Caso  165 5.11 Usando o Jmp 166 Problemas Práticos de Revisão  166

Capítulo 6  |  Distribuição de Funções de Variáveis Aleatórias 173  6.1 Introdução  173   6.2 Funções de Distribuições de Duas Variáveis Aleatórias  173 6.2.1 Caso de Duas Variáveis Aleatórias Discretas  173 6.2.2 Caso de Duas Variáveis Aleatórias Contínuas  176 6.2.3 O Valor Médio e a Variância de Funções de Duas Variáveis Aleatórias  177 6.2.4 Distribuições Condicionais  178 6.2.5 Correlação entre Duas Variáveis Aleatórias  180 6.2.6 Distribuição Normal Bivariada  183   6.3 Extensão para Várias Variáveis Aleatórias  185   6.4 A Função Geradora de Momento Revisitada  186 Problemas Práticos de Revisão  188

Capítulo 7  |  Distribuições Amostrais 192   7.1 Amostragem Aleatória  192 7.1.1 Amostragem Aleatória de uma População Infinita  192 7.1.2 Amostragem Aleatória de uma População Finita  194   7.2 A Distribuição Amostral da Média  195 7.2.1 População Amostrada Normal  196 7.2.2 População Amostrada Não Normal  196 7.2.3 O Teorema Limite Central  196   7.3 Amostragem de uma População Normal  200 7.3.1 A Distribuição Qui-Quadrado  201 7.3.2 A Distribuição t de Student  206 7.3.3 Distribuição F de Snedecor  209   7.4 Estatísticas de Ordem  211   7.5 Usando o Jmp 211 Problemas Práticos de Revisão  212

Capítulo 8  |  Estimação de Parâmetros Populacionais 214  8.1 Introdução  214   8.2 Estimadores Pontuais para a Média e a Variância Populacionais  215 8.2.1 Propriedades dos Estimadores Pontuais  216 8.2.2 Métodos para a Determinação de Estimadores Pontuais  218   8.3 Estimadores Intervalares para a Média m de uma População Normal  223 r 2 Conhecida  223 8.3.1 8.3.2 r 2 Desconhecida  225 8.3.3 Tamanho Amostral Grande  226 8.4 Estimadores Intervalares para a Diferença das Médias de duas Populações Normais  231 8.4.1 Variâncias Conhecidas  231 8.4.2 Variâncias Desconhecidas  232   8.5 Estimadores Intervalares para a Variância de uma População Normal  238

cadzero.gupta.indd 11

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

Sumário  xi

12/07/16 08:58


8.6 Estimador Intervalar para a Razão das Variâncias de duas Populações Normais  241   8.7 Estimadores Pontual e Intervalar para os Parâmetros de Populações Binomiais  244 8.7.1 Uma População Binomial  244 8.7.2 Duas Populações Binomiais  245   8.8 Determinação do Tamanho Amostral  248 8.8.1 Média de uma População  249 8.8.2 Diferença entre Duas Médias Populacionais  249 8.8.3 Uma Proporção Populacional  250 8.8.4 Diferença entre Duas Proporções Populacionais  251   8.9 Alguma Informação Suplementar  252 8.10 Um Estudo de Caso  252 8.11 Usando o Jmp 252 Problemas Práticos de Revisão  252

Capítulo 9  |  Teste de Hipótese 258  9.1 Introdução  258   9.2 Conceitos Básicos do Teste de uma Hipótese Estatística  259 9.2.1 Formulação de Hipótese  259 9.2.2 Avaliação de Risco  260   9.3 Testes Relativos à Média de uma População Normal com Variância Conhecida  262 9.3.1 Caso do Teste de uma Cauda (à Esquerda)  262 9.3.2 Caso do Teste de uma Cauda (à Direita)  265 9.3.3 Caso de um Teste de Duas Caudas  266   9.4 Testes Relativos à Média de uma População Normal com Variância Desconhecida  271 9.4.1 Caso de Teste Unilateral à Esquerda  271 9.4.2 Caso de Teste de Cauda Direita  272 9.4.3 Caso de Duas Caudas  273   9.5 Teoria de Grandes Amostras  275   9.6 Testes Relativos à Diferença de Médias de Duas Populações que têm Distribuições com Variâncias Conhecidas  277 9.6.1 O Teste de Cauda Esquerda  277 9.6.2 O Teste da Cauda Direita  278 9.6.3 O Teste de Duas Caudas  279   9.7 Testes Relativos à Diferença de Médias de Duas Populações que têm Distribuições Normais com Variâncias Desconhecidas  282 9.7.1 Duas Populações com Variâncias Iguais  282 9.7.2 Duas Populações com Variâncias Desiguais  285 9.7.3 O Teste t Emparelhado  287   9.8 Teste de Proporções Populacionais  291 9.8.1 Teste Relativo a uma Proporção Populacional  291 9.8.2 Teste Relativo à Diferença entre Duas Proporções Populacionais  293   9.9 Testes Relativos à Variância de uma População Normal  295 9.10 Testes Relativos à Razão de Variâncias de Duas Populações Normais  298 9.11 Teste de Hipóteses Estatísticas usando Intervalos de Confiança  301 9.12 Testes Sequenciais de Hipóteses  302 9.12.1 Procedimento de Teste Sequencial de uma Cauda  302 9.12.2 Um Procedimento de Teste Sequencial de Duas Caudas  309 9.13 Estudos de Caso  311 9.14 Usando o Jmp 312 Problemas Práticos de Revisão  312

PARTE II Capítulo 10  |  Elementos de Teoria de Confiabilidade 323 10.1 A Função de Confiabilidade  323 10.1.1 A Função Taxa de Risco  324

cadzero.gupta.indd 12

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

xii  Sumário

12/07/16 08:58


10.1.2 Empregando a Função de Risco  330 10.2 Estimação: Distribuição Exponencial  331 10.3 Teste de Hipótese: Distribuição Exponencial  336 10.4 Estimação: Distribuição de Weibull  337 10.5 Estudos de Caso  343 10.6 Usando o Jmp 344 Problemas Práticos de Revisão  345

Capítulo 11  |  Controle Estatístico da Qualidade — Gráficos de Controle da Fase I 346 11.1 Conceitos Básicos da Qualidade e seus Benefícios  347 11.2 O que é um Processo e algumas Ferramentas Valiosas  347 11.2.1 Folha de Verificação  348 11.2.2 Gráfico de Pareto  348 11.2.3 Diagrama de Causa e Efeito (Espinha de Peixe ou de Ishikawa)  352 11.2.4 Diagrama de Concentração de Defeito  353 11.3 Causas Comuns e Atribuíveis  353 11.3.1 Avaliação de Processo  354 11.3.2 Ação sobre o Processo  354 11.3.3 Ação sobre a Saída  354 11.3.4 Variação 354 11.4 Gráficos de Controle  355 11.4.1 Preparação para Uso dos Gráficos de Controle  356 11.4.2 Benefícios de um Gráfico de Controle  357 11.4.3 Limites de Controle Versus Limites de Especificação  359 11.5 Gráficos de Controle para Variáveis  360 – 11.5.1 Gráficos de Controle de Shewhart X– e R 360 11.5.2 Gráficos de Controle de Shewhart X e R quando a Média do Processo m e o 365 Desvio-padrão do Processo s são Conhecidos  – 11.5.3 Gráficos de Controle de Shewhart X e S 365 11.6 Gráficos de Controle para Atributos  372 11.6.1 O Gráfico P: Gráfico de Controle para a Fração de Unidades não Conformes  373 11.6.2 O Gráfico de Controle P: Gráfico de Controle para Fração não Conforme com Tamanhos Amostrais Variáveis   376 11.6.3 O Gráfico de Controle np: Gráfico de Controle para o Número de Unidades não Conformes  379 11.6.4 O Gráfico de Controle c 380 11.6.5 O Gráfico de Controle u 383 11.7 Capacidade do Processo  388 11.8 Estudos de Caso  391 11.9 Usando o Jmp 392 Problemas Práticos de Revisão  392

Capítulo 12  |  Controle Estatístico da Qualidade — Gráficos de Controle da Fase II 398 12.1 Introdução  398 12.2 Conceitos Básicos do Gráfico de Controle Cusum 399 12.3 Planejamento de Um Gráfico de Controle Cusum 401 12.3.1 Gráfico de Controle Cusum Bilateral usando um Procedimento Numérico  402 12.3.2 A Característica de Resposta Inicial Rápida (Rir) para o Gráfico de Controle Cusum 406 12.3.3 O Gráfico de Controle Combinado Shewhart-Cusum 409 12.3.4 O Gráfico de Controle Cusum para o Controle da Variabilidade do Processo  410 12.4 O Gráfico de Controle da Média Móvel (Mm) 411 12.5 Gráfico de Controle de Média Móvel Exponencialmente Ponderada (Mmep) 415 12.6 Estudos de Caso  419 12.7 Usando o Jmp 420 Problemas Práticos de Revisão  420

cadzero.gupta.indd 13

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

Sumário  xiii

12/07/16 08:58


xiv  Sumário

13.1 Introdução  423 13.2 O Teste Qui-Quadrado da Qualidade do Ajuste  423 13.3 Tabelas de Contingência  430 13.3.1 O Caso 2 3 2 de Parâmetros Conhecidos  430 13.3.2 O Caso 2 3 2 com Parâmetros Desconhecidos  431 13.3.3 A Tabela de Contingência r 3 s 433 13.4 Teste Qui-Quadrado para Homogeneidade  436 13.5 Comentários sobre a Distribuição da Estatística de Falta de Ajuste  439 13.6 Estudos de Caso  440 Problemas Práticos de Revisão  441

Capítulo 14  |  Testes Não Paramétricos 446 14.1 Introdução  446 14.2 O Teste dos Sinais  446 14.2.1 Teste de uma Amostra  446 14.2.2 O Teste de Postos com Sinais de Wilcoxon  449 14.2.3 Teste de Duas Amostras  451 14.3 Teste W de Mann-Whitney (Wilcoxon) para Duas Amostras  455 14.4 Teste de Sequências  457 14.4.1 Sequências Acima e Abaixo da Mediana  457 14.4.2 O Teste de Sequências de Wald-Wolfowitz  459 14.5 Correlação de Postos de Spearman  461 14.6 Usando o Jmp 463 Problemas Práticos de Revisão  464

Capítulo 15  |  Análise de Regressão Linear Simples 467  15.1 Introdução  467   15.2 Ajuste de um Modelo de Regressão Linear Simples  468 15.2.1 Modelo de Regressão Linear Simples  468 15.2.2 Ajustando uma Reta por Mínimos Quadrados  470 15.2.3 Distribuição Amostral dos Estimadores dos Coeficientes de Regressão  474   15.3 Estimador Não Viesado de r 2 477   15.4 Mais Inferências Relativas aos Coeficientes de Regressão (a0, a1), E(Y) e Y 479 15.4.1 Intervalo de Confiança para a1 com Coeficiente de Confiança (1 – `) 479 15.4.2 Intervalo de Confiança para a0 com Coeficiente de Confiança (1 – `) 480 15.4.3 Intervalo de Confiança para E(Y|X) com Coeficiente de Confiança (1 – `) 480 15.4.4 Intervalo de Predição para uma Observação Futura Y com Coeficiente de Confiança (1 – `) 483   15.5 Testes de Hipóteses para a0 e a1 486 15.5.1 Teste de Hipótese para a1 487 15.5.2 Teste de Hipótese para a0 487   15.6 Abordagem da Análise da Variância à Análise de Regressão Linear Simples  491   15.7 Análise de Resíduos  495  15.8 Transformações 502   15.9  Inferência sobre q 508 15.10  Um Estudo de Caso  510 15.11  Usando o Jmp 511 Problemas Práticos de Revisão  511

Capítulo 16  |  Análise de Regressão Linear Múltipla 516  16.1   16.2   16.3

cadzero.gupta.indd 14

Introdução  516 Modelos de Regressão Linear Múltipla  517 Estimação dos Coeficientes de Regressão  520 16.3.1 Estimação dos Coeficientes de Regressão Usando Notação Matricial  521

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

Capítulo 13  |  Análise de Dados Categóricos 423

12/07/16 08:58


16.3.2 Propriedades dos Estimadores de Mínimos Quadrados  523 16.3.3 A Tabela da Análise da Variância  523 16.3.4 Mais Inferências sobre Coeficientes de Regressão  525   16.4 Modelo de Regressão Linear Múltipla Usando Variáveis Preditoras Quantitativas e Qualitativas 530 16.4.1 Variável Qualitativa Única com Duas Categorias  531 16.4.2 Variável Qualitativa Única com Três ou Mais Categorias  531   16.5 Coeficientes de Regressão Padronizados  540 16.5.1 Multicolinearidade 541 16.5.2 Consequências da Multicolinearidade  542   16.6 Construindo Modelos de Predição Tipo Regressão  543 16.6.1 Primeira Variável a Entrar no Modelo  543   16.7 Análise de Resíduos e Certos Critérios para Seleção do Modelo  546 16.7.1 Análise de Resíduos  546 16.7.2 Certos Critérios para Seleção do Modelo  547   16.8 Regressão Logística  551   16.9 Estudos de Caso  554 16.10 Usando o Jmp 556 Problemas Práticos de Revisão  556

Capítulo 17  |  Análise de Variância 562 17.1 Introdução  563 17.2 Modelos de Planejamento  563 17.2.1 Parâmetros Estimáveis  563 17.2.2 Funções Estimáveis  564 17.3 Esquemas Experimentais de um Critério  565 17.3.1 O Modelo e sua Análise  565 17.3.2 Intervalos de Confiança para Médias de Tratamentos  569 17.3.3 Comparações Múltiplas  573 17.3.4 Determinação do Tamanho Amostral  578 17.3.5 O Teste de Kruskal-Wallis para Esquemas de um Fator (Método não Paramétrico)  579 17.4 Planejamentos em Blocos Completamente Aleatorizados  582 17.4.1 O Teste Fr de Friedman para Planejamento em Blocos Completamente Aleatorizado (Método não Paramétrico)  588 17.4.2 Experimentos com uma Observação Ausente em um Experimento de Planejamento Bca 589 17.4.3 Experimentos com Várias Observações Ausentes em um Experimento de Planejamento Bca 589 17.5 Esquemas Experimentais de Dois Fatores  591 17.5.1 Esquemas Experimentais de Dois Fatores com uma Observação por Cela  593 17.5.2 Esquemas Experimentais de Dois Fatores com r > 1 Observações por Cela  593 17.5.3 Blocos em Esquemas Experimentais de Dois Fatores  601 17.5.4 Extensão para n Fatores dos Planejamentos Experimentais de Dois Fatores  601 17.6 Planejamentos de Quadrados Latinos  603 17.7 Modelos de Efeitos Aleatórios e de Efeitos Mistos  608 17.7.1 Modelo de Efeitos Aleatórios  608 17.7.2 Modelo de Efeitos Mistos  609 17.7.3 Planejamentos Aninhados (Hierárquicos)  610 17.8 Um Estudo de Caso  616 17.9 Usando o Jmp 616 Problemas Práticos de Revisão  616

Capítulo 18  |  Planejamentos Fatoriais 2k 628

cadzero.gupta.indd 15

18.1 Introdução  628 18.2 Os Planejamentos Fatoriais  629

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

Sumário  xv

12/07/16 08:58


18.3 O Planejamento Fatorial 2k 630 18.4 Planejamentos Fatoriais 2k não Replicados  637 18.5 Blocos no Planejamento Fatorial 2k 642 18.5.1 Confundimento no Planejamento Fatorial 2k 642 18.5.2 Algoritmo de Yates para Planejamentos Fatoriais 2k 647 18.6 Os Planejamentos Fatoriais Fracionados 2k 649 18.6.1 Replicação de Metade de um Planejamento Fatorial 2k 649 18.6.2 Replicação de um Quarto de um Planejamento Fatorial 2k 653 18.7 Estudos de Caso  657 18.8 Usando Jmp 658 Problemas Práticos de Revisão  658

Capítulo 19  |  Superfícies de Resposta (Disponível no Site da LTC Editora) Apêndices 664 Apêndice A  |  Tabelas Estatísticas 666 Apêndice B  |  Respostas a Problemas Selecionados  Apêndice C  |  Bibliografia 716 Índice 720

cadzero.gupta.indd 16

700

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

xvi  Sumário

12/07/16 08:58


Público-alvo

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

Prefácio

Este é um livro-texto introdutório de estatística e probabilidade aplicadas para estudantes de graduação em engenharia e ciências naturais. Inicia-se em um nível adequado àqueles que não foram antes expostos à estatística e à probabilidade e os leva a um nível de proficiência em várias técnicas estatísticas. Este texto se divide em duas partes: a Parte I discute a estatística descritiva, conceitos de probabilidade, distribuições de probabilidade, distribuições amostrais, estimação e teste de hipóteses, e a Parte II discute vários tópicos de estatística aplicada, incluindo alguma teoria de confiabilidade, gráficos de controle estatístico da qualidade das fases I e II, algumas técnicas não paramétricas, análise de dados categóricos, análise de regressão linear simples e múltipla, planejamento e análise da variância com ênfase em planejamentos fatoriais 2k e metodologia de superfície de resposta. Este texto é adequado para um curso de graduação de um ou dois semestres sequenciais. A apresentação do material propicia aos professores bastante flexibilidade para selecionar e escolher tópicos que cobrem o conteúdo de seus cursos. No entanto, achamos que um primeiro curso para graduações em engenharia e ciências deve incluir os Capítulos 1 e 2, uma breve discussão sobre probabilidade no Capítulo 3, distribuições discretas e contínuas selecionadas dos capítulos 4 e 5, com maior ênfase na distribuição normal, Capítulos 7 a 9, e alguns dos tópicos da Parte II que satisfaçam as necessidades do grupo particular de estudantes. Por exemplo, alguma discussão do material sobre análise de regressão e planejamento de experimentos nos Capítulos 15 e 17 pode ser útil. Um curso de dois semestres pode cobrir todo o livro. O único pré-requisito é um curso introdutório de cálculo, que todos os estudantes de engenharia e ciências devem fazer. Devido a considerações de espaço, algumas demonstrações e deduções, certos tópicos de interesse de nível avançado, incluindo o Capítulo 9 sobre superfície de resposta, não estão incluídos no texto, mas estão disponíveis no site da Editora LTC.

MOTIVAÇÃO

Os estudantes se deparam com problemas de análise de dados em muitas áreas dos currículos de engenharia ou de ciências naturais. Em suas vidas profissionais, engenheiros e cientistas frequentemente encontram situações, em suas áreas de atuação, que exigem a análise de dados. Com frequência, devem planejar a investigação que gera dados (uma atividade eufemisticamente chamada de planejamento de experimentos), analisar os dados obtidos e interpretar os resultados. Outros problemas e investigações podem se relacionar com a manutenção da qualidade de produtos existentes ou com o desenvolvimento de novos produtos, ou com um resultado desejado em uma investigação dos mecanismos subjacentes que governam certo processo. O conhecimento de como “planejar” uma investigação particular para a obtenção de dados confiáveis deve ser acompanhado do conhecimento de ferramentas estatísticas descritivas e de inferência que permitam a análise adequada e a interpretação de tais dados. O objetivo deste livro é expor, ao não iniciado, os métodos estatísticos que lidam com a geração de dados para diferentes (mas frequentemente encontrados) tipos de investigações, e discutir como analisar e interpretar os dados gerados.

HISTÓRIA

Este texto tem suas raízes em três edições de Estatística Introdutória para Engenharia, a primeira em coautoria com Irwin Guttman e com o falecido grande Samuel Wilks. O Professor J. Stuart Hunter (Princeton University), um dos melhores expositores na profissão de estatístico, renomado pesquisador, e colega do Professor Wilks, juntou-se ao Professor Guttman para produzir as edições dois e três. Todas as três edições foram publicadas por John Wiley & Sons, sendo que a terceira edição apareceu em 1982.

cadzero.gupta.indd 17

12/07/16 08:58


xviii  Prefácio

Neste texto, enfatizamos tanto a estatística descritiva quanto a inferencial. Primeiramente, damos detalhes da estatística descritiva e, então, continuamos com uma discussão elementar dos fundamentos da teoria da probabilidade subjacente a muitas das técnicas estatísticas discutidas neste texto. Em seguida, abordamos uma grande variedade de técnicas estatísticas, tais como estimação estatística, métodos de regressão, controle estatístico da qualidade (com ênfase nos gráficos de controle da fases I e II), e índices da capacidade do processo, métodos não paramétricos, elementos da teoria da confiabilidade e semelhantes. Uma característica dessas discussões é que todos os conceitos estatísticos se apoiam em um grande número de exemplos que usam dados encontrados em situações da vida real. Ilustramos, também, como os pacotes estatísticos MINITAB® Versão 16, Microsoft Excel® Versão Windows 2007 e JMP® Versão 9 podem ser usados para ajudar na análise de vários conjuntos de dados. Outra característica deste texto é a cobertura em um nível adequado e compreensível do planejamento de experimentos. Isso inclui uma discussão de planejamentos em blocos aleatorizados, planejamentos de um e dois critérios, planejamentos de quadrados latinos, planejamentos fatoriais 2k, planejamentos de superfície de resposta, entre outros. Como indicado acima, tudo é ilustrado com situações reais e junto com conjuntos de dados, apoiados pelo MINITAB, Microsoft Excel e JMP. Não conhecemos qualquer outro livro no mercado que aborde todos esses pacotes estatísticos.

CARACTERÍSTICAS MARCANTES Integração de Programas de Computador Como dito acima, incorporamos o MINITAB e o Microsoft Excel ao longo de todo o texto e apresentamos o JMP no final de cada capítulo. Nossa abordagem, passo a passo ao uso dos pacotes estatísticos, não exige qualquer conhecimento prévio desses pacotes estatísticos. Depois de completar um curso que usa este texto, os estudantes serão capazes de usar esses pacotes para a análise de dados estatísticos em seus campos de interesse.

Amplitude da Cobertura Além da cobertura de muitas técnicas estatísticas populares, incluímos a discussão de certos aspectos das distribuições amostrais, testes não paramétricos, gráficos de controle da fase II, teoria da confiabilidade, planejamento de experimentos, e metodologia da superfície de resposta. Gráficos de controle da fase II são discutidos em um capítulo separado que inclui o uso de pacotes estatísticos para suas implementações. Planejamento de experimentos e metodologia de superfície de resposta são tratados com suficiente amplitude e profundidade para serem apropriados para uma sequência de dois cursos em estatística para engenharia que inclua probabilidade e planejamento de experimentos. Os dados reais nos exemplos e exercícios de trabalho em casa ilustram a importância da estatística e probabilidade como ferramentas para engenheiros e cientistas em suas vidas profissionais. Todos os conjuntos de dados com 20 ou mais pontos de dados estão disponíveis no site da editora LTC em três formatos: MINITAB, Microsoft Excel e JMP. Os Estudos de Casos em cada capítulo ilustram ainda mais a importância das técnicas estatísticas na prática profissional.

AGRADECIMENTOS Agradecemos aos seguintes revisores e colegas cujos comentários e sugestões foram valiosos na melhoria do texto:

cadzero.gupta.indd 18

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

ABORDAGEM

12/07/16 08:58


Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

Prefácio  xix

Agradecemos a William Belcher, Darwin Davis, Julie Ellis, Pushpa Gupta, Mohamad Ibourk, James Lucas, Mary McShane-Vaughn, Louis Neveux e Phil Ramsey que ajudaram a encontrar conjuntos de dados apropriados para os estudos de casos. Agradecemos, também, a Laurie McDermott por sua ajuda na digitação de algumas partes desse manuscrito. Agradecimentos especiais a Eric Laflamme pela ajuda na escrita dos procedimentos do JMP/Excel e na criação das apresentações em PowerPoint®, a George Bernier pela ajuda na escrita dos livros de exercícios e macros do Excel, e a Patricia Miller e Brenda Townsend pela edição dos slides do PowerPoint e de algumas partes do manuscrito. Agradecemos a Minitab Inc., SAS Institute Inc., e à Microsoft por nos permitirem imprimir neste livro fotografias de telas do MINITAB, JMP e Microsoft Excel. Porções do texto são reproduzidas por permissão da American Society for Quality (ASQ), Applied Statistics for the Six Sigma Green Belt e Statistical Quality Control for the Six Sigma Green Belt de Bhisham C. Gupta e H. Fred Walker (Milwaukee: ASQ Quality Press, 2005, 2007). Para pedir esses livros, ligue para ASQ em 800-248-1946 ou 414-272-8575, ou visite o site http://www.asq.org/quality-press. Gostaríamos também de expressar nossos agradecimentos e gratidão às pessoas da John Wiley, por seu apoio, confiança e orientação durante o tempo em que trabalhamos juntos para a realização deste projeto. Os autores gostariam de agradecer a suas famílias. Bhisham reconhece a paciência e apoio de sua esposa, Swarn; das filhas, Anita e Anjali; de seu filho, Shiva; de seus genros, Prajay e Mark; nora, Aditi; e aos maravilhosos netos, Priya, Kaviya, Ayush e Amari. Por sua paciência e apoio, Irwin agradece a sua esposa, Mary; seu filho, Daniel; suas filhas, Karen e Shaun; maravilhosos netos, Liam, Teia e Sebastian; irmãos e esposas, Alvin e Rita, e Stanley e Gloria. Bhisham Gupta Irwin Guttman

cadzero.gupta.indd 19

12/07/16 08:58


Este livro conta com os seguintes materiais suplementares: Ilustrações da obra em formato de apresentação (acesso restrito a docentes);

PowerPoint Slides: Apresentações para uso em sala de aula (MS-PowerPoint) (acesso restrito a docentes);

Solutions Manual: manual de soluções em inglês, em formato (.pdf e MS-Word) (acesso restrito a docentes);

Capítulo 19: capítulo online em formato (.pdf) (acesso livre);

Excel Macros: Arquivos macros com entrada de dados (MS-Excel) (acesso livre);

Usando o JMP: Arquivos tutoriais com exemplos (MS-Word) (acesso livre);

Data Files: Arquivos de Dados – XLS, JMP, MTW (acesso livre);

Provas e demonstrações: adicionais sobre provas e derivações para os Capítulos 4, 5, 7, 8, 13, 15 e 17 (MS-Word) (acesso livre).

O acesso ao material suplementar é gratuito. Basta que o leitor se cadastre em nosso site (www.grupogen.com.br), faça seu login e clique em Ambiente de Aprendizagem, no menu superior do lado direito. É rápido e fácil. Caso haja alguma mudança no sistema ou dificuldade de acesso, entre em contato conosco (sac@grupogen.com.br).

mat supl.0.gupta.indd 1

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

Material Suplementar

29/09/16 08:41


Introdução

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

1

A Estatística, como disciplina, é o estudo do método científico. Na busca por essa disciplina, os Estatísticos desenvolveram um conjunto de técnicas que são usadas extensivamente para resolver problemas em qualquer campo de esforço científico, tais como nas ciências da engenharia, nas ciências biológicas, nas ciências química, farmacêutica e social. Este livro se relaciona à discussão dessas técnicas e de suas aplicações em certas situações experimentais. Começa em um nível adequado àqueles sem qualquer exposição anterior à probabilidade e à estatística, e leva o leitor a um nível de proficiência em várias técnicas estatísticas. Em todas as áreas científicas — engenharia, ciências biológicas, medicina, química, ciências farmacêuticas ou sociais — os cientistas são inevitavelmente confrontados por problemas que precisam ser investigados. Considere alguns exemplos:

• Um engenheiro deseja determinar o papel de um componente eletrônico necessário para se detectar o mau funcionamento do motor de um avião; • Um biólogo deseja estudar os vários aspectos da vida selvagem, a origem de uma doença, ou os aspectos genéticos da vida animal; • Um pesquisador médico está interessado em determinar a causa de certo tipo de câncer; • Um fabricante de lentes deseja estudar a qualidade do acabamento de lentes de contato; • Um químico está interessado em determinar os efeitos de um catalisador na produção de polietileno de baixa densidade; • Uma companhia farmacêutica está interessada no desenvolvimento de uma vacina para a gripe suína; • Um cientista social está interessado em explorar um aspecto particular da sociedade humana. Em todos esses exemplos, o primeiro e principal trabalho é a definição clara dos objetivos do estudo e a formulação precisa do problema. O próximo passo importante é juntar-se informação que ajude na determinação de quais fatores estão afetando o problema. Lembre que, para a determinação bem-sucedida desses fatores, deve-se entender não apenas a metodologia estatística, mas, também, conhecimento não estatístico relevante. Uma vez formulado o problema e identificados seus fatoreschave, o próximo passo é a coleta de dados, para o que há vários métodos. Quatro métodos básicos para a coleta de dados estatísticos são: • • • •

Um experimento planejado Uma pesquisa Um estudo observacional Um conjunto de dados históricos, isto é, dados coletados por uma organização ou um indivíduo em um estudo anterior.

1.1  EXPERIMENTO PLANEJADO

Discutimos o conceito de experimento planejado com um exemplo, “Development of Screening Facility for Storm Water Overflows” (Desenvolvimento de uma Estação de Separação para Inundações de Águas de Tempestade) (extraído de Box, Hunter e Hunter, 1978, e usado com permissão).

1

001.gupta.indd 1

18/01/16 14:16


O exemplo ilustra como uma sequência de experimentos pode permitir ao cientista adquirir conhecimento sobre vários fatores importantes que afetam o problema, e dar uma visão dos objetivos da investigação. Indica, também, como características inesperadas do problema podem se tornar dominantes, e como as dificuldades experimentais podem ocorrer de modo que certos experimentos planejados não podem ser realizados de modo algum. Mais do que isso, esse exemplo mostra a importância do bom senso na realização de qualquer investigação experimental. O leitor pode, corretamente, concluir desse exemplo que o curso de uma investigação real, como o verdadeiro amor, raramente acontece de modo suave, embora o eventual resultado possa ser satisfatório.

1.1.1 Motivação para o Estudo Durante pesadas tempestades, o fluxo total proveniente de uma estação de tratamento de esgoto pode exceder sua capacidade, tornando-se necessário desviar o excesso do fluxo em torno da estação, como mostra a Figura 1.1.1a. Infelizmente, o excesso de fluxo da tempestade de esgoto não tratado causa poluição no curso de água que o recebe. Uma possível alternativa, esquematizada na Figura 1.1.1b é peneirar-se a maior parte dos sólidos do excesso de fluxo de alguma maneira e retorná-lo à estação para tratamento. Apenas a menor parte de excesso de fluxo não tratado é jogada no rio. Para determinar se era economicamente viável a construção e operação de tal estação de separação, a Federal Water Pollution Administration (Administração Federal de Poluição da Água) do Department of the Interior (Departamento de Interior) financiou um projeto de pesquisa na estação de bombeamento Sullivan Gulch, em Portland, Oregon. Usualmente, o fluxo para a estação de bombeamento era de 20 milhões de galões por dia (mgd – 75,71 milhões de litros por dia), mas, durante uma tempestade, o fluxo poda exceder 50 mgd (189,27 milhões de litros por dia).

FIGURA 1.1.1  Operação da estação de tratamento de esgoto.

001.gupta.indd 2

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

2  Capítulo 1

18/01/16 14:16


Introdução  3

FIGURA 1.1.2a  Versão original da unidade de separação (diagrama detalhado).

FIGURA 1.1.2b  Versão original da unidade de separação (diagrama simplificado).

001.gupta.indd 3

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

A Figura 1.1.2a mostra a versão original da unidade de separação, que tinha capacidade para, aproximadamente, 1000 galões por minuto (gpm). A Figura 1.1.2a é uma visão em perspectiva e a Figura 1.1.2b é um diagrama esquemático simplificado. Uma única unidade tinha cerca de sete pés (213,36 cm) de altura e sete pés de diâmetro. A taxa de fluxo de esgoto bruto atingia uma peneira rotativa a uma velocidade de cinco a 15 pés por segundo (5, 49 a 16,46 km/h). Essa velocidade era função da taxa de fluxo que entrava na unidade e, portanto, uma função do diâmetro do cano de

18/01/16 14:16


entrada. Dependendo da velocidade da rotação dessa peneira e de sua finura, até 90 % da entrada passava pela peneira; o resto da entrada caía na peneira horizontal, que vibrava para remover o excesso de água. A parte sólida concentrada, que não passava em nenhuma das peneiras, era enviada de volta à estação de tratamento. Infelizmente, durante a operação, as peneiras se entupiam com o material sólido, não apenas esgoto, mas óleo, tinta e restos de embalagens de peixes. Foram instalados sprays direcionados para trás nas duas peneiras para permitir sua lavagem durante a operação.

1.1.2 Investigação O objetivo da investigação era a determinação das boas condições de operação.

1.1.3 Mudança de Critérios O que são boas condições de operação? Inicialmente, pensava-se que eram as resultantes da mais alta remoção possível de detritos sólidos. Na Figura 1.1.1b, sólidos que se depositam na entrada são denotados por S0 e os sólidos que se depositam na saída, por S1. O percentual de sólidos removido pela peneira é, portanto, y = 100(S0 – S1)/S0. Assim, inicialmente, acreditava-se que boa operação significasse um alto valor para y. No entanto, tornou-se evidente, depois do primeiro conjunto de experimentos feitos, que o percentual do fluxo retratado (fluxo que retornava à estação de tratamento), que denotamos por z, deveria também ser levado em conta. Na Figura 1.1.1b, o fluxo de entrada nas peneiras é denotado por F0 e o fluxo que sai das peneiras para o rio, por F1. Assim, z = 100(F0 – F1)/F0.

1.1.4 Resumo das Várias Fases da Investigação Fase a Nessa fase inicial, foi realizado um experimento no qual os papéis das três variáveis foram estudados: tamanho da malha da peneira giratória (fina, grossa), tamanho da malha da peneira horizontal (fina, grossa), e taxa de fluxo (galões por minuto). Nesse estágio: 1. Os experimentadores foram encorajados pelos valores geralmente altos de y. 2. Os valores mais altos de y eram, aparentemente, alcançados com o uso de uma peneira horizontal de malha grossa e de uma peneira giratória de malha fina. 3. Ao contrário do esperado, a taxa de fluxo não se mostrou uma variável importante que afetasse y. 4 Mais importante, o experimento foi, inesperadamente, dominado pelos valores de z, que mede o fluxo a ser retratado. Esses eram uniformemente muito baixos, com cerca de 0,01 % do fluxo retornando à unidade de tratamento, e 99,9 % deixando a peneira para descarga no rio. Embora fosse desejável que o fluxo a ser retratado fosse pequeno, os valores de z eram embaraçosamente baixos. Como os experimentadores observaram, “A peneira horizontal produziu uma concentração sólida... seca o bastante para ser tirada com pá... Isso representava uma perda de esforço de concentração, pois pretendia-se que os sólidos concentrados fluíssem das unidades”.

Fase b Tornou-se claro que (1) os valores z, bem como os de y, eram importantes, e (2) z era muito baixo. Conjecturou-se que o problema poderia ser melhorado pela remoção da peneira horizontal. Realizouse, então, outro experimento, sem a peneira horizontal. A velocidade da peneira giratória foi introduzida como nova variável. Infelizmente, depois de apenas duas rodadas do experimento, essa fase particular teve que ser interrompida devido ao excessivo desgaste do tecido das peneiras. Dos escassos resultados obtidos, parecia, no entanto, que sem qualquer peneira horizontal, podia-se alcançar alta remoção de sólidos com uma porção maior do fluxo a ser retratado. Decidiu-se, então, repetir essas rodadas com peneiras feitas de aço inoxidável, em vez de tecido.

Fase c Um terceiro experimento, usando peneiras giratórias de aço inoxidável de dois tamanhos de malha, semelhante à tentativa na fase b, foi realizado com o mesmo tamanho da malha da peneira giratória, mesma velocidade (rpm) e mesma taxa de fluxo (gpm) usadas antes.

001.gupta.indd 4

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

4  Capítulo 1

18/01/16 14:16


Introdução  5

Fase d

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

Nessa fase, com a peneira giratória de aço inoxidável, altas taxas de remoção y foram possíveis para oito conjuntos de condições para os fatores que acabamos de mencionar. No entanto, esses altos valores de y foram obtidos com o fluxo retratado z em valores indesejáveis, muito altos (antes, eles tinham sido muito baixos). O objetivo era a obtenção de valores de z pequenos, mas não tão pequenos que tornassem necessário o uso de pá; eram desejáveis valores entre 5 % e 20 %. Acreditava-se que, variando-se a taxa de fluxo e a velocidade de rotação da peneira giratória, esse objetivo poderia ser alcançado sem prejuízo da remoção de sólidos.

Novamente, usando-se uma peneira giratória de aço inoxidável, realizou-se outro experimento, com dois fatores – velocidade da peneira giratória (rpm) e taxa de fluxo (gpm) — cada um com dois níveis. Dessa vez, mantiveram-se os altos valores de remoção de sólidos, mas, infelizmente, os valores do fluxo retratado foram ainda maiores do que antes.

Fase e

Conjecturou-se, então, que a lavagem retroativa intermitente poderia resolver as dificuldades. Esse procedimento foi introduzido, com a taxa de fluxo de entrada e malha da peneira giratória variadas. Os resultados desse experimento levaram a uma eficiência de remoção de 89 %, com apenas 8 % de fluxo retratado. Esta foi considerada uma solução satisfatória e prática, e a investigação terminou nesse ponto. Para análise detalhada desse experimento, consulte Box, Hunter e Hunter (1978), p. 354. Naturalmente, esses tipos de experimentos e suas análises são discutidos neste texto (veja Capítulo 18).

1.2  UMA PESQUISA

O objetivo de uma pesquisa amostral é fazerem-se inferências sobre certas características de uma população da qual as amostras foram extraídas. As inferências a serem feitas para uma população envolvem, usualmente, a estimação de parâmetros populacionais, tais como total, média ou proporção populacional de certa característica de interesse. Em qualquer pesquisa amostral, é importante uma afirmativa clara de seu objetivo sem a qual é muito fácil perder-se, ou não se perceber, informação pertinente durante o planejamento da pesquisa, o que pode causar dificuldades no final do estudo. Em qualquer pesquisa amostral, deve-se coletar apenas informação relevante. Algumas vezes, a tentativa de se coletar muita informação pode se tornar muito confusa e, consequentemente, dificultar a determinação do objetivo final. Além disso, a coleta de informação em pesquisas amostrais custa dinheiro, de modo que as partes interessadas devem determinar qual e quanta informação deve ser obtida. Por exemplo, é importante descrever-se o nível de precisão desejado nos resultados finais. Pouca informação pode impedir a obtenção de boas estimativas com a precisão desejada, enquanto informação excessiva pode não ser necessária e pode custar muito, financeiramente, sem necessidade. Uma maneira de se evitarem tais problemas é a seleção de um método apropriado de amostragem da população. Em outras palavras, a pesquisa amostral deve ser planejada adequadamente. Uma breve discussão de tais planejamentos é apresentada no Capítulo 2. Para mais detalhes sobre esses planejamentos, o leitor pode consultar Cochran (1977), Sukhatme et al.(1970), ou Schaeffer et al. (2006).

1.3  UM ESTUDO OBSERVACIONAL

Estudo observacional é aquele que não envolve quaisquer estudos experimentais. Consequentemente, estudos observacionais não controlam quaisquer variáveis. Por exemplo, um corretor de imóveis deseja avaliar uma casa. Todos os dados usados para esse propósito são dados observacionais. Muitos estudos psiquiátricos envolvem dados observacionais. Frequentemente, ao ajustarmos um modelo de regressão (veja Capítulos 15 e 16), usamos dados observacionais. Do mesmo modo, em controle da qualidade (veja Capítulos 11 e 12), a maioria dos dados usados no estudo dos gráficos de controle para atributos é de dados observacionais. Note que os gráficos de controle para atributos, em geral, não fornecem quaisquer relações de causa e efeito. Isso acontece porque dados observacionais nos dão informação muito limitada sobre esse tipo de relação.

001.gupta.indd 5

18/01/16 14:16


Para dar outro exemplo, muitos estudos psiquiátricos envolvem dados observacionais, e tais dados não fornecem a causa dos problemas psiquiátricos do paciente. Uma vantagem dos estudos observacionais é que eles são, usualmente, mais eficazes em termos de custos do que os estudos experimentais. No entanto, uma desvantagem desses estudos é a de que eles podem não ser tão informativos quanto dados experimentais.

1.4  UM CONJUNTO DE DADOS HISTÓRICOS Dados históricos não são coletados pelo pesquisador: esses dados lhe são disponibilizados. Muitas áreas de estudo, tais como muitos ramos de estudos de negócios, usam dados históricos. Um conselheiro financeiro, com objetivo de planejamento, usa conjuntos de dados históricos. Muitos serviços de investimentos fornecem dados financeiros por empresa.

1.5  UMA BREVE DESCRIÇÃO DO QUE É VISTO NESTE LIVRO A coleta de dados é muito importante, uma vez que pode influenciar grandemente o resultado final da análise subsequente de dados. Depois da coleta de dados, é importante organizá-los, resumi-los, apresentar e interpretar os resultados preliminares. Vários tipos de tabelas e gráficos que resumem dados são apresentados no Capítulo 2. Também nesse capítulo, apresentamos alguns métodos usados para a determinação de certas quantidades, chamadas estatísticas, que são usadas para o resumo de algumas propriedades-chave dos dados. Os princípios básicos de probabilidade são necessários para o estudo de várias distribuições de probabilidade. Apresentamos os princípios básicos da teoria elementar da probabilidade no Capítulo 3. As distribuições de probabilidade são fundamentais no desenvolvimento de várias técnicas de inferência estatística. O conceito de variáveis aleatórias é, também, discutido no Capítulo 3. Os Capítulos 4 e 5 são dedicados a algumas distribuições discretas e contínuas importantes, e suas funções geradoras de momentos. Além disso, estudamos, no Capítulo 5, algumas distribuições especiais que são usadas na teoria da confiabilidade. No Capítulo 6, estudamos distribuições conjuntas de duas ou mais variáveis aleatórias discretas e contínuas e suas funções geradoras de momentos. Incluído no Capítulo 6, há o estudo da distribuição normal bivariada. O Capítulo 7 se dedica às distribuições de probabilidade de algumas estatísticas amostrais, tais como a média, a proporção e a variância amostrais. Nesse capítulo, estudamos também um resultado fundamental de teoria da probabilidade, conhecido como Teorema Limite Central. Este teorema pode ser usado para se aproximar a distribuição de probabilidade da média amostral quando o tamanho amostral é grande. Nesse capítulo, estudamos, também, algumas distribuições amostrais de algumas estatísticas amostrais para o caso especial no qual a distribuição populacional é a chamada distribuição normal. Além disso, apresentamos as distribuições de probabilidade de várias “estatísticas de ordem”, como o maior elemento em uma amostra, o menor elemento em uma amostra e a mediana amostral. O Capítulo 8 discute o uso de dados amostrais para a estimação de parâmetros populacionais desconhecidos de interesse, tais como a média populacional, a variância populacional e a proporção populacional. O Capítulo 8 discute, também, os métodos de estimação da diferença de duas médias populacionais, da diferença de duas proporções populacionais e da razão de duas variâncias e de dois desvios-padrão populacionais. Incluem-se dois tipos de estimadores, os estimadores pontuais e os estimadores intervalares (intervalos de confiança). O Capítulo 9 trata dos importantes testes de hipóteses estatísticos que se referem a médias, variância e proporção populacionais para uma e duas populações. São também apresentados métodos de teste de hipóteses usando os intervalos de confiança estudados no Capítulo 8. O Capítulo 10 oferece uma introdução à teoria da confiabilidade. São apresentados métodos de estimação e testes de hipótese usando as distribuições exponencial e de Weibull. Os Capítulos 11 e 12 são dedicados aos gráficos de controle para variáveis e atributos usados na fase I e fase II de um processo. A “fase I” se refere ao estágio inicial de um novo processo, e a “fase II” se refere a um processo já maduro. Os gráficos de controle são usados para se determinar se um processo que envolve manufatura ou serviço está “sob controle estatístico” com base na informação contida em uma sequência de pequenas amostras de itens de interesse. O Capítulo 13 se dedica ao teste qui-quadrado para a qualidade do ajuste, que é usado para testar se um conjunto de dados amostrais apoia a hipótese de que a população amostrada segue algum

001.gupta.indd 6

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

6  Capítulo 1

18/01/16 14:16


Introdução  7

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

modelo especificado de probabilidade. Além disso, aplicamos o teste qui-quadrado para qualidade do ajuste também para o teste das hipóteses de independência e homogeneidade. Esses testes envolvem métodos de comparação de frequências observadas com as que são esperadas quando certa hipótese é verdadeira. O Capítulo 14 dá uma breve olhada em testes conhecidos como “testes não paramétricos”, que são usados quando não se pode partir do pressuposto de que a distribuição subjacente tem alguma forma paramétrica específica. O Capítulo 15 introduz um tópico importante da estatística aplicada: análise de regressão linear simples. A análise de regressão linear é frequentemente usada por engenheiros, cientistas sociais, pesquisadores de saúde e cientistas biólogos. Essa técnica estatística explora a relação entre duas variáveis de modo que uma variável possa ser predita a partir da outra. Nesse capítulo, discutimos o método dos mínimos quadrados para a estimação do modelo regressão simples, chamado ajuste desse modelo de regressão. Discutimos, também, como realizar uma análise de resíduos, que é usada para se verificar a adequação do modelo de regressão, e estudamos certas transformações que são usadas quando o modelo não é adequado. O Capítulo 16 estende os resultados do Capítulo 15 para a regressão linear múltipla. Assim como o modelo de regressão linear simples, a análise de regressão linear múltipla é amplamente usada. Ela fornece técnicas estatísticas que exploram as relações entre mais de duas variáveis, de modo que uma variável pode ser predita a partir das outras variáveis. Nesse capítulo, apresentamos uma discussão sobre regressão linear múltipla, incluindo a abordagem matricial. Finalmente, dá-se uma breve discussão sobre regressão logística. No Capítulo 17, introduzimos o planejamento e análise de experimentos que usam um, dois ou mais fatores. São apresentados planejamentos para a eliminação de efeitos de uma ou duas variáveis perturbadoras, junto com um método de estimação de uma ou mais observações ausentes. Incluímos dois testes não paramétricos, o teste de Kruskal-Wallis e o teste de Friedman, para a análise de planejamentos em blocos completamente aleatorizados de um critério. Finalmente, discutem-se modelos de efeitos fixos, efeitos mistos e efeitos aleatórios. O Capítulo 18 introduz uma classe especial de planejamentos: os chamados planejamentos fatoriais 2k. Esses planejamentos são amplamente usados em várias aplicações industriais e científicas. Incluem-se, também, discussões extensas de planejamentos fatoriais 2k não replicados, planejamentos fatoriais 2k em blocos, confusão nos planejamentos fatoriais 2k, e o algoritmo de Yates para os planejamentos fatoriais 2k. Dedicamos uma seção aos planejamentos fatoriais fracionados, discutindo replicações de metade e de um quarto de planejamentos fatoriais 2k. No Capítulo 19, introduzimos um tópico sobre a metodologia de superfície de resposta (MSR). Discutem-se planejamentos de primeira e de segunda ordens na metodologia de superfície de resposta. Apresentam-se, também, métodos para a determinação de pontos ótimos ou próximos de ótimos usando o “método de maior aclive” e a análise do ajuste de uma superfície de segunda ordem. Devido à falta de espaço, este capítulo não está incluído no texto impresso, mas está disponível para download no site de Editora LTC. Todos os capítulos são apoiados por três pacotes estatísticos populares — MINITAB, Microsoft Excel e JMP. O MINITAB e o Microsoft Excel são totalmente integrados no texto de cada capítulo, enquanto o JMP é apresentado em uma seção independente, que não está incluída no texto, mas está disponível para download no site da Editora LTC. Frequentemente, usamos, para a discussão do JMP, os mesmos exemplos usados nas discussões do MINITAB e do Microsoft Excel. Para o uso de cada um desses pacotes estatísticos, não se pressupõe nenhum conhecimento prévio, uma vez que damos cada passo, desde a introdução dos dados até a análise final dos dados em estudo. Finalmente, inclui-se uma seção de estudos de caso em quase todos os capítulos.

001.gupta.indd 7

18/01/16 14:16


Teste de Hipótese

...a hipótese nula nunca é provada ou estabelecida, mas é, possivelmente, refutada, no decorrer da experimentação. Todo experimento deve existir apenas para dar aos fatos a chance de refutar a hipótese nula. R. A. Fisher O foco deste capítulo é uma discussão sobre o teste de hipóteses estatísticas.

TÓPICOS ABORDADOS • • • • • • • • • • •

Conceitos básicos do teste de hipóteses estatísticas Testes relativos à média de uma distribuição normal quando a variância é conhecida Testes relativos à média de uma distribuição normal quando a variância é desconhecida Testes relativos às médias populacionais quando o tamanho amostral é grande Testes relativos à diferença entre as médias de duas populações com variâncias conhecidas Testes relativos à diferença entre as médias de duas populações com variâncias desconhecidas Teste t de dados emparelhados Teste relativo a uma e a duas proporções populacionais quando o tamanho amostral é grande Testes relativos à variância de uma distribuição normal Testes relativos à razão de variâncias de duas populações normais Testes sequenciais de hipóteses

OBJETIVOS DE APRENDIZAGEM Depois de estudar este capítulo, o leitor deve ser capaz de • • • • •

Construir hipóteses nula e alternativa. Determinar uma estatística de teste apropriada e usá-la para realizar um teste de hipótese. Compreender os conceitos dos erros tipo I e tipo II, e determinar o poder de um teste. Compreender o conceito de valor p, calculá-lo, e usá-lo para tomar a decisão correta. Usar intervalos de confiança apropriados para realizar vários testes de hipóteses.

9.1 INTRODUÇÃO Em nossa discussão em capítulos anteriores, observamos que um dos objetivos da estatística é fazer inferências sobre parâmetros desconhecidos de uma população, com base na informação contida em uma amostra selecionada dessa população. O objetivo de se fazerem tais inferências pode ser alcançado pela estimação dos parâmetros desconhecidos e, então, usando-os para o teste de hipóteses sobre os valores plausíveis desses parâmetros desconhecidos. No Capítulo 8, consideramos o problema da estimação de parâmetros desconhecidos. Aqui, vamos considerar certos aspectos do teste estatístico de hipóteses. O teste de uma hipótese é um fenômeno com que lidamos na vida diária. Por exemplo, uma companhia farmacêutica pode querer testar certa hipótese sobre uma nova droga usada para o tratamento de pacientes com colesterol alto, câncer de mama, ou doença da artéria coronária. Amtrak, uma companhia de serviço de transporte, pode querer testar se um trilho existente pode ser usado para introduzir um

258

009.gupta.indd 258

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

9

09/06/16 12:40


Teste de Hipótese  311

H 0 :  = 0,5

versus

H 1 :   0,5

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

(a) Se q é a verdadeira probabilidade de que essa nova moeda mostre cara em uma jogada, estabeleça um intervalo de confiança de 95 % para q. (Sugestão: n é grande.) (b) Use (a) para testar

 8. Gere sequencialmente amostras aleatórias de tamanho 5 de uma população binomial com n= 50 e q = 0,5. Realize um teste sequencial da hipótese H 0 :  = 0,5 versus

H 1 :  = 1 > 0,50

ao nível de significância a = 0,05 e poder 1 – b = 0,90 em q = 0,52; isto é, o valor desejado da probabilidade do erro tipo II é b = 0,10 em q = 0,52. (Sugestão: Uma amostra aleatória pode ser gerada usando-se qualquer um dos pacotes estatísticos discutidos neste livro. Por exemplo, MINITAB pode gerar uma amostra aleatória de uma distribuição dada como segue: selecione Calc > Random data > Distribution, selecione o tamanho da amostra e parâmetros apropriados da distribuição na caixa de diálogo e clique em OK.)  9. Gere sequencialmente amostras aleatórias de uma população normal com média µ= 12 e desviopadrão a = 2, para realizar um teste sequencial da hipótese

H 0 :  = 20 versus

H 1 :  = 1 > 20

ao nível de significância a = 0,05 e poder 1 – b = 0,95; isto é, o valor desejado da probabilidade de erro tipo II é b = 0,05 em m = 21. 10. Gere sequencialmente amostras aleatórias de uma população exponencial com média µ = 10 e desvio-padrão s = 10 para realizar um teste sequencial da hipótese

H 0 :  = 10 versus

H 1 :  = 1 > 10

ao nível de significância a = 0,01 e poder 1 – b = 0,95 em µ = 12; isto é, o valor desejado da probabilidade do erro tipo II é a = 0,05 em m = 12.

9.13  ESTUDOS DE CASO

Estudo de Caso 1 (Fonte de dados: um grande fabricante de chips integrados) Durante a qualificação do produto apresentado no estudo de caso do Capítulo 8, produto LMV9234, o segundo lote foi processado 30 dias depois do primeiro. O polirresistor é um parâmetro para esse produto que é crítico para a cadeia de suprimento e outros parâmetros para esse microchip. Para se produzir um polirresistor, uma camada de polissilício é feita com um implante de boro. O primeiro lote foi processado na ferramenta A e o segundo, na ferramenta B. A Tabela 9.13.1 no site da Editora LTC fornece os valores do polirresistor. Determine intervalos de confiança de 90 % e 99 % para a diferença das médias dos valores do polirresistor para esses lotes. Depois, o engenheiro gostaria de comparar (usando intervalos de confiança de 90 %, 95 % e 99 %) as médias dos valores do polirresistor para esses lotes. Analise os resultados do estudo de caso. Prepare um pequeno relatório resumindo suas conclusões. Os dados para esse estudo de caso estão disponíveis, como mencionado antes, no site da Editora LTC.

Estudo de Caso 2 (Fonte de dados: um grande fabricante de chips integrados) Como parte da liberação final para o LMV9234, testes de DES (descargas eletrostáticas) foram realizados, para garantir a qualidade desse produto, em 60 unidades das unidades finais empacotadas. Os testes de DES são testes de estresse que são realizados no modelo do corpo humano (MCH), modelo da máquina (MM) e modelo do aparelho de carga (MAC). LMV9234 é um microchip de 20 PIN em um pacote SOIC (veja Figura 9.13.2). Trinta unidades de uma placa selecionada aleatoriamente dos lotes 1 e 2 foram colocadas na forma do pacote SOIC final e testadas em relação ao MCH, MAC e MM. Os dados para as unidades que foram aprovadas em relação ao MCH estão listadas no site da Editora LTC, na Tabela 9.13.2. As unidades aprovadas são designadas por 1, e as reprovadas, por 0. Ache intervalos de confiança de 99 % e 95 % para diferença entre a proporção de unidades aprovadas entre os lotes 1 e 2. Use intervalos de confiança para testar, aos níveis de significância de 1 % e 5 %, a hipótese de que as proporções de unidades aprovadas entre os lotes 1 e 2 são as mesmas. Os dados para esse estudo de caso estão disponíveis no site da Editora LTC.

009.gupta.indd 311

09/06/16 12:40


FIGURA 9.13.1  Uma placa de silício gravada.

FIGURA 9.13.2  Um pacote SOIC.

9.14  USANDO JMP Esta seção não está incluída neste livro, mas está disponível para download no site da Editora LTC.

Problemas Práticos de Revisão   1. Suponha que certo tipo de lâmpada de 40 watts seja padronizado, de modo que seu tempo médio de vida é de 1500 horas com desvio-padrão de 200 horas. Uma amostra aleatória de 36 dessas lâmpadas de um lote L, com média m, foi testada e resultou em uma vida média de 1380 horas. (a) Teste, ao nível de significância de 1 %, a hipótese H 0 :  = 1500 versus

H 1 :  = 1 < 1500

(b) Qual é o poder do teste em µ = 1400? (c) Faça o gráfico da função poder.  2. Suponha que no Problema 2 da seção 9.3, precisemos realizar um teste de H0: m = 0,25 contra H1: m = 0,2490, com a = 0,01 e poder em m = 0,2490 de 0,99, isto é, b = 0,01. Qual o tamanho da amostra necessário para isso?  3. Generalize o resultado do Problema 2. Isto é, suponha que a amostragem seja de N(m, s 20), em que s 20 é o valor conhecido da variância populacional. Suponha que precisemos testar H0: m = m0 contra H1: m = m1, em que m1< m0 de modo que o nível do teste seja a e g (m1) =1 – b. Mostre que o tamanho amostral n usado para se fazer isso é tal que

 4. Máquinas que produzem um tipo particular de fio recebem revisões periódicas para ajudar a manter a qualidade estável. Certa máquina foi preparada de tal modo que se espera que pedaços de fio tenham força média de resistência de m = 19,5 oz, com desvio-padrão de s = 1,80 oz. (Pela experiência, sabe-se que s permanece constante em 1,80 para uma grande amplitude de valores de m.) Uma amostra de 12 pedaços de fio selecionada aleatoriamente resulta em uma média das

009.gupta.indd 312

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

312  Capítulo 9

09/06/16 12:40


Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

15

Análise de Regressão Linear Simples

O foco deste capítulo é o desenvolvimento de alguns procedimentos empregados na análise de regressão linear simples.

TÓPICOS ABORDADOS • • • • • • • •

Conceitos básicos de análise de regressão Ajuste de uma reta por mínimos quadrados Estimação não viesada da variância do erro s 2 Testes e intervalos de confiança para os coeficientes de regressão 0, 1 do modelo de regressão linear simples Determinação de intervalos de confiança para E (Y|X) Determinação de um intervalo de predição para uma observação futura Inferência sobre o coeficiente de correlação r Análise de resíduos

OBJETIVOS DE APRENDIZAGEM Depois de estudar este capítulo, o leitor será capaz de

• Ajustar um modelo de regressão linear a certo conjunto de dados, e realizar a análise de resíduos para verificar a validade do modelo em consideração. • Estimar os coeficientes de regressão usando o método dos mínimos quadrados, e realizar o teste de hipótese para verificar se o modelo de regressão de primeira ordem é um ajuste apropriado aos dados. • Estimar a resposta esperada, predizer valores de observações futuras, e encontrar seus intervalos de confiança usando os coeficientes de confiança dados. • Fazer inferências sobre coeficiente de correlação entre a variável resposta e as variáveis preditoras. • Usar os pacotes MINITAB, Microsoft Excel e JMP para realizar análise de regressão.

15.1 INTRODUÇÃO

Neste e no próximo capítulo trataremos de aspectos da construção de modelos matemáticos com o objetivo de, ou descrever um fenômeno natural com base em algumas variáveis observáveis, ou predizer o valor de uma variável com a ajuda de valores observados de uma ou várias outras variáveis. O leitor pode ter familiaridade com a hipótese (lei dos gases de Boyle) que estabelece que (pressão) 3 (volume) = constante, sob dada temperatura. Essa hipótese é formulada depois de se fazerem várias observações de pressão e volume e notar-se que a lei se verifica. Assim, o fenômeno natural é descrito pela seguinte equação matemática, chamada modelo matemático: P V = C T em que P, V, T denotam pressão, volume e temperatura, respectivamente, e C é uma constante; a notação C|T é lida como ‘constante para dada temperatura’. Tal modelo é verdadeiro até que mais evidência se

467

015.gupta.indd 467

13/06/16 17:06


488  Capítulo 15

1. Hipótese: H0 : 0 = 50 versus H1 : 0 ≠ 50 2. P (Erro tipo I) = a = 0,05 3. Estatística de teste:

4. Distribuição da estatística de teste sob H0:

5. Região crítica: > t8;0,025 = 2,306. 6. Dos Exemplos 15.2.2 e 15.3.1, temos n = 10, b1 = 90,526, S = 1,36, e

Daí, o valor da estatística de teste é

que não se localiza na região crítica; portanto, não rejeitamos a hipótese nula, e podemos concluir que, ao nível de significância de 5 %, 0 não é significantemente diferente de 50. Note que, neste caso, o valor da estatística de teste que encontramos usando o MINITAB e o Excel é inteiramente diferente do que encontramos aqui. Isso se dá porque a estatística de teste na saída do MINITAB se baseia na hipótese nula H0 : 0 = 0. Para o teste de uma hipótese diferente usando o MINITAB ou o Excel, não temos um procedimento embutido, mas podemos proceder como segue. Suponha que precisemos encontrar um intervalo de confiança para o valor predito em X = 0 e para verificar se o valor 0 = 50, sob a hipótese nula, se localiza no intervalo de confiança. Se não se localizar no intervalo de confiança, não rejeitamos a hipótese nula. Caso contrário, rejeitamos a hipótese nula. No presente exemplo, da saída do Excel, o intervalo de confiança de 95 % é (49,938; 63,494), que contém o valor especificado pela hipótese nula, 0 = 50. Da mesma maneira, o intervalo de confiança obtido pelo MINITAB contém o valor 0 = 50. Portanto, não rejeitamos a hipótese nula ao nível de significância de 0,05. Exemplo 15.5.2  (Porcentagem de dejetos sólidos removidos de um sistema de filtragem) Um estudo foi iniciado para determinar a porcentagem de dejetos sólidos removidos de um sistema de filtragem como uma função da taxa de fluxo do efluente sendo levado para o sistema. Decidiu-se usar as taxas de fluxo X de 2, 4, ..., 14 gal/min e observar Y, o percentual de dejetos sólidos removidos, quando cada uma dessas taxas de fluxo era usada. O estudo resultou nos dados da Tabela 15.5.1.

TABELA 15.5.1 Taxa de fluxo de desejos sólidos removidos Y X

24,3 2

19,7 4

17,8 6

14,0 8

12,3 10

7,2 12

5,5 14

Usando o MINITAB ou o Excel, faça o seguinte: a. Construa um diagrama de dispersão para os dados da Tabela 15.5.1. b. Ajuste a reta de regressão e teste a hipótese 1 = 0 versus 1 ≠ 0, e 0 = 0 versus 0 ≠ 0. c. Construa um gráfico que mostre faixas de confiança e de predição para a reta de regressão ajustada. MINITAB Usando os mesmos passos dados nos Exemplos 2.9.1 e 15.4.3, temos a.  Plote os dados da Tabela 15.5.1 e a reta de regressão ajustada, como mostrado na Figura 15.5.1. b.   A equação de regressão assume a forma:

015.gupta.indd 488

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

Para a parte (b):

13/06/16 17:07


Além disso, a análise de resíduos nos dá informação sobre outros afastamentos em relação ao modelo, tais como a presença de valores atípicos nos dados, a omissão de algumas variáveis independentes importantes, e/ou termos quadráticos das variáveis independentes. Apresentamos vários gráficos de resíduos para os dados do Exemplo 15.2.2 que dão alguma ideia sobre a validade das hipóteses no modelo (15.2.4), ou sobre quaisquer outros afastamentos em relação ao modelo de regressão linear simples. Esses gráficos incluem um gráfico sequencial, um diagrama de caixa, um gráfico de probabilidade normal, um gráfico de resíduos versus variável preditora, ou gráfico de resíduos versus valores ajustados (a Tabela 15.3.10 dá os Yi’s e os resíduos correspondentes Yi – Yˆi). Os vários gráficos na Figura 15.7.1 mostram que o modelo (15.2.4) é bastante apropriado para os dados sobre dureza do aço. Uma interpretação dos gráficos (a) a (e) na Figura 15.7.1 é a seguinte: 1. Como todos os pontos se localizam quase sobre uma reta, os resíduos são normalmente distribuídos. 2. Como todos os pontos são espalhados aleatoriamente e se localizam dentro de uma faixa retangular, a variância parece razoavelmente constante. 3. O gráfico dos resíduos versus a ordem das observações não apresenta qualquer padrão que violaria as hipóteses de que os i sejam independentes.

FIGURA 15.7.1  Gráficos do MINITAB dos resíduos, para os dados no Exemplo 15.5.2, sobre dureza do aço.

015.gupta.indd 496

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

496  Capítulo 15

13/06/16 17:07


Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

Análise de Regressão Linear Simples  497

FIGURA 15.7.2  Alguns outros gráficos típicos na análise de resíduos, mostrando afastamento em relação ao modelo de regressão linear simples (15.2.4).

4. O diagrama de caixa não mostra qualquer valor atípico, o que implica que não há observações não usuais. O gráfico (e) fornece a mesma informação que o gráfico (b).

Alguns outros gráficos típicos que podem surgir na análise de resíduos, e que indicam afastamento em relação ao modelo de regressão linear (15.2.4), são mostrados na Figura 15.7.2. O diagrama de dispersão dos resíduos versus variável preditora na Figura 15.7.2a tem um padrão curvo: para alguns valores preditores maiores ou menores, os resíduos são negativos, enquanto para valores intermediários, os resíduos são positivos. Isso indica que um modelo de regressão linear não é apropriado e que, provavelmente, um termo quadrático da variável preditora deva ser incluído no modelo. O diagrama de dispersão dos resíduos versus variável preditora na Figura 15.7.2b mostra que a dispersão dos resíduos está aumentando à medida que o valor da variável preditora aumenta. Isso indica que a hipótese de variância constante não é válida. Para validar essa hipótese, precisaríamos usar alguma transformação de dados na variável resposta ou na preditora que pudesse ajudar a estabilizar a variância. O gráfico normal de resíduos na Figura 15.7.2d mostra que a condição de normalidade do modelo (15.2.4) também é violada. Note que o MINITAB também fornece um valor p para o teste da hipótese nula, H0 : Resíduos são normalmente distribuídos versus H1 : Resíduos não são normalmente distribuí- dos. Na Figura 15.7.2d, notamos que o valor p é 0,012 (não mostrado no diagrama), de modo que podemos rejeitar a hipótese nula a qualquer nível de significância maior do que o valor p de 0,012. Mais ainda, notamos que um dos resíduos está bastante afastado da reta, o que indica que a observação correspondente a esse resíduo é uma observação não usual. Essa afirmativa também é confirmada pelo diagrama de caixa na Figura 15.7.2c (Figuras 15.7.2c e 15.7.2d representam o mesmo conjunto de resíduos). Os gráficos na Figura 15.7.2 levam à conclusão de que várias hipóteses do modelo de regressão linear são violadas. Certos remédios estão disponíveis para a validação dessas hipóteses. Esses remédios incluem alguma transformação de variáveis; como mencionado antes, alguma discussão desse tópico é apresentada na Seção 15.8. Exemplo 15.7.1  (Quantidade de fosfato versus safra de soja) Um experimento foi realizado para determinar a quantidade de fosfato necessária por acre para a otimização da safra, quando se sabe quanto se precisa de po-

015.gupta.indd 497

13/06/16 17:07


tássio e de cal. Os dados na Tabela 15.7.1 fornecem a informação necessária. Use um dos pacotes de programas para ajustar um modelo apropriado a esses dados. MINITAB Na barra de Menu, selecione Stat > Regression > Regression; então, introduza as safras na caixa próxima a Response e fosfato na caixa próxima a Predictors. Então, selecione Results, Graphs, e Options uma a uma e marque as entradas correspondentes aos resultados que você deseja ter. Então, clique em OK. Os resultados que seguem aparecem na janela da Sessão: TABELA 15.7.1 Dados sobre o experimento da safra de soja Safra Y bushels Fosfato X lb

32 26

28 20

31 24

34 32

31 22

33 28

34 34

33 30

33 36

31 42

33 40

32 38

29 48

30 44

30 46

Regression Analysis: Safra versus Fosfato Predictor Constant Fosfato

Coef 32.268 0.01964

S = 1.86399

SE Coef 1.954 0.05570

R-Sq = 0.9%

T 16.51 0.35

P 0.000 0.730

R-Sq(adj) = 0.0%

Analysis of Variance Source Regression Residual Error Total

DF 1 13 14

SS 0.432 45.168 45.600

MS 0.432 3.474

F 0.12

P 0.730

Unusual Observations Obs. 2

Fosfato 20.0

Safra 28.000

Fit 31.875

SE Fit 0.916

Residual -3.875

St Residual -2.39R

R denotes an observation with a large standardized residual. Safra 32 28 31 34 31 33 34 33 33 31 33 32 29 30 30

Fosfato 26 20 24 32 22 28 34 30 36 42 40 38 48 44 46

Residuals 0.24286 3.87500 0.79643 2.36071 0.83571 1.28214 2.40000 1.32143 1.43929 0.44286 1.51786 0.47857 2.32500 1.40357 1.36429

Standard. Residuals 0.13919 2.38725 0.46507 1.31345 0.49978 0.72458 1.33275 0.73949 0.80079 0.25382 0.85779 0.26781 1.43235 0.81961 0.81588

Fits 31.7571 31.8750 31.7964 31.6393 31.8357 31.7179 31.6000 31.6786 31.5607 31.4429 31.4821 31.5214 31.3250 31.4036 31.3643

Nesses resultados, notamos que o valor de R2 é de apenas 0,9 % e que o valor p para o teste da hipótese 1 = 0 é 0,73. Isso implica que não há relação linear significante entre a safra e o fosfato. Passamos, agora, a realizar a análise de resíduos. Os resíduos não mostram a presença de qualquer observação não usual nos dados, como se confirma pelo diagrama de caixa na Figura 15.7.3a. Na Figura 15.7.3b, quase todos os resíduos se localizam sobre a reta. Consequentemente, podemos dizer que os resíduos seguem uma distribuição normal. Na Figura 15.7.3d, o gráfico de resíduos versus ordem das observações não apresenta qualquer padrão que viole a hipótese de que os i sejam independentes. A Figura 15.7.3c, no entanto, mostra claramente que está faltando um termo quadrático da variável independente no modelo.

015.gupta.indd 498

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

498  Capítulo 15

13/06/16 17:07


FIGURA 15.7.3  Gráficos de resíduos do MINITAB, para os dados no Exemplo 15.7.1.

Microsoft Excel

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

Análise de Regressão Linear Simples  499

Para os dados precedentes, siga o procedimento esboçado no Exemplo 15.4.1. Mas, antes de selecionar OK para rodar a análise, marque, na parte de Resíduos da caixa de diálogo, as caixas Resíduos, Resíduos Padronizados, Plotar Resíduos e Plotar Ajuste de Linha. Também, na parte de Probabilidade Normal da caixa de diálogo, marque a caixa Plotagem de Probabilidade Normal. Agora, selecione OK. Os resultados que aparecem são virtualmente idênticos aos obtidos com o uso do MINITAB. Pelas saídas anteriores do MINITAB e do Excel, temos ampla evidência que sugere que a inclusão de uma tendência quadrática no modelo poderia ter resultado em melhor ajuste aos dados. Podemos, então, desconsiderar a análise de regressão linear como inadequada e prosseguir para ajustar um modelo de regressão de segunda ordem (veja Capítulo 16). MINITAB

Para reanalisar os dados no MINITAB, selecione, na barra de Menu, Stat > Regression > Fitted line plot e, então, marque a opção Quadratic e outras opções para obter novos gráficos de resíduos. Então, clique em OK. Os resultados e gráficos que seguem aparecem na janela da Sessão. Esses são obtidos por um procedimento de mínimos quadrados que ajusta o modelo h = E(Y|X) = b0 + b1X + b2X2 aos dados e que é discutido no Capítulo 16. Polynomial Regression Analysis: Safra versus Fosfato The regression equation is Safra = 5.728 + 1.649 Fosfato - 0.02454 Fosfato**2 S = 0.671282

R-Sq = 88.1%

R-Sq(adj) = 86.2%

Analysis of Variance Source Regression Error Total

015.gupta.indd 499

DF 2 12 14

SS 40.1926 5.4074 45.6000

MS 20.0963 0.4506

F 44.60

P 0.000

13/06/16 17:07


Análise de Regressão Linear Múltipla

O foco deste capítulo é o desenvolvimento de procedimentos para o ajuste de modelos de regressão linear múltipla.

TÓPICOS ABORDADOS: • • • • • • • • • • • •

Modelos de regressão linear múltipla Estimação dos coeficientes de regressão Estimação dos coeficientes de regressão usando notação matricial Propriedades dos estimadores de mínimos quadrados Abordagem da análise da variância à análise de regressão Discussão de inferências sobre os parâmetros de regressão Modelo de regressão linear múltipla que usa variáveis preditoras qualitativas ou categóricas Coeficientes de regressão padronizados, multicolinearidade e suas consequências Construção de modelos de predição tipo regressão Análise de resíduos Alguns critérios para seleção do modelo Conceitos básicos de regressão logística

OBJETIVOS DE APRENDIZAGEM: Depois de estudar este capítulo, o leitor deve ser capaz de • Usar o método de mínimos quadrados para estimar os coeficientes de regressão em um modelo de regressão múltipla e realizar teste de hipótese para a determinação de quais coeficientes de regressão são significantes. • Ajustar modelos de regressão linear múltipla a um conjunto de dados ao usar duas ou mais variáveis preditoras, e realizar análise de resíduos para verificar a validade dos modelos em consideração. • Ajustar modelos de regressão linear múltipla a um conjunto de dados que envolve variáveis preditoras qualitativas ou categóricas. • Determinar a presença de multicolinearidade e sua possível eliminação. • Usar vários critérios, tais como o coeficiente de determinação múltipla, coeficiente de determinação múltipla ajustado, estatística Cp de Mallow, ou estatística Press, para verificar a adequação do modelo ajustado. • Ajustar um modelo de regressão logística quando a variável resposta é uma variável binária. • Usar os pacotes estatísticos MINITAB, Microsoft Excel e JMP para realizar análise de regressão múltipla.

16.1 INTRODUÇÃO No Capítulo 15, estudamos o modelo de regressão linear simples, que tem uma variável independente (preditora). Na prática, no entanto, lidamos mais frequentemente com cenários que têm mais de uma

516

016.gupta.indd 516

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

16

15/06/16 15:48


518  Capítulo 16

Para analisar esses dados usando o MINITAB, procedemos como a seguir: 1. Introduza os valores Y, X1 e X2 nas colunas C1, C2 e C3, respectivamente, e use Y, X1 e X2 como cabeçalhos dessas colunas. 2. Na barra de Menu, selecione Stat > Regression > General Regression. Na caixa de diálogo que aparece, digite Y na caixa próxima a Response e digite o modo X1 + X2 (ou simplesmente X1 X2) na caixa abaixo de Model:. Selecione qualquer outra opção desejada nessa caixa de diálogo e faça as introduções necessárias, e clique em OK. A saída do MINITAB que aparece na janela da Sessão é como mostrado a seguir:

Regression Analysis: Y versus X1, X2 The regression equation is Y = 1.66 + 0.0283 X1 + 0.0290 X2 Predictor Coef SE Coef T Constant 1.6609 0.5327 3.12 X1 0.028337 0.008046 3.52 X2 0.028998 0.009986 2.90 S = 0.0940611

R-Sq = 85.0%

Analysis of Variance Source DF Regression 2 Residual Error 17 Total 19

SS 0.85301 0.15041 1.00342

P 0.006 0.003 0.010

R-Sq(adj) = 83.2% MS 0.42651 0.00885

F 48.21

P 0.000

FIGURA 16.2.1a  Gráfico da superfície da função de resposta (um plano) para o modelo de regressão ajustado Yˆ = –1,66 + 0,0283X1 + 0,0290X2.

2 FIGURA 16.2.1b  Gráfico da superfície de resposta para o modelo ajustado Yˆ = 8,136 – 0,059 X1 + 0,008 X 1 + 2 0,008 X2 – 0,015 X1X2.

016.gupta.indd 518

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

MINITAB

15/06/16 15:48


Análise de Regressão Linear Múltipla  519

Y = 8.1364 0.0594352 X1 0.115129 X2 + 0.00788555 X1 X1 X1 X2 + 0.00835918 X2 X2

0.0148819

Coefficients Term Constant X1 X2 X1 X1 X2 X2 X1 X2

Coef 8.13640 0.05944 0.11513 0.00789 0.00836 0.01488

SE Coef 12.1277 0.2175 0.3374 0.0035 0.0042 0.0071

T 0.67089 0.27325 0.34122 2.22843 1.98228 2.08415

P 0.513 0.789 0.738 0.043 0.067 0.056

Summary of Model S = 0.0870858 PRESS = 0.226198

R-Sq = 89.42% R-Sq(adj) = 85.64% R- Sq(pred) = 77.46%

Analysis of Variance Source Regression X1 X2 X1 X1 X2 X2 X1 X2 Error Total

DF 5 1 1 1 1 1 14 19

Seq SS 0.89724 0.77840 0.07461 0.01061 0.00068 0.03294 0.10618 1.00342

Adj SS 0.897245 0.000566 0.000883 0.037661 0.029801 0.032942 0.106175

Adj MS 0.179449 0.000566 0.000883 0.037661 0.029801 0.032942 0.007584

F 23.6617 0.0747 0.1164 4.9659 3.9294 4.3437

Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.

Note que a superfície de resposta na Figura 16.2.1a é um plano. Esse gráfico da superfície função resposta é obtido usando-se o comando DOE que discutiremos completamente no Capítulo 19 (Esse capítulo não está incluído no livro, mas está disponível para download no site da Editora LTC). Agora, se o modelo proposto contém interações e termos quadráticos, então a superfície da função resposta ajustada é como mostrada na Figura 16.2.1b. O modelo que contém os termos de interação e quadráticos é ajustado com o uso do MINITAB, seguindo-se os mesmos passos dados acima, exceto que, na caixa abaixo de Model: deve-se digitar X1 + X2 + X1*X1 + X2*X2 + X1*X2 (ou simplesmente X1 X2 X1*X1 X2*X2 X1*X2). Então a seguinte saída do MINITAB aparece na janela da Sessão.

P 0.000002 0.788648 0.738005 0.042756 0.067428 0.055948

Microsoft Excel

Para o ajuste de um modelo que contém duas preditoras, seus termos quadráticos respectivos e um termo de interação, procedemos de maneira semelhante. Isto é, dentro da tabela de dados principal, devemos primeiro criar colunas adicionais contendo os cálculos dos quadrados e das interações, o que pode ser feito através das funções da planilha. Então, como esboçado no Capítulo 15, seguimos o procedimento-padrão de regressão, usando as cinco faixas das preditoras como entradas X. Os resultados serão comparáveis ao obtidos com o uso do MINITAB.

Notamos que a análise do Exemplo 16.2.1 é feita sob a hipótese de que os erros aleatórios i sejam variáveis aleatórias N(0, s 2) independentes. Usando essa hipótese nas seções que seguem, discutimos modelos de regressão múltipla em detalhes, inclusive análise de resíduos e testes de diagnóstico seguros, e os ilustramos com os dados do Exemplo 16.2.1. Começamos com a consideração de um modelo geral de regressão, com k variáveis preditoras, que pode ser estabelecido como segue. Uma variável resposta Y é afetada por k variáveis preditoras (X1, X2, …, Xk) linearmente, de modo que (16.2.2) Y = 0 1 X1 2 X2 k Xk 

em que X1, X2, …, Xk são independentes, 0, 1, …, k são coeficientes de regressão e i é um erro aleatório em que se incorre na observação de Y em (X1, X2, …, Xk). Além disso, supomos que E() = 0, V() = s 2, de modo que

E(Y) = 0

1 X1

2 X2

k Xk

(16.2.2a)

O modelo (16.2.2) é chamado linear porque é uma função linear nos parâmetros de regressão.

016.gupta.indd 519

15/06/16 15:48


Gupta | Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas. Amostras de páginas não sequenciais e em baixa resolução. Copyright© 2017 LTC – Livros Técnicos e Científicos Editora Ltda.


Estatística e Probabilidade com Aplicações para Engenheiros e Cientistas