O livro que explica a estatística que precisa em 13 aulas IBM-SPSS & Excel

Page 1

O livro que explica a estatistica que precisa em 13 aulas IBM-SPSS & Excel Teoria e prรกtica

MARGARIDA POCINHO ESCOLA SUPERIOR DE TECNOLOGIA DA SAร DE DE COIMBRA INSTITUTO SUPERIOR MIGUEL TORGA June 27, 2014


Estatística e SPSS

AULA 1.

INTRODUÇÃO .................................................................................................................. 2

ALGUMAS CURIOSIDADES ............................................................................................................................. 2 AULA 2.

MEDIDAS DE TENDÊNCIA CENTRAL OU DE POSIÇÃO:....................................................... 8

AULA 3.

POPULAÇÃO E AMOSTRA ................................................................................................ 9

NOÇÕES GERAIS ......................................................................................................................................... 9 AULA 4.

USAR O SPSS PARA ORGANIZAR E MOSTRAR OS DADOS: .............................................. 13

AULA 5.

TRANSFORMAÇÃO DOS DADOS ..................................................................................... 17

AULA 6.

REPRESENTAÇÕES GRÁFICAS PARA DIFERENTES TIPOS DE VARIÁVEIS ........................... 23

AULA 7.

ANÁLISE DESCRITIVA: MÉDIA, MO E MD EM SPSS ......................................................... 26

AULA 8.

ESTATÍSTICA PARAMÉTRICA E NÃO PARAMÉTRICA ....................................................... 30

AULA 9.

ESTATÍSTICA BIVARIADA ................................................................................................ 35

Hipótese: ......................................................................................................................................... 40 AULA 10.

TESTES DE HIPÓTESES: ................................................................................................... 43

AULA 11.

TESTES PARAMÉTRICOS: ................................................................................................ 48

AULA 12.

*ESTATÍSTICA NÃO PARAMÉTRICA ................................................................................ 53

AULA 13.

DO SPSS AO EXCEL E DO EXCEL AO SPSS ........................................................................ 56

1


Estatística e SPSS

Aula 1.

Introdução

A Estatística é uma ciência que recolhe, ordena, analisa e interpreta os dados de um grupo de indivíduos (sejam eles uma amostra ou uma população -censo), prescindindo das palavras e recursos literários, sendo então feita através de uma “linguagem numérica” expressiva e cheia de força e impacto (teoria das probabilidades), da qual faz referência das generalizações, com a finalidade de inferir para a população ou prever a evolução de determinado fenómeno. Esta é uma parte essencial para o dia-a-dia de qualquer individuo, na medida em que é imprescindível para o treino profissional e formação, atividades de investigação pessoal e para interpretação de literatura científica, funcionando assim como uma “evidência” científica que irá permitir a prática clínica e que ajudará na perceção do impacto e importância daquilo que se diz e faz. Mediante isto, este manual tem por fim fornecer conhecimentos estatísticos (sem ter muitos conhecimentos matemáticos) e ajudar a interpretar os resultados que podem ser obtidos quer através do cálculo manual, quer através de programas de computador. Assim, pretende demonstrar os principais conteúdos e conceitos de Estatística, dando especial importância e enfatizando com maior rigor os apreendidos em contexto prático, usando como principal ferramenta o programa SPSS e pontualmente também o uso do programa Microsoft Office Excel.

Algumas curiosidades Desde séculos o homem tem, muitas vezes, tomado notas de coisas e de pessoas, não com o único fim de acumular números, mas com a esperança de utilizar os dados do passado para a resolução de problemas do presente assim como para a previsão de acontecimentos futuros. No entanto, o sucesso quanto a este objetivo só foi possível em data muito recente: só no final do século XIX e, sobretudo, no princípio do século XX é que, com a aplicação de probabilidades aos problemas sobre a interpretação dos dados recolhidos, foi possível resolver alguns deles. A Estatística conquistou, hoje, o seu lugar entre as ciências. O poder do seu método é, sobretudo, afirmado nas últimas décadas e aplica-se, agora, nos domínios mais variados. Até aqui, só um pequeno número de pessoas se preocupou com estudos estatísticos, quer pela natureza das suas investigações, quer por causa da sua utilidade para as diferentes profissões. O valor e a importância do método estatístico residem no esforço para melhor compreender o nosso mundo, tão maravilhosamente complexo, tanto no ponto de vista físico como social, levam-nos a sonhar que ele se torne objecto de um conhecimento como as outras ciências. A vida corrente leva-nos a decisões para passar do conhecido ao desconhecido, da experiência à previsão. Para algumas pessoas, a Estatística não é senão um quadro de colunas mais ou menos longas de números que dizem respeito à população, à indústria ou ao comércio, como se vê 2


Estatística e SPSS frequentemente em revistas; para outras, ela dá gráficos mostrando a variação no tempo de um facto económico ou social, a produção ou os números relativos aos negócios de uma empresa, assim como se encontra nos escritórios de empresas privadas. Tão diferenciados se apresentam os métodos estatísticos que não é possível estabelecer uma definição que os contenha a todos. Apesar disso, apresentamos a seguir uma definição que, embora necessariamente incompleta como qualquer outra, tem a vantagem de introduzir o aluno na matéria. A Estatística tem como finalidade elaborar de uma síntese numérica que evidencie o que de mais generalizado e significativo exista num conjunto numeroso de observações. O grande número de observações de que se parte reflete uma diversidade tal que se torna ininteligível a sua interpretação. Para que, a partir dessa diversidade se possa começar a entender logo, torna-se necessário reduzir sucessivamente as observações, ganhando-se em generalidade o que se vai perdendo em individualidade. A síntese implica, assim, que nos desprendamos do que é particular e individual para nos atermos ao que existe de mais geral no conjunto das observações; à medida que a síntese progride, vai-se perdendo o contacto com as particularidades imediatas. Deste modo, a Estatística não se ocupa do que é excecional, mas apenas do que é geral: não se interessa pelo indivíduo, mas por grupos de indivíduos; não se ocupa, em suma, de uma só medição, mas de um conjunto de medições. Acrescente-se, ainda, que a síntese é numérica. Quer isto dizer que se prescinde inteiramente das palavras e dos recursos literários de mais ou menos efeito que elas possibilitam. Alcança-se a síntese pelo recurso exclusivo dos números. Daí o afã com que frequentemente se escolhem os números de acordo com os argumentos. A Estatística é intrinsecamente uma disciplina não literária, manipula exclusivamente números e alcança a síntese ordenando-os e cooperando com eles. “Estatística”, deriva de “status” que em latim significa Estado, e que só por si demonstra a ligação que sempre existiu entre ambos. O primeiro levantamento estatístico remonta a 3050 a.C., no Egipto, tendo como objetivo informar o estado sobre recursos humanos e económicos. No séc. XVII d.C., a disciplina de Estatística era já lecionada nas universidades alemãs, continuando com a finalidade de descrever as populações e as riquezas do Estado. Ainda no séc. XVII, dá-se a expansão dos seus campos de investigação a áreas como a Saúde pública; a Indústria; o Comércio e os Estudos Demográficos. Os métodos de inferência estatística surgem com Jonh Graunt (1620-1674), um modesto comerciante, que tira conclusões válidas sobre uma população desconhecida por ele. Fermat (1601-1665) e Pascal (1623-1662) permitem que o estudo do acaso tome uma expressão matemática, introduzindo o Cálculo das Probabilidades. Esta expressão matemática e o aparecimento do método dos mínimos quadrados, vêm credibilizar a Estatística conferindo-lhe a fundamentação matemática em que ela, hoje, assenta. No séc. XVIII Lambert Quetelet (1796-1874) introduziu a Estatística nas análises da Meteorologia; da Antropometria; das Ciências Sociais; da Economia e da Biologia. Aos contributos anteriores Francis Galton (1822-1911), acrescenta as noções de regressão e correlação; Karl Pearson (1857-1936) apresenta a mais bela e acabada teoria de Estatística, ficando também conhecido pelos seus coeficientes (r; c); Fisher com os seus

3


Estatística e SPSS trabalhos sobre inferência Estatística também deu um grande contributo ao desenvolvimento da Estatística. Em 1943, dá-se uma grande reviravolta, uma vez que o tratamento de dados deixa de ser feito manualmente e passa, numa primeira fase, a ser apoiado por calculadoras potentes para mais tarde ser computadorizado. O Método Estatístico, segundo a teoria de Cramer, pressupõe as seguintes fases: Recolha de dados estatísticos: obtenção da amostra a partir da população, devendo depurar e retificar os dados estatísticos, que no seu conjunto são denominados série estatística. Descrição: conjunto de operações, numéricas ou gráficas, efetuadas sobre os dados estatísticos determinando a sua distribuição; procede-se à sua ordenação, codificação e representação por meio de quadros e tabelas. Análise: consiste em tirar conclusões sobre a distribuição da população, determinar o seu grau de confiança e ainda formular hipóteses, tentando verificá-las, quanto ao fenómeno em estudo. Predição: é uma previsão do comportamento do fenómeno em estudo, tendo em conta a definição da distribuição estatística. Em termos gerais, parece-nos que uma boa definição do que é a estatística, já que resume os conceitos dos vários autores, é: Ciência que trata do planeamento, colheita, organização, sintetização, apresentação e análise de dados, bem como, a obtenção de conclusões válidas e tomada de decisões em diversos campos do saber (engenharias, saúde, biologia, farmácia, biofísica, ciencias sociais, geografia, etc.). Com efeito, o papel da Estatística na pesquisa científica é apoiar o investigador na formulação das hipóteses estatísticas e fixação das regras de decisão, no fornecimento de técnicas para um eficiente plano de investigação, na colheita, tabulação e análise dos dados (estatística descritiva) e em fornecer testes de hipóteses a serem realizados de tal modo que a incerteza da inferência possa ser expressa em um nível probabilístico pré-fixado (inferência estatística) cujo valor máximo de erro mais consensual é de 5%. Como vimos, historicamente foram muitas as definições estabelecidas para Estatística. Da mesma forma, são muitas as definições para Bioestatística. Preferimos adotar a seguinte: Conjunto de técnicas que permite recolher, apurar e apresentar dados para que sejam analisados, proporcionando inferências indutivas sobre as ciências da vida. A má utilização de dados médicos ou de outras ciências, com interpretações erróneas ou mal-intencionadas, tem produzido um grande ceticismo em relação à estatística. Podemos encontrar muitos professores, clínicos ou mesmo profissionais de ciências básicas, que acham que “bom senso" é suficiente para tratar desses dados, que qualquer coisa que exija prova estatística não pode ter valor prático ou que procurarão um matemático se tiverem algum problema estatístico em seu trabalho. É importante compreender, no entanto, que cada vez que se toma a média de duas leituras de exame, por exemplo, ou o número médio de dias de internamento no hospital de pacientes com determinada doença, se está a usar um método estatístico. Do mesmo modo, usamos métodos estatísticos para concluir que a pressão arterial do paciente está normal ou que um tratamento cirúrgico é melhor que outro. Deste modo, a Estatística nas ciências da

4


Estatística e SPSS saúde constitui-se realmente nos princípios da Medicina Quantitativa. Muito das ciências da saúde depende, direta ou indiretamente, de contagem ou mensuração. Isto é óbvio em pesquisa e verdadeiro também no diagnóstico. Quando um profissional superior de saúde, leva em consideração na avaliação de um tumor a sua idade e história familiar, está a utilizar dados quantitativos, ou seja, a incidência de tumores por idade e por família. Convencionou-se chamar de Bioestatística o conjunto de conceitos e métodos científicos usados no tratamento da variabilidade nas ciências da saúde em especial as ciências médicas e biológicas. A Bioestatística fornece métodos para se tomar decisões ótimas na presença de incerteza, estabelecendo faixas de confiança para a eficácia dos tratamentos e verificando a influência de fatores de risco no aparecimento de doenças. Dentro da área biológica, compreende-se por Biometria a ciência que estuda as medidas de seres vivos. A ênfase crescente do papel dos métodos quantitativos na prática da medicina torna imperativo que o estudante de medicina assim como o profissional de saúde tenham algum conhecimento de estatística. O estudante aprende na escola o melhor método de diagnostico e terapêutica; depois de formado dependerá necessariamente de trabalhos apresentados em reuniões, jornais e revistas científicas, para aprender novos métodos de terapia, assim como os progressos em diagnóstico e técnicas terapêuticas, psicoterapêuticas, tecnológicas…. Pode verificar que em quase todas as licenciaturas, mestrados ou doutoramentos encontra unidades curriculares, módulos e/ ou seminários de estatística, pois um profissional deverá : Estar apto a avaliar por si próprio os resultados de outros pesquisadores, deverá decidir quando uma nova técnica ou método pode substituir os antigos. Estar apto a dar à família do paciente, ou ao próprio, bem como aos seus colegas de trabalho, segurança quanto ao diagnóstico, o que pode depender de sua capacidade de avaliar adequadamente os resultados de exames laboratoriais e outros, como também de seu conhecimento sobre a relação entre a idade, sexo e outras condições do paciente e uma determinada doença. Os novos conhecimentos virão através do trabalho de pesquisa realizado por ele próprio ou por outros. Ser capaz de selecionar, da massa de informações, aquelas que forem válidas e que resistirem a testes científicos rígidos. Desenvolver um ceticismo sadio em relação a tudo que lê. Uma noção básica é o reconhecimento de que os indivíduos diferem não apenas uns dos outros, mas também em relação a si próprios, de dia para dia ou mesmo de hora para hora. Uma certa quantidade de variação é normal, mas a questão que desafia o profissional de saúde é determinar quando uma variação específica se torna patológica (referente à doença). Para isso, deve aprender como medir a variação em indivíduos normais e definir qual é o limite de variação normal. Deve aprender que há algum erro aleatório presente em cada medida ou contagem feita. é altamente improvável que duas contagens sucessivas de glóbulos, feitas na mesma amostra de sangue, sejam idênticas. Quando, porém, uma diferença se torna maior que o erro de mensuração? Para exercer as suas funções do melhor modo possível, o profissional de saúde deve saber responder a questões como essa. Para cada medida ou determinação fornecida pelo laboratório, o profissional de saúde deve

5


Estatística e SPSS conhecer a variação que é parte do próprio método, para saber quando uma dada variação representa uma mudança real no paciente. Sempre que novos métodos de terapia são introduzidos, é necessário saber se são realmente superiores, isto é, mais eficientes que os velhos métodos. Será necessário fazer-se a avaliação crítica do estudo experimental, verificando principalmente se as medidas foram realizadas de modo a produzir resultados fidedignos, se o fator em prova foi o único fator de diferença entre o grupo experimental e o grupo controle, se a diferença entre os resultados obtidos nos dois grupos foi maior que aquela que poderia ser atribuída ao acaso. Apenas depois da avaliação, através de técnicas estatísticas adequadas, da fidedignidade dos resultados, comparabilidade dos grupos experiência e controle e, significância da diferença encontrada é que podemos tirar as conclusões relativas ao novo método. O número de falhas encontradas em publicações médicas enfatiza a necessidade de uma avaliação crítica da literatura. Para ajudar o estudante a desenvolver tal atitude são necessários certos conceitos estatísticos básicos e uma certa familiaridade com a terminologia mais usada. Os Métodos estatísticos são essenciais no estudo de situações em que as variáveis de interesse estão sujeitas, inerentemente, a flutuações aleatórias. Este é o caso da área da saúde principalmente na Medicina. Mesmo tomando-se um grupo de pacientes homogéneos, observa-se grande variabilidade, por exemplo, no tempo de sobrevida após um tratamento adequado. Dosagens de características hematológicas flutuam não só entre indivíduos, como também no mesmo indivíduo em ocasiões diferentes. Na realidade, há variações entre diferentes pacientes para qualquer variável de interesse clínico. Portanto, para se estudar problemas clínicos, é necessária uma metodologia capaz de tratar a variabilidade de forma adequada. Deve-se notar, entretanto, que ao tratar um paciente, o profissional de saúde se vale da experiência de eventos anteriores, vivenciada pessoalmente ou transmitida por outros através de livros e artigos. Assim, a Estatística pode ser vista como ferramenta de organização e validação do conhecimento na área da saúde. É inegável, hoje, que a ciência busca a verdade descrevendo o universo e estabelecendo princípios gerais para explicar os fenómenos do universo. Para tanto deve valer-se do pensamento científico, que se estabelece ao nível de uma linguagem teórica de conceitos e hipóteses. As hipóteses precisam ser comprovadas, quando se faz necessária a utilização de instrumentos operacionais que explicitarão os procedimentos usados para observação e mensuração do fenómeno. São as hipóteses estatísticas. A passagem da hipótese teórica para a hipótese estatística poderia ser assim exemplificada: Determinado investigador estudará a veracidade da hipótese: "Os indivíduos gordos comem mais que os indivíduos magros". Esta hipótese encerra alguns conceitos, como: gordo, magro e comer mais. Qualquer que seja o entendimento destes conceitos teóricos, para se operacionalizar a comprovação desta hipótese o investigador deverá estabelecer a maneira de medir gordo, magro e comer mais. Ou seja, como observar e medir gordo, magro e comer mais? Uma tradução operacional destes conceitos pode ser de que gordo é o indivíduo que apresente peso acima da faixa de normalidade no índice de massa corporal (IMC), e magro é o indivíduo que apresente peso abaixo dessa faixa. Comer mais seria

6


Estatística e SPSS traduzido como consumir mais calorias do que o definido como necessário pela tabela de ingestão diária de calorias de acordo com o perfil de atividades do indivíduo. Desta forma, a hipótese científica poderia ser enunciada como uma hipótese estatística da seguinte forma: "Os indivíduos que apresentam índice de Massa Corporal IMC normal são mais produtivos, do que os indivíduos que apresentam IMC abaixo do normal". Se esta hipótese se referir a poucos indivíduos basta verificar se é verdade para estes indivíduos e a questão estará resolvida. No entanto, para a ciência não terá muita utilidade tal observação, uma vez que nada garante que esse acontecimento não surgiu por acaso ou que só acontece naquele grupo apenas. Em ciência buscam-se hipóteses mais gerais, referentes a parâmetros populacionais. Para tanto, serão projetados e implementados planos de recolha e análise de dados que permitirão testar a hipótese dando-lhe validade científica. Esquematicamente: Observa-se determinado fenómeno e elabora-se uma hipótese científica que procura estabelecer a relação entre variáveis; A partir da hipótese científica e dentro dos conhecimentos atuais elabora-se uma hipótese estatística que permita explorar, descrever ou explicar o fenómeno observado; Tendo a hipótese estatística, através de uma inferência (dedutiva) deduzem-se as consequências lógicas quanto ao que deve ser esperado empiricamente com relação à população; São estabelecidas as margens de erro e os níveis de confiança que permitirão uma decisão para aceitação ou rejeição da hipótese; A hipótese estatística será verificada através de técnicas estatísticas adequadas definidas previamente; A veracidade científica da hipótese induz-se (inferência indutiva), a partir dos resultados e com base na teoria das probabilidades. A inferência indutiva terá tanto mais significado quanto mais rigoroso for o delineamento da colheita de dados e quanto mais apropriada for a análise estatística destes dados. As falhas nestas fases podem implicar em que os valores encontrados não reflitam adequadamente os parâmetros correspondentes. A inferência da hipótese estatística para a hipótese científica será tanto melhor quanto mais adequada tenha sido a formulação dos conceitos teóricos. Uma má formulação dos conceitos teóricos não permitirá aceitar como verdade a conclusão matemática retirada dos teste. Pelo contrario uma formulação adequada dos conceitos teóricos permite tirar conclusões indutivas que se transformam num princípio, ainda que provisório. Estas serão ajustadas aos novos conhecimentos, somando experiências que a regulem, e permitindo o contínuo ajuste do modelo à realidade. Ao verificar a provável (probabilidades) verdade de uma hipótese, a Estatística estabelece o nível de erro ao aceitar ou rejeitar uma hipótese. É por isso um dos mais poderosos instrumentos na busca da verdade científica, e o principal instrumento para generalizar conclusões da parte para o todo.

7


Estatística e SPSS

Aula 2.

Medidas de tendência central ou de posição:

Sob esta designação agrupam-se os parâmetros que, ou nos indicam algo de associável ao núcleo ou centro da distribuição, ou nos permitem compartimentá-la. São estes: média, moda e mediana.  Média aritemética: ponto de equilíbrio dos dados, isto é, tendo um conjunto de n valores x1, x2,…, xn de uma variável X, é o quociente entre a soma desses valores e o nº deles.

 Mediana (Md): é o valor que ocupa a posição central de uma série, logo é necessário encontrar a posição média entre os dados, isto é, de uma série de n observações x1, x2,…, xn de uma variável X, é o valor que ocupa a posição central quando as observações estão ordenadas por ordem crescente ou decrescente, ou seja, é op valor dessa variável tal que a frequência dos valores que lhe são inferiores é a mesma que a frequência dos valores que lhe são superiores. Usada quando na amostra há valores excêntricos em relação a outros valores.  Quando N é ímpar:  Quando N é par:

 Moda (ou valor modal- Mo): de uma série de n valores x1, x2, …, xn de uma variável X, é o valor onde a frequência atinge o máximo relativo, isto é, se uma variável é discreta, a(s) moda(s) é(são) o(s) valor(es) da variável estatística que se observa(m) com maior frequência. NOTAS: 

Distribuição simétrica ou não enviesada: Mo= média= Md

Distribuição enviesada á esquerda: Mo> Md> Média

Distribuição enviesada á direita: Mo< Md< Média

Medidas de dispersão: As medidas de tendência central não fornecem por si só, uma informação exaustiva da distribuição em causa, até muito pelo contrário, pois a capacidade que se lhe atribui de representar os elementos de uma distribuição depende do modo como estes se concentram ou dispersam em torno dela, sendo então aqui necessário o auxílio das medidas de dispersão para permitir assim uma melhor caraterização da distribuição, pois tal como o nome indica, são elas que irão exprimir o grau de dispersão ou variabilidade dos dados. São elas:  Amplitude total; 8


Estatística e SPSS     

Amplitude interquartis; Desvio médio; Desvio padrão; Variância; Coeficiente de dispersão ou de variação.

Aula 3.

População e Amostra

Noções gerais

 População: conjunto de pessoas, objetos ou acontecimentos que se estão a analisar em que cada elemento seu se denomina de Unidade estatística.  População-alvo: elemento com qualquer caraterística em comum que estão a ser sujeitos a uma análise estatística, por terem interesse para o estudo.

Existente/ Real Natureza:

População

Hipotética

Finita Nº de elementos: Infinita

9


Estatística e SPSS  Amostra: subconjunto da população, não tendenciosa, que se supõe ser representativo de todas as caraterísticas da mesma, sobre o qual será feito o estudo, com o objetivo de serem tiradas conclusões válidas sobre a população, permitindo desta forma a generalização.  Amostragem: procedimento pelo qual um grupo de pessoas ou um subconjunto de uma população è escolhido com vista a obter informações relacionadas com um fenómeno, para que toda a população em interesse esteja representada.  Plano de amostragem: serve para descrever a estratégia a utilizar para selecionar a amostra.  Modalidade: toda a manifestação possível de uma variável, isto é, as várias hipóteses de resposta.

Variáveis:  Propriedades em relação à qual os indivíduos de uma amostra variam, tendo por isso interesse estatístico.  Variável estatística: aspetos (caraterísticas) que se têm em conta, ao ser efetuada uma análise estatística.

Classificação das variáveis:  Independentes: identifica-se com a dimensão ou a caraterística que o investigador manipula deliberadamente para conhecer o seu impacto numa outra variável (a variável dependente);  Dependentes: caraterística que aparece ou muda quando o investigador aplica, suprime ou modifica a variável independente;  Moderadoras: fatores que são mediados, manipulados ou selecionados pelo investigador para verificar se afetam a relação entre a variável independente e um fenómeno observado;  Controle: fatores que são controlados pelo investigador para inibir ou neutralizar qualquer efeito que possam ter no fenómeno observado;  Parasitas: qualquer fator que, teoricamente, afeta o fenómeno observado, mas não pode ser visto, medido ou manipulado.

10


Estatística e SPSS

Quantitativas

Ordinais

Nominais

Natureza das variáveis: 

Qualitativas: a natureza da variável varia de elemento para elemento; Ordinais:

Nominais:

Quando existe uma ordenação possível.

Quando o seu significado só se entende em função do nome e o número ou código que se lhe atribua não nos dá nenhuma informação. (dicotómicas ou politómicas)

Quantitativas: a intensidade da variável varia de elemento para elemento; Discretas: Continuas:

Assumem valores isolados, normalmente inteiros.

É possível qualquer operação aritmética, podendo assumir qualquer valor real

Tipos de estatística:  Estatística descritiva: Recolhe, organiza e analisa os dados de uma amostra, sem retirar qualquer conclusão sobre um grupo maior.  Estatística indutiva: Recolhe, organiza, analisa e estabelece relações entre os dados para fazer inferências sobre a população e, consequentemente, chegar a leis e teorias (dando a descritiva um apoio a esta tarefa).

11


Estatística e SPSS  Parâmetro: toda a função definida a partir dos dados numéricos de uma população. Ex: resultado de uma média  Dado estatístico: toda a função definida a partir dos dados numéricos duma amostra. Ex: resultado de uma média é um dado estatístico.

Pode-se assim concluir que o parâmetro está para a população, assim como o dado estatístico está para a amostra!

12


Estatística e SPSS

Aula 4.

Usar o SPSS para organizar e mostrar os dados:

1) Iniciar programa SPSS for Windows. Aparecerá o ecrã de abertura do SPSS. 2) Pressionar em Type in data para proceder á abertura de uma nova janela (caso se pretenda abrir uma já existente deve pressionar-se open file e selecionar o ficheiro pretendido). Passará de imediato ao editor de dados, que funciona de forma semelhante a uma folha de cálculo.

No SPSS o ficheiro de dados corresponde a uma matriz na qual as colunas correspondem ás variáveis e as linhas aos indivíduos. Cada célula corresponde a uma observação da variável correspondente. O editor de dados é composto por duas folhas: uma que se designa por Data View (onde se procede à introdução dos dados) e outra que se designa por Variable View (na qual se estrutura o ficheiro de dados, explicitando os nomes das variáveis e as suas caraterísticas.

13


Estatística e SPSS

 Name: define-se nesta coluna o nome da variável.  Type: Numeric.  Width: número de dígitos (8).  Decimals: Número de casas decimais apenas é considerada uma casa decimal para a variável nível de ferro.  Label: Descrição da variável, que surgirá sempre que, estando no Data View, passar com o rato no topo das variáveis, bem como nos gráficos e tabelas solicitados.  Values: De enorme importância aquando da presença de variáveis qualitativas, pois é nesta coluna que são definidos os códigos e a designação das respetivas categorias de cada variável.

14


Estatística e SPSS

A variável dieta equilibrada pode assumir dois valores ou categorias (1=”Sim” e 2=”Não”). A variável intensidade dos treinos pode assumir três valores ou categorias, nomeadamente: 1=”Baixa”, 2=”Moderada” e 3=”Elevada”).  Missing: Possibilita a codificação e tratamento de valores omissos na base de dados. Neste ficheiro não há valores omissos, pelo que não se altera esta coluna.  Columns: Permite definir a dimensão da coluna de cada variável.  Align: Permite definir o alinhamento dos dados.  Measure: Permite a identificação da escala de medição das variáveis. O SPSS considera apenas três escalas de medição das variáveis: nominal, ordinal e métrica (scale). Esta escala agrega as duas escalas para variáveis quantitativas, a de intervalo e a de razão. 3) Depois de criado o ficheiro são introduzidos os dados disponíveis, obtendo-se a base de dados seguinte. 4) Representação sob a forma de tabela de frequências e representações gráficas. AnalyzeDescriptive Statistics Frequencies  Selecionar a variável;  Marcar Display frequency tables;  Em Charts escolher Bar charts e Continue.

15


Estatística e SPSS

5)

Visualização dos dados do output gerado intensidade dos treinos Frequency Percent Valid Percent

Valid

baixa moderada elevada Total

5 2 3 10

50,0 20,0 30,0 100,0

50,0 20,0 30,0 100,0

nível de ferro (mg) Frequency Percent Valid Percent Valid 7,8 9,9 10,5 11,0 14,3 14,5 15,4 15,9 20,8 27,0 Total

1 1 1 1 1 1 1 1 1 1 10

10,0 10,0 10,0 10,0 10,0 10,0 10,0 10,0 10,0 10,0 100,0

10,0 10,0 10,0 10,0 10,0 10,0 10,0 10,0 10,0 10,0 100,0

Cumulative Percent 50,0 70,0 100,0

Cumulative Percent 10,0 20,0 30,0 40,0 50,0 60,0 70,0 80,0 90,0 100,0

 Sendo a variável nível de ferro quantitativa contínua e assumindo tantos valores diferentes, a respetiva tabela de frequências, tal como é apresentada, revela ser pouco funcional, não facilitando uma leitura rápida da informação. Para ultrapassar esta questão dever-se-á proceder á categorização da variável, ou seja, à transformação da variável em variável qualitativa organizada em classes.  Vamos considerar, a título de exemplo, que se constroem duas classes a partir dos dados de que dispomos. A primeira classe congrega os indivíduos com valores do nível de ferro menores ou iguais a 14,7 mg (valor correspondente ao valor da média do nível de ferro). A segunda integra indivíduos com valores do nível de ferro superiores a 14,7 mg. Esta operação realiza-se do seguinte modo no SPSS.

16


Estatística e SPSS

Aula 5.

Transformação dos dados

6) Para proceder á transformação de variáveis: TransformRecode Into diferente Variables Neste menu importa identificar a variável que se pretende classificar (nivelferro), atribuir à nova variável um nome (classes_ferro), atribuir um label (nível de ferro-classes) e depois pressionar o botão Old and New Values.

É nesta janela que se dá indicação ao SPSS do critério a seguir para a constituição das classes. Neste exemplo, atribuímos à 1ª classe o código numérico 1, associando-o aos indivíduos com valores de nível de ferro menores ou iguais a 14,7 mg. O procedimento é o mesmo para definir a 2ª classe. Por fim pressionamos o botão Continue. É acrescentada à base de dados original uma nova variável (classes_nferro). Esta variável não está ainda configurada. Para tal é necessário recorrer à folha variable view.Pode agora considerar-se o número de casas decimais igual a zero, preencher a coluna values com os respetivos códigos e por fim designar corretamente a escala de medida da variável (ordinal).

17


Estatística e SPSS

O resultado da formatação efetuada é o seguinte 7) Por fim pode representar-se a distribuição de frequências da nova variável através de uma tabela de frequências, conforme surge seguidamente 8) (cujo procedimento anteriormente): nível de ferro (classes) Frequency Percent Valid Percent Valid

[0 ;14,7] [14,8 ;30] Total

6 4 10

60,0 40,0 100,0

60,0 40,0 100,0

foi

descrito

umulative Percent 60,0 100,0

9) As representações gráficas executam-se de acordo com os procedimentos descritos de seguida:  1. 2.

Gráfico circular Graphs Legacy DialogsPieSummaries for groups of casesDefine

3.

Destes procedimentos resulta a representação gráfica seguinte:

18


Estatística e SPSS

Histograma

Graph Legacy Dialogs Histogram inserir variável nível de ferro (mg) OK

Obtém-se então o seguinte gráfico:

19


Estatística e SPSS

Transformação através do visual binning  Para criar uma nova variável: 1) Transform Visual Binning 2) Selecionar variável education level; 3) Continue

Introdução do nome “habilitações” à nova variável;

20


Estatística e SPSS 4)

Criação das classes:

Se selecionar exclude e inserir os valores  9=  12=  15=  17=  High= Se clicar em make labels aparece  9= <9  12= 9-11  15= 12-14  17= 15-16  19= 17-18  High= 19+ Não esquecer que se selecionar Included a transformação inclui o valor colocado

21


Estatística e SPSS

5)

Variável “habilitações” criada e visível em Data View

Em Variable View:

22


Estatística e SPSS

Aula 6.

Representações gráficas para diferentes tipos de variáveis

Na escolha da representação gráfica a utilizar, é fulcral ter em conta a natureza e escala de medição da variável e o objetivo da representação gráfica (o que se pretende evidenciar).  Representações gráficas para variáveis qualitativas ou quantitativas Discretas Gráfico de Barras Para representar a distribuição de frequências, absolutas ou relativas, de uma variável qualitativa ou quantitativa discreta pode utilizar-se o gráfico de barras. Este tem como referência dois eixos. No eixo das abcissas são representados os valores (ou categorias, no caso de variáveis qualitativas) da variável. No eixo das ordenadas são representadas as respetivas frequências (absolutas ou relativas) de ocorrência dos valores observados. A largura das barras é igual para todas as categorias ou valores e a altura é proporcional à frequência observada. O espaço existente entre as barras adjacentes evidencia a natureza qualitativa ou quantitativa discreta da variável. Gráficos Circulares Esta representação gráfica é particularmente utilizada na representação da distribuição de frequências de variáveis qualitativas. A sua funcionalidade diminui quando os valores que uma variável pode assumir são em número elevado. Os gráficos circulares estão divididos em áreas proporcionais à frequência da categoria que representam. O círculo representa a totalidade das observações. Habitualmente, estes gráficos evidenciam as frequências relativas (em percentagem) e usam-se quando o número de categorias é pequeno (não superior a 10). Diagrama em escala integral À representação gráfica das frequências acumuladas (absolutas ou relativas) dá-se o nome de diagrama em escada ou digrama integral. A altura de cada degrau corresponde à frequência registada (absolutas ou relativas) para o valor considerado da varável. As descontinuidades ocorrem nas abcissas dos pontos onde surgem os saltos, pelo que a função cumulativa é contínua à direita nesses pontos. 

Representações gráficas para variáveis quantitativas contínuas As representações gráficas mais habituais para frequências simples da distribuição de uma variável contínua são os histogramas, os polígonos de frequências, o polígono integral ou os gráficos de linhas, estes últimos mais utilizados nas representações gráficas de séries temporais.

23


Estatística e SPSS Histograma O histograma permite representar graficamente a distribuição de frequências de uma variável contínua. No eixo horizontal representam-se as classes e no eixo vertical as frequências absolutas ou relativas. Utilizam-se barras com área proporcional à frequência da classe correspondente. As barras são contiguas para evidenciar a continuidade da variável, tendo uma fronteira comum. Considerando classes com igual amplitude cada barra tem a mesma base igual a a e altura igual à respetiva frequência (relativa ou absoluta). A área total do gráfico é igual à soma de cada uma das barras. A área de cada uma das barras e igual ao produto da largura pela sua altura. Refira-se que quando se trabalha com variáveis continuas a amplitude das classes extremas não está, muitas vezes, definida. Nestes casos, convenciona-se que estas classes têm a amplitude das classes adjacentes Polígono de frequências Os polígonos de Frequências são gráficos de linhas que são obtidos unindo sucessivamente, por segmentos de reta, os pontos médios dos topos dos retângulos do histograma que representa as frequências relativas. O polígono de frequências é uma das representações gráficas que possibilita uma fácil e rápida comparação de duas ou mais distribuições de frequências de variáveis continuas. Para a construção de um polígono de frequências acrescentam-se dois segmentos terminais ao polígono de frequências. Estes novos segmentos são obtidos unindo os vértices extremo, da linha poligonal já obtida, aos vértices de duas classes adicionais, cada uma com amplitude igual ás restantes, frequência nula, sendo uma adjacente á primeira classe e a segunda adjacente à ultima. Deste modo, o número total de vértices do polígono de frequências é igual ao número de classes acrescido de duas unidades. A área abaixo do polígono de frequências é deste modo, igual à área correspondente à soma das áreas das barras. Um polígono de frequências acumuladas ou polígono integral é representado com base nas frequências relativas acumuladas. Neste caso, admite-se que a distribuição dos elementos dentro das classes se faz de uma forma uniforme, o que origina no intervalo de valores de uma mesma classe, uma representação linear. A representação prática do polígono integral é feita unindo o conjunto dos pontos cujas abcissas são os limites superiores das classes, e as ordenadas as correspondentes frequências relativas acumuladas. A este conjunto acrescenta-se um ponto à esquerda cuja abcissa é o limite inferior da primeira classe e cuja ordenada é zero. Finalmente, obtém-se o polígino de frequências acumuladas unindo estes pontos por segmentos de reta e prolongando-a nas extremidades, por linhas horizontais.

24


Estatística e SPSS

Construção de um Gráfico de Barras no SPSS Aquando na presença de variáveis qualitativas ou quantitativas discretas: -Baseada na variável eco da base de dados fornecida no exercício 3, página 48 do livro “Estatística Aplicada às Ciências e Tecnologias da Saúde”

1) 2) 3) 4)

Analyze Descritive Statistics Frequencies Selecionar a variável pretendida e adicionar á coluna Variable(s); Desativar a seleção Display frequency tables; Charts Bar Charts Continue OK

Obtém-se então o gráfico no Output, podendo depois tratar-se as caraterísticas a gosto:

25


Estatística e SPSS

Aula 7.

Análise descritiva: média, Mo e Md em SPSS

1) Caraterizar a amostra devidamente; 2) Distribuição da amostra relativamente às habilitações (ordinal), ao sexo (nominal) e ao salário atual (quantitativa). 3) Analyze Frequencies; 4) Selecionar a variável que pretendemos estudar (salário atual); 5) Desselecciona-se a opção Display frequencie tables, visto a variável escolhida ser quantitativa ;

6)

Seleciona-se as medidas que pretendemos estudar.

Charts Histograma Continue.

26


Estatística e SPSS

7)

Visualização do Output gerado:

A curva tem uma distribuição ligeiramente assimétrica para a direita, uma assimetria positiva, onde: média > mediana > moda Nota: Quando se altera de variável quantitativa para qualitativa, ou vice-versa, é necessário fazer o reset dos dados para evitar um possível viés nos resultados.

27


Estatística e SPSS  Não é possível fazerem-se descritivas, contudo, já se pode fazer a tabela das frequências, que na variável anterior não era possível! A variável sexo e a variável habilitações são ambas variáveis qualitativas, logo

8)

Visualização do Output gerado:

 Para ver as descritivas das duas variáveis quantitativas: variáveis “meses de trabalho” e “experiência prévia”? 1. Analyze Descriptive Statistics descriptives

28


Estatística e SPSS

2. 3.

(NOTA: este menu usa-se apenas para variáveis quantitativas) Selecionar as variáveis de interesse. Visualização do Output obtido:

29


Estatística e SPSS

Aula 8. 

Estatística Paramétrica e Não Paramétrica

Há 2 tipos de estatística 1. Paramétrica * 2. Não paramétrica

Não Paramétrica: Considera se certos resultados são superiores ou inferiores a outros resultados.

*Paramétrica: Calcula as diferenças numéricas exatas entre os resultados. No entanto, sempre que se pretende empregar a estatística paramétrica existe uma lista de requisitos que têm de ser verificados e respeitados, nomeadamente: 1. Variável direta tem de ser quantitativa (no caso das correlações de variável direta e indireta); 2. Ser simétrica (largura); 3. Ser mesocúrtica (com exceção do T de Student); 4. Ter distribuição normal (só se puder aceitar a H0). Nota: A demonstração experimental em contexto de como verificar os pré-requisitos vai ser feita em simultâneo com a aula prática que se encontra de seguida.  1)

Verificação do 2º pré- requisito - Ser simétrica: Analyse Descriptive Statistics Explore Aula prática

Usar o SPSS Para verificação dos pré-requisitos da estatística paramétrica e o uso do R de Pearson: 1) Abrir SPSS; 2) FileOpenDataDocument(c) Program File x86Diet StudyOpen

30


Estatística e SPSS 3) Hipótese proposta: Verificar a existência ou não de correlação entre a variável tg0 e wgt0.  Como ambas as variáveis são quantitativas, mas não são dados emparelhados (isto é, não é a mesma variável medida duas vezes mas em tempos diferentes) e é para se verificar a existência de uma correlação, exclui-se de imediato os testes T de Student para dados Emparelhados, o W de Wilcoxon e o Anova para Medidas repetidas, sobrando então duas opções: o R de Pearson e o seu correspondente não paramétrico Rho de Spearman.  Observado isto, é necessário então proceder-se ao “teste dos pré-requisitos” para verificar se estamos perante estatística paramétrica ou não paramétrica. 4)

Verificação de pré-requisitos no SPSS: 2) Analyse → Descriptive Statistics → Explore 3) Inserir na janela Depend List as variáveis Quantitativas (caso existam qualitativas deve-se colocá-las na janela Fator list). 4) Plots desseleccionar Stem-and-leaf, selecionar Histogram e Normality Plots with tests

5)  ContinuePaste.Obtém-se então a Syntax:

31


Estatística e SPSS

NOTA: Para se tirar apontamentos na Syntax, começa-se sempre com um * e terminamos com um ponto final.

1. 2.

Seleciona-se tudo e clica-se em Run Selection; Obtém-se então o seguinte Output:

3. Verificar se é simétrica;

Para se verificar a simetria da distribuição, é necessário proceder-se á divisão do coeficiente de simetria (Skewness) pelo erro padrão e o seu resultado deve estar compreendido entre -2 e 2.  Triglicerídeos: -0.004/0.564=0.007  Peso: 0.113/0.564=0.201 -Conclusão: Como os resultados estão compreendidos entre 2 e -2, a distribuição é simétrica.

Simetria Graficamente: Histograma:

32


Estatística e SPSS 1.

Boxplot ou Gráfico de Bigodes:

Podemos observar que não há valores fora da caixa- outliers, permitindo-nos assim concluir que a distribuição é simétrica.

Verificar se é Mesocúrtica;

Para se verificar se uma variável é mesocúrtica, é necessário proceder-se á divisão do coeficiente de achatamento (Kurtosis) pelo erro padrão e o seu resultado deve estar compreendido entre -2 e 2.  Triglicerídeos: -1.265/1.091=-1.159  Peso: -1.318/1.091=-1.208 -Conclusão: Como os resultados estão compreendidos entre 2 e -2, a distribuição é mesocúrtica.

33


Estatística e SPSS

 

Ter distribuição normal:

Visualiza-se através do teste Shapiro-Wilk, pois a amostra tem menos de 50 casos e só se recorre ao teste de Kolmogorov- Smimov se a amostra tivesse mais de 50 casos.  Se Sig for menor ou igual a 0.05 rejeita-se a homogeneidade, admitindo assim que elas t~em diferenças, não tendo uma distribuição idêntica e semelhante, ou seja, rejeita-se a H0.

Conclusão: como o Sig é superior a 0.05, aceita-se a a H0 e diz-nos que a variável tem distribuição normal. Podendo-se usar então o R de Pearson.

NOTA: Caso os resultados de um teste paramétrico não estejam de acordo com os prérequisitos (mínimo dados intervalares, distribuição simétrica, mesocúrtica e normal), estes não têm, interpretação significativa, optando, neste caso, a maior parte dos investigadores, por testes de significância não paramétricos, que podem ser usado mesmo quando os dados são medidos num nível ordinal ou até mesmo quando são nominais.

34


Estatística e SPSS

Aula 9.

Estatística Bivariada

Correlação: È medida a relação entre variáveis, quando estas são quantitativas ou também as ordens de variáveis, como nas ordinais. Se ambas as variáveis, dependente e independente, forem quantitativas e cumprirem com os restantes requisitos da estatística paramétrica, vistos anteriormente, pode então aqui utilizar-se o R de pearson, como foi verificado no caso anterior, permitindo-nos assim verificar se há relação entre a ingestão de triglicerídeos no início do estudo e o aumento de peso num mesmo indivíduo. Para todos os dados estatísticos processados em SPSS, o Sig tem a seguinte significância:  Se sig <0.001 – muito significativo (rejeito hipótese nula)  Se sig <0.01 – muito significativo (rejeito a hipótese nula)  Se sig <0.05 – significativo – rejeito hipótese nula  Se sig 0.05 -0.1 tendencialmente significativo, mas aceita-se h0 (hipótese nula)  Se sig >0.05 não existe a relação entre as variáveis, aceita-se h0. Mediante isto, só existe correlação estatisticamente significativa entre as variáveis em causa se o valor de Sig for inferior a 0.05. Na Estatística Bivariada, aceita-se a hipótese nula, H0, quando as variáveis são independentes, não existindo relação entre as duas; rejeita-se Ho quando as variáveis são dependentes.  R de Pearson no SPSS: 1. AnalyzeCorrelate Bivariate

35


Estatística e SPSS

2.

Seleciona-se as variáveis em interesse

3)Visualização do Output:

Conclusão: Como sig superior a 0.05, não existe relação entre as variáveis. 

Teste do Qui-Quadrado da Aderência (x2): Teste não paramétrico usado aquando da presença de apenas uma variável, consistindo

na comparação dos dados obtidos experimentalmente, com os esperados de acordo com a lei.  

Uma variável Variável qualitativa nominal Procedimento:

1)

Analyze Non parametric testsLegacy DialogsChi-square

36


Estatística e SPSS

Verifique se existe alguma distribuição homogénea entre homens e mulheres a trabalharem na sua área de formação.

A variável gender não surge com as outras variáveis, devido ao facto de ser do tipo “string” e não do tipo “numérico”, pelo que, se terá de proceder á sua transformação para que seja possível a seguimento do processo.

37


Estatística e SPSS 2)

Transform Recode into Different Variable

3)

Selecionar Old and New Values;

4) nserir os números 1e 2 para definirmos, respetivamente, o sexo feminino e o masculino (1=female; 2=male). O SPSS faz distinção entre maiúsculas e minúsculas.

Variável transformada, sendo necessário dar os valores à nova variável.

38


Estatística e SPSS

Pode então retomar-se a execução do teste. 5) Volta-se a repetir o procedimento, mas desta vez já surge a variável.

6)

Paste run

7)

Visualização do Output:

39


Estatística e SPSS

Como Sig: 0.054>0.05, logo aceita-se a hipótese nula, o que nos permite concluir que não existem diferenças estatisticamente significativas entre a distribuição de homens e mulheres a trabalharem no sector da nutrição, não se podendo desta forma dizer se esta profissão é significativamente mais feminina ou masculina.

Hipótese: Saber se há uma distribuição diferente em função dos anos de escolaridade (nível de educação em anos).  Variável quantitativa; Distribuição simétrica: 1. Analyze Descriptive Statisticsexplore;

2.

Selecionar variável e clicar em plots

40


Estatística e SPSS

3.

Visualizar Output gerado:

4. Verificação dos pré-requisitos. Copia-se a tabela no output e recorrendo ao Excel podemos colar a tabela e aí dividir o Skewness pelo seu erro padrão e também a Kurtosis pelo seu erro padrão, facilitando os cálculos.

Tests of Normality

41


Estatística e SPSS a

Kolmogorov-Smirnov Statistic Educational Level (years)

,210

df

Shapiro-Wilk

Sig. 474

,000

Statistic ,906

df

Sig. 474

,000

Conclusão: Para testar esta hipótese estudou-se uma amostra cujo número de casos é superior a 50, devendo por isso analisar-se os dados referentes ao Kolomogorov- Smimov. Como o valor de Sig é inferior a 0.05, a variável não apresenta distribuição normal, tendo então de se usar o equivalente não paramétrico.

42


Estatística e SPSS

Aula 10. Testes de Hipóteses: Hipótese 1: Existem diferenças de anos de escolaridade em função da categoria profissional. Neste caso verifica-se que existem mais de duas amostras de dados independentes (3 categorias: Estagiário, Contratado e Chefia), remetendo assim para os testes H de kruskal- Wallis e o Anova. Como remete para diferenças entre médias, a categoria profissional tem: estagiário/aprendiz contratados e chefias, como são independentes e não é paramétrico como se comprovou anteriormente, terá de ser o H de Kruskal-Wallis. 1.

Analyze  Nonparametric tests  Legacy Dialogs  K independent samples

2.

Selecionar as variáveis pretendidas;

 Em Test Variable Level coloca-se sempre a variável quanditativa (anos de escolaridade);  Em Grouping Variable Coloca-se sempre a variável qualitativa (Categoria profissional).

43


Estatística e SPSS 3. Preenchimento dos espaços referentes ao máximo e ao mínimo da categoria profissional (mín.1- porque existe no mínimo 1 categoria profissional e no máximo 3 porque no total existem 3 categorias profissionais); 4. Visualizar o Output gerado: Ranks Employment Category Educational Level (years)

N

Clerical Custodial Manager Total

Test Statistics

Mean Rank 363

206,43

27

95,89

84

417,27

474

a,b

Educational Level (years) Chi-Square df Asymp. Sig.

209,516 2 ,000

Conclusão: Como Sig<0.05, rejeita-se a hipótese nula, concluindo-se então que a hipótese 1 verifica-se, ou seja, há diferenças de anos de habilitações literárias em função da categoria profissional ocupada, sendo isto comprovado pela análise das tabelas anteriores, pois verifica-se que os estagiários e as chefias têm maior grau de habilitações literárias quando comparados com os contratados.~ Hipótese 2: Quanto maior a escolaridade, maior a categoria profissional. Neste exemplo pretende-se conhecer uma correlação, nomeadamente entre os anos de escolaridade e a profissão, sendo que os testes de correlação conhecidos são o R de Pearson e o RHO de Spearman. Como não pode ser o teste paramétrico, terá então de ser o

RHO De Spearman. 1.

Menu Analyze  Correlate  Bivariate;

44


Estatística e SPSS 2. Selecionar ambas as variáveis para a lista. Mudar o visto para: Pearson 3. Fazer paste e run 4.

5.

Visualizar o Output gerado: Correlations Educational Level (years)

Spearman's rho

Educational Level (years)

Correlation Coefficient Sig. (2-tailed)

1,000 .

N Employment Category

Employment Category

Correlation Coefficient

,484

,000 474

474

**

1,000

,484

Sig. (2-tailed)

,000 .

N

474

474

**. Correlation is significant at the 0.01 level (2-tailed).

Conclusão: Como o valor de sig é nulo e inferior a 0.05 significa que existe correlação, pois rejeita-se a H0, tendo esta valor de 0.484 que segundo Bryman e Cramer é considerada uma correlação moderada (pois 0,4<0,4840,69) entre a escolaridade e a categoria profissional ocupada. Para além disso, como o coeficiente de correlação é positivo, podemos ainda dizer que quanto maior for o cargo exercido, maios será o grau de escolaridade do indivéduo em causa, estabelecendo assim uma relação de proporcionalidade direta. A intensidade ou força varia entre -1 e 1. Se a correlação for zero não existe correlação entre as variáveis. Em modúlo, segundo Bryman e Cramer, a correlação pode ser definida como:  0,2 Correlação muito fraca e sem significância  0,2<r0,39 Correlação fraca  0,4<r0,69 Correlação moderada  0,7<r0,89 Correlação forte  0,9<r1 Correlação muito elevada NOTA: A direção da “evolução” é nos indicada pelo sinal “+” ou “-“. 45

**


Estatística e SPSS Hipótese 3: Em termos proporcionais, as chefias têm habilitações literárias mais elevadas. Neste último caso, visto estar-se a falar de uma diferença de proporções entre duas variáveis qualitativas ordinais, nomeadamente a variável chefias e a variável habilitações literárias, o teste utilizado deverá ser o Teste do Qui-Quadrado da Independência. 1. Analize  Descriptive Statistics  Crosstabs

2.

Selecionar as variáveis.

3.

Statistics: Colocar visto em Chi-square

46


Estatística e SPSS 4.

Cells: Selecionar Observed e Column Continue

5.

Visualizar o Output gerado:

Conclusão: Visto o valor do Sig ser nulo e inferior a 0.05, rejeita-se H0, admitindo-se assim que existem diferenças entre as variáveis, aceitando-se desta forma a hipótese experimental, ou seja, as chefias têm habilitações literárias mais elevadas.  A maioria são licenciados (46,4%), existindo também uma quantidade significativa de indivíduos com doutoramento (34,5%) na categoria de “manager”;  As categorias de “contratado” e de “estagiário” é constituído essencialmente por pessoas com o 3º ciclo (48,1% e 50,1% respetivamente), existindo também uma diferença significativa na quantidade de licenciados nestas categorias. 47


Estatística e SPSS

Aula 11. Testes paramétricos: Suponhamos que a nossa variável “ anos de escolaridade” tivesse distribuição normal. Neste caso, trabalharíamos com os testes paramétricos para testar todas as hipóteses.

Teste ANOVA 1. 2.

No caso da hipótese 1 teríamos de utilizar este teste. Analyze  Compare Means  Oney-Way ANOVA Selecionar as variáveis pretendidas.

Variável Quantitativa

Variável Qualitativa

3. para o caso de existirem diferenças significativas temos de proceder às comparações à posteriori – Post-Hoc.

~ 4. Selecionar Post Hoc  Colocar visto no teste Tukey (Moderado) se pretender um teste moderado, no LSD se liberal ou no Sheffé se necessitar de um teste conservador. 48


Estatística e SPSS 5. Porque a anova exige homogeneidade da variância ainda temos que selecionar: Option  selecionar Homogeneity of variance test (para além de outros que considerar necessários como o Descriptive) Continuepaste

6.

Visualizar o output gerado.

49


Estatística e SPSS Conclusão: O valor do Sig é inferior a 0,05, logo rejeita-se a HO. Como se rejeita a HO dizemos que existem diferenças entre os anos de escolaridade em função da categoria profissional. O teste post-hoc revela que as diferenças são entre qualquer cruzamento das variáveis.

Teste T de Student para dados Independentes Hipótese 5: Verificar se existem diferenças entre o nível de escolaridade e o sexo. 1. Analyze  Compare Means  Independent-Samples T Test

2.

Selecionar as variáveis prentendidas. Variável Quantitativa

Variável Qualitativa

3. Selecionar Define Groups 4. Inserir código numérico da variável que colocou neste campo: 1-feminino e 2Masculino 5.

Visualizar o output gerado.

50


Estatística e SPSS

Conclusão: O valor do Sig é inferior a 0,05, logo rejeita-se a H0. Como se rejeita a H0 dizemos que existem diferenças entre os anos de escolaridade em função da categoria profissional. Os homens (14,43), em média, possuem mais escolaridade que as mulheres (12,37), logo rejeita-se a hipótese experimental.

Teste T de Student para amostras Emparelhadas Hipótese 6: Verificar se existem diferenças entre o salário atual e o salário anterior (progressão na carreira). 1. Analyze  Compare Means  Paired-Samples T Test

2. Selecionar: Variável 1-Salário Inicial; Variável 2- Salário atual e passar para a coluna Paired Variables

3.

Visualizar output gerado. 51


Estatística e SPSS

Conclusão: O valor do Sig é nulo e inferior a 0,05, rejeita-se a H0. Como se rejeita a HO dizemos que existem diferenças entre o salário inicial e o atual de um trabalhador, havendo portanto uma progressão.

52


Estatística e SPSS

Aula 12. *Estatística Não Paramétrica Quando os dados não respeitam as premissas básicas que embaçam os procedimentos estatísticos, deve utilizar-se a estatística não paramétrica, como por exemplo quando não nos é permitido assumir a normalidade e, noutros casos, quando os dados que dispomos não nos permitem calcular a média (quando, por exemplo, os dados são ordinais). No entanto, este é um tipo de estatística que apresenta menor sensibilidade a erros de medida e rápidos para pequenas amostras, é também menos poderoso do que a técnica paramétrica que lhe é correspondente e são testes que não aproveitam toda a informação disponível sobre a distribuição de dados por usarem postos em vez do valor da observação (o posto de uma observação é a posição relativa ás demais observações, quando os dados estão em ordem crescente, tendo desta forma apenas em conta se certos resultados são superiores ou inferiores a outros resultados. O teste de H de Kruskal-Wallis é utilizado para comparar três ou mais amostras independentes e podemos assumir que elas são de populações com o mesmo formato, não necessariamente Normal, podendo ser usado com dados ordinais, intervalares ou proporcionais Se tanto a nossa variável dependente quanto a independente forem nominais e se se pretender conhecer a associação entre elas pode recorrer-se ao qui-quadrado da independência. No caso de ambas serem ordinais, utiliza-se o rho de spearman.

Teste W Wilcoxon É o equivalente não paramétrico do teste t de student para amostras emparelhadas, sendo usado em particular aquando da presença de medições repetidas de uma amostra, mas a população original não tem necessariamente o formato de uma Normal, podendo ser usado com dados ordinais, intervalares ou proporcionais

1.

No SPSS: AnalizeNon Parametric Tests Legacy Dialogs2 Related Samples

53


Estatística e SPSS 2.

Seleciona-se as variáveis desejadas;

3. 4.

Em Test Type seleciona-se WilcoxonOK Analisa-se o Output obtido.

Teste U de Mann-Whitney É o equivalente não paramétrico do teste t de student para amostras independentes, podendo-se utilizar para testar a hipótese nula que afirma que as médias populacionais são as mesmas para os dois grupos, não exigindo que as populações tenham a mesma variância, sendo então usado em designs com duas situações, não-relacionado, quando são utilizados sujeitos diferentes em cada uma das situações experimentais. No SPSS: 1. AnalizeNon Parametric TestesLegacy Dialogs2 Independent Samples

54


Estatística e SPSS Adiciona-se as variáveis em causa; Variável Quantitativa Variável Qualitativa

2. 3.

Em Test Type seleciona-se Mann-Whitney U; Selecionar Define Groups

4. 5. 6.

Inserir código da variável qualitativa: 1-… e Continue. Visualização do Output gerado.

2-…

Exercício: Ao longo do portefólio, algumas tarefas realizadas com a base de dados do SPSS “employee data” com a variável “Education Level”, ela nem sempre está bem classificada. Porquê? __________________________________________________________________ __________________________________________________________________________

55


Estatística e SPSS

Aula 13. Do SPSS ao EXCEL e do EXCEL ao SPSS Do spss para o excel basta guardar como e escolhe o tipo de ficheiro excel e pronto jáa está Também pode fazer através do copiar e colar. Mas do EXCEL para o SPSS, a primeira etapa é a organização dos dados, na primeira linha devem estar as variáveis e na primeira coluna os casos. Os casos, na maioria das vezes, estarão separados por linhas. Assim, cada linha representará um caso. Como o SPSS é um software que prefere dados numéricos, o melhor é ter os atributos das suas variáveis em números (por exemplo substituir sim por 1 e não por 2). MUITO SIMPLES. Que quiser fazer gráficos no EXCEL a partir de tabelas do SPSS, basta copiar do output e colar no EXCEL, depois é pedir e trabalhar os gráficos desejados.

56


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.