Inteligência Artificial, Análise e Ciência de Dados

Conceitos fundamentais e modelos

Dados Internacionais de Catalogação na Publicação (CIP) (Câmara Brasileira do Livro, SP, Brasil)

Hua, Chew Chee

Inteligência artificial, análise e ciência de dados: conceitos fundamentais e modelos / Chew Chee Hua; tradução Alex Marino Gonçalves de Almeida. – São Paulo: Cengage Learning, 2024.

Título original: Artificial intelligence, analytics and data science: vol. 1

ISBN 978-65-5558-459-2

1.Dados - Análise 2. Inteligência artificial 3. Mineração de dados (Computação) I. Título.

24-195841 CDD-006.3

Índice para catálogo sistemático:

1.Inteligência artificial 006.3

Eliane de Freitas Leite – Bibliotecária – CRB 8/841

Inteligência Artificial, Análise e Ciência de Dados

Conceitos fundamentais e modelos

CHEW CHEE HUA

Nanyang Technological University

TRADUÇÃO TÉCNICA

Alex Marino Gonçalves de Almeida

Professor Titular das disciplinas de Estrutura de Dados, Linguagem de Programação e Inteligência Computacional na Fatec Ourinhos – Centro Paula Souza

Austrália • Brasil • Canadá • México • Cingapura • Reino Unido • Estados Unidos

Inteligência artificial, análise e ciência de dados – Conceitos fundamentais e modelos 1a edição brasileira Chew Chee Hua

Gerente editorial: Noelma Brocanelli

Editora de desenvolvimento: Gisela Carnicelli

Supervisora de produção gráfica: Fabiana Alencar Albuquerque

Título original: Artificial Intelligence, Analytics and Data Science (Volume 1): Core Concepts and Models (ISBN 13: 978-981-48-9672-6)

Tradução técnica: Alex Marino

Gonçalves de Almeida

Revisão: Fábio Gonçalves e Joana Figueiredo

Diagramação: Alfredo Carracedo Castillo

Indexação: Silvana Gouveia

Capa: Alberto Mateus/Crayon Editorial

Imagem da capa: Rroselavy/ Shutterstock

Nenhuma parte deste livro poderá ser reproduzida, sejam quais forem os meios empregados, sem a permissão, por escrito, da Editora. Aos infratores aplicam-se as sanções previstas nos artigos 102, 104, 106 e 107 da Lei no 9.610, de 19 de fevereiro de 1998. Esta editora empenhou-se em contatar os responsáveis pelos direitos autorais de todas as imagens e de outros materiais utilizados neste livro. Se porventura for constatada a omissão involuntária na identificação de algum deles, dispomo-nos a efetuar, futuramente, os possíveis acertos.

A Editora não se responsabiliza pelo funcionamento dos sites contidos neste livro que possam estar suspensos.

Para informações sobre nossos produtos, entre em contato pelo telefone

+55 11 3665-9900

Para permissão de uso de material desta obra, envie seu pedido para direitosautorais@cengage.com

ISBN 13: 978-65-5558-459-2

ISBN10: 65-5558-459-9

Cengage

WeWork

Rua Cerro Corá, 2175 – Alto da Lapa São Paulo – SP – CEP 05061-450 Tel.: (11) +55 11 3665-9900

Para suas soluções de curso e aprendizado, visite www.cengage.com.br

Impresso no Brasil

Printed in Brazil

1ª impressão – 2024

Sobre o autor

Chew Chee Hua já atuou como diretor de análise de dados no SAS Institute, onde utilizou análises avançadas para projetar e resolver problemas de negócios para agências governamentais, bancos, seguradoras, hospitais e grandes empresas. Anteriormente, trabalhou como chefe de pesquisa e estatística no Ministério da Saúde e como Professor de Matemática Financeira na Cidade Acadêmica de Dubai.

Sumário

Prefácio IX 1. Introdução e visão geral 1 1.1. Principais histórias de sucesso e aplicações 1 1.2. Características da adequação dos problemas para ACI 10 1.3. Análise de dados vs ciência de dados vs. inteligência artificial 11 1.4. Análise vs. análise de dados 12 1.5. Análise de dados, ciência de dados e a cur va de desenvolvimento de capacidade em IA 13 1.6. Planejamento vs. desenvolvimento vs. implantação 15 1.7. Os quatro grandes modelos preditivos padrão 17 2. Conceitos e princípios fundamentais 19 2.1. Objetivos do capítulo 19 2.2. Visualização vs. modelos 19 2.3. Aprendizado supervisionado vs. não supervisionado 21 2.4. Modelos em uma escala de explicabilidade 22 2.5. Princípio 1: Muitos modelos corretos 23 2.6. Princípio 2: Estratificação de treinamento e teste 27 2.7. Princípio 3: Modelos ajustados ao risco 33 Exercícios conceituais 38 3. Exploração dos dados e sumariações 39 3.1. Objetivos do capítulo 39 3.2. Exploração de dados com o pacote data.table do R 39 3.3. Microamostra de Dados de Uso Público (PUMS) da Pesquisa da Comunidade Americana (ACS) 50 3.4. Conclusão 68 Exercícios conceituais 69 Exercícios práticos 69 4. Estrutura e visualização de dados 71 4.1. Objetivos do capítulo 71 4.2. Formatos de estrutura de dados 71 4.3. Verificação de estruturas de dados 73 4.4. Visualização 77 4.5. Conclusão 80 Exercícios conceituais 80 Exercícios práticos 81 vi

vii Sumário 5. Limpeza e preparação dos dados 83 5.1. Objetivos do capítulo 83 5.2. Valores ausentes 83 5.3. Manipulação de NAs e valores incorretos em uma variável categórica 87 5.4. Manipulação de NAs e valores incorretos em uma variável contínua 88 5.5. Conclusão 89 Exercícios conceituais 90 Exercícios práticos 90 6. Regressão linear : melhores práticas 91 6.1. Objetivos do capítulo 91 6.2. Correlação 91 6.3. Uma única regressão linear com uma variável de entrada 97 6.4. R-quadrado múltiplo vs. R-quadrado ajustado 101 6.5. Equação de regressão linear vs. modelo de regressão linear 102 6.6. Gráficos de diagnóstico do modelo 102 6.7. Influência dos outliers 104 6.8. Adição de um termo quadrático ao modelo 105 6.9. Regressão linear com múltiplos fatores 107 6.10. Divisão entre treinamento e teste 118 6.11. Conclusão 121 Exercícios conceituais 122 Exercícios práticos 122 7. Regressão logística: melhores práticas 125 7.1. Objetivos do capítulo 125 7.2. Risco relativo vs. razão de chances 125 7.3. Variável Y binária, única variável X (contínua) 129 7.4. Y binária, múltiplos Xs (mistura de variáveis contínuas e categóricas) 137 7.5. Y multicategórica 143 7.6. Conclusão 149 Exercícios conceituais 150 Exercícios práticos 151 8. Árvore de classificação e regressão (Cart) 153 8.1. Objetivos do capítulo 153 8.2. Prognóstico de ataque cardíaco e os requisitos para um modelo preditivo 154 8.3. Fase 1: Expandir a ár vore ao máximo com divisões binárias 157 8.4. Fase 2: Podar a árvore ao mínimo com poda do elo mais fraco 160 8.5. Exemplo: Modelo Cart para marketing direcionado de cartão de crédito (Y categórico) 167 8.6. Exemplo: Modelo Cart para eficiência de combustível de carros (Y contínuo) 176

viii INTELIGÊNCIA ARTIFICIAL 8.7. Tratamento automatizado de valores ausentes via substitutos 183 8.8. Conclusão 188 8.9. Resumo de funções e parâmetros importantes no pacote rpart 188 Exercícios conceituais 189 Exercícios práticos 190 9. Redes neurais 193 9.1. Objetivos do capítulo 193 9.2. Modelando como o cérebro processa informação 194 9.3. Processamento, combinação e transmissão de informações 195 9.4. Exemplo: teste de sabor de chocolate 196 9.5. Treinamento da rede neural por meio da melhoria dos pesos 199 9.6. Considerações de design de redes neurais 202 9.7. Exemplo: risco de infertilidade 204 9.8. Conclusão 209 Exercícios conceituais 209 Exercícios práticos 210 10. Strings e mineração de textos 211 10.1. Objetivos do capítulo 211 10.2. Processamento de strings 211 10.3. Conceitos básicos de mineração de textos 218 10.4. Análise de sentimentos 230 10.5. Conclusão 242 Exercícios conceituais 242 Exercícios práticos 243 Considerações finais 245 Apêndice A – Instalação dos softwares R e RStudio 249 A .1 Download e instalação do R 249 A.2 Download e instalação do RStudio 251 A.3 Atualização do R para a última versão do RStudio 252 Apêndice B – Comandos R básicos e scripts 253 B.1 Interface do RStudio com quatro painéis 253 B.2 Verificar e definir o diretório de trabalho 259 B.3 Obtenção de dados no RStudio 259 B.4 Convenção de nomeação de objetos em R 262 B.5 Operadores comuns em R 263 B.6 Funções R 263 B.7 Criação de suas próprias funções em R 265 B.8 Alguns recursos para aprender R 266 B.9 Exercícios em R 267 Índice remissivo 269

Prefácio

Em 2003, como um jovem pesquisador em estatística, tive a oportunidade de conhecer o trabalho do professor emérito (de Estatística) Leo Breiman. Seu livro Árvore de classificação e regressão despertou meu interesse em aprendizado de máquina e mudou minha carreira e vida. Lembro-me de dizer a mim mesmo naquela época: “É assim que a estatística deveria ser ensinada e utilizada”. O foco era em dados reais e problemas reais em vez de construções puramente matemáticas; em usar a matemática para resolver problemas reais; em computações em lugar de prova matemática; em simplicidade em substituição de complexidade.

Nos 15 anos seguintes, aprendi sozinho, testei, implementei e ensinei análise de dados, ciência de dados e inteligência artificial para inúmeras empresas, agências governamentais e estudantes de bacharelado/mestrado/doutorado. Tentei – mas não consegui – encontrar um único livro-texto que fosse adequado ou útil para meus clientes e alunos. O livro do professor Breiman é sobre um modelo (Árvore de classificação e regressão) e é o melhor para aprender sobre um modelo especializado. Mas existem muitos outros modelos e muitos outros fatores, além de modelos, que também devem ser considerados em práticas e aplicações bem-sucedidas. Há alguns bons livro-textos que abordam mais assuntos, como Elementos de aprendizado estatístico, de Hastie, Tibshirani e Friedman, mas sei que a maioria dos meus clientes e alunos não pode se beneficiar deles, pois os pré-requisitos matemáticos são muito avançados. Existem muitos outros livros-textos em nível matemático inferior, mas algumas considerações essenciais podem estar ausentes, explicações e interpretações de conceitos e modelos-chave podem ser muito superficiais, ou, em alguns casos, simplesmente estar erradas. Isso é perigoso, especialmente se procedimentos ou interpretações errôneas forem usados em situações de vida ou morte, prosperar ou entrar em falência.

O que tem em mãos é o livro-texto ideal que venho procurando, nos últimos 15 anos, para meus clientes de várias empresas e estudantes. Você pode já ter aprendido alguns dos tópicos na escola ou em outros livros-texto, contudo é provável que ainda aprenda algo novo, útil e prático, se ler este livro. Os conteúdos foram ensinados em várias aulas em universidades e workshops de treinamento corporativo, com um feedback comum dos estudantes e participantes do curso, sendo: “Agora eu entendo por quê...”. Um colega professor, após ler os dois primeiros capítulos, comentou: “Você me fez pensar profundamente sobre...”.

Estamos vivendo um momento emocionante no qual análise de dados, ciência de dados e inteligência artificial mudarão o mundo de forma ainda mais dramática do que na última década. Este livro permitirá que você entenda claramente, influencie e até mesmo lidere algumas das mudanças na próxima década.

Espero que esta obra traga alegria, inspiração e confiança para o seu aprendizado e aplicação de análise de dados, ciência de dados ou IA, para a sua área de trabalho, e mude sua carreira e vida, assim como o livro do professor Leo Breiman inspirou e mudou minha carreira e vida.

Atenciosamente, Chew Chee Hua

Público-alvo

Este livro é destinado a quatro grupos de leitores:

1. estudantes de graduação especializados em análise de dados/ciência de dados/ inteligência artificial moderna;

2. estudantes de mestrado especializados em análise de dados/ciência de dados/ inteligência artificial moderna;

3. oficinas de treinamento corporativo ou seminários em análise de dados/ciência de dados/inteligência artificial moderna;

4. clientes de consultoria interessados em aplicar análise de dados/ciência de dados/ inteligência artificial moderna.

A IA tradicional concentra-se no design de algoritmos para induzir os humanos a pensar que estão conversando com um humano, e não com um programa de computador. Como um legado do teste de Turing, isso é irrelevante. Na IA moderna, o foco está no design de algoritmos que permite que programas aprendam e melhorem suas previsões ou desempenho sem serem explicitamente programados – o ramo de aprendizado de máquina da IA. Agora estamos confortáveis conversando com chatbots e usando programas de computador, desde que os algoritmos nos ofereçam ajuda inteligente em nosso trabalho ou em nossa vida. Não há mais necessidade de sermos induzidos a pensar que o programa de computador é um humano.

O conteúdo do livro, scripts de software R, slides de instrutores e notas de ensino foram testados em salas de aulas de universidades e workshops de treinamento corporativo.

Os participantes desses workshops incluíram: Google, Accenture, Barclays Bank, Central Provident Fund Board, Credit Suisse Group, DBS Bank, Grab, Housing & Development Board, HP, IBM, Integrated Health Information Systems, International Enterprise Singapore, JTC Corporation, M1, Maritime and Port Authority of Singapore, Ministério da Defesa, Ministério da Saúde, Ministério dos Assuntos Internos, Universidade Tecnológica de Nanyang Cingapura, National University Health System, Universidade Nacional de Cingapura, OCBC Bank, Marinha da República de Cingapura, Singapore Airlines, Singapore General Hospital, Universidade de Gestão de Cingapura, Polícia de Cingapura, Singapore Power, Singtel, SONY Electronics,

x INTELIGÊNCIA

ARTIFICIAL

Starhub, ST Engineering, Temasek International, Uber, VISA, Wells Fargo Bank, dentre outros.

Meus clientes de consultoria incluem empreendedores, CEOs, diretores, chefes de pesquisa e análise e de planejamento, médicos especialistas, engenheiros, professores, dentre outros. O trabalho de consultoria inclui assessoria e/ou desenvolvimento de tecnologias de análise de dados/IA para uma aplicação específica.

Meus alunos e clientes de consultoria são a razão pela qual este livro foi criado. Entre em contato se você tem algum feedback ou sugestões sobre o conteúdo.

Sobre o software

Existem vários softwares, com diferentes níveis de capacidade e interface, para fazer análise de dados, ciência de dados ou IA. Alguns deles são: R, Python, SAS e SPSS. Para consistência de aprendizado por iniciantes, e, em parte, pelos requisitos universitários, focaremos no software R de código aberto e gratuito. Se houver demanda suficiente, posso fornecer execução alternativa de software para os exemplos e exercícios que constam no site <https://r4ds.had.co.nz/datavisualisation.html>

Os conceitos são os mesmos, independentemente da sua escolha de software.

Os conteúdos do livro e os scripts em R foram testados em várias universidades e workshops de treinamento corporativo. Eles são uma consolidação de mais de 15 anos de experiência em consultoria, implementação e ensino.

Se você é um iniciante sem nenhum conhecimento de programação, pode simplesmente baixar meus scripts em R para reproduzir os resultados e fazer pequenas modificações para seus próprios conjuntos de dados e projetos. A maioria dos meus alunos de escolas de negócios não tem conhecimento de programação, mas conseguem trabalhar em R, com meus scripts em R, modificando-os. É possível usar o R para fazer os cálculos, mesmo sem ter conhecimento de programação.

Minha estratégia é dedicar o tempo de aula a atividades computacionais práticas. Meu livro sempre pode ser lido antes ou depois da aula pelos alunos.

Se nunca instalou o R, por favor, consulte as breves instruções de instalação no Apêndice A. Alternativamente, as instruções estão prontamente disponíveis usando uma ferramenta de busca (por exemplo, Google). Você precisará instalar (a) o R e depois (b) a IDE RStudio. Ambos são gratuitos.

Este é um livro para aprender análise de dados, ciência de dados e IA, e não programação em R. Nós simplesmente usamos o R como ferramenta para executar procedimentos. Para ser tecnicamente correto, fazemos o script em R em vez de programação em R. Usamos pacotes populares do R escritos por outros, e escrevemos scripts simples para ativar esses pacotes e realizar o trabalho.

A programação real já foi escrita pelos criadores dos pacotes para que qualquer usuário possa usar e aproveitar.

xi Prefácio

Materiais de apoio para alunos e professores

O material de apoio on-line está disponível na página deste livro no site da Cengage (www.cengage.com.br). Insira, no mecanismo de busca do site, o nome do livro: Inteligência artificial. Clique no título do livro e, na página que se abre, você verá, abaixo das especificações do livro, o link Materiais de apoio. Clique nele. Você visualizará dois links: Material de apoio para professores e Material de apoio para estudantes. Escolha um deles e clique. Entre com seu login de professor ou de estudante e faça o download do material.

Estão disponíveis exclusivamente para professores os slides de PowerPoint (materiais em inglês).

Para professores e estudantes estão disponíveis os slides de PowerPoint (conteúdo resumido em português), Datasets e Rscripts, e manual de soluções (em inglês).

xii INTELIGÊNCIA ARTIFICIAL

Com a palavra, o tradutor técnico

Este livro proporciona aos leitores uma coletânea completa de práxis eficazes, fundamentos teóricos e aplicações práticas nos campos da Inteligência Artificial (IA), análise de dados e ciência de dados. Enriquecida pela extensa experiência do autor, acumulada ao longo de duas décadas dedicadas ao ensino, consultoria e atuação no setor de empresas, esta obra se destaca. Utilizando a linguagem R, conhecida por sua eficácia em análise estatística e tratamento de dados, Che Hua apresenta vários casos de sucesso, refletindo seu empenho, oferecendo uma ampla gama de práticas exemplares, teorias fundamentais e conhecimentos nessa área. Por meio desta obra, compartilha uma seleção de estudos de caso notáveis, ilustrando a aplicabilidade e eficácia da IA, análise de dados e ciência de dados em muitas áreas.

Composto por dez capítulos, cada um focando em diferentes aspectos cruciais do campo, a obra propicia compreensão progressiva. Sua estrutura é meticulosamente organizada para orientar os leitores pelo amplo e complexo universo da análise de dados, ciência de dados e IA desde os fundamentos até técnicas mais avançadas.

No primeiro capítulo, o terreno é preparado para a jornada de aprendizado, oferecendo uma visão abrangente da IA, análise de dados e ciência de dados e sublinhando sua relevância na era digital contemporânea.

O Capítulo 2 mergulha nos fundamentos teóricos, criando uma base sólida para odesenvolvimento do livro. Este capítulo garante que os leitores adquiram um entendimento robusto dos conceitos-chave antes de explorar as aplicações práticas.

Os Capítulos 3 e 4 se concentram na análise exploratória de dados, em que o autor demonstra como resumir e visualizar dados, empregando estruturas de dados eficientes para extrair insights significativos.

O Capítulo 5 trata de uma etapa fundamental na ciência de dados: a preparação dos dados, detalhando técnicas para limpeza, transformação e preparação de dados para análises, assegurando que os leitores possam manejar conjuntos de dados organizados e limpos.

A partir do sexto capítulo, a obra explora modelos estatísticos específicos, com orientações detalhadas sobre a aplicação de regressão linear e logística, essenciais para predição e análise de dados.

O Capítulo 8 introduz técnicas poderosas de modelagem preditiva, enquanto onono familiariza os leitores com conceitos e práticas de uma das áreas mais fascinantes da IA, explicando a construção e aplicação de redes neurais.

Por fim, o décimo capítulo aborda técnicas de processamento de linguagem natural, habilitando os leitores a extrair informações valiosas de textos, uma competência crucial no manejo de grandes volumes de dados não estruturados.

xiii

Utilizando a linguagem R para ilustrar conceitos e técnicas discutidos, o autor torna este livro uma ferramenta valiosa para aqueles que desejam aprofundar seus conhecimentos e habilidades em IA, análise de dados e ciência de dados.

O professor Chew Chee Hua, que atualmente ensina na Universidade Tecnológica de Nanyang, possui uma carreira ilustre que percorre os setores acadêmico e o mundo industrial e empresarial, cujas contribuições destacam sua capacidade de aplicar teorias complexas à solução de desafios empresariais reais.

A tradução desta obra para o português permite a disseminação do conhecimento no Brasil e em outros países lusófonos. A abordagem prática, preferida ao rigor excessivamente acadêmico, torna o livro ideal tanto para cursos introdutórios nas áreas de Ciência de Dados e Computação quanto para estudos autônomos.

Como tradutor técnico, minha satisfação em contribuir para a tradução desta obra é imensa. A dedicação e o cuidado da Cengage com a qualidade editorial evidenciam seu compromisso sincero e profissional, inspirando confiança no sucesso deste e de futuros projetos. É um privilégio ser parte de um empreendimento que valoriza tanto a precisão técnica quanto a acessibilidade do conhecimento.

Sobre o tradutor técnico

Alex Marino Gonçalves Almeida é Phd em Ciência da Computação pela UNESP. Atualmente, é professor do Centro Estadual de Educação Tecnológica Paula Souza, atuando na FATEC Ourinhos, com ampla experiência em Ciência da Computação, destacando-se em áreas como aprendizado de máquina, reconhecimento de padrões e ferramentas de aprendizado de máquina automatizado.

xiv INTELIGÊNCIA ARTIFICIAL

CAPÍTULO

1Introdução e visão geral

Análise de dados, ciência de dados e inteligência artificial (ACI) não são novidades. Elas existem há pelo menos 50 anos. O que há de novo são a conscientização, ointeresse e as prioridades das empresas e dos governos. Da corrida em andamento pela supremacia em inteligência artificial (IA) entre os Estados Unidos e a China, à ambição de se tornar a nação inteligente de Cingapura, governos em todo omundo estão patrocinando a ACI. As empresas líderes, tendo experimentado o sucesso, estão ampliando seus esforços em ACI e criando novos modelos de negócios, enquanto outras estão desenvolvendo e testando as capacidades de ACI. Na seção a seguir há uma pequena lista de notáveis histórias de sucesso para motivar sua jornada de aprendizado em ACI e apresentar-lhe a realidade. O sucesso dessas histórias é baseado em uma combinação hábil de análise, ciência de dados e, em alguns casos, IA.

1.1 Principais histórias de sucesso e aplicações

A seguir, uma pequena lista de histórias reais de sucesso que mostram o que foi alcançado em setores muito diferentes. Você ou sua empresa/governo também podem alcançar isso e muito mais.

1.1.1 Estratégia para receita de US$12 bilhões na Netﬂ ix

Quando mencionei a Netflix pela primeira vez para meus clientes de Cingapura, em 2004, ninguém tinha ouvido falar dela. Nos últimos anos, a empresa montou um escritório em Cingapura e agora quase todas as pessoas já conhecem a Netflix. Esta é uma empresa notável que superou as expectativas, conquistou o público e prosperou de uma empresa com faturamento insignificante em 1998 para uma de US$ 12 bilhões em 2017, apenas indicando quais filmes você deseja assistir.

A Netflix começou em 1998 como uma locadora de DVDs on-line. Em muitos lugares do mundo já não existia loja física onde os clientes pudessem ver títulos de filmes e discutir interesses com os funcionários da loja. Para sobreviver contra os concorrentes numa indústria de aluguel de filmes, a Netflix sabia que precisava

entender melhor os clientes e mais rápido do que seus concorrentes. E se a Netflix pudesse conhecer os clientes melhor do que os próprios clientes? Assim, a empresa coletou comentários de filmes e dados de perfil dos clientes e desenvolveu modelos proprietários de análise que podiam recomendar filmes que os clientes gostariam de assistir. Se os modelos analíticos forem bons, eles terão confiança nas recomendações e a Netflix prosperará – caso contrário, ela terá que fechar suas portas.

O desempenho do modelo de recomendação de filmes é tão importante que, em 2006, a Netflix ofereceu um prêmio de US$ 1 milhão para qualquer pessoa ou equipe que conseguisse superar o desempenho do modelo proprietário interno em pelo menos 10%. Em troca, a equipe vencedora tinha que mostrar como seu modelo vencedor funcionava para que pudesse ser incorporado no modelo proprietário da Netflix.

Demorou três anos até que uma equipe finalmente ganhasse o prêmio, com 10,06% de melhoria de desempenho.

Quais foram os critérios de avaliação do modelo usados para julgar o desempenho preditivo de um modelo? Como a Netflix garantiria que o modelo vencedor realmente teria um bom desempenho e que o bom desempenho não seria devido à escolha da amostra de dados ou outros fatores aleatórios que nada tinham a ver com a qualidade do modelo? Estas são considerações importantes que você examinará neste livro.

1.1.2 Salvando vidas em prontos-socorros com informações muito limitadas

As pressões sobre médicos e enfermeiras em prontos-socorros são enormes, vitais e recorrentes. No final da década de 1970, dentro de um setor de emergência de um

INTELIGÊNCIA ARTIFICIAL 2

Figura 1.1: NetFlix. © CeltStudio/Shutterstock

pronto-socorro os casos de atendimentos mais estressantes (para pacientes no limiar entre vida e morte) eram os de tratamento de ataques cardíacos. Em linguagem de leigos, existem dois tipos de pacientes cardíacos: os de alto risco, para quem o atual quadro de ataque é apenas um preâmbulo para o próximo ataque que virá logo na sequência e o levará a óbito (assim como um pequeno terremoto precede a chegada de um grande terremoto); ou os de baixo risco, para quem o atual ataque cardíaco é um evento único e do qual vai se recuperar em breve, mesmo com intervenção e cuidados médicos mínimos.

Para prevenir o segundo ataque cardíaco em pacientes de alto risco, é necessária uma injeção de anticoagulante. No entanto, isso pode causar efeitos colaterais graves, como hemorragia interna. Assim, os médicos optam por aplicar anticoagulante apenas se o paciente estiver em alto risco. Os médicos do pronto-socorro devem decidir logo, com base em informações limitadas disponíveis, na ausência de resultados de exames de sangue, aplicar ou não, e o relógio está correndo…

Os médicos pediram ajuda ao professor Leo Breiman. Ele poderia desenvolver um método simples, rápido e fácil, baseado em 19 variáveis não invasivas, tais como temperatura, pressão arterial etc., coletadas em 24 horas após a admissão do paciente no pronto-socorro, para obter maior precisão que os médicos da emergência na previsão de pacientes com ataque cardíaco de alto risco versus baixo risco?

O professor Leo Breiman criou o modelo de árvore de classificação e regressão. A acurácia do modelo preditivo supera a dos médicos e é comparável à de cardiologistas; ou seja, o modelo prediz diagnósticos – na ausência de exames – com índice de acerto próximo aos diagnósticos produzidos por um cardiologista.

Capítulo 1 – Introdução e visão geral 3

Figura 1.2: Pronto-socorro de um hospital.

Essa é uma verdadeira história de como o modelo de árvore de classificação e regressão foi criado. Mas o que torna este modelo tão simples, rápido e fácil de usar?

Como médicos e enfermeiras com treinamento estatístico limitado tornam-se capazes de entender e usar o modelo para tomar decisões médicas de vida ou morte?

Esse modelo fascinante será explicado em detalhes no Capítulo 8. Na verdade, esse é o“ponto culminante” deste livro, pois implementou muitos conceitos fundamentais de análise/aprendizado de máquina/ciência de dados prontos para uso – alguns dos quais ainda são conceitos avançados hoje.

1.1.3 Diagnóstico de câncer e prognóstico de lesões em Pequim

A manchete de um artigo publicado na China proclama: “A IA derrota os médicos de elite em competição de diagnóstico”.1 Em quase 90% dos casos, a IA fez diagnósticos corretos em cerca de 15 minutos, enquanto 15 médicos dos principais hospitais na China alcançaram apenas uma precisão de 66% no dobro do tempo gasto pela IA. Para prognóstico de expansão de hematoma cerebral, a pontuação foi IA (83%) versus médicos de elite (63%). Tais anúncios públicos e concursos mostram a ambição e o foco da China em ser a superpotência da IA. O modelo utilizado não foi divulgado, mas em IA os modelos mais comuns são historicamente redes neurais e, recentemente, modelos de aprendizagem profunda ou deep learning

Em 2016, em um projeto de final de curso de um aluno, foram combinados Multivariate Adaptive Regression Splines (Mars) com rede neural para alcançar uma

1 Yamei. AI beats human doctors in neuroimaging recognition contest. China Focus, 30 jun. 2019. (xinhuanet.com).

INTELIGÊNCIA ARTIFICIAL 4

Figura 1.3: Um laboratório biomédico. © Marcin Janiec/Shutterstock

precisão diagnóstica revolucionária de 98% no câncer de mama a partir de varreduras digitalizadas.

1.1.4

Ganhar 20 jogos nacionais consecutivos do zero com um orçamento pequeno

Como um pequeno time de beisebol mal financiado e sempre perdedor de repente tornou-se capaz de vencer 20 jogos nacionais consecutivos? Esta história real sem precedentes foi transformada no filme Moneyball (O homem que mudou o jogo), estrelado por Brad Pitt em 2011. Os princípios e ideias de análise de dados envolvidos foram explicados brevemente no filme, já que o foco está no drama e não na educação. Em 2015, tive um aluno interessado em prever resultados de jogos de futebol. Criamos um comitê de diferentes modelos – regressão logística, rede neural, árvore de classificação e regressão – e seus resultados foram combinados para melhorar a acurácia. Você examinará esses três modelos neste livro.

1.1.5 Manutenção preditiva de ativos para perfuração de petróleo em águas profundas na Shell

A Shell é pioneira na adoção de análise de dados para avaliação e manutenção de ativos. É extremamente caro e demorado parar o trabalho, diagnosticar e fazer reparos devido a falhas de equipamentos, especialmente se envolver perfuração de

Capítulo 1 – Introdução e visão geral 5 Figura 1.4: Placar de um jogo de Beisebol. © Palakorn Jaiman/Shutterstock

petróleo em alto mar. E se pudéssemos prever quando e onde a falha é iminente?

Ações preventivas podem então ser tomadas para evitar falha de equipamento. A Shell implantou sensores para coletar dados em vários pontos e modelos analíticos foram usados para analisar os dados.

Em alguns casos, é mais do que apenas uma questão de tempo e dinheiro. Estima-se que 80% dos acidentes ocorridos em minas de carvão foram causados por falhas de equipamentos. Se as fórmulas de engenharia e a opinião de especialistas não puderem reduzir falhas e desastres, por que não testar e implantar modelos analíticos/IA?

1.1.6 Ganhar ou perder as eleições presidenciais dos EUA

No início da campanha presidencial de Barack Obama, o coordenador da campanha decidiu por uma estratégia de trabalho com base em análise de dados. Cem funcionários de análise de dados foram recrutados, bancos de dados foram configurados e modelos preditivos foram criados. “Se você não inseriu os dados, não fez o trabalho.” Os dados foram inseridos em modelos analíticos para entender e prever as ações do eleitor individualmente. Obama venceu a eleição de 2009 e a reeleição em 2013 e se tornou o 44o presidente dos Estados Unidos.

Na eleição presidencial seguinte, no final de 2016, seria levantado um novo problema com enorme impacto para a ciência de dados – notícias e dados falsos, ou seja, fake news. Até agora, os modelos sempre assumiram que os dados eram prioritariamente corretos, enquanto dados errados e ausentes eram relativamente pouco frequentes. Mas e se os dados estiverem errados, ou pior, intencionalmente falsificados? O final da eleição presidencial dos Estados Unidos em 2016 viu o nascimento de novas startups (como Snopes) dedicadas a detectar notícias falsas e empresas de tecnologia declarando sua luta contra notícias falsas assinando o Código de Conduta sobre Desinformação da União Europeia (EU Code of Practice on Disinformation).

INTELIGÊNCIA ARTIFICIAL 6

Figura 1.5: Uma plataforma de petróleo em alto mar. © sarawut hannarong/Shutterstock

Antes das eleições para o Parlamento Europeu em maio de 2019 e de várias outras eleições nacionais posteriores, o comissário europeu de segurança, Julian King, “criticou a falta de progresso na repressão às notícias falsas feita pelas três empresas [Facebook, Google, Twitter] com base em seus relatórios mensais”.2 Esperam-se que regulamentações e regras de compliance rigorosas sejam emitidas caso evidências de propagação de notícias falsas por meio de suas plataformas tenham potenciais de interferências eleitorais.

Em 8 de maio de 2019, o Parlamento de Cingapura aprovou uma nova lei contra fake news. “Um ministro decide se deve agir contra uma notícia falsa na Internet, podendo ordenar que ela seja retirada do ar ou pedir inclusão de erratas.”3

Depois que o projeto de lei foi anunciado, Facebook, Google e um grupo da indústria representando as gigantes da tecnologia expressaram preocupação com a proposta de Cingapura, que foi chamada por estas últimas de “a mais abrangente legislação do gênero até o momento”.4

Em 3 de junho de 2019, o Twitter adquiriu a startup Fabula AI, que desenvolveu algoritmos de aprendizado de máquina para detectar notícias falsas.5

2 Foo Yun Chee. Google, Facebook, Twitter fail to live up to fake news pledge. Reuters, 28 fev. 2019. (reuters.com).

3 Tham Yuen-C. Parliament: Fake news law passed after 2 days of debate. Straits Times, 9 maio 2019. (straitstimes.com).

4 Melissa Cheok; Juliette Saly. Singapore’s fake news bill set to become law in second half of year. Bloomberg, 15 abr. 2019. (bloomberg.com).

5 Paul Sawers. Twitter acquires Fabula AI, a machine learning startup that helps spot fake news. Venture Beat, 3 jun. 2019. (venturebeat.com).

Capítulo 1 – Introdução e visão geral 7 Figura 1.6: Eleições norte-americanas. © Africa Studio/Shutterstock

Seu trabalho será usado para desenvolver ainda mais a tecnologia de aprendizado de máquina do Twitter.

1.1.7 Predição de demanda de caixa e agendamento otimizado no DBS

Imagine ir a um caixa eletrônico e descobrir que não há dinheiro. O Development Bank of Singapore – DBS, dono de 1.100 caixas eletrônicos processa mais de 25 milhões de transações todos os meses. Um modelo foi construído para prever individualmente a demanda de caixa de máquinas (caixas eletrônicos). Uma vez que a acurácia preditiva foi verificada, a demanda prevista foi utilizada para otimizar a entrega de dinheiro por veículos blindados. Para estimar a probabilidade de uma máquina ficar sem dinheiro, foram utilizados os modelos de regressão logística e de árvore de classificação e regressão. Esses dois modelos serão explicados em detalhes neste livro.

1.1.8 Detecção de fraude fiscal na Inland Revenue Authority of Singapore (Iras)

Um sistema de detecção de fraude/lavagem de dinheiro combina regras de negócios com modelos analíticos. As regras de negócios incluem lista negra, bandeiras vermelhas e outras regras simples que são boas para detectar erros repetitivos e crimes relativamente não sofisticados. Os modelos analíticos são bons para detectar crimes

INTELIGÊNCIA ARTIFICIAL 8

Figura 1.7: Um caixa eletrônico (ATM), também conhecido como terminal de autoatendimento. © Sara_K/Shutterstock

novos e sofisticados, mas geralmente sugerem falsos negativos excessivos se não forem ajustados corretamente. O alerta gerado pelo sistema é um sinalizador de atividade suspeita e precisa ser gerenciado e investigado para confirmação. Aqui, a análise também pode desempenhar um papel ao priorizar os casos suspeitos para investigação.

Normalmente, a regressão logística é usada como benchmark, pois traz informações estatísticas que podem ser utilizadas com intuito de derivar a probabilidade de ocorrência de uma fraude. Uma metodologia mais sofisticada é o uso de uma árvore de classificação e regressão para geração de regras de decisão. Essas regras podem então ser elevadas à bandeira vermelha após a validação de regras de negócio. Estudaremos como a regressão logística produz a probabilidade de um evento no Capítulo 7, e como a árvore de classificação e regressão gera regras de decisão no Capítulo 8.

1.1.9 Verificação de risco de não conformidade/fraude e descoberta automatizada de bandeira vermelha num departamento de empréstimos

Além de verificar transações ou pedidos de empréstimos em busca de fraude, também é possível verificar operações internas. Em vez de chamar uma auditoria interna, entrevistar funcionários ou ler toneladas de documentos, você pode aplicar uma árvore de classificação e regressão nos dados das operações.

Capítulo 1 – Introdução e visão geral 9

Figura 1.8: Relatório financeiro.

As regras de decisão resultantes mostrarão áreas de não conformidade com procedimentos/políticas, possíveis atividades fraudulentas e sinais de alerta.

A grande força da árvore de classificação e regressão reside em sua capacidade de fazer duas coisas. Em primeiro lugar, pode analisar todas as variáveis potenciais ao mesmo tempo, independentemente do número de variáveis ou valores ausentes. Em segundo, encontra automaticamente variáveis significativas com seus efeitos de interação e gera regras de decisão, sem entrada ou intervenção humana.

1.2 Características da adequação dos problemas para ACI

Na seção anterior, você leu sobre grandes histórias de sucesso em setores ou domínios muito diferentes. O objetivo foi mostrar o grande potencial e a ampla aplicabilidade da ACI. No entanto, nem todos os problemas podem ou devem ser resolvidos com modelos preditivos em ACI. Problemas adequados têm as seguintes características:

1. Necessidade preditiva.

2. Conhecimento imper feito.

3. Disponibilidade de dados de treinamento.

A característica mais importante do problema é que, para resolvê-lo, precisamos de respostas preditivas para esse problema ou problemas relacionados, e essas respostas são necessárias e, melhor ainda, críticas para uma solução bem-sucedida.

INTELIGÊNCIA ARTIFICIAL 10

Figura 1.9: Formulário de solicitação de empréstimo. © Casper1774 Studio/Shutterstock

Se tudo o que você precisa é relatar o desempenho dos negócios do ano anterior, não precisa de uma resposta preditiva, como costumo lembrar em cada nova aula. Assine a folha de presença na coluna de hoje. Embora estejamos aprendendo modelos preditivos, não precisamos de apontamentos preditivos na lista de chamada.

Os modelos preditivos de análise, ciência de dados ou IA são de natureza estatística e têm como base dados disponíveis. Isso reflete nossa falta de conhecimento perfeito sobre o processo subjacente ou mecanismos de ação. Temos conhecimento perfeito de como calcular a área de um círculo a partir de seu raio (A = πr2) e, portanto, não é necessário desenvolver um modelo preditivo para prever a área de um círculo. Temos um conhecimento imperfeito de como uma pessoa desenvolve câncer, se uma transação é fraudulenta ou qual será o preço das ações amanhã e, portanto, um modelo preditivo pode ser construído para fornecer respostas estatísticas.

Como temos conhecimento imperfeito, às vezes até zero conhecimento de domínio, como começar a construir um modelo preditivo? Uma ideia é alimentar o modelo com dados históricos que contenham a variável de resultado que precisamos predizer, juntamente com outras variáveis. Talvez deixando o modelo processar dados históricos suficientes (1.000, 10.000, 1 milhão de registros etc., dependendo da complexidade), seja possível reconhecer associações e padrões entre as variáveis que nos revelam essas informações por meio dos resultados do modelo.

1.3 Análise de dados vs. ciência de dados vs. inteligência ar tificial

Muitos termos intimamente relacionados apareceram em notícias, em publicações e em requisitos de habilidades para empregos. Existem várias interpretações, dependendo do seu campo de estudo. Essas surgem das raízes comuns que predominantemente contribuem mais para o seu desenvolvimento e evolução – estatística e ciência da computação.

O Institute for Operations Research and Management Sciences (Informs) define análise de dados como “o processo científico de transformação de dados em insights para a tomada de melhores decisões”. A palavra-chave é decisões, e todo projeto de análise de dados começa com o(s) problema(s) de negócio a ser(em) resolvido(s) ou oportunidade(s) a ser(em) aproveitada(s). O negócio vem primeiro. Técnicas (análises ou qualquer outro nome) são apenas ferramentas.

O campo da estatística trata os dados como uma amostra de uma população, mas existem subcampos na estatística matemática que se preocupam principalmente com distribuições matemáticas e não com dados. A ciência de dados se concentra nos dados e encontra maneiras de analisá-los e apresentar dados para chegar a conclusões estatisticamente válidas.

A inteligência artificial (IA) prescreve o uso de algoritmos para dotar as máquinas de inteligência semelhante à humana e permitir interações humanas, mas com desempenho de computação sobre-humano. O aprendizado de máquina é o ramo da IA que se concentra em um traço diferente de inteligência, não apenas simples e geralmente semelhante ao humano. Buscam-se máquinas que possam aprender

Capítulo 1 – Introdução e visão geral 11

e melhorar com a experiência, e os dados representam a experiência. Os diferentes campos têm filosofias e aspirações diversas, e o terreno comum são os dados. Mesmo assim, os campos distintos os visualizam de maneiras diferentes. Na estatística, os dados são vistos como uma amostra de uma população. Na IA, são visualizados como um repositório de interações humanas que podem ser imitadas. No aprendizado de máquina, os dados são vistos como experiência para aprender. Opiniões diferentes são positivas. Conceitos e modelos relevantes surgiram do “solo fértil” de ideias e pontos de vista.

Ciência de dados

Negócio IA

Estatística

Ciências da computação

Aprendizado de máquina

Análise de dados

Figura 1.10: Intersecção entre as áreas de negócios, análise de dados e ciência de dados.

Soluções preditivas do mundo real bem-sucedidas e sustentáveis para desafios e oportunidades de negócios são uma combinação habilidosa de análise de dados, ciência de dados (incluindo visualização), aprendizado de máquina e IA isenta de aprendizado de máquina em várias proporções.

1.4 Análise vs. análise de dados

Muitos iniciantes confundem análise com análise de dados. Geralmente, uma análise preocupa-se apenas em analisar dados com a finalidade de relatar desempenho ou eventos históricos. Por sua vez, a análise de dados preocupa-se com dados históricos tendo como propósito a aplicação preditiva. A análise olha para a história enquanto a análise de dados olha para o futuro.

Se você estiver relatando indicadores de desempenho ou metas alcançadas, todas as informações necessárias e suficientes estão nos dados históricos e podem ser relatadas com certeza. Não há necessidade de previsão.

INTELIGÊNCIA ARTIFICIAL 12

Capítulo 1 – Introdução e visão geral 13

1.5 Análise de dados, ciência de dados e a cur va de desenvolvimento de capacidade em IA

Para ajudar as empresas a entender o desenvolvimento da capacidade da ACI é bom mostrar como seria a trajetória de crescimento e as expectativas. A Figura 11 é minha versão do caminho de crescimento da capacidade de inteligência para organizações:

Inteligência artiﬁcal integrada

Vantagem competitiva

Predizer & prevenir Sentir & responder

Cultura de ciência de dados

Estratégia baseada em análise de dados

Operações prescritas de análise de dados

Dados secundários vinculados

Dados primários direcionados

Painel de auto-atendimento Relatórios ad hoc

Inteligência coletiva

Figura 1.11: Curva de desenvolvimento da capacidade de inteligência coletiva.

O lado esquerdo da figura diz respeito à capacidade de perceber e responder aos desafios e oportunidades observados:

1.Dados secundários vinculados

Quando ligamos com sucesso diferentes fontes e tipos de dados secundários, uma imagem mais abrangente emerge da natureza da “verdade”. Fatos supostos podem ser verificados, e reivindicações e suposições são capazes de ser corroboradas.

2.Dados primários direcionados

Quando somos capazes de definir e coletar dados precisos pertinentes às nossas necessidades, obtemos conhecimento privativo. Vincule isso a dados secundários relevantes e você obterá perspectivas e insights, se apenas eles puderem surgir entre oceanos de dados.

3.Relatórios ad hoc

A capacidade de gerar relatórios personalizados padrão e ad hoc pode revelar informações importantes para a tomada de decisão. A capacidade de gerar relatórios personalizados padrão e ad hoc poderia revelar informações importantes para a tomada de decisão, se ao menos pudesse ser gerado sob demanda, de forma mais rápida e com capacidade interativa de conduzir hipóteses flexíveis e exploração ágil.

4.Painel de autoatendimento

As descobertas de dados e análises são disponibilizadas por meio de ferramentas de dashboards para uma consulta rápida e interativa. Isso é bom para retratar o passado, mas para planejar o futuro, visualização e relatórios não são suficientes. O cérebro humano só pode considerar um número muito limitado de variáveis ao mesmo tempo.

Precisamos de modelos e máquinas de computação para nos ajudar a processar o impacto de múltiplas variáveis potenciais para planejar o futuro com mais eficiência.

O lado direito da figura descreve a capacidade de predizer e prevenir desafios e oportunidades futuras:

5.Operações prescritas de análise de dados

Os modelos análise de dados são desenvolvidos, testados e aplicados para funcionar em operações e processos selecionados. Operações são otimizadas com base nos resultados analíticos e se tornam muito mais eficientes com custos e riscos menores. O valor da análise de dados é comprovado sem sombra de dúvida.

As operações do DBS contam com uma aplicação de sucesso comprovado que combina a demanda preditiva de caixas eletrônicos com agendamento preditivo para otimizar as operações que reduziram o risco e significativamente economizaram custos.

6.Estratégia baseada em análise de dados

As formações de novas estratégias agora são baseadas principalmente em análise de dados. Fundadores e CEOs confiam e dependem da estratégia baseada em análise de dados para criar impacto e entregar resultados. Novos modelos de negócios são criados de modo que rejuvenesçam a organização e/ou interrompam o status quo. Eles se tornam líderes visionários em seus segmentos de indústria. A startup Netflix de 1998 confiava e dependia de análises para entender seus clientes melhor e mais rápido que seus concorrentes de varejo e até mesmo os próprios clientes. A receita cresceu de US$ 1 milhão a US$ 12 bilhões em 2017.

7.Cultura da ciência de dados

O pensamento e as abordagens de análise de dados e ciência de dados se difundiram em todas as organizações. Novas ideias e modelos são discutidos, debatidos, testados e melhorados rotineiramente. A atmosfera não é mais de ceticismo (isso pode funcionar?) e sim de um excitante olhar para o futuro (como tornar esse trabalho ainda melhor?). A campanha eleitoral de Barack Obama para a presidência

INTELIGÊNCIA ARTIFICIAL 14

começou com a premissa de que análise de dados é a chave para entender e prever as ações dos eleitores, e todos da equipe foram mobilizados para coletar dados, melhorar sua qualidade, desenvolver, testar e aprimorar modelos preditivos e usar os insights para conduzir o foco e as estratégias da campanha. Ninguém questiona o valor da análise de dados, mas presume que funcionará.

8.Inteligência artificial integrada

Que eu saiba, nenhuma empresa alcançou esse patamar. A IA não é nova e algumas empresas avançadas têm recursos de IA, mas geralmente são aplicações isoladas e não totalmente integradas e em operações autogerenciadas, processos ou tomada de decisão estratégica. No auge, a IA assumirá todo o processo e será capaz de autoaprender, autoajustar, autocorrigir e auto-otimizar do começo ao fim, sem intervenção humana. Os humanos podem fornecer feedback à IA, mas não precisam mais observar e intervir de maneira manual. Eventualmente, o feedback humano será desnecessário. As empresas tecnologicamente mais avançadas estão explorando e aprendendo como conseguir isso. Desenvolver o modelo preditivo mais avançado é necessário, mas ainda insuficiente. Atualmente, tais modelos ainda requerem especialistas humanos para verificá-los e melhorá-los. A partir de agora, a aplicação mais próxima desse auge é o carro autônomo conduzido em qualquer estrada, sem qualquer intervenção humana. Essa tecnologia ainda está em desenvolvimento e existe uma corrida intensa das empresas de veículos autônomos. Há casos de sucesso limitado em áreas controladas, como parques industriais, automação e intervenção humana na operação de caminhões autônomos de longa distância etc. Em algumas estradas, foram relatadas mortes em algumas tentativas.

1.6 Planejamento vs. desenvolvimento vs. implantação

Existem três fases distintas no desenvolvimento e uso de modelos preditivos ACI que raramente são consideradas em livros acadêmicos: planejamento, desenvolvimento e implantação. Na fase de planejamento, a principal atividade é verificar o nível de suporte da alta administração e definir o escopo e os requisitos. No livro de Davenport et al., Competing on analytics, que defende o uso de análise de dados como uma arma estratégica, o fator mais importante e consistente que faz que a estratégia ou os projetos de análise falhem é o suporte insuficiente da alta administração, especialmente do CEO.

Na fase de desenvolvimento, o foco muda para o desenvolvimento e teste do modelo ACI. É muito mais abstrato do que projeto de TI ou desenvolvimento e teste de aplicativos de TI. Infelizmente, um meio muito difundido de testar um modelo preditivo está errado e levou muitos indivíduos e empresas a declararem que a ACI é inútil, ou simplesmente um exagero. Isso é tão importante na prática que dedicarei o próximo capítulo a uma explicação cuidadosa dos conceitos fundamentais que todos os praticantes devem conhecer, bem como os equívocos comuns, crenças e boas práticas a seguir.

Capítulo 1 – Introdução e visão geral 15

Implantação

Compreensão do negócio

Compreensão dos dados

Preparação dos dados

Modelagem

Dados

Avaliação do modelo

1.12:

Fonte: Wikipedia. Disponível em: https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining. Acesso em: 7 mar. 2024.

Na fase de implantação, não estamos falando de desenvolvimento para um processo no ambiente de produção, como em projetos de TI, mas do uso real de modelos preditivos para um negócio. Aqui, o foco é o monitoramento do modelo preditivo e verificação do desempenho real versus o esperado. Se o modelo não atende consistentemente às expectativas, então uma ação corretiva é necessária. Isso pode ser um novo treinamento do modelo com dados atualizados ou uma mudança para um modelo preditivo diferente, dependendo da gravidade da fraqueza do modelo. Mesmo omelhor modelo eventualmente precisará ser treinado novamente com dados mais recentes. A questão é quando, não se.

Uma visão geral de alto nível do processo de análise de dados/ciência de dados, desde o planejamento até a implantação, pode ser resumida usando o diagrama (Cross Industry Standard Process for Data Mining – CRISP-DM/processo padrão intersetorial para mineração de dados).

INTELIGÊNCIA ARTIFICIAL 16

Figura Diagrama de processo CRISP-DM.

Capítulo 1 – Introdução e visão geral 17

As setas internas e externas enfatizam a interação frequente e o feedback que informam as revisões subsequentes (Mais detalhes sobre as etapas estão disponíveis na Wikipédia.). Na experiência do autor, a primeira etapa, “Compreensão do negócio”, é a mais importante. Infelizmente, ela muitas vezes não é bem-feita. A maioria dos analistas e pesquisadores são muito apressados para mergulhar na análise de dados.

1 .7 Os quatro grandes modelos preditivos padrão

Existem muitos modelos preditivos. Neste livro, vamos nos concentrar apenas nos seguintes grandes modelos preditivos padrão:

• Regressão linear

• Regressão logística.

• Árvore de classificação e regressão.

• Rede neural.

Regressão linear e logística são modelos básicos importantes que precisam ser bem compreendidos por todos os iniciantes. Muitos modelos avançados dependem de conceitos estabelecidos em regressão linear e logística. Além disso, eles servem como modelos de referência para serem comparados com modelos mais recentes. A árvore de classificação e regressão é o modelo mais importante neste livro, pois mostra muitos conceitos básicos e avançados de forma nativa e integrada. Além disso, é omais simples de usar, mostrar e explicar.

Rede Neural é o ponto de partida para o ramo de aprendizado de máquina em IA. Nos últimos anos, o Google popularizou o aprendizado profundo e mostrou sua capacidade preditiva. Aprendizado profundo é uma tecnologia de redes neurais sofisticadas com muitas camadas e nós ocultos, incluindo uma forma de mitigar problema de gradiente de descendente que atormentava os primeiros usuários da rede neural.