Page 1

ANÁLISE DE DADOS APLICADA NA GERAÇÃO DE CONHECIMENTO ESTRATÉGICO Lucas Dal Bó¹ Professor orientador: Paul Robert Bergami² MBA em Análise de Inteligência de Negócio

RESUMO Nos últimos anos houve um crescimento acentuado dos investimentos em inteligência baseada em dados por iniciativa das empresas. É consenso o valor estratégico do conhecimento adquirido com a coleta de dados sobre a operação e contexto das organizações. Este trabalho teve como objetivo expor a pesquisa realizada e apresentar uma introdução abrangente sobre a área de análise e mineração de dados. Foi empregado o estudo de material diverso para descrever sucintamente os conceitos, histórico, processos e técnicas que compõem esta área e geram informação útil como saída. Os resultados são descritos em forma de casos de aplicação prática da análise/mineração de dados. No decorrer da exploração do assunto são citadas ferramentas, projetos e empresas, gerando um conhecimento valioso sobre o ecossistema que permeia a área. Ao final foram destacados pontos relevantes para a continuação da pesquisa, dada a larga compreensão do assunto.

Palavras-chave: Preditivo. Descritivo. Inteligência de negócios. Valor estratégico. ABSTRACT In the later years there was a strong growth on investments for data-driven intelligence made by enterprises. It’s already known the strategic value of knowledge acquired by data collection over the operations and environment of companies. This article had the goal to expose the research and present a comprehensive introduction on data analysis and data mining areas. It were described the concepts, historical plan, processes and techniques that compose the topic and deliver useful information as output. The results are described as cases of application of data analysis/mining. During the exploration of the subject are mentioned tools, projects and companies, generating valuable knowledge about the ecosystem that permeates the area. At the end it were highlighted some interesting points for further research, given the wide coverage of the subject. Keywords: Predictive. Descriptive. Business intelligence. Strategic value.

¹ Graduado em Análise e Desenvolvimento de Sistemas pela Faculdade de Tecnologia (FTEC) de Caxias do Sul – RS. Pós-graduando em Análise de Inteligência de Negócio pelo Instituto de Gestão em Tecnologia da Informação (IGTI) de Belo Horizonte – MG. ² Professor Especialista. Graduado em Economia pela Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo (FEA-USP) e Pós-Graduado em Qualidade e Produtividade pela Escola Politécnica da Universidade de São Paulo (POLI-USP).


1 INTRODUÇÃO Sempre houve espaço para discussão, em âmbito organizacional, sobre a necessidade constante de racionalização de custos e processos, busca pela inovação e diferenciais para o produto e a estratégia adotada pelas empresas. Os dados gerados continuamente durante a operação de uma empresa, quando explorados para extração de valor na forma de conhecimento, tornam-se um ativo organizacional. O conhecimento pode gerar vantagem estratégica, e faz parte do conjunto interno de recursos da empresa, conforme a Visão Baseada em Recursos, VBR (W ERNERFELT, 1984; BARNEY, 1986; 1991). A VBR é uma perspectiva de condução da estratégia empresarial (ANDREWS, 1971) que foca na análise dos recursos internos da empresa, podendo eles ser tangíveis ou intangíveis (WERNERFELT, 1984), e categorizados em físicos, humanos, organizacionais (BARNEY, 1991), tecnológicos, financeiros e reputacionais (GRANT, 1991). Wernerfelt (1984) ressalta que a maior parte das ferramentas de gestão costumam focar no produto, e demonstra como a abrangente visão baseada em recursos permite explicar e explorar fatos como a manutenção da posição no mercado, entrega de inovação, diferenciação, vantagens competitivas, etc. Portanto, é possível afirmar que a VBR justifica a motivação do presente trabalho, que aborda a análise de dados e como essa competência agrega conhecimento, recurso de valor estratégico para as empresas. Nesse sentido, no próximo capítulo descreve-se a metodologia de pesquisa adotada. Em seguida dedica-se um capítulo à apresentação do embasamento teórico dos conceitos utilizados nessa área. Ainda no capítulo três é feito um breve resgate do histórico de sistemas e práticas de análise de dados, e é revisado um processo formal de trabalho com análise e mineração de dados, sugerido pela empresa IBM. O quarto e quinto capítulos apresentam algumas técnicas de análise e visualização de dados, complementares na entrega de valor em forma de conhecimento. Após são descritos exemplos e potenciais de aplicação da análise de dados. Finalmente, o sétimo capítulo apresenta as considerações finais e possíveis extensões ao trabalho.


1.1 OBJETIVOS O objetivo geral do trabalho foi descrever a área da análise de dados e apresentar ferramentas, projetos e empresas que estão gerando valor e conhecimento estratégico por meio de produtos de software. Especificamente, o foco consiste em destacar a diferenciação estratégica por meio da inteligência baseada em dados. Dessa maneira, se procura informar e capacitar interessados, além de gerências e equipes técnicas de empresas, para que possam discutir e propor projetos, iniciativas de pesquisa e desenvolvimento, etc.

1.2 REFERENCIAL TEÓRICO O referencial teórico concentrou-se nos seguintes temas: conceituação e definição dos tipos de análise de dados como área geral em que a pesquisa se insere; processo e técnicas no qual se viabiliza a aplicação prática dos fundamentos apresentados; e, por fim, seleção de iniciativas que exemplificam e confirmam a proposta levantada acerca da geração de valor.


2 METODOLOGIA O método utilizado é a pesquisa aplicada e descritiva sobre as formas de análise de dados. Foi realizado estudo, anotação e sintetização das informações referentes a softwares e técnicas para análise e mineração de dados e boas práticas de visualização, de forma qualitativa. As informações foram coletadas de livros, artigos, notícias, white papers de soluções empresariais, relatórios, apresentações e palestras que abordam o assunto e que fomentam sua aplicação, a partir da discussão e apresentação de propostas e casos de uso. Após formulação da base de conhecimentos, é realizada uma explicação estruturada das técnicas, fundamentos e práticas levantadas. Posteriormente são apresentados exemplos da aplicação deste conhecimento em áreas corporativas, como os setores Financeiro, Vendas e Customer Success, Marketing, etc. Ao final fica configurada a contribuição deste trabalho, que serve como guia e suporte conceitual para corpos técnico e gerencial de empresas conduzirem projetos e discussões sobre o assunto.


3 DOMÍNIO DA ANÁLISE DE DADOS Acerca da conceituação de análise de dados vale citar que “a análise tem como objetivo organizar e sumariar os dados de forma tal que possibilitem o fornecimento de respostas ao problema proposto para a investigação. ” (GIL, 2008, p. 156). A análise de dados é facilmente percebida como um campo multidisciplinar, dado o envolvimento de múltiplas áreas de conhecimento, a exemplo da tecnologi a da informação, matemática, estatística, design para visualização. Por isso seu vínculo com a palavra mineração, utilizados em conjunto nesse trabalho. É essencial apresentar um termo utilizado globalmente quando se aborda a temática análise de dados: analytics. Esse termo representa a análise de dados como um todo, envolvendo o processo de descoberta, interpretação, análise e comunicação da informação. Thomas Davenport e Jeanne Harris definem analytics como “uso extensivo de dados, análise quantitativa e estatística, modelos explanatórios e preditivos, junto ao gerenciamento baseado em fatos para conduzir decisões e ações” (DAVENPORT; HARRIS, 2007, p. 7). Em termos práticos, encontramos o uso desse termo na apresentação de ferramentas e soluções que trabalham com processamento de dados e tradução em formato de gráficos e métricas, sejam estas simples representações ou resultado de modelos matemáticos e estatísticos. Os tipos de análise de dados (analytics) conceitualmente definidos são: descritivo, preditivo e prescritivo (LUSTIG, 2010). 1. Descritivo Análises descritivas são as mais empregadas, e são um primeiro passo em direção à análises complexas. Respondem questões práticas como “O que ocorreu? O que está acontecendo? Quando? Com qual frequência?”. Essas informações são consumidas por meio de relatórios e dashboards (painéis que reúnem diversos indicadores em forma de gráficos, números e tabelas). 2. Preditivo Análises preditivas são simulações e predições futuras que podem ser realizadas quando há quantidade de dados históricos suficiente para aplicação de técnicas e modelos avançados. A análise dos cenários resultantes da aplicação das


técnicas permite identificar grupos, padrões, descrever comportamentos e correlação entre os dados. As questões respondidas podem ser “O que poderá acontecer? O que poderia acontecer dado um cenário simulado? Por que algo aconteceu? Quais eventos estão relacionados? Quando devo agir? Quais são os diferentes grupos existentes nos meus dados? ”. O crescimento do poder computacional e a evolução do desempenho dos algoritmos na última década explica a popularização do uso destas técnicas por meio de algoritmos como clusterização, árvores de decisão, redes neurais, regressão linear, etc. 3. Prescritivo Uma vez compreendidos os eventos do passado e montadas análises preditivas de cenários futuros em potencial, surge a necessidade do usuário identificar qual a melhor ação a ser tomada com base nas informações geradas. O objetivo da análise prescritiva é justamente o auxílio e recomendação de ações e decisões ao usuário. Na prática, um modelo prescritivo pode ser reconhecido como um conjunto de modelos preditivos em execução, cada qual testando uma hipótese diferente de cenário. Cabe ao usuário analisar as recomendações e o resultado em potencial para cada ação apresentada. A análise prescritiva ainda é pouco aplicada, dada a necessidade de evolução e maior adoção dos modelos preditivos.

3.1 HISTÓRICO DA ANÁLISE DE DADOS EM EMPRESAS Após a consolidação de tecnologias de armazenamento de dados, assume-se como referência ao surgimento da análise e exploração de dados em empresas a conceituação de “sistema de informação executiva” (EIS – executive information system), no final da década de 1970. Essa época foi antecipada e permeada por estudos dos chamados “sistemas de apoio à decisão” (DSS – decision support system). Um sistema EIS extrai informação de um banco de dados, apresentando-a de forma simples e amigável ao usuário. Evoluindo, durante as décadas de 1980 e 1990 surgiram diversas técnicas envolvendo mineração de dados, as quais ainda continuam sendo aplicados. Em 1989


foi cunhado o termo Business Intelligence (BI - inteligência de negócio) por Howard Dresner do Gartner Group. Vale destacar que o termo BI é popularmente utilizado ao se referir a sistemas e soluções fechadas, mas abrange na verdade o conjunto de ferramentas, processos e competências empregados para gerar inteligência de negócio. Dentro dos períodos mencionados outras tecnologias importantes também ganharam nome, como OLAP (Online Analytical Processing – processamento analítico online) e data warehouse (armazém de dados). Já no século XXI intensifica a discussão acerca da inteligência artificial e continuam as evoluções na mineração de dados, a exemplo da técnica de redes neurais. Atualmente os termos de designação de tecnologias mais populares são o machine learning (aprendizado de máquina, por meio de diversas técnicas de mineração de dados) e deep learning (aprendizado profundo, fortemente relacionado ao potencial de aplicação de redes neurais) (STONE, 2016). Desde a década de 1970 o conceito de DSS evoluiu, e o aprimoramento de tecnologias e a internet disseminaram a aplicação das ferramentas e processos de análise e exploração de dados.

3.2 PROCESSO Assim como em outras áreas de conhecimento, pode-se organizar o trabalho da análise e exploração de dados por meio da aplicação de processos para guiar o trabalho e assim garantir maior eficiência na geração de resultados. No final da década de 1990 foi formulado e proposto um método que endereça esse objetivo de forma genérica para qualquer situação, chamado CRISP-DM (Cross Industry Standard Process for Data Mining – processo padronizado para mineração de dados) (CHAPMAN, 2000). Esse modelo define as seguintes fases para a execução dos projetos de análise/mineração de dados: 1. Entendimento do negócio; 2. Compreensão e análise dos dados disponíveis; 3. Preparação e integração dos dados; 4. Criação de modelos;


5. Avaliação dos resultados e homologação dos modelos; 6. Entrega do relatório final para o usuário ou formulação de um sistema para execução rotineira do modelo construído. Mais recentemente a IBM publicou um novo modelo que estende o antigo CRISP-DM, nomeando-o ASUM-DM (Analytics Solutions Unified Method for Data Mining/Predictive Analytics – método unificado de soluções analytics para mineração de dados e análise preditiva). Esse modelo abrange detalhes da operacionalização da infraestrutura necessária para suportar projetos de mineração de dados.

3.2.1 Fase Entendimento do negócio Nesta etapa é apresentada a motivação para o projeto, quais as expectativas e quais problemas a empresa deseja resolver. O apoio da alta gestão da empresa, patrocinadora do projeto, é essencial para a execução do projeto.

3.2.2 Fase Compreensão e análise dos dados disponíveis Nesta etapa são levantados os dados que a empresa dispõe. É extremamente importante validar e garantir a qualidade dos dados, pois o resultado das análises é prejudicado quando há dados faltantes ou incorretamente informados.

3.2.3 Fase Preparação e integração dos dados Nesta etapa, frequentemente a mais trabalhosa, se realiza o trabalho de coletar, integrar, mesclar, salvar e aplicar todos os ajustes necessárias sobre os dados que serão utilizados nas análises. Existe uma definição conceitual que resume essa fase: ETL (extract, transform, load - extração, transformação e carga de dados). Exemplos de ferramentas destinadas ao processo de ETL: IBM InfoSphere DataStage, Pentaho Data Integration, CloverETL, Pervasive Data Integrator, Microsoft SSIS.

3.2.3 Fase Criação de modelos Neste momento são aplicadas e testadas diversas técnicas, e os resultados destes modelos são validados. Para realizar esse trabalho existem diversas ferramentas. Exemplos: SAS, RapidMiner, IBM SPSS, SAP BusinessObjects. Muitas


soluções de análise/mineração de dados fornecem também as funcionalidades de processo de ETL.

3.2.4 Fase Avaliação dos resultados e homologação dos modelos Nesta etapa são avaliados os resultados e descobertas e os modelos são aprovados.

3.2.5 Fase Entrega Uma vez aprovados os modelos, é momento de apresentar ao usuário. A apresentação dos resultados da análise envolve um domínio de práticas de visualização para permitir fácil assimilação e consequente geração de insights. Os modelos são condensados em dashboards para uso estratégico, tático ou operacional.


4 TÉCNICAS Na fase “Criação de modelos” do método de mineração de dados CRISP-DM é definido o uso de técnicas e construção de modelos. Existem terminologias variadas para os artefatos que compõem o conhecimento de mineração de dados na comunidade de profissionais e empresas do nicho. Neste trabalho define-se a seguinte conceituação para os termos a serem utilizados na explicação das técnicas: a) Observação: um registro de informação. As análises de dados são frequentemente executadas sobre amostras parciais dos dados coletados, onde são processadas desde centenas até milhares de observações; b) Variável: um dado que compõe cada registro de informação. Costumam haver diversas variáveis em cada registro de informação; c) Machine learning (aprendizado de máquina): uma área de estudo e construção de algoritmos que podem aprender a partir do processamento de observações, sem demandar o desenvolvimento de sistemas. Além de aprender, também têm a capacidade de destacar relações nos dados. d) Supervisionado e não supervisionado: as diferentes categorias de algoritmos de aprendizado de máquina são divididas nestes 2 grupos. Algoritmos supervisionados fazem a categorização das observações conforme parametrização realizada pelo usuário, e demandam uma etapa prévia de treinamento para conseguirem predizer um valor ou categoria para novas observações. Já os algoritmos não supervisionados são executados sem treinamento, pois não há uma “pergunta” clara a ser respondida. São utilizados na intenção de explorar e descobrir relações aparentemente inexistentes e gerar conhecimento acerca das observações exploradas. Abaixo são listadas e explicadas algumas técnicas de análise/mineração de dados utilizadas tanto em projetos de pesquisa quanto comerciais. Vale citar que cada técnica pode demandar diferentes configurações, como seleção de variáveis, ajuste de sensibilidade, número de agrupamentos, etc.


4.1 CLASSIFICAÇÃO – ÁRVORES DE DECISÃO As técnicas de classificação (aprendizado supervisionado) permitem indicar se uma observação pertence ou não a determinada classe, foco da análise. A utilização deste tipo de técnica demanda que o algoritmo classificador seja executado previamente sobre uma base de dados de treinamento, cujas observações já estejam classificadas, para que ‘aprenda’ a classificar. Os algoritmos de Árvores de decisão processam as observações e criam uma série de regras com os valores encontrados nas variáveis. Ao executar o algoritmo classificador sobre novas observações ainda não classificadas, torna-se possível inferir se estas observações pertencem ou não à classe foco da análise. Exemplo: predição da existência de uma doença em um paciente com base em uma lista de sintomas. Algoritmos como o ID3 e suas evoluções são exemplos de implementações de árvores de decisão e geração automatizada de regras. A figura 1, abaixo, exemplifica o resultado conceitual da execução do algoritmo ID3 sobre uma base de dados de treinamento e o conjunto de regras gerado.

Exemplo conceitual de árvore de decisão e regras geradas

Figura 1 Fonte: SAYAD, 2011.


4.2 CLUSTERIZAÇÃO As técnicas de clusterização (aprendizado não supervisionado) realizam a segmentação de dados de forma automatizada. É útil para agrupar observações que apresentam similaridade entre si. Exemplo: traçar perfis de clientes. Ao executar um algoritmo de clusterização, é realizado um processo de descoberta e divisão de clusters com base na análise das variáveis que compõem cada observação. Por fim, cabe ao usuário analisar a disposição das observações e buscar reconhecer padrões ou obter insights. Frequentemente é uma das primeiras técnicas utilizadas na exploração dos dados. O algoritmo K-means é um exemplo de algoritmo que segmenta as observações destacando agrupamentos com base na afinidade entre os dados. A figura 2, abaixo, exemplifica a exibição de clusters. O conjunto de dados processado é bastante famoso nos estudos de reconhecimento de padrão. Consiste de 150 observações e 5 variáveis, representando 3 espécies de flores Íris (FISHER, 1936).

Clusters e destaque de classes após segmentação

Figura 2 Fonte: BANCE, 2016.


4.3 ASSOCIAÇÃO Técnicas de associação processam e destacam as relações entre as observações. Por exemplo, é possível identificar um grupo de produtos que costumam ser comprados em conjunto, ou um grupo de sintomas que costumam indicar determinada patologia. Esses conjuntos são definidos com base em regras geradas ao serem processadas todas as observações de uma base de dados. Um exemplo de algoritmo de associação é o Apriori. Esse tipo de técnica é utilizado principalmente em lojas físic as e e-commerce, pois permite gerar recomendações de compra para o usuário e organizar prateleiras de forma a estimular vendas.

Diagrama de acordes ressaltando associações de migração entre países

Figura 3 Fonte: ABEL, 2014.


5 DOMÍNIO DA VISUALIZAÇÃO DE DADOS A apresentação dos dados cumpre um papel essencial na geração de insights. As pessoas têm uma melhor capacidade de assimilar informação visual em formas simples, ordenadas, com o uso de cores e do espaço à disposição. A visualização de dados pode ser potencializada por diversas boas práticas, frequentemente compiladas em publicações de ferramentas de análise de dados. Um estudo que fundamenta substancialmente a orientação da composição visual é a psicologia da Gestalt (ENGELMANN, 2002). A Gestalt ganhou nome a partir da curiosidade e dos experimentos conseguintes de Max Wertheimer, em Frankfurt, desde o ano de 1910. A experimentação que Wertheimer realizou consistia na exposição de uma figura a feixes de luz em locais alternados, dentro de um pequeno intervalo de tempo. Era possível enxergar a figura movendo-se de um lugar para outro. Esta observação já havia sido realizada bem antes, mas a discussão ganhou volume e estendeu-se desde então. Gestalt, por fim, pode ser descrita como uma percepção consciente de formas. A área de design utiliza-se das regras de percepção definidas pelos gestaltistas (GRAHAM, 2008). Algumas delas são listadas abaixo, com o comentário da aplicação prática na composição de relatórios gráficos e dashboards.  Semelhança Objetos similares agrupam-se entre si, seja com base na cor, forma, textura, disposição, tamanho. O benefício dessa noção está na possibilidade de se usar uma linguagem única em diferentes apresentações. Por exemplo, o emprego repetitivo de uma mesma cor ou símbolo para designar determinado fato condiciona o

usuário

a

identificar

automaticamente

outras

ocorrências

associadas.  Proximidade Objetos próximos tendem a formar grupos. Essa percepção também é largamente empregada em relatórios e visualizações. Em um dashboard, por exemplo, podem ser demarcadas regiões de indicadores de diferentes partes do negócio com base no distanciamento e agrupamento dentro do espaço visual.


 Continuidade Esta regra demonstra como podem ser simuladas diferentes formas e movimento com base na organização dos elementos no espaço. Isso pode ser utilizado para chamar a atenção ou para replicar a identidade visual da empresa em um sistema, por exemplo.  Pregnância Pode ser entendida como o grau de facilidade de leitura e compreensão de uma composição visual. É válido para o autor do dashboard fazer uma análise da composição final do painel de indicadores e validar a facilidade de assimilação pelo usuário final. Um quadro com muitas formas, cores e disposições tende a ser mais complexo para entendimento.  Fechamento A regra de fechamento explica que podem ser removidas algumas partes da forma visual que mesmo assim será possível compreender o todo. Essa habilidade é especialmente útil para limpar a composição final. Torna-se desnecessário traçar linhas completas para dividir os agrupamentos em um relatório, por exemplo.  Ponto focal Essa técnica é útil para chamar a atenção para determinado ponto, com o possível objetivo de forçar um fluxo na visualização ou comunicar com acentuação uma informação. Isso é conseguido ao destacar determinado objeto em detrimento de outros, com o emprego de cor ou tamanho.


6 RESULTADOS E APLICAÇÕES PRÁTICAS As iniciativas e projetos que aplicam a análise de dados surgem diariamente. A seguir são apresentados diversos cases da análise de dados sob diferentes perspectivas, aplicáveis ao campo corporativo.

6.1 SETOR FINANCEIRO Um exemplo consolidado da adoção do processamento de dados em tempo real é o de identificação de fraudes. Todas operadoras de cartão e muitas empresas físicas e virtuais aplicam essa verificação ao processar cada transação. A empresa MasterCard, por exemplo, disponibiliza uma API (Application program interface, interface de aplicação de software que se comunica com o sistema requisitante) denominada Fraud Scoring for Merchants (Pontuação de fraude para comerciantes) que retorna uma pontuação (0 a 999) graduando a probabilidade do pagamento ser uma fraude. Isso é possível com base no modelo desenvolvido pela empresa, que analisa o histórico de transações do titular do cartão e calcula em tempo real a pontuação.

6.2 SETOR DE VENDAS E CUSTOMER SUCCESS Para a área comercial é bastante popular o uso da clusterização e regras de associação, por exemplo. É possível realizar a análise das fatias dos mercados atendidos, qual o perfil de clientes que compra determinado produto, quais produtos costumam ser vendidos juntos, etc. Mais recentemente popularizou-se o foco no sucesso do cliente, ou Customer Success. O sucesso do cliente caracteriza-se pela atuação na etapa do pós-venda, com o objetivo de fomentar um relacionamento duradouro com o cliente e a satisfação deste com os produtos e serviços adquiridos. Essa área é extremamente dependente de dados. A predição de churn (encerramento do contrato), também tratada como análise da saúde e risco do cliente, é alvo do desenvolvimento de modelos que calculam a probabilidade a partir dos dados coletados manual e automatizadamente, comparando-os com a base histórica de perca de vendas e contratos.


A empresa Gainsight (http://www.gainsight.com) fornece software para a área de Customer Success, e disponibiliza uma funcionalidade para predição de churn.

6.3 SETOR DE MARKETING A área de marketing está cada vez mais voltada para a mídia digital na internet, e evolui com constância destacada no domínio da análise de dados descritiva. Plataformas conhecidas como Google Analytics e Facebook Ads dedicam suas soluções a entregar uma visão ampla e em tempo real do progresso de campanhas de marketing online, permitindo medir audiência, origens do tráfego, conversões, custo por conversão, entre outras métricas focadas em transações de e-commerce. A técnica de classificação, por exemplo, pode ser aplicada na criação de um modelo que apura a probabilidade de determinada publicação se tornar viral e, portanto, alcançar grande audiência. A startup Persado (http://www.persado.com) desenvolve uma plataforma de criação automatizada de conteúdo. O sistema baseado em aprendizado de máquina utiliza-se de processamento de linguagem natural para sugerir automaticamente títulos, redação e imagens para publicações. É possível testar diferentes configurações de teor emocional na linguagem da mensagem. Fica evidente o valor estratégico gerado por um sistema composto de um modelo robusto apoiado sobre uma volumosa base de dados.

6.4 APLICAÇÃO DIVERSA Além dos setores corporativos encontramos grandes players atendendo também as esferas governamentais. A empresa Palantir (https://www.palantir.com) apresenta uma lista de aplicações abrangente para seus produtos de análise integrada de dados: investigação e apoio policial, controle de fraude, segurança virtual, investigação de terrorismo e tráfico de pessoas, gerenciamento de crise, prevenção de catástrofes, resposta a doenças, análise atuarial para seguradoras, investigações jurídicas, etc. As empresas IBM (plataforma Watson - http://www.ibm.com/watson ) e HPE (plataforma Haven OnDemand - https://www.havenondemand.com) também realizam


projetos de análise e mineração de dados, por meio de suas plataformas, fazendo uso do aprendizado de máquina. Vale destacar o grau de evolução da plataforma Watson. A IBM passou os últimos anos evoluindo sua ferramenta ao contribuir com estudos e iniciativas nas áreas acadêmicas e de saúde, principalmente. Em 2014 começou a oferecer os recursos da ferramenta comercialmente. O Watson está em constante ‘treinamento’ para evoluir suas capacidades de processamento de linguagem natural e reconhecimento de imagens. Segundo a IBM, já é possível conversar de maneira satisfatória sobre diversos tópicos com a ferramenta. Na área da saúde a ferramenta colabora com estudantes e especialistas na pesquisa de sintomas, tratamentos e outras correlações. Um projeto conhecido é o de análise de genoma, em parceria com o New York Genome Center (HERPER, 2014).


7 CONCLUSÃO Este trabalho atingiu seu objetivo ao apresentar o embasamento conceitual e prático da análise e mineração de dados. Com a exposição dos projetos existentes fica evidenciado o impacto e valor gerado pelo uso destas tecnologias disruptivas. É notável a evolução do conhecimento e grau de especialização das empresas e ferramentas citadas. Desde as primeiras discussões sobre reprodução artificial da inteligência humana há muita expectativa com o desenvolvimento de máquinas capazes de conceber conclusões semelhantes às de nossa natureza (HARNAD, 2008). Ao compreender as características dessa área de conhecimento e seu potencial, as gerências e equipes técnicas de empresas estão capacitadas a propor projetos, iniciativas de pesquisa e desenvolvimento e conduzir discussões sobre tais assuntos. A finalização deste estudo abre uma diversidade de opções de extensão e aprofundamento de pesquisa. Entre elas: 

Evolução e características da infraestrutura na nuvem, que tornaram

possível o processamento de dados em grande volume, alta velocidade e em diferentes formas, pilares do Big Data; 

Desafios regulatórios e éticos da captura e processamento de dados

privados, condição que impede a evolução de muitas iniciativas da área; 

Estruturação

de

equipes

e

perfis

de

profissionais

dedicados

a

análise/mineração de dados; 

Pesquisas acadêmicas e científicas

em execução, a exemplo das

quantidades massivas de dados gerados pela NASA (SKYTLAND, 2012), diversos

projetos

nos

quais

a

instituição

participa

(http://datascience.jpl.nasa.gov/projects), e testes realizados no CERN (Conseil Européen pour la Recherche Nucléaire - Organização Europeia para a Pesquisa Nuclear) com o Grande Colisor de Hádrons (GIRONE, 2016); 

Arquitetura dos algoritmos de mineração, exploração de dados não-

estrutrurados, criação de modelos. A lista acima evidencia o oceano azul de oportunidades com o qual o autor se deparou enquanto explorando o assunto. As opções de desvio de escopo se apresentavam de forma constante. É intrigante a noção de que será possível


acompanhar todas as revoluções que estão por vir, desencadeadas pela exploração do potencial humano de tomar proveito do conhecimento gerado. Em outras palavras, tomamos consciência de que podemos aplicar um processo analítico para traduzir praticamente qualquer coisa ou evento em dados, e com eles descobrir novas perguntas e responder outras tantas. Os cases descritos no capítulo de resultados estão conduzindo o estado da arte no tocante a traduzir pesquisa em tecnologia e resultado para o mercado.


REFERÊNCIAS

ABEL, Guy J.; SANDER, Nikola. Quantifying Global International Migration Flows. Science 28 mar 2014: v. 343, Issue 6178, pp. 1520-1522 DOI: 10.1126/science.1248676. Disponível em <http://science.sciencemag.org/content/343/6178/1520>. Acesso em 12 nov. 2016.

ANDREWS, K. The Concept of Corporate Strategy. Nova York, EUA. Homewood. 1971. BANCE, Simon. Plotting multivariate data with matplotlib/pylab: edgar anderson’s iris flower data set. Dr. Simon Bance website, 2016. Disponível em <http://academic.bancey.com/plotting-multivariate-data-with-matplotlibpylab-edgarandersons-iris-flower-data-set>. Acesso em 10 set. 2016.

BARNEY, J. B. (1986). Strategic factor markets: expectations, luck and business strategy. Management Science, 32(10), 1231-1241.DOI: 10.1287/mnsc.32.10.1231. Disponível em <http://pubsonline.informs.org/doi/abs/10.1287/mnsc.32.10.1231>. Acesso em 26 mai. 2016.

BARNEY, J. B. (1991). Firm resource and sustained competitive advantage. Journal of Management, 17(1), 99-120. DOI: 10.1177/014920639101700108. Disponível em <http://jom.sagepub.com/content/17/1/99>. Acesso em 26 mai. 2016.

CARVALHO, Daniela Moreira de; PREVOT, Frédéric; MACHADO, João Armando Dessimon. O uso da teoria da visão baseada em recursos em propriedades rurais: uma revisão sistemática da literatura. Rev. Adm., São Paulo, SP, v. 49, n. 3, p. 506-518, Setembro, 2014. Disponível em <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S008021072014000300006&lng=en&nrm=iso>. Acesso em 26 mai. 2016.


CHAPMAN, Pete; CLINTON, Julian; KERBER, Randy; KHABAZA, Thomas; REINARTZ, Thomas; SHEARER, Colin; WIRTH, Rudiger. CRISP-DM 1.0 Step-by-step data mining guide. SPSS Inc, 2000. Disponível em <ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/ UserManual/CRISP-DM.pdf>. Acesso em 23 jul. 2016.

DAVENPORT, Thomas H.; HARRIS, Jeanne G. Competing on Analytics: the New Science of Winning. Harvard Business School, 1ª ed. Boston, EUA, 2007.

ENGELMANN, Arno. A psicologia da gestalt e a ciência empírica contemporânea. Psic.: Teor. e Pesq., Brasília, v. 18, n. 1, p. 1-16, abr. 2002. Disponível em <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010237722002000100002&lng=es&nrm=iso>. Acesso em 24 ago. 2016.

FISHER, Raymond A. The use of multiple measurements in taxonomic problems. Annual Eugenics, 7, Part II, 179-188. 1936.

GIL, Antônio Carlos. Métodos e técnicas de pesquisa social. 6ª ed. São Paulo, SP: Atlas. 2008.

GIRONE, Maria. Big Data Analytics and the LHC. CERN openlab, Março, 2016. Amsterdã, Holanda. Disponível em <http://openlab.cern/publications/presentations/bigdata-analytics-and-lhc>. Acesso em 21 ago. 2016.

GRAHAM, Lisa. Gestalt Theory in Interactive Media Design. Journal of Humanities & Social Sciences, ISSN 1934-7227, v. 2, 2008. Disponível em < http://www.scientificjournals.org/journals2008/articles/1288.pdf>. Acesso em 16 set. 2016.

HARNAD, Stevan. The Annotation Game: On Turing (1950) on Computing, Machinery, and Intelligence. In, Epstein, Robert, Roberts, Gary and Beber, Grace (eds.)


Parsing the Turing Test: Philosophical and Methodological Issues in the Quest for the Thinking Computer. Evolving Consciousness , Springer, 23-66. Disponível em <http://eprints.soton.ac.uk/262954>. Acesso em 04 set. 2016.

HERPER, Matthew. IBM's Watson Attempts To Tackle The Genetics Of Brain Cancer. Forbes, 19 de março de 2014, Nova York, EUA. Disponível em <http://www.forbes.com/sites/matthewherper/2014/03/19/what-watson-cant-tell-usabout-our-genes-yet/?cm_mc_uid=68249876060914609324309#7351ed9d31ad>. Acesso em 04 set. 2016.

LUSTIG, Irv; DIETRICH, Brenda; JOHNSON, Christer; DZIEKAN, Christopher. The Analytics Journey. AnalyticsMagazine.com, Ed. Novembro/Dezembro 2010. Catonsville, EUA. Disponível em <http://viewer.zmags.com/publication/c5e7ab79#/c5e7ab79/12>. Acesso em 09 jul. 2016.

MARREIROS, Goreti; OLIVEIRA, Paulo. Data Mining. Dissertação - Faculdade de Engenharia da Universidade do Porto. Porto, Portugal, Julho, 2000. Disponível em <https://paginas.fe.up.pt/~mgi99021/it/index.htm>. Acesso em 07 ago. 2016.

POWER, D.J. A Brief History of Decision Support Systems. DSSResources.COM. Versão 4.0. 10 de março de 2007. Disponível em <http://DSSResources.COM/history/dsshistory.html>. Acesso em 05 jun. 2016.

SAYAD, Saed. An Introduction to Data Mining. Dr. Saed Sayad website, 2011. Disponível em <http://www.saedsayad.com/data_mining_map.htm>. Acesso em 10 set. 2016.

SKYTLAND, Nick. What is NASA doing with Big Data today? Open Nasa, Outubro 2010. Houston, EUA. Disponível em <https://open.nasa.gov/blog/what-is-nasadoing-with-big-data-today>. Acesso em 21 ago. 2016.


STONE, Peter; AI100 (membros do painel de estudo de 2015). "Artificial Intelligence and Life in 2030." One Hundred Year Study on Artificial Intelligence: Report of the 2015-2016 Study Panel. Universidade Stanford, Califórnia, EUA, Setembro de 2016. Disponível em <http://ai100.stanford.edu/2016-report>. Acesso em 25 set. 2016.

WERNERFELT, B. (1984). The resource-based view of the firm. Strategic Management Journal, 5(2), 171-180. Disponível em <http://onlinelibrary.wiley.com/doi/10.1002/smj.4250050207/abstract>. Acesso em 26 mai. 2016.

Análise de dados aplicada na geração de conhecimento estratégico  

Artigo apresentando uma introdução abrangente sobre a área de análise e mineração de dados. Descrição de conceitos, histórico, processos, té...

Análise de dados aplicada na geração de conhecimento estratégico  

Artigo apresentando uma introdução abrangente sobre a área de análise e mineração de dados. Descrição de conceitos, histórico, processos, té...

Advertisement