Analítica de dados com Hadoop

Page 1

Benjamin Bengfort Jenny Kim

Novatec


Authorized Portuguese translation of the English edition of Data Analytics with Hadoop, ISBN 9781491913703 © 2016 Benjamin Bengfort, Jenny Kim. This translation is published and sold by permission of O'Reilly Media, Inc., the owner of all rights to publish and sell the same. Tradução em português autorizada da edição em inglês da obra Data Analytics with Hadoop, ISBN 9781491913703 © 2016 Benjamin Bengfort, Jenny Kim. Esta tradução é publicada e vendida com a permissão da O'Reilly Media, Inc., detentora de todos os direitos para publicação e venda desta obra. © Novatec Editora Ltda. 2016. Todos os direitos reservados e protegidos pela Lei 9.610 de 19/02/1998. É proibida a reprodução desta obra, mesmo parcial, por qualquer processo, sem prévia autorização, por escrito, do autor e da Editora. Editor: Rubens Prates PY20160831 Tradução: Lúcia A. Kinoshita Revisão gramatical: Smirna Cavalheiro Editoração eletrônica: Carolina Kuwabata ISBN: 978-85-7522-521-9 Histórico de impressões: Setembro/2016

Primeira edição

Novatec Editora Ltda. Rua Luís Antônio dos Santos 110 02460-000 – São Paulo, SP – Brasil Tel.: +55 11 2959-6529 Email: novatec@novatec.com.br Site: www.novatec.com.br Twitter: twitter.com/novateceditora Facebook: facebook.com/novatec LinkedIn: linkedin.com/in/novatec


capítulo 1

A era do produto de dados

Estamos vivendo uma revolução de informações. Como qualquer revolução econômica, ela exerceu um efeito transformador na sociedade, no ambiente acadêmico e nos negócios. A presente revolução, conduzida pelos sistemas de comunicação em rede e pela internet, é única, pois criou um excedente de novos materiais valiosos – os dados – e nos transformou, a todos, tanto em consumidores quando em produtores. A enorme quantidade de dados gerada é extraordinária. Os dados afetam cada vez mais todos os aspectos de nossas vidas, dos alimentos que consumimos às nossas interações sociais ou o modo como trabalhamos e nos divertimos. De nosso lado, desenvolvemos uma expectativa razoável por produtos e serviços altamente personalizados e bem sintonizados com nossos corpos, nossas vidas e nossos negócios, criando um mercado para uma nova tecnologia da informação – o produto de dados. A combinação rápida e ágil entre conjuntos de dados excedentes e algoritmos de aprendizado de máquina mudou a forma como as pessoas interagem com as atividades cotidianas e umas com as outras, pois, com muita frequência, isso conduz a resultados novos e imediatos. De fato, as tendências para as palavras da moda em torno de “big data” estão relacionadas ao aparentemente inesgotável volume de inovações proporcionado pelo grande número de modelos e fontes de dados. Os produtos de dados são criados com fluxos de trabalho da ciência de dados, especificamente por meio da aplicação de modelos, geralmente preditivos ou inferenciais, em um conjunto de dados de um domínio específico. Embora o potencial para inovação seja enorme, a mentalidade científica ou experimental necessária para descobrir fontes de dados e modelar ou explorar corretamente os padrões, em geral, não é ensinada aos programadores ou analistas. De fato, é por esse motivo que é interessante contratar profissionais com doutorado novamente – eles têm o treinamento analítico e experimental necessário que, quando combinado com habilidades em programação, resulta quase imediatamente em 22


Capítulo 1 ■ A era do produto de dados

23

expertise em ciência de dados. É claro que nem todos podemos ter doutorado. Este livro apresenta um modelo pedagógico para fazer ciência de dados em escala com o Hadoop, e serve como base para projetar a arquitetura de aplicações que sejam, ou podem vir a ser, produtos de dados.

O que é um produto de dados? A resposta tradicional a essa pergunta geralmente é “qualquer aplicação que combine dados e algoritmos”1. Francamente, porém, se você escreve software e não combina dados com algoritmos, então o que você estará fazendo? Afinal de contas, os dados são a moeda da programação! Mais especificamente, podemos dizer que um produto de dados é a combinação de dados com algoritmos estatísticos usados para inferência ou previsão. Muitos cientistas de dados também são estatísticos, e metodologias estatísticas são centrais na ciência de dados. De posse dessa definição, você poderia citar as recomendações da Amazon como um exemplo de um produto de dados. A Amazon analisa os itens que você comprou e, com base em comportamentos semelhantes de compra de outros usuários, faz recomendações. Nesse caso, dados do histórico de compras são combinados com algoritmos de recomendação para fazer previsões sobre o que você poderia comprar no futuro. Também podemos citar a funcionalidade “Pessoas que você talvez conheça” do Facebook, pois esse produto mostra “pessoas com base em amigos em comum, informações de trabalho e educação … [e] outros fatores diferentes” – essencialmente, usando a combinação entre dados de redes sociais e algoritmos de grafos para inferir os membros das comunidades. Esses exemplos, sem dúvida, são revolucionários em seus próprios domínios de varejo e de redes sociais, mas não parecem ser necessariamente diferentes de outras aplicações web. Na verdade, definir produtos de dados como simplesmente a combinação de dados com algoritmos estatísticos parece limitar os produtos de dados a instâncias únicas de software (por exemplo, uma aplicação web), que dificilmente parecem ser uma força econômica revolucionária. Embora possamos apontar para o Google ou outras forças econômicas de larga escala, a combinação de um web crawler, que reúna um corpus HTML gigantesco com o algoritmo PageRank por si só não cria uma economia de dados. Sabemos o papel importante que a pesquisa desempenha na atividade econômica, portanto deve estar faltando algo na primeira definição. 1 Hillary Mason e Chris Wiggins, “A Taxonomy of Data Science” (Uma taxonomia da ciência de dados, http://bit.ly/taxonomy-of-data-science), Dataists, 25 de setembro de 2010.


24

Analítica de dados com Hadoop

Mike Loukides argumenta que um produto de dados não é simplesmente outro nome para uma “aplicação orientada a dados”. Embora blogs, plataformas de e-commerce e a maioria das aplicações web e móveis contenham um banco de dados e serviços de dados como APIs RESTful, eles estão simplesmente usando dados. Apenas isso não os tornam um produto de dados. Em vez disso, ele define um produto de dados assim:2 Uma aplicação de dados adquire seu valor dos próprios dados e cria mais dados como resultado. Não é apenas uma aplicação com dados; é um produto de dados.3

Essa é a revolução. Um produto de dados é um motor da economia. Ele extrai valor dos dados e então gera mais dados e, por sua vez, mais valor. Os dados criados podem alimentar o produto gerador (finalmente, conseguimos um moto-contínuo!) ou podem levar à criação de outros produtos de dados que extraem valor desses dados gerados. É exatamente isso que levou ao excedente de informações e à revolução de informações resultante. Mais importante ainda é o efeito gerador que nos permite ter uma vida melhor por meio dos dados, pois mais produtos de dados implicam mais dados, o que significa outros produtos de dados, e assim sucessivamente. De posse dessa definição mais específica, podemos avançar e descrever os produtos de dados como sistemas que aprendem com dados, são autoadaptáveis e amplamente aplicáveis. De acordo com essa definição, o termostato Nest é um produto de dados. Ele extrai seu valor dos dados do sensor, adapta o modo de controlar o aquecimento e a refrigeração e faz com que novas observações do sensor sejam coletadas para validar a adaptação. Veículos autônomos, como aqueles produzidos pela Autonomous Driving Team (Equipe de Condução Autônoma) de Stanford, também se enquadram nessa categoria. A visão de máquina da equipe e a simulação do comportamento do piloto são resultados de algoritmos, portanto, quando o veículo está em movimento, ele gera mais dados de navegação e de sensores que podem ser usados para aperfeiçoar a plataforma de condução. O advento da “autoquantificação” (quantified self), iniciada por empresas como Fitbit, Withings e muitas outras, mostra que os dados afetam o comportamento humano; as redes elétricas inteligentes (smart grids) mostram que os dados afetam suas contas de serviços. Os produtos de dados são motores econômicos autoadaptáveis, amplamente aplicáveis, que extraem valor de dados e geram mais dados ao influenciar o comportamento humano ou fazer inferências ou previsões sobre novos dados. 2 Mike Loukides, “What is Data Science?” (O que é ciência de dados?, http://oreil.ly/1Tl3h5S), O’Reilly Radar, 2 de junho de 2010. 3 N.T.: Esta e outras citações neste livro foram traduzidas livremente a partir da citação original em inglês.


Capítulo 1 ■ A era do produto de dados

25

Os produtos de dados não são apenas aplicações web, e estão rapidamente se transformando em um componente essencial de quase todos os domínios da atividade econômica no mundo moderno. Por serem capazes de descobrir padrões individuais na atividade humana, esses produtos orientam decisões, cujas ações e influências resultantes também são registradas como novos dados.

Desenvolvendo produtos de dados em escala com o Hadoop Um tuíte de Josh Wills4 citado com frequência nos apresenta a seguinte definição: Cientista de dados (s.): Pessoa que é melhor em estatística que qualquer engenheiro de software e melhor em engenharia de software que qualquer estatístico.

Certamente, essa definição se ajusta bem à ideia de que um produto de dados é simplesmente a combinação de dados com algoritmos estatísticos. Um conhecimento tanto de engenharia de software quanto de estatística é essencial à ciência de dados. No entanto, em uma economia que exija produtos que extraiam seu valor de dados e gerem novos dados em troca, devemos dizer que, como cientistas de dados, é nosso trabalho desenvolver produtos de dados. Harlan Harris oferece mais detalhes sobre a concretização dos produtos de dados:5 eles são construídos na intersecção entre dados, conhecimento do domínio, engenharia de software e analítica. Por serem sistemas, os produtos de dados exigem um conjunto de habilidades de engenharia, geralmente em software, para o seu desenvolvimento. São alimentados por dados, portanto ter dados é um requisito necessário. O conhecimento do domínio e de analítica é a ferramenta usada para construir o motor de dados, geralmente por meio de experimentação; daí a parte referente à “ciência” da ciência de dados. Por causa da metodologia experimental necessária, a maioria dos cientistas de dados apontará para este fluxo de trabalho analítico característico: ingestão→transformação (wrangling)→modelagem→relatórios e visualização. Apesar disso, esse chamado pipeline da ciência de dados é totalmente movido a seres humanos e expandido com o uso de linguagens de scripting como R e Python. Conhecimento humano e habilidades de análise são necessários em cada passo do pipeline, cujo propósito é gerar resultados únicos, não generalizáveis. Embora esse pipeline seja um bom ponto de partida como um framework estatístico e 4 Disponível em http://bit.ly/data-scientist-tweet. 5 Harlan Harris, “What Is a Data Product?” (O que é um produto de dados?, http://bit.ly/1EjYZog), Blog Analytics 2014, 31 de março de 2014.


26

Analítica de dados com Hadoop

analítico, ele não atende aos requisitos do desenvolvimento de produtos de dados, em especial quando os dados dos quais o valor é extraído são grandes demais para serem tratados por seres humanos em um único notebook. À medida que os dados se tornam maiores, mais rápidos e mais variáveis, as ferramentas para extrair insights automaticamente, sem intervenção humana, passam a ser muito mais importantes.

Tirando proveito de conjuntos grandes de dados Intuitivamente, reconhecemos que mais observações, ou seja, mais dados, são tanto uma bênção quanto uma maldição. Os seres humanos têm uma excelente habilidade de ver padrões em larga escala – as florestas e clareiras metafóricas nas árvores. O processo cognitivo de compreender os dados envolve visões gerais de alto nível dos dados, dando zoom em níveis de detalhe específicos e retrocedendo novamente. Os detalhes nesse processo são casuais, pois maior granularidade atrapalha a nossa capacidade de compreensão – as folhas, os galhos ou as árvores individuais metafóricos. Mais dados podem representar tanto padrões extremamente definidos e sinalizar exatamente isso ou podem ser ruídos e distrações. Metodologias estatísticas nos oferecem os meios para lidar simultaneamente com dados ruidosos e significativos, seja descrevendo os dados por meio de agregações e índices, seja de forma inferencial, pela modelagem direta dos dados. Essas técnicas nos ajudam a entender os dados à custa da granularidade computacional – por exemplo, eventos raros que possam ser sinais interessantes tendem a ser dissolvidos em nossos modelos. Técnicas estatísticas que tentem levar em conta eventos raros tiram proveito da eficácia de um computador para monitorar vários pontos de dados simultaneamente, porém exigem mais recursos computacionais. Desse modo, os métodos estatísticos tradicionalmente têm adotado uma abordagem de amostragem para conjuntos de dados muito maiores, em que um subconjunto menor dos dados é usado como um substituto estimado para toda a população. Quanto maior a amostra, mais provável que eventos raros sejam capturados e incluídos no modelo. À medida que nossa capacidade de coletar dados aumentou, o mesmo ocorreu com a necessidade de generalizações mais amplas. A última década testemunhou a ascensão sem precedentes da ciência de dados, alimentada pela combinação aparentemente ilimitada de dados e algoritmos de aprendizado de máquina para gerar resultados realmente novos. Redes elétricas inteligentes, a autoquantificação (quantified self), a tecnologia móvel, sensores e residências conectadas exigem a aplicação de inferência estatística personalizada. A escala resulta não só da


Capítulo 1 ■ A era do produto de dados

27

quantidade de dados, mas do número de facetas que essa exploração exige – uma visão de floresta para árvores individuais. O Hadoop – uma implementação de código aberto de dois artigos escritos no Google que descrevem um sistema completo de computação distribuída – deu origem à era do big data. No entanto, a computação distribuída e os sistemas de bancos de dados distribuídos não são um assunto novo. Sistemas de armazém de dados (data warehouse) tão eficazes do ponto de vista computacional quanto o Hadoop surgiram antes desses artigos, tanto no mercado quando no ambiente acadêmico. O que torna o Hadoop diferente, em parte, se deve aos aspectos econômicos do processamento de dados, mas também ao fato de o Hadoop ser uma plataforma. No entanto, o que torna o Hadoop realmente especial é seu timing – ele foi lançado exatamente no momento em que a tecnologia precisava de uma solução para fazer analítica de dados em escala, não só para estatísticas em nível de população, mas também para generalizações e insights individuais.

Hadoop para produtos de dados O Hadoop surgiu de empresas de grande porte com desafios de big data como Google, Facebook e Yahoo; no entanto, o motivo pelo qual o Hadoop é importante e pelo qual você escolheu este livro é que os desafios relacionados a dados não são mais vivenciados apenas pelos gigantes da tecnologia. São vivenciados por entidades comerciais e governamentais, que variam de pequenas a grandes: de corporações a startups, de agências federais a cidades e até mesmo indivíduos. Os recursos computacionais também estão se tornado onipresentes e baratos – como na época do PC, quando hackers de garagem inovaram usando eletrônicos disponíveis, atualmente, clusters pequenos de 10 a 20 nós estão sendo montados por startups para inovar na exploração de dados. Recursos de computação em nuvem, como o EC2 da Amazon e o Compute Engine do Google, implicam que cientistas de dados tenham acesso instantâneo por demanda, sem precedentes, a clusters de larga escala, por um custo relativamente baixo e sem gerenciamento de datacenter. O Hadoop tornou o processamento de big data democrático e acessível, conforme mostram os exemplos a seguir. Em 2011, Lady Gaga lançou seu álbum Born This Way: um evento que foi transmitido por aproximadamente 1,3 trilhão de impressões de mídia social, de “curtidas” a tuítes, além de imagens e vídeos. Troy Carter, agente de Lady Gaga, imediatamente viu uma oportunidade para reunir os fãs, e em um esforço gigantesco de mineração de dados, conseguiu agregar os milhões de seguidores no Twitter e no Facebook em uma rede social menor, específica para Lady Gaga, o LittleMonsters.com. O


28

Analítica de dados com Hadoop

sucesso do site levou à fundação do Backplane (atualmente, Place): uma ferramenta para a geração e a administração de redes sociais menores, orientadas a comunidades. Mais recentemente, em 2015, o Departamento de Polícia da cidade de Nova York instalou uma rede de sensores acústicos de 1,5 milhão de dólares chamada ShotSpotter. O sistema é capaz de detectar sons impulsivos relacionados a explosões ou tiros, permitindo uma resposta rápida dos responsáveis por tratar incidentes de emergência no Bronx. O importante é que esse sistema também é inteligente o bastante para prever se haverá tiros subsequentes e a localização aproximada do disparo. Desde 2009, o sistema ShotSpotter descobriu que mais de 75% dos tiros não são informados à polícia. O movimento de autoquantificação cresceu em popularidade, e as empresas têm se esforçado para criar vestimentas tecnológicas, fazer coleta de dados pessoais e até mesmo deixar o sequenciamento genético amplamente disponível aos consumidores. Desde 2012, o Affordable Care Act (Lei do Cuidado Acessível) obriga os planos de saúde a implementar a troca eletrônica de registros de saúde de forma segura, confidencial e padronizada. Residências conectadas e dispositivos móveis, juntamente com outros sensores pessoais, estão gerando quantidades enormes de dados individuais que, entre outras coisas, despertam preocupações com privacidade. Em 2015, pesquisadores do Reino Unido criaram o Hub of All Things (HAT) – uma coleção de dados personalizada que lida com a questão de “quem é o dono de seus dados?” e oferece uma solução técnica para a agregação de dados pessoais. Uma analítica de dados individual, em larga escala, tradicionalmente tem sido o domínio de redes sociais como Facebook e Twitter, mas, graças ao Place, marcas ou artistas individuais atualmente são provenientes de redes sociais grandes. As cidades lidam com desafios únicos relacionados a dados, mas enquanto a generalização de uma cidade típica poderia ser suficiente para muitas aplicações de analítica, novos desafios de dados estão surgindo, e que devem ser explorados para cada cidade (qual é o efeito da indústria, dos transportes ou do clima no desempenho de uma rede de sensores acústicos?) Como as tecnologias proporcionam valor aos consumidores utilizando seus registros de saúde pessoais, sem agregação de outros registros por questões de privacidade? Podemos fazer uma mineração de dados pessoal para um diagnóstico médico seguro? Para responder a essas perguntas de forma rotineira e significativa (individual), um produto de dados é necessário. Aplicações como Place, ShotSpotter, produtos de autoquantificação e HAT extraem seus valores dos dados e geram novos dados,


Capítulo 1 ■ A era do produto de dados

29

oferecendo uma plataforma de aplicação e recursos para a tomada de decisões sobre os quais as pessoas podem atuar. O valor proporcionado por essas aplicações é claro, mas os fluxos de trabalho tradicionais de desenvolvimento de software não estão à altura dos desafios de lidar com conjuntos de dados gigantescos gerados a partir de trilhões de curtidas e milhões de microfones, ou com a avalanche de dados pessoais que geramos diariamente. Os fluxos de trabalho de big data e o Hadoop tornaram essas aplicações possíveis e personalizadas.

O pipeline de ciência de dados e o ecossistema do Hadoop O pipeline de ciência de dados é um modelo pedagógico para ensinar o fluxo de trabalho necessário para análises estatísticas completas de dados, como mostra a Figura 1.1. Em cada fase, um analista transforma um conjunto inicial de dados, expandindo-o ou fazendo uma ingestão a partir de várias fontes de dados, convertendo-os em um formato normalizado que possa ser processado, seja por meio de métodos estatísticos descritivos ou inferenciais, antes de produzirem um resultado por meio de sistemas de visualização ou de relatórios. Esses procedimentos analíticos geralmente são projetados para responder a perguntas específicas ou para investigar o relacionamento entre os dados em alguma prática de negócios para validação ou tomada de decisões.

Figura 1.1 – O pipeline da ciência de dados.

Esse modelo original de fluxo de trabalho orientou as primeiras ideias da ciência de dados. Embora possa parecer surpresa, as discussões originais sobre a aplicação da ciência de dados giravam em torno da criação de uma visualização de informações significativa, principalmente porque esse fluxo de trabalho tem como propósito gerar algo que permita aos seres humanos tomar decisões. Ao agregar, descrever e modelar grandes conjuntos de dados, os seres humanos estarão mais capacitados para fazer julgamentos com base em padrões, e não com base em pontos de dados individuais. As visualizações de dados são produtos de dados em nascimento – geram seu valor a partir de dados e então permitem que os seres humanos tomem uma atitude com base no que aprenderam, criando novos dados a partir dessas ações.


30

Analítica de dados com Hadoop

No entanto, esse modelo movido a seres humanos não é uma solução escalável diante do crescimento exponencial no volume e na velocidade dos dados com que muitas empresas atualmente têm que lutar. Prevê-se que, por volta de 2020, os dados que criamos e copiamos anualmente alcançarão os 44 zetabytes, isto é, 44 trilhões de gigabytes6. Mesmo em uma fração menor dessa escala, métodos manuais para preparação e mineração de dados são simplesmente incapazes de proporcionar insights significativos de maneira oportuna. Além das limitações em escala, o design unidirecional desse fluxo de trabalho, centrado no ser humano, impossibilita fazer o design de sistemas autoadaptáveis de forma eficiente, que sejam capazes de aprender. Os algoritmos de aprendizado de máquina têm se tornado amplamente disponíveis, para além do ambiente acadêmico, e se enquadram muito bem na definição de produtos de dados. Esses tipos de algoritmos extraem valores dos dados à medida que os modelos são adequados aos conjuntos de dados existentes, e então, por sua vez, geram novos dados, fazendo previsões sobre novas observações. Para criar um framework que permita a construção de soluções escaláveis e automatizadas para interpretar dados e gerar insights, devemos rever o pipeline de ciência de dados e transformá-lo em um framework que incorpore um ciclo de feedback para métodos de aprendizado de máquina.

Fluxos de trabalho para big data Com as metas de escalabilidade e automação em mente, podemos refatorar o pipeline de ciência de dados orientado a seres humanos e transformá-lo em um modelo iterativo, com quatro fases principais: ingestão, disponibilização, processamento e gerenciamento de fluxo de trabalho (mostrado na Figura 1.2). Como o pipeline de ciência de dados, esse modelo, em sua forma mais simples, toma dados brutos e os converte em insights. A principal distinção, porém, está no fato de o pipeline de produto de dados basear-se no passo para operacionalizar e automatizar o fluxo de trabalho. Ao converter os passos de ingestão, disponibilização e processamento em um fluxo de trabalho automatizado, esse passo, em última instância, gera um produto de dados reutilizável como saída. O passo de gerenciamento do fluxo de trabalho também introduz um mecanismo de fluxo de feedback, em que a saída da execução de um job pode ser automaticamente fornecida como entrada de dados para a próxima iteração e, desse modo, oferece o framework autoadaptável necessário para aplicações de aprendizado de máquina. 6 EMC Digital Universe with Research & Analysis do IDC, “The Digital Universe of Opportunities” (O universo digital de oportunidades, http://bit.ly/1PgS7yy), abril de 2014.


Capítulo 1 ■ A era do produto de dados

31

Figura 1.2 – O pipeline de big data.

A fase de ingestão corresponde tanto à inicialização de um modelo quanto a uma interação da aplicação entre os usuários e o modelo. Durante a inicialização, os usuários especificam as localizações das fontes de dados ou fazem anotações em dados (outra forma de ingestão). Durante a interação, os usuários consomem as previsões do modelo e oferecem feedback que será usado para reforçá-lo. A fase de disponibilização é a fase em que transformações são aplicadas aos dados para deixá-los consumíveis e armazenados de modo que possam ser disponibilizados para processamento. A disponibilização é responsável pela normalização e padronização dos dados, bem como pelo seu gerenciamento em algum repositório de dados computacional. A fase de processamento é a fase do trabalho pesado, cuja responsabilidade principal é a mineração de dados para obtenção de insights, realizando agregações ou gerando relatórios, ou criando modelos de aprendizado de máquina para recomendações, clustering ou classificação. A fase de gerenciamento de fluxo de trabalho realiza tarefas de abstração, coordenação e automação, que permitem que os passos do fluxo de trabalho sejam operacionalizados para produção. O resultado final desse passo deve ser uma aplicação, um job ou um script que possa ser executado por demanda de forma automatizada. O Hadoop evoluiu especificamente para um ecossistema de ferramentas que torna algumas partes desse pipeline operacionais. Por exemplo, o Sqoop e o Kafka foram projetados para ingestão, permitindo a importação de bancos de dados relacionais para o Hadoop ou o uso de filas de mensagem distribuídas para processamento por demanda. No Hadoop, armazéns de dados como Hive e HBase oferecem oportunidades para gerenciamento de dados em escala. Bibliotecas como o GraphX do Spark e a MLlib ou o Mahout oferecem pacotes analíticos


32

Analítica de dados com Hadoop

para processamento e validação em larga escala. Ao longo do livro, exploraremos muitos componentes diferentes do ecossistema do Hadoop e veremos como eles se enquadram no pipeline geral de big data.

Conclusão As conversas sobre o que é ciência de dados têm mudado ao longo da última década, passando de métodos puramente analíticos para aqueles mais relacionados à visualização e, atualmente, para a criação de produtos de dados. Produtos de dados são motores econômicos treinados a partir de dados, autoadaptáveis e amplamente aplicáveis, que extraem seu valor dos dados e geram novos dados em troca. Os produtos de dados incentivaram uma nova revolução na economia de informações, que mudou o modo como pequenos negócios, startups de tecnologia, empresas maiores e entidades governamentais veem seus dados. Neste capítulo, fizemos uma revisão do modelo pedagógico original do pipeline de ciência de dados e propusemos um pipeline de produto de dados. O pipeline de produto de dados é interativo, com duas fases: a fase de construção e a fase operacional (composta de quatro etapas: interação, dados, armazenagem e processamento). Ele serve como uma arquitetura para realizar análises de dados em larga escala de forma metódica, que preserva a experimentação e a interação humana com os produtos de dados, mas também permite que partes do processo sejam automatizadas à medida que aplicações maiores são desenvolvidas em torno delas. Esperamos que esse pipeline possa ser usado como um framework genérico para compreender o ciclo de vida dos produtos de dados, mas também como um trampolim para que projetos mais inovadores possam ser explorados. Ao longo deste livro exploraremos a computação distribuída e o Hadoop do ponto de vista de um cientista de dados – e, desse modo, com a ideia de que o propósito do Hadoop é usar dados de várias fontes díspares, em uma variedade de formatos, com um grande número de instâncias, eventos e classes, e transformá-los em algo valioso: um produto de dados.


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.