Web Scraping com Python by Novatec Editora

Ryan Mitchell

Novatec

Authorized Portuguese translation of the English edition of titled Web Scraping with Python, ISBN 9781491910290 © 2015 Ryan Mitchell. This translation is published and sold by permission of O'Reilly Media, Inc., the owner of all rights to publish and sell the same. Tradução em português autorizada da edição em inglês da obra Web Scraping with Python, ISBN 9781491910290 © 2015 Ryan Mitchell. Esta tradução é publicada e vendida com a permissão da O'Reilly Media, Inc., detentora de todos os direitos para publicação e venda desta obra. © Novatec Editora Ltda. 2015. Todos os direitos reservados e protegidos pela Lei 9.610 de 19/02/1998. É proibida a reprodução desta obra, mesmo parcial, por qualquer processo, sem prévia autorização, por escrito, do autor e da Editora. Editor: Rubens Prates Tradução: Aldir José Coelho Corrêa da Silva Revisão gramatical: Marta Almeida de Sá Assistente editorial: Priscila A. Yoshimatsu Editoração eletrônica: Carolina Kuwabata ISBN: 978-85-7522-447-2 IG20150806 Histórico de impressões: Agosto/2015

Primeira edição

Novatec Editora Ltda. Rua Luís Antônio dos Santos 110 02460-000 – São Paulo, SP – Brasil Tel.: +55 11 2959-6529 Email: novatec@novatec.com.br Site: www.novatec.com.br Twitter: twitter.com/novateceditora Facebook: facebook.com/novatec LinkedIn: linkedin.com/in/novatec

capítulo 1

Seu primeiro web scraper

Uma vez que você começar a executar o web scraping, passará a apreciar todas as pequenas coisas que os navegadores fazem para nós. Inicialmente, sem uma camada de formatação HTML, estilização CSS, execução de JavaScript e geração de imagens, a Web pode parecer um pouco intimidante, mas neste capítulo, assim como no próximo, abordaremos como formatar e interpretar dados sem a ajuda de um navegador. O capítulo começará com os aspectos básicos do envio de uma solicitação GET para um servidor web em busca de uma página específica, a leitura da saída HTML dessa página e a alguma extração de dados simples para isolarmos o conteúdo que procuramos.

Conectando-se Se você ainda não dedicou tempo suficiente ao uso de redes, ou à segurança destas, o funcionamento da Internet pode parecer um pouco misterioso. Não queremos saber o que, exatamente, a rede faz sempre que abrimos um navegador e acessamos http://google.com, nem precisamos mais saber. Na verdade, acho fantástico as interfaces de computador terem avançado a ponto de a maioria das pessoas que usam a Internet não ter a mínima noção de como ela funciona. No entanto o web scraping demanda a remoção de parte dessa camada de interface não só no nível do navegador (como ele interpreta HTML, CSS e JavaScript), mas ocasionalmente no nível da conexão de rede.

Capítulo 1 ■ Seu primeiro web scraper

Para você ter uma ideia da infraestrutura necessária no recebimento de informações em seu navegador, usaremos o exemplo a seguir. Alice tem um servidor web. Bob usa um computador desktop que está tentando se conectar ao servidor de Alice. Quando uma máquina quer conversar com outra, algo como a interação abaixo ocorre: 1. O computador de Bob envia um fluxo de bits 1 e 0, indicados pelas voltagens alta e baixa em um fio. Esses bits compõem alguma informação contendo um cabeçalho e um corpo. O cabeçalho contém como destino imediato o endereço MAC do roteador local; o destino final é o endereço IP de Alice. O corpo contém a solicitação feita ao aplicativo de servidor de Alice. 2. O roteador local de Bob recebe todos esses uns e zeros e os interpreta como um pacote, proveniente do endereço MAC do próprio Bob e destinado ao endereço IP de Alice. Ele grava seu endereço IP no pacote como sendo o do emitente e o envia pela Internet. 3. O pacote de Bob percorre vários servidores intermediários que o direcionam pelo caminho físico/interconectado correto, até o servidor de Alice. 4. O servidor de Alice recebe o pacote em seu endereço IP. 5. Ele lê a porta de destino do pacote (quase sempre a porta 80 para aplicativos web, que pode ser considerada como um “número de apartamento” para dados de pacotes, onde o endereço IP seria o “endereço da rua”) no cabeçalho e passa-o para o aplicativo apropriado – o aplicativo de servidor web. 6. O aplicativo de servidor web recebe um fluxo de dados do processador do servidor. Esses dados dizem algo como: – Essa é uma solicitação GET. – O arquivo a seguir é solicitado: index.html. 7. O servidor web localiza o arquivo HTML correto, o insere em um novo pacote para ser enviado para Bob e o envia por meio de seu roteador local, retornando-o para a máquina de Bob pelo mesmo processo. Voilà! Isso é a Internet.

Web Scraping com Python

Mas em que momento dessa interação o navegador web desempenhou algum papel? Em absolutamente nenhum. Os navegadores são uma invenção relativamente recente na história da Internet, da época em que o Nexus foi lançado, em 1990. Sim, o navegador web é um aplicativo muito útil para criar esses pacotes de informações, para enviá-los e para interpretar os dados que nos são retornados como bonitas imagens, sons, vídeos e texto. No entanto ele é apenas código, e os códigos podem ser desmontados, separados em seus componentes básicos, reescritos, reutilizados e fazer o que quisermos que façam. Um navegador web pode solicitar ao processador que envie dados para o aplicativo que manipula a interface sem (ou com) fio, mas muitas linguagens têm bibliotecas que fazem isso igualmente bem. Vejamos como é feito em Python: from urllib.request import urlopen html = urlopen("http://pythonscraping.com/pages/page1.html") print(html.read())

Você pode salvar esse código como scrapetest.py e executá-lo em seu terminal usando o comando: $python scrapetest.py

É bom ressaltar que, se você também tiver Python 2.x instalado em sua máquina, talvez tenha de chamar explicitamente Python 3.x executando o comando desta forma: $python3 scrapetest.py

Ele exibirá o código HTML completo da página que fica em http://bit.ly/1QjYgcd. Mais precisamente, exibirá o arquivo HTML page1.html do diretório <web root>/pages, que fica no servidor localizado no nome de domínio http://pythonscraping.com. Qual é a diferença? A maioria das páginas web modernas tem muitos arquivos de recursos associados a elas. Podem ser arquivos de imagem, arquivos JavaScript, arquivos CSS ou qualquer outro conteúdo ao qual a página em que você está interessado esteja vinculada. Quando um navegador web chega a uma tag como <img src="cuteKitten.jpg">, ele sabe que precisa fazer outra solicitação ao servidor para obter os dados do

Capítulo 1 ■ Seu primeiro web scraper

arquivo cuteKitten.jpg e gerar a página inteira para o usuário. Lembre-se: nosso script Python (ainda) não tem a lógica que solicita vários arquivos e só pode ler o arquivo HTML que solicitamos. Então como ele faz? Já que Python usa o idioma inglês nativo, a linha from urllib.request import urlopen

significa o que parece: examina o módulo Python request (encontrado dentro da biblioteca urllib) e importa apenas a função urlopen. urllib or urllib2? Se você já usou a biblioteca urllib2 de Python 2.x, deve ter notado que as coisas mudaram um pouco entre o urllib2 e o urllib. Em Python 3.x, o urllib2 foi renomeado como urllib e dividido em vários submódulos: urllib.request, urllib.parse e urllib.error. Embora os nomes de funções permaneçam quase todos iguais, verifique quais funções passaram para submódulos ao usar o novo urllib.

O urllib é uma biblioteca Python padrão (o que significa que você não precisa instalar outro recurso para executar esse exemplo) e contém funções para a solicitação de dados na Web, a manipulação de cookies e até a alteração de metadados como cabeçalhos e o agente do usuário. Ela será usada extensamente em todo o livro, logo, recomendamos que você leia a documentação Python relacionada (http://bit.ly/1FncvYE). A função urlopen é usada para abrir um objeto remoto por meio de uma rede e lê-lo. Já que a biblioteca é bem genérica (pode ler arquivos HTML, arquivos de imagem ou qualquer outro fluxo de arquivo com facilidade), faremos uso dela com muita frequência no decorrer do livro.

Introdução ao BeautifulSoup “Linda Sopa, tão rica e verdinha, Assentada em uma quente terrina! Quem não se entregaria a tamanha iguaria? Sopa noturna, sopa tão linda!”

O nome da biblioteca BeautifulSoup vem de um poema de mesmo nome de Lewis Carroll encontrado em Alice’s Adventures in Wonderland. Na

Web Scraping com Python

história, o poema é cantado por um personagem chamado Mock Turtle (sendo ele também um trocadilho que usa o popular prato vitoriano Mock Turtle Soup feito não de tartaruga, mas sim de carne de vaca). Como seu homônimo no País das Maravilhas, o BeautifulSoup tenta dar sentido ao que não o tem; ele ajuda a formatar e organizar a confusa Web corrigindo HTML inválido e nos apresentando objetos Python facilmente examináveis que representam estruturas XML.

Instalando o BeautifulSoup Já que a biblioteca BeautifulSoup não é uma biblioteca Python padrão, ela deve ser instalada. Usaremos a biblioteca BeautifulSoup (também conhecida como BS4) em todo o livro. As instruções completas para a instalação do BeautifulSoup 4 podem ser encontradas no site Crummy. com; no entanto o método básico para o Linux é: $sudo apt-get install python-bs4

e no Mac: $sudo easy_install pip

Esse comando instala o gerenciador de pacotes Python pip. Na sequência, execute o comando a seguir: $pip install beautifulsoup4

para instalar a biblioteca. Novamente, lembre-se de que, se você tiver as versões de Python 2.x e 3.x instaladas em sua máquina, pode ser preciso chamar python3 explicitamente: $python3 myScript.py

Certifique-se também de usar o comando abaixo quando instalar pacotes, ou eles podem ser instalados em Python 2.x, mas não em Python 3.x: $sudo python3 setup.py install

Usando o pip, você também pode chamar pip3 para instalar as versões dos pacotes disponibilizadas por Python 3.x: $pip3 install beautifulsoup4

Capítulo 1 ■ Seu primeiro web scraper

A instalação de pacotes no Windows é quase idêntica ao processo no Mac e no Linux. Baixe a versão mais recente do BeautifulSoup a partir do URL de download acima, navegue até o diretório no qual o descompactou e execute: >python setup.py install

Isso é tudo! Agora o BeautifulSoup será reconhecido como uma biblioteca Python em sua máquina. Você pode verificar isso abrindo um terminal Python e importando-a: $python > from bs4 import BeautifulSoup

A importação deve ser concluída sem erros. Também há um instalador .exe para o pip no Windows para que você possa instalar e gerenciar pacotes facilmente: >pip install beautifulsoup4

Mantendo as bibliotecas separadas com ambientes virtuais Se você pretende trabalhar em vários projetos Python, se precisa de uma maneira de agrupar os projetos facilmente com todas as bibliotecas associadas ou está preocupado com possíveis conflitos entre as bibliotecas instaladas, pode instalar um ambiente virtual Python para manter tudo separado e facilitar o gerenciamento. Quando você instala uma biblioteca Python sem um ambiente virtual, está instalando-a globalmente. Geralmente isso requer que seja um administrador ou entre como root e que exista uma biblioteca Python para cada usuário e para cada projeto existentes na máquina. Felizmente, é fácil criar um ambiente virtual: $ virtualenv scrapingEnv

Esse comando cria um novo ambiente chamado scrapingEnv, que você deve ativar para usar: $ cd scrapingEnv/ $ source bin/activate

Web Scraping com Python Após o ambiente ser ativado, seu nome aparecerá no prompt de linha de comando, lembrando-o de que atualmente você está trabalhando com ele. Qualquer biblioteca que você instalar ou script que executar só poderá ser encontrado nesse ambiente virtual. Trabalhando no ambiente recém-criado scrapingEnv, posso instalar e usar o BeautifulSoup, por exemplo: (scrapingEnv)ryan$ pip install beautifulsoup4 (scrapingEnv)ryan$ python > from bs4 import BeautifulSoup >

Posso deixar o ambiente virtual com o comando de desativação; depois disso, não poderei acessar mais nenhuma biblioteca instalada dentro dele: (scrapingEnv)ryan$ deactivate ryan$ python > from bs4 import BeautifulSoup Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: No module named 'bs4'

Manter todas as bibliotecas separadas por projeto também ajuda a fechar a pasta inteira do ambiente e enviá-la para outras pessoas. Contanto que elas tenham a mesma versão de Python instalada em suas máquinas, o código funcionará a partir do ambiente virtual sem demandar que elas instalem bibliotecas por conta própria. Não vamos instruí-lo a usar um ambiente virtual em todos os exemplos do livro, mas lembre-se de que você pode aplicá-lo quando quiser tendo apenas que ativá-lo antecipadamente.

Executando o BeautifulSoup O objeto mais usado da biblioteca BeautifulSoup é, apropriadamente, o objeto BeautifulSoup. Vamos vê-lo em ação modificando o exemplo encontrado no começo deste capítulo:

Capítulo 1 ■ Seu primeiro web scraper

from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.pythonscraping.com/exercises/exercise1.html") bsObj = BeautifulSoup(html.read()); print(bsObj.h1)

A saída é: <h1>An Interesting Title</h1>

Como no exemplo anterior, estamos importando a função urlopen e chamando html.read() para acessar o conteúdo HTML da página. O conteúdo HTML é então transformado em um objeto BeautifulSoup, com a estrutura a seguir: • html → <html><head>...</head><body>...</body></html> —head → <head><title>A Useful Page<title></head> — title → <title>A Useful Page</title> —body → <body><h1>An Int...</h1><div>Lorem ip...</div></body> — h1 → <h1>An Interesting Title</h1> — div → <div>Lorem Ipsum dolor...</div>

Observe que a tag <h1> que extraímos da página foi aninhada a duas camadas de profundidade na estrutura de nosso objeto BeautifulSoup (html → body → h1). No entanto, quando a acessamos no objeto, ela é chamada diretamente: bsObj.h1

Na verdade, qualquer uma das chamadas de função a seguir produziria a mesma saída. bsObj.html.body.h1 bsObj.body.h1 bsObj.html.h1

Esperamos que essa pequena amostra da função BeautifulSoup tenha lhe dado uma ideia do poder e da simplicidade dessa biblioteca. Praticamente qualquer informação pode ser extraída de arquivos HTML (ou XML), contanto que tenha sido inserida em uma tag identificadora ou esteja próxima a uma. No capítulo 3, nos aprofundaremos em algumas chamadas mais complexas da função BeautifulSoup, além de examinar as expressões

Web Scraping com Python

regulares e verificar como elas podem ser usadas com o BeautifulSoup na extração de informações a partir de sites.

Conectando-se de maneira confiável A Web é uma bagunça. Os dados são mal formatados, os sites ficam inativos e faltam tags de fechamento. Uma das experiências mais frustrantes no web scraping é ir dormir com um scraper sendo executado, sonhando com todos os dados que teremos no banco de dados no dia seguinte, e descobrir que ele encontrou um erro em algum formato de dados inesperado e parou de ser executado no momento em que deixamos de olhar para a tela. Em situações como esta, você pode ficar tentado a xingar o desenvolvedor que criou o site (e os dados mal formatados), mas deve xingar a si próprio por não prever a exceção! Examinaremos a primeira linha de nosso scraper, após as instruções de importação, e pensaremos em como manipular qualquer exceção que ela possa lançar: html = urlopen("http://www.pythonscraping.com/exercises/exercise1.html")

Há duas coisas importantes que podem dar errado nessa linha: • a página não ser encontrada no servidor (ou ocorrer algum erro na sua recuperação); • o servidor não ser encontrado. Na primeira situação, uma mensagem de erro HTTP será retornada. Essa mensagem pode ser “404 Page Not Found,” “500 Internal Server Error”, etc. Em todos os casos, a função urlopen lançará a exceção genérica “HTTPError”. Podemos manipulá-la da seguinte forma: try: html = urlopen("http://www.pythonscraping.com/exercises/exercise1.html") except HTTPError as e: print(e) #retorna null, break ou executa algum outro 'Plano B' else: #o programa continua. Nota: se você retornar ou sair na #captura da exceção, não precisará usar a instrução "else"

Capítulo 1 ■ Seu primeiro web scraper

Se um código de erro HTTP for retornado, então o programa exibirá o erro e não executará o resto do programa que vem após a instrução else. Se o servidor não for encontrado (se, digamos, http://www.pythonscraping.com estiver inativo ou o URL for digitado incorretamente), urlopen retornará um objeto None. Esse objeto é análogo ao valor null de outras linguagens de programação. Podemos adicionar uma verificação para saber se o HTML retornado é None: if html is None: print("URL is not found") else: #o programa continua

É claro que, se a página for recuperada com sucesso no servidor, ainda haverá a questão de o conteúdo não ser o esperado. Ao acessar uma tag em um objeto BeautifulSoup, devemos adicionar uma verificação para saber se ela realmente existe. Se você tentar acessar uma tag que não exista, BeautifulSoup retornará um objeto None. O problema é que tentar acessar uma tag em um objeto None resultará no lançamento de um AttributeError. A linha a seguir (em que nonExistentTag é uma tag inventada, e não o nome de uma função BeautifulSoup real): print(bsObj.nonExistentTag)

retorna um objeto None. É perfeitamente normal esse objeto ser manipulado e verificado. O problema surge quando não o verificamos e tentamos chamar nele alguma outra função, como ilustrado na linha abaixo: print(bsObj.nonExistentTag.someTag)

que retorna a exceção: AttributeError: 'NoneType' object has no attribute 'someTag'

Mas como podemos nos proteger dessas duas situações? A maneira mais fácil é abordá-las explicitamente: try: badContent = bsObj.nonExistingTag.anotherTag except AttributeError as e: print("Tag was not found")

Web Scraping com Python else: if badContent == None: print ("Tag was not found") else: print(badContent)

Inicialmente parece trabalhosa essa verificação e a manipulação de cada erro, mas é fácil adicionar alguma reorganização ao código para torná-lo menos difícil de escrever (e, o mais importante, muito menos difícil de ler). Por exemplo, o código a seguir é o mesmo scraper escrito de uma maneira um pouco diferente: from urllib.request import urlopen from urllib.error import HTTPError from bs4 import BeautifulSoup def getTitle(url): try: html = urlopen(url) except HTTPError as e: return None try: bsObj = BeautifulSoup(html.read()) title = bsObj.body.h1 except AttributeError as e: return None return title title = getTitle("http://www.pythonscraping.com/exercises/exercise1.html") if title == None: print("Title could not be found") else: print(title)

Nesse exemplo, criamos uma função getTitle, que retorna o título da página ou um objeto None se houver algum problema em sua recuperação. Dentro de getTitle, estamos procurando um HTTPError, como no exemplo anterior, e também encapsulamos duas das linhas do BeautifulSoup dentro de uma única instrução try. Um AttributeError pode ser lançado

Capítulo 1 ■ Seu primeiro web scraper

por uma dessas linhas (se o servidor não existir, html será um objeto None, e html.read() lançará um AttributeError). Na verdade, poderíamos inserir quantas linhas quiséssemos dentro da mesma instrução try, ou chamar outra função totalmente nova, que possa lançar um AttributeError a qualquer momento. Ao criar scrapers, é importante que você pense no padrão geral de seu código para que ele manipule exceções e seja ao mesmo tempo legível. Provavelmente você também vai querer fazer uso pesado da reutilização de código. A presença de funções genéricas como getSiteHTML e getTitle (complementadas com uma manipulação de exceções abrangente) facilita a execução rápida – e confiável – do scraping na Web.