Issuu on Google+


w w w. h a n b i t . c o . k r

이것이 프로그래밍이다! 저자 직강 동영상 제공!

이것이 안드로이드다

이것이 C언어다

이것이 자바다

진정한 안드로이드 개발자로 이끌어줍니다.

세상에 없던 새로운 C언어 입문서 탄생!

가장 중요한 프로그래밍 언어를 하나 배워야 한다면, 결론은 자바다!

SDK 5.0 롤리팝 호환!

삼성, LG에서 펼쳐졌던 전설의 명강의를 풀타임 동영상 강좌로!

중급 개발자로 나아가기 위한 람다식, JavaFX, NIO 수록

이보다 더 확실한 방법은 없다, 칠판강의

책만 보고, 동영상 강좌로도 만족하지 못했다면 Daum 카페 '슈퍼드로이드'에서 만나요

전체 동영상 강좌 유투브 전격 공개!

자바의 모든 것을 알려주는 인터넷 강의 궁금한 것은 카페에서!

cafe.daum.net/superdroid

http://goo.gl/tJK3Tu

cafe.naver.com/thisisjava

박성근 저 | 1,164쪽 | 45,000원

서현우 저 | 708쪽 | 25,000원

신용권 저 | 1,224쪽 | 30,000원


w w w. h a n b i t . c o . k r

지금은 모던 웹 시대! 모던 웹 디자인을 위한

모던 웹을 위한

HTML5 + CSS3 입문 HTML5 분야 부동의 1위 도서

JavaScript + jQuery 입문

HTML5 표준안 확정에 맞춘 완전 개정판의 귀환!

자바스크립트에서 제이쿼리, 제이쿼리 모바일까지 한 권으로 끝낸다!

HTML5 권고안과 최신 웹 브라우저 환경 대응

시대의 흐름에 맞춰 다시 쓴 자바스크립트 교과서

윤인성 저 | 624쪽 | 30,000원

윤인성 저 | 980쪽 | 32,000원

모던 웹을 위한

HTML5 + CSS3 정복

Node.js

프로그래밍 페이스북, 월마트, 링크드인은 왜 Node.js를 선택했는가?

필요한 것만 배워 바로 현장에서 쓰는 HTML5

이 물음에 대한 답은 Node.js가 보여주는 빠른 처리 능력 때문이다.

순서대로 읽으며 실습할 수 있는 HTML5 자습서

윤인성 저 | 484쪽 | 25,000원

김상형 저 | 700쪽 | 32,000원


| 표지 설명 | 책 표지에 실은 동물은 사바나천산갑Smutsia temminckii입니다. 사바나천산갑은 무리를 짓지 않고 홀로 지내는 야행성 포유류이며 아르마딜로, 나무늘보, 개미핥기 등과 유전적으로 가깝습니다. 남아프리카와 동아프리카에서 서식합니다. 아프리카 에는 천산갑 종이 셋 더 있지만, 모두 심각하게 멸종 위협을 받고 있습니다. 완전히 자란 사바나천산갑은 30센티미터에서 1미터 정도의 길이이며, 무게 는 단 1.5킬로그램부터 33킬로그램까지 다양합니다. 아르마딜로와 비슷하게 몸 을 보호하는 비늘에 덮여 있습니다. 비늘 색은 짙은 갈색, 옅은 갈색, 올리브색 등입니다. 어린 사바나천산갑의 비늘 은 분홍색에 가깝습니다. 위협을 받으면 꼬리의 비늘은 몸을 보호하는 무기로 돌변해 공격자를 베거나 상처 입힐 수 있습 니다. 항문 근처에 있는 샘에서 고약한 냄새가 나는 산을 분비해, 스컹크와 비슷한 방식으로 자신을 보호하기도 합니다. 이 산은 잠재적 공격자에게 경고를 보내는 동시에 영역을 표시하는 역할도 합니다. 배 쪽은 비늘 대신 털이 조금 나 있습니다. 개미핥기와 마찬가지로 사바나천산갑도 개미와 흰개미를 먹고 삽니다. 혀가 매우 길어서 통나무나 개미집을 핥아 개미를 사냥하기에 적합합니다. 자신의 몸보다도 길고, 휴식을 취할 때는 가슴 속에 넣고 다닙니다. 사바나천산갑은 홀로 지내는 동물이지만, 다 자라면 지하 깊숙한 굴에서 삽니다. 보통은 땅돼지나 혹멧돼지가 쓰다 버린 굴을 찾아서 삽니다. 물론 앞발에 긴 곡선형 발톱이 세 개 있어 필요하다면 문제없이 굴을 팔 수 있습니다. 오라일리에서 표지에 소개하는 동물 중 상당수는 멸종 위협에 처해 있습니다. 이들은 모두 우리 세계에 중요한 동물입니 다. 이 동물들을 돕고 싶다면 animals.oreilly.com을 참고하십시오. 표지 그림은 라이데커의 『Royal Natural History』에서 가져왔습니다.

파이썬으로 웹 크롤러 만들기 : 초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법 초판발행 2016년 12월 1일 지은이 라이언 미첼 / 옮긴이 한선용 / 펴낸이 김태헌 펴낸곳 한빛미디어 (주) / 주소 서울시 마포구 양화로 7길 83 한빛미디어(주) IT출판부 전화 02 – 325 – 5544 / 팩스 02 – 336 – 7124 등록 1999년 6월 24일 제10 – 1779호 / ISBN 978 – 89 – 6848 – 469 – 8

93000

총괄 전태호 / 책임편집 김창수 / 기획 이상복 / 편집 백지선 디자인 표지 이원재    내지 김연정    조판 백지선 영업 김형진, 김진불, 조유미 / 마케팅 박상용, 송경석, 변지영 / 제작 박성우, 김정우 이 책에 대한 의견이나 오탈자 및 잘못된 내용에 대한 수정 정보는 한빛미디어(주)의 홈페이지나 아래 이메일로 알려주십시오. 잘못된 책은 구입하신 서점에서 교환해드립니다. 책값은 뒤표지에 표시되어 있습니다. 한빛미디어 홈페이지 www.hanbit.co.kr / 이메일 ask@hanbit.co.kr

© 2016 Hanbit Media Inc. Authorized Korean translation of the English edition of Web Scraping with Python, ISBN 9781491910290 © 2015 Ryan Mitchell This translation is published and sold by permission of O’Reilly Media, Inc., which owns or controls all rights to publish and sell the same. 이 책의 저작권은 오라일리와 한빛미디어(주)에 있습니다. 저작권법에 의해 보호를 받는 저작물이므로 무단 복제 및 무단 전재를 금합니다.

지금 하지 않으면 할 수 없는 일이 있습니다. 책으로 펴내고 싶은 아이디어나 원고를 메일 ( writer@hanbit.co.kr ) 로 보내주세요. 한빛미디어(주)는 여러분의 소중한 경험과 지식을 기다리고 있습니다.


Web Scraping with Python 파이썬으로 웹 크롤러 만들기


지은이·옮긴이 소개

지은이

라이언 미첼 Ryan Mitchell

웹 크롤링, 보안, 데이터 과학에 관심이 많은 개발자. 현재 글로벌 펀드사 헤지서브HedgeServ에서 시니어 개발자로 근무하고 있습니다. 프랭클린 W. 올린 공과대학교를 졸업했고 하버드 대학교 에서 소프트웨어 엔지니어링 석사 과정을 밟았습니다. 어바인Abine에서 웹 크롤러와 봇을 만들 었고, 링크드라이브LinkeDrive에서는 API 및 데이터 분석 도구를 만들었습니다. 금융업 및 유통업 분야에서 웹 크롤링 프로젝트 컨설팅을 하고 있고, 교육과 강연 활동도 활발하게 펼치고 있습 니다. 본서 외 저서로 『Instant Web Scraping with Java』(Packt, 2013 )가 있습니다.

옮긴이

한선용

웹 표준과 자바스크립트에 관심이 많은 번역가. 2008년부터 웹 관련 일을 했으며, ‘WCAG

2.0을 위한 일반적 테크닉’ 등의 문서를 번역해 웹에 올렸습니다. 번역서로 『한 권으로 끝내는 Node & Express』(2015 ), 『자바스크립트를 말하다』(2014 ), 『데이터 시각화를 위한 데이터 인사이트』( 2014 ), 『모던 웹을 요리하는 초간편 HTML5 Cookbook』( 2012 ), 『Head First

jQuery』( 2012 ), 『jQuery Mobile』( 2012 ), 『자바스크립트 성능 최적화』( 2011, 이상 한빛 미디어), 『자바스크립트 프로그래밍』(2013 ), 『처음 배우는 jQuery』(2012 ), 『에릭 마이어의

CSS 노하우』(2011, 이상 인사이트) 등이 있습니다.

4


옮긴이의 말

필자가 웹 스크레이핑에 대해 이야기할 때마다 누군가는 항상 이렇게 묻습니다. “구글 같은 기업은 어떻게 만들어지나요?” 필자의 대답은 항상 같습니다. “첫째, 수십억 달러를 모아 세 계에서 가장 훌륭한 데이터센터를 만들고 세계 곳곳에 배치합니다. 둘째, 웹 크롤러를 만듭 니다.”

구슬이 서 말이라도 꿰어야 보배라는 속담이 있습니다. 길바닥에 돈이 굴러다녀도 주워야 내 것이라는 말도 있지요. 인터넷에 아무리 많은 정보가 있어도 수집하고 분석할 수 없다면 큰 의 미가 없을 겁니다. 하지만 그 많은 것들을, 일일이 손으로 찾아다니며 직접 확인하는 것은 이제 불가능한 일이 됐 습니다. 그래서 필요해진 것이 웹 크롤러입니다. 스스로 링크를 타고 움직이면서 정보를 수집 하는 웹 크롤러가 이 책의 주제입니다. 처음 이 책의 번역을 제안받았을 때는 그저 크롤러를 만들고 HTML 구조를 분석하는 책이겠거 니 생각했습니다만, 책을 쭉 읽어보니 생각보다 훨씬 다양한 분야를 다루고 있어 몹시 흥미로 웠습니다. 케빈 베이컨의 여섯 다리라는 문제를 제시하고 몇 장에 걸쳐서 다양한 지식을 습득 한 후 마침내 문제를 해결하는 구성도 좋았고, n-그램과 자연어 처리 부분을 읽고는 업무에 적 용할 아이디어와 영감이 떠올라 흥분을 느끼기도 했습니다. 즉, 역자는 이 책을 번역하면서 아 주 즐거웠습니다. 독자 여러분도 즐겁게 읽으시길 바랍니다. 저자의 깃허브 저장소에 있는 예제 파일 외에 11장에 필요한 이미지 파일 등은 한빛미디어 홈 페이지(http://www.hanbit.co.kr/src/2469 )에서 받을 수 있습니다. 좋은 책을 소개해주신 한빛미디어 이상복 편집자님께, 좋은 책을 쓴 라이언 미첼에게 감사합니 다. 영문 원고 정리를 도와준 시즈카 호소이 님께 감사합니다. 모든 것에 대해, 부모님께 항상 감사합니다. 한선용

5


이 책에 대하여

컴퓨터 프로그래밍은 공부하지 않은 이들에게는 마치 마술처럼 보일 수도 있습니다. 프로그래 밍이 마술이라면, 웹 스크레이핑은 마법일 겁니다. 놀라울 정도로 간단하면서도 그 결과는 정 말 인상적이고 유용하니까요. 사실 필자는 소프트웨어 엔지니어로 일해오면서 웹 스크레이핑만큼 프로그래머와 일반인이 모 두 흥미로워하는 분야를 별로 본 적이 없었습니다. 단순한 봇을 만들어 데이터를 수집하고 터 미널에 보내거나 데이터베이스에 저장하는 일이 어렵지 않다면, 몇 번을 하든 똑같이 스릴과 가능성을 느끼게 될 겁니다. 웹 스크레이핑에 관해 이야기할 때마다 프로그래머들이 오해하고 혼란스러워하는 걸 보는 건 불행한 일입니다. 어떤 사람들은 웹 스크레이핑이 적법한 일인지 확신하지 못하고(적법합니 다), 자바스크립트, 멀티미디어, 쿠키로 가득한 최신 웹을 어떻게 처리할지 모르겠다는 사람도 있었습니다. 일부는 API와 웹 스크레이퍼를 혼동하기도 했습니다. 웹 스크레이핑에 관한 흔한 의문과 오해를 종식하고, 가장 널리 쓰이는 웹 스크레이핑 작업에 관해 상세한 가이드를 제공하기 위해 이 책을 썼습니다.

1장부터 시작해 주기적으로 코드 샘플을 제공해 컨셉을 보여드릴 겁니다. 이들 코드 샘플은 공 개한 것이므로 저작권 표시 없이 사용해도 무방합니다(물론 표시한다면 감사하겠습니다). 모 든 코드 샘플은 필자의 깃허브 저장소( http://www.pythonscraping.com/code )에서도 보거 나 내려받을 수 있습니다.

웹 스크레이핑이란? 인터넷에서 자동으로 데이터를 수집하는 일은 거의 인터넷 자체만큼 오래됐습니다. 웹 스크레 이핑 자체는 새로운 개념이 아니지만, 그동안은 화면 스크레이핑이나 데이터 마이닝, 웹 하베 스팅, 또는 그 비슷한 표현이 더 많이 쓰였습니다. 최근에는 웹 스크레이핑이라는 용어가 더 널 리 쓰이므로 책에서도 이 표현을 사용합니다. 가끔 웹 스크레이핑 프로그램 자체를 봇이라 부 르기도 할 겁니다.

6


이론적으로는, 웹 스크레이핑이란 데이터를 수집하는 작업 전체를 말하며, API를 활용하는 프 로그램이나 사람이 직접 웹 브라우저를 조작하는 방법만 제외하면 어떤 방법을 쓰든 상관없습 니다. 가장 널리 쓰이는 방법은 프로그램을 만들어 웹 서버에 쿼리를 보내 데이터(보통 HTML 이나 기타 웹 페이지를 구성하는 파일)를 요청하고, 이를 파싱해 필요한 정보를 추출하는 작업 을 자동으로 하는 겁니다. 현실적으로는, 웹 스크레이핑은 데이터 분석과 정보 보안 같은 다양한 프로그래밍 테크닉과 기 술을 포괄합니다. 1부에서는 웹 스크레이핑과 크롤링의 기본을 설명하고, 2부에서는 고급 주 제 몇 가지를 살펴봅니다.

왜 웹 스크레이핑을 써야 할까요? 오직 브라우저만 사용해 인터넷에 접근한다면 수많은 가능성을 놓치고 있는 겁니다. 브라우저 는 자바스크립트를 실행하고 이미지를 표시하며 객체를 사람이 읽기 편한 형식으로 표시하는 데 뛰어나지만, 웹 스크레이퍼는 다량의 데이터를 수집하고 처리하는 데 뛰어납니다. 모니터의 좁은 창에서 페이지를 하나씩 볼 필요 없이, 데이터베이스에서 수천, 심지어 수백만 페이지를 즉시 볼 수 있습니다. 또한 웹 스크레이퍼는 전통적 검색 엔진으로는 불가능했던 일도 할 수 있습니다. 구글에서 ‘보 스턴까지 가는 가장 싼 항공편’을 검색하면 인기 있는 항공편 검색 사이트와 광고가 뒤섞여 나 올 겁니다. 구글은 이들 웹사이트의 콘텐츠 페이지에 기재된 내용만 알 뿐, 항공편 검색 애플리 케이션에서 사용할 수 있는 다양한 쿼리 결과를 정확히 알지는 못합니다. 하지만 잘 만들어진 웹 스크레이퍼는 다양한 웹사이트에서 시간별로 항공편 비용을 검색해 이를 차트로 만들고, 언 제 항공권을 사는 게 가장 좋을지도 알려줄 수 있습니다. ‘데이터 수집을 하기 위해 API가 존재하는 것 아닌가?’ 하고 생각할 수도 있습니다(API가 뭔지 잘 모른다면 4장을 보십시오). 물론 목적에 딱 맞는 API를 찾는다면 정말 좋을 겁니다. API를 이용하면 깔끔하게 구성된 데이터를 한 서버에서 다른 서버로 간편하게 옮길 수 있으니까요.

7


트위터 포스트나 위키백과 페이지처럼 다양한 데이터 타입에 맞는 API를 찾을 수 있습니다. 일반적으로 API가 존재한다면 같은 데이터를 수집하기 위해 일부러 봇을 만들기보다는 API를 쓰는 편이 낫습니다. 하지만 다음과 같은 이유로 딱 맞는 API가 존재하지 않을 수도 있습니다. • 여러 사이트에서 데이터를 수집해야 하는데 이 사이트들의 API가 서로 맞지 않을 수 있습니다. • 필요한 데이터가 매우 작고 제한적이어서 웹마스터가 API를 준비하지 않았을 수도 있습니다. • 사이트에 API를 만들 만한 인프라나 기술적인 능력이 없을 수도 있습니다. • 설령 API가 존재하더라도 요청 크기나 빈도에 제한이 있을 수 있고, 데이터 타입이나 형식이 당신의 목적 에 맞지 않을 수도 있습니다.

이런 면에서 웹 스크레이핑이 필요합니다. 몇 가지 예외를 제외하면, 무언가를 브라우저에서 볼 수 있다면 그것은 파이썬 스크립트로도 접근할 수 있습니다. 스크립트로 접근할 수 있다면 데이터베이스에 저장도 가능합니다. 데이터베이스에 저장할 수 있다면 그 데이터로 할 수 있는 일은 무궁무진합니다. 거의 무한한 데이터에 접근할 수 있게 되면서, 대단히 실용적인 애플리케이션들이 많이 만들어 졌습니다. 뉴스 사이트의 데이터에서 시장 예측 프로그램이 탄생했고 번역된 텍스트들을 바탕 으로 기계번역 프로그램이 만들어졌으며, 심지어 건강 포럼의 데이터는 의학적 분석에 지대한 공헌을 했습니다. 웹 스크레이핑은 예술 세계에도 창조의 새 지평을 열었습니다. 2006년에 조너선 해리스와 셉 캠버가 주도한 프로젝트 ‘We Feel Fine’(http://wefeelfine.org )은 영어로 된 블로그 사이 트들을 검색해 ‘I feel’이나 ‘I am feeling’으로 시작하는 구절들을 찾았습니다. 이를 통해 세계 인들이 매일, 매분 어떻게 느끼는지 나타내는 데이터 시각화를 완성할 수 있었습니다. 당신이 일하는 분야가 무엇이든, 웹 스크레이핑을 통해 비즈니스를 더 효과적으로 만들고 생산 성을 향상시키거나 심지어 완전히 새로운 분야로 뻗어나갈 방법이 거의 항상 존재합니다.

8


이 책의 구성 이 책은 웹 스크레이핑을 소개하는 것에 그치지 않고 오늘날 웹에 존재하는 거의 모든 종류의 데이터를 수집할 수 있는 상세한 가이드로 읽을 수 있게 디자인되었습니다. 이 책에서는 파이 썬 언어를 사용하고 파이썬의 기본을 설명하기도 하지만, 이 책을 파이썬 교재로 사용할 수는 없습니다. 전문 프로그래머가 아니고 파이썬에 대해서도 전혀 모른다면 이 책은 조금 어려울 수 있습니 다. 하지만 경험 많은 프로그래머라면 필요한 내용을 찾기는 쉬울 겁니다. 부록 A에서는 이 책 전체에서 사용할 파이썬 3.x를 설치하고 사용하는 방법을 설명합니다. 파이썬 2.x만 사용해봤 거나 3.x를 설치하지 않았다면 부록 A를 읽어보길 권합니다. 더 상세한 파이썬 가이드가 필요하다면 조금 길긴 하지만 빌 루바노빅의 『처음 시작하는 파이 썬』(한빛미디어, 2015 )을 권합니다. 너무 긴 책이 부담스럽다면 제시카 매켈러의 동영상 강의 ‘Introduction to Python’( http://shop.oreilly.com/product/110000448.do )도 훌륭한 교재입니다. 부록 C는 미국에서 스크레이퍼와 그를 통해 얻은 데이터를 적법하게 사용하려면 어떻게 해야 하는지에 관한 핵심 문제를 사례별로 다룹니다. 기술 서적은 종종 언어나 기술 한 가지에 집중하지만, 웹 스크레이핑은 데이터베이스, 웹 서버,

HTTP, HTML, 인터넷 보안, 이미지 처리, 데이터 과학, 기타 도구 등을 사용해야 하는 여러 주제로 이루어집니다. 이 책에서는 인터넷을 통해 원격 소스에서 데이터를 수집한다는 목적에 부합하는 선에서 이들을 모두 설명할 겁니다.

1부에서는 웹 스크레이핑과 웹 크롤링에 대해 깊이 있게 설명하며, 책에서 사용할 라이브러리 에 중점을 둡니다. 1부는 이들 라이브러리와 테크닉에 관한 상세한 레퍼런스로 활용할 수도 있 습니다(예외도 있지만, 그럴 때는 참조할 내용을 추가로 제공합니다).

2부에서는 독자가 웹 스크레이퍼를 만들 때 유용한 추가 주제를 다룹니다. 하지만 이들 주제는

9


불행히도 한 장에서 설명하기에는 너무 방대합니다. 따라서 추가 정보를 위해 다른 자원을 자 주 참조할 겁니다. 이 책은 원하는 웹 스크레이핑 테크닉이나 정보를 쉽게 찾을 수 있도록 만들었습니다. 어떤 개 념이나 코드가 이전 장에서 언급한 내용을 바탕으로 만들어졌다면 참조한 섹션을 명시적으로 언급할 겁니다.

10


감사의 말

가장 좋은 제품이 사용자의 피드백 속에서 만들어지는 것과 마찬가지로, 수많은 협력자, 독려 자, 편집자의 도움이 없었다면 이 책 역시 유용한 형태로 만들어지지는 않았을 겁니다. 이 다소 독특한 주제에 대해 오라일리 스탭이 보여준 감탄스러운 지원에 감사합니다. 필자의 원고를 읽 으며 아낌없이 조언해준 친구들과 가족, 그리고 링크드라이브의 동료들에게 감사합니다. 특히 앨리슨 맥도널드와 브라이언 앤더슨, 미겔 그린버그, 에릭 반위크이 준 피드백, 도움, 애정 에 감사합니다. 이 책의 일부 섹션과 코드 샘플은 거의 그들이 만들어준 거나 마찬가지입니다. 지난 9개월 동안 무한한 참을성을 보여준 예일 스펙트에게도 감사합니다. 스펙트는 처음에 이 프로젝트를 진행할 수 있도록 용기를 주었고, 쓰는 동안 계속 스타일에 관해 피드백을 주었습 니다. 그가 없었다면 이 책을 쓰는 데 걸리는 시간은 절반 정도로 줄었겠지만, 별로 도움이 되 는 책이 되지도 않았을 겁니다. 마지막으로 짐 월도에게 감사합니다. 필자가 젊고 감수성이 예민하던 십대에 리눅스 박스와 『The

Art and Science of C』를 보내주지 않았다면 아마 필자의 오늘은 존재하지 않았을 겁니다.

11


CONTENTS

Part

지은이·옮긴이 소개 �������������������������������������������������������������������������������������������������������� 4

옮긴이의 말 �������������������������������������������������������������������������������������������������������������������� 5

이 책에 대하여 ���������������������������������������������������������������������������������������������������������������� 6

감사의 말 ��������������������������������������������������������������������������������������������������������������������� 11

I

CHAPTER

스크레이퍼 제작

1 첫 번째 웹 스크레이퍼 1.1 연결������������������������������������������������������������������������������������������������������������������������������ 21 1.2  BeautifulSoup 소개������������������������������������������������������������������������������������������������������� 24

CHAPTER

1.2.1  BeautifulSoup 설치���������������������������������������������������������������������������������������������� 25

1.2.2  BeautifulSoup 실행���������������������������������������������������������������������������������������������� 28

1.2.3 신뢰할 수 있는 연결������������������������������������������������������������������������������������������������ 29

2 고급 HTML 분석 2.1 닭 잡는 데 소 잡는 칼을 쓸 필요는 없습니다.......................................................................... 33 2.2 다시 BeautifulSoup........................................................................................................ 34

2.2.1  find()와 findAll()............................................................................................. 36

2.2.2 기타 BeautifulSoup 객체........................................................................................ 39

2.2.3 트리 이동............................................................................................................... 39

2.3 정규 표현식..................................................................................................................... 44 2.4 정규 표현식과 BeautifulSoup........................................................................................... 48 2.5 속성에 접근하기............................................................................................................... 50

12


2.6 람다 표현식..................................................................................................................... 50 2.7  BeautifulSoup를 넘어..................................................................................................... 51

CHAPTER

3 크롤링 시작하기 3.1 단일 도메인 내의 이동....................................................................................................... 53 3.2 전체 사이트 크롤링........................................................................................................... 58

3.2.1 전체 사이트에서 데이터 수집..................................................................................... 61

3.3 인터넷 크롤링.................................................................................................................. 63 3.4 스크래파이를 사용한 크롤링............................................................................................... 68

CHAPTER

4 API 사용 4.1  API는 어떻게 동작하는가.................................................................................................. 76 4.2 공통 표기법..................................................................................................................... 77

4.2.1 메서드................................................................................................................... 77

4.2.2 인증. .................................................................................................................... 78

4.3 응답............................................................................................................................... 79

4.3.1  API 호출............................................................................................................... 80

4.4 에코 네스트..................................................................................................................... 81

4.4.1 몇 가지 예제........................................................................................................... 81

4.5 트위터............................................................................................................................ 83

4.5.1 시작하기................................................................................................................ 83

4.5.2 몇 가지 예제........................................................................................................... 85

4.6 구글 API........................................................................................................................ 87

4.6.1 시작하기................................................................................................................ 88

4.6.2 몇 가지 예제........................................................................................................... 89

13


CONTENTS

4.7  JSON 파싱.................................................................................................................... 91 4.8 모든 것을 하나로.............................................................................................................. 93 4.9 마치며............................................................................................................................ 98

CHAPTER

5 데이터 저장 5.1 미디어 파일..................................................................................................................... 99 5.2 데이터를 CSV로 저장..................................................................................................... 102 5.3  MySQL....................................................................................................................... 105

5.3.1  MySQL 설치....................................................................................................... 105

5.3.2 기본 명령어.......................................................................................................... 108

5.3.3 파이썬과의 통합.................................................................................................... 111

5.3.4 데이터베이스 테크닉과 모범 사례............................................................................. 115

5.3.5 여섯 다리와 MySQL............................................................................................. 117

5.4 이메일.......................................................................................................................... 120

CHAPTER

6 문서 읽기 6.1 문서 인코딩................................................................................................................... 123 6.2 텍스트.......................................................................................................................... 124

6.2.1  텍스트 인코딩과 인터넷......................................................................................... 125   CSV............................................................................................................................

6.3

129

6.3.1  CSV 파일 읽기..................................................................................................... 130

6.4  PDF............................................................................................................................ 132 6.5 마이크로소프트 워드와 .docx.......................................................................................... 134

14


Part

II

CHAPTER

고급 스크레이핑

7 지저분한 데이터 정리하기 7.1 코드로 정리하기............................................................................................................. 141

7.1.1 데이터 정규화....................................................................................................... 144

7.2 사후 정리...................................................................................................................... 146

CHAPTER

7.2.1 오픈리파인........................................................................................................... 147

8 자연어 읽고 쓰기 8.1 데이터 요약................................................................................................................... 154 8.2 마르코프 모델................................................................................................................ 157

8.2.1 위키백과의 여섯 다리: 결론..................................................................................... 161

8.3 자연어 툴킷................................................................................................................... 165

8.3.1 설치. .................................................................................................................. 165

8.3.2  NLTK를 사용한 통계적 분석................................................................................... 166

8.3.3  NLTK를 사용한 사전적 분석................................................................................... 169

8.4 추가 자료...................................................................................................................... 174

CHAPTER

9 폼과 로그인 뚫기 9.1 파이썬 requests 라이브러리........................................................................................... 175 9.2 기본적인 폼 전송............................................................................................................ 176 9.3 라디오 버튼, 체크박스, 기타 필드....................................................................................... 179 9.4 파일과 이미지 전송......................................................................................................... 180 9.5 로그인과 쿠키 처리......................................................................................................... 181

15


CONTENTS

9.5.1  HTTP 기본 접근 인증............................................................................................ 183

9.6 기타 폼 문제.................................................................................................................. 184

CHAPTER

10 자바스크립트 스크레이핑 10.1 자바스크립트에 관한 간단한 소개.................................................................................... 186 10.1.1 널리 쓰이는 자바스크립트 라이브러리.................................................................. 187

10.2  Ajax와 동적 HTML..................................................................................................... 190 10.2.1 셀레니움으로 파이썬에서 자바스크립트 실행. ........................................................ 191

10.3 리다이렉트 처리.......................................................................................................... 198

CHAPTER

11 이미지 처리와 텍스트 인식 11.1 라이브러리 개관.......................................................................................................... 202 11.1.1 필로............................................................................................................... 202 11.1.2 테서랙트......................................................................................................... 203 11.1.3 넘파이............................................................................................................ 204

11.2 형식이 일정한 텍스트 처리............................................................................................ 205 11.2.1 웹사이트 이미지에서 텍스트 스크레이핑하기. ........................................................ 208

11.3  CAPTCHA 읽기와 테서랙트 훈련.................................................................................. 211 11.3.1 테서랙트 훈련.................................................................................................. 213

11.4  CAPTCHA 가져오기와 답 보내기 ................................................................................. 218

CHAPTER

12 스크레이핑 함정 피하기 12.1 스크레이핑의 윤리에 관해............................................................................................. 222

16


12.2 사람처럼 보이기.......................................................................................................... 223 12.2.1 헤더를 수정하십시오......................................................................................... 223 12.2.2 쿠키 처리........................................................................................................ 225 12.2.3 타이밍이 가장 중요합니다.................................................................................. 227

12.3 널리 쓰이는 폼 보안 기능.............................................................................................. 228 12.3.1 숨긴 필드 값.................................................................................................... 228 12.3.2 허니팟 피하기.................................................................................................. 229

12.4 사람처럼 보이기 위한 체크리스트.................................................................................... 232

CHAPTER

13 스크레이퍼로 웹사이트 테스트하기 13.1 테스트 입문................................................................................................................ 236 13.1.1 단위 테스트란?................................................................................................ 236

13.2 파이썬 unittest........................................................................................................ 237 13.2.1 위키백과 테스트............................................................................................... 237

13.3 셀레니움을 사용한 테스트............................................................................................. 240 13.3.1 사이트 조작..................................................................................................... 241

13.4  unittest vs 셀레니움................................................................................................. 245

CHAPTER

14 원격 스크레이핑 14.1 원격 서버를 쓰는 이유.................................................................................................. 247 14.1.1  IP 주소 차단 방지............................................................................................. 248 14.1.2 이동성과 확장성............................................................................................... 249

14.2 토르.......................................................................................................................... 249 14.2.1 파이삭스......................................................................................................... 250

17


CONTENTS

14.3 원격 호스팅................................................................................................................ 251 14.3.1 웹사이트 호스팅 계정에서 실행........................................................................... 252 14.3.2 클라우드에서 실행............................................................................................ 253

14.4 추가 자료................................................................................................................... 254 14.5 미래를 향해................................................................................................................ 255

APPENDIX

A 파이썬 훑어보기 A.1 설치와 ‘Hello, World!’.................................................................................................... 257

APPENDIX

B 인터넷 훑어보기.................................................................................................... 261

APPENDIX

C 웹 스크레이핑의 합법성과 윤리 C.1 상표? 저작권? 특허?...................................................................................................... 266

C.1.1 저작권법............................................................................................................. 267

C.2 동산 침해..................................................................................................................... 268 C.3 컴퓨터 사기와 악용에 관한 법률....................................................................................... 271 C.4  robots.txt와 이용 약관............................................................................................... 272 C.5 세 가지 웹 스크레이퍼 사례............................................................................................. 275

C.5.1 이베이 vs. 비더스 에지: 동산 침해............................................................................ 276

C.5.2 미국 vs. 오언하이머: 컴퓨터 사기와 악용에 관한 법률.................................................. 277

C.5.3 필드 vs. 구글: 저작권과 robots.txt....................................................................... 280

찾아보기 �������������������������������������������������������������������������������������������������������������������������������������������������� 281

18


Part

I

스크레이퍼 제작 1부에서는 웹 스크레이핑의 기본에 대해 다룹니다. 파이썬으로 웹 서버에 정보를 요청하는 법, 서버 응답을 처

리하는 기본적인 방법, 웹사이트와 자동적으로 통신하는 법이 주된 내용입니다. 1부를 마치고 나면 인터넷을 쉽게 여행하고 도메인에서 도메인으로 건너뛰며 정보를 수집하고 저장하는 스크레이퍼를 만들 수 있습니다. 사실 웹 스크레이핑은 비교적 적은 투자로 엄청난 소득을 올릴 수 있는 환상적인 분야입니다. 웹 스크레이핑 프로젝트의 90퍼센트 정도는 다음 여섯 장에서 배울 내용만으로 만들 수 있습니다. 여기서 다룰 내용은 (기술 적인 지식이 좀 있는) 일반인들이 ‘웹 스크레이퍼’라는 단어를 들었을 때 떠올릴 만한 것들입니다. • 도메인 이름을 받고 HTML 데이터를 가져옴 • 데이터를 파싱해 원하는 정보를 얻음 • 원하는 정보를 저장함 • 필요하다면 다른 페이지에서 이 과정을 반복함

이 내용을 잘 익히면 2부에서 더 복잡한 프로젝트를 다룰 기초가 잘 마련될 겁니다. 1부가 2부에서 다룰 고급 프로젝트보다 덜 중요할 거라는 착각에 빠지지 마십시오. 앞으로 만들게 될 웹 스크레이퍼에 필요한 거의 모 든 정보를 1부에서 얻게 될 겁니다.


Part I

스크레이퍼 제작

1장

첫 번째 웹 스크레이퍼

2장

고급 HTML 분석

3장

크롤링 시작하기

4장

API 사용

5장

데이터 저장

6장

문서 읽기


CHAPTER

1

첫 번째 웹 스크레이퍼

일단 웹 스크레이핑을 시작하면 브라우저가 우리를 위해 얼마나 많은 일을 하고 있었는지 새삼 감탄하게 될 겁니다. HTML 구조, CSS 스타일, 자바스크립트 실행, 이미지 렌더링을 거치지 않은 웹을 처음 보면 좀 겁이 날 수도 있지만, 이 장과 다음 장에서는 브라우저의 도움 없이 데 이터 구조를 파악하고 해석하는 법을 배울 겁니다. 이 장에서는 웹 서버에 특정 페이지를 요청하는 GET 요청을 보내고, 그 페이지의 HTML 결과 를 얻고, 우리가 원하는 콘텐츠를 뽑아내는 단순한 데이터 추출의 기본을 배웁니다.

1.1  연결 네트워크나 네트워크 보안을 공부하지 않았다면 인터넷이 움직이는 방식이 좀 어려워 보일 수 도 있습니다. 브라우저를 열고 http://google.com 에 들어갈 때마다 네트워크에서 정확히 무 슨 일이 일어나는지 생각하고 싶은 사람은 없고, 최근에는 그럴 필요도 없습니다. 사실 필자는 컴퓨터 인터페이스가 진화해서 인터넷을 사용하는 사람들 대부분이 인터넷이 어떻게 동작하는 지 대충이라도 생각할 필요가 없게 된 게 아주 잘된 일이라고 생각합니다. 하지만 웹 스크레이핑은 이런 편리한 인터페이스를 브라우저 수준(HTML, CSS, 자바스크립 트를 해석하는 방법)에서 없애야 할 뿐 아니라, 가끔은 네트워크 연결 수준에서 없애야 할 때 도 있습니다.

1장 - 첫 번째 웹 스크레이퍼

21


다음 예제를 살펴보면서 브라우저로 정보를 가져오는 구조에 대해 감을 잡아봅시다. 앨리스는 웹 서버를 가지고 있습니다. 밥은 데스크톱 컴퓨터를 가지고 있고 앨리스의 서버에 연결하려 하고 있습니다. 컴퓨터가 다른 컴퓨터에 연결하려면 다음과 같은 일이 일어나야 합니다.

1. 밥의 컴퓨터는 1과 0으로 된 비트 스트림을 보냅니다. 각 비트는 전압으로 구별됩니다. 이들 비트는 정보를 구성하며, 헤더와 바디도 그런 정보에 포함됩니다. 헤더에는 바로 다 음 목표인 밥의 라우터 MAC 주소와 최종 목표인 앨리스의 IP 주소가 들어 있습니다. 바 디에는 밥이 앨리스의 서버 애플리케이션에 요청하는 내용이 들어 있습니다.

2. 밥의 라우터는 이들 비트를 받아 밥의 MAC 주소에서 앨리스의 IP 주소로 가는 패킷으 로 해석합니다. 밥의 라우터의 고유 IP 주소를 패킷에 ‘발신자from’ 주소로 기록한 다음 밥 의 라우터는 이 패킷을 인터넷에 보냅니다.

3. 밥의 패킷은 여러 중간 서버를 거치며 이동합니다. 중간 서버들은 정확한 물리적 경로 또 는 유선 경로를 거쳐 앨리스의 서버를 향해 패킷을 보냅니다.

4. 앨리스의 서버는 자신의 IP 주소에서 그 패킷을 받습니다. 5. 앨리스의 서버는 패킷 헤더에서 포트 번호(웹 애플리케이션에서는 거의 항상 80입니다. IP 주소가 거리 주소라면 포트 번호는 패킷 데이터의 아파트 동수라 생각해도 됩니다)를 찾고 적절한 애플리케이션, 즉 웹 서버 애플리케이션에 보냅니다.

6. 웹 서버 애플리케이션은 서버 프로세서에서 데이터 스트림을 받습니다. 이 데이터에는 다음과 같은 정보가 들어 있습니다.

- 이 요청은 GET 요청임

- 요청하는 파일은 index.html임

7. 웹 서버는 해당하는 HTML 파일을 찾고 새 패킷으로 묶어서 자신의 라우터를 통해 밥의 컴퓨터로 전송합니다. 웹 서버가 보낸 패킷은 밥이 보낸 패킷과 같은 과정을 거쳐 밥의 컴 퓨터에 도달합니다.

그러면 웹 브라우저는 이 과정 중 어디에 개입했을까요? 아무 곳에도 개입하지 않았습니다. 사 실 브라우저는 인터넷 역사에서 비교적 최근에 발명된 제품입니다. 1990년에 나온 넥서스가 최초의 브라우저입니다. 물론 웹 브라우저는 이들 패킷을 만들고, 보내고, 돌아온 데이터를 해석해 사진, 소리, 비디오,

22

1부 - 스크레이퍼 제작


텍스트 등으로 표현하는 매우 유용한 애플리케이션입니다. 하지만 웹 브라우저 역시 코드일 뿐 이고, 코드는 떼어내서 기본 구성 요소로 나누고, 다시 만들고, 재사용하고, 원하는 어떤 것으 로든 바꿀 수 있습니다. 웹 브라우저는 프로세서에 명령을 내려 데이터를 애플리케이션에 보내 서 유/무선 인터페이스로 처리할 수 있으며, 그러한 일을 하는 라이브러리가 여러 언어에도 존 재합니다. 파이썬에서도 물론 가능합니다. from urllib.request import urlopen html = urlopen("http://pythonscraping.com/pages/page1.html") print(html.read())

이 코드를 scrapetest.py에 저장하고 터미널에서 다음 명령어로 실행해보십시오. $ python scrapetest.py

파이썬 2.x가 컴퓨터에 설치되어 있으면 다음과 같이 파이썬 3.x를 명시적으로 호출해야 합니 다. $ python3 scrapetest.py

출력 결과는 http://pythonscraping.com/pages/page1.html 페이지의 HTML 코드 전체입 니다. 더 정확히 말하자면, 이 출력 결과는 도메인 이름 http://pythonscraping.com 에 있는 서버의 /pages 디렉터리의 HTML 파일 page1.html입니다. 차이가 뭘까요? 최신 웹 페이지에는 대개 여러 가지 자원 파일이 연결되어 있습니다. 자원 파 일은 이미지 파일이나 자바스크립트 파일, CSS 파일, 기타 요청한 페이지에 연결된 다른 콘텐 츠입니다. 웹 브라우저는 웹 페이지를 해석하다 <img src="cuteKitten.jpg"> 같은 태그를 만나면, 페이지를 완전히 렌더링하기 위해 서버에 다시 요청을 보내 cuteKitten.jpg 파일의 데이터를 받습니다. 우리의 파이썬 스크립트에는 아직 서버로 돌아가 다른 파일을 요청하는 기 능이 없습니다. 이 스크립트는 우리가 요청한 HTML 파일 하나를 읽을 수 있을 뿐입니다. 그러면 파이썬 스크립트는 이 일을 어떻게 하는 걸까요? 다행히 파이썬은 평범한 영어와 비슷 하게 만들어져 있습니다. from urllib.request import urlopen

1장 - 첫 번째 웹 스크레이퍼

23


위 행도 생긴 것 그대로입니다. 위 행은 urllib 라이브러리에서 파이썬 모듈 request를 읽고 urlopen 함수 하나만 임포트합니다.

NOTE_ urllib과 urllib2 파이썬 2.x에서 urllib2 라이브러리를 써봤다면 urllib2와 urllib이 조금 바뀐 걸 알 수 있을 겁니 다. 파이썬 3 .x 에서 urllib2는 urllib으로 이름이 바뀌었고 urllib.request, urllib.parse,

urllib.error 등 여러 서브모듈로 나뉘었습니다. 함수 이름은 대부분 그대로이지만, 새 urllib을 쓸 때 는 어떤 함수가 서브모듈로 이동했는지 알아둘 필요가 있습니다.

urllib은 표준 파이썬 라이브러리이므로 이 예제를 실행하기 위해 따로 뭔가 설치할 필요는

없습니다. urllib에는 웹을 통해 데이터를 요청하는 함수, 쿠키를 처리하는 함수, 심지어 헤더 나 유저 에이전트 같은 메타데이터를 바꾸는 함수도 들어 있습니다. 이 책 전체에서 urllib을 사 용할 테니 라이브러리 문서( https://docs.python.org/3/library/urllib.html )를 읽어보 길 권합니다. urlopen은 네트워크를 통해 원격 객체를 읽습니다. urlopen은 HTML 파일이나 이미지 파일,

기타 파일 스트림을 쉽게 열 수 있는 매우 범용적인 라이브러리이므로 이 책에서도 매우 자주 사용할 겁니다.

1.2  BeautifulSoup 소개 아름다운 수프, 풍부한 녹색, 그릇에서 기다리거라! 누가 이 맛있는 것에 숙이지 않으리? 저녁 수프, 아름다운 수프!

BeautifulSoup 라이브러리는 루이스 캐럴의 『이상한 나라의 앨리스』에 나오는 동명의 시에서 이름을 따왔습니다. 이야기 속에서는 ‘모조 거북’이 이 노래를 부릅니다. 이상한 나라에서 왔으니, BeautifulSoup도 이상한 것들을 이해할 수 있습니다. Beautiful

Soup는 잘못된 HTML을 수정하여 쉽게 탐색할 수 있는 XML 형식의 파이썬 객체로 변환하므

24

1부 - 스크레이퍼 제작


로 골치 아픈 웹을 탐색할 때 유용합니다.

1.2.1  BeautifulSoup 설치 BeautifulSoup 라이브러리는 기본 파이썬 라이브러리가 아니므로 반드시 설치해야 합 니다. 이 책에서는 BeautifulSoup 4 라이브러리 ( BS4 라고도 합니다 )를 사용할 겁니 다. BeautifulSoup 4 의 완전한 설치 방법은 Crummy .com ( http://www.crummy.com/ software/BeautifulSoup/bs4/doc/ )에서 찾을 수 있습니다. 기본적으로 리눅스에서는 다음

과 같이 하면 됩니다.1 $ sudo apt-get install python-bs4

맥에서는 다음과 같이 합니다. $ sudo easy_install pip

위 명령어는 파이썬 패키지 관리자 pip를 설치합니다. 그다음 다음 명령을 실행해서 라이브러 리를 설치합니다. $ pip install beautifulsoup4

다시 말하지만, 컴퓨터에 파이썬 2.x와 3.x가 모두 설치되어 있다면 python3을 명시적으로 호 출해야 합니다. $ python3 myScript.py

패키지를 설치할 때도 명시적으로 파이썬 3임을 표시해야 하며, 그렇지 않으면 패키지가 파이 썬 2.x용으로 설치될 수 있습니다. $ sudo python3 setup.py install

pip를 사용한다면 pip3을 호출해서 패키지를 파이썬 3.x 버전으로 설치할 수 있습니다. $ pip3 install beautifulsoup4

1 역자주_ 파이썬 2.x와 3.x가 모두 설치되어 있다면 python-bs4 대신 python3-bs4를 설치해야 합니다.

1장 - 첫 번째 웹 스크레이퍼

25


윈도우에서 패키지를 설치하는 것도 맥이나 리눅스와 거의 같습니다. 위 URL 에서 최신

BeautifulSoup 4를 내려받고 그 디렉터리로 이동해서 다음 명령을 실행합니다. > python setup.py install

이렇게만 하면 BeautifulSoup가 파이썬 라이브러리로 인식됩니다. 파이썬 터미널을 열고 임 포트해서 테스트해볼 수 있습니다. $ python > from bs4 import BeautifulSoup

이렇게 임포트할 때 에러가 없어야 합니다. 또한 윈도우용 pip (https://pypi.python.org/pypi/setuptools )는 .exe 실행 파일도 있으 므로 패키지를 쉽게 설치하고 관리할 수 있습니다.2

34

> pip install beautifulsoup4

라이브러리와 가상 환경 묶기 파이썬 프로젝트 여럿을 관리하거나, 프로젝트를 배포할 때 연결된 라이브러리를 모두 묶을 쉬 운 방법이 필요하거나, 설치된 라이브러리들이 충돌할까 봐 걱정이라면 파이썬 가상 환경을 설 치해서 관리하기 쉽게 분리할 수 있습니다. 가상 환경 없이 설치한 파이썬 라이브러리는 전역으로 설치됩니다. 라이브러리를 전역으로 설 치하려면 보통 관리자 권한이 필요하며, 이렇게 설치한 파이썬 라이브러리는 모든 사용자와 모 든 프로젝트에서 사용할 수 있습니다. 다행히도 가상 환경은 쉽게 설치할 수 있습니다.3 $ virtualenv scrapingEnv

이 명령은 새 환경 scrapingEnv을 만듭니다. 만든 새 환경을 사용하려면 반드시 활성화해야 합니다.4

2 역자주_ 파이썬 3.4부터는 기본 설치 시 pip도 함께 설치되므로 pip를 별도로 받을 필요는 없습니다. 3 역자주_ virtualenv가 설치되어 있지 않다면 pip install virtualenv로 먼저 설치합니다. 4 역자주_ 윈도우에서는 bin 폴더 대신 Scripts 폴더를 사용합니다.

26

1부 - 스크레이퍼 제작


$ cd scrapingEnv/ $ source bin/activate

환경을 활성화하면 환경의 이름이 명령 프롬프트에 표시되어 현재 가상 환경에 있음을 알립니다. 가상 환경에서 라이브러리를 설치하거나 스크립트를 실행하면 그 환경에만 영향이 있습니다. 물론 새로 설치한 scrapingEnv 환경에도 BeautifulSoup를 설치하고 사용할 수 있습니다. (scrapingEnv)...$ pip install beautifulsoup4 (scrapingEnv)...$ python > from bs4 import BeautifulSoup >

deactivate 명령어로 환경에서 떠날 수 있습니다. 일단 환경에서 떠나면 그 가상 환경에 설 치한 라이브러리에 더는 접근할 수 없습니다. (scrapingEnv)...$ deactivate $ python > from bs4 import BeautifulSoup Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: No module named 'bs4'

라이브러리를 프로젝트 단위로 구분하면 나중에 환경 폴더 전체를 압축해서 다른 사람에게 보 내기도 쉽습니다. 프로젝트를 받은 사람의 컴퓨터에 같은 파이썬 버전이 설치되어 있기만 하면 그 사람이 라이브러리를 따로 설치하지 않아도 당신이 만든 코드가 해당 가상 환경에서 그대로 동작합니다. 이 책의 예제에서 가상 환경을 쓰라고 명시적으로 언급하지는 않겠지만, 가상 환경은 언제든 활성화하기만 하면 사용할 수 있음을 기억하십시오.

1.2.2  BeautifulSoup 실행 BeautifulSoup 라이브러리에서 가장 널리 쓰이는 객체는 물론 BeautifulSoup 객체입니다. 이 장 초반에서 만든 예제를 수정해 BeautifulSoup 객체를 사용해봅시다.

1장 - 첫 번째 웹 스크레이퍼

27


from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page1.html") bsObj = BeautifulSoup(html.read(), "html.parser") print(bsObj.h1)

출력 결과는 다음과 같습니다. <h1>An Interesting Title</h1>

이전 예제와 마찬가지로 urlopen 라이브러리를 임포트하고 html.read()를 호출해서 페이지 의 HTML 콘텐츠를 얻었습니다. 이 HTML 콘텐츠를 변형한 BeautifulSoup 객체의 구조는 다음과 같습니다. • html → <html><head>...</head><body>...</body></html> — head → <head><title>A Useful Page</title></head> — title → <title>A Useful Page</title> — body → <body><h1>An Int...</h1><div>Lorem ip...</div></body> — h1 → <h1>An Interesting Title</h1> — div → <div>Lorem Ipsum dolor...</div> 페이지에서 추출한 <h1> 태그는 BeautifulSoup 객체 구조(html → body → h1 )에서 두 단계 만큼 중첩되어 있습니다. 하지만 우리가 객체에서 가져올 때는 h1 태그를 직접 가져옵니다. bsObj.h1

사실 다음 중 무엇을 사용해도 결과는 같습니다. bsObj.html.body.h1 bsObj.body.h1 bsObj.html.h1

이걸 보고 BeautifulSoup 라이브러리가 얼마나 강력하고 단순한지 느낄 수 있길 바랍니다. 원 하는 정보를 둘러싼, 혹은 그 주변에 태그가 있기만 하면 HTML (XML ) 파일에서 어떤 정보든 추출할 수 있습니다. 3장에서는 더 복잡한 BeautifulSoup 함수 호출 방법과 BeautifulSoup 객체와 정규 표현식을 함께 써서 웹사이트에서 정보를 추출하는 법을 알아보겠습니다.

28

1부 - 스크레이퍼 제작


1.2.3  신뢰할 수 있는 연결 웹은 엉망진창입니다. 데이터 형식은 제대로 지켜지지 않고 웹사이트는 자주 다운되며 닫는 태 그도 종종 빠져 있습니다. 웹 스크레이핑에서 가장 좌절스러운 경험은 스크레이퍼를 실행해놓 고 모든 데이터가 데이터베이스에 저장되어 있길 꿈꾸며 잠들었는데, 다음 날 일어나보니 자리 를 뜨자마자 스크레이퍼가 예기치 못한 데이터 형식에 부딪혀 에러를 일으키곤 멈춰 있을 때입 니다. 이런 상황이라면 그 웹사이트(그리고 엉망인 데이터)를 만든 개발자를 저주하고 싶겠지 만, 사실 그 상황을 예상하지 못한 당신 자신을 탓해야 합니다. 스크레이퍼의 임포트 문 다음 행을 살펴보고 예외를 어떻게 처리할지 생각해봅시다. html = urlopen("http://www.pythonscraping.com/pages/page1.html")

이 행에서 문제가 생길 수 있는 부분은 크게 두 가지입니다. •페이지를 찾을 수 없거나, URL 해석에서 에러가 생긴 경우 •서버를 찾을 수 없는 경우

첫 번째 상황에서는 HTTP 에러가 반환될 것입니다. 이 HTTP 에러는 “404 Page Not

Found”, “500 Internal Server Error” 등입니다. 이런 모든 경우에 urlopen 함수는 범용 예 외인 HTTPError를 일으킵니다. 이 예외는 다음과 같이 처리합니다. from urllib.request import urlopen from urllib.request import HTTPError from bs4 import BeautifulSoup try: html = urlopen("http://www.pythonscraping.com/pages/error.html") except HTTPError as e: print(e) # null을 반환하거나, break 문을 실행하거나, 기타 다른 방법을 사용 else: # 프로그램을 계속 실행합니다. except 절에서 return이나 break를 사용했다면 # 이 else 절은 필요 없습니다.

이제 HTTP 에러 코드가 반환되면 프로그램은 에러를 출력하고 else 문은 실행하지 않습니다. 물론 페이지를 서버에서 성공적으로 가져왔어도 페이지 콘텐츠가 예상과 전혀 다를 수 있습

1장 - 첫 번째 웹 스크레이퍼

29


니다. BeautifulSoup 객체에 들어 있는 태그에 접근할 때마다 그 태그가 실제 존재하는지 체 크하는 편이 좋습니다. 존재하지 않는 태그에 접근을 시도하면 BeautifulSoup는 None 객체 를 반환합니다. 문제는 None 객체 자체에 태그가 있다고 가정하고 그 태그에 접근하려 하면 AttributeError가 일어난다는 겁니다.

다음 코드에서 nonExistentTag는 존재한다고 가정하는 태그이며 실제 BeautifulSoup 함수 이름은 아닙니다. print(bsObj.nonExistentTag)

위 코드는 None 객체를 반환합니다. None 객체는 처리하거나 체크할 때 아무 문제도 없습니다. 문제는 다음 예제처럼 None이 반환될 수 있음을 무시하고 None 객체에 어떤 함수를 호출하는 경우입니다. print(bsObj.nonExistentTag.someTag)

위 코드는 다음과 같이 예외를 일으킵니다. AttributeError: 'NoneType' object has no attribute 'someTag'

그럼 이런 두 가지 상황에 어떻게 대응해야 할까요? 가장 쉬운 방법은 두 상황을 명시적으로 체크하는 겁니다. try: badContent = bsObj.nonExistingTag.anotherTag except AttributeError as e: print("Tag was not found") else: if badContent == None: print ("Tag was not found") else: print(badContent)

이렇게 가능한 에러를 모두 체크하고 처리하는 게 처음에는 지겨워 보일 수 있지만, 코드를 조 금만 수정하면 좀 더 쉽게 읽을 수 있게 만들 수 있습니다. 예를 들어 다음 코드는 같은 스크레 이퍼를 조금 다르게 쓴 겁니다.

30

1부 - 스크레이퍼 제작


from urllib.request import urlopen from urllib.error import HTTPError from bs4 import BeautifulSoup def getTitle(url): try: html = urlopen(url) except HTTPError as e: return None try: bsObj = BeautifulSoup(html.read(), "html.parser") title = bsObj.body.h1 except AttributeError as e: return None return title title = getTitle("http://www.pythonscraping.com/pages/page1.html") if title == None: print("Title could not be found") else: print(title)

이 예제에서는 페이지 타이틀을 반환하거나, 어떤 문제가 있으면 None 객체를 반환하는 getTitle 함수를 만듭니다. getTitle 내부에서는 이전 예제와 마찬가지로 HTTPError를 체

크하고 BeautifulSoup 행 두 개를 try 문으로 캡슐화합니다. 이 두 행 중 어느 행이라도 AttributeError를 일으킬 수 있습니다. 예를 들어 서버가 존재하지 않으면 html은 None 객체

이고 html.read()가 AttributeError를 일으킬 겁니다. try 문 하나에 원하는 만큼 여러 행을 넣을 수도 있고, AttributeError를 일으킬 수 있는 별도의 함수도 어느 시점에서든 호출할 수 있습니다. 스크레이퍼를 만들 때는 코드의 전반적 패턴에 대해 생각해야 예외도 처리하고 읽기도 쉽게 만 들 수 있습니다. 코드를 많이 재사용하고 싶을 텐데, getSiteHTML이나 getTitle 같은 범용 함 수를 만들고 여기에 예외 처리를 철저하게 만들어두면 빠르고 믿을 수 있는 웹 스크레이퍼를 쉽게 만들 수 있습니다.

1장 - 첫 번째 웹 스크레이퍼

31


CHAPTER

2

고급 HTML 분석

미켈란젤로는 다비드상 같은 걸작을 어떻게 만들었는지 질문을 받았을 때 이런 명언을 남겼습 니다. “쉽습니다. 돌에서 다비드처럼 보이지 않는 부분을 깎아내기만 하면 됩니다.” 웹 스크레이핑이 조각과 비슷한 부분은 별로 없지만, 복잡한 웹 페이지에서 필요한 정보를 얻 어낸다는 점에서는 미켈란젤로와 비슷한 방식을 따라야 합니다. 원하지 않는 콘텐츠를 깎아내 서 필요한 정보를 얻는 방법은 여러 가지가 있습니다. 이 장에서는 복잡한 HTML 페이지를 분 석해서 원하는 정보만 추출하는 방법을 알아보겠습니다.

2.1  닭 잡는 데 소 잡는 칼을 쓸 필요는 없습니다 복잡한 태그를 만나면 당장 달려들어 여러 줄의 코드를 써서라도 필요한 정보를 추출하고 싶 은 생각이 들 겁니다. 하지만 이 장에서 소개하는 테크닉을 부주의하게 사용한다면 코드는 디 버그하기 어려워지거나, 취약해지거나, 혹은 둘 다가 될 수도 있습니다. 시작하기 전에, 고급

HTML 분석을 쓰지 않아도 필요한 결과를 얻을 수 있는 방법을 몇 가지 알아봅시다. 당신이 원하는 콘텐츠가 있습니다. 그 콘텐츠는 이름일 수도, 통계 자료일 수도, 텍스트 블록 일 수도 있겠죠. 그리고 그 콘텐츠는 20단계나 되는 HTML 덩어리 속에, 단서가 될 만한 태그 나 속성 하나 없이 파묻혀 있을 수도 있습니다. 당장 달려들어, 다음과 비슷한 코드를 짰다고 합 시다.

2장 - 고급 HTML 분석

33


bsObj.findAll("table")[4].findAll("tr")[2].find("td").findAll("div")[1].find("a")

별로 좋아 보이지는 않는군요. 간결함이나 우아함은 찾아볼 수 없을뿐더러, 사이트 관리자가 사이트를 조금만 수정하더라도 웹 스크레이퍼의 동작이 멈출 수 있습니다. 그럼 어떻게 해야 할까요? • ‘페이지 인쇄’ 같은 링크를 찾아보거나, 더 나은 HTML 구조를 갖춘 모바일 버전 사이트를 찾아보십시오( 모바일 장치에서 접근하는 것처럼 속이거나 모바일 사이트 버전을 가져오는 방법은 12장에서 다룹니다). • 자바스크립트 파일에 숨겨진 정보를 찾아보십시오. 물론 이렇게 하려면 자바스크립트 파일을 불러와서 분 석해야 할 겁니다. 필자는 사이트에 포함된 구글 지도를 조작하는 자바스크립트를 살펴본 후 위도와 경도가 포함된 거리 주소를, 깔끔하게 배열로 정리된 형태로 수집했던 일이 있습니다. • 중요한 정보는 페이지 타이틀에 있을 때가 대부분이지만, 원하는 정보가 페이지 URL에 들어 있을 때도 있 습니다. • 원하는 정보가 오직 이 웹사이트에만 있다면 할 수 있는 일이 더는 없을 수 있습니다. 그렇지 않다면, 이 정 보를 다른 소스에서 가져올 수는 없는지 생각해보십시오. 다른 웹사이트에 같은 데이터가 있지는 않을까요? 이 웹사이트에 있는 데이터가 혹시 다른 웹사이트에서 수집한 것은 아닐까요?

데이터가 깊숙이 파묻혀 있거나 정형화되지 않았을수록, 곧바로 코드부터 짜서는 안 됩니다. 심호흡을 하고 대안이 없는지 생각해보십시오. 대안이 없다고 확신한다면, 이 장의 내용이 도 움이 될 겁니다.

2.2  다시 BeautifulSoup 1장에서는 BeautifulSoup를 설치하고 실행하는 방법을 훑어봤고, 한 번에 객체 하나씩 선택 하는 방법도 알아봤습니다. 이 섹션에서는 속성을 통해 태그를 검색하는 법, 태그 목록을 다루 는 법, 트리 내비게이션을 분석하는 법을 알아보겠습니다. 거의 모든 웹사이트에 스타일시트가 존재합니다. 웹사이트의 스타일 계층은 육안으로 해석하 는 것을 위해 만들어진 것이라 웹 스크레이핑에는 별 도움이 되지 않는다고 생각할 수 있겠지 만, 사실 CSS의 등장은 웹 스크레이퍼에도 큰 도움이 되었습니다. CSS는 HTML 요소를 구분 해서 서로 다른 스타일을 적용합니다. 예를 들어 다음과 같은 태그가 있다고 해봅시다.

34

1부 - 스크레이퍼 제작


<span class="green"></span>

그리고 다음과 같은 태그도 있다고 합시다. <span class="red"></span>

이 경우 웹 스크레이퍼는 클래스를 이용해 쉽게 이 태그들을 구별할 수 있습니다. 예를 들어

BeautifulSoup는 빨간색 텍스트만 전부 수집하고 녹색 텍스트는 수집하지 않을 수 있습니다. CSS는 이런 속성을 통해 사이트에 스타일을 적용하며, 오늘날의 웹사이트 대부분은 이런 클래 스(class )와 ID (id ) 속성이 가득합니다. http://www.pythonscraping.com/pages/warandpeace.html 페이지를 스크랩하는 예제 웹

스크레이퍼를 만들어봅시다. 이 페이지에서 등장인물이 말하는 대사는 빨간색으로, 등장인물의 이름은 녹색으로 표시되어 있습니다. 다음 소스 코드 샘플을 보면 span 태그에 적절한 CSS 클래스가 붙어 있습니다. "<span class="red">Heavens! what a virulent attack!</span>" replied <span class= "green">the prince</span>, not in the least disconcerted by this reception.

페이지 전체를 가져온 다음, BeautifulSoup 객체로 1장에서 썼던 것과 비슷한 프로그램을 만 들 수 있습니다. from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html") bsObj = BeautifulSoup(html, "html.parser")

이 BeautifulSoup 객체에 findAll 함수를 쓰면 <span class="green"></span> 태그에 들어 있는 텍스트만 선택해서 고유명사로 이루어진 파이썬 리스트를 추출할 수 있습니다(findAll 은 대단히 유연한 함수이며 이 책 후반에서 매우 자주 사용합니다). nameList = bsObj.findAll("span", {"class":"green"}) for name in nameList: print(name.get_text())

이 코드는 『전쟁과 평화』에 등장하는 모든 고유명사를 순서대로 출력합니다. 어떤 원리로 그렇 게 동작하는 걸까요? 이전에는 bsObj.tagName을 호출해서 페이지에 처음 나타난 태그를 찾아

2장 - 고급 HTML 분석

35


냈습니다. 이번에는 bsObj.findAll(tagName, tagAttributes)을 호출해서 첫 번째 태그만이 아니라 페이지의 태그 전체를 찾은 겁니다. 이름 리스트를 만든 뒤에는 리스트의 모든 이름을 순회하며 name.get_text()를 호출해 태그 를 제외하고 콘텐츠만 출력합니다.

NOTE_ get_text()를 쓸 때와 태그를 보존할 때 .get_text()는 현재 문서에서 모든 태그를 제거하고 텍스트만 들어 있는 문자열을 반환합니다. 예를 들어 하이퍼링크, 문단, 기타 태그가 여럿 들어 있는 텍스트 블록에 사용하면 태그 없는 텍스트만 남습니다. 텍스트 블록보다는 BeautifulSoup 객체에 사용하는 게 원하는 결과를 얻기가 훨씬 쉽습니다. .get_text() 는 항상 마지막, 즉 최종 데이터를 출력하거나 저장, 조작하기 직전에만 써야 합니다. 일반적으로는 문서의 태 그 구조를 가능한 유지해야 합니다.

2.2.1  find()와 findAll() find()와 findAll()은 BeautifulSoup에서 가장 자주 쓰는 함수입니다. 이 함수를 쓰면

HTML 페이지에서 원하는 태그를 다양한 속성에 따라 쉽게 필터링할 수 있습니다. 두 함수는 거의 비슷한데, BeautifulSoup 문서의 함수 정의만 봐도 알 수 있습니다. findAll(tag, attributes, recursive, text, limit, keywords) find(tag, attributes, recursive, text, keywords)

실제로 이 함수를 쓸 때는 거의 항상 처음 두 매개변수인 tag와 attributes만 쓰게 될 겁니다. 하지만 매개변수 모두 살펴봅시다. tag 매개변수는 이미 봤습니다. 태그 이름인 문자열을 넘기거나, 태그 이름으로 이루어진 파이

썬 리스트를 넘길 수도 있습니다. 예를 들어 다음 코드는 문서의 모든 헤더 태그 리스트를 반환 합니다.1 .findAll({"h1","h2","h3","h4","h5","h6"})

  

1 문서의 모든 제목(h1 ~ h6) 태그 리스트를 얻고자 한다면 더 간결한 방법이 있습니다. 2.4절에서 살펴보겠습니다.

36

1부 - 스크레이퍼 제작


CHAPTER

3

크롤링 시작하기

여태까지 이 책에서 사용한 예제는 정적 페이지 하나만 분석하는 예제였고, 다소 인위적으로 만든 예제였습니다. 이 장에서는 여러 페이지, 여러 사이트를 이동하는 스크레이퍼를 통해 실 제 문제를 살펴보겠습니다. 웹 크롤러라는 이름은 웹을 크롤링하기 때문에 붙은 이름입니다. 그 핵심은 재귀입니다. 웹 크 롤러는 URL에서 페이지를 가져오고, 그 페이지를 검사해 다른 URL을 찾고, 다시 그 페이지를 가져오는 작업을 무한히 반복합니다. 하지만 조심하십시오. 웹 크롤링이 가능하다는 것과 웹 크롤링을 해야 한다는 것은 다른 이야 기입니다. 이전 예제에서 사용한 스크레이퍼는 모든 데이터가 페이지 하나에 들어 있는 상황에 는 잘 동작합니다. 웹 크롤러를 사용할 때는 반드시 대역폭에 세심한 주의를 기울여야 하며, 타 겟 서버의 부하를 줄일 방법을 강구해야 합니다.

3.1  단일 도메인 내의 이동 ‘위키백과의 여섯 다리’에 대해서는 못 들어봤더라도, 아마 ‘케빈 베이컨의 여섯 다리’에 대해서 는 들어봤을 겁니다. 두 게임 모두 목표는 관계가 없어 보이는 두 대상을 연결하는 겁니다. 위 키백과의 경우는 링크로 연결된 항목, 케빈 베이컨의 경우는 같은 영화에 등장한 배우라는 조 건으로, 총 여섯 단계(시작과 목표를 포함) 안에 찾는 거죠.

3장 - 크롤링 시작하기

53


예를 들어 에릭 아이들Eric Idle은 브렌던 프레이저Brendan Fraser와 함께 <폭소 기마 특공대>에 출연 했고, 브렌던 프레이저는 케빈 베이컨과 함께 <내가 숨쉬는 공기>에 출연했습니다.1 이 경우 에릭 아이들과 케빈 베이컨을 잇는 고리는 세 단계밖에 되지 않습니다. 이 섹션에서는 위키백과의 여섯 다리를 푸는 프로젝트를 시작할 겁니다. 즉, 에릭 아이들의 페이지 ( https://en.wikipedia.org/wiki/Eric_Idle )에서 시작해 케빈 베이컨의 페이지 (https://en.wikipedia.org/wiki/Kevin_Bacon )에 닿는 최소한의 클릭 수를 찾을 겁니다.

하지만 위키백과의 서버 부하에 대한 대책은? 위키백과 재단에 따르면 위키백과 방문자는 대략 초당 2,500명이며, 그중 99퍼센트 이상이 다 른 위키백과 도메인으로 이동합니다(자세한 내용은 ‘숫자로 보는 위키미디어’ 페이지(http:// bit.ly/2f2ZZXx)를 읽어보십시오). 워낙 트래픽이 대단하니, 우리가 만들 웹 스크레이퍼 정도

는 위키백과 서버에 별 영향을 끼치지 않을 겁니다. 하지만 이 책의 코드 샘플을 집중적으로 사 용하거나 위키백과 사이트를 스크랩하는 프로젝트를 만든다면 위키백과 재단에 기부(세액 공 제도 됩니다)하는 것을 권합니다. 다만 몇 달러라도 당신이 차지하는 서버 부하를 경감하고 만 인을 위한 교육 자원에 보탬이 될 겁니다.

지금쯤이면 임의의 위키백과 페이지를 가져와서 페이지에 들어 있는 링크 목록을 가져오는 파 이썬 스크립트 정도는 쉽게 만들 수 있을 겁니다. from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://en.wikipedia.org/wiki/Kevin_Bacon") bsObj = BeautifulSoup(html, "html.parser") for link in bsObj.findAll("a"): if 'href' in link.attrs: print(link.attrs['href'])

링크 목록을 살펴보면 예상대로 ‘Apollo 13’, ‘Philadelphia’, ‘Primetime Emmy Award’ 등 이 모두 있을 겁니다. 하지만 원하지 않는 것들도 포함되어 있습니다.

1 http://oracleofbacon.org 에서 배우 사이의 관계에 대해 알 수 있었습니다.

54

1부 - 스크레이퍼 제작


//wikimediafoundation.org/wiki/Privacy_policy //en.wikipedia.org/wiki/Wikipedia:Contact_us

사실 위키백과의 모든 페이지에는 사이드바, 푸터, 헤더 링크가 있고 카테고리 페이지, 토론 페 이지 등 그 외에도 우리가 관심 있어 하는 항목이 아닌 페이지를 가리키는 링크가 많이 있습니다. /wiki/Category:Articles_with_unsourced_statements_from_April_2014 /wiki/Talk:Kevin_Bacon

최근 필자의 친구는 이와 비슷한 위키백과 스크레이핑 프로젝트를 만들다가 내부 위키백과 링 크가 항목 페이지인지 아닌지 판단하는 100행이 넘는 거대한 필터링 함수를 만들게 되었다고 말했습니다. 친구가 ‘항목 링크’와 ‘다른 링크’를 구분하는 패턴을 발견하는 데 시간을 많이 들인 것 같지는 않습니다. 그랬다면 뭔가 규칙을 발견했을 테니까요. 항목 페이지를 가리키는 링크 에는 다른 내부 페이지를 가리키는 링크와 비교되는 세 가지 공통점을 찾을 수 있습니다. • 이 링크들은 id가 bodyContent인 div 안에 있습니다. • URL에는 세미콜론이 포함되어 있지 않습니다. • URL은 /wiki/로 시작합니다.

이들 규칙을 활용하면 항목 페이지를 가리키는 링크만 가져오도록 코드를 수정할 수 있습니다. from urllib.request import urlopen from bs4 import BeautifulSoup import re html = urlopen("http://en.wikipedia.org/wiki/Kevin_Bacon") bsObj = BeautifulSoup(html, "html.parser") for link in bsObj.find("div", {"id":"bodyContent"}).findAll("a", href=re.compile("^(/wiki/)((?!:).)*$")): if 'href' in link.attrs: print(link.attrs['href'])

이 코드를 실행하면 케빈 베이컨의 위키백과 항목에서 다른 항목을 가리키는 모든 링크 목록을 볼 수 있습니다. 특정 위키백과 항목에서 다른 항목을 가리키는 모든 링크 목록을 가져오는 이 스크립트도 물론 흥미롭긴 하지만, 현실적으로는 별 쓸모가 없습니다. 이 코드는 다음과 같은 형태로 바꿀 수 있 어야 합니다.

3장 - 크롤링 시작하기

55


• /wiki/<article_name> 형태인 위키백과 항목 URL을 받고, 링크된 항목 URL 목록 전체를 반환하는

getLinks 함수 • 시  작 항목에서 getLinks를 호출하고 반환된 리스트에서 무작위로 항목 링크를 선택하여 getLinks를 다 시 호출하는 작업을, 프로그램을 끝내거나 새 페이지에 항목 링크가 없을 때까지 반복하는 메인 함수

다음 코드가 그와 같은 코드입니다. from urllib.request import urlopen from bs4 import BeautifulSoup import datetime import random import re random.seed(datetime.datetime.now()) def getLinks(articleUrl): html = urlopen("http://en.wikipedia.org"+articleUrl) bsObj = BeautifulSoup(html, "html.parser") return bsObj.find("div", {"id":"bodyContent"}).findAll("a", href=re.compile("^(/wiki/)((?!:).)*$")) links = getLinks("/wiki/Kevin_Bacon") while len(links) > 0: newArticle = links[random.randint(0, len(links)-1)].attrs["href"] print(newArticle) links = getLinks(newArticle)

이 프로그램이 필요한 라이브러리를 임포트한 후 처음 하는 일은 현재 시스템 시간을 가지고 난수 발생기를 실행하는 겁니다. 이렇게 하면 프로그램을 실행할 때마다 위키백과 항목들 속에 서 새롭고 흥미로운 무작위 경로를 찾을 수 있습니다.

의사 난수와 무작위 시드 앞의 예제에서 필자는 파이썬의 난수 발생기를 사용해 각 페이지에서 무작위로 항목을 선택해, 위키백과를 무작위로 이동했습니다. 하지만 난수는 조심해서 써야 합니다. 컴퓨터는 정확한 답을 계산하는 데는 강하지만, 뭔가 창조하는 데는 심각하게 약합니다. 따라 서 난수를 만드는 것도 매우 어려운 일입니다. 대부분의 난수 알고리즘은 균등하게 분배되고 예측하기 어려운 숫자들을 만들어내기 위해 최선을 다하며, 이런 알고리즘이 기동하기 위해서

56

1부 - 스크레이퍼 제작


CHAPTER

5

데이터 저장

터미널에 출력하는 것도 흥미롭긴 하지만, 데이터 수집과 분석이라는 관점에서는 크게 유용하 지는 않습니다. 웹 스크레이퍼를 유용하게 활용하려면 스크랩한 정보를 저장할 수 있어야 합니다. 이 장에서는 세 가지 데이터 관리 방법을 알아볼 겁니다. 상상할 수 있는 모든 애플리케이션에 서 이 세 가지면 충분합니다. 스크랩한 데이터를 웹사이트에 사용하거나, 직접 API를 만들 생 각인가요? 그렇다면 데이터베이스가 필요합니다. 인터넷에서 문서를 수집해 하드디스크에 저 장할 쉽고 빠른 방���을 찾고 있나요? 파일 스트림이 해결책입니다. 주기적 알림을 받거나, 하 루에 한 번 데이터를 집계하려 하나요? 스스로에게 이메일을 보내세요. 꼭 웹 스크레이핑이 아니더라도, 최신 애플리케이션에는 대량의 데이터를 저장하고 조작하는 능력이 반드시 필요합니다. 사실 이 장에서 설명하는 내용은 이후 이 책에서 사용하는 예제 대 부분에 필요합니다. 자동화된 데이터 스토리지에 익숙지 않다면 이 장을 최소한 훑어보기라도 할 것을 강력히 권합니다.

5.1  미디어 파일 미디어 파일을 저장하는 방법은 크게 두 가지입니다. 하나는 참조를 저장하는 것이고, 다른 하 나는 파일 자체를 내려받는 겁니다. 파일 참조 저장은 간단합니다. 파일이 위치한 URL을 저장 하기만 하면 됩니다. 이 방법에는 여러 가지 장점이 있습니다.

5장 - 데이터 저장

99


• 스크레이퍼가 파일을 내려받을 필요가 없으므로 훨씬 빨리 동작하고, 대역폭도 적게 요구합니다. • URL만 저장하므로 컴퓨터의 공간도 확보할 수있습니다. • URL만 저장하고 파일을 내려받지 않는 코드는 만들기 쉽습니다. • 큰 파일을 내려받지 않으므로 호스트 서버의 부하도 적습니다.

물론 단점도 있습니다. • 이들 URL을 당신의 웹사이트나 애플리케이션에 포함시키는 것을 핫링크라 부르는데, 말썽이 생길 소지 가 많습니다. • 당신의 애플리케이션에 사용할 미디어 파일을 다른 사람의 서버에 맡기고 싶지 않을 수 있습니다. • 외부에 있는 파일은 바뀔 수 있습니다. 공개된 블로그 같은 곳에 핫링크 이미지를 쓰면 난처한 일이 생길 수 있습니다. 파일을 더 연구할 목적으로 나중에 저장하려고 했는데, 막상 그 나중이 되니 파일이 사라졌거나 완전히 다른 것으로 바뀌었을 수도 있습니다. • 실제 웹 브라우저는 페이지의 HTML만 요청하지 않고, 거기 포함된 파일도 내려받습니다. 스크레이퍼에 서 파일을 내려받으면 실제 사람이 사이트를 보는 것처럼 보일 수 있고, 이것이 장점이 될 때가 있습니다.

파일을 저장할지 아니면 URL만 저장할지 결정해야 한다면, 그 파일을 한두 번 이상 실제로 보 거나 읽을지, 아니면 데이터베이스를 유지하면서 수집하기만 할지 생각해봐야 합니다. 답이 후 자라면 그냥 URL만 저장해도 충분합니다. 만약 전자의 경우라면, 이 장을 읽으세요! 파이썬 3.x에서는 urllib.request.urlretrieve을 사용해 원격 URL의 파일을 내려받을 수 있습니다. from urllib.request import urlretrieve from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.pythonscraping.com") bsObj = BeautifulSoup(html, "html.parser") imageLocation = bsObj.find("a", {"id": "logo"}).find("img")["src"] urlretrieve (imageLocation, "logo.jpg")

이 코드는 http://pythonscraping.com 에서 로고를 내려받아, 스크립트를 실행한 디렉터리에 logo.jpg라는 이름으로 저장합니다.

이 코드는 내려받을 파일이 하나뿐이고, 파일 이름과 확장자를 어떻게 정할지 알고 있다면 잘 동작합니다. 하지만 대부분의 스크레이퍼는 파일 하나만 내려받고 끝나지 않습니다. 다음 코드

100 1부 - 스크레이퍼 제작


에서와 같이 http://pythonscraping.com 홈페이지에서 src 속성이 있는 태그에 연결된 내부 파일을 모두 내려받습니다. import os from urllib.request import urlretrieve from urllib.request import urlopen from bs4 import BeautifulSoup downloadDirectory = "downloaded" baseUrl = "http://pythonscraping.com" def getAbsoluteURL(baseUrl, source): if source.startswith("http://www."): url = "http://"+source[11:] elif source.startswith("http://"): url = source elif source.startswith("www."): url = source[4:] url = "http://"+source else: url = baseUrl+"/"+source if baseUrl not in url: return None return url def getDownloadPath(baseUrl, absoluteUrl, downloadDirectory): path = absoluteUrl.replace("www.", "") path = path.replace(baseUrl, "") path = downloadDirectory+path directory = os.path.dirname(path) if not os.path.exists(directory): os.makedirs(directory) return path html = urlopen("http://www.pythonscraping.com") bsObj = BeautifulSoup(html, "html.parser") downloadList = bsObj.findAll(src=True) for download in downloadList: fileUrl = getAbsoluteURL(baseUrl, download["src"]) if fileUrl is not None:

5장 - 데이터 저장 101


print(fileUrl) urlretrieve(fileUrl, getDownloadPath(baseUrl, fileUrl, downloadDirectory))

CAUTION_ 실행 전에 주의하십시오 인터넷에서 불확실한 파일을 내려받는 게 위험하다는 경고는 충분히 들었겠죠? 이 스크립트는 만나는 모든 것을 컴퓨터의 하드디스크에 내려받습니다. 여기에는 배시 스크립트, .exe 파일, 기타 잠재적 멀웨어가 포함 됩니다. 다운로드 폴더에 들어 있는 것을 실제 실행하지 않으면 안전하다고 생각하나요? 특히, 이 프로그램을 관리자 권한으로 실행한다면 골칫거리를 자초하는 겁니다. 웹사이트에서 발견한 파일이 그 자신을 ../../../../ usr/bin/python으로 이동하는 파일이라면 어떨까요? 다음에 명령줄에서 파이썬 스크립트를 실행하는 순 간, 컴퓨터에 멀웨어를 초청하는 것이나 마찬가지입니다! 이 프로그램은 오직 예시 목적으로만 만든 겁니다. 더 광범위하게 파일 이름을 체크하는 코드 없이 무작위로 배포해서는 안되며, 권한이 제한된 계정에서만 실행해야 합니다. 항상 그렇지만, 파일을 백업하고 예민한 정 보는 하드디스크에 저장하지 않으며 상식을 따르면 안전할 수 있습니다.

이 스크립트는 2장에서 소개한 람다 함수를 써서 첫 페이지의 src 속성이 있는 태그를 모두 선 택한 후, URL을 손질하고 절대 경로로 바꿔 내려받을 준비를 합니다(외부 링크는 내려받지 않 습니다). 그리고 각 파일을 컴퓨터의 downloaded 폴더 안에 경로를 유지하면서 내려받습니다. 파이썬 os 모듈은 각 파일이 저장될 디렉터리가 있는지 확인하고 없으면 만들기 위해 사용했습 니다. os 모듈은 파이썬과 운영체제 사이의 인터페이스 구실을 합니다. 파일 경로를 조작하고, 디렉터리를 만들고, 실행 중인 프로세스와 환경 변수에 관한 정보를 얻고, 그 외에도 여러 가지 유용한 일을 할 수 있습니다.

5.2  데이터를 CSV로 저장 CSVComma-separated values는 스프레드시트 데이터를 저장할 때 가장 널리 쓰이는 파일 형식입니

다. 이 파일은 매우 단순하므로 마이크로소프트 엑셀을 비롯해 여러 애플리케이션에서 지원합 니다. 다음은 유효한 CSV 파일 예제입니다.

102 1부 - 스크레이퍼 제작


CHAPTER

8

자연어 읽고 쓰기

지금까지 다룬 데이터는 일반적으로 숫자 형태이거나, 수를 셀 수 있는 값의 형태였습니다. 우 리는 대개 데이터를 분석하지 않고 단순히 저장하기만 했습니다. 이 장에서 우리는 영어의 어 려운 부분들에 도전해볼 겁니다.1 구글 이미지 검색에 ‘귀여운 고양이cute kitten’라고 입력했을 때, 구글은 당신이 뭘 찾는지 어떻게 알 수 있을까요? 귀여운 고양이 이미지 주변에 있는 텍스트 덕분입니다. 유튜브의 검색 막대에 ‘죽은 앵무새dead parrot’이라고 입력했을 때 몬티 파이튼의 스케치를 찾아야 한다고 판단하는 건 어째서일까요? 각 비디오를 올릴 때 함께 올리는 제목과 설명 텍스트 덕분입니다. 사실 ‘죽은 새 몬티 파이튼deceased bird monty python’이라고 타이핑해도 똑같이 ‘죽은 앵무새’ 스케치 가 나타납니다. 그 페이지 자체에는 deceased나 bird 같은 단어가 없는데도 말입니다. 구글 은 ‘핫 도그hot dog’가 음식을 가리키며 ‘강아지를 삶다boiling puppy’와는 완전히 다른 의미임을 알고 있습니다. 어떻게 가능할까요? 모두 통계 덕분입니다! 텍스트 분석은 당신의 프로젝트와는 아무 상관도 없다고 생각할 수도 있지만, 텍스트 분석의 배경에 있는 개념을 이해하면 머신 러닝 전반에 걸쳐 대단히 큰 도움이 되며, 현실 세계의 문제 를 개연성과 알고리즘의 관점에서 모델링하는 더 범용적인 능력을 갖게 됩니다.

1 이  장에서 설명하는 테크닉은 대부분 다른 언어에도 적용할 수 있지만, 지금으로서는 자연어 처리를 영어에만 집중해도 됩니다. 파이썬의 자연어 처리 도구 같은 것들은 영어에만 집중합니다. 2014년 기준으로 인터넷의 65퍼센트는 여전히 영어이고, 2위인 독일어는 고작 6퍼 센트를 차지할 뿐입니다(http://bit.ly/2fUDmHf). 하지만 앞일은 아무도 모릅니다. 영어가 인터넷에서 가장 널리 쓰이긴 하지만, 언젠 가 바뀔 것은 거의 확실합니다. 이 책도 몇 해 뒤에는 그에 따라 업데이트해야 할 수도 있겠죠.

8장 - 자연어 읽고 쓰기 153


예를 들어 샤잠Shazam 음악 서비스는 소리를 듣고 어떤 음악인지 알아내는데, 설령 그 소리에 주 위의 잡음이 끼어 있거나 소리가 왜곡되어 있더라도 알아냅니다. 구글은 다른 단서는 아무것도 없이 이미지 자체만 가지고 자동으로 이미지 캡션을 만드는 작업을 진행 중입니다.2 말하자면, 검색 엔진은 핫 도그라고 알고 있는 이미지와 다른 핫 도그 이미지를 비교하면서, 점차 핫 도그 가 어떻게 생긴 것인지 배우고 다른 이미지에서 그 패턴을 찾아낼 수 있게 됩니다.

8.1  데이터 요약 7장에서 우리는 텍스트 콘텐츠를 n-그램, 즉 단어 n개로 구성된 구절로 나누는 것에 대해 배 웠습니다. 매우 기본적인 수준에서 말한다면, 이 방법은 어떤 단어와 구절이 텍스트에서 가장 많이 쓰이는지 판단하는 데 쓸 수 있습니다. 한 걸음 더 나가면, 원래 텍스트에서 이들 가장 많 이 쓰인 구절이 들어 있는 문장을 추출해 마치 사람이 말하는 듯 요약하는 데도 쓸 수 있습니다. 우리가 사용할 샘플 텍스트는 미국 제9대 대통령인 윌리엄 헨리 해리슨William Henry Harrison의 취임 연설입니다. 해리슨은 두 가지 기록을 세웠습니다. 하나는 역대 대통령 중 가장 긴 취임 연설이 라는 기록이고, 다른 하나는 재임 기간이 가장 짧았다는(32일) 기록입니다. 이 장에서 사용할 코드 샘플 중 상당수는 해리슨의 취임 연설 전문(http://pythonscraping. com/files/inaugurationSpeech.txt )을 사용한 것입니다.

7장에서 n-그램을 찾을 때 썼던 코드를 조금 수정하고, operator 모듈에 들어 있는 파이썬의 정렬 함수를 사용하면 n-그램을 찾고 정렬하는 코드를 만들 수 있습니다. from urllib.request import urlopen from bs4 import BeautifulSoup import re import string import operator def cleanInput(input): input = re.sub('\n+', " ", input).lower()

2 h  ttp://bit.ly/1HEJ8kX

154 2부 - 고급 스크레이핑


input = re.sub('\[[0-9]*\]', "", input) input = re.sub(' +', " ", input) input = bytes(input, "UTF-8") input = input.decode("ascii", "ignore") cleanInput = [] input = input.split(' ') for item in input: item = item.strip(string.punctuation) if len(item) > 1 or (item.lower() == 'a' or item.lower() == 'i'): cleanInput.append(item) return cleanInput def ngrams(input, n): input = cleanInput(input) output = {} for i in range(len(input)-n+1): ngramTemp = " ".join(input[i:i+n]) if ngramTemp not in output: output[ngramTemp] = 0 output[ngramTemp] += 1 return output content = str( urlopen("http://pythonscraping.com/files/inaugurationSpeech.txt").read(), 'utf-8') ngrams = ngrams(content, 2) sortedNGrams = sorted(ngrams.items(), key = operator.itemgetter(1), reverse=True) print(sortedNGrams)

다음은 출력 결과의 일부입니다. [('of the', 213), ('in the', 65), ('to the', 61), ('by the', 41), ('the constitution', 34), ('of our', 29), ('to be', 26), ('from the', 24), ('the people', 24), ('and the', 23), ('it is', 23), ('that the', 23), ('of a', 22), ('of their', 19)

이들 2-그램 중에서 the constitution은 연설문에 상당히 많이 등장하는 구절이 맞지만, of

the, in the, to the 등은 눈여겨볼 필요가 없습니다. 이러한 필요 없는 단어들을 자동으로 정 확하게 걸러낼 방법은 없을까요? 다행히 흥미로운 단어와 불필요한 단어의 차이를 주의 깊게 연구한 사람들이 있습니다. 브리검 영 대학교의 언어학 교수인 마크 데이비스Mark Davies는 최근 십여 년간 미국에서 인기 있었던 출

8장 - 자연어 읽고 쓰기 155


판물들에서 뽑은 4억 5천만 개 이상의 단어로 구성된 현대 미국 영어 자료(http://corpus. byu.edu/coca/ )를 관리하고 있습니다.

이 중에서 가장 많이 사용된 단어 5천 개의 리스트가 무료로 제공되었고, 그 분량은 다행히도 가장 널리 쓰이는 2-그램을 걸러내는 기본 필터로 사용하기에 충분한 양이었습니다. 다음의 isCommon 함수와 함께 사용하면 처음 100단어만으로도 결과가 아주 많이 개선됩니다.3 def isCommon(ngram): commonWords = ["the", "be", "and", "of", "a", "in", "to", "have", "it", "i", "that", "for", "you", "he", "with", "on", "do", "say", "this", "they", "is", "an", "at", "but","we", "his", "from", "that", "not", "by", "she", "or", "as", "what", "go", "their","can", "who", "get", "if", "would", "her", "all", "my", "make", "about", "know", "will", "as", "up", "one", "time", "has", "been", "there", "year", "so", "think", "when", "which", "them", "some", "me", "people", "take", "out", "into", "just", "see", "him", "your", "come", "could", "now", "than", "like", "other", "how", "then", "its", "our", "two", "more", "these", "want", "way", "look", "first", "also", "new", "because", "day", "more", "use", "no", "man", "find", "here", "thing", "give", "many", "well"] for word in ngram: if word in commonWords: return True return False

위 코드를 적용하여 연설문 본문에서 3회 이상 발견한 2-그램은 다음과 같습니다. ('united states', 10), ('executive department', 4), ('general government', 4), ('called upon', 3), ('government should', 3), ('whole country', 3), ('mr jefferson', 3), ('chief magistrate', 3), ('same causes', 3), ('legislative body', 3)

리스트의 처음 두 항목인 United States와 executive department는 대통령의 취임 연설에 등장할 만한 단어입니다. 널리 쓰이는 단어는 비교적 최근을 기준으로 선정했으므로, 이 연설문이 1841년에 작성됐다는 점을 감안하면 결과를 필터링하기에 다소 부적절할 수도 있습니다. 하지만 목록의 처음 100단 어 정도만 사용했고(이 범위의 단어들은 시간이 지나면서 점점 더 안정된다고 가정해도 되니

3 역자주_ 예제 코드 전체는 원서 깃허브 저장소의 8장 폴더에 있는 2-countUncommon2Grams.py 파일을 참고하기 바랍니다.

156 2부 - 고급 스크레이핑


CHAPTER

9

폼과 로그인 뚫기

웹 스크레이핑의 기본을 이해한 다음 나올 만한 첫 번째 질문 중 하나는, 로그인해야 얻을 수 있는 정보에 어떻게 접근하느냐입니다. 웹은 점점 더 상호작용과 소셜 미디어, 사용자가 만든 콘텐츠 쪽으로 이동하고 있습니다. 폼과 로그인은 이런 타입의 사이트에서 필수적인 부분이고, 이것 없이 사이트를 유지하기는 거의 불가능합니다. 다행히 이들은 비교적 쉽게 대응할 수 있 습니다. 여태까지 사용한 예제 스크레이퍼들은 대부분 HTTP GET을 써서 정보를 요청���습니다. 이 장 에서는 웹 서버에서 저장하고 분석할 정보를 보내는 POST 메서드에 집중합니다. 폼은 기본적으로 웹 서버가 이해하고 사용할 수 있는 POST 요청을 사용자가 보낼 수 있게 하는 수단입니다. 웹사이트에 있는 링크 태그는 사용자가 GET 요청을 형식에 맞게 보낼 수 있도록 돕습니다. 마찬가지로, HTML 폼은 POST 요청을 형식에 맞게 보낼 수 있도록 돕습니다. 따라 서 코딩을 조금만 하면 POST 요청을 직접 만들어 스크레이퍼가 전송하게 할 수 있습니다.

9.1  파이썬 requests 라이브러리 파이썬의 기본 라이브러리만으로도 웹 폼을 다룰 수 있지만, 도움을 좀 받으면 삶이 훨씬 단순 해질 수 있습니다. urllib과 기본적인 GET 요청으로 할 수 있는 것 이상을 해야 할 때가 오면 파이썬 내장 라이브러리 말고 다른 것을 찾아보는 게 낫습니다.

9장 - 폼과 로그인 뚫기 175


requests 라이브러리( http://www.python-requests.org )는 복잡한 HTTP 요청과 쿠키, 헤

더를 아주 잘 처리하며 그 외에도 많은 기능이 있습니다. 라이브러리를 만든 케네스 라이츠Kenneth Reitz는 파이썬의 내장 라이브러리에 대해 이렇게 말했 습니다. 파이썬의 표준 urllib2 모듈은 필요한 HTTP 기능을 거의 제공하지만, 이제 너무 뒤떨어 졌습니다. 이 API는 과거에, 과거의 웹을 위해 만들어졌습니다. urllib2를 사용하려면 정 말 단순한 일 하나만 하려 해도 할 일이 너무 많고, 심지어 메서드 오버라이드까지 필요할 때도 있습니다.

API를 이렇게 만들면 안 됩니다. 파이썬과 어울리지 않습니다. 다른 파이썬 라이브러리와 마찬가지로, requests 라이브러리 역시 pip 같은 파이썬 라이브러 리 관리자로 설치해도 되고,1 https://github.com/kennethreitz/requests에서 소스 파일을 내려받아 설치해도 됩니다.

9.2  기본적인 폼 전송 대부분의 웹 폼은 HTML 필드와 전송 버튼, 폼을 실제 처리하는 ‘액션’ 페이지로 구성됩니다.

HTML 필드는 보통 텍스트 필드이지만, 파일 업로드라든가 그 외 텍스트가 아닌 필드도 있습 니다. 유명한 사이트는 대부분 robots.txt 파일에서 로그인 폼에 접근하는 걸 거부하므로(부록 C에 서 이런 폼을 스크레이핑하는 것이 합법적인지 다룹니다), 필자는 웹 스크레이퍼로 테스트해 볼 수 있는 몇 가지 폼과 로그인 페이지를 pythonscraping.com에 준비해뒀습니다. 가장 기본 적인 폼은 http://pythonscraping.com/pages/files/form.html 에 있습니다. 이 폼은 다음과 같이 구성되어 있습니다.

1 역  자주_ pip install requests

176 2부 - 고급 스크레이핑


<form method="post" action="processing.php"> First name: <input type="text" name="firstname"><br> Last name: <input type="text" name="lastname"><br> <input type="submit" value="Submit"> </form>

여기는 몇 가지 눈여겨볼것이 있습니다. 먼저, 입력 필드 두 개의 이름이 각각 firstname과 lastname입니다. 이건 중요한 부분입니다. 이들 필드 이름은 폼을 전송할 때 POST로 서버에 전

달될 변수 이름을 결정합니다. 폼의 동작을 흉내 내려 한다면 변수 이름을 정확히 맞춰야 합니 다. 둘째, 폼이 실제로 동작하는 곳은 processing.php (절대 경로는 http://pythonscraping. com/files/processing.php )입니다. 폼에 post 요청을 보낼 때는 폼 자체가 있는 페이지가 아

니라, processing.php에 보내야 합니다. 다시 말하지만, HTML 폼의 목적은 웹사이트 방문자 가 실제 동작을 수행하는 페이지에 올바른 형식으로 요청을 보내도록 돕는 것입니다. 요청 형 식 자체를 연구하려는 것이 아니라면 폼이 존재하는 페이지에는 구애받을 필요 없습니다. requests 라이브러리로 폼을 보내는 건 임포트 문과 콘텐츠 출력을 포함해 단 네 줄이면 됩니다. import requests params = {'firstname': 'Ryan', 'lastname': 'Mitchell'} r = requests.post("http://pythonscraping.com/files/processing.php", data=params) print(r.text)

폼을 전송하면 페이지 콘텐츠가 반환됩니다. Hello there, Ryan Mitchell!

이 코드는 인터넷에 존재하는 단순한 폼 상당수에 적용할 수 있습니다. 예를 들어 오라일리의 미디어 소식지 구독 폼은 다음과 같습니다. <form action="http://post.oreilly.com/client/o/oreilly/forms/ quicksignup.cgi" id="example_form2" method="POST"> <input name="client_token" type="hidden" value="oreilly" /> <input name="subscribe" type="hidden" value="optin" /> <input name="success_url" type="hidden" value="http://oreilly.com/store/ newsletter-thankyou.html" /> <input name="error_url" type="hidden" value="http://oreilly.com/store/

9장 - 폼과 로그인 뚫기 177


newsletter-signup-error.html" /> <input name="topic_or_dod" type="hidden" value="1" /> <input name="source" type="hidden" value="orm-home-t1-dotd" /> <fieldset> <input class="email_address long" maxlength="200" name= "email_addr" size="25" type="text" value= "Enter your email here" /> <button alt="Join" class="skinny" name="submit" onclick= "return addClickTracking('orm','ebook','rightrail','dod' );" value="submit">Join</button> </fieldset> </form>

처음에는 좀 벅차 보일 수 있지만, 나중에 설명할 몇 가지 예외를 제외하면 단 두 가지만 기억 하면 됩니다. • 데이터를 전송할 필드 이름(여기서는 email_address입니다) • 폼 자체의 action 속성, 즉 폼을 실제 처리하는 페이지(여기서는 http://post.oreilly.com/

client/o/oreilly/forms/quicksignup.cgi 입니다)

다음 코드에서 이메일만 본인 이메일로 바꿔서 실행해보십시오. import requests params = {'email_addr': 'ryan.e.mitchell@gmail.com'} url = "http://post.oreilly.com/client/o/oreilly/forms/quicksignup.cgi" r = requests.post(url, data=params) print(r.text)

오라일리의 메일링 리스트에 실제로 가입하려면 이 코드가 반환하는 폼을 다시 작성해야 하지 만, 그 폼에도 같은 개념이 적용됩니다. 하지만 이걸 테스트할 때는 틀린 구독 요청을 마구 뿌 려대지 말고, 부디 좋은 의도를 가지고 하길 바랍니다.

178 2부 - 고급 스크레이핑


CHAPTER

11

이미지 처리와 텍스트 인식

구글의 자율주행 자동차부터 위조지폐를 인식하는 자판기까지, 컴퓨터에 눈을 다는 방대한 작 업은 우리에게 지대한 영향을 미치는 분야입니다. 이 장에서는 이 분야의 아주 좁은 부분인 텍 스트 인식에 집중합니다. 그중에서도, 온라인에서 가져온 텍스트 기반 이미지를 다양한 파이썬 라이브러리로 인식하고 사용하는 방법을 다룹니다. 텍스트 대신 이미지를 쓰는 건 봇이 텍스트를 찾아서 읽는 것을 막고 싶을 때 흔히 쓰는 방법입 니다. 연락처에서 이메일 주소 일부 또는 전체가 이미지로 처리된 것을 자주 봤을 겁니다. 정교 하게 처리한다면 사람조차 그것을 읽긴 해도 이미지인지 알아채기 어렵고, 봇으로 그런 이미지 를 읽기란 매우 어려워서 스팸을 뿌려대는 사람들로부터 이메일 주소를 보호하기엔 충분합니다. 자동 가입 방지 문자CAPTCHA 역시 사용자는 보안 이미지를 읽을 수 있지만 대부분의 봇은 읽지 못한다는 사실을 이용합니다. 일부 CAPTCHA는 다른 것에 비해 더 어려우며, 이런 것들은 이 책 후반에서 다시 다룰 겁니다. 하지만 웹 스크레이퍼가 이미지를 텍스트로 인식해야 하는 분야는 CAPTCHA만이 아닙니다. 최근에는 문서를 그냥 스캔해서 인터넷에 올리는 경우가 많습니다. 등잔 밑이 어둡다는 격이 되겠지만, 이런 문서는 인터넷이라는 관점에서 보기엔 접근이 불가능한 것이나 마찬가지입니 다. 이미지를 텍스트로 인식하는 기능이 없다면 이들 문서에 접근할 수 있는 방법은 사람이 손 으로 타이핑하는 것뿐이지만, 그렇게 한가한 사람은 없습니다. 이미지를 텍스트로 바꾸는 작업을 광학 문자 인식(OCR )이라 부릅니다. OCR 기능이 있는 주 요 라이브러리는 그리 많지 않지만, 이들을 지원하거나 이들을 기반으로 만들어진 라이브러리

11장 - 이미지 처리와 텍스트 인식 201


는 여러 가지입니다. 이런 라이브러리 시스템은 때로는 매우 복잡하므로, 이 장의 연습문제를 바로 풀어보기 전에 먼저 다음 섹션을 읽기 바랍니다.

11.1  라이브러리 개관 파이썬은 이미지 처리와 읽기, 이미지 기반 머신 러닝, 심지어 이미지 생성에도 매우 뛰어난 언 어입니다. 이미지 처리에 사용할 수 있는 라이브러리는 다양하지만, 우리는 필로Pillow와 테서랙 트Tesseract 두 가지만 사용할 겁니다.

11.1.1  필로 필로는 가장 많은 기능을 갖춘 이미지 처리 라이브러리는 아니지만, 우리가 필요로 할 기능은 모두 갖추고 있습니다. 파이썬으로 포토샵 같은 것을 만들거나 연구할 목적이 아닌 한 필로면 충분할 겁니다. 문서화도 매우 잘되어 있고, 사용하기도 아주 쉽습니다. 웹사이트 http://pillow.readthedocs.org/installation.html 에서 소스를 내려받아 설치 할 수도 있고, pip install pillow로 설치할 수도 있습니다. 필로는 파이썬 2.x 용 파이썬 이미지 라이브러리인 PIL에서 갈라져 나와 파이썬 3.x 지원을 추 가했습니다. 원조인 PIL과 마찬가지로, 필로도 쉽게 이미지를 불러오고 조작할 수 있도록 만들 어졌으며 다양한 필터와 마스크, 심지어 픽셀 단위 변형도 가능합니다. from PIL import Image, ImageFilter kitten = Image.open("kitten.jpg") blurryKitten = kitten.filter(ImageFilter.GaussianBlur) blurryKitten.save("kitten_blurred.jpg") blurryKitten.show()

위 예제는 kitten.jpg 이미지에 블러 효과를 추가해 기본 이미지 뷰어에서 열고, 동시에 같은 디렉터리에 kitten_blurred.jpg라는 이름으로 저장합니다. 우리는 필로를 사용해 이미지를 컴퓨터가 읽기 더 쉽게 전처리하겠지만, 이미 언급했듯 필로 는 이런 단순한 조작 외에도 여러 가지 기능이 있습니다. 더 자세한 정보는 필로 문서(http://

202 2부 - 고급 스크레이핑


pillow.readthedocs.org/ )를 참고하십시오.

11.1.2  테서랙트 테서랙트는 OCR 라이브러리입니다. 테서랙트는 OCR과 머신 러닝으로 유명한 구글의 투자를 받고 있는데, 가장 정확한 최고의 오픈 소스 OCR 시스템으로 널리 인정받고 있습니다. 테서랙트는 정확하기만 할 뿐 아니라 대단히 유연하기도 합니다. 테서랙트는 폰트가 비교적 일 관적이기만 하면(곧 볼 겁니다), 숫자에 제한 없이 그 폰트를 인식하도록 훈련할 수 있으며, 유니코드 문자도 인식하도록 확장할 수 있습니다. 이 책에서 지금까지 사용한 라이브러리와 달리, 테서랙트는 import 문으로 불러오는 라이브러 리가 아니라 파이썬으로 작성된 명령줄 도구입니다. 설치를 마치면 반드시 파이썬 명령행 외부 에서 tesseract 명령어로 실행해야 합니다.

테서랙트 설치 윈도우 사용자는 https://github.com/tesseract-ocr/tesseract/wiki에서 간편한 인스톨 러를 받을 수 있습니다. 이 글을 쓰는 시점에서 최신 버전은 3.02지만, 그 뒤에 나온 버전에도 아무 문제가 없을 겁니다.1 리눅스 사용자는 apt-get으로 설치할 수 있습니다. $ sudo apt-get tesseract-ocr

맥에서 설치하는 건 조금 더 복잡하지만, 5장에서 MySQL을 설치할 때 썼던 홈브루(http:// brew.sh/ ) 같은 설치 관리자로 쉽게 설치할 수 있습니다. 다음 명령은 홈브루를 설치하고 이

어서 테서랙트를 설치합니다. $ ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/ \ install/master/install)" $ brew install tesseract

1 역  자주_ 윈도우의 경우 3.03 이후 버전은 서드파티 인스톨러만 제공됩니다. @egorpugin 바이너리를 받을 경우 32비트용 ‘Visual Studio 2015용 Visual C++ 재배포 가능 패키지’도 함께 설치해야 합니다.

11장 - 이미지 처리와 텍스트 인식 203


프로젝트의 다운로드 페이지 ( https://github.com/tesseract-ocr/tesseract/wiki )에서 소스를 받아 설치해도 됩니다 테서랙트를 훈련시키는 것 같은 일부 기능은 데이터 파일(.traineddata 확장자)이 필요하며, 데이터 파일은 테서랙트 설치 위치 아래 tessdata 디렉터리에 위치해야 합니다.2 환경에 따라 테서랙트 설치 위치를 지정하는 환경 변수 $TESSDATA_PREFIX를 설정해야 할 수 도 있습니다. 필요하다면 대부분의 리눅스 시스템과 맥 OS X에서는 다음 명령을 쓰면 됩니다. $ export TESSDATA_PREFIX=/usr/local/share/

/usr/local/share/은 테서랙트의 기본 설치 위치입니다만, 설치할 때 바꾸지 않았는지는 확

인해야 합니다. 윈도우에서도 마찬가지로, 필요하다면 다음과 같이 설치 위치를 지정하도록 환경 변수를 설정 합니다. #setx TESSDATA_PREFIX "C:\Program Files\Tesseract OCR\"

11.1.3  넘파이 단순한 OCR에서는 필요하지 않지만, 테서랙트가 이 장에서 사용할 다른 문자나 폰트도 인식 하도록 훈련하려면 넘파이NumPy가 필요합니다. 넘파이는 선형 대수학이나 기타 대규모 수학 애 플리케이션에 사용하는 매우 강력한 라이브러리입니다. 넘파이는 이미지를 수학적인 거대한 픽셀 배열로 표현하고 조작할 수 있는데, 테서랙트에서 이런 기능을 활용할 수 있습니다. 이번 장 예제에서 사용하지는 않을 것입니다. 항상 그렇지만 넘파이도 pip 같은 패키지 관리자로 설치할 수 있습니다. $ pip install numpy

2 역자주_ 데이터 파일을 따로 내려받지 않았다면 https://github.com/tesseract-ocr/tessdata에서 직접 내려받아야 합니다. 이 책에서는 영어 데이터인 eng.traineddata 파일을 사용합니다.

204 2부 - 고급 스크레이핑


CHAPTER

12

스크레이핑 함정 피하기

사이트를 스크랩하고 출력 결과를 봤더니 브라우저에서 보이는 데이터가 보이지 않는다면 힘 이 빠질 것입니다. 폼을 완벽하게 작성해서 전송했는데 웹 서버가 거부할 때도 있습니다. 당신 이 알지 못하는 이유로 IP 주소가 차단당할 때도 있습니다. 이런 것들은 해결하기 매우 어려운 버그입니다. 어떤 사이트에서는 완벽하게 동작하는 스크립 트가, 겉보기에는 똑같아 보이는 다른 사이트에서는 전혀 동작하지 않는 등 예측하기도 어려울 뿐 아니라, 의도적으로 에러 메시지나 스택 추적을 제공하지 않기 때문입니다. 당신은 봇으로 분류되고, 거부당하고 있는데 이유를 모르고 있습니다. 이 책에서는 폼을 전송하고, 지저분한 데이터를 추출해서 정리하고, 자바스크립트를 실행하는 등 웹사이트에서 봇으로 하기 어려운 일들을 하는 방법을 많이 설명했습니다. 이 장은 다양한 주제(예를 들자면 HTTP 헤더, CSS, HTML 폼 등)에서 뻗어 나온 테크닉들을 한데 모은 것 에 가깝습니다. 하지만 공통점도 있습니다. 이들은 모두 사이트에서 자동화된 웹 스크레이핑을 막으려는 유일한 목적으로 설치한 걸림돌들입니다. 이 장에서 설명하는 것들이 당장 어떤 도움이 되지 않는다고 하더라도 최소한 훑어보기는 하길 권합니다. 나중에 언제라도, 매우 어려운 버그를 해결하거나 문제를 예방하는 데 도움이 될 수 도 있습니다.

12장 - 스크레이핑 함정 피하기 221


12.1  스크레이핑의 윤리에 관해 이 책 초반 몇 장에서 필자는 웹 스크레이핑과 관련해 법적으로 모호한 부분이 있음을 설명하 고 윤리적인 조언도 조금 했습니다. 솔직히 말해, 필자는 이 장을 써야 할지 많이 망설였습니 다. 필자의 웹사이트는 셀 수도 없는 봇과 스팸, 웹 스크레이퍼, 온갖 종류의 가상 방문자들이 어지럽히고 있고, 아마 당신이 만든 봇도 방문했었을 겁니다. 그러면 사람들에게 봇을 더 잘 만 들도록 설명하는 이유는 무엇일까요? 필자가 이 장을 넣어야겠다고 판단한 이유가 몇 가지 있습니다. • 사이트에서 스크랩을 원하지 않더라도 스크랩해도 되는, 윤리적으로나 법적으로나 완벽한 근거가 있을 때 가 있습니다. 필자의 이전 직업은 웹 스크레이퍼였는데, 그 때 클라이언트의 이름과 주소, 전화번호, 기타 개 인적인 정보를 동의 없이 인터넷에 올리던 웹사이트에서 그 정보를 수집했던 일이 있습니다. 필자는 스크랩 한 정보를 바탕으로, 웹사이트에 이 정보를 제거해 달라는 공식 요청을 작성했습니다. 이 사이트들은 경쟁을 피하기 위해 스크레이퍼가 이 정보를 수집할 수 없도록 보호하기 시작했습니다. 하지만 필자는 회사의 고객 들(그들 중 일부에게는 스토커가 붙어 있었고, 가정 폭력의 희생자도 있었고, 그 외에도 정보가 노출되서는 안 되는 정당한 이유가 있었습니다)의 익명성을 지키기 위해 웹 스크레이핑을 사용한 것이 아주 설득력 있 는 일이었다고 생각하며, 그만한 기술을 가져서 다행이라고도 생각했습니다. • 정상적인 사용자에게는 아무 영향도 없으면서 스크레이퍼로부터는 절대 안전한 사이트를 만들기는 거의 불 가능하지만, 이 장에서 설명하는 정보가 악의적 공격으로부터 웹사이트를 보호하는 데 도움이 되길 바랍니 다. 이 장에서는 웹 스크레이핑 방법의 약점을 짚을 테니 당신의 사이트를 보호할 때도 활용할 수 있을 겁니 다. 최근 웹에 있는 봇의 대부분은 단순히 광범위하게 정보와 취약점을 찾아낼 뿐이고, 이 장에서 설명하는 간단한 테크닉 한두 가지만 적용하더라도 봇의 99퍼센트를 무력화시킬 수 있을 겁니다. 물론 봇들 역시 계 속 진화하고 있으니 항상 대비하는 게 중요합니다. • 대부분의 프로그래머와 마찬가지로, 필자 역시 교육적인 정보를 막는 게 긍정적인 일이라고는 생각하지 않 습니다.

이 장을 읽는 동안 여기서 설명하는 스크립트와 테크닉을 아무 사이트에나 실행해서는 안 된다 는 점을 염두에 두십시오. 올바른 일이 아닐뿐더러, 정지 명령이나 그보다 더 심한 일을 당할 수도 있습니다. 물론 필자는 새로운 테크닉을 설명할 때마다 골치 아프게 할 마음도 없습니다. 이 책의 나머지 부분에 대해서는, 포레스트 검프의 유명한 대사 그대로, 제가 할 말은 그게 전 부입니다.

222 2부 - 고급 스크레이핑


12.2  사람처럼 보이기 스크랩을 막고 싶은 사이트에서 가장 먼저 해결할 숙제는 사람과 봇을 구분하는 겁니다.

CAPTCHA처럼 이미 여러 사이트에서 사용하는 방법도 뚫기가 쉽지는 않지만, 당신의 봇이 사람처럼 보이게 하는 아주 쉬운 방법이 몇 가지 있습니다.

12.2.1  헤더를 수정하십시오 9 장에서는 requests 모듈을 써서 웹사이트의 폼을 처리하는 방법을 배웠습니다. 그런데 requests 모듈은 헤더 설정에도 뛰어납니다. HTTP 헤더는 웹 서버에 요청을 보낼 때마다 함

께 보내는 속성, 또는 선호하는 설정의 묶음입니다. HTTP 정의에는 모호한 헤더 타입이 아주 많이 있는데, 그중 상당수는 현재 널리 쓰이지 않습니다. 다음의 일곱 가지 필드는 대부분의 주 요 브라우저에 서버에 연결할 때마다 사용하는 필드입니다(필자의 브라우저에서 가져왔습니 다). 필드

Host

https://www.google.com/

Connection

keep-alive

Accept

text/html,application/xhtml+xml,application/xml;q=0.9,image/ webp,*/*;q=0.8

User-Agent

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36

Referrer

https://www.google.com/

Accept-Encoding

gzip, deflate, sdch

Accept-Language

en-US,en;q=0.8

그리고 다음은 기본 urllib 라이브러리를 사용하는 일반적인 파이썬 스크레이퍼에서 보내는 헤더입니다. 필드

Accept-Encoding

identity

User-Agent

Python-urllib/3.4

12장 - 스크레이핑 함정 피하기 223


당신이 웹사이트 관리자이고 스크레이퍼를 차단하고 싶다면, 어느 쪽을 허용하겠습니까?

requests 설치 실습을 그대로 따라 했다면 requests 모듈을 9장에서 설치했겠지만, 아직 하지 않았다면 웹 사이트(http://python-requests.org/)에서 내려받거나 pip 같은 패키지 관리자로 설치할 수 있습니다.

requests 모듈을 쓰면 헤더를 원하는 대로 바꿀 수 있습니다. https://www.whatismybrow ser.com 웹사이트에서 브라우저가 보내는 헤더가 서버에서 어떻게 보이는지 테스트할 수 있습

니다. 다음 스크립트로 이 사이트를 스크랩해서 쿠키 설정을 확인해봅시다. import requests from bs4 import BeautifulSoup session = requests.Session() headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit 537.36 (KHTML, like Gecko) Chrome", "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/ webp,*/*;q=0.8"} url = "https://www.whatismybrowser.com/developers/what-http-headers-is-my-browsersending" req = session.get(url, headers=headers) bsObj = BeautifulSoup(req.text, "html.parser") print(bsObj.find("table",{"class":"table-striped"}).get_text)

출력 결과의 헤더는 headers 딕셔너리 객체에 설정한 것과 같습니다. 웹사이트에서 어떤 필드를 보고 사람인지 확인할지는 사이트 관리자의 마음이지만, 필자의 경 험에 따르면 중요한 것은 일반적으로 User-Agent 하나뿐입니다. 어떤 프로젝트를 만들고 있 든, User-Agent 필드에 Python-urllib/3.4보다는 덜 의심스러운 것을 사용하는 게 좋습니다. 사이트 관리자가 의심이 아주 많다면, 널리 쓰이지만 체크하는 일은 드문 Accept-Language 같 은 필드를 바꾸는 것도 사람처럼 보이는 데 도움이 될 수 있습니다.

224 2부 - 고급 스크레이핑


APPENDIX

C

웹 스크레이핑의 합법성과 윤리

2010년 소프트웨어 엔지니어인 피터 와든Pete Warden은 웹 크롤러를 만들어 페이스북에서 데이 터를 수집했습니다. 피터는 대략 2억 명의 페이스북 사용자로부터 사용자 이름, 위치 정보, 친 구, 관심사 등의 데이터를 수집했습니다. 물론 페이스북은 이 사실을 알아채고 피터에게 정지 명령을 보냈고 피터는 이 명령에 응했습니다. 누군가가 피터에게 왜 정지 명령에 순응했는지 묻자, 피터는 이렇게 대답했습니다. “빅 데이터? 싸죠. 법률가는? 비싸요.” 이 장에서는 웹 스크레이핑과 관련된 미국 법률(일부 국제법과 함께)에 대해 알아보고, 웹 스 크레이핑 상황의 합법성과 윤리를 분석해보겠습니다. 이 섹션을 읽기 전에 한 가지 분명한 사실을 다시 확인하겠습니다. 필자는 소프트웨어 엔지니 어일 뿐 법률가가 아닙니다. 여기 또는 이 책의 다른 장에 수록된 내용 중 무엇이라도 법률 전 문가의 조언이라고 생각해도 안되며, 그에 따라 행동해서도 안 됩니다. 비록 필자가 웹 스크레 이핑의 합법성과 윤리에 대해 아는 것이 있고 설명할 수도 있지만, 법적으로 모호한 웹 스크레 이핑 프로젝트를 시작하기 전에는 반드시 법률가(소프트웨어 엔지니어가 아니라)와 상담해야 합니다.

부록 C - 웹 스크레이핑의 합법성과 윤리

265


C.1  상표? 저작권? 특허? 지적 재산권에 대해 설명할 시간이군요. 지적 재산권에는 크게 세 가지가 있습니다. 상표(™ 또는 ® 기호), 저작권(아주 흔한 ©), 특허(이따금 특허로 보호된 발명품임을 설명하는 텍스 트가 있기도 하지만 대개 없습니다) 세 가지입니다. 특허는 발명품에 한해 소유권을 선언하기 위해 쓰입니다. 이미지, 텍스트, 기타 정보 자체에는 특허를 낼 수 없습니다. 소프트웨어 특허 같은 일부 특허는 우리가 보통 ‘발명품’이라 생각하는 것만큼 뚜렷하지는 않지만, 중요한 건 그 물건(또는 테크닉)이 특허의 대상일 뿐 그 안에 담긴 정보는 특허의 대상이 아닙니다. 스크랩한 청사진으로 무언가를 만들거나 누군가가 웹 스크레 이핑 방법에 특허를 내지 않는 한, 웹 스크레이핑 때문에 우연히 특허를 위반할 가능성은 매우 낮습니다. 상표 역시 문제의 소지는 낮지만 염두에 두기는 해야 합니다. 미국 특허청에 따르면 상표의 정 의는 다음과 같습니다. 상표란 어느 일방의 상품의 원천을 타인의 상품의 원천과 식별하고 구별하는 단어, 구절, 기 호, 디자인이다. 서비스 마크란 상품이 아니라 서비스의 원천을 식별하고 구별하는 단어, 구 절, 기호, 디자인이다. ‘상표’란 용어는 종종 상표와 서비스 마크 양쪽을 모두 가리킨다.

상표를 생각할 때 우리가 보통 떠올리는 전통적인 단어 또는 마크 같은 브랜딩 외에도, 기타 독 특한 속성도 상표가 될 수 있습니다. 예를 들어 용기 모양(코카콜라 병)이나 심지어 색깔(오웬 스코닝의 핑크 팬더 광섬유 절연체에 사용하는 핑크색)도 이에 포함됩니다. 특허와는 달리, 상표 소유권은 문맥에 따라 크게 달라집니다. 예를 들어 필자가 코카콜라 로고 사진이 들어 있는 블로그 포스트를 썼다 해도, 해당 블로그 포스트가 코카콜라의 협찬을 받았 거나 코카콜라에서 작성한 것이라는 암시만 들어 있지 않다면 괜찮습니다. 하지만 필자가 새로 운 음료 상품을 만들면서 똑같은 코카콜라 로고를 패키지에 표시했다면 그건 명백한 상표권 위 반입니다. 마찬가지로, 핑크 팬더의 핑크색을 새 음료 패키지에 쓰는 건 상관없지만 같은 색깔 을 가정용 절연 제품에는 쓸 수 없습니다.

266 부록


C.1.1  저작권법 상표와 특허는 모두, 인식되기 위해서는 먼저 공식적으로 등록되어야 한다는 상식이 존재합니 다. 이런 상식은 저작권의 보호를 받는 출판물에는 통용되지 않습니다. 이미지, 텍스트, 음악 등에 저작권을 부여하는 것은 무엇일까요? 페이지 맨 아래에 있는 ‘All Rights Reserved’ 경고 도 아니고, ‘출판된’ 것과 ‘출판되지 않은’ 것 사이에 어떤 특별한 차이가 있는 것도 아닙니다. 당 신이 창작한 것은 존재하게 되는 즉시 자동으로 저작권법의 대상이 됩니다. 문학, 예술적 저작물의 보호를 위한 베른 조약은 1886년 처음 도입되었으며 저작권에 관한 국 제 표준입니다. 이 조약을 요약하면, 모든 회원국은 다른 회원국 국민의 저작권도 자국 국민의 저작권처럼 동일하게 보호해야 한다는 내용입니다. 알기 쉽게 말하면, 미국 시민이 프랑스에 사는 누군가가 쓴 저작물의 저작권을 위반한다면 미국에서 처벌받을 수 있다는 뜻입니다(반대 도 마찬가지입니다). 물론 저작권은 웹 스크레이퍼의 주요 관심사입니다. 필자가 누군가의 블로그 콘텐츠를 스크랩 해서 필자의 블로그에 올린다면 소송을 자초한 것이나 마찬가지입니다. 다행히 블로그 스크레 이핑 프로젝트가 어떻게 동작했느냐에 따라 필자를 보호하는 방법이 몇 가지 있습니다. 활동에만 적용됩니다. 통계나 사실에는 적용되지 않습니다. 다행히 웹 스크레이핑은 대부분 사 실과 통계에 관련된 것입니다. 웹 스크레이퍼가 웹에서 시를 수집해 당신의 웹사이트에 올렸다 면 저작권법을 위반한 것이지만, 웹 스크레이퍼가 시간에 따른 시의 출현 빈도에 관한 정보를 수집했다면 저작권법을 위반한 것이 아닙니다. 시 자체는 창의적인 활동의 결과이지만, 어떤 웹사이트에 시어가 한 달 동안 몇 번 등장했는지 세는 건 창의적인 활동이 아닙니다. (가공되지 않은 스크랩 데이터를 기반으로 계산한 콘텐츠가 아니라) 콘텐츠를 그대로 포스팅 했다 해도, 그 데이터가 가격이거나, 회사 경영진 이름이거나, 기타 사실적 정보라면 저작권법 을 위반한 것이 아닙니다. 디지털 밀레니엄 저작권법(DMCA )에 따르면 저작권의 보호를 받는 콘텐츠라도 합당한 이유 가 있다면 직접 사용할 수 있습니다. DMCA에는 저작권 있는 콘텐츠의 자동화된 처리에 관한 몇 가지 규칙의 개요가 있습니다. DMCA는 매우 길고, 이북부터 전화에 이르는 여러 사안을 규정하는 특정한 규칙들이 포함됩니다. 하지만 특히 흥미로운 세 가지 주요 섹션이 있습니다.

부록 C - 웹 스크레이핑의 합법성과 윤리

267


• ‘세이프 하버’ 보호 조약 아래에서, 저작권과 관계없는 것만 있다고 믿었을 것이라 보이는 소스에서 자료를 스크랩했지만 다른 사용자가 그 소스에 저작권 있는 자료를 올린 경우, 고지받은 시점에서 저작권 있는 자 료를 제거하기만 하면 보호받을 수 있습니다. • 콘텐츠를 수집하기 위해 보안 수단(비밀번호 같은)을 회피해서는 안 됩니다. • ‘공정 사용’ 규칙 아래에서 콘텐츠를 사용할 수 있습니다. 공정 사용인지 아닌지는 저작권 있는 자료의 비율, 그 자료를 사용한 목적에 따라 정해집니다.

간단히 말해, 저작권 있는 자료는 원저자나 저작권 소유자로부터 허가받지 않고 직접 게시해서 는 안 됩니다. 접근 권한이 있는 저작권 있는 자료를 당신의 데이터베이스에 저장하고 분석 목 적으로 공개하지 않은 채 사용한다면 괜찮습니다. 그 데이터베이스를 웹사이트에 게시해보거 나 내려받을 수 있게 해서는 안 됩니다. 그 데이터베이스를 분석하고 단어 통계, 저자 리스트, 기타 데이터에 관한 메타 분석을 게시하는 것은 괜찮습니다. 메타 분석에 몇 가지 인용구가 있 거나 간단한 샘플 데이터를 써서 당신이 원하는 바가 드러나게끔 돕는 정도도 괜찮을 것 같지 만, 확실히 하려면 DMCA의 ‘공정 사용’ 절을 검토해야 합니다.

C.2  동산 침해 동산 침해는 부동산이나 땅에 적용되는 것이 아니라 서버처럼 움직일 수 있는 소유물에 적용된 다는 점에서 우리가 보통 생각하는 ‘주거침입에 관한 법률’과는 다릅니다. 동산 침해는 어떤 식 으로든 소유물에 접근하거나 사용하는 것을 방해받았을 때 적용됩니다. 클라우드 컴퓨팅의 시대에 웹 서버를 실존하는 뚜렷한 자원으로 생각하기는 쉽지 않습니다. 하 지만 서버는 그 자체로 값비싼 물건일 뿐 아니라, 보관하고 관찰하며 식히고 방대한 전력을 공 급해야 하는 대상입니다. 일부 추산에 따르면 지구에서 소비되는 전기의 10퍼센트가 컴퓨터에 들어간다고 합니다(자신이 소비하는 전기의 비율을 생각하고 의아해하지 마십시오. 구글의 방 대한 서버 농장은 거대한 전��� 시설에 연결되어 있어야 합니다). 서버는 값비싼 자원이기도 하지만, 웹마스터는 일반적으로 사람들이 자원을 소비(웹사이트 에 접근하는 등)하길 바란다는 점에서 법적 관점에서는 흥미로운 분야입니다. 그저 너무 심 하게 소비하지 않길 바랄 뿐입니다. 브라우저로 웹사이트를 체크하는 것은 괜찮지만, 대규모

DDOS 공격을 감행하는 것은 물론 안 됩니다.

268 부록


INDEX 객 체

/

함 수

라 이 브 러 리   

  

  

  

/

모 듈   

add_cookie 함수 226

auth 모듈 183

BeautifulSoup 객체 35, 39, 238

BeautifulSoup 라이브러리 24

By 객체 195

csv 라이브러리 103, 130

BytesIO 객체 135

HTML 파서 라이브러리 51

children 함수 42

lxml 라이브러리 51

Comment 객체 39

ngrams 모듈 168

conn 객체 112

os 모듈 102

cur 객체 112

PDFMiner3K 라이브러리 132

delete_all_cookies 함수 226

PIL 라이브러리 202

delete_cookie 함수 226

PyMySQL 라이브러리 111

descendants 함수 42

requests 라이브러리 176, 224

DictReader 객체 131

trigrams 모듈 168

File 객체 181

unittest 모듈 237, 245

find 함수 36

urllib 라이브러리 24

findAll 함수 35

urllib.error 모듈 24

get_cookies 함수 226

urllib.parse 모듈 24

get_text 함수 35

urllib.request 모듈 24, 100

HTTPBasicAuth 객체 184

urllib2 라이브러리 24

is_displayed 함수 231

넘파이 라이브러리 204

Item 객체 70, 72

셀레니움 라이브러리 191

MIMEText 객체 120

스크래파이 라이브러리 68

NavigableString 객체 39

제이쿼리 라이브러리 188

next_siblings 함수 42

파이삭스 모듈 250

None 객체 30

필로 라이브러리 202

  

OrderedDict 객체 145 previous_siblings 함수 43 sorted 함수 145

주 요

용 어

StringIO 객체 130

a 태그 50, 196

Tag 객체 39

Accept 헤더 223

Text 객체 166

Accept-Encoding 헤더 223

urlopen 함수 24, 127

Accept-Language 헤더 223

urlretrieve 함수 100

Ajax 190 API 76 body 태그 263 CAPTCHA 211 class 속성 35, 38, 196

찾아보기

281


INDEX Connection 헤더 223

script 태그 185

cPanel 252

SELECT 문 110

CREATE DATABASE 문 108

SMTP 120

CREATE INDEX 문 116

span 태그 35

CREATE TABLE 문 108

src 속성 50, 101, 102

CSV 102

UPDATE 문 111

DELETE 문 111

USE 문 108

DELETE 요청 78

User-Agent 헤더 223

DESCRIBE 문 109

UTF 표준 125, 143

DHTML 190

w:t 태그 136

display:none 속성 231

XML 79

file 속성 181

Xpath 197

GET 요청 77 GREL 150

검색 엔진 최적화 272

h1 태그 28, 62

공통 게이트웨이 인터페이스 252

head 태그 129, 263

광학 문자 인식 201

Host 헤더 223

구글 애널리틱스 188, 226

href 속성 50

구글 지도 189

HTML 263

기본 접근 인증 183

html 태그 263

너비 우선 탐색 162

HTTP 헤더 223

다크 웹 58

id 속성 35, 195

단위 테스트 236

img 태그 50

데이터 정규화 144

input 태그 181

딥 웹 58

INSERT INTO 문 110

로봇 제외 표준 272

JSON 79

마르코프 텍스트 생성기 157

MIME 120

마이크로소프트 워드 134

MySQL 105

마커 189

name 속성 179

메르센 트위스터 알고리즘 57

NLTK 165

명시적 대기 194

n-그램 141

묵시적 대기 194

Oauth 85

문맥 자유 문법 172

PDF 132

방향성 그래프 161

POST 요청 77

봇 6

PUT 요청 77

분산형 컴퓨팅 249

Referrer 헤더 223

비방향성 그래프 162

robots.txt

282 찾아보기

176, 208, 272, 280

어서션 236


INDEX 연결 누수 112 예약어 38 오픈리파인 147 웹 스크레이핑 6 웹드라이버 192 위치 지정자 195 위키백과 117, 142, 161 위키백과의 여섯 다리 53 유니코드 표준 112, 125, 143 자바스크립트 185 자손 41 자식 41 자연어 처리 153 정규 표현식 44 종속형 시트 264 크롬 개발자 도구 179 테서랙트 203 테스트 236 토르 249 팬텀JS 191 표면 웹 58 핫링크 100 허니팟 229 히든 웹 58

찾아보기

283


w w w. h a n b i t . c o . k r

Hanbit eBook

Realtime w w w. h a n b i t . c o . k r / e b o o k

DRM free! 어떤 디바이스에서도 자유롭게

eBook Oriented! 전자책에 꼭 맞는 최적의 내용과 디자인

Hanbit eBook

Hanbit eBook

Realtime 70

Realtime 89 49

MFC 프로그래밍 주식분석 프로그램 만들기 김세훈 지음

Hanbit eBook

Hanbit eBook

Realtime 90

Realtime 92 49

자바 개발자를 위한

Vert.x JavaScript Promise​ azu​지음 /​주우영​옮김

애플리케이션 개발 모바일/웹 메시징 STOMP와 MQTT로 개발하는 IoT 모바일/웹 애플리케이션 Mobile and Web Messaging 제프 메스닐 지음 / 조건희 옮김

이연복 지음


w w w. h a n b i t . c o . k r

즐거운 상상이 가득! 2015년 화제의 신간

즐거운 상상이 가득! 2015년 화제의 신간

전자부품 백과사전 vol.1 찰스 플랫 지음 / 배지은 옮김 / 30,000원

취미공학에 필요한 핵심 전자부품을 사전식으로 정리한 안내서.

전자부품 백과사전 vol.1 찰스 플랫 지음 / 배지은 옮김 / 30,000원

처음 시작하는 센서

취미공학에 필요한 핵심 전자부품을 사전식으로 정리한 안내서.

전자부품 백과사전 vol.2

찰스 플랫 지음 / 가격미정

키모 카르비넨, 테로 카르비넨 지음 임지순 옮김 / 13,000원

세상을 수치로 읽어내는

<전자부품 백과사전> 시리즈의 두 번째 도서다.

부품인 센서를 알려주 는 책. 이 책을 통해 자신 만의 프로젝트에 다양한 처음 센서를 사용해보자.

Zero to Maker

: 누구나 메이커가 될 수 있다 데이비드 랭 지음 / 장재웅 옮김 / 14,000원

전자부품 백과사전 vol.2

찰스 플랫 지음 / 가격미정

일반인에서 메이커로. 날백수에서 무인 잠

<전자부품 백과사전> 시리즈의 수정 회사 CEO 가 된 사나이, 데이비드두 번째 도서다. 랭의 메이커 도전기.

Make: 센서

시작하는 센서

키모 카르비넨, 테로 카르비넨 지음 임지순 옮김 / 13,000원

세상을 수치로 읽어내는 부품인 센서를 알려주

키모 카르비넨, 테로 카르비 넨, 빌 발토카리 지음 는 책. 이 책을 통해 자신 / 가격미정

만의 프로젝트에 다양한

필수 전자부품인 센서를

센서를 사용해보자. 마이크로 컨트롤러 보드

Zero to Maker

: 누구나 메이커가 될 수 있다

에 응용하는 방법을 담

데이비드 랭 지음 / 장재웅 옮김 / 14 ,000원 Maker Pro

았다.

베이첼 지음 / 가격미정 일반인에서 메이커로.존날백수에서 무인 잠

메이커라면 반드시 읽어야 할 필수 계발

수정 회사 CEO가 된 사나이, 데이비드 서. 프로 메이커들과의 인터뷰 및 에세이 랭의 메이커 도전기. 수록.

프로젝트로 배우는 라즈베리 파이

도날드 노리스 지음 / 임지순 옮김

다양한 실전 프로젝트를 통해 라즈베리 파이를 쉽고 재미있게 배워본다.

Maker Pro 존 베이첼 지음 / 가격미정

메이커라면 반드시 읽어야 할 필수 계발

Make: 센서 키모 카르비넨, 테로 카르비 넨, 빌 발토카리 지음 / 가격미정

필수 전자부품인 센서를 마이크로 컨트롤러 보드 에 응용하는 방법을 담 았다.



파이썬으로 웹 크롤러 만들기 - 맛보기