Page 1


책1.indb 1

2017-01-24 오후 7:51:03


IV

추천사

베타리더로 이 책을 처음 읽자마자 곧바로 노트북을 켜고 책 속의 파일럿 프로 젝트를 따라 했다. 지금까지 많은 빅데이터 책들이 개념과 이론에 치중했다면, 이 책은 빅데이터 프로젝트의 요건들을 하나씩 해결하는 방식으로 접근해 다 양한 빅데이터 기술의 필요성과 활용법을 알려준다. KT DS 데이터컨설팅 김태연

책을 통해 완전한 지식을 만들 수 없다고 생각했다. 빅데이터 지식 역시 다양 한 채널을 통해 수많은 비즈니스 모델과 기술을 접해왔지만 완전한 나의 지식 이 되지 않았다. 하지만 이 책은 그런 나의 편견을 깨뜨렸다. 이 책에서는 빅 데이터가 어떠한 과정을 통해 인사이트와 가치를 만들어 내는지를 빅데이터 가상 프로젝트를 통해 하나부터 열까지 낱낱이 알려준다. Dell EMC Global Service Group 예상우

수집/적재된 데이터가 5가지 탐색 과정을 거쳐 머하웃을 통해 고급 분석 영역 으로 이어지는 것은 지금까지 어떠한 빅데이터 서적에서도 다루지 못했던 내 용이다. 이 책을 읽는 동안 지금까지 흩어져 있던 빅데이터의 수많은 퍼즐 조 각들이 하나씩 맞아떨어지는 기분이었다. 삼성 SDS CI-TEC 이범

책1.indb 4

2017-01-24 오후 7:51:03


V

추천사

지금 세상은 빅데이터 시대임이 틀림없다. 하지만 빅데이터 경쟁력을 키우기 위해서는 개발자, 설계자, 분석가, 데이터 과학자, 도메인 전문가 등 다양한 관점에서 빅데이터를 바라보고 이해할 수 있어야 하는데, 그때 필요한 책이 바로 이 책이다. SK 플래닛 서비스엔지니어링 김기홍

책의 각 장이 끝날 때마다 마치 흥미로운 소설책을 읽는 것처럼 다음 장이 궁 금해지는 책이다. 책에서 다루는 7개의 목차가 하나의 빅데이터 구축 스토리 로 연결됐고, 마지막 7장이 끝날 무렵 내 노트북에는 나만의 빅데이터 도구가 하나 만들어져 있었다. 그리고 나는 다시 이 도구로 나만의 빅데이터 구축 스 토리를 만들어 가고 있다. 쿠팡 Shipment Authority Technology Tribe 김성희

책1.indb 5

2017-01-24 오후 7:51:03


VI

서문

이 책을 시작하는 시점인 2016년 5월, 다양한 산업 분야에서 빅데이터 열기가 식을 줄 모르고 있다. 게임, 스포츠, 주식, 부동산, 의료, 정치, 방송 등에서 빅데이터를 접목한 상품과 서비스들이 언론을 통해 꾸준히 소개되고 있다. 빅 데이터의 가치는 이미 국내외에서 다양한 성공 레퍼런스가 알려지면서 입증 됐고, 데이터를 가지고 미래를 예측할 수 있는 기업이 앞으로 엄청난 헤게모 니를 거머쥘 것으로 내다보고 있다. 하지만 이 빅데이터 헤게모니를 얻기 위 한 과정은 험난해 보인다. 분명 어디선가 빅데이터의 성공 스토리가 만들어지 고는 있지만, 막상 국내 상황을 들여다 보면 시장 규모는 작고 전문 인력은 부 족하다. 이런 현상의 원인으로 빅데이터의 높은 기술장벽을 꼽을 수 있는데, 여기엔 대규모(수백~수천 대) 하드웨어와 그 위에서 동작하는 복잡한 분산 소프트웨어, 마지막으로 분산 환경을 이용해야 하는 분석 기법이 만들어낸 기 술장벽이 자리잡고 있기 때문이다. 기술은 어느 시점이 되면 보편화되기 마련인데, 오히려 시간이 지날수록 빅데 이터의 기술장벽은 계속 높아져 가고 있어서 빅데이터를 시작하려는 국가, 기 업, 개인들이 갈수록 이 장벽을 넘기가 어려워지고 있다. 이 책은 이 같은 빅 데이터의 기술장벽을 넘기 위한 하나의 훈련 도구로 사용되길 바라면서 시 작했다. 전문 개발자가 아니어도 약간의 소프트웨어 지식만으로 빅데이터의

책1.indb 6

2017-01-24 오후 7:51:03


VII

서문

A~Z까지 기술들을 구현하고 경험해 볼 수 있는 파일럿 프로젝트 형식으로 구성했다. 빅데이터 시스템 구축에 필요한 실무 요건들을 도출하고 이를 해결 하기 위한 빅데이터의 수집, 적재, 처리, 분석 아키텍처와 10여 가지 핵심 기 술 요소들을 설명하는 방식으로 독자들이 빅데이터를 더욱 쉽게 이해할 수 있 게 돕는다. 이어서 파일럿 프로젝트의 구축 단계를 실습을 통해 직접 따라 해 봄으로써, 빅데이터 기술을 이해하는 것을 넘어 실전과 같은 활용 능력을 몸 으로 직접 익힐 수 있게 했다. 기업에서는 소규모 빅데이터 PoC(Proof of

Concept)를 통해 비즈니스 모델과 기술을 사전에 검증해볼 수 있고, 분야별 IT 전문가들은 접하기 힘든 빅데이터 시스템을 단기간에 구축해 강력한 빅데 이터 기술과 분석을 경험해볼 수 있을 것이다. 이 책을 통해 이제 막 빅데이터 를 시작하는 IT 전문가들이 빅데이터의 숲과 나무를 동시에 볼 수 있는 통찰 력을 키울 수 있었으면 한다. 마지막으로 이 책은 사랑하는 나의 가족 현정, 예원, 예성과 함께 만들었다. 2017년 정유년 새해

김강원

책1.indb 7

2017-01-24 오후 7:51:03


VIII

목차

시작하며

01

빅데이터 이해하기

02 빅데이터 파일럿 프로젝트

1.1 빅데이터의 개념

2

1.2 빅데이터 시장

6

1.3 빅데이터 기술의 변화

9

1.4 빅데이터 구현 기술

13

수집 기술

14

적재 기술

15

처리/탐색 기술

16

분석/응용 기술

17

1.5 마치며

19

2.1 파일럿 프로젝트 도메인의 이해

21

요구사항 파악

22

데이터셋 살펴보기

25

2.2 빅데이터 파일럿 아키텍처 이해

26

소프트웨어 아키텍처

27

하드웨어 아키텍처

30

구축 환경 이해

32

2.3 빅데이터 파일럿 프로젝트용 PC 환경 구성

책1.indb 8

2

33

자바 설치

33

이클립스 설치

36

2017-01-24 오후 7:51:03


목차

오라클 버추얼 박스 설치

36

기타 개발환경 구성

36

리눅스 가상 머신 환경 구성

37

2.4 빅데이터 파일럿 서버 구성

44

CentOS 환경 구성

52

가상 머신 복제

58 64

빅데이터 기본 소프트웨어 설치 – 하둡, 주키퍼 등 기본 구성

68

DataNode 추가 및 환경 설정

78

HDFS 명령을 이용한 설치 확인

83

주키퍼 클라이언트 명령을 이용한 설치 확인

86

2.6 스마트카 로그 시뮬레이터 설치

86

2.7 파일럿 환경 관리

89

2.8 마치며

91

3.1 빅데이터 수집 개요

93

3.2 빅데이터 수집에 활용할 기술

95

플럼 카프카

3.3 수집 파일럿 실행 1단계 - 수집 아키텍처 수집 아키텍처

책1.indb 9

44

CentOS 설치

2.5 클라우데라 매니저 설치

IX

95 100

03

빅데이터 수집

103 104

2017-01-24 오후 7:51:03


X

목차

3.4 수집 파일럿 실행 2단계 - 수집 환경 구성 플럼 설치

106

카프카 설치

108

3.5 수집 파일럿 실행 3단계 – 플럼 수집 기능 구현

110

SmartCar 에이전트에 Interceptor 추가

112

DriverCarInfo 에이전트 생성

114

빅데이터 적재 I - 대용량 로그 파일 적재

책1.indb 10

116

카프카 Topic 생성

116

카프카 Producer 사용

117

카프카 Consumer 사용

118

3.7 수집 파일럿 실행 5단계 - 수집 기능 테스트

110

SmartCar 에이전트 생성

3.6 수집 파일럿 실행 4단계 – 카프카 기능 구현

04

106

119

SmartCar 로그 시뮬레이터 작동

119

플럼 에이전트 작동

120

카프카 Consumer 작동

120

수집 기능 점검

121

3.8 마치며

122

4.1 빅데이터 적재 개요

124

4.2 빅데이터 적재에 활용하는 기술

125

하둡

125

하둡 아키텍처

127

하둡 활용 방안

129

2017-01-24 오후 7:51:03


목차

주키퍼

129

주키퍼 아키텍처

130

주키퍼 활용 방안

131

4.3 적재 파일럿 실행 1단계 - 적재 아키텍처

131

적재 아키텍처

132

하둡 설치

4.5 적재 파일럿 실행 3단계 - 적재 기능 구현 SmartCar 에이전트 수정

4.6 적재 파일럿 실행 4단계 - 적재 기능 테스트

책1.indb 11

131

적재 요구사항

4.4 적재 파일럿 실행 2단계 - 적재 환경 구성

XI

133 134 135 135 139

플럼의 사용자 정의 Interceptor 추가

139

플럼의 Conf 파일 수정

140

SmartCar 로그 시뮬레이터 작동

140

플럼 이벤트 작동

141

HDFS 명령어 확인

142

4.7 마치며

143

5.1 빅데이터 실시간 적재 개요

145

5.2 빅데이터 실시간 적재에 활용하는 기술

146

HBase

146

레디스

148

스톰

152

에스퍼

154

05

빅데이터 적재 II - 실시간 로그 /분석 적재

2017-01-24 오후 7:51:03


XII

목차

5.3 실시간 적재 파일럿 실행 1단계 - 실시간 적재 아키텍처 실시간 적재 요구사항

157

실시간 적재 아키텍처

158

5.4 실시간 적재 파일럿 실행 2단계 - 실시간 적재 환경 구성

159

HBase 설치

160

레디스 설치

164

스톰 설치

166

5.5 실시간 적재 파일럿 실행 3단계 - 실시간 적재 기능 구현

171

카프카 Spout 기능 구현

171

Split Bolt 기능 구현

172

HBase Bolt 기능 구현

174

에스퍼 Bolt 기능 구현

176

레디스 Bolt 기능 구현

179

레디스 클라이언트 애플리케이션 구현

180

HBase 테이블 생성

182

스톰 Topology 배포

183

5.6 실시간 적재 파일럿 실행 4단계 - 실시간 적재 기능 테스트

185

로그 시뮬레이터 작동

185

HBase에 적재 데이터 확인

186

레디스에 적재된 데이터 확인

190

레디스 클라이언트 애플리케이션 작동

190

실시간 개발 환경 구성

193

5.7 마치며

책1.indb 12

157

198

2017-01-24 오후 7:51:03


목차

6.1 빅데이터 탐색 개요

200

6.2 빅데이터 탐색에 활용되는 기술

202

하이브

202

스파크

204

우지

207

209

6.3 탐색 파일럿 실행 1단계 - 탐색 아키텍처

책1.indb 13

빅데이터 탐색

211

탐색 요구사항

211

탐색 아키텍처

212

6.4 탐색 파일럿 실행 2단계 - 탐색 환경 구성

06

XIII

213

하이브 설치

214

우지 설치

218

휴 설치

220

스파크 설치

222

탐색 환경의 구성 및 설치 완료

224

6.5 탐색 파일럿 실행 3단계 - 휴를 이용한 데이터 탐색

240

HDFS에 적재된 데이터 확인

225

HBase에 적재된 데이터 확인

226

하이브를 이용한 External 데이터 탐색

227

하이브를 이용한 HBase 데이터 탐색

233

데이터셋 추가

234

스파크를 이용한 추가 데이터셋 탐색

238

2017-01-24 오후 7:51:03


XIV

목차

6.6 탐색 파일럿 실행 4단계 - 데이터 탐색 기능 구현 및 테스트

240

주제 영역 1. 스마트카 상태 정보 모니터링 – 워크플로 작성

244

주제 영역 2. 스마트카 운전자 운행 기록 정보 – 워크플로 작성

259

주제 영역 3. 이상 운전 패턴 스마트카 정보 – 워크플로 작성

264

주제 영역 4. 긴급 점검이 필요한 스마트카 정보 – 워크플로 작성

271

주제 영역 5. 스마트카 운전자 차량용품 구매 이력 정보 – 워크플로 작성

07 빅데이터 분석

6.7 마치며

280

7.1 빅데이터 분석 개요

282

7.2 빅데이터 분석에 활용 기술

284

임팔라

284

제플린

286

머하웃

288

머하웃 아키텍처

289

스쿱

290

7.3 분석 파일럿 실행 1단계 - 분석 아키텍처

책1.indb 14

275

293

분석 요구사항

293

분석 아키텍처

293

2017-01-24 오후 7:51:03


목차

7.4 분석 파일럿 실행 2단계 - 분석 환경 구성

296

스쿱 설치

299

제플린 설치

300

머하웃 설치

303

303

하이브 QL를 임팔라에서 실행하기

304

임팔라를 이용한 운행 지역 분석

305

7.6 분석 파일럿 실행 4단계 – 제플린을 이용한 실시간 분석

307

제플린을 이용한 운행 지역 분석

307

7.7 분석 파일럿 실행 5단계 – 머하웃을 이용한 데이터 마이닝

313

머하웃 추천 - 스마트카 차량용품 추천

314

머하웃 분류 - 스마트카 상태 정보 예측

318

머하웃 군집 - 스마트카 고객 정보 분석

329

7.8 분석 파일럿 실행 6단계 – 스쿱을 이용한 분석 결과 외부 제공 스쿱의 내보내기 기능 – 이상 운전 차량 정보

책1.indb 15

295

임팔라 설치

7.5 분석 파일럿 실행 3단계 – 임팔라를 이용한 데이터 실시간 분석

XV

341 341

7.9 마치며

344

찾아보기

345

2017-01-24 오후 7:51:03


01 빅데이터 이해하기

1.1 빅데이터의 개념 ■■ “AI

알파고가 이세돌 9단과의 대국에서 이겼다.”

■■ “구글의

무인 자동차가 300만Km 주행에 성공했다.”

■■ “미국의

어떠한 언론도 트럼프의 대선 승리를 예측하지 못했다.”

2016년 전 세계인의 주목을 끌었던 뉴스다. 그리고 이 뉴스에는 빅데이터가 있었다. 알파고는 이세 돌 9단과의 경기를 위해 4주 동안 딥러닝으로 400만 번의 경기를 반복했고, 구글의 무인 자동차는 초당 1GB 규모로 발생하는 센서 데이터를 분석하며 무인 주행에 성공했다. 미국 대선에서는 빅데 이터만이 트럼프의 승리를 예측하고 있었다. 스마트기기, SNS, 사물 인터넷의 확산으로 시작된 빅데이터가 현대인의 라이프사이클에 직간접적 으로 큰 영향을 주면서 중요한 사회적 현상에 빅데이터가 빠지지 않고 등장하고 있다. 이는 불과 몇 년 전 많은 전문가들이 예견했던 빅데이터의 시대가 현실로 다가왔거나, 어쩌면 이미 빅데이터 시대 가 도래했음을 나타내는 것일지도 모른다.

책1.indb 2

2017-01-24 오후 7:51:04


01 _ 빅데이터 이해하기

3

디지털 정보량 증가 추이

인공지능 사물정보통신

인터넷/ 모바일 시대 PC 시대 메인프레임 컴퓨터 1970 1980 IT 인프라 확충

IT 이용•활용

1인 1PC

www

8NB Web 2.0 브로드밴드

1990

2000

IT 확산을 통한 혁신 부가가치 창출

증강현실

모바일백신

IT everywhere

빅데이터 시대 도래

2010

2020

2030

IT + 데이터 전략 “문제해결 & 가치창출”

그림 1.1 IT 발전에 따른 패러다임의 변화1

2010년 인터넷/모바일 시대를 기점으로 데이터의 양이 폭발적으로 증가했고, 2016년부터는 사람, 사물, 정보가 하나로 연결되는 초연결의 시대, 즉 4차 산업혁명이 시작됐다. 4차 산업혁명은 인공지 능, 사물인터넷, 무인자동차, 로봇산업 등으로 메인스트림이 만들어지는데, 이때 필요한 핵심 기반 기술로 모두 빅데이터를 주목하고 있다.

“ 모든 것이 연결되고 보다 지능적인 사회로의 진화” - 다보스 포럼, 2016 -

제4차 산업혁명 (제2차 정보혁명) 21세기 초반~

제3차 산업혁명 제2차 산업혁명

20세기 후반

19~20세기 초

컴퓨터와 인터넷 기반의 지식정보 혁명

제1차 산업혁명 18세기 증기기관 기반의 기계화 혁명

전기 에너지 기반의 대량생산 혁명

지능정보기술 지능 AI SW

정보

+

빅데이터 IoT 클라우드

그림 1.2 제4차 산업혁명2

1 출처: 한국정보화진흥원, 2013 2  출처: ZDNet Korea(http://m.zdnet.co.kr/news_view.asp?article_id=20160712173539)

책1.indb 3

2017-01-24 오후 7:51:05


4

실무 프로젝트로 배우는 빅데이터 기술: 데이터 수집, 적재, 처리, 분석, 머신러닝까지

최근 2년 동안 발생한 데이터가 전 세계 데이터의 80%를 차지한다고 하며, 향후 지구상에서 발생하 는 데이터의 양은 2020년까지 35,000엑사바이트(1엑사바이트는 DVD 2,500억 개 분량) 수준까 지 증가할 것으로 보인다. 이 가운데 80%가 빅데이터 분석이 필요한 비정형 데이터( SNS, IoT, 이 미지, 음성, 비디오)로 만들어질 것으로 예상하고 있다.

Worldwide Corporate Data Growth 40000

Machine Data

35000 IT.com analyses the % of data growth: unstructured text

80

Exabytes

30000 25000

Social Media

20000

VoIP

15000 10000

Enterprise Data

5000 0 2006

2007

2008

2009

2010

2011

2012

2013

Sources: IDC, The Digital Universe 2010

2014

2015

2016

2017

2018

2019

2020

Unstructured text Structured data

그림 1.3 전 세계 데이터의 예상 증가 추이

빅데이터의 시대는 데이터를 단순 정보로만 보지 않는다. 과거로부터 현재까지 쌓인 데이터를 분석 해 현재를 이해하고 이 정보에서 만들어지는 다양한 패턴들을 해석하며 미래를 예측하기 시작한 것 이다. 이를 통해 조직의 중요한 의사결정에 빅데이터가 활용되면서 빅데이터가 단순히 대규모의 데 이터 집합에서 기술, 분석, 통찰력( insight)까지 총칭하는 용어로 사용되고 있다. 다음은 지금까지 여러 전문 분야에서 발표한 빅데이터 정의다. ■■ “빅데이터는

통상적으로 사용되는 데이터 수집 및 관리, 처리와 관련된 소프트웨어의 수용 한계를 넘어서는 크기의

데이터를 말하며, 빅데이터의 규모는 단일 데이터 집합의 크기가 수십 테라바이트에서 수 페타바이트에 이르며, 그 크기가 끊임없이 변화하는 것이 특징이다.” - 위키피디아 ■■ “일반적인

데이터베이스 소프트웨어로 저장/관리/분석할 수 있는 범위를 초과하는 규모의 데이터” - 맥킨지

책1.indb 4

2017-01-24 오후 7:51:05


01 _ 빅데이터 이해하기

■■ “대용량

5

데이터를 활용/분석해서 가치 있는 정보를 추출하고, 생성된 지식을 바탕으로 능동적으로 대응하거나 변화

를 예측하기 위한 정보화 기술” - 국가정보화전략위원회 ■■ “단순한

데이터의 크기가 아니라 데이터의 형식과 처리 속도 등을 함께 아우르는 개념으로, 기존 방법으로는 데이터

의 수집, 저장, 검색, 분석 등이 어려운 데이터를 총칭해서 일컫는 용어” - ITWorld, 2012

2011년 메타그룹(현 가트너)의 애널리스트인 더그 레이니( Doug Laney)는 다소 혼란스러운 빅데 이터의 정의를 3V라는 표현으로 매우 명확하게 정리했는데, 이는 데이터의 크기( Volume), 데이터 입출력 속도( Velocity), 데이터 종류의 다양성( Variety)이라는 세 개의 차원으로 빅데이터를 정의 한 것이다.

3V

2V

1V

Veracity

Volume

( 진실성 )

(크기 )

Value (가치 )

Variety

Velocity

(다양성 )

(속도 )

Visualization (시각 화)

그림 1.4 빅데이터의 정의: 6V

이후 IBM이 진실성( Veracity)이라는 요소를 더해 4V를 정의했고, 이후에 시각화( Visualization) 와 가치( Value)가 추가로 정의되면서 6V까지 확장됐다. ■■ 크기(Volume):

방대한 양의 데이터(테라, 페타바이트 이상의 크기)

■■ 다양성(Varity):

정형(DBMS, 전문 등) + 비정형(SNS, 동영상, 사진, 음성, 텍스트 등)

■■ 속도(Velocity):

실시간으로 생산되며, 빠른 속도로 데이터를 처리/분석

■■ 진실성(Veracity):

주요 의사결정을 위해 데이터의 품질과 신뢰성 확보

■■ 시각화(Visualization): ■■ 가치(Value):

책1.indb 5

복잡한 대규모 데이터를 시각적으로 표현

비즈니스 효익을 실현하기 위해 궁극적인 가치를 창출

2017-01-24 오후 7:51:06


6

실무 프로젝트로 배우는 빅데이터 기술: 데이터 수집, 적재, 처리, 분석, 머신러닝까지

6V를 통해 빅데이터를 다음과 같이 정의할 수 있다. “지구상에선 지금 이 순간에도 방대한 크기( Volume)의 다양한( Varity) 데이터들이 빠른 속도 ( Velocity)로 발생하고 있다. 빅데이터는 3V( Volume, Varity, Velocity)를 수용하며, 데이터 의 진실성( Veracity)을 확보하고, 분석 데이터를 시각화( Visualization)함으로써 새로운 효익 을 가져다 줄 가치( Value)를 창출하는 것이다.”

1.2 빅데이터 시장 빅데이터의 중요성이 부각되면서 관련 시장도 큰폭으로 성장하고 있다. 빅데이터가 기존 시스템들 이 기술적 한계로 해결하지 못한 수많은 현안들을 해결하기 시작하면서 그 활용 범위가 넓어졌고, 빅데이터의 엄청난 헤게모니를 선점하기 위한 전 세계 국가와 기업들 간의 경쟁이 치열해지고 있다. 국내 빅데이터 시장은 2020년까지 9억 달러(9,000억 원) 규모로 성장할 것으로 예상하고 있다. 매 년 20% 이상의 높은 성장세를 보일 것으로 전망된다. 단위: 달러

100억

89억 3800만

80억

69억 2100만

60억

53억 9300만 42억 2700만

40억

33억 2800만

20억 0

2016년

2017년

2018년

2019년

2020년

자료: 한국과학기술정보연구원(KIST)

그림 1.5 국내 빅데이터 시장 규모(중장기)

지난 2015년 빅데이터의 국내 시장조사 현황을 보면 아직은 초기시장 형성 단계로 보고 있다. 그림 1.6을 보면 하드웨어(스토리지, 서버, 네트워크)가 50% 이상을 점유하고 있으나 빅데이터의 핵심 경쟁력인 소프트웨어 및 서비스 영역은 상대적으로 적은 점유율을 보이고 있기 때문이다.

책1.indb 6

2017-01-24 오후 7:51:06


01 _ 빅데이터 이해하기

구분

19.5%

22.1%

Service

Server

23.0%

2015 Bigdata Share by Product

Software

8.4%

26.9% Storage

Network

Korea(억원)

7

부문별 비중

Server

580

22.1%

Storage

706

26.9%

Network

221

8.4%

Software

603

23.0%

Service

512

19.5%

Total

2,623

100.0%

자료: 2015년 빅데이터 시장조사, KRG

그림 1.6 2015 국내 빅데이터 시장: 제품 유형별 비중

국내 빅데이터 도입 사례를 보면 일부 사이트를 제외하면 대부분 실험적인 PoC 수준에서 빅데이터 도입이 추진됐고, 조사 대상 기업 중 빅데이터 도입에 대해 논의조차 없음이 67.8%로 조사되어 정 부와 기업들의 좀 더 적극적인 투자와 지원이 필요한 상황이다. 67.8%

[단위: 선택 빈도 - 건] (n=866)

18.6% 9.4% 논의된 적 없음

전산부서 차원

마케팅 등 현업부서

3.2% CEO/CIO

1.0% 기타

그림 1.7 국내 기업의 빅데이터 도입 관심 수준3

빅데이터의 세계 시장 규모를 보면 2026년까지 850억 달러 규모로 전망하고 있고, 2020년을 기점 으로 600억 달러로 커지면서 국내 대비 약 60배가 넘는 시장 규모로 보고 있다. 특히 선진국(미국, 유럽, 일본 등)에서는 ICT 글로벌 경쟁력을 강화하기 위해 빅데이터의 사업과 R&D를 국가적 차원 에서 지원하고 있어 국가 간의 빅데이터 기술 격차가 크게 벌어지고 있는 상황이다.

3  출처: 미래창조과학부, 2015 BIGDATA 시장조사

책1.indb 7

2017-01-24 오후 7:51:06


8

실무 프로젝트로 배우는 빅데이터 기술: 데이터 수집, 적재, 처리, 분석, 머신러닝까지

Big data market size revenue forecast worldwide from 2011 to 2026 (in billion U.S. dollars)

Market volume in billion U.S. dollars

100

80

74.88

70.76

78.53

81.78 84.69

66.11 60.91

60

55.22 49.28 43.4

40

33.31

37.97

27.36 19.6

20

12.25 7.6

0 2011

2012

2013

2014

2015* 2016* 2017* 2018* 2019* 2020* 2021* 2022* 2023* 2024* 2025* 2026*

그림 1.8 빅데이터 해외 시장 전망4

2013년 해외 빅데이터 시장의 분야별 점유율을 보면 소프트웨어(22%)와 서비스(40%) 분야가 60% 이상을 차지하고 있어 이미 빅데이터 인프라 구축을 완료하고 빅데이터의 응용 서비스 단계 로 시장이 전환된 것을 확인할 수 있다. 하드웨어 중심의 국내 빅데이터 시장과는 다소 상반된 모 습이다. Big Data Revenue by Type, 2013 (in $US millions) (n=$18,814)

Services $7,393 40%

Hardware $7,149 38%

Software $4,117 22%

1 2 3 4 5 6 7 8 9

0%

5%

10%

15%

20%

30%

35%

40%

19%

Compute 16%

Storage Apps and Analytics

8%

SQL

7% 5%

Cloud Service Data Management

25%

38%

Professional Services

3%

Networking

2%

NoSQL

0.82%

출처: wikibon, Statista 2014

그림 1.9 2013 해외 빅데이터 시장의 유형별 비중5

4  출처: wikibon, Statista 2016 5  출처: wikibon, Statista 2014

책1.indb 8

2017-01-24 오후 7:51:06


01 _ 빅데이터 이해하기

9

1.3 빅데이터 기술의 변화

그림 1.10 가트너의 2014년 이머징 기술 하이프 사이클6

초기 빅데이터 기술은 낮은 비용의 스토리지를 구축하기 위한 솔루션으로 인식됐다. 하지만 빅데이 터가 기존 RDBMS의 기술적 한계로 수행하지 못했던 대규모 작업들을 낮은 비용으로 완수하기 시 작했다. 이어서 머신러닝, 텍스트 마이닝 등 고급 분석을 통해 금융, 의료, 방송, 제조, 통신 등 다양 한 산업 분야에 깊숙이 관여하며 가치를 만들어 내자 빅데이터 기술을 단순 스토리지 기술이 아닌 이머징 기술로 주목하기 시작했다. 가트너의 2014년 하이프 사이클( Hype Cycle)을 보면 빅데이터 기술이 빠르게 각성기( Trough of Disillusionment)에 진입했는데, 이는 빅데이터의 거품이 빠지 고 시장에서는 메인 플레이어만이 살아남고 잠재적 플레이어가 새롭게 등장하는 단계로 빠르게 이 동했음을 시사한다(그림 1.10).

6  출처: Gartner, 2014

책1.indb 9

2017-01-24 오후 7:51:06


10

실무 프로젝트로 배우는 빅데이터 기술: 데이터 수집, 적재, 처리, 분석, 머신러닝까지

시점

활용 수준

활용 방법

적용 산업

~ 2009 년

수집 /적재 스토리지 인프라

저비용 X86급 하드웨어를 이용한 대용량 데이터 저장소 구축

IT, 통신 , 공공

~ 2012 년

분산 컴퓨팅 기반 분석 확산

RDB 로 처리하기 어려운 대용량 데이터 연산, 추출, 집계 분석

IT, 통신, 공공, 금융

~ 2016 년

데이터 서비스 및 고급 분석

고급 분석을 통한 통찰력과 예측들을 데이터 서비스로 활용

전방위 산업

그림 1.11 빅데이터 기술의 활용 수준

초기 빅데이터는 규모/비용/기술적인 측면에서 출발했으나 시간이 지나면서 단순 수집/적재/처리 기술에서 인사이트를 찾는 분석 기술로 중심이 옮겨갔다. 특히 2012년 전후로 빅데이터의 가치와 활용 효익 측면에서 빅데이터 분석 기술이 적극적으로 사용됐는데, “대용량 배치 분석”, “실시간 온라인 분석”, “데이터 마이닝 고급 분석”으로 분석 방식이 확대 적용되면서 빅데이터가 기술적인 수단이 아닌 조직의 주요 목적을 달성하기 위한 전략적 의사결정 도구로 사용되고 있음을 알 수 있다. ~ 2000년 후반

~ 2010년 초반

대용량 배치 분석

실시간 온라인 분석

2010년 중반 ~ 데이터마이닝 고급 분석

그림 1.12 빅데이터 분석 기술의 변화

빅데이터 기술의 변화를 표 1.1의 아키텍처 관점에서 보면 인프라스트럭처, 소프트웨어 플랫폼, IT 서비스의 3가지 영역으로 나눠서 설명할 수 있다. 먼저 빅데이터의 인프라스트럭처 기술은 하드웨 어 영역으로 저비용의 x86 장비를 대규모(수집~수천 대)로 구성해 선형적 확장으로 설계하는 특징 이 있는데, 빅데이터 기술의 발전 시점과 저가의 x86 장비의 출현 시점이 맞아 떨어지면서 더욱 가 속화됐다. 두 번째로 소프트웨어 플랫폼은 빅데이터 기술의 핵심이라 볼 수 있는 하둡을 기반으로 오픈소스 생태계가 만들어졌는데, 가능성을 본 글로벌 기업들이 빅데이터 생태계를 적극 지원하고 참여하면서 기술 생태계가 급속도로 발전했다. 세 번째로 IT 서비스는 시간이 지남에 따라 빅데이터 의 기술적/비즈니스적 기대 수준이 커졌고 빅데이터의 구축 기술뿐 아니라 컨설팅, 유지보수, 교육, 데이터 서비스 등의 다양한 응용 기술 분야로 확대 발전했다.

책1.indb 10

2017-01-24 오후 7:51:06


01 _ 빅데이터 이해하기

11

표 1.1 빅데이터 전문 기술 영역

빅데이터 전문 영역

설명 서버

인프라스트럭처

국내외 사업자

■ x86급의

CPU, 메모리, 디스크 등을 장착한 서버

HP

■ 리눅스

운영체제가 설치된 서버(RedHat, CentOS 등)

IBM

네트워크

■ 대규모

빅데이터 서버 및 스토리지 지원을 위한 대용량(10G) 네트워크

Cisco

스토리지

■ 대규모

데이터를 저장하기 위한 내외부 스토리지 장치

Dell RedHat 등 Cloudera ■ 빅데이터의

전방위 기술을 포괄하는 스택 구성

(순수 오픈소스 스택 또는 기업 배포판 스택)

소프트웨어 플랫폼

MapR HortonWorks

■ 빅데이터

수집/적재/처리/분석 등의 지원 솔루션

KT넥스알

■ 빅데이터

시스템 관리 및 모니터링 툴 제공

그루터 클라우다인 등

IT 서비스

■ 빅데이터

컨설팅 및 구축 이행

■ 빅데이터

전문 운영 및 유지보수

■ 빅데이터

데이터/분석 서비스

■ 빅데이터

교육센터 운영 및 인력 양성

KT DS LG CNS 삼성 SDS SK C&C 다음소프트 등

빅데이터 기술들은 거대한 오픈소스 소프트웨어 생태계로 만들어져 있지만 글로벌 기업들의 과감한 투자와 미케팅으로 상업화가 빠르게 진행되고 있다. 그림 1.13을 보면 클라우데라( Cloudera), 호 튼웍스( HortonWorks), 맵알( MapR)이 빅데이터 글로벌 BIG3 업체로 포지셔닝하고 있으며, 전 세계 빅데이터 시장의 주도권과 기술 표준을 선점하기 위해 치열한 경쟁을 벌이고 있다. 다른 한편 에선 빅데이터 이전부터 활동해 왔던 Vertica, Oracle, Splunk 등과 같은 글로벌 기업들이 전통적 인 대용량 처리 기술과 빅데이터 기술을 결합한 상용 솔루션을 개발해 기존 데이터베이스 시장에 선 제적으로 대응한 상태다. Share of voice: Mar - Aug 2014 MapR Technologies 16%

HortonWorks 33%

Cloudera 51%

출처: http://apolloresearch.com/hadoop-media-landscape/

그림 1.13 2014년 빅데이터 기술 점유율

책1.indb 11

2017-01-24 오후 7:51:06


12

실무 프로젝트로 배우는 빅데이터 기술: 데이터 수집, 적재, 처리, 분석, 머신러닝까지

국내 빅데이터 기술 수준은 글로벌 빅3가 주도하는 오픈소스 프로젝트들을 단순 활용하는 수준에 머물러 있는 것으로 조사됐다. 빅데이터의 기술이 오픈소스 생태계로 구성돼 있는 만큼, 그 생태계 의 기여도에 따라 기술 수준을 평가할 수 있다. 국내에서는 일부 스타트업 기업과 엔지니어들만이 빅데이터 기술 생태계에 참여하고 있는데 국내 빅데이터 기술 수준을 해외 선진 기술과 비교할 경우 해외 선진 기술을 100으로 놓고 보면 국내 기술 수준은 대략 62.6 수준으로, 이는 해외 선진 기술 대비 약 3~5년 뒤처진 것으로 평가된다. 국내 기술 수준

구분

(선진기술 100 기준)

수준 격차(년)

선진기술 도달시간(년)

국내 빅데이터 전문기업

65.9

3.1

3.3

외국계 IT 서비스사

60.0

2.5

3.5

SI

55.6

3.5

5.2

해외 빅데이터 전문기업

48.2

4.9

5.4

※ [선진기술수준 100 기준, 100개 공급기업 / 908개 수요기업 응답기준]

국내 기술 수준 선진 기술 수준

100

62.6

수준 격차 현 시점 기준

3.3년 뒤처짐

동일 수준 소요 시간 2015년 기준

3.6년이 걸림

출처: 미래창조과학부, 2015 BIGDATA 시장조사

그림 1.14 국내 빅데이터 기술 수준 평가(공급 기업 – 플레이어별)

빅데이터 기술의 핵심에는 하둡이라는 소프트웨어가 있다. 지난 2005년 하둡이 세상에 처음 알려 지면서 빅데이터 기술들이 끊임없이 진화했고, 지금의 빅데이터 시장을 탄탄하게 받쳐주고 있는 소 프트웨어 기술을 하둡이라 해도 과언이 아니다. 결국 이 하둡 기술을 주도하는 조직이 전 세계 빅데 이터 기술과 시장을 주도하는 조직이 되는 것이다. 현재 빅3( Cloudera, HortonWorks, MapR) 업 체들도 이 하둡 기술을 중심으로 각자의 빅데이터 소프트웨어 스택을 개발하고 공개하면서 빅데이 터 생태계에 절대적인 영향력을 행사하고 있다.

책1.indb 12

2017-01-24 오후 7:51:06


01 _ 빅데이터 이해하기

13

1.4 빅데이터 구현 기술 빅데이터 아키텍처는 역할별로 수집, 적재, 처리 및 탐색, 분석 및 응용이라는 6개의 레이어로 나눌 수 있고, 각 단계별 주요 기을은 그림 1.15와 같다. 단계

수집

적재

처리

탐색

분석

응용

역할

활용 기술 Crawling, FTP, Open API RSS, Log Aggregation DB Aggregation, Streaming

■ 내·외부 데이터 연동 ■ 내·외부 데이터 통합

■ 대용량 /실시간 데이터 처리 ■ 분산 파일 시스템 저장

■ 데이터 선택 , 변환, 통합, 축소 ■ 데이터 워크플로 및 자동화

Distributed File, No-SQL Memory Cached Message Queue

Structured Processing Unstructured Processing Workflow, Scheduler

SQL Like Distributed ㅎProgramming Exploration Visualization

■ 대화형 데이터 질의 ■ 탐색적 Ad-Hoc 분석

전처리

후처리

Data Mining Machine Learning Analysis Visualization

■ 빅데이터 마트 구성 ■ 통계 분석, 고급 분석

Data Export/Import Reporting Business Visualization

■ 보고서 및 시각화 ■ 분석 정보 제공

활용

그림 1.15 빅데이터 아키텍처의 레이어 및 역할

구축 순서도 통상 수집 → 적재 → 처리 및 탐색 → 분석 및 응용 순으로 진행되며, 이 가운데 3번째 (처리 및 탐색)와 4번째(분석 및 응용) 단계는 필요 시 반복 진행하면서 데이터의 품질과 분석 수준 을 향상시킨다.

적재

처리 /탐색

분석 /응용

수집

적재

처리 /탐색

분석 /응용

수집

적재

처리 /탐색

분석 /응용

수집

그림 1.16 빅데이터 구축 단계

책1.indb 13

2017-01-24 오후 7:51:06


14

실무 프로젝트로 배우는 빅데이터 기술: 데이터 수집, 적재, 처리, 분석, 머신러닝까지

빅데이터 아키텍처의 요소 기술들은 적게는 10개에서 많게는 20여 개 정도 되고, 발생하는 데이터 의 6V( Volume, Variety, Velocity, Veracity, Visualization, Value) 요건에 따라 최적화된 아키 텍처를 구성해야 한다. 이 책에서는 17가지 요소 기술을 사용하며, 모두 하둡 생태계의 오픈소스 프 로젝트를 활용할 것이다. 그럼 각 단계별 주요 기술과 관련된 기능과 역할을 하나씩 알아보자.

수집 기술 빅데이터의 수집 기술은 조직의 내외부에 있는 다양한 시스템으로부터 원천 데이터를 효과적으로 수집하는 기술이다. 빅데이터 수집에는 기존의 수집 시스템( EAI, ETL, ESB 등)보다 더 크고 다양 한 형식의 데이터를 빠르게 처리해야 하는 기능이 필요한데, 이 때문에 빅데이터 수집 아키텍처는 /응용 적재분산 처리가 처리 /탐색 형태로 분석 선형 수집 확장이 가능하면서 가능한 구성한다.

수집

적재

처리 /탐색

분석 /응용

그림 1.17 빅데이터 구축 단계 – 수집 기술

분석 유형(데이터베이스, /응용 수집 수집기는 원천 적재 시스템의 다양한 처리 /탐색인터페이스 빅데이터 파일, API, 메시지 등)

과 연결되어 정형 또는 비정형 데이터를 대용량으로 수집한다. 특히 외부 데이터( SNS, 블로그, 포털 등)를 수집할 때는 크롤링, NLP 등 비정형 처리를 위한 기술이 선택적으로 적용된다. 수 집 처리에는 대용량 파일 수집과 실시간 스트림 수집으로 나눌 수 있는데, 실시간 수집의 경우 분석 /응용 적재 처리 /탐색 ( Event Stream CEP(수집 Complex Event Processing), ESP Processing) 기술이 적용되어 수집 중인

데이터로부터 이벤트를 감지해 빠른 후속 처리를 수행한다. 수집된 데이터는 필요 시 정제, 변환, 필 터링 등의 작업을 추가로 진행해 데이터의 품질을 향상시킨 후 빅데이터 저장소에 적재한다. 수집 적재 표 1.2 6V 관점의 빅데이터 수집 기술

6V Volume

Variety

책1.indb 14

처리 /탐색

분석 /응용

수집 기술 대용량 데이터(테라바이트 이상) 수집 대규모 메시지(1,000TPS 이상) 수집 정형/반정형/비정형 데이터 수집 예) Log, RSS, XML, 파일, DB, HTML, 음성, 사진, 동영상 등

중요성 상

Velocity

실시간 스트림 데이터 수집

Veracity

N/A

2017-01-24 오후 7:51:06


01 _ 빅데이터 이해하기

6V

수집 기술

중요성

Visualization

N/A

Value

N/A

15

빅데이터 수집 기술은 6V 관점에서 데이터의 크기, 다양성, 생성 속도를 효과적으로 처리하는 기능 에 집중하며, 데이터의 진실성, 시각화, 가치는 적재 이후에 활용되므로 수집 단계에선 중요성이 낮 은 편이다. 빅데이터 수집 관련 소프트웨어로는 Flume, Fluented, Scribe, Logstash, Chukwa 등 이 있는데, 이 책의 파일럿 프로젝트에서는 플럼( Flume)을 사용한다. 또한 실시간 스트림 데이터 처리를 위해 스톰( Storm)과 에스퍼( Esper)도 사용한다.

적재 기술 빅데이터 적재 기술은 수집한 데이터를 분산 스토리지에 영구 또는 임시로 적재하는 기술이다. 빅데 이터의 분산 저장소로는 크게 4가지 유형이 있다. 첫 번째로 대용량 파일을 영구적으로 저장하기 위 한 HDFS( Hadoop Distributed File System), 두 번째로 대규모 메시징 데이터를 영구 저장하기 수집

적재

처리 /탐색

분석 /응용

위한 NoSQL( HBase, MongoDB, Casandra 등), 세 번째로 대규모 메시징 처리 결과를 고속으로 저장하기 위한 인메모리 캐시( Redis, Memcached, Infinispan 등), 네 번째로 대규모 메시징 데이 터를 임시 저장하기 위한 Message Oriented Middleware( Kafka, RabbitMQ, ActiveMQ 등)이 있다.수집

적재

처리 /탐색

분석 /응용

수집

적재

처리 /탐색

분석 /응용

그림 1.18 빅데이터 구축 단계 – 적재 기술

빅데이터 적재 기술은 수집된 데이터의 성격에 따라 적재 저장소를 달리하는데, 대용량 파일의 적재 수집

적재

처리 /탐색

분석 /응용

는 HDFS 저장소를 사용하면 되지만 실시간 및 대량으로 발생하는 작은 메시지 데이터를 HDFS에 저장할 경우 파일이 많아져 저장소 효율이 크게 떨어진다. 이를 보완하기 위해서는 데이터의 성격에 따라 NoSQL, 인메모리 캐시, MoM 등을 선택적으로 사용할 수 있는 아키텍처링이 이뤄져야 한다. 빅데이터가 적재될 때는 하는데, 다음에 있을 탐색/분석 단계 분석 /응용 수집 적재 추가적인 전처리 처리 /탐색작업이 수행되기도 를 위해 비정형(음성, 이미지, 텍스트, 동영상 등) 데이터를 정형 데이터(스키마가 있는 구조)로 가 공하거나, 개인정보로 의심되는 데이터를 비식별화 처리하는 작업이 선행된다. 물론 이러한 전처리

책1.indb 15

2017-01-24 오후 7:51:06


16

실무 프로젝트로 배우는 빅데이터 기술: 데이터 수집, 적재, 처리, 분석, 머신러닝까지

작업은 데이터 크기와 비즈니스 요건에 따라 HDFS에 적재한 후에 수행하는 후처리 작업으로도 할 수 있다. 표 1.3 6V 관점의 빅데이터 적재 기술

6V

적재 기술

중요성

Volume

대용량 데이터(테라바이트 이상) 적재

대규모 메시지(1,000TPS 이상) 적재 Variety

정형/반정형/비정형 데이터 수집

Velocity

실시간 스트림 데이터 적재

Veracity

데이터의 품질과 신뢰성을 확보해 적재

Visualization

N/A

Value

N/A

빅데이터 적재 기술은 6V 관점에서 데이터의 크기, 속도, 진실성을 효과적으로 처리해야 한다. 다 양성의 경우 원천 데이터를 다양한 형식으로 변환해 적재할 수는 있지만, 데이터의 일관성과 성능 측면에선 오히려 트레이드오프가 발생할 수 있어 주의할 필요가 있다. 시각화 및 가치는 탐색/분석 단계에서 분석쓰지 /응용 않아도 된다. 이 책의 파일럿 프로젝트 수집 주로 활용되므로 적재 적재 단계에서는 처리 /탐색 크게 신경 에서는 분산 파일시스템으로 하둡을 사용하고, NoSQL 저장소로는 HBase, 분산 캐시 저장소로는 레디스( Redis), 메시징 저장소로는 카프카( Kafka)를 사용해 적재 기술을 구현한다. 수집

적재

처리 /탐색

분석 /응용

처리/탐색 기술 빅데이터 처리/탐색 기술은 대용량 저장소에 적재된 데이터를 분석에 활용하기 위해 데이터를 정형 화 및수집 정규화하는 기술이다. 데이터를 분석 /응용 위해서는 데이터를 이해하는 것이 선행 적재 처리통해 /탐색 가치를 발굴하기 돼야 하며, 이 과정에서 적재된 빅데이터를 지속적으로 관찰하고 탐색하는 탐색적 분석을 수행한다.

수집

적재

처리 /탐색

분석 /응용

그림 1.19 빅데이터 구축 단계 – 처리/탐색 기술

분석 /응용 수집분석에는 SQL 적재 탐색적 이 /탐색 주로 사용되며, 대화형 애드혹( Ad-Hoc) 쿼리로 데이터를 on Hadoop처리

선택, 변환, 통합, 축소 등의 작업을 수행한다. 특히 내외부의 정형/비정형 데이터를 결합해 기존에

책1.indb 16

2017-01-24 오후 7:51:06


01 _ 빅데이터 이해하기

17

기술적 한계로 만들지 못했던 새로운 데이터셋을 생성하는 중요한 작업이 진행된다. 또한 정기적으 로 발생하는 처리/탐색의 과정들은 워크플로( workflow)로 프로세스화해서 자동화하고, 워크플로 작업이 끝나면 데이터셋들은 DW( Data Warehouse)로 옮겨진다. 이렇게 DW로 옮겨진 데이터셋 은 측정 가능한 구조로 만들어져 있어 빅데이터 분석을 편리하게 할 수 있다. 표 1.4 6V 관점의 빅데이터 처리/탐색 기술

6V

처리/탐색 기술

중요성

Volume

대용량 데이터(테라바이트 이상)에 대한 후처리 및 탐색

Variety

N/A

Velocity

N/A

Veracity

데이터의 품질과 신뢰성을 확보하기 위한 후처리 및 탐색

Visualization

후처리된 데이터셋을 시각화해서 탐색

Value

N/A

빅데이터 처리 및 탐색 기술은 대규모로 적재된 데이터를 대상으로 하므로 크기에 대한 처리 기술이 /응용 통해 데이터의 진실성을 확보하고 후처 수집중요하다. 또한 적재 처리작업과 /탐색 정규화분석 여전히 데이터 후처리 과정을

리된 데이터셋을 시각화 툴로 더욱 용이하게 탐색할 수 있다. 이 책의 파일럿 프로젝트에서 사용할 처리/탐색 기술로는 휴( Hue), 하이브( Hive), 스파크( Spark) SQL이 있고, 후처리 작업을 자동화 적재우지( Oozie 처리 하는 수집 워크플로 작업에는 )를/탐색 사용한다.

분석 /응용

분석/응용 기술 /응용 수집 적재 처리 /탐색 빅데이터의 분석 기술은 대규모 데이터로부터 새로운분석 패턴을 찾고, 그 패턴을 해석해서 통찰력을 확

보하기 위한 기술이다. 빅데이터 분석은 활용 영역에 따라 통계, 데이터 마이닝, 텍스트 마이닝, 소 셜 미디어 분석 등 다양하게 분류된다. 빅데이터 분석/응용은 과거의 데이터로부터 문제의 원인을 찾아 현재를 개선할 뿐 아니라 인간의 힘으로 찾기 어려웠던 패턴들을 빅데이터 분석 기술로 찾아 수집 적재 처리 /탐색 알고리즘화해서 미래를 예측하는 분석 모델을 만드는분석 데/응용 기여한다.

수집

적재

처리 /탐색

분석 /응용

그림 1.20 빅데이터 구축 단계 – 분석/응용 기술

책1.indb 17

2017-01-24 오후 7:51:07


18

실무 프로젝트로 배우는 빅데이터 기술: 데이터 수집, 적재, 처리, 분석, 머신러닝까지

빅데이터라는 용어가 사용되기 이전에도 데이터 분석 기술과 도구가 많이 사용되고 있었지만 모바 일과 소셜 네트워크 서비스, 그리고 4차 산업혁명 시기에 접어들면서 생산되는 데이터의 양을 기 존 분석 기술로 처리하는 데 한계가 발생했다. 하지만 빅데이터 분석 기술은 선형적 확장이 가능했 고 대규모 분산 환경을 낮은 비용으로도 구축할 수 있어 기존 분석 기술의 한계점을 극복할 수 있었 다. 또한 머신러닝 기술을 활용해 군집( clustering), 분류( classification), 회귀( regression), 추천 ( recommendation) 등의 고급 분석 영역까지 확장할 수 있어 좀 더 똑똑한 소프트웨어를 만들 수 있게 됐고, 최근에는 대규모 배치 분석이 인메모리 기반의 준실시간 분석으로도 가능해져 파일 기반 의 배치 분석보다 수십 배 빠른 분석이 가능해짐으로써 활용 범위가 더욱 커지고 있다. 표 1.5 6V 관점의 빅데이터 분석/응용 기술

6V

분석/응용 기술

중요성

Volume

대용량 데이터(테라바이트 이상) 분석

Variety

정형/반정형/비정형 등의 다양한 데이터 분석

Velocity

인메모리 기반으로 실시간 데이터 분석

Veracity

신뢰도 높은 분석 결과를 비즈니스에 적용

Visualization

분석 결과 및 창출된 가치를 시각화

Value

분석된 결과를 비즈니스에 적용해 가치 창출

빅데이터 분석/응용은 6V의 모든 항목이 적용된다. 특히 마지막 가치( Value)는 빅데이터의 구 축 사이클(수집, 적재, 처리/탐색, 분석/응용)에서 빅데이터의 최종 목표가 된다. 빅데이터 기술은 5V( Volume, Variety, Velocity, Veracity, Visualization)로 비즈니스에 대한 통찰력을 갖게 되 고, 이를 기반으로 조직의 혁신적인 1V( Value)를 창출하는 도구인 것이다. 다음 장부터 진행할 파 일럿 프로젝트의 최종 단계에서도 스마트카에서 발생하는 데이터를 이용해 스마트카의 문제점을 찾고 최적화하기 위한 다양한 분석 작업을 진행한다. 분석/응용 기술로는 임팔라( Impala), 제플린 ( Zeppelin), 머하웃( Mahout)이 있으며, 스쿱( Sqoop)을 응용해서 외부 RDBMS에 데이터를 제공 ( Export)한다.

책1.indb 18

2017-01-24 오후 7:51:07


실무 프로젝트로 배우는 빅데이터 기술 : 데이터 수집, 적재, 처리, 분석, 머신러닝까지  

김강원 지음 | 데이터베이스 & 빅데이터 시리즈_016 | ISBN: 9791158390563 | 28,000원 | 2017년 01월 30일 발행 | 364쪽 | #HBase #레디스 #머신러닝 #머하웃 #빅데이터 #스쿱 #스톰 #스파크 #에스퍼 #임...

Read more
Read more
Similar to
Popular now
Just for you