Issuu on Google+

modern infrastructure: Creating tomorrow’s data centers

大数据里的大价值 部署Hadoop前需要考虑的因素 何时从大数据中真正盈利? Modern Infrastructure

IT部门的大航海时代

I T 新架构

Dec. 2013

大数据:取之架构 用之架构 CIO们正在学习如何制定由业务目标与价值驱动的大数据战略。 TechTarget 中国《Mi》2013 年 CIO号

1


编辑的信

自定义更符合大数据战略 Christina Torode 首席编辑 首页 编辑的信 大数据里的大 价值 CIO部署 Hadoop前需 要考虑哪些因 素? 大数据时代的 三点启示 企业何时才能 从大数据中真 正盈利? 大数据项目为 何失败 Hadoop集群 部署:IT部门 的大航海时代

如果要我用一个词总结开发企业大数据战 略的方式,那将是自定义。将数据转换成 价值的机会很丰富,只要由数据驱动的 策略适合您组织的具体业务需求、渴望的 业务产出、员工技能组合以及架构容量即 可。 在本期《IT新架构》中,我们将介绍Hadoop及其处理能力,用它实现大数据简 直易如反掌,但有三种情形显然不能使用 Hadoop。 数字战略专家Harvey Koeppel解释, 另一个涉及的问题是您的组织内部是否已 有合适人选(或外包资金)与业务智能工 具去处理大数据,这些数据有85%是非结 构化的数据。

数是为那剩余的15%结构化数据设计 的。”Koeppel写到,随着移动与基于 传感器的设备还有社交媒体的使用,非结 构化数据会持续增长。 咨询公司CEB的经理Mark Tonsetic有 另一个让即将成为数据采集者清醒的统计 数据:大型公司里有80%的雇员依赖数据 进行关键业务决策,但只有40%不到的人 有技能利用这些数据。 除了杂志中专家的建议,还有一件事情很 清晰。那就是我们工作的方式正在发生变 化,业务以及与互联网交互的方式也在变 化,一大部分原因不仅是收集了大量的数 据,也是由于使用这些数据创造了实时的 价值。 (译者:唐琼瑶)

“明白非结构化信息的本质与意义非常 具有挑战性,远远超出典型业务智能工 具所能企及的能力。毕竟,这些工具多

TechTarget 中国《Mi》2013 年 CIO号

2


CI O前景

首页 编辑的信

CIO需看到大数据里 的大价值 大数据不仅是一种新的商业机会,也是我们开展业务、与客户交互和交换信息方式 的根本性转变。

大数据里的大 价值 CIO部署 Hadoop前需 要考虑哪些因 素?

Harvey Koeppel

大数据时代的 三点启示 企业何时才能 从大数据中真 正盈利? 大数据项目为 何失败 Hadoop集群 部署:IT部门 的大航海时代

目前,对于大数据来说,连统一和明确的 定义都还未形成。但是,实践证明,只要 处理得当,其中自有黄金屋。

ZB(zettabytes,相当于1024EB)量 级。为了理解方便,1E相当于2的60次 方。

到底大数据是夸夸其谈抑或确有其事,业 界存在着各种不同的表述甚至是论断。令 人欣喜的是,越来越多的实际案例表明 了在大数据中蕴含着巨大的商业价值。但 是,人们对于大数据的接受程度和理解程 度依然不够。而且,相关的概念、工具和 方法论也有待进一步成熟。

如果还不清楚的话,我们可以再举一个 例子来说明——将1个EB的奥利奥饼干 (Oreo)堆起来,其高度相当于往返 月球19041819次,或是往返太阳48938 次。

有些人从规模的角度来看待大数据,比 如PB(petabytes,相当于1024TB) 、EB(exabytes,相当于1024PB)和

根据IDC的2012年DigitaUniverse报 告显示: • 2012年,全世界只有5%的数据被 用来分析

TechTarget 中国《Mi》2013 年 CIO号

3


CIO前景 • 2012年会产生2.8ZB的新数据 • 数据爆炸主要归功于PC、智能手 机和互联网的普及,尤其是在新兴市场地 区 • 在过去两年中,来自于监控摄像头 和智能电表的信息使整体数据规模增长了 一倍 首页 编辑的信 大数据里的大 价值

对于2020年的情况,IDC也做出了相应的 预测: • 数据总规模将达到40ZB,相当于 2010年的50倍

据中有15%是结构化的——比如关系型 数据库和电子表格中以行列形式存储的数 据。这也就是说,现在有85%的数据是非 结构化的,比如存在于社交网站、音频。 视频和电子邮件中的信息。对于传统的商 业智能工具(基本上都是针对结构化数据 而设计的)来说,处理非结构化信息是巨 大的挑战。 随便看看现有的论述(无论是技术还是商 业方面),基本上都认为今后的数据增长 主要来自于移动设备、传感器和社交媒 体。因此,可能结构化数据所占的比例将 会降低,而非结构化的比例越来越高–同 时伴随着复杂度和类型的增长。

• 全世界的人均数据量是5247GB CIO部署 Hadoop前需 要考虑哪些因 素? 大数据时代的 三点启示 企业何时才能 从大数据中真 正盈利? 大数据项目为 何失败 Hadoop集群 部署:IT部门 的大航海时代

• 新兴市场地区会取代发达地区成为 数据的主要来源 • 作为数据世界的“基础架构”,在 IT硬件、软件、服务、通讯和专业人员上 面的投资将会增长40%。而在诸如存储管 理、安全、大数据和云计算等方面的投入 将是增长最多的部分 无论你是否相信以上预计,数据规模的急 速膨胀是无可否认的趋势。但是,单单是 规模还不能说明大数据的全部含义–比如 当今世界有16盎司容量的软饮料、2700 英尺高的摩天大楼、7磅重的西红柿和8英 尺高的巨人,这些数字虽然很大,但是其 含义都很单薄。

真正的关键不在于技术和数据本身,而是 这些新技术及其所催生的数据改变了我们 工作和交互的模式——更加紧密和持久的 联系意味着实时的交互模式。仅靠电子邮 件进行沟通已经过时了,现在给你发了一 个消息之后,我希望得到即时的回复。正 如我20岁大的儿子经常对我说的:“爸, 现在只有老古董才用电子邮件了。”

实现大数据商业价值的5个要点

在TechAmerican Foundation最 近发布的报告《Demystifying Big Data: A PracticaGuide to Transforming the Business of Government》中,大数据被定义为“数据 规模、复杂度和类型的急速增长”。从中 我们可见,除了规模之外,速度、复杂度 和类型也构成了大数据的要素所在。

通常来说,以往的业务模式是基于历史数 据来决定未来一到两年内的行为,但是现 在则应该是基于过去几分钟内的数据来决 定未来12到24分钟(甚至是秒)内的行 动。在营销模式上,以往是基于过去数周 或数月内的推广活动来预测特定人群对产 品或者服务的偏好程度,而现在则是基于 对客户个体行为的分析和实验来为其提供 实时的定制化服务(通过各种用户界面, 比如呼叫中心、网站、移动应用等)。可 以想见,每个客户所接收到的东西都是独 一无二的–一旦某客户接收到了特定的服 务或者产品,该服务或产品就不会重复提 供给另一个客户。这才是“大”的真正含 义——大数据中的大生意。

根据TechAmerican的报告,现有的数

对于数据分析人员、IT经理以及整个企业

TechTarget 中国《Mi》2013 年 CIO号

4


CIO前景 来说,对于大数据,有以下重要的考量和 步骤: • 在准备行动之前,和管理层及客户 进行充分的沟通,了解业界最新进展以及 企业的真实需求 • 基于大数据相关的新业务模式和新 技术,积极推动企业战略的升级 首页 编辑的信 大数据里的大 价值 CIO部署 Hadoop前需 要考虑哪些因 素? 大数据时代的 三点启示 企业何时才能 从大数据中真 正盈利? 大数据项目为 何失败 Hadoop集群 部署:IT部门 的大航海时代

在营销模式上,现在则是 基于对客户个体行为的分 析和实验来为其提供实时 的定制化服务。

• 基于业务战略和模型,制定相应的 数据战略和监管流程 • 以可管理的模式来推进创新,比如 较小的、短期的和可迭代的实验和探索, 以此获得易评测和有意义的结果 • 在探索过程中允许错误的发生。不 断从失败中积累经验才能提高未来工作的 成功率 无论出于什么原因,如果你或者你的公 司还未认识到大数据的无穷潜力,Rick Smolan和Jennifer Erwitt的近著 《The Human Face of Big Data》 可能会对你有所帮助——其中有句话这么 说到:“在孩子出生的第一天,人类产生 的数据量就相当于国会图书馆的70倍。” 想想吧,这得有多少奥利奥饼干。 (译者:杨琪)

TechTarget 中国《Mi》2013 年 CIO号

5


封面故事

首页 编辑的信 大数据里的大 价值

CIO部署Hadoop 前需要考虑哪些因 素? Hadoop还相对较新、不够完善,这意味着它必然会伴随相应的症结和问题。那 么,CIO要如何确定在何时部署Hadoop框架呢?

CIO部署 Hadoop前需 要考虑哪些因 素?

Nicole Laskowski

大数据时代的 三点启示 企业何时才能 从大数据中真 正盈利? 大数据项目为 何失败 Hadoop集群 部署:IT部门 的大航海时代

当“大数据”成为人们话题时,Apache Hadoop经常是紧追其后。有一个很好 的理由来说明这个问题:Hadoop有一 个不惧导入不同数据结构的文件系统,还 有一个大规模并行处理系统(MPP)来 快速处理庞大数据集。况且,由于Hadoop建立在商用硬件和开源软件基础 上,它兼具低廉和可扩展的优势。

求。

这些特点使得Hadoop架构成为很吸引 CIO的一项技术,特别在他们面临着既要 引进更多差异化、新型数据,又要控制成 本的压力情况下更是如此。Forreste的 企业架构师Brian Hopkins认为,仍 用之前那种方式运营已经不能有效满足需

因此,尽管Hadoop的标价有诱惑力, 但它并不是所有大数据问题的最优技术方 案。该技术还相对较新、不够完善,这意 味着它必然会伴随相应的症结和问题。那 么,CIO要如何确定在何时部署Hadoop 框架呢?下面是Ancestry.com公司用

他说:“本土企业级数据仓库的扩容费用 高得吓人。大规模并行处理系统(MPP) 数据仓库设备通过它的并行架构降低了数 据仓库成本。但即便如此,该成本效益也 还伴随着一个问题。那就是每TB数据的成 本仍然相当高。”

TechTarget 中国《Mi》2013 年 CIO号

6


Mi即Modern Infrastructure,是TechTarget新近推出的月刊电子杂 志。为专业IT人士打造,帮助你们创建未来的数据中心。本期我们制作 了CIO专刊,帮助CIO们解决大数据问题。

欢迎进入下载页面


2013virtual virtualezine 12