Page 1

 2010 年 12 月

第 45 卷   第 6 期  

·综述·

高性能计算的发展现状及趋势 张军华 ①   臧胜涛 ①   单联瑜 ②   石林光 ② (① 中国石油大学(华东)地球资源与信息学院,山东青岛 266555;② 中国石化胜利油田物探研究院,山东东营 257022)

张军华,臧胜涛,单联瑜,石林光 .高性能计算的发展现状及趋势 .石油地球物理勘探, 2010, 45( 6): 918~925 摘要   地震勘探是高性能计算最重要 的 应 用 领 域 之 一。 本 文 通 过 跟 踪 国 内 外 高 性 能 计 算 机 的 发 展 动 态,分 析 地球物理勘探领域对高性能计算的需求 和 应 用 现 状,展 望 高 性 能 计 算 的 发 展 趋 势,得 出 了 以 下 结 论 和 认 识:① 高性能计算机今后发展趋势是向多核方向发展;② 目前地震勘 探 对 高 性 能 计 算 的 直 接 需 求 是 叠 前 深 度 偏 移、叠 前反演和全波形反演,以及单点高密度勘探技术;③GPU 技术具有广阔的应 用 前 景,尤 其 是 新 建 的 CUDA 架 构 完善了软件开 发 环 境;④ 基 于 FPGAs( F i e l dPr og r ammab l eGa t eAr r ay s,现 场 可 编 程 门 阵 列)的 可 重 构 技 术,既 有硬件的计算性能,又有软件的灵活性,采用此项技术可以大大 提 高 计 算 速 度;⑤ 受 功 耗、传 统 集 成 电 路 技 术 等 制约,单 CPU 性 能 提 高 有 很 大 的 局 限 性,开 发 新 材 料、完 善 计 算 机 封 装 结 构 成 为 提 高 计 算 性 能 的 新 途 径,光 电 二极管( APD)硅光子器件、内存 +CPU 的 MCP 封 装 结 构,发 展 前 景 看 好;⑥ 云 计 算 ( Cl oudCompu t i ng)是 在 分 布计算、并行计算、网格计算等基础上发 展 起 来 的 一 种 全 新 的 数 据 密 集 型 超 级 计 算 模 式,该 技 术 将 在 海 量 数 据 的高性能计算方面有很好的应用前景;⑦ 计算性能的提高依赖 于 软 硬 件 一 体 化 整 体 发 展,目 前 硬 件 技 术 发 展 日 新月异,但软件开发及应用相对滞后,大力发展软件产业是解决以上问题的必由之路。 关键词   高性能计算  GPU FPGAs  云计算   高密度勘探   叠前深度偏移   全波形反演

计算需求和应用现状,主要包括高密度地震勘探、叠

1  引言

前深度偏移、叠前反演和全波形地震反演等方面;介 绍了 高 性 能 计 算 方 面 的 两 个 新 突 破,即 GPU 技 术

地震勘探是高性能计算最重要的应用领域之

和 FPGAs技术;最后,对 高 性 能 计 算 发 展 趋 势 进 行

一,同时高性能计算 也 是 推 动 勘 探 技 术 进 步 的 主 要

了展望,阐述了单核 CPU 的 最 新 进 展,分 析 了 其 固

动力之一。随着勘探对象的复杂化和勘探要求的日

有的局限性,指出 高 性 能 计 算 可 在 计 算 机 存 储 器 的

益精细化,以及地 震 资 料 的 采 集、处 理、解 释 技 术 的

封装结构及新材料方面寻求新的突破。

发展,尤其是高密 度、超 万 道 地 震 采 集 技 术 的 应 用, 地震勘探的数据 量 和 地 震 数 据 的 计 算 量 不 断 增 加,

2  高性能计算机的国内外发展现状

这就使得人们对高性能计算提出了更高的要求。纵 观高性能计算机的发展,从早期的标量计算机、向量

长 期 以 来,人 们 把 提 高 处 理 器 工 作 频 率 作 为 增

机、并行计 算 机,到 如 今 的 PC 集 群、超 级 计 算 机、

强计算性能的主要 途 径,但 是 提 高 主 频 受 到 生 产 工

GPU 计算、 FPGAS 可重构计算技术,每一种产 品的 出现都使 得 相 应 时 期 的 石 油 勘 探 技 术 得 到 快 速 发

艺和系统功耗 的 限 制。 为 此,人 们 提 出 了 由 传 统 的 单 核 CPU 向 多 核 发 展 的 技 术 路 线 [1,2]。 如 今 广 泛

展。进入新世纪以来,随着新材料、新技术的不断进

使用 的 微 机 已 普 遍 采 用 较 高 主 频 的 双 核 或 四 核

步,高性能计算 产 品 更 新 换 代 的 频 率 明 显 加 快。 由

CPU。而走在计算机 前 列 的 高 性 能 计 算 机,所 拥 有 的 CPU 数 目 已 经 达 到 10 万 个 的 数 量 级 (表 1)。

于计算机工业发展 日 新 月 异,所 以 关 注 高 性 能 计 算 的发展动态及其在 地 震 勘 探 中 的 应 用 前 景,具 有 十 分重要的现实意义。 在跟踪和分析国内外高性能计算机的发展现状 的基础上,本文阐述 了 地 球 物 理 勘 探 领 域 对 高 性 能 266555  山东省青岛市中国石油大学(华东)地球资源与信息学院, 本文于 2010 年 4 月 23 日收到,修改稿于同年 9 月 18 日收到。

2009 年 11 月,在第 34 届高 性 能 计 算 机 500 强 的 排 名 中,Cr ayXT5 超 级 计 算 机 “ J agua r”,最 终 以 2331Tf l ops的峰值运算 速 度 和 1759Tf l opsL i npa ck 测试值,战胜了 上 届 排 名 第 一 的 IBM “ Road runne r”


第 45 卷   第 6 期

张军华等:高性能计算的发展现状及趋势

  919 

超级计算机,荣 登 榜 首 [3]。安 装 在 美 国 能 源 部 橡 树

存容量为8GB,而 XT5 每个节点内存容量为 16GB,

岭国 家 实 验 室 的 J agua r 系 统,包 括 8 个 Cr ay XT4

在机柜系统内为用户提供 总共 362TB 的高速内存。

系统机柜和 200 个升级的 Cr ayXT5 机柜,均采用 6

两个系 统 都 通 过 Sc /O Ne a l ab l eI two rk( S ION)连

核处 理 器, XT5 占 地 4400 f t 。XT4 每 个 节 点 的 内

接起来并与 Sp i de r文件系统相连接。

表 1 2009 年 11 月世界高性能计算机 10 强排名表 序号

安装地点

系统名称

CPU 核数

L i npa ck 值 ( Tf l ops)

峰值速度 ( Tf l ops)

1 2 3 4 5 6 7 8 9 10

美国橡树岭国家实验室 美国洛斯阿拉莫斯国家实验室 美国国家计算科学研究所、田纳西州大学 德国 FZJ计算中心 天津国家超级计算机中心 美国航天局、艾姆斯研究中心 美国劳伦斯利弗莫尔国家实验室 美国阿贡国家实验室 美国德克萨斯高级计算中心、德州大学 美国桑迪亚国家实验室、国家再生能源实验室

J agua r Road r unne r Kr akenXT5 JUGENE 天河一号

224162 122400 98928 294912 71680 56320 212992 163840 62976 41616

1759 .00 1042 .00 831. 70 825. 50 563. 10 544. 30 478. 20 458. 61 433. 20 423. 90

2331 .00 1375. 78 1028. 85 1002. 70 1206. 19 673. 26 596. 38 557. 06 579. 38 487. 74

   在国外高性能 计 算 机 高 速 发 展 的 同 时,国 内 也 取得了 丰 硕 的 成 果,正 在 逐 步 缩 小 与 世 界 先 进 水

P l e i ade s 蓝色基因 蓝色基因 Range r RedSky

的 20GB 的网络 互 联,其 设 计 浮 点 运 算 速 度 峰 值 为

平高性能 计 算 机 之 间 的 差 距。 尤 其 是 曙 光 5000A

233Tf l ops, L i npa ck 测 试 速 度 达 到 180Tf l ops,效 率 大于 70% 。第 一 台 国 产 超 千 万 亿 次 的 超 级 计 算 机

和“天河 一 号 ”的 问 世,使 我 国 一 跃 成 为 高 性 能 计

“天河一号”,在 2009 年 10 月正式亮相,峰值速度为

算的强 国。 曙 光 5000A 高 性 能 计 算 机 采 用 四 核

1206 .19Tf l ops, L i npa ck 实 测 速 度 为 563. 1Tf l ops, 使“天河 一 号”计 算 机 在 最 新 的 全 球 高 性 能 计 算 机

AMDBa r c e l ona(主频1. 9GHz)处理器,采用基于刀 片架构 的 HPP 体 系 架 构,共 有 30720 颗 计 算 核, 122. 88TB 内存, 700TB 数 据 存 储 能 力,采 用 低 延 迟

500 强中占据 了 第 五 的 位 置,成 为 中 国 超 级 计 算 机 之 首(表2)。 虽 然 在 研 制 之 初 ,出 于 成 本 方 面 的 考

表 2 2009 年 11 月中国高性能计算机 25 强排名表(仅列出部分) 序号 1 2 3 4 8 16 18 19 23 25

安装地点 天津国家超算中心 上海超级计算中心 中国科学院超级计算中心 网络公司 计算物理国家重点实验室 中石油川庆钻探物探公司 中石油大庆物探公司 中国石油大学(北京) 中石化胜利油田物探研究院 中石油东方地球物理公司

系统名称 天河一号 曙光 5000A 深腾 7000 B l adeCen t e rHS22 曙光 5000 B l adeCen t e rHS21 B l adeCen t e rHS21 B l adeCen t e rHS22 B l adeCen t e rHS21 B l adeCen t e rHS21

CPU 核数

L i npa ck 值 ( Tf l ops)

峰值速度 ( Tf l ops)

71680 30720 12160 7168 3360 5040 4464 3072 4096 4048

563 .100 180 .600 106 .500 38 .790 31 .049 24 .670 22 .140 20 .644 18 .600 18 .147

1206 .190 233 .472 145 .293 72 .540 40 .320 53 .626 47 .620 29 .491 38 .224 37 .727

虑,“天河一号”使 用 的 是 国 外 进 口 的 CPU,但 是 除

/O 性 能、内 据运算规模对处理器的浮点运 算能 力、 I

此之外,其所有的核心器件、互联芯片、操作系统,全

存容量以及 带 宽 都 有 较 高 的 要 求。 目 前, PC Cl us 

部由我国自主研制

[ 4, 5]

3  地球物理勘探领域对高性能计算的 需求与应用现状    在地球物理勘 探 领 域,其 海 量 地 震 数 据 及 其 数

t e r已经成为 该 领 域 高 性 能 计 算 的 主 流 产 品。 这 主 要得益于其高速 的 运 算 性 能、良 好 的 L i nux 操 作 系 统和节点之间的兼容性,具体表现在: ( 1)强大的运算 能 力   集 群 的 运 算 能 力 能 满 足 大规模地震资料处理与解释分析的需求; ( /O 性 能   在 运 行 过 程 中,每 个 作 2)较高 的 I


20  9  

石 油 地 球 物 理 勘 探

2010 年  

业需要约数十 GB 的 存 储 空 间 存 放 临 时 文 件,并 对

偏移不像叠前深度偏移那样对计算性能的依赖性那

这些临时文件进行 频 繁 的 读 写 操 作,因 而 对 系 统 的

么强,目前已经 纳 入 了 常 规 地 震 数 据 处 理 流 程。 而

/O性能提出要求较高; I ( 3)高 性 能 管 理   除 了 处 理 超 大 规 模 的 计 算 任

叠前深度偏移,考虑到了速度在空间上的变化,从而 具有较好的成像精度 [10~12],但同时也大 大增加了计

务外,还要支持多用户、多作业的能力,这就要求系统

算量。图 3 给出了叠前时间偏移与叠前深度偏移剖

具有强大的资源管理和作业调度功能,以应对作业的

面的效果对比。叠前深度偏移所要求的密集算法占

自动调度、优先级管理,用户的资源分配等要求;

用 CPU 资源多,计算 耗 时,更 加 需 要 高 性 能 的 计 算 机支持。集群计算 以 其 强 大 的 并 行 处 理 能 力、移 植

( 4)较强的系统 扩 展 能 力   随 着 研 究 与 业 务 的 发展,原有应用程序 的 计 算 规 模 必 定 涉 及 到 系 统 扩

性强、可扩展性好等特点,在叠前深度偏移方面备受

展问题,不仅是硬件或计算能力的增加,而且要求新

关注。

增系统能充分地融合到现有的系统中。 如今地震勘探技术对高性能计算的直接需求是

3. 3  地震反演(全波形反演、叠前属性反演) 叠前全波形炮集是地震勘探中采集的第一手资

叠前偏移、叠前反演和全波形反演,以及单点高密度

料,它 包 含 面 波、直 达 波、各 类 反 射 波、衍 射 波 及 其

勘探技术等。

他波动效应,含有最丰富的地震波动学和动力学信

3. 1  高密度地震勘探 近 几 年 由 于 地 震 仪 器 和 计 算 机 性 能 的 提 高,人

息 [13,14],因此,采 用 叠 前 全 波 形 资 料 来 反 演 各 向 异 性参数,对于减小反演的多解性、提高解释精度有着

们提出高密度地震 勘 探 的 概 念,主 要 通 过 减 小 面 元 尺度和提高空间采样率来增加采样密度。随着万道 以上地震仪的推广 应 用,高 密 度 地 震 勘 探 技 术 将 成 为未来一段时间内地震勘探技术发展的主流 [7]。 目前,常规地震勘探面元一般为 25m×25m,而 为了适应未来的石 油 勘 探 开 发 的 精 度 要 求,可 能 采 用 5m 的空间采样密度,这对 于山 地勘探 和 小 断 块、 薄储层、小砂体、小尺度孔洞的识别以及精细油藏描 述具有重要意义。 高 密 度 地 震 勘 探 具 有 小 道 距、高 覆盖的特点,因此极 大 地 增 加 了 地 震 野 外 采 集 的 数 据量,加之处理中派生的中间数据,将会使地震数据 总量达到 PB( 1PB=1024TB)的规模。 图 1 展示了中石化胜利油田罗家高密度工区观 测系统图,其 CMP 点 距 为 6. 25m,总 炮 数 为 29400 炮,道密 度 为 358 万/km2 ,面 元 为 25m×25m,覆 盖 次数达到 2240 次,采集原始数据量达到 7. 5TB。

图 1  胜利油田罗家高密度工区的观测系统图

3. 2  叠前深度偏移 由 于 勘 探 目 标 的 地 质 结 构 越 来 越 复 杂,叠 前 偏 移技术的应用已成 为 必 然,而 叠 前 偏 移 技 术 导 致 计 算量呈指数式增长(图 2)[8],沿用常规 CPU 计 算 模 式已 经 很 难 满 足 地 震 数 据 处 理 的 计 算 要 求。 据 IBM 公 司估 计,地震勘探 常 规数据处 理所需的 计算 量大约是每个数据 105 次 浮 点 运 算, Ki r chho f f叠 前 深度偏移所 需 的 计 算 量 大 约 是 106 次 浮 点 运 算,而 基于波动方程的炮 域 叠 前 深 度 偏 移 处 理,所 需 的 计 算量大约是每个数据 108 次浮点运算 [9]。叠 前 时间

图 2  地震处理技术与运算速度需求变化趋势


第 45 卷   第 6 期

张军华等:高性能计算的发展现状及趋势

  921 

重要意义。同时 由 于 全 波 形 反 演 用 的 是 叠 前 数 据,

前全波形反演可以得到高分辨率的速度模型

具有超大的数据量,例 如,如 果 Ki r chho f f叠 前 深 度

(图 4),并且可 以 通 过 正 演 模 型 计 算 采 集 得 到 的 地

偏移 所 占 用 的 相 对 资 源 量 为 1,那 么 全 波 形 反 演 资

震数据与当前模型之间的差异来调整速度模型。该

源将 达 其 1000 倍 之 巨,这 就 需 要 高 性 能 计 算 的 支

方法已经在实际工 作 中 得 到 了 应 用,它 在 各 种 观 测

[ 15]

。随着运算能力的提高,真 正 的 全 波 形 反 演 将

成为可能。目 前,利 用 基 于 双 程 波 动 方 程 的 3D 叠

系统中,包括宽方位勘测和全方位勘测,都具有较强 的适用性 [16]。

图 3  叠前时间偏移( a)与叠前深度偏移( b)效果对比图

图 4  三维叠前全波形反演得到的速度模型 ( a)Ma rmous i速度模型;( b)全波形反演初始模型;( c)全波形反演多次迭代速度模型

   与全波形反演 类 似,叠 前 属 性 反 演 目 前 也 还 处 于起步阶段,许 多 技 术 还 不 成 熟。 虽 然 针 对 叠 前 反

理芯片时,首 先 提 出 GPU( Gr aph i c sPr o c e s s i ng U

演优化处理方法的 研 究 一 直 受 到 关 注,某 些 单 项 技

n i t,图形处 理 单 元 )的 概 念。 之 后,GPU 技 术 得 到 快速发展,运算速度迅速超过 CPU(图 5),但是早期

术的应用方面也取 得 了 一 定 的 成 果,但 是 整 体 上 来

的 GPU 有 一个 先天 的不 足,即 通用 性差,因为 其 设

讲,还不能满足叠前反演处理的要求,更没有形成成

计宗旨就是为加速图形处理的。2007 年, NVIDIA 公 司 发 布 了 全 新 的 开 发 环 境CUDA( Compu t e rUn i t e d

熟而可靠的技术流程。随着高性能计算技术的发展 以及叠前数据处理 能 力 的 提 高,叠 前 属 性 反 演 也 将 成为地震处理技术发展的必然趋势。

4  高性能计算的新突破 4. 1 犌犘犌犘犝 技术 除了传统 CPU 由 单 核 向 多 核 发 展 的 技 术 路 线 以外,一种已经出现 而 且 迅 速 崛 起 的 高 性 能 计 算 技 术———GPU 技术,成为了近年来研究的热点。 1999 年 NVIDIA 公司发布 GeFo r c e 256 图形处

图 5 CPU、 GPU 运算性能发展曲线对比


石 油 地 球 物 理 勘 探

22  9  

Dev i c eAr ch i t e c t u r e,计算统一设备架构),这就使得 GPU 打破图形语 言 的 局 限 成 为 真 正 的 并 行 数 据 处 理的 超 级 计 算 机

[ 17, 18]

。 图 6 展 示 的 是 基 于 CUDA

2010 年  

架构的 三 维 地 震 数 据 体 分 解 模 式 [19],无 论 是 叠 前 炮集 处 理 还 是 叠 后 属 性 提 取,GPU 都 有 其 计 算 的 优势。

图 6  基于 CUDA 架构的三维地震数据体分解模式

adwave公司采 用 CUDA 开发 环 境,利    美国 He 用基 于 GPU 的 大 规 模 并 行 处 理 单 元,对 地 震 数 据 做了 叠 前 深 度 偏 移 试 验,指 出 GPU 的 计 算 性 能 是 [ ] CPU 的 10~70 倍 20 ,可 以 显 著 提 高 地 震 数 据 处 理 速度。Pe akS t r e am 公司对 GPU 并行算法的实 验也

件组成,通过编程赋予这些器件特定的 功能,从而实 现S IMD 和 MIMD 等指 令 计 算。FPGA 协 处 理 器 可 以直接插在 CPU 插座上,更加扩展了 FPGA 的应用 领 域。 而 I BM 等 公 司 正 在 努 力 将 FPGA 集 成 到 [ ] Powe rPC处理器中 26 ,即可进一步推动该技术发展。

取得 了 满 意 的 效 果 [21]。GPGPU ( Gene r a lPur s e po Gr aph i c s Pr oc e s s i ng Un i t,通 用 图 形 处 理 单 [ 22, 23] 元) ,能够实现非 图 形 的 通 用 计 算,图 7 所 示 为 GPGPU 典型内存 架构。 当前 GPGPU 技术 的 主 流 开发 平 台 除 了 NVIDIA 公 司 的 CUDA,还 有 AMD 的流计算( S t r e amCompu t i ng)以及 App l e公司的开 [ 24] 放设计语 言 ( OpenCL) 。 目 前 最 成 熟、实 用 化 程 度最高的是 CUDA 技 术。 以 此 为 依 托, GPGPU 技 术取得了不少成果 [25],但由于该技 术 还 处 于 起 步 阶 段,许多研发资料与结构体系都是商业机密,并未公 开,也阻碍了 GPGPU 技术的发展。 4. 2 犉犘犌犃狊技术 基 于 FPGAs(F i e l dP r og r ammab l eGa t eAr r a s, y 现场可编程门阵列)的可重构技术,既有硬件的计算 性能,又有软件 的 灵 活 性。 它 由 一 系 列 通 用 逻 辑 器

图 7  典型的 GPGPU 内存架构


第 45 卷   第 6 期

张军华等:高性能计算的发展现状及趋势

[ , ]

He等 27 28 采用基于 FPGA 的可重构技术,通过 PC I 接口与通用计算机相连,实现 了有 限差分 波场模 拟、 [ 29]

叠前时间偏移等算法。Rob e r t 将 FPGA 与传统的 VonNe umann结构进行了对比(图 8),并详细介绍了 [ 30]

  923 

计算 机 从 单 核 到 多 核 的 进 步,是 由 单 处 理 器 的 局限性催生的。首先,传统的依靠提高频率的方法, 难以实现 性 能 的 突 破,目 前 CPU 主 频 几 乎 已 经 达 到了 CPU 工艺的极限,并 且 随 着 主 频 的 提 高,系 统

FPGA 的指 令 存 储 方 式。Fu 等 利 用 基 于 FPGAs 的流式结构加速三维褶积运算,通过实验证明该方法

功耗不断上 升,成 为 单 核 CPU 的 主 要 障 碍;其 次,

比常规计算速度高出两个数量级。

同的任务量 时,单 核 处 理 的 等 待 时 间 是 双 核 的 100 倍 [32],这制约了高性能计算 的 运 算 速 度;再 次,多 核

对于主频相同的单 核 和 双 核 处 理 器 来 说,在 处 理 相

技术的进步,带来了强大并行计算能力,并且随着多 核技术日 趋 成 熟,其 优 越 的 性 价 比 是 单 核 CPU 无 法比拟的。 因 此,CPU 总 的 趋 势 还 是 向 多 核 方 向 发展。 5. 2  存储器封装技术 传 统 的 系 统 构 建 方 式 已 经 达 到 了 处 理 的 极 限, 面对芯片集成度和 制 作 工 艺 带 来 的 挑 战,人 们 将 目 光放 在 了 存 储 器 的 封 装 技 术 上。 MCP(Memo r y 图 8 FPGA 流式结构(右)与经典的 VonNeumann 结构(左)对比图

mu l t i ch i ckage,多 芯 片 封 装 )技 术,可 以 解 决 封 ppa 装结构与 带 宽 之 间 的 平 衡 问 题,成 为 现 今 的 热 点。 []

5  高性能计算发展趋势展望

Wi l l i am 等 8 提 出 了 三 种 封 装 结 构,即 CPU+ 存 储 器的二维平面 MCP、嵌入存储器的封装基板 +CPU

5. 1 犆犘犝 的最新进展及其固有的局限性 在双 核 处 理 器 问 世 之 前,商 业 化 处 理 器 一 直 局

的层 状 MCP 结 构、三 维 CPU+ 存 储 芯 片 叠 置 的 MCP(图 10)。

限于单核 处 理 器 的 发 展。 日 本 富 士 通 公 司 于 2009

5. 3  光电一体化新材料技术 摩尔 定 律 揭 示 了 信 息 技 术 进 步 的 速 度,但 传 统

年成功研制出一 种 每 秒 可 运 算 1280 亿 次 的 世 界 上 运算速度最快的 CPU(图 9)。 据 介 绍,此 次 开 发 的

的硅材料晶体管的集成度已然达到了制作工艺的极

新型 CPU 名 为 “维 纳 斯 ”。 通 过 采 用 超 细 微 化 技

限,制约了处理 此 类 芯 片 技 术 的 进 一 步 发 展。 英 特

术,研究人 员 使 约 为 2cm2 的 集 成 电 路 片 上 集 成 的

尔正在研究一 种 称 为 “ⅢⅤ 半 导 体 化 合 物”的 非 硅

中枢电路由过去的 4 个 增 加 到 8 个,从 而 实 现 了 运

物质,可在低压环境中( 0. 5v,甚至更低)保持较高的

算速度的 大 幅 度 提 高。 目 前,这 种 CPU 的 运 算 速

处理速度。

度比以往最快的英 特 尔 CPU 快 2. 5 倍。 由 于 此 芯

硅光 子 学 也 是 人 们 研 究 的 热 点,硅 光 子 器 件 是

片设计巧 妙,其 电 力 消 耗 只 有 英 特 尔 CPU 的 三 分

继集成电路之后最 有 应 用 前 景 的 实 用 元 器 件,英 特

之一,在节能方面的性能也十分突出 [31]。

尔的硅光实 验 室 研 制 的 “雪 崩 ”光 电 二 极 管 (APD) (图 11)频率高 达 340GHz。 除 此 之 外,还 有 能 够 以 40Gbps的速 度 对 数 据 进 行 编 码 的 硅 激 光 调 节 器。 而以光代替晶体管 中 的 电 子 线 路,不 仅 大 大 提 高 了 传输速度,也减小了元器件的规模尺度,但目前的制 作工艺还没有达到成熟阶段。 5. 4  云计算及其关键技术 近些年来,网格技术一直受到计算机界青睐,近 期出现的云 计 算 ( Cl oudCompu t i ng)正 日 益 受 到 业 界关注。它是在分布计算、并行计算、网格计算等基

图 9  世界上速度最快的 CPU———SPARC64TM Ⅷf x

础上 发 展 起 来 的 一 种 全 新 数 据 密 集 型 超 级 计 算 模


石 油 地 球 物 理 勘 探

24  9  

2010 年  

图 10  内存 +CPU 的 MCP 封装结构

还提供 了 针 对 GPU 编 程 的 C 语 言 环 境,尔 后 新 的 异构运 算 应 用 平 台 随 之 出 现,OpenCL 和 Di r e c tX Compu t e就是两个代 表 性 产 品,这 二 者 都 能 融 合 在 CUDA 架构之 上。 随 着 GPU 技 术 的 发 展,其 软 件 开发环境也将会随 之 进 步,使 之 更 加 趋 向 于 我 们 平 时的编程习惯。当然,就专业应用而言,由于地震处 理软件是 非 常 庞 大 的 一 个 系 统,全 部 改 造 成 GPU 计算环境还要有一段时间。 图 11  “雪崩”光电二极管( APD)

5. 6  高性能计算软硬件一体化发展问题 高 性 能 计 算 的 硬 件 发 展 令 人 叹 为 观 止,但 软 件

式,旨在通过网络把 多 个 成 本 相 对 较 低 的 计 算 实 体

方面的缺失仍是 高 性 能 计 算 应 用 效 率 提 高 的 瓶 颈,

整合成一个具有强 大 的 计 算 能 力 的 完 美 系 统,并 借

如何解决“软硬失 衡”问 题,也 是 高 性 能 计 算 方 面 的

助于诸多先进的商业模式把这种强大的计算能力分

研究热点。西方国家在硬件制造和软件开发方面相

[ ] 布 到 终 端 用 户 手 中。Vaque r o 等 33 将 “云 ”定 义 成

对比较平衡,而我 国 高 性 能 计 算 产 业 呈 现 的 却 是 机

一个包含大量可用虚拟资源的资源池。该技术具有

器大、应用少,软硬失衡的格 局 [34],有 人 将 之 形 象 地

超大规模的计算能力、虚拟化、高扩展性、高可靠性、

比喻为“瘸子走 路”。 软 件 开 发 和 应 用 水 平 的 提 高,

服务多样性等特点。云计算应用了一系列最先进的

取决于多方面的因 素,一 是 目 前 我 们 还 缺 乏 对 规 模

计算及网络技术,包括虚拟化技术、分布式海量数据

更大、精度更高的计算模型及算法的研究,它们在传

存储和分布式并行编程等。数据中心虚拟化是目前

统高性能用户如石油、气象、航天等领域有巨大的需

的研究热点,包括 网 络 虚 拟 化、存 储 虚 拟 化、服 务 器

求;二是政府、软件开发商对多核处理器的支持力度

虚拟化等,这些都是云计算的基础。为保证高可用、

不够,投入不足;三 是 我 国 专 业 软 件 开 发 的 人 员 少,

高可靠和经济性,云 计 算 采 用 冗 余 方 式 进 行 数 据 存

队伍还不够固定。

储,采用 Map Reduc e编程模式,该模 式 是 一 种 处 理 和产生大规模数 据 集 的 编 程 模 型。 另 外,云 计 算 针

6  结论与认识

对海量的数据存储、读取等操作,采用数据库领域中 列存储的数据管理模式。 5. 5  基于 犌犘犝 计算的商用软件发展前景展望 尽管 GPU 硬件发展 如 日 中 天,广 受 关 注,但 软 件应用方面仍面临很大的挑战,如编程难、标准不统 一、软件可移植性差、应用生态系统有待完善等。值 得关注 的 是 NVIDIA 早 在 2006 年 就 已 应 用 GPU 计算架构,该架构不仅提供了硬件的直接访问接口,

( 1)高性能计算机今后发展趋势是多核技术,目 前顶级计算机已经具有超过 20 万个核的集成度,今 后还会更多。 ( 2)地震勘探 目 前 对 高 性 能 计 算 的 直 接 需 求 是 叠前偏移、叠前反演和全波形反演,以及单点高密度 勘探技术等。 ( 3)基于 FPGAs的 可 重 构 技 术,既 有 硬 件 的 计


第 45 卷   第 6 期

张军华等:高性能计算的发展现状及趋势

算性能,又有软 件 的 灵 活 性。 采 用 此 项 技 术 可 以 大 大提高计算速度。 ( 4)受功耗、传统集成 电路技 术等 制约,单 CPU 性能提高有很大的局限性,开发新材料、完善计算机 封装结构成为提高计算性能的新途径。光电二极管 ( APD)硅 光 子 器 件、内 存 +CPU 的 MCP 封 装 结 构,发展前景看好。 ( 5)云计算技术具有超大规模的计算能力、虚拟 化、高扩展性、高可靠性、服务多样性等特点,应用网 络虚拟技术、冗余数 据 存 储 模 式 和 列 存 储 数 据 管 理 模式,发展迅速。 ( 6) GPU 技术出现仅仅几年,就迅速成为研究热 点,足以看出此项技术具有广 阔的 发展前 景,但面向 GPU 的软件开发依然是制约其应用的主要瓶颈。 ( 7)高性能软硬 件 一 体 化 发 展 是 高 性 能 计 算 大 力推广的关键,目前硬件发展优于软件,所以必须大 力发展软件产业,充分发挥硬件的性能优势。 参 考 文 献 [1 ]  张军华,仝兆岐 .地震资料处理中的并行计 算 机 技 术 . 物探化探计算技术, 2002, 24( 1): 31~36 [2 ]  张军华,雷凌,仝兆 岐 . PCCl us t e r技 术 的 国 内 外 现 状 与发展趋势 .石油物探, 2003, 42( 4): 557~561 [3 ] TOP10Sy s t ems.www. t op500. o r g [4 ]  高性能计算机发展面临三大挑战 .h t t i nanc e. s i  p:∥f /20100317/08233248407. na. c om. cn/r o l l sh tml [5 ]  超级“大算 盘”一 天 顶 160 年———国 产 千 万 亿 次 超 级 计算 机 亮 相 .h t t s i na. c om. cn/o/2009  10  p:∥news. sh tml 30/075816525368s. [6 ] h t t r ong l i an. c om/s o l u t i on5. h tml p:∥www. [7 ] Pau lMa t heny, Robe r tSambe l l, Sa i d Mahr ooq ie ta l. Evo l u t i ono ft hel ands e i smi csupe rc r ew.犛犈犌犜犲 犮犺  狀 犻 犮犪 犾犘狉 狅犵狉犪犿 犈狓狆犪狀犱犲犱犃犫 狊 狋 狉犪犮 狋 狊, 2009, 28: 81~85 [8 ]  Wi l l i am JCamp, Ph i l i i e r r endsf o rh i  ppe Th y.Tr gh r f o rmanc e s c i en t i f i c c ompu t i ng. 犜犺 犲 犔犲犪犱犻 狀犵 pe 犈犱犵犲, 2010, 29( 1): 44~47 [9 ]  赵改善 .我们 需 要 多 大 和 多 快 的 计 算 机 .勘 探 地 球 物 理进展, 2004, 27( 1): 22~28 [ 10]  赵改善,孔 祥 宁,王 于 静 等 . 64 位 集 群 计 算 平 台 波 动 方程叠前深度偏 移 的 性 能 优 化 .勘 探 地 球 物 理 进 展, 2005, 28( 1): 57~64 [ 11] J ohn W CSh e rwo od,Ke v i nSh e rwo ode ta l.3Db e am r e s t a c kd e t hmi r a t i onw i t he x amp l e sf r oma r oundt h e p p g wo r d. 犜犺 犲犔犲 犪犱 犻 狀犵犈犱犵犲, 2009, 28( 9): 1120~1127 [ 12] J ohnEt Samue lH Gr ay, Zhang Yu.Anove r v i ew gen, o fdep t himag i ngi nexp l o r a t i onge ophy s i c s.犌犲 狅狆犺狔狊  2009,WCA5~WCA17 犻 犮 狊, [ 13]  张美根,王妙月,李小凡等 .时间域全波形各 向 异 性 弹 性参数反演 .地球物理学报, 2003, 46( 1): 94~100 [ 14]  孙银行,乐友 喜 .各 向 异 性 弹 性 参 数 的 广 义 非 线 性 反 演方法 .勘探地球物理进展, 2007, 30( 3): 179~184

  925 

[ 15] Dene sVi l l i am ES t a r r, J e r r r.De ve l o  gh,Wi y Kapoo 犜犺犲 i ngEa r t h mode l swi t hf u l lwave f o rmi nve r s i on. p 犔犲犪犱犻 狀犵 犈犱犵犲, 2009, 28( 4): 432~435 [ /dp/omega / 16] h t t s t e r nge c o. c om/s e r v i c e s p:∥www.we dep t h/ t omopo r t f o l i o/ fwi. a spx [ 17]  钟 联 波 .GPU 与 CPU 的 比 较 分 析 .技 术 与 市 场, 2009, 16( 9): 13~14 [ 18]  郭境峰,蔡 伟 涛 .新 一 代 高 能 运 算 技 术———CUDA 简 介 .现代科技, 2009, 8( 6): 58~62 [ 19] Ben ami nJKad l e c, Ge o f f r eyADo r n.Le ve r i ngg r aph  j i c sp r o c e s s i ngun i t s( GPUs) f o rr e a l  t imes e i smi ci n  犜犺 犲犔犲 犪犱 犻 狀犵犈犱犵犲, 2010, 29( 1): 60~66 t e r r e t a t i i on. p [ 20]  张兵,赵 改 善,黄 骏 等 .地 震 叠 前 深 度 偏 移 在 CUDA 平台上的实现 .勘探地 球 物 理 进 展, 2008, 31( 6): 427~ 432 [ 21]  赵改善 .地球物理高性能 计 算 的 新 选 择: GPU 计 算 技 术 .勘探地球物理进展, 2007, 30( 5): 399~404 [ 22] Owe nJD,Lu e bk eD,Go v i nd a r a uNe ta l.As u r vyo f j e n e r a l  u r o s e c ompu t a t i on on g r a i c s h a r dwa r e. g p p ph 犆狅犿狆狌 狋 犲 狉犌狉 犪狆犺 犻 犮 狊犉狅 狉 狌犿 ,2007, 26( 1): 80~113 [ 23]  徐新海,林宇斐,易伟 . CPUGPGPU 异构体 系 结 构 相 关技 术 综 述 .计 算 机 工 程 与 科 学, 2009, 31,(A1): 24~26 [ 24]  张朝 晖,刘 俊 起,徐 勤 建 . GPU 并 行 计 算 技 术 分 析 与 应用 .信息技术, 2009, 11: 86~89 [ 25] L iBo, TongXi ao  l ong, L iYou mi ng. A me t hodo fa c  c e l e r a t i ngs e i smi cPr e  s t a ckt imemi r a t i onbyGPU. g 犛犈犌犜犲 犮犺狀 犻 犮犪 犾犘狉 狅犵狉犪犿 犈狓狆犪狀犱犲犱犃犫 狊 狋 狉犪犮 狋 狊, 2009, 28: 3055~3058 [ 26]  赵改善 .可重构计算技术及其在地球物理中 的 应 用 前 景 .勘探地球物理进展, 2007, 30( 4): 309~316 [ 27] He Chuan,Lu Mi,Sun Chuan wen.Ac c e l e r a t i ng s e i smi c mi r a t i on us i ng FPGAba s ed c op r o c e s s o r g o c e ed i ngs o ft he12 t h Annua lIEEE l a t f o rm.∥ Pr p Sympo s i um on F i e l d Pr og r ammab l eCus t om Compu  t i ng Ma ch i ne s, 2004, 207~216 [ 28] HeChuan,SunChuan wen,LuMi.Pr e s t a ckKi r chh  o f ft imemi r a t i ononh i r f o rmanc er e c on f i r ab l e g ghpe gu c ompu t i ngp l a t f o rm.犛犈犌 犜犲 犮犺狀 犻 犮犪 犾 犘狉 狅犵狉犪犿 犈狓 狊 狋 狉犪犮 狋 狊, 2005, 24: 1902~1906 狆犪狀犱犲犱犃犫 [ 29] Robe r tGCl app,HaohuanFu.Se l e c t i ngt her i tha r gh dwa r ef o rr e ve r s et imemi r a t i on. 犜犺犲犔犲犪犱犻 狀犵犈犱犵犲, g 2010, 29( 1): 48~58 [ 30] Fu Hao huan, Robe r tG Cl app. Ac c e r a t i ng3D Convo  l u t i onus i ngS t r e ami ngAr ch i t e c t u r eonFPGAs.犛犈犌 2009, 28: 犜犲 犮犺狀 犻 犮犪 犾犘狉 狅犵狉犪犿 犈狓狆犪狀犱犲犱 犃犫 狊 狋 狉犪犮 狋 狊, 3035~3039 [ 31]  日本富士通公司开发出迄 今 运 算 速 度 最 快 CPU.h t  t sky. c om/300/8858800. sh tml p:∥hz. ye [ 32]  基于排队论 的 单 核 处 理 器 和 多 核 处 理 器 性 能 的 简 单 量 化 评 测 .h t t i du. c om/v i ew/c e 1151 p:∥ wenku.ba d380eb6294dd886c 06. h tml [ 33] Va e r oL M, Rod e r o M L, Ca c e r e sJe ta l.Ab r e a ki n qu t h ec l oud s: T owa r dac l oudd e f i n i t i on. 犃犆犕 犛犐犌犆犗犕犕 2009, 39( 1): 50~55 犆狅犿狆狌 狋 犲 狉犆狅犿犿狌狀 犻 犮 犪 狋 犻 狅 狀犚犲 狏 犻 犲狑 , [ 34]  我国高 性 能 计 算 产 业,硬 件 巨 人,软 件 矮 子 . h t t p:∥ /b h i. ba i du. c om/dad i t e l l og/ i t em/

(本文编辑:张亚中)


gaoxingnengjisuand  

gaoxingnengjisuand

Read more
Read more
Similar to
Popular now
Just for you