赛灵思中国通讯第42期-赛灵思推出采用堆叠硅片互联技术的世界最大容量 FPGA

Page 1

赛灵思 第 四 十 二 期

2

0

1

1 年

赛灵思推出采用堆叠 硅片互联技术的世界 最大容量 FPGA

中 国 通 讯 Xilinx N ews I S S U E

42

WINTER

2 0 1 1

新应用领域的出色表现 采用 Spartan-6 FPGA 加速纹理映射

手把手课堂:FPGA 101 使用时钟周期约束的优势

FAE 讲堂 优化 FPGA 功耗:立竿见影

号外!号外! 赛灵思工具和 IP 更新

资讯脉搏 技术长廊

赛灵思 FPGA 引导机器人 辅助外科手术系统

请即浏览赛灵思中国通讯 网络版的全部精彩内容 www.xilinx.com/cn/xcell42


简洁易用的套件展示 Xilinx Spartan-6 器件的多功能性 低价位的Spartan-6 LX9 MicroBoard 对于那些专 注于Microblaze嵌入式应用和Spartan-6 器件的 工程师来说是个很好的解决方案。这个套件提供 了几个预建好的Microblaze嵌入式系统,客户可 以象使用其他标准微处理器那样开始软件开发工

Xilinx Spartan-6 FPGA LX9 MicroBoard 主要特性: • Avnet Spartan-6 FPGA LX9 MicroBoard • ISE WebPACK 软件和指定器件锁定的SDK 和ChipScope 软件许可证 • Micro-USB 和USB 连接电缆

作。附带的SDK 软件开发包提供了一种类似于 Eclipse 的开发环境用来编写和调试代码。有经

特惠价: ¥538 ,含税 送FPGA培训一天

验的FPGA工程师会发现MicroBoard 是一个很好 的开发样机和测试的工具,并且附带的外设和扩 展接口使这个套件可以应用在更广泛的领域。

如需购买此套件, 请联络以下安富利科汇办事处或访问: http://mall.eetrend.com/ 安富利科汇中国办事处: 北京 (86 10) 8206 2488 成都 (86 28) 8652 8262 重庆 (86 23) 6879 7512 福州 (86 591) 8771 0115 广州 (86 20) 2808 7388

杭州 (86 571) 8580 0667 南京 (86 25) 8483 8137 青岛 (86 532)8097 0716 上海 (86 21) 3367 8387 沈阳 (86 24) 8290 2597

深圳 (86 755) 8378 1886 苏州 (86 512) 6522 2535 武汉 (86 27) 8732 2806 厦门 (86 592) 516 3621 西安 (86 29) 8831 0515 香港 (852) 2176 5388

©Avnet, Inc. 2011. All rights reserved. AVNET is a registered trademark of Avnet, Inc.



封面专题

封面专题

赛灵思推出采用堆叠硅片互联 技术的世界最大容量 FPGA 作者:Mike Santarini Xcell 杂志发行人 赛灵思公司 mike.santarini@xilinx.com

4

赛灵思中国通讯

42 期


封面专题

集成了6.8亿个晶体管,200万逻辑单元,采用2.5D IC架 构设计的Virtex-7 2000T 2011年10月26日正式交付客户。

灵思现已向客户推出世界最

大容量的 FPGA:Virtex ® -7 2000T。这款包含 68 亿个

晶体管的FPGA具有 1,954,560 个逻辑 单元,容量相当于市场同类最大28nm FPGA 的两倍。这是赛灵思采用台积电 (TSMC) 28nm HPL工艺推出的第三款 FPGA,更重要的是,这也是世界第一个 采用堆叠硅片互联 (SSI) 技术(该技术是 赛灵思致力于实现3D IC 的方法)的商用 FPGA(参见 《赛灵思中国通讯》第 39 期的封面报道)。 赛灵思可编程平台开发全球高级 副总裁 Victor Peng 指出:“Virtex-7 2000T FPGA 是赛灵思创新和业界合作 史上的一个重大里程碑。如果没有堆叠 硅片互联 (SSI) 技术,至少要等到下一代 工艺技术,才有可能在单个FPGA中实现 如此大的晶体管容量。就通常新一代产 品的推出而言,SSI 至少提前一年将我 们的最大型 28nm 器件交付给了客户, 这对 ASIC 和 ASSP 仿真和原型而言尤 其重要。” 传统上, FPGA 厂商习惯于采用最 新芯片工艺技术来实现他们的新架构, 充分发挥摩尔定律的作用,这样晶体管 的数量每 22 个月就能随最新芯片工艺技 术的推出而翻一番。过去 20 年,FPGA 厂商一直遵循摩尔定律的发展,不断推 出新的 FPGA,实现器件容量的倍增。 然 而 , 针 对 Vi r t e x - 7 2 0 0 0 T 和 Virtex-7 系列的几个其他产品,赛灵思

2011年 冬季刊

5


封面专题

打造了 SSI 技术。该技术在无源硅中 介层上并排连接着几个硅切片(有源切 片),该切片再由穿过该中介层的金属 连接,与印制电路板上不同 IC 通过金 属互联通信的方式类似。通过这种技 术,赛灵思让器件的发展步伐超过了摩 尔定律的速度。Virtex-7 2000T FPGA 的容量是市场同类最大28nm 器件的 两倍,而且比赛灵思最大型的 Virtex-6 FPGA 大 2.5 倍。赛灵思Virtex-7 FPGA 产品线经理 Panch Chandrasekaran 指出,该架构的真正优势在于,虽然 2000T由 4 个切片组成,但它仍保持着 传统 FPGA 的使用模式,设计人员可通

图1 赛灵思Virtex-7 2000T的 推出是FPGA面向3D IC迈 出的重大一步。图中从上 往下依次表示的是封装表 面,28nm FPGA硅片,硅 中介层和封装基板

过赛灵思工具流程和方法将该器件作为 一款极大型 FPGA 进行编程。 除具有 1,954,560 个逻辑单元外, Virtex-7 2000T 还包括含有 305,400 个 CLB 切片的可配置逻辑块 (CLB) , 分布式 RAM 容量高达 21,550 Kb。

Virtex-7 2000T 的推出, 标志着

门,为苦心寻找最大容量器件的客户带

个 BRAM、24 个时钟管理模块、4 个

赛灵思取得了一个重大成就,也标志着

来了新的设计能力。他说:“对那些希

PCIe® 模块、36 个 GTX 收发器(每个

赛灵思向半导体产业的 3D IC时代迈进

望加速产品开发,为软件开发人员提供

性能达12.5 Gbps)、24 个 I/O bank 和

了一大步。Chandrasekaran 指出,该

芯片仿真功能,或者期望将多个芯片整

共 1,200 个用户 I/O。

产品的真正价值在于开启了用户创新之

合到单个器件中,以及那些发现其设计

它共有 2,160 个 DSP slice、46,512

图2 Virtex-7 2000T的性能足以满足高达2000万ASIC逻辑门的复杂设计,同时又可大幅节省NRE费用。图2展示的便是一个使用 Virtex-7 2000T的设计实例。

Trace/Debug

ऩッֵো

ZBT SRAM

Ꮒߚֵো

Soft JTAG

Core

CPU2

XC5VLX330

XC5VLX330

User FPGA Configuration

CPU1 XC5VLX330

IIC/PMBUS 2x Ethernet 2x UART GPIO

6

I/O

User

Memory

XC5VLX330T

XC6VLX240T

XC6VLX240T

FMC1 FMC2 (HPC) (LPC)

FMC1 x8 PCIe (HPC) Cable

赛灵思中国通讯

42 期

DDR2 SODIMM DDR3 SODIMM


封面专题

不能采用 ASIC 的客户而言,他们都将

仿真系统,并最终使得这些客户大大缩

的工作站或 PC 上,在仿真器上运行的

从这一了不起的技术中大受其益。通过

短开发时间,并更快向市场推出更多新

同时进行设计测试。

采用SSI 技术,赛灵思现在就把下一代

的、更具创新性的产品。”

工艺才能提供的超大容量FPGA,交到

模拟仿真厂商也提供了低成本的选

大多数商用模拟仿真系统包括两个

择,有时称作仿真器的“复制品”或者

设计人员手中。”

或两个以上电路板,以及数个 FPGA,

统称为“原型系统”。这些低成本选择

ASIC 和 IP 仿真及原型

这具体取决于客户需要模拟仿真的

只能仿真 ASIC 功能。公司为软件团队

ASIC、IP甚至系统的大小。同时,模

提供这些系统,旨在帮助他们快速开发

拟仿真系统的客户可用其加速验证,确

日后将在设计中运行的驱动程序、固件

保设计功能正常,而且能为软件团队提

和应用。

Gary Smith EDA 的设计工具分析 师兼 ASIC 方法专家 Gary Smith 指出, 目前高端 ASIC 或 ASSP 设计平均包含 4.2 亿个门。“我听说过的最大产品包 含 11 亿个门。”由于门的数量很多, 不管是商用仿真系统,还是自己动手设 计的 ASIC 原型设计电路板,90% 以上 的 ASIC 设计团队都要采用某种形式的 硬件辅助验证系统。 传统上,创建商用模拟仿真系 统的公司或自己进行原型设计的团队 一直是厂商推出最大型 FPGA 产品 的首批使用客户。商用仿真系统供应 商希望尽可能提高 FPGA 的容量。 Chandrasekaran 指出:“尤其是这 个 市 场 的 设 计 , 将 因 为 拥 有 Vi r t e x - 7 2000T 超越摩尔定律的容量而获益匪 浅。Virtex-7 2000T可以让他们现在即 可向他们的客户推出拥有下一代容量的

供设计的硬件版本,帮助软件团队尽快

Chandrasekaran指出,更大型

启动开发工作,等代工厂推出实体芯片

的 FPGA 能让模拟仿真厂商推出更高

ASIC 后就能基本完成软件设计。这当

容量的模拟仿真系统,也能用较少的

然有助于加快产品上市进程。

FPGA构建中低容量的系统,从而提

就商用模拟仿真系统的典型使用

升在该系统上运行的设计的整体时钟

模式而言,用户首先用传统的 EDA 验

速度的同时,降低功耗和材料清单成

证软件来设计 ASIC 或 IP并验证其功

本。Chandrasekaran 说:“Virtex-7

能,做好这步工作之后,就能在商用仿

2000T 容量非常大,厂商甚至能够在

真器中实现寄存器传输级 (RTL) 版本

单个 FPGA 芯片基础上构建仿真器。

设计,以便进一步进行设计验证。每

由于设计运行的芯片数量减少,甚至只

个仿真器厂商通常提供自己的软件,

需要一个芯片,因此系统整体性能也能

配合赛灵思的设计软件工作,以综合

变得更快。”

RTL,并将 ASIC 设计分区到不同的

如果设计团队买不起市场上现成

模块,让这些模块在仿真器中的各个

的价值可能超过百万美元的昂贵模拟仿

FPGA 上实现优化分配。模拟仿真厂商

真系统,Virtex-7 2000T也是不错的选

的软件连接到运行不同 EDA 验证工具

择。Chandrasekaran 指出:“许多设

Core CPU1 CPU2 I/O Memory User

2011年 冬季刊

7


封面专题

最后但同样重要的是,对于那些无法求证在 28nm 工艺节点开发 ASIC 或 ASSP 的成本和风险是否值当的、且越来越多不断增长的设计团队 来说, Virtex-7 2000T同样很有吸引力。 计团队都构建自己的定制开发板来进

Chandrasekaran 指出:“由于容量比

万到 2,000 万门级的 ASIC,避免

行 ASIC或整个系统功能的原型和/或模

竞争性 FPGA 高出一倍还多,Virtex-7

了 ASIC相关的NRE 成本问题。

拟仿真,快速启动软件开发。即便用

2000T 能让客户进一步提高集成度,

Chandrasekaran 表示:“设计人员可

仿真系统来开发自己 IC 的设计人员也

相对于多芯片解决方案而言可将功耗降

以集中精力进行设计, 而无需再担心

能为软件团队提供自己的不同版本的

低四倍左右。此外,由于打破了 I/O 瓶

什么小错误会导致灾难性的返工修改。

FPGA。”

颈,他们也能提升系统性能,同时因为

此外,Virtex-7 2000T 具有可重编程

Chandrasekaran 表示,该器件对

取消不必要的设计分区而降低了系统的

性,如果设计人员犯了错误,对器件重

IP 厂商也有吸引力。IP 厂商不仅能用

复杂性。架构师们也可以节省下大量的

新编程就可以了。”

FPGA 来开发新的IP模块,还能用其向

板级空间以便添加其他功能,或者能够

潜在客户演示 IP核的功能。

缩小产品的尺寸。” 与其它 7 系列器件一样,赛灵思的

系统架构整合与节能

Virtex-7 2000T 也采用台积电专门针对

设计方法保持不变 虽然 Virtex-7 2000T 是一种超大 容量器件,但对该器件的编程不需要在 工作方法上做很大的调整。

除了有利于 ASIC 和 IP 模拟仿真

28nm FPGA 的高性能低功耗 (HPL) 工

及原型外,新型 Virtex-7 2000T 对希望

艺技术(详见赛灵思中国通讯第37期的

降低系统功耗、增强性能和系统功能的

封面报道)制造而成。Chandrasekaran

计的需求,赛灵思一直在优化设计

系统架构师也极富吸引力。

表示,由于赛灵思 Virtex-7 2000T 采

工具。现在客户能够针对功耗和性

Chandrasekaran 表示:“过 去几年来,充分考虑到超大容量设

用 HPL 工艺制造,因此晶体管的漏电

能有效地进行分区、布局规划和优

使用多个 FPGA 的最终产品非常多。有

流低于采用 28nm 高性能(HP)工艺

化。”Chandrasekaran 解释说,大多

了 Virtex-7 2000T,就能在单个 FPGA

技术实现的同类竞争器件。这就意味着

上集成数个 FPGA 的功能。系统集成提

Virtex-7 2000T 的功耗, 仅相当于容量

高了性能,因为所有这些功能都集中在

仅为其一半的竞争器件的水平。

Chandrasekaran 指出:“市场上

了一个芯片上,系统集成后,避免了开 发板上不同 IC 间的 I/O 接口,从而降低

ASIC的替代产品

数并非所有大型 FPGA 通常都需要设 计人员执行一定的分区工作,将时序关 键功能尽可能贴近彼此。设计团队如果 在 Virtex-7 2000T 中布置大型设计, 赛灵思工具可帮助他们进行布局规划, 并进行设计分区,从而实现最佳时序和

了功耗。I/O 接口数量越多,功耗就越

随着芯片工艺技术的不断发展,设

大,二者成正比关系。因此,设计性能

计和制造成本也在不断飙升。28nm的

越高、系统中 IC 数量越多,功耗也就

ASIC 或 ASSP 的NRE成本超过 5,000

Virtex-7 2000T。Chandrasekaran 表

越大。”

万美元,而且一旦修改 ASIC 则可能把

示:“用户现在就能立刻用 Virtex-7

成本再增加近一半。设计过程中一旦因

2000T进行设计。”未来一年中,赛灵

为疏忽犯了错,就会严重影响产品赢

思计划发布其它单芯片 Virtex-7 FPGA

利,多次犯错就可能导致项目取消,错

以及SSI 配置。

此外,系统功能在多个 IC 间的 分区也是一项复杂工作,可能会延长 设计时间,增加测试成本。多个器件 整合到系统中能减小分区压力,同时 还能降低验证和测试相关的成本。

8

赛灵思中国通讯

42 期

过市场机遇,甚至导致公司的倒闭。 Vi r t e x - 7 2 0 0 0 T 可 取 代 1 , 0 0 0

性能。 最新版赛灵思设计工具可支持

如需了解更多 Virtex-7 2000T 的 信息及其使用情况,敬请访问:www.

xilinx.com/cn/7 。


新应用领域的出色表现 新应用领域的出色表现

采用 Spartan-6 FPGA 加速纹理映射 这种要求严苛的图形流程曾经是 定制 ASIC 内核的应用,而如今 却成为低成本 FPGA 的天下。 作者:Sebastien Bourdeauducq 创始人 Milkymist Sebastien@milkymist.org

为一种以 FPGA 为构建基础,

而非采用专业多媒体片上系统 的手持设备,Milkymist One

无需计算机的辅助即能为聚会和音乐会 提供视频特效。在 Milkymist One 中, Spartan®-6 FPGA 基本可实现系统的整 个数字化部分。另外,FPGA 的强大功 能还足以处理纹理映射,这种高端图形 功能代表了我们的系统必须执行的最密 集的数据处理任务。在传统上,纹理映 射属于 ASIC 图形处理单元的领地,而在 更早以前则是高端工作站的属地。 无论是音乐节目主持人、综艺节目 主持人还是其他活动的组织者都能在音 乐会、节日以及俱乐部中使用 Milymist One(图 1)营造出具有极强娱乐性的

2011年 冬季刊

9


新应用领域的出色表现

视频效果。将摄像头与视频投影仪连接

就本应用而言,包含 CPU 和图形加速

在一起,按下电源按钮,数秒钟后拍摄

功能的多媒体片上系统是许多工程师的

我们的应用软件能够从互联网下载

的一切就变成栩栩如生、似幻似真的光

首选。然后,他们会选用一些外部芯片

FPGA 比特流更新,并将它们写入闪存

色效果。将摄像头聚焦于舞台上的舞

来处理所有的接口。通过充分发挥赛灵

中。拜 Spartan-6 FPGA 所具有的多重载

者,指向参加聚会的人群乃至玩具或其

思器件的功能和灵活性,我们能够在单 个 Spartan-6 FPGA 中实现我们系统几

入 (MultiBoot) 特性所赐,如果某个失效

他对象,让观众为这种特效营造的效果

的互联网更新会导致错误的比特流,则

如痴如醉。如果没有摄像系统的加入,

乎全部的数字部分,从而既可以降低成

系统能够失效保护到我们工厂编程的救

Milymist One 可以单纯地根据环境声响

本、精减芯片数量,又能够显著提升灵

援“黄金”比特流上。

生成效果,特别适用于希望能以交钥匙

活性。

解决方案实现简单视觉效果的乐队、俱 乐部和聚会组织者。 该器件可支持来自多个源头的输 入:MIDI 键盘、USB 计算机键盘、 DMX 桌面以及OpenSoundControl (OSC) 客户端。用户甚至能够使用智 能手机与视觉效果无线地互动,只需要

Milymist One 的硬件 我们 Milkymist One 系统电路板的 核心是一块赛灵思 XC6SLX45(参见图 2)。该 FPGA 包含我们系统的所有数字 逻辑,如软核 CPU、存储器控制器、硬 件加速器以及 I/O 外设等。

功能的闪存优化型文件系统。

与 FP GA 直接 连接的一 对 DDR SDRAM 芯片可提供 128MB 的系统存储 器。为有助于满足该接口严格的时序要 求,Spartan-6 FPGA 可为其提供双数据 速率 I/O 寄存器、运行时间可编程延迟锁 相环(带 DCM)以及 I/O 延迟元件。 我们的器件可支持两个全速的 USB

通过使用 Spartan-6 的“主 BPI”

主机端口。FPGA 在此处再一次负责提

即可。另一个选择是使用广受青睐的

模式,FPGA 可从 NOR 闪存芯片中读取

供大部分硬件。Spartan-6 可直接驱动

Arduino 电路板,利用其大量的传感器

配置数据。该闪存芯片随后使用“现场

模拟收发器芯片,以便轻松将 LVCMOS

执行 (execute-in-place)”方案运行引导

3.3V 电平转换为能够完美符合 USB 标

载入程序,即一边从 NOR 闪存获取处理

准的信号。串行接口引擎和主控制器逻

将一个 WiFi 路由器连接至以太网端口

界面来通过 MIDI 对 Milymist One 进行 控制。 我们必须克服设计这种器件的重大 挑战。我们的处理算法要求将相当数量 的计算功能和存储器带宽用于处理高帧 率和低时延的视频。另外,我们的器件 还必须与多种 I/O 协议实现接口相连。

器指令,一边对其进行执行。引导载入

辑采用 FPGA 架构实现。在原型设计阶

程序随后激活 SDRAM,并加载应用软

段,我们甚至能够仅使用电阻和 USB 连

件。该闪存芯片还负责存储这类应用软

接器与赛灵思 ML401 开发板的 I/O 扩展

件,并保留使用 YAFFS2 的用户数据。

连接器相连,就能成功地将 USB 器件直

YAFFS2 是一种可提供损耗均衡和日志

接与 FPGA 相连。 在视频输出方面,FPGA 可驱动一 个三通道数模转换器,以生成 VGA 端 口的 RGB 分量。Spartan-6 中包含的 DCM_CLKGEN 原语具有高度的灵活 性,能够针对像素时钟将多种不同频率 进行综合,从而使我们的器件能够支持 大量的视频模式。 此外,我们当前还在研究如何对由 VGA 端口输出的复合视频信号 (CVBS) 进行综合。市面上已经有一些计算机图 形卡,能够使用低成本的无源适配器将 CVBC 器件与其 VGA 输出相连接。不 过,在一套采用 FPGA 的系统上生成原 色分量也是完全可行的。我们仅需要使用

图 1 由 FPGA 控制的手持式 Milkymist One的数字系统功能。

数字信号处理技术实现 CVBS 信号发生 器,然后将生成的数据送给 VGA DAC 即 可。这样我们的器件就能轻松地与音乐以

10

赛灵思中国通讯

42 期


新应用领域的出色表现

Spartan-6 中包含的 DCM_CLKGEN 原语具有高度的灵活性,能针对像素 时钟将多种不同频率进行综合,使我们的器件能支持大量的视频模式。 及现场表演场地仍然大量使用的传统视 频投影仪和视频混合控制台相连接。

PAL、SECAM 和 NTSC 制式视频输入。

用计算机图形运算,通常用于在屏幕上

大多数这些外设都能从 FPGA 获

绘制带纹理的 3D 多边形。此外,其还

我们的设计可将 Spartan-6 与一对

取时钟,而 FPGA 则使用其数字时钟

能扭曲图像(如图 3 所示),而且我们

RS485 收发器相连接,为 DMX512 提

管理器 (DCM) 从统一的 50MHz 时钟

也常将其用于此目的。

供支持。该协议可用于进行舞台上的灯

源将必要的频率进行综合。我们的电

通用的图形处理单元在三角形上

光控制,能够让器件将周边的灯光与可

路板上只有两个额外的晶振,而且为进

执行纹理映射,并且将更加复杂的多

视效果进行同步。在此,整个DMX512

一步减少成本,我们正在考虑在将来的

边形分解为一系列的三角形。输入到

信号发送系统也是采用 FPGA 来实现

PCB 版本中使用更多 FPGA 生成的时

算法中的是待填充的三角形的三个顶点

的,而外部组件基本都是模拟组件。

钟将其更换。

的 2D 位置(也可能是原始 3D 坐标的

此外,为了能与常用的控制器和 传感器进行交互,我们的系统还支持 MIDI。我们的设计实现与 DMX512 类

何谓纹理映射? 在所有 Milkymist 器件的 FPGA 必

投影),以及这三个顶点的 2D 纹理坐 标。之后,该算法再逐像素绘制有纹理 的三角形,方法是为每个像素线性地内 插纹理坐标,然后复制这些坐标处的纹 理像素(也称为纹理元素)。 通过简单地改变各顶点的位置或者 每个顶点的纹理坐标的位置,纹理映射 能够实现缩放、旋转或者比例尺变化等 图像处理运算。但常见的问题是线性内 插的结果并非整数,这就意味着应该在 四个相邻的像素(参见图 4)中对纹理 进行采样。在这种情况下,为了实现更 理想的渲染,应读取四个像素,并将其 色彩值进行平均(根据比例取不同的权 重),这个流程被称为双线性滤波。我 们的应用需要双线性滤波来实现理想的 可视结果。 纹理映射,是一个计算强度大以及 所需存储器非常密集的进程,这从性能 的角度即决定了软件实现的不可行,在 需要双线性滤波的时候尤为如此。

图 2 Spartan-6 FPGA 位于 Milkymist One 印刷电路板的中心位置

FPGA 实现 预计用于读取帧缓冲器的存储器延 迟将成为性能制约因素。我们没有采用

似,只有模拟外部组件。我们还支持 以太网(仅使用一颗 PHY 芯片)、音 频(通过通用的 AC97 编解码器)以及

须执行的数据处理任务中,纹理映射是 密集程度最高的。纹理映射是 OpenGL 及 DirectX 等已加速 3D API 的一种通

高级预获取技术等复杂且资源密集的技 术来降低存储延迟,而是简单地采用直 接映射的像素元素高速缓存,不仅简单 而且还能快速命中。另外在设计纹理映

2011年 冬季刊

11


新应用领域的出色表现

中获取低带宽的顶点信息,然后使用 某种 Bresenham 算法的变体计算内 插纹理坐标与目标坐标。我们通过采 用行为 Verilog HDL 来实现这些级, 随后使用免费的 XST 综合器(ISE ® WebPACK TM设计套件的组成部分)进 行处理以生成经优化的网表。地址生 成器能够充分利用 Spartan-6 FPGA 的 DSP48A1 Slice 提供的硬件乘法器,高 效率地计算与内插坐标对应的纹理帧缓 冲器中的存储器地址。XST 综合器能够 根据 HDL 源代码中“*”运算符自动推 导硬件乘法器,从而使其使用方法既简 单又方便。 若要从存储器中获取纹理元素数 据,则会变得更加复杂。在每个时钟周 图 3 纹理映射是加速 3D API 的一种常见计算机图形运算,通常用于绘制有纹理的 3D 多边 形。其能够使图像发生扭曲,如本图所示。

期,我们都需要从高速缓存中获取四个 不同的像素。准备四个不同的高速缓存 没有必要,因为双线性滤波器的不同通

射单元其余部分的时候,还需要注意让

期。采用 80MHz 的系统时钟,则此

存储器读取延迟成为唯一的制约因素。

类高速缓存的每秒吞吐能力为 44M 象

采用直接映射像素元素高速缓存

素,足以满足我们的应用所需。

道通常使用来自同一高速缓存线路的数 据。因此我们需要一个四端口 SRAM, 但这看似在 FPGA 中比较困难。 幸运的是,Spartan-6 FPGA 中真

可实现高达 90% 的命中率,以每个周

为确保存储器存取时间是唯一的制

期命中一次,每 9 个周期失的一次计

约因素,我们在设计系统其余部分时,

算,存储器的平均存取时间为 1.8 个周

使之能够支持每个时钟周期大约一个输

SRAM 复制数据,以适当的代价实现了

出像素的处理能力。与之相对应,算法

四端口 SRAM。在正常运行状态下(命

的实现以占用空间为主(硬件组件很少 或者根本没有基于时间的资源共享),

1, 2, 3, 4:ⳳᅲⱘ㒍⧚‫ڣ‬㋴Ў♄Ḛ䚼ߚˈ 但不要求复制资源密集的大型硬件单 䳔㽕ⱘ㒍⧚‫ڣ‬㋴ϡ೼ᭈ᭄തᷛϞDŽ ᳔㒜‫ڣ‬㋴ⱘ㡆ᔽϢ݊᠔㽚Ⲫ↣Ͼⳳᅲ 元。以空间为主的实现所用面积比时间 㒍⧚‫ڣ‬㋴ⱘ䴶⿃៤↨՟DŽ

共享的大,但更简单明了,需要的多路 复用器数量越少,也能够更好地避免走 线拥塞,从而更加简便地实现 FPGA 的 时序收敛。

正的双端口 SRAM 可提供理想的解决 方案。我们通过使用两个原始的双端口

中),每个端口为一个通道服务。在失 的后重新填充高速缓存的时候,读取被 禁用,而且可将两个端口(每个原始双 端口 SRAM 各一个)用于将数据送给 存储器。 图 6 显示了纹理元素高速缓存的 简化方框图。在每个时钟周期中,纹理 元素高速缓存均以流水线的方式处理来

为此,我们为纹理映射算法选择 1, 2, 3, 4:ⳳᅲⱘ㒍⧚‫ڣ‬㋴Ў♄Ḛ䚼ߚˈ 䳔㽕ⱘ㒍⧚‫ڣ‬㋴ϡ೼ᭈ᭄തᷛϞDŽ ᳔㒜‫ڣ‬㋴ⱘ㡆ᔽϢ݊᠔㽚Ⲫ↣Ͼⳳᅲ 㒍⧚‫ڣ‬㋴ⱘ䴶⿃៤↨՟DŽ

了深度流水线实现。图 5 是这种方案 的方框图。 流水线的头几级用于从存储器

图 4 在纹理映射中,线性互插的结果通常不是整数。为此,需要对纹理的四个相邻像素采 样并求得色彩平均值,该过程也称为双线性滤波。

自每个通道的存储器地址,如果这些存 储器地址命中高速缓存的话。如果“命 中”信号始终保持高电平,那么流水线 就会一直运行。 如果发生失的,“命中”信号会 转为低电平(流水线停顿),随即由优 先级编码器和多路复用器 (MUX) 选择

12

赛灵思中国通讯

42 期


新应用领域的出色表现

乊⚍㦋পᓩ᪢

Wishbone᥹ষ

㒉৥‫఼ᦦݙ‬

Slice 的性能,能够迅速计算出加权

配置以及多重引导功能。我们的完整设

和。最后,可使用写入缓冲器将结果存

计仅使用了 FPGA 资源的大约一半,为

储到基于 SDRAM 的系统存储器中。

将来的改良和特性预留了充裕的空间。

一旦与我们的软核片上系统相集 成后,我们的纹理映射单元就会仅使用

῾৥‫఼ᦦݙ‬

᥻ࠊ᥹ষ

CSR

ㅱԡ ᇕ㺙

ഄഔ⫳៤఼

‫ڣ‬㋴‫ܗ‬㋴催䗳㓧ᄬ

低成本Spartan-6 FPGA 的一小部分资

对于未来的功能改进而言,我们 的整个 FPGA 设计是属于开源的,而

填充速率以及每秒 3,700 万像素的平

且其许可和开发模式与 Linux 内核一

均填充速率。与纯软件相比,即便是与

样。欢迎用户根据自己的需要修改和对

使用运行在高性能(及高能耗)ASIC

FPGA 进行重新编程,并将我们的系统

CPU 的软件相比,性能也是一大飞跃,

作为通用开发平台使用,从而全面展示

能够充分满足我们应用的要求。

Spartan-6 系列的功能与灵活性。设计 人员能够使用免费的 ISE WebPACK 设

高度灵活的单芯片

计软件(同时提供 Linux 版和 Windows

采用高性能可重配置 FPGA,可在

图5

版)重新构建完整的比特流。

高度灵活的单芯片中将过去只有 ASIC 才能处理的繁重图形处理功能与非常特

‫ݭ‬㓧ᄬ

来说是非常了不起的。

源,却能提供每秒 7,000 万像素的峰值

FastMemoryLink

ঠ㒓ᗻⒸ⊶఼

这对成本像 XC6SLX45 这样低的芯片

FastMemoryLink

我们采用深度流水线实现纹理映射 算法,如方框图所示。

失的的地址之一(可以是一个,也可以

定的 I/O 接口结合在一起。

最后需要指出的是,我们器件的 总功耗不足 5W,从而不仅充分凸现了 以单芯片 FPGA 为核心的解决方案的

Milkymist 系统能够充分利用

又一优势所在,同时还进一步推翻了所

Spartan-6 FPGA 的众多特性:I/O 延迟

有 FPGA 系统都是高功耗系统的错误

组、DDR寄存器、大型真双端口 Block

认识。更多详情,敬请访问 http://www.

RAM、DSP Slice、灵活的 DCM_

milkymist.org。

CLKGEN 组件、能够从 NOR 闪存进行

是多个)。存储器总线主系统发出一个 存储器交易事务以从系统存储器中检索

䗮䘧 ഄഔ

数据,然后替换高速缓存线路的内容,

䗮䘧 ഄഔ ᷛㅒᄬ‫ټ‬ ಯッষSRAM

并对标签进行重写。该地址现在变成命 䗮䘧 ᆘᄬ఼

中高速缓存状态。如果没有其他地址未

䗮䘧 ᷛㅒᶹᡒ

䗮䘧 ᭄᥂ᶹᡒ

䗮䘧 ഄഔᆘᄬ఼

䗮䘧 ᷛㅒᶹᡒ

䗮䘧 ᭄᥂ᶹᡒ

命中高速缓存,纹理元素高速缓存就已 ᭄᥂ᄬ‫ ټ‬ ッষ SRAM

经成功地处理该四通道交易事务,而且 “命中”信号会再次转为高电平,以进 行到下一个周期的处理。否则,该流程 将重复进行,直到所有的地址都命中高 速缓存为止。 可以看到,在现代 FPGA 中,只要

໮䏃໡⫼఼

Ӭ‫ܜ‬㑻 㓪ⷕ఼

䞡฿‫㋏ܙ‬㒳

ੑЁẔ⌟

将用于存储的 Block RAM 的数量翻倍, 同时辅以合理数量的控制逻辑,就能够

FastMemoryLink Џ㋏㒳

实现理想的四端口高速缓存系统。 紧随纹理元素高速缓存之后,双

䗮䘧 ᭄᥂

䗮䘧 ᭄᥂

ੑЁ

线性滤波器将四个获取到的纹理元素的 结果混合在一起。在此,我们的设计再 次充分发挥了 Spartan-6 中 DSP48A1

图 6 以流水线方式进行的四通道纹理元素高速缓存运算。

2011年 冬季刊

13


手把手课堂:FPGA 101

手把手课堂:FPGA 101

使用时钟周期约束的优势 通过赛灵思 ISE 及工具行为方式深入了解 TS_clk 约束,在 FPGA 设计方案中获得高效率时序收敛。 作者:Sharad Sinha 高性能嵌入式系统博士生中心 南洋理工大学 sharad_sinha@pmail.ntu.edu.sg

14

赛灵思中国通讯

42 期


手把手课堂:FPGA 101

计人员可通过设置时序约束来满足芯片设计的具 体时序需求。物理综合工具可通过布局布线满足 这些时序约束。一个非常常见且重要的时序约束

条件与最大时钟频率密切相关,我们通常称其为周期约束。 在 Xilinx ® ISE ® 工具套件中,该约束在用户约束文件 (UCF) 中被称之为 TS_clk。赛灵思时序约束用户指南规定,周期 约束用于: 1)定义设计中的每个时钟; 2)覆盖每个时钟域中的所有同步路径; 3)交叉检查相关时钟域之间的路径; 4)定义时钟持续时间; 5)定义时钟占空比。 用户指南包含丰富的详细信息,并对周期约束功能提 供了良好的相关解释。不过我们应当深入了解 FPGA 综合 工具背后的奥秘,探索相关周期约束行为的一系列问题,并 掌握布局布线的算法如何工作。具体而言,我们将讨论解释 TS_clk 约束失效的方法,通过渐进约束工具来检查您是否 正在逐步改善结果,讨论为什么工具显示的结果存在差异。 最后我们还将了解这种时序约束相对于非约束设计的优劣。

如何解释 TS_CLK 约束失效 如果设计不能满足时钟周期约束要求,就意味着它不 能在相应的时钟频率下运行。此后您可进行流水线设计,在 慢速路径下放松时序要求。流水线技术可能足以让设计满足 约束条件。还有一种改进时序的办法就是减少两个寄存器 之间的逻辑级数,事实上您需要简化关键路径中的逻辑设 计。这两种方法都适用于设计层面,在该层面上设计人员 可对 RTL 代码进行必要的调整。如果您的设计在 RTL 调 整后仍无法满足时序要求,下一步就要启用赛灵思 ISE 开 关:register_balancing(专门用于寄存器重新定时)与 register_duplication(可复制寄存器,降低特定寄存器下的 高扇出)。 改进时序的另一种途径就是将引脚正确地分配给 I/O 信 号。良好的设计实践是将相邻的引脚分配给相邻的信号。例 如,一个 I/O 总线上的所有信号应分配给一个 bank 上的相 邻引脚。分配大量引脚时应使用相邻 bank。 以上问题非常重要,它们将作为布局布线工具的约束条

2011年 冬季刊

15


手把手课堂:FPGA 101

件。该工具通常会尽量使相关逻辑在一起,如果相关 I/O 分 配给相邻引脚,这就比较容易,因为该技术很有可能将减 少布线延迟,然后工具也不会分散器件上的逻辑。分散逻 辑会加大布线延迟。 一般而言,在 FPGA 必须位于印刷电路板上时,在分 配引脚时就要考虑更多相关电路板的问题。由于 FPGA 会 与电路板上其它芯片连接,因而相邻引脚分配法不见得总 能适用。因此,FPGA 设计人员最好在设计阶段早期就与 电路板设计人员沟通,以减少引脚分配冲突。 还有一种改进时序的方法是使用更高速级别的器件。 不过,这会影响产品价格,因此这不是轻易可以选择的。 我们不光要考虑器件本身成本的提高,还要考虑更高速器 件会对电路板设计产生影响,进而也很容易提升电路板设 计成本。

渐进约束工具能否实现更好的结果? 有时我们希望知道特定设计方案可运行的最高频率。 为了弄明白这一点,我们渐进性地进行设计方案约束。比 如,先将时钟周期约束设为 8 纳秒(对应于 125 MHz 的时 钟频率)。如果工具在此约束条件下成功完成设计的放置

该报告清晰显示时钟周期为 1.489 纳秒,低于 1.5 纳 秒。但设计方案的目标应用是速度级为 11 的 Virtex ® -4 器 件,其最大频率为 450.05 MHz。因此就存在着时序错误。

与路由,它可能会报告最低时钟周期为 7.68 纳秒等信息。

需要强调的是,我们在设置约束时还必须了解器件的开关

此后我们可将时钟周期约束在 7.68 纳秒并再次运行 ISE。

特性。

这时工具可能会报出最低时钟周期为 7.56 纳秒。然而, 我们将该设计再次约束在 7.56 纳秒时,工具可能会报告

工具显示的结果为什么有差异?

7.74 纳秒最低时钟周期的时序错误。这就是说,我们要实

工具显示的结果有差异,是因为它采用的是启发式

现 7.56 纳秒,就必须将设计约束在 7.68 纳秒。所以设计

算法。设计人员使用这些算法来解决精确算法由于时间

方案的渐进约束在改进时序方面存在局限性。过了一定程

空间复杂性所致的不适应性问题或者对实施开发存在极 端困难的问题。启发式算法通常使用所谓的成本函数,

度的约束,结果可能就会恶化。

将一些器件信息以及其它经验所得的常量纳入考虑,从 如果设计规模不大,周期约束又很严格(很短的周 期),工具可能就会报告一个比后布局布线 (PPR) 静态 时序报告中的周期约束低的时钟值。但是它仍会显示一 个时序错误的分值(其在无时序错误时为零),如该页所

而可选择解决方案。不过这些算法不能确保该解决方案 就是 最好 或最佳 的。 启发式算法通常先为逻辑布局提供初始随机种子值, 然后布局进程根据成本函数分析围绕种子位置的发展,之

示,在设计(面向 XC4VFX140-11FF1517)中周期约束

后才能进行布线。由于种子值会随约束条件每次改变后工

设为 1.5 纳秒、占空比为 50%,这与实际静态时序报告

具的每次调用而改变,因此超过某个点之后结果会恶化。

有误差:

工具不参考此前的行为和上次运行报告的结果,难以进一 步提高其工作能力。要根据此前的布局布线策略设计放置 路由算法并将当前及以前结果进行比较,也极其困难。

16

赛灵思中国通讯

42 期


手把手课堂:FPGA 101

算法(参见赛灵思中国通讯第 40 期)。我们部署的 8x8

周期约束条件(纳秒)

PPR 报告值(纳秒)

无约束条件

2.607

2.607

2.863

此设计方案最后就只有一个减法器。我们没有使用任何调

2.863

2.795

节寄存器,而且所有内部寄存器都初始化为零。我们在该

2.795

2.966

实验中也没有进行引脚分配。

2.966

2.762

表1

SAD 采用 8 个图像像素(每个 16 位)和 8 个参考像素 (每个 16 位),使用外部选择信号选定两个像素减去,因

从表 1 中可以看出,我们在未设置约束条件时能实 现 2.607 纳秒的最佳最小时钟周期。我们将周期约束设为 2.607 纳秒,工具报告可实现的最佳时钟周期为 2.863 纳

周期约束条件对实际时序的影响

秒,而将 2.863 纳秒设为周期约束条件,所得到的可实现

赛灵思 ISE 中的 SmartGuide TM 技术可采用此前运行

最佳时钟周期则为 2.795 纳秒。这是因为工具一旦得到接

的结果来指导新的实施方案,不过只有实施方案两次迭代

近值,就不会再继续尽力满足约束条件了。将 2.795 纳秒

之间逻辑发生一定变化之后 SmartGuide 才能起作用。如

设置为新的约束条件不会将可实现最佳时钟周期降至 2.607

果逻辑不变,只是渐进约束相同设计方案,该技术就不适

纳秒,而会将其升至 2.966 纳秒。在此情况下,工具没有

用。设计人员往往会被这种差别弄糊涂。

满足约束条件要求。

在这方面,赛灵思 ISE 中的 SmartXplorer 选项只是 一种通过不同时序约束条件加速调查时序进程的手段。工

结果中的这种随机性源于布局布线算法的启发性。这 同时也说明,设计人员在设置和再设置周期约束条件满足

具在 Linux 网络或多处理器 Linux/Windows 等不同设备上

时序收敛要求时需要花大量的时间。

并行执行时,该策略可帮助设计人员使用不同的约束条件

伪随机解决方案

调查相同的设计方案。

周期约束是 FPGA 设计中最重要的约束之一,对时序

因此,即便赛灵思 ISE 提供这些选项(其它

收敛至关重要。因此,了解其行为方式以及如何解释其结

FPGA 设计套件也提供类似选项),工具都不能记住上

果也非常重要。渐进约束时钟周期不一定就能改进结果。

次运行的情况,难以在约束条件渐进缩进的下次运行中

每次重大软件的发布,厂商通常都要改进 FPGA 设计工具

比较并改进结果。如果出现这种情况,过了某一特定的

中部署的布局布线算法。因此,不同版本的时序结果可能

点,工具就只会报告一个最低值,而不会报告约束渐进

有所差别。

的不同值。由于我们难以根据此前的布局布线信息反馈

与布局布线具有高度确定性的 ASIC 不同,FPGA 布

设计算法、改进相同设计方案的时序,因此我们应当知

局布线算法具有启发式特性。这很容易理解,因为 FPGA

道 和 理 解工 具 的局限 性 。

的性质所决定,随机逻辑必须映射到具有固定组件及路由

时序约束通常都比非约束设计好吗? 传统上认为,约束性设计的时序通常比非约束性设计 好。一般而言这是对的。不过这也并非绝对。有时在非约 束性设计中,工具反而能够以尽可能最好的方法实现设计 方案的最佳布局布线。如表 1 所示,在非约束实施方案 中,可实现的时钟频率是最高的。出现这种差异的原因还 是布局布线算法工作的方法。 我们在南洋理工大学高性能嵌入式系统中心的团 队采用赛灵思 ISE version 12.2 M.63C 在 Virtex-4 XC4VFX140-11FF1517 FPGA 上实施绝对差值和 (SAD)

资源的固定硬件架构上。 FPGA 布局布线是一种 NP 完整性问题 — 其中没有找 到解决方案的高效率方法。对这种问题而言,没有已知的 多项式时间算法能提供准确的或最佳的解决方案。因此, 解决这种问题就要根据伪随机过程采用启发式或者某些接 近或相似的方法。 此外,这些算法的运行时间可随输入量的增长快速变 化,就像我们很多人经历的大型 FPGA 设计一样。这是 NP 完整性问题的基本方面,因此结果的质量很大程度上取 决于所用启发式或所部署近似方法的类型。

2011年 冬季刊

17


FAE 讲堂

FAE 讲堂

优化 FPGA 功耗:立竿见影 本文对新型 7 系列 FPGA 在开发过程中各个环节的 低功耗设计技巧进行了概括。

18

赛灵思中国通讯

42 期


FAE 讲堂

着每个器件会有更多漏电流和更多在更

要性日渐升级,其中功耗已成

高速度下运行的晶体管。

为主要考虑因素。功耗管理在

鉴于这些问题的存在,设计人员必

大部分应用中都非常关键。某些标准已

须在设计过程中尽早对电源和热管理问

为单卡或者单个系统设定了功耗上限。

题有更加清楚的认识。给器件加上散热

鉴于此,设计人员必须在设计过程中更

器并不足以解决这些问题。因此设计人

早地对功耗问题加以考虑,一般来说应

员必须尽量减少设计中的逻辑用量。

该从选择 FPGA 开始。

首先来看几点指南,有助于理解在

减少 FPGA 的功耗可以降低供电电

设计过程各个阶段应采取何种措施来降

压,简化电源设计和散热管理,降低对

低FPGA的功耗。很明显,在设计过程

电源分配面的要求,从而简化电路板设

的初期彻底理解这些问题能带来最大的

计。低功耗还可以延长电池寿命,提高

收益。

系统的可靠性(运行温度较低的系统寿 命更长)。

图 1 说明了包括 FPGA 选择以及低 功耗设计技巧在内的贯穿整个设计过程 的不同设计点

功耗挑战 伴随每一代工艺技术的问世,晶体 管的尺寸可依照摩尔定律不断缩小。但 这种现象也会带来副作用,即每个晶体 管内的漏电流会增大,进而导致静态功 耗增大(未工作状态下 FPGA 消耗的总 电流增大)。FPGA 性能的提升会提高 时钟速率,使动态功耗上升。静态功耗 是晶体管漏电流造成的,动态功耗则取 决于可编程逻辑和 I/O 的开关频率。由于 每一代 FPGA 的容量都在增大,会使两 种功耗不断增加。更高的逻辑容量意味

7 系列工艺技术 在选择 FPGA 的过程中,应谨 慎考虑工艺技术,它能帮助用户判断 器件的漏电流和性能。赛灵思 7 系列 FPGA 采用 28 HPL (28nm 高性能低 功耗)工艺,在提高性能的同时可显著 降低功耗(见第 41 期《赛灵思中国通

讯》的封面故事 )。选择采用低漏电流 的 HPL 工艺制造的器件,可以避免在 FPGA 设计中使用复杂且成本高昂的静 态功耗管理方案。

Փ⫼⹀ IP Ḍˈℷ⹂Փ⫼᥻ࠊֵোˈ ‫ޣ‬ᇥᯊ䩳੠῵ഫ᪡԰ˈ䚼ߚ䞡䜡㕂

Ԣࡳ㗫 䆒䅵ᡔᎻ

ᱎ㛑ᯊ䩳䮼᥻䗝乍 XPE, PlanAhead, Power Estimator, XPA

㗫 ࡳ

䕃ӊࡳ㗫Ӭ࣪

⹀ӊ

ᗕ ࡼ

䕃ӊ

作者:Chandra Sekar Balakrishnan 解决方案开发工程师 赛灵思公司 cbalakr@xilinx.com

设计寻找“完美”FPGA 的重

㒳ϔᶊᵘˈේ঴⸙⠛Ѧ㘨

ࡳ㗫ԄㅫᎹ‫݋‬ ᶊᵘ 28-nm HPL

Ꮉ㡎 图 1 降低功耗开始于器件选择、工具支持和软件优化

2011年 冬季刊

19


FAE 讲堂

100

的器件相比,可显著降低静态功耗。

ᷛ‫ޚ‬ᘏࡳ㗫(%)

90

᳔催䰡Ԣ 50% ࡳ㗫

I/O ࡳ㗫

80

堆叠硅片互联技术 (SSI) 还能大幅

-30%

๲ࡴৃ⫼ᗻ㛑੠ᆍ䞣

60

ࡼᗕࡳ㗫

O 和收发器构建的等效接口低 100 倍

I/O ࡳ㗫

40

(带宽/W)。功耗大幅下降是因为所有

᳔໻䴭ᗕࡳ㗫

连接都构建在芯片上,无需功耗将信号

ࡼᗕࡳ㗫

-65%

20 10

置多块 FPGA 的方法相比,SSI 技术有 很大的优势,其 I/O 互联功耗比采用 I/

-25%

50

30

度降低 I/O 互联功耗。与在电路板上布

Or

70

驱动到片外,这样可实现难以置信的高

‫݌‬ൟ䴭ᗕࡳ㗫

᳔໻䴭ᗕࡳ㗫

速度和低功耗。

䌯♉ᗱ 28 nm

电压扩展增强选项

0 䌯♉ᗱ 40 nm

图2 赛灵思 7 系列 FPGA 的功耗仅为 40nm 工艺器件的一半

赛灵思 7 系列 FPGA 提供重要的 电压扩展选项。

尽管 28 HP 工艺 FPGA 的性能并 没有超越 7 系列的其它 FPGA,但其 静态功耗还不到竞争对手 FPGA 静态 功耗的一半,而且不会造成严重的漏

者在 7 系列器件之间迁移,请参阅“7 系列用户指南”(UG429)。

7 系列 FPGA 为 -3L 和 -2L 器件 提供扩展 (E) 温度范围(0-100 摄氏 度)。由于 28 HPL 工艺提供的余量,-

赛灵思堆叠硅片互联技术

2LE 器件可在 1v 或 0.9v 下运行。这

电流问题。图 2 显示了 7 系列产品的

对较大的系统来说,设计人员一

些器件被分别命名为 -2L (1.0V) 和 -2L

全面降耗情况,整体功耗仅为上一代

般会选择多个 FPGA。这种架构往往需

(0.9V)。运行在 1.0V 下的 -2L 器件的速

40nmFPGA 器件的一半。

要在各个 FPGA 之间高速传输数据,

度性能与 -2I 和 -2C 器件相当,但静态

这是一项复杂、困难的工作。选择采

功耗显著降低。运行在 0.9V 的 -2L 器

用赛灵思堆叠硅片互联技术制造的大

件性能与 -1I和 -1C 器件相似,但静态

型 7 系列 FPGA,比如 XC7V1500T 和

和动态功耗都有所下降。

设计人员可以在开发阶段选择较大 的 FPGA,然后在生产过程中选择较小 的 FPGA。选择较小的 FPGA 不仅可以

XC7V2000T 器件,就可以避免这个问

仅仅将这些器件的电压降低到

题。简单地说,堆叠硅片互联技术就是

所有 7 系列 FPGA 均采用统一的

0.9V 就可降低静态功耗约 30%。降低

将多片芯片布置在具有成千上万连接关

架构。这种统一架构便于在赛灵思 7 系

电压也会降低性能,但赛灵思根据速

系的插入式结构中,用以制造统一的大

列的不同 FPGA 器件之间方便地进行向

度和更加严格的漏电流规格对这些 -2L

型器件。堆叠硅片互联技术的优势之一

上或向下迁移。如果需要从 Virtex®-6 或

(0.9V) 器件进行筛选。这种筛选方法能

在于,与采用标准单片电路的类似尺寸

够使器件在最劣工艺条件下的功耗比标

降低成本,还能降低系统功耗。

者 Spartan®-6 器件迁移至7 系列器件或

准速度等级器件的功耗降低 55%。

7 系列 FPGA

C 级器件

-2LE (1.0V)

-2LE (0.9V)

VCCINT

1.0V

1.0V

0.9V

静态功耗

标准

-45%

-55%

动态功耗

标准

标准

-20%

性能

-1、-2

-2

~-1

表 1 静态、动态功耗和性能比较

20

赛灵思中国通讯

42 期

选择 -2L 器件,用户还能进一步降 低动态功耗。由于动态功耗与 VCCINT2 成正比,VCCINT下降 10% 可带来功耗 20% 的降幅。

功耗估算工具 今天的市场上有丰富的工具可供设 计人员选择,用以在整个开发过程中评 估 FPGA 设计的散热和电源要求。图 3


FAE 讲堂

为降低功耗,用户必须尽一切可能减少设计中使用的逻辑数量。首先是 使用专用的硬件模块,而不是在 CLB 中实现相同的逻辑。 是 FPGA 开发过程中每个阶段可供使用

用以确认各种类型模块(时钟树、逻

另外,还可以使用 XST 中的区域

的赛灵思工具。

辑、信号、IO 模块、 BRAM 等硬 IP

优化模式。该选项可以最大程度地减少

在设计初期,XPower Estimator

核或 DSP 模块)的功耗或设计层级功

设计使用的资源数量。但应注意进行区

(XPE) 电子数据表能够在初步设计和实

耗。两种视图都能让用户进行详细的功

域优化可能会降低性能。

施之前对功耗进行早期估测。XPE 可用

耗分析。并为确定设计中最耗电的模块

另一种技巧是进行活动感知优化,

于架构评估和器件选择,帮助确定应用

或部件提供了一种非常有效的方法,从

或者说智能门控。这些算法能够分析逻

所需的合适的电源和散热管理组件。

而简化了功耗优化工作。

辑等式,检测在每个时钟周期中有哪些

PlanAheadTM 软件则用于估测设计

寄存器源没有参与结果运算。软件随后

软件功耗优化

电源在 RTL 级的分配情况。设计人员

用户可通过尽量减少同时工作

可以使用约束条件或者 GUI 来设定器件

的 Block RAM 端口的数量来优化使用

的运行环境、I/O 属性和默认活跃度。

Block RAM 的设计的功耗。这种优化

PlanAhead 软件随即读取 HDL 代码,

方式可对跨多个 Block RAM 的 RAM

估算所需的设计资源,并对每种资源的

或 ROM 分解的描述进行修改,可通过

运行状态进行统计分析,得出功耗估算

XST 中的“-power yes”选项来启用优

报告。由于能够掌握有关设计意图的更

化功能。该优化通过调整地址线以及端

加详细的信息,因此 RTL功耗估计器的

口使能和写使能信号来最大程度地减少

准确性优于 XPE 电子数据表,但不及

每个时钟周期中处于活动状态的 Block

Xpower Analyzer 得出的后期布局布线

RAM 端口的数量,同时能够确保用户

分析结果准确。

的设计满足时序约束条件。

利用 FPGA 逻辑中可用的多余时钟使 能 (CE) 资源生成精细门控信号,用于 关闭无用的开关活动。用户可使用 map –power high 选项控制该智能时钟和数 据门控功能。总体可降低超过 15% 的 内核动态功耗,在大多数情况下插入的 额外门控逻辑不会影响性能。 还有一种降低功耗的方法是使用容 量感知优化。主要有两种方法: • 时钟负载分组:该方法对同步元 件(比如触发器或者 DSP 模 块)的布局进行重组,以最大程

Xpower Analyzer (XPA) 是一种专

下一步,不考虑性能影响,强制进

门用于分析布局布线设计功耗的工具。

行最高能效的 Block RAM 映射。选择

它采用全面综合的GUI,可以对特定运

ram_style 约束的 block_power2 选项,

行条件下的功耗和发热量信息进行详尽

前提是用户已经知道与该存储器相关的

的分析。

时序路径并非关键路径。节能幅度可达

可以同时降低时钟资源和缓冲要

15% 至 75%。

求,进而节省内核动态功耗。这

用户可以在两种不同视图间切换,

PlanAhead RTL Ԅㅫ఼

㾘Ḑ

RTL

度地缩小每个时钟网络的覆盖范 围。如果用户将水平或垂直时钟 柱的数量降到最低,软件就能 关闭时钟域中不用的分支。这样

XPower Analyzer (XPA)

ᅲ⦄

ᬊᬯ

偠䆕

XPower Estimator (XPE) ⬉ᄤ᭄᥂㸼

图 3 赛灵思为设计过程的每个阶段提供功耗估算和分析工具

2011年 冬季刊

21


FAE 讲堂

个过程可以用 map –power on

RAM 供电,对未使用的 Block RAM 不

比如乘法器、加法器/累加器、宽幅逻

选项来控制。

供电。

辑比较器、移位器、模式匹配器和计数

• 数据负载分组:这种算法能够 在保证用户满足性能要求的情 况下最大程度地缩短设计的总体

低功耗设计技巧 设计人员可使用多种技巧和技术来

走线长度。数据负载分组可以降

降低 FPGA 设计的功耗。首先是使用专

低功耗的原因在于,动态功耗取

用的硬件模块,而不是在 CLB 中实现

决于扇出能力和用户布线结构 的类型和长度。该分组算法同样 由 map –power on 选项启用, 通过将相关逻辑尽量靠拢的方式 降低功耗。 ISE® Design Suite 为综合、映射和 布线布局的功耗优化提供了预先设定的 目标和策略。对于采用非默认约束条件 对综合进行设置的方法来说,该方案是 一种很好的替代选择。但是运行该选项 可能会增加各个路径的时延。 最后,赛灵思实现工具能够自动关 闭未使用的收发器、锁相环、数字时钟 管理器和 I/O。在7 系列器件中,赛灵思 已经加入了针对未使用 Block RAM 的 电源门控功能。只有当用户在设计中使

器。用户可将 Block RAM 作为状态机、 数学函数、ROM 和宽幅逻辑查找表 (LUT) 使用。

控制信号的最佳利用

相同的逻辑。为降低功耗,用户必须尽

控制信号(用于控制时钟、设置、

一切可能减少设计中使用的逻辑数量。

复位和时钟使能等同步元素的信号)可

这样用户就能够尽量缩小器件尺寸,降

以影响器件的密度、利用率和性能。以

低静态功耗。

下方法有助于将功耗影响降至最低。

使用专用的硬 IP 模块是既能降低

首先应避免在寄存器或者锁存器上

静态和动态功耗,又能轻松满足时序要

同时使用设置和复位。赛灵思 FPGA 中

求的最重要途径之一。硬 IP 核能够降

的触发器可同时支持异步和同步复位和

低静态功耗的原因在于晶体管的总体数

设置控制。但是底层触发器每次只能完

量低于采用 CLB 逻辑的等效组件。

成一次设置、复位、置位或者清除。在

一般情况下,用户应推导出尽可能

RLT 代码中为一项以上的这些功能进行

多的资源。用户可利用代码中或者约束

编码会导致在实现一种状态时使用触发

文件中的属性,将推导出的资源单独或

器的 SR 端口,其余的状态在架构逻辑

分组调入 FPGA 架构或者硅片资源。

中实现,故占用更多的 FPGA 资源。

用户也可使用赛灵思 Core GeneratorTM

如果一个状态是同步的,另一个是

工具定制专用硬件,用于实例化特定的

异步的,异步状态将成为使用 SR 端口

资源。

实现的状态,而同步状态将在架构逻辑

用 Block RAM 时才会产生漏电流,而

另外,用户可以将未使用的硬 IP

中实现。总的来说,最好避免一种以上

非器件中所有 Block RAM 都会产生漏

核巧妙地用于其它并不明显的任务。

的设置/复位/置位/清除状态。另外,一

电流。在器件中,只对实例化的 Block

DSP48 slice 能够用于多种逻辑功能,

个 slice 中的4个触发器组中,每个组只

图 4 赛灵思已在 ISE Design Suite 中构建了功耗最小化设计目标和策略

22

赛灵思中国通讯

42 期


FAE 讲堂

采用部分重配置,设计人员能够有效地按时间段对 FPGA 进行划分,并 单独运行设计的各个组成部分。这种设计需要的器件尺寸要小得多,因 为不是设计的每个部分都需要一直运行。 有一个属性能够判断触发器的 SR 端口

非必要的设置或复位

是同步还是异步。

如果用户还想进一步降低功耗,

代码中的非必要设置或复位会导

另一个值得注意的方面是时钟和Block

另外,应使用高态有效控制信号。

致本来可以推导出的移位寄存器查找表

活动。用户应充分发挥BUFGMUX、

寄存器的控制端口为高态有效。不建议

(SRL)、查找表 RAM、Block RAM 和

BUFGCE 和 BUFHCE 的作用来对整个

在 FPGA 设计中使用低态有效复位。由

其它逻辑结构不能推导。虽然设计人员

时钟域进行门控,以达到降低功耗的目

于需要在驱动寄存器的控制端口之前对

可能会觉得别扭,但许多电路都可以设

的。这些约束条件能够关闭整个时钟域

信号进行反转,因此低态有效信号需要

定为自复位或者根本就不需要复位。例

的时钟。类似的,如果应用只需关闭设

使用更多的查找表。这种反转必须使用

如,如果电路被用于实例化寄存器,就

计中部分区域的时钟,可以使用 FPGA

查找表完成,故会占用查找表输入。

不需要复位,因为寄存器的初始化随配

寄存器的时钟使能引脚。

因此,低态有效控制信号可能会

置的完成自动进行。

导致更长的运行时间,降低器件的利用 率,给时序和功耗造成不良影响。 尽量在 HDL 编码或者实例化组件 中使用高态有效控制信号。只要能够

通过减少使用非必要的设置或复

多时钟资源,也会消耗更多功耗。只要

位,以及更高的器件利用率,设计人员

可能,应将间歇使用的逻辑布置在单个

可实现更好的布局、更高的性能、更低

时钟域(图 5)中。这样有助于降低功

的功耗。

耗。虽然工具会自动进行这方面的尝

控制设计中控制信号的极性,用户就 应在代码的最顶层反转信号。I/O 逻辑 能够容纳推导出的反转器,无需额外的 FPGA 逻辑或者走线,故能够改善利用 率、性能和功耗。

覆盖多个时钟域的设计会消耗更

关于复位的详细介绍,请参阅

http://issuu.com/xcelljournal/docs/ xcell_journal_issue_76/44?viewMode= Magazine&mode=embed

试,但在部分设计中需要手动操作才能 完成。 另一项技巧是限制数据的运动(图 6)。请勿将操作数在 FPGA 内搬移, 仅搬移结果。使用的总线数量越少,长 度越短,容量就越低,运算速度就越 快,同时功耗也就越低。设计人员还应 该在布局规划的过程中注意将设计的引 脚与相应逻辑进行合理布置。

部分重配置降低静态功耗 可以使用较小型的器件来降低静态 功耗。采用部分重配置,设计人员能够 有效地按时间段对 FPGA 进行划分,并 单独运行设计的各个组成部分。这种设 计需要的器件尺寸要小得多,因为不是 设计的每个部分都需要一直运行。 部分重配置既可降低动态功耗,又 图5

只要可能,应将间歇使用的逻辑布置在 单个时钟域

图6

限制数据搬移;请勿将操作数在 FPGA 内搬移,仅搬移结果

可降低静态功耗。例如,许多设计必须 高速运行,但它们峰值性能的运行时间

2011年 冬季刊

23


FAE 讲堂

可能很短。为节省功耗,设计人员可以

接功耗,故器件只在读取的时候才产生

利用部分重配置技术,为高性能设计添

端接功耗。

加一个可切换的低功耗版本,而不是一

7 系列器件包含针对 HSTL 和

直处于最高性能下运行。在系统需要的

SSTL 的用户可编程参考接收器功耗模

时候,可以切换回高性能设计。

式。用户可以根据 I/O 的具体情况控制

(上接第29页)

赛灵思工具和 IP 更新

这个原则也适用于 I/O 标准,特别

这两种可编程功耗模式,使用户能够在

最新 CORE Generator 软件和

是在设计不是随时都需要高能耗接口的

功耗和性能之间求得平衡,从而降低

IP 核:

时候。LVDS 需要较大的直流电供电,

DC 功耗。

因此不管其活动程度如何,均属于高能 耗接口。设计人员可采用部分重配置, 在设计不需要最高性能的时候,将 I/O 从 LVDS 切换到较低功耗的接口,比如 LVCMOS,然后在系统需要进行高速传 输的时候切换回 LVDS。 时序约束对低功耗设计来说也具 有重要意义。如果用户在温控环境中运 行,请注意可以降低器件的速率来满足 时序要求。请务必让器件的运行速率不 超过设定的时钟最高速率。让时钟的运 行速度更快并不会收到更好的设计效 果!一般来说,这样做会占用更多的架 构资源,因为这会减少资源共享,增加 逻辑/寄存器数量,增加布线,减少对 FPGA 专用功能的调用。所有这些都会

收发器功耗 赛灵思 7 系列 FPGA 的收发器已 针对高性能和低抖动进行了优化。这些 收发器能够提供多种低功耗运行功能,

I/O 功耗已经成为总功耗的主要组 成部分。在部分设计中,有高达 50% 的功耗来自 I/O,尤其是在存储密集的 系统中。

基础架构 IP 的关键组成部分支持 AXI4 存储器映射域 AXI4Stream 域 之间的高吞吐量数据传输。 • Chroma Resampler V1.0(AXI4 Lite)– 该 IP 在经过色度子采样后 的YCbCr 格式 4:4:4、4:2:2和4:2:0

便于设计人员定制灵活的运行模式和尺

之间转换。它也支持逐行扫描和隔

度,以实现功耗和性能的平衡。

行视频。

在 7 系列 FPGA 中,共享 LC 锁相 环可降低大量功耗。对具有相同线速的 四通道设计(比如 XAUI)来说,可使 用一个四 PLL(而不是单通道 PLL)来 降低功耗。类似的,在某些情况下,由 于 PLL 在允许的范围内既能高速运行又 能低速运行,最好选择较低的运行范围 来降低功耗。 用户还可以选择启用单独的 TX/ RXPOWERDOWN 选项。在最低功耗模

给动态功耗造成显著影响。

• AXI DataMover v3.00.a – 作为 AXI

式下可启动 PLL 功耗降低选项(比如在 经常用于 PCIe® 系统的 D3 状态下)。

设计过程的每个阶段

• JESD204 v1.1 – 根据 Jedec JESD204B 标准设计,该标准描 述了数据转换器和逻辑器件之间 的串行数据接口和链路协议。该 IP 在单、双和四信道上支持高达 6.25 Gbps的线路速度。 • SRIO Gen 2, v1.2 – Serial RapidIO Gen 2.1 IP 软核支持 1、 2 和 4 信道宽度,线路速度高达 6.25 Gbps。 更多 IP 支持 AXI4 接口:赛灵思升级

了最新版本 CORE Generator IP 核,提供适用于生产要求的 AXI4 接口支持。一般说来,AXI4 接口 得到 Virtex-7、Kintex-7、Virtex-6 和 Spartan-6 器件系列上的最

在编码前理解和运用节能设计技巧

新 IP 核的支持。早前适用于“生

可编程的转换速率和驱动强度能够

是降低系统功耗的最重要的方法。在设

产”版本的 IP 核仍支持 Virtex-6、

降低 I/O 驱动的动态功耗。虽然许多设

计过程的适当阶段使用各种赛灵思工具

Spartan-6、Virtex-5、Virtex-4 和

计人员青睐高速差分I/O 功能,但不是

也有助于帮助用户满足功耗规范,同时

Spartan-3 器件器件系列上各自内核

每个接口都需要。像 HSLVDCI 这样的

为板级设计人员提供了关于选择必备电

标准能够节约大量 FPGA 间的通信功耗

源的数量、类型和规格的信息。赛灵思

以及低速存储器接口功耗。

7 系列 FPGA 通过采用工艺技术和架构

所有的赛灵思 7 系列器件都能够 提供可编程的转换速率和驱动强度。赛 灵思 FPGA 采用数字控制阻抗 (DCI) 技 术,可设置为三种状态。DCI 可以避免 在FPGA 向存储器写入的过程中产生端

24

赛灵思中国通讯

42 期

设计,实现了前所未有的能耗经济性。 本文中提到的许多技巧在 FPGA 功 耗优化培训课程中均有详细介绍。了解 赛灵思培训课程的详细内容,请访问:

www.xilinx.com/cn/training。

的早期接口。如需了解 AXI IP 支持 信息详情,敬请参见:www. xilinx.

com/cn/ipcenter/axi4_ip.htm。 如需了解13.3版本中已升级内核的完整 清单,敬请访问:

www.xilinx.com/cn/ipcen-ter/coregen/ updates_13_3.htm。


精彩应用 精彩应用

赛灵思 FPGA 引导机器人 辅助外科手术系统 Intuitive Surgical 采用达芬奇外科 手术系统掀起手术室革命风潮 作者:Mike Santarini 出版:Xcell 期刊 赛灵思公司 Mike.santarini@xilinx.com

2011年 冬季刊

25


精彩应用

救生命,缩短康复时间,一切

为病患着想。这是医疗设备行

业最杰出的公司之一 Intuitive

Surgical 引以自豪的口号。该公司出品 的达芬奇机器人辅助外科手术系统已进 驻世界各地 1,500多家医院,成功地为患 者实施了数十万例外科手术。该系统是

达芬奇系统能够将外科医生的手指和腕部动作 实时地转换成患者推车上方机械臂的相应动 作。外科医生操纵控制器来控制各种外科 手术器械。

先进微创手术 (MIS) 领域的顶级典范, 与传统的开放手术相比,患者的康复速 度要快得多。 Intuitive Surgical 自 2003 年起就 一直使用赛灵思 FPGA,并连续数年坚 持使用每一代新产品系列开发出更加先 进的达芬奇系统,拓宽其应用面。外科 医生现在将这套系统广泛用于泌尿、妇 产、心脏、胸部、头部和颈部外科手术 以及一般性的外科手术。 达芬奇系统由三个相互连接的主要 组件构成:外科医生控制台、患者推车 和视觉系统(图 1)。外科医生控制台 实质上是外科医生完成给定手术时使用 的操控台。与传统手术中外科医生站在 患者身旁弯腰数小时进行手术的情况不 同,使用达芬奇系统的医生舒适地坐在 控制台上用手指操作主控制器(图 2),

图 1 达芬奇系统能够改善外科手术的成效,加快患者康复。本图中,医生坐在双手术控制 台上,分别位于图左和左偏中。视觉系统在右偏中,患者推车在右边。

眼睛则盯着 3D 观察器。这里他们可以把 剖开的组织根据需要放大以利观察,同 时查看他们将用于手术的外科器械。

视觉系统,采用的是高分辨率 3D 内窥镜

而能延长他们的职业生涯。

(一个顶部安装有摄像头和灯的管体)

达芬奇系统能够将外科医生的手指

Intuitive Surgical 市场营销服务部

和图像处理设备,能够为患者的剖开组

和腕部动作实时地转换成患者推车上方机

的高级总监 Chris Simmonds 表示,医

织提供逼真的图像。视觉系统还可为在

生们从该系统增强的可视化功能和系统

械臂的相应动作。外科医生操纵控制器来

患者身边工作的整个手术助理小组和外

人机工程中获益非浅,称眼部疲劳度下

控制安置在病患推车上方各个机械臂末端

科助手提供手术区域的宽屏图像。

降,操作灵敏度和控制能力提高,特别

的各种外科手术器械,包括手术刀、止血 钳、内窥镜、灼烧消毒及缝合针等。外科 医生可以舒适地在控制台上完成手术从初 步切开到最终缝合的每个关键步骤,而手 术助理则负责监护患者。 至于达芬奇系统的第三个组件——

26

赛灵思中国通讯

42 期

对医疗机构来说,达芬奇系统比传

是对需要高倍数放大的精细手术动作。

统的手术流程体现出更为明显的优势。

Simmonds 表示:“一位医生对人坦

它能够让外科医生采用微创手术法更加

言,在使用达芬奇之前,他每天才能完

舒适地完成复杂的手术,不易疲劳。另

成两例输精管复通手术,现在一天能够

外,该系统能够最大限度地减少手部颤

完成七到八例。”

动,提升外科医生动作的准确程度,从


精彩应用

不过据 Intuitive Surgical 工程部

Intuitive Surgical 的机器人 MIS 系

时,我们希望为外科医生提供多窗口视

副总裁 Sal Brogna 表示,从该系统中

统原本是在美国国防部高级研究计划局

频,这样他们就能够在手术的过程中监

受益最大的还是患者。他表示:“在

(DARPA) 技术开发的启迪下研发的,当

控至关重要的患者数据。视频处理带宽

Intuitive Surgical 员工心目中,患者至

时开发人员面临众多棘手的工程难题。

的增加让我们能够在提供手术区域视图

上。帮助患者取得更好的手术结果并更

随着达芬奇的模型从 3D 标准定义立体

的同时,显示辅助视频源提供的数据。

快地康复,是在我们的技术因素背后推

视觉演进到当今的双控制台多窗口 3D

例如,外科医生可以视线不离正在进行

动公司决策和工程决策的理念因素。达

高清 (HD) 系统,视频处理这一方面的

中的手术,同时又能看到超声机或者心

芬奇系统能够让外科医生完成更加精确

地位愈加重要。

肺机的即时反馈信息。”

的手术,更加精确的手术就意味着更短

Intuitive Surgical 的视频处理解决

Brogna 说,为给外科医生提供内

的康复时间。而住院时间越短,患者及

方案首席设计工程师 David Powell 表

容丰富的浸入式视图,以便缩短手术过

其家属就会越高兴。”

示:“在我们更新原始视频处理子系统

程并改善手术成效,诸多技术难题蜂拥 而至,此外,该视频解决方案还必须满 足严格的安全性和可靠性要求。这就意 味着该系统需要灵活性、可升级性以及 不可或缺的可靠性。 所有这些要求导致 Intuitive Surgical 最终在视频处理器设计中采用 了赛灵思 Virtex® FPGA,用于 2003 年 设计的第二代达芬奇外科手术系统。 Powell 说:“我们最初选择赛灵思 Virtex-2 Pro FPGA,主要原因是看中 DSP 元件的流视频性能。赛灵思在该 器件中提供的嵌入式处理器是一种“附 加”特性。我们意识到我们可以利用它 来减少视频处理所需的基板面,但嵌入 式处理器并非我们选中赛灵思器件的根 本原因。” Powell 说,但是最终,“对我们贯 穿整套系统的后续平台设计,赛灵思的 嵌入式处理器架构还是在很大程度上起 到了革命性的作用。”

FPGA 帮助引入模块化设计 在初次体验赛灵思 FPGA 后, Intuitive Surgical 决定密切关注 FPGA 技术的发展,一旦最新型的赛灵思 图 2 外科医生将手放在专用器械上(下图)。达芬奇系统能够实时计算它们的后续动作, 并控制位于患者推车上的机器人手臂(见上图特写)。机器人手臂安置在患者准备接受手术 的区域上方。

FPGA 问世,就为其增添更加先进的系 统功能。Powell 说:“随着开始对赛灵

2011年 冬季刊

27


精彩应用

通过在连续的系统中重用核,以及在新一代的FPGA中添加功能, Intuitive系统已经进入到了一个更加分布式的架构。客户可以通过添加 模块来满足他们的特殊需求。

思器件的使用,我们发现它是一个非常

化时代。客户可以为单个系统添加多个

“高度灵活且可定制的设计模块促使我

好的设计平台——真的非常好。因此后

模块,来满足他们的具体需求。例如,

们以多种新方式考虑方方面面。我们现

续平台已经发展到可在所有主要系统组

据 Brogna 介绍,Intuitive Surgical 借

在的重点是模块和插卡。现在甚至连制

件中用上几十个赛灵思 FPGA 的程度。

助分布式架构才得以推出了双控制台的

造部门都不再谈及发运系统了,他们都

今天,我们能在每个 FPGA 中纳入太多

达芬奇系统。Brogna 说:“现在两个

改口说插卡。这样我们在生产测试产品

的内容,几乎能把一个电路板装进一个

外科医生可以合作进行机器人辅助 MIS

以及在现场维护系统时,获得了难以置

芯片。

手术,也可以将系统设置为培训教学模

信的敏捷性和有效性。”

虽然在最初几代达芬奇系统中采

式。采用赛灵思 FPGA 的模块化设计实

可编程能力还意味着简化的更新。

用的 FPGA 设计里,Intuitive 的工程

现了这一功能,它标志着我们产品线的

Brogna 表示,Intuitive Surgical 不再需

师没有让嵌入式处理器一展身手,但

一个重大里程碑。”

要更换模块或者子系统,而是通过现场

在最近两代产品中他们却让这种处理

Brogna 表示,在使用赛灵思

固件升级的方式增加新功能或者增强现

器派上了用场。例如,Intuitive 在最近

FPGA 之前,达芬奇组件之间的连接复

有功能。服务团队也能够跨越系统中的

两代达芬奇系统的许多模块中使用了

杂多变。模块之间通过四条“花园水

所有处理器快速查询一致性,以便改善

Virtex-5 FX FPGA 的 PowerPC 硬处

管”粗的大型电缆连接。由于手术室内

进程控制,确保系统得到理想的配置,

TM

软处理器。Powell

手术安排过程中的频繁操作,这四条电

能够用于外科手术。

称,FPGA 模块/设计的重复利用在帮助

缆磨损非常迅速。更值得关注的是,系

Powell 还指出,密切与赛灵思技

Intuitive Surgical 加快将达芬奇系统各

统组件必须作为一个整体单元进行生产

术人员、销售人员和高管合作是成功的

代新产品投放市场方面发挥了至关重要

和维修。因此,如果一个组件需要维

又一关键。他说:“我们现在熟知赛灵

的作用。

修,则整套组件都不能使用。今天,所

思器件的发展历程和未来发展趋势,

Powell 说:“我们采用统一的方

有系统组件之间的连接已经标准化,

这对我们以与众不同的方式改善手术效

法,把许多功能标准化,这样就能快速

只需要设计一根单纤光缆。赛灵思的

果,挽救诸多生命确实大有帮助。一切

将这些模块构建到新设计中。我们配置

硬件处理器模块和高速 DSP 片还提供

均应以患者为出发点。我们每天都听到

完第一块采用赛灵思 FPGA 的电路板并

片上系统功能,支持在这种简化光纤

有人说某种新手术如何改写了他们的命

使之运行耗时两个小时,此后配置完一

互连上传输八通道 1080i 全高清视频

运,或者如何挽救了他们的生命。正是

块电路板并使之运行却只需几分钟。这

(20Gbps)。这种全新互连技术显著地降

在这种激励下,我们力争提供最优秀的

样的结果是过去闻所未闻的。”

低了故障率。

技术。”

®

理器和 MicroBlaze

通过在后续几代系统中重复利用核

Brogna 还表示,Intuitive Surgical

欲了解关于达芬奇系统的更

心并不断丰富各代全新 FPGA 的系统功

将模块化设计用于达芬奇系统后,还让

多 详 情 , 敬 请 访 问 :h t t p : / / w w w .

能,Intuitive Surgical已能让达芬奇系

可制造性、可测试性、可靠性和可维

intuitivesurgical.com/。

统用上更加分布的架构,从而迈进模块

护性有了革命性的改进。Brogna 说:

28

赛灵思中国通讯

42 期


号外!号外! 号外!号外!

赛灵思工具和 IP 更新 赛灵思正在不断改进其产品、IP 核和设计工具,努力帮助设计人员提高工作效率。我们在此汇报旗舰 FPGA 开发环境 ISE ® 设计 套件以及赛灵思 IP 核的最新升级情况。通过产品升级,ISE 设计套件的逻辑、嵌入式和 DSP 三大版本将得到显著改进并新增一 些新特性。保持 ISE 及时更新升级是确保最佳设计结果的简单方式。2011 年 10 月 25 日,赛灵思将发布 ISE 13.3 设计套件,您 可从赛灵思下载中心下载(www.xilinx.com/cn/download)。如需了解 ISE 的最新信息或下载其 30 天免费评估版,敬请访问: www.xilinx.com/cn/ise。

Documentation Navigator 这款新应用能帮助用户在统一位置查看并管理 赛灵思设计文档(软硬件和 IP 核等),并提

功能、存储器接口与收发器增强特性,以及专 用配置窗口,从而可提供更精确的功耗估算。

新版亮点: ISE 设计套件的所有版本均包含“逻辑版本” 上述所列增强特性。ISE 13.3:DSP 版本具

供简便易用的下载、搜索和通知特性。如欲

ISE 设计套件: 嵌入式版本

试用该新版赛灵思 Documentation Navigator

一体化的嵌入式设计解决方案

持,并增加了对 ArtixTM-7 和 VirtexTM-7 的支

最新版本编号:13.3; 最新发布日期:2011 年 10 月;

持 System Generator 设计的 PlanAhead 项

之前版本:13.2;

目,并对 VDMA4.0 和 MATLAB® 2001a 提供

(现为开放式测试版本),敬请访问:www.

xilinx.com/cn/support。

ISE 设计套件:逻辑版本 Front-to-Back FPGA 逻辑设计 最新版本编号:13.3; 最新发布日期:2011 年 10 月; 前一版本:13.2;

更新亮点:

更新亮点: ISE 设计套件的所有版本均包含“逻辑版本” 的所有上述增强特性。而以下增强特性为“嵌 入式版本”所特有。

赛灵思 Platform Studio (XPS):13.3 版 本具有许多增强特性,其中包括 Base System

PlanAheadTM 和 IP 核经过重新设计的全新用

Builder 采用新式双页设置,可简化配置工

户界面,不仅提高了不同片上系统设计团队的

作。XPS 现可支持 Kintex TMKC705 平台,

工作效率,而且更趋近于面向 Spartan ®-6、 Virtex ®-6 和 7 系列 FPGA 的真正即插即用

并能处理基于单/双 AXI4 的 MicroBlazeTM 设 计。此外,“创建/导入 IP”向导目前也可支

有如下特有功能:提供单双和定制浮点精度支 持。此外,赛灵思还增加一项功能,可生成支

了生产支持。 此外,CIC Compiler 还提供 24 比特输入位 宽,而最新 Divider Generator 则具有支持 64 比特的运算元。

赛灵思 IP 更新 IP 名称:ISE IP 13.3 版; IP 类型:全部

目标应用: 赛灵思开发了 IP 核并与第三方 IP 提供商合作,共同帮助客户缩短产品上市

IP。

持 AXI4、AXI4-Lite 和 AXI4-Stream IP。

时间。赛灵思 FPGA 与 IP 核的强大组合提供

PlanAhead 设计和分析工具:

SDK 增强特性:赛最新版可支持

赛灵思进一步增强了图形用户界面 (GUI) 功

专用标准部件所无法企及的灵活性优势。

MicroBlaze v8.20,现在 AXI 缓存互联可提供 512 位的数据宽度。赛灵思将软件开发套件升 级到 Eclipse 3.6.2 和 CDT 7.0.2 版本,为开 源平台提供了稳定性和增强特性。

能,能根据 RTL 源在 HDL 的例化情况分层显 示。该特性使用户能可视化看到哪些源文件包 含顶级逻辑分层结构,对源数量很大、项目集 成其他开发商或IP 厂商的大量逻辑的情况非 常有用。

团队设计:这是 ISE 13 设计套件的新增特 性,该团队设计方法采用 PlanAhead,可支 持并行工作,从而让多名工程师能够对同一 项目同时开展工作。团队设计流程建立在 ISE 12 设计套件推出的设计保存功能基础之上, 可提供额外的功能,能让您根据设计已完成部 分,锁定早期实现结果,而无需等待设计团队 其他人员的工作进度。这种新功能可加快时序 收敛,并有助于设计的其他部分的时序保存, 从而提高整体工作效率,减少了设计迭代。

赛灵思功耗估计器 (XPE) 与功耗分析器 (XPA): 这两款工具现具有更快的设计估算

IP 增强特性: 该13.3 版本提供了新的 AXI ®

PCIe 和 AXI QuadSPI 内核。此外,赛灵思

了类似于 ASSP 的功能和性能,同时实现了

最新版本编号:13.3; 最新发布日期:2011 年 10 月;

安装指令: www.xilinx.com/cn/ipcenter/coregen/ip _ update_install_instructions.htm

还改善了 AXI v6 DDRx 的读写仲裁功能。

本版全部 IP 列表:

EDK 整体增强特性:嵌入式开发套件

www.xilinx.com/cn/ipcenter/core-gen/13_3_

现确保 Project Navigator、Xilinx Platform Studio(XPS)和 SDK 都实现一致性的 SDL 工 作区选择行为。

ISE 设计套件:DSP 版本

datasheets.htm

更新亮点: 从 13.1 版本开始,所有 ISE CORE GeneratorTM IP 都支持 Kintex-7 和 Virtex-7 器件。 最新 CORE Generator IP 核提供 Artix-7 和

面向高性能 DSP 系统

Virtex-7 XT 支持,但 13.3 版本仅提供有限

最新版本编号:13.3; 最新发布日期:2011 年 10 月; 之前版本:13.2;

的 Artix-7 和Virtex-7 XT 系列器件支持。支持 Artix-7 和 Virtex-7 XT 的系列内核只为这两个 系列的器件提供 beta 支持。

(下转第24页) 秋季刊 2011年 冬季刊

29


资讯脉搏

赛灵思客户喜获首批Zynq-7000 器件 — 全球第一款可扩展处理平台 赛灵思在 ARM 欧洲技术大会上演示其首款 Zynq 芯片应用,客户利用早期试用工具和仿真平台开发的 应用将移植到该器件上 2011 年 12 月 9 日,中国北京 —全球可编程平台领导厂商赛灵思公司 (Xilinx, Inc. (NASDAQ:XLNX) ) 今天宣布向客户交付首批 ZynqTM-7000 可扩展处理平台 (EPP),这是其完整嵌入式处理平台发展战略的一个重大里程碑,率先为开发人员提供堪比 ASIC 的性 能与功耗,FPGA 的灵活性以及微处理器的可编程性。采用 Zynq-7000 EPP 仿真平台、赛灵思早期试用硬件工具以及 ARM ARM® Connected Community 社区支持的标准软件工具进行系统开发的客户,现在就可以将有关应用移植到这些器件上,并开始下一阶段 的产品开发工作。 赛灵思处理平台副总裁 Lawrence Getman 表示 : “自我们于 2010 年 4 月首次推出可扩展处理平台计划以来,看到早期试用客户 充分利用这一器件所取得的成就,以及今天可以马上在我们的首批器件上应用其系统,我们对此感到非常振奋。通过这一新型的单 芯片系统 , 赛灵思将使得他们在研发和新产品导入方面,满足极高系统性能、灵活性和集成度的需求,并从上市时间上大大超越竞 争对手” 针对那些需要支持高性能及实时运算应用的系统而言,Zynq-7000 EPP 提供了传统处理解决方案所无法实现的性能水平。仿真 平台、硬件开发工具、开源 Linux 支持和近期宣布的与 Cadence 设计系统公司联合开发的可扩展虚拟平台均有助于推进 Zynq-7000 EPP 系统的开发与实现。随着可支持的操作系统越来越多,嵌入式工具和软件开发解决方案生态系统也将不断扩展。

依元素科技培训课程时间表 2012/1 至 2012/3 培训课程

培训时间

1月

2月

3月

使用 7 系列产品进行设计

2天

4-5日 深圳

1-2日 上海

1-2日 北京

7-8日 上海

1-2 日 北京

使用 PlanAhead 分析与设计工具进行高级设计

2天

Xilinx 部分重配置工具和技术

2天

利用 Spartan-6 和 Virtex-6 系列进行设计

3天

Xilinx FPGA 的基本 DSP 实现技术

2天

9-10日 北京 9-10日 深圳

22-23日 成都 12-13日 深圳 7-9日 上海 5-7日 北京

11-12日 北京 13-15日 成都 12-14日 上海 16-17日 上海 27-28日 北京

使用 PlanAhead 分析与设计工具进行基本设计

2天

FPGA 设计基础

1天

6日 深圳

21-22日 武汉 27-28日 北京 16 日 西安

16日 武汉

面向性能的设计

2天

4-5日 成都

1-2日 北京

5-6日 上海

Xilinx FPGA 的信号完整性和电路板设计

3天

18-19日 上海 20-22日 成都 19-21日 北京

高级 FPGA 设计

2天

11-12日 深圳 22-23日 上海

利用 Virtex-5 FPGA 系列进行设计

1天

设计LogiCORE PCI Express 系统

2天

30-31日 深圳 14-15日 北京 15-16日 上海

嵌入式系统开发

2天

16-17日 北京 15-16日 上海 20-21日 北京

利用System Generator 进行DSP设计

2天

17日 深圳

6-7日 深圳

赛灵思 中国销售代表 缘隆有限公司 • • • • •

北京 成都 上海 深圳 南京

赛灵思 中国/香港地区分销商

22-23日 深圳

利用 VHDL 进行设计

利用以太网 MAC 控制器进行设计

2天

利用千兆位级串行 I/O 进行设计

3天

利用 ChipScope Pro 调试和验证

1天

嵌入式系统软件开发

2天

安富利电子元器件部 8-9日 西安

5-6日 成都

20-21日 深圳

6-7日 成都

21-23日 北京 26-28日 上海 17日 北京

20日 上海

30-31日 上海 27-28日 成都

26日 深圳 5--6日 武汉

嵌入式开放源码 Linux 开发

2天

Xilinx在线培训课程(WebEx)

培训课程

1月

2月

3月

FPGA 设计基础(免费)

5日

7日

19 日

面向性能的设计

9-10日

20-21日

15-16日

在线老师现场授课(学员于线上学习,老师提供最新的实验项目的 现场操作和答疑并进行专业辅导,直接带给学员FPGA项目设计的 亲身体验。

• • • • •

香港 北京 成都 上海 深圳

电话: (852) 2176 5388 电话:(010) 8206 2488 电话: (028) 8652 8262 电话: (021) 3367 8330 电话: (0755) 8378 2949

13-14日 武汉 29-30日 武汉

线上授课老师都获Xilinx认证,并具有丰富的 FPGA系统项目经验。 现场的课堂教学和实验

高级 FPGA 设计

11-12日

22-23日

27-28日

PlanAhead 分析与设计

16-17日

13-14日

22-23日

答疑(Q&A)(现场解答学员在学习和实验中遇到的问题)

利用 Spartan-6系列进行设计

18-19日

8-9日

26-27日

有关报名注意事项: 请联系:北京: 电话: 010-8275-7632 传真:010-8275-6745 深圳: 电话: 0755-86186718 传真:0086-755-86186700 地址: 北京市海淀区上地信息路15号金融科贸大厦307室

电话:(010) 6266 9572 电话:(028) 8509 1261 电话:(021) 6439 2771 电话:(0755) 8253 7068 电话:(025) 8638 0963

科通数字技术部 • • • • •

香港 北京 成都 上海 深圳

电话: (852) 2730 1054 电话:(010) 5172 6678 电话: (028) 8513 1563 电话: (021) 5169 6680 电话: (0755) 2698 8221

邮件: training@e-elements.com 网址: www.e-elements.com

赛灵思 中国 /香港代表处 欢迎各位作出反馈讯息和建议 传真 : (852)2429-6772 电邮 : xcell-china@xilinx.com

香港 上海 深圳

电话 : (852)2424 5200 电话 : (86)21-3318 4788 电话 : (86)755-8237 0015

更多的联络点请查询 : www.xilinx.com/cn

30

赛灵思中国通讯

42 期

传真 : (852)2494 7159 传真 : (86)21-6340 6108 传真 : (86)755-2583 0986

电邮 : ask-china@xilinx.com 电邮 : ask-china@xilinx.com 电邮 : ask-china@xilinx.com

技术支持 : www.xilinx.com/cn/support


技术长廊

用 FPGA 同步下一代网络 FPGA器件的灵活性和特性集使之非常适用于设计先进网络设备中的时序和同步子系统。 作者 ■ Dejan Habic 传统的电信网络从根本上说是为传输语音而配置的,比如电话业务。互联网业务就是利用这种早期平台传输的。目前, 设计人员正在开发下一代网络 (NGN),用于同时传输数据、语音和视频,在降低总运营成本的同时提供透明度和可扩展性。 NGN被视为从分离的网络基础设施到统一的多业务、高安全、基于分组的网络的逻辑演进,可实现电子通信解决方案服务质 量(QoS)并为最终用户提供使用便利。大型电信提供商已开始向 NGN 转型,准备建设新的基于分组的以太网核心基础设施。 这个过程将逐渐替换和升级网络,为新的和现有的服务解决方案提供支持。 这种升级带来了许多技术挑战,其中最主要的是网络的同步要求。像 Sonet 和 SDH 这样的传统电路交换网络会在整个 网络中分配高质量的时钟与时序源,但以太网并不需要如此严格的时钟分层。但是采用某种方式实现各个网络的同步正日益 成为对电信运营商的一个具体要求。实现 NGN 的关键挑战就是要规范、实现并部署一种能够让所有现有网络和新建网络协调 工作的高质量解决方案。时间和频率的对齐,也称为同步,对确保通过融合网络传输的无线、语音、实时视频和数据应用的 QoS至关重要。将同步与时序功能和其他硬件共同嵌入 FPGA 中,可以开发出一种低成本、高灵活性的可编程解决方案,能 够满足最为严格的电信设备标准。

全文刊登在www.xilinx.com/cn/xcell42

如何用 FPGA 构建更出色的 DC/DC 调节器 现已提供可支持开关模式 DC/DC 调节器数字控制的低成本 FPGA 和 ADC。 作者 ■ Adam P. Taylor EADS Astrium

作者 ■Andrew R. Porter EADS Astrium

随着处理能力的不断增强,从事医疗设备研究工作的科研人员正在迅速开发出各种可以更有效治疗多种疾病的创新疗 法,以减轻患者的痛苦。商业现成 (COTS) 硬件与 FPGA 技术以及灵活的集成平台相结合,可以帮助这些科研人员更加迅速 地开发出原型成像系统,并不断向市场推出新产品。 DC/DC 转换器的设计采用四种主要拓扑之一:降压(步降)、升压(步进)、反相(将正输入转变为负输出)和 SEPIC(单端初级电感转换器)。SEPIC器件可保持持续的输出电压,并能根据环境要求对输入电压步进或步降,因此是电 池供电应用常见的选择。

全文刊登在www.xilinx.com/cn/xcell42

用双 Microblaze Xilkernel 系统监控汽车应用 存储器分段与数据交换策略已成为紧密结合主/从多处理器系统实现的主流。 作者 ■ Heiko Wilken

作者■ Marco Kirschke

作者■ Bernd Scharz

基于软核处理器的多处理器片上系统 (MPSoC) 设计正日益风靡于嵌入式系统设计领域。为了向多个处理器提供始终 一致的数据,存储器区域的架构与管理已成为设计工作非常重要的组成部分。在原型汽车应用中,我们准备构建一个双 MicroBlazeTM 系统,用于在两个 MicroBlaze 上支持赛灵思嵌入式处理器内核 Xilernel。 在开发机动车原型转向系统平台前,我们根据赛灵思技术规范、参考设计和双处理器设计套件,研究出一套通用的设计 工作流程。该设计结合了多重功能,比如防碰撞、行车道探测和自动停放。Xilkernel 设计提供了诸如 Posix 线程这样的库函 数,可重复利用基于 QNX 的防碰撞应用以及对该应用进行分割。

全文刊登在www.xilinx.com/cn/xcell42 年 冬季刊 2011 2011年 春季刊

31


性能加倍, 功耗减半

2011 WINNER

赛灵思7系列FPGA, 无需妥协的创新! 全新7系列FPGA器件建立在行业唯一的统一架构之上,为您的创意变成现实提供充分灵活的选择! 满足您提高性能、降低功耗的设计需求;利用新一代ISE设计套件为您的开发加速! 创新,用您需要的性能和灵活性,引领世界不断进步! www.xilinx.com/cn/7

超低功耗 超低成本

超值价格 超高性能

超高系统性能 超大容量

香港 电话: (852)2424 5200

赛灵思公司

上海 电话: (021)5131 6060 传真: (021)5198 1020

传真: (852)2494 7159

电话 电话 电话 电话 电话

(010) 6266 9572 (028) 8509 1261 (021) 6439 2771 (0755) 8253 7068 (025) 8638 0963

传真: (0755)2583 0986

中国/香港地区代理商 安富利电子元件部

中国销售代表 缘隆有限公司 北京 成都 上海 深圳 南京

深圳 电话: (0755)8660 6588

香港 北京 成都 上海 深圳

电话 电话 电话 电话 电话

(852) 2176 5388 (010) 8206 2488 (028) 8652 8262 (021) 3367 8387 (0755) 8378 1886

中国/香港地区代理商 科通数字技术部 深圳 北京 上海 武汉 成都

电话 电话 电话 电话 电话

(0755) 2698 8221 (010) 5172 6678 (021) 5169 6680 (027) 8769 0655 (028) 8513 1563

©2011 Xilinx, Inc版权所有。 XILINX、Xilinx商标、Artix、ISE、Kintex、Virtex,及其它品牌设计均为Xilinx , Inc (美国赛灵思公司).在美国及其它国家的商标。所有其它商标均为各自拥有者的财产。


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.