本文共 1648 字,大约阅读时间需要 5 分钟。
本节书摘来异步社区《OpenCL实战》一书中的第1章,第1.6节,作者: 【美】Matthew Scarpino 译者: 陈睿 责编: 陈冀康,更多章节内容可以访问云栖社区“异步社区”公众号查看。
尽管文件matvec.c和 文件matvec.cl中的代码让人眼前一亮,但如果没有经过编译、运行,这些代码就更像花拳绣腿,没有任何实际的作用。而为了能够编译、运行,你就必须要有一套兼容OpenCL的开发工具。正如OpenCL标准所述,框架包含如下三个部分。
平台层——通过它来访问设备,设定上下文
运行时——让主机应用程序将内核和指令队列发送到上下文中的设备上
编译器——构建含有可执行内核的程序
OpenCL工作组并没有提供自己的设计框架。这就要求每个OpenCL兼容设备的生产商需要将OpenCL开发框架作为自己所发布的SDK的一部分。由Nvidia和AMD分别发布的OpenCL SDK是现在比较受欢迎的开发工具,两款SDK都免费,并且包含用于构建OpenCL应用程序所需的库函数文件和工具。不管是面向Nvidia或是AMD的设备进行开发设计,安装SDK的过程都很简单。附录A给出了整个安装的过程,并讨论了如何用这些SDK来构建应用程序。
OpenCL是一套针对高性能处理芯片构建并行程序的强大工具集。有了OpenCL,你不必费心学习针对设备的编程语言,一次编写程序,便可完成在所有的OpenCL兼容硬件上的运行。
除了可移植性,OpenCL的优势还在于向量处理和并行编程。在高性能计算中,向量是一种包含多个相同数据类型的数据结构。但是和其他的数据类型不同,当在向量上发生操作时,对向量中各个分量都是并行处理完成的。并行编程意味着,主机应用程序可以控制多个设备上的数据处理。OpenCL可以将不同的任务发送到不同的设备上,这种处理方式也被称为任务并行编程。如果能够得到有效利用,向量运算和任务并行编程能够提供较之于标量、单处理器系统在运算性能上的巨大提升。
OpenCL代码包含两个部分:在主机上运行的代码以及在一个或多个设备上运行的代码。主机代码可以用一般的C或C++来编写,用来创建管理“主机-设备”通信的数据结构。主机选择相应的函数(被称为内核),放到命令队列之中,然后发送到设备上。与主机代码不同,内核代码使用的是OpenCL标准中所定义的高性能功能。
在这些新的数据结构和函数操作的闪耀之下,OpenCL会显得亲和力不够。但当你自己动手开始编写程序之后,就会发现它和一般的C和C++程序编写并没有多大不同。一旦能够熟练掌握基于向量的并行编程,写出自己的应用程序,你就再也不会留恋单核编程的日子了。
下一章,我们将开始OpenCL编程的探索之旅,介绍编写主机应用程序所需的主要数据结构。
[1] 译者注:也就是GPU-GPU或者CPU-GPU,这种协同完成任务的计算架构。
[2] 译者注:对这句话以及后文的“一次编写,各设备上运行的理解”的比较,其实想讨论的是language-neutral(语言无关), platform-neutral(平台无关)的问题。因为OpenCL程序比较的底层,所以只是language-neutral层面上的。拿OpenCL和JVM做对比是有意义的,两者所起的作用都是隔开高级语言和汇编语言的直接对话。
[3] 译者注:ISA(指令集体系架构)是计算机体系架构设计的有机组成,二者之间的紧密关系决定,即使是完成的功能相同,但指令集可能没有共同之处。
[4] 译者注:作者并没有在Concurrency(并发)和Parallelism(并行)两个概念之间的区别上做过多的解释,而两者之间的区别也看起来比较隐晦,归结起来,并发就是两个任务交替执行,但不一定是同一时间点上同时执行(例如单核机器上的多任务处理),而并行就是多任务同时进行(例如多核处理器上的多任务处理),前者是操作系统层面上的,而后者是体系结构层面上的。
转载地址:http://rdsgx.baihongyu.com/