Hot Chips 2017——人工智能近期的发展及其对计算机系统设计的影响（附PPT资料下载）

时间：07-24 来源：机器之心点击：

需要的图之后，还需要打开一个会话（Session）来运行整个计算图。在会话中，我们可以将所有计算分配到可用的 CPU 和 GPU 资源中。

如下所示代码，我们声明两个常量 a 和 b，并且定义一个加法运算。但它并不会输出计算结果，因为我们只是定义了一张图，而没有运行它：

a=tf.constant([1,2],name="a")b=tf.constant([2,4],name="b")result = a+bprint(result)#输出：Tensor("add:0", shape=(2,), dtype=int32)

下面的代码才会输出计算结果，因为我们需要创建一个会话才能管理 TensorFlow 运行时的所有资源。但计算完毕后需要关闭会话来帮助系统回收资源，不然就会出现资源泄漏的问题。下面提供了使用会话的两种方式：

a=tf.constant([1,2,3,4])b=tf.constant([1,2,3,4])result=a+bsess=tf.Session()print(sess.run(result))sess.close#输出 [2 4 6 8]with tf.Session() as sess:    a=tf.constant([1,2,3,4])    b=tf.constant([1,2,3,4])    result=a+b    print(sess.run(result))    #输出 [2 4 6 8]

TensorFlow + XLA 编译器

XLA（Accelerated Linear Algebra）是一种特定领域的编译器，它极好地支持线性代数，所以能很大程度地优化 TensorFlow 的计算。使用 XLA 编译器，TensorFlow 的运算将在速度、内存使用和概率计算上得到大幅度提升。

XLA 编译器详细介绍： https://www.tensorflow.org/performance/xla/
XLA 编译器开源代码： https://github.com/tensorflow/tensorflow/tree/master/tensorflow/compiler

TensorFlow 的优势

高性能机器学习模型

对于大型模型来说，模型并行化处理是极其重要的，因为单个模型的训练时间太长以至于我们很难对这些模型进行反复的修改。因此，在多个计算设备中处理模型并取得优秀的性能就十分重要了。如下所示，我们可以将模型分割为四部分，运行在四个 GPU 上。

高性能强化学习模型

通过强化学习训练的 Placement 模型将图（graph）作为输入，并且将一组设备、输出设备作为图中的节点。在 Runtime 中，给定强化学习的奖励信号而度量每一步的时间，然后再更新 Placement。

通过强化学习优化设备部署（Device Placement Optimization with Reinforcement Learning，ICML 2017）

论文地址：https://arxiv.org/abs/1706.04972

通过强化学习优化设备部署

降低推断成本

开发人员最怕的就是「我们有十分优秀的模型，但它却需要太多的计算资源而不能部署到边缘设备中！」

Geoffrey Hinton 和 Jeff Dean 等人曾发表过论文 Distilling the Knowledge in a Neural Network。在该篇论文中，他们详细探讨了将知识压缩到一个集成的单一模型中，因此能使用不同的压缩方法将复杂模型部署到低计算能力的设备中。他们表示这种方法显著地提升了商业声学模型部署的性能。