0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TensorFlow正式发布1.5.0,使Volta GPUs/FP16上的训练速度翻倍

DPVg_AI_era 2018-01-29 15:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

TensorFlow今天正式发布了1.5.0版本,支持CUDA 9和cuDNN 7,进一步提速。并且,从1.6版本开始,预编译二进制文件将使用AVX指令,这可能会破坏老式CPU上的TF

刚刚,TensorFlow发布了1.5.0正式版,很多人都期待已久,最重大的改动是支持CUDA 9和cuDNN 7,这承诺将使Volta GPUs/FP16上的训练速度翻倍。

此外,Eager execution预览版可用,也将吸引不少初学者。

下面是这次更新的重大变动及错误修复。

TensorFlow正式发布1.5.0,使Volta GPUs/FP16上的训练速度翻倍

重大变动

现在预编译的二进制文件是针对CUDA 9和cuDNN 7构建的。

从1.6版本开始,预编译二进制文件将使用AVX指令。这可能会破坏老式CPU上的TF。

主要特点和改进

Eager execution

预览版现在可用。

TensorFlow Lite

dev预览现在可用。

提供CUDA 9和cuDNN 7支持。

加速线性代数(XLA):

将complex64支持添加到XLA编译器。

bfloat支持现在被添加到XLA基础设施。

使ClusterSpec propagation与XLA设备一起工作。

使用决定性执行程序来生成XLA图。

tf.contrib:

tf.contrib.distributions:

添加tf.contrib.distributions.Autoregressive。

使tf.contrib.distributions QuadratureCompound类支持批处理

从参数中推断tf.contrib.distributions.RelaxedOneHotCategorical dtype。

使tf.contrib.distributions正交族参数化为quadrature_grid_and_prob vs quadrature_degree。

auto_correlation添加到tf.contrib.distributions

添加tf.contrib.bayesflow.layers,一个概率(神经)层的集合。

添加tf.contrib.bayesflow.halton_sequence。

添加tf.contrib.data.make_saveable_from_iterator。

添加tf.contrib.data.shuffle_and_repeat。

添加新的自定义转换:tf.contrib.data.scan()。

tf.contrib.distributions.bijectors:

添加tf.contrib.distributions.bijectors.MaskedAutoregressiveFlow。

添加tf.contrib.distributions.bijectors.Permute。

添加tf.contrib.distributions.bijectors.Gumbel。

添加tf.contrib.distributions.bijectors.Reshape。

支持形状推理(即,包含-1的形状)在Reshape bijector。

添加streaming_precision_recall_at_equal_thresholds,streaming精度计算方法和 O(num_thresholds +预测的大小)时间和空间的复杂性。

更改RunConfig默认行为,不设置随机种子,使得随机行为在分布式Worker上独立随机。期待这一点普遍提高训练效果。依靠determinism的模型应明确设置一个随机种子。

用absl.flags取代了tf.flags的实现。

在fp16 GEMM中添加对CUBLAS_TENSOR_OP_MATH的支持

在NVIDIA Tegra设备上添加对CUDA的支持

错误修复和其他更改

文档更新:

说明只能在64位机器上安装TensorFlow。

添加了一个简短的文档,解释了Estimators如何保存检查点。

为tf2xla网桥支持的操作添加文档。

修复SpaceToDepth和DepthToSpace文档中的小错别字。

在mfcc_mel_filterbank.h和mfcc.h中更新了文档注释,说明输入域是幅度谱的平方,权重是在线性幅度谱(输入的平方)上完成的。

更改tf.contrib.distributions docstring示例以使用tfd别名,而不是ds,bs。

修复tf.distributions.bijectors.Bijector中的文档字符串错别字。

tf.assert_equal不再引发ValueError。现在提出InvalidArgumentError。

更新入门文档和API介绍。

Google云端存储(GCS):

为GCS客户端添加用户空间DNS缓存。

为GCS文件系统定制请求超时。

改进GCS文件系统缓存。

Bug修复:

修正分区整型变量得到错误形状的问题。

修正Adadelta的CPU和GPU实现中的correctness bug。

修复import_meta_graph在处理分区变量时的错误。警告:这可能会破坏使用带有非空的import_scope参数的import_meta_graph后保存的分区变量的图形加载检查点。

修复离线调试器中阻止查看事件的错误。

将WorkerService.DeleteWorkerSession方法添加到gRPC接口来修复内存泄漏。确保主服务器和工作服务器运行相同版本的TensorFlow,以避免兼容性问题。

修复BlockLSTM单元的窥视孔peephole实现中的bug。

通过将dtype的log_det_jacobian转换为与TransformedDistribution中的log_prob匹配来修复bug。

修复import_meta_graph在处理分区变量时的错误,确保tf.distributions.Multinomial不会在log_prob中下溢。在这个变化之前,整型变量的所有分区都用未分区变量的形状初始化; 在这个改变之后他们被正确地初始化。

其他

为bfloat16添加必要的形状util支持。

添加一个方法来使用MonitoredSession的step函数运行ops。

添加DenseFlipout概率层。

训练时有一个新的标志ignore_live_threads。如果设置为True,它会在成功完成训练后,忽略在拆除基础架构时仍然运行的线程,而不是抛出一个RuntimeError。

重新标准化DenseVariational作为其他概率的简单模板层。

tf.data现在支持数据集元素中的tf.SparseTensor组件。

现在可以遍历Tensors。

允许SparseSegmentReduction操作缺少段ID。

修改自定义导出策略以说明多维稀疏浮动分割。

Conv2D,Conv2DBackpropInput,Conv2DBackpropFilter现在支持具有GPU和cuDNNv6支持的任意扩展。

估算器现在支持数据集:input_fn可以返回数据集,而不是张量。

添加RevBlock,这是可逆残留层的高效内存实现。

减少BFCAllocator内部碎片。

将cross_entropy和kl_divergence添加到tf.distributions.Distribution。

添加启用反向传播的tf.nn.softmax_cross_entropy_with_logits_v2w.r.t.标签

GPU后端现在使用ptxas编译生成的PTX。

BufferAssignment的协议缓冲区转储现在是确定性的。

将嵌入操作更改为使用DynamicStitch的并行版本。

添加对稀疏多维特征列的支持。

加快只有1个值的稀疏浮点列的情况。

允许稀疏浮动分割以支持多值特征列。

将分位数添加到tf.distributions.TransformedDistribution。

在GPU上添加对tf.depth_to_space的NCHW_VECT_C支持。

在GPU上为tf.space_to_depth添加NCHW_VECT_C支持。

API的更改

在Squeeze操作的C ++ API中将SqueezeDims属性重命名为Axis。

Stream :: BlockHostUntilDone现在返回Status而不是bool。

次要重构:将统计文件从随机移动到常见并移除随机。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11216

    浏览量

    222949
  • TF
    TF
    +关注

    关注

    0

    文章

    62

    浏览量

    33682
  • tensorflow
    +关注

    关注

    13

    文章

    331

    浏览量

    61855

原文标题:TensorFlow正式发布1.5.0,支持CUDA 9和cuDNN 7,双倍提速

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    FPGA中使用FP16格式的点积运算实例分析

    本文讲述的是使用FP16格式的点积运算实例,展示了MLP72支持的数字类型和乘数的范围。
    发表于 08-15 09:50 2661次阅读
    FPGA中使用<b class='flag-5'>FP16</b>格式的点积运算实例分析

    FP16转换报错的原因?

    FP32转换正常,FP16转换报错(model_transform正常) 运行命令为: model_deploy.py--mlir
    发表于 01-10 08:01

    为什么无法将TensorFlow自定义模型转换为IR格式?

    TensorFlow* 自定义模型转换为 IR 格式: mo --data_type FP16 --saved_model_dir--input_shape (1,150,150,3
    发表于 03-05 07:26

    Optimum Intel / NNCF在重量压缩中选择FP16模型的原因?

    无法确定使用 Optimum Intel / NNCF 在重量压缩中选择 FP16 模型的原因。
    发表于 03-06 06:04

    将预先训练的固态盘MobileNetV2模型转换为IR,在运行替换器“REPLACEMENT_ID”时发生异常错误怎么解决?

    [1,300,300,3]--reverse_input_channels--output_dir output_ncs--data_type FP16 遇到错误:[ 错误 ]在运行替换器
    发表于 03-07 08:01

    将Whisper大型v3 fp32模型转换为较低精度后,推理时间增加,怎么解决?

    将 openai/whisper-large-v3 FP32 模型转换为 FP16、INT8 和 INT4。 推理所花费的时间比在 FP32 花费的时间要多
    发表于 06-24 06:23

    实例!详解FPGA如何实现FP16格式点积级联运算

    MLP72的列级联到上面的下一个MLP72块。在最后一个MLP72中,在每个周期,计算八个并行FP16乘法的总和。最终结果是多个输入周期内的累加总和,其中累加由i_first和i_last输入控制
    发表于 08-18 10:58

    详解天线系统解决方案中的FP16格式点积级联运算

    MLP72 的列级联到上面的下一个 MLP72 块。在最后一个 MLP72 中,在每个周期,计算八个并行 FP16 乘法的总和。最终结果是多个输入周期内的累加总和,其中累加由 i_first
    发表于 09-04 16:12

    推断FP32模型格式的速度比CPUFP16模型格式快是为什么?

    在 CPU 推断出 FP32 模型格式和 FP16 模型格式。 FP32 模型格式的推断速度FP
    发表于 08-15 08:03

    谷歌TensorFlow 2.4 Mac M1优化版发布

    搭载 Apple 全新 M1 芯片或 Intel 芯片 Mac 的 利用 TensorFlow 2.4 Mac 优化版和新的 ML Compute 框架来加快训练速度。这些改进提升了
    的头像 发表于 12-04 10:11 1817次阅读

    NVIDIA GPU架构下的FP8训练与推理

    FP8 训练利用 E5M2/E4M3 格式,具备与 FP16 相当的动态范围,适用于反向传播与前向传播。
    的头像 发表于 04-25 10:01 3904次阅读
    NVIDIA GPU架构下的<b class='flag-5'>FP</b>8<b class='flag-5'>训练</b>与推理

    tensorflow简单的模型训练

    在本文中,我们将详细介绍如何使用TensorFlow进行简单的模型训练TensorFlow是一个开源的机器学习库,广泛用于各种机器学习任务,包括图像识别、自然语言处理等。我们将从安装
    的头像 发表于 07-05 09:38 1707次阅读

    FP8在大模型训练中的应用

    越来越多的技术团队开始使用 FP8 进行大模型训练,这主要因为 FP8 有很多技术优势。比如在新一代的 GPU FP8 相对于 BF
    的头像 发表于 01-23 09:39 1897次阅读
    <b class='flag-5'>FP</b>8在大模型<b class='flag-5'>训练</b>中的应用

    计算精度对比:FP64、FP32、FP16、TF32、BF16、int8

    本文转自:河北人工智能计算中心在当今快速发展的人工智能领域,算力成为决定模型训练与推理速度的关键因素之一。为了提高计算效率,不同精度的数据类型应运而生,包括FP64、FP32、
    的头像 发表于 06-26 11:09 2097次阅读
    计算精度对比:<b class='flag-5'>FP</b>64、<b class='flag-5'>FP</b>32、<b class='flag-5'>FP16</b>、TF32、BF<b class='flag-5'>16</b>、int8

    小白必读:到底什么是FP32、FP16、INT8?

    网上关于算力的文章,如果提到某个芯片或某个智算中心的算力,都会写:在FP32精度下,英伟达H100的算力大约为0.9PFlops。在FP16精度下,某智算中心的算力是6.7EFlops。在INT8
    的头像 发表于 10-20 14:34 625次阅读
    小白必读:到底什么是<b class='flag-5'>FP</b>32、<b class='flag-5'>FP16</b>、INT8?