ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2
大模型时代,模型压缩和加速显得尤为重要。传统监督学习可通过稀疏神经网络实现模型压缩和加速,那么同样需....
OpenAI要为GPT-4解决数学问题了:奖励模型指错,解题水平达到新高度
对于具有挑战性的 step-by-step 数学推理问题,是在每一步给予奖励还是在最后给予单个奖励更....
AI大模型「量子速读」,一分钟抵人类五小时
Claude 可以完成摘要总结、搜索、协助创作、问答、编码等任务。根据用户反馈,Claude 生成有....
OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子
可解释性研究的一种简单方法是首先了解 AI 模型各个组件(神经元和注意力头)在做什么。传统的方法是需....
Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型
为了解决这个问题,研究者建议在一组被掩膜的图像区域和它们对应的文本描述的收集的数据上对 CLIP 进....
正则化方法DropKey: 两行代码高效缓解视觉Transformer过拟合
美图影像研究院(MT Lab)与中国科学院大学在 CVPR 2023 上发表了一篇文章,提出一种新颖....
有哪些省内存的大语言模型训练/微调/推理方法?
首先,我们需要了解如何根据参数量估计模型大致所需的 RAM,这在实践中有很重要的参考意义。我们需要通....
重新审视Prompt优化问题,预测偏差让语言模型上下文学习更强
Prompt tuning 的关键思想是将任务特定的 embedding 注入隐藏层,然后使用基于梯....
高功率半导体激光器过渡热沉封装技术研究
摘要:近些年,在市场应用驱动下,半导体激光器的输出功率越来越高,器件产生的热量也在增加,同时封装结构....
X射线视觉搭配RFID会擦除怎样的火花?
根据相关研究人员表示,目前全球的供应链行业中,UHF RFID技术被各个国家广泛使用,有研究表明,在....
GPT-3、Stable Diffusion一起助攻,让模型听懂甲方修图需求
这里给模型的输入描述是「一只坐下的狗」,但是按照人们的日常交流习惯,最自然的描述应该是「让这只狗坐下....
Stable Diffusion采样速度翻倍!仅需10到25步的扩散模型采样算法
然而,扩散模型在使用上最大的问题就是其极慢的采样速度。模型采样需要从纯噪声图片出发,一步一步不断地去....
AI再卷数学界,DSP新方法将机器证明成功率提高一倍
我们以语言模型 Minerva为例。当在足够多的数据训练之后,我们发现它的数学能力非常强,可以在高中....
全新科学问答数据集ScienceQA让深度学习模型推理有了思维链
在回答复杂的问题时,人类可以理解不同模态的信息,并形成一个完整的思维链(Chain of Thoug....
单激光器实现最快数据传输纪录
有些时候,人们形容网络的效率「不如卡车运硬盘」:亚马逊 AWS 就有一种名为 snowmobile ....
浅析归纳偏置对模型缩放的影响
首次推导出不同归纳偏置和模型架构的标度律。研究者发现这个标度系数在不同的模型中有很大的不同,并指出这....
全球首款一站式处理因果学习完整流程的开源算法工具包
CausalModel. 确定感兴趣的因果量之后,识别因果图中的工具变量,操作因果图,识别因果效应(....
一种适合于工业-4.0应用的解决方案
omlox是用于精确实时室内定位系统的开放标准。omlox的重点是为可互操作的定位系统定义开放接口。....
微软亚洲研究院把Transformer深度提升到1000层
本周论文包括尤洋团队FastFold上线,训练时间从11天压缩至67小时;微软亚洲研究院直接把 Tr....
做时间序列预测是否有必要用深度学习
过去几年,时间序列领域的经典参数方法(自回归)已经在很大程度上被复杂的深度学习框架(如 DeepGI....
基于机器学习的效用和理论理解
机器学习领域近年的发展非常迅速,然而我们对机器学习理论的理解还很有限,有些模型的实验效果甚至超出了我....
简述北斗卫星导航系统建设与发展
第一部分:系统情况 目前在轨服务卫星共计45颗,包括北斗二号卫星15颗,北斗三号卫星30颗,健康状态....