随着深度学习模型在现实世界中的业务应用中变得越来越流行以及训练数据集变得越来越大,机器学习(ML)基础结构正成为许多公司中的关键问题。
为了帮助您了解ML基础架构的最新研究进展,我们总结了最近在该领域引入的一些最重要的研究论文。阅读这些摘要时,您将可以从领先的科技公司(包括Google,Microsoft和LinkedIn)的经验中学习。
我们选择的论文涵盖了数据标签和数据验证框架,用于ML模型的分布式训练的不同方法,用于跟踪生产中ML模型性能的新颖方法等等。
标记培训数据越来越成为部署机器学习系统的最大瓶颈。我们展示了Snorkel,这是首创的系统,它使用户能够训练最先进的模型而无需人工标记任何训练数据。相反,用户编写了表示任意试探法的标签函数,这些试探法可能具有未知的准确度和相关性。通过整合我们最近提出的机器学习范例数据编程的第一个端到端实现,Snorkel对输出进行了降噪处理而无须了解真实情况。我们根据过去一年与公司,代理商和研究实验室的合作经验,提供了一个灵活的接口层来编写标签功能。在用户研究中,主题专家构建模型的速度提高了2.8倍,平均预测性能提高了45倍。相对于7个小时的手工贴标,为5%。我们研究了在这种新设置中的建模权衡,并提出了用于自动权衡决策的优化器,该优化器可使每次管道执行的速度提高1.8倍。通过与美国退伍事务部和美国食品与药物管理局的两次合作,在代表其他部署的四个开源文本和图像数据集上,Snorkel的预测性能比以前的启发式方法平均提高了132%,并且不超过大型手工策展训练集的预测性能的3.60%。
-
函数
+关注
关注
3文章
4421浏览量
67819 -
机器学习
+关注
关注
67文章
8561浏览量
137208
发布评论请先 登录
从“能动”到“能用”:人形机器人规模化落地的关键挑战
人形机器人爆发背后,一个被忽视的核心技术:机器人运动学控制
复合机器人机械结构设计与创新:智能制造的前沿技术与发展趋势
机器学习和深度学习中需避免的 7 个常见错误与局限性
机器视觉的核心技术和应用场景
破解人形机器人投资回报密码:柔性智造如何重塑回收周期
太阳光模拟关于UV紫外老化测试的七个关键问题
机器学习基础结构正成为许多公司中的关键问题
评论