0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软研究院出品《数据科学基础》,放眼未来40年

DPVg_AI_era 来源:lq 2019-05-25 10:31 次阅读

微软研究院出品《数据科学基础》,放眼未来40年,PDF下载已开放。

计算机科学作为一门科学始于20世纪60年代。计算机科学的重点是编程语言、编译器、操作系统以及为这些领域提供支撑的数学理论。理论计算机科学课程涵盖有限自动机、正则表达式、无语境式语言和可计算性等。

自上世纪70年代开始,算法研究逐渐成为理论计算机科学的重要组成部分。 算法研究的重要目的是提升计算机的有用性。到了今天,计算机科学的发展正在发生根本性的变化,研究人员注意力和研究重点更多地放在了应用上。

产生这一变化的原因有很多,其中计算和通信技术的融合在这个过程中发挥了重要作用。同时,在自然科学、商业和其他领域,收集和存储数据的能力不断上升,这对数据的理解以及如何在现代环境中进行数据处理提出了更高的要求。网络和社交网络作在日常生活中核心地位的提升,也为理论计算机科学理论的发展提供了新的机遇和挑战。

虽然计算机科学的传统领域仍然非常重要,但未来将有越来越多的研究人员将使用计算机来理解和提取应用程序中出现的大量数据中的可用信息。考虑到这一点,我们写了这本书,希望本书可以涵盖我们期望在未来40年内有用的理论,本书与过去同类数据的一个主要变化是之一对概率、统计和数值方法更加重视。

目录及各章内容简介

本书更早的版本已用于本科和研究生课程教学使用。本科课程所需的背景材料在附录部分给出。包括信息处理,搜索和机器学习等各领域中的现代数据通常以具有大量组件的向量方式表示。向量表示不仅仅是用于存储记录的许多字段的簿记设备。实际上,向量的两个显着方面:几何(长度,点积,正交等)和线性代数(相关性,秩,奇异值等)结果是相关的。

第2章和第3章分别奠定了几何和线性代数的基础。更具体地说,就是当涉及到高维度时,我们对二维或三维空间的直觉可能出乎意料地出现偏差。

第2章阐述了理解这类偏差所需的基础知识。本章以及整本书的重点是多关注知识和思想以及数学基础,而不是特定的应用。

第3章重点介绍奇异值分解(SVD),这是处理矩阵数据的核心工具。本章给出了SVD的数学和算法的原理描述。奇异值分解的应用包括主成分分析,这是目前已经广泛使用的技术,以及对概率密度、离散优化等与统计学结合后的现代应用,对这类应用的描述相对详细。使用确定性方法探索web或大型系统的配置空间之类的大规模结构的成本可能会非常高。随机游走(又称马尔可夫链)经常是效率更高的处理方式。这种游走的固定分布对网络搜索物理系统模拟等应用非常重要。

随机游走的基础数学理论以及与电气网络的连接是第4章的核心内容。计算机科学在过去二十年中的一个巨大进步是,一些过去只能用在特定领域的方法,现在已经可以成功解决来自多个不同领域的问题。机器学习就是一个突出的例子。

第5章描述了机器学习的基础,示例算法都可以用于优化给定的训练样例,并能够理解并预见到这种算法优化能够在新的未知数据上获得良好性能。这其中涉及一些重要的量度,如Vapnik-Chervonenkis维度,以及一些重要的算法,如感知器算法,随机梯度下降,强化学习和深度学习,以及重要的概念,如正则化和过拟合。算法领域传统上假设问题的输入数据会呈现在随机存取存储器中,算法可以重复访问。而对于涉及大量数据的问题,这种方式是不可行的。在这种情况下,采样起着至关重要的作用,而且必须进行动态采样。

第6章主要探讨如何有效地绘制高质量样本,以及如何使用这些样本估计统计和线性代数变量。尽管第5章内容侧重监督学习,但是从标记训练数据中学习,无监督学习或从未标记数据中学习的问题同样重要。无监督学习的中心问题之一是聚类,我们将在第7章中讨论。。

在讨论了一些基本聚类方法(如k-means算法)之后,第7章重点介绍理解这些算法的现代发展过程,以及用于分析不同类型聚类问题的新算法和通用框架。对大型架构(如网络和社交网络)的理解的核心,是构建出能够获取这些架构的基本属性的有效模型。最简单的模型是由Erd¨os和Renyi制定的随机图,我们在第8章进行详细介绍。

第9章重点介绍从数据中寻求合理性的一些线性代数问题,尤其是主题建模和非负矩阵分解。除了讨论众所周知的模型之外,本章还描述了一些关于模型和算法的当前研究动态。

第10章讨论了排名和社会选择以及压缩感知等关于稀疏表示问题。此外还简要讨论了线性规划和半定规划。

微波是用于在一系列应用中表示信号的重要方法,本书第11章讨论微波一些基本数学特性。附录中给出了一系列背景材料。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6239

    浏览量

    103076
  • 数据科学
    +关注

    关注

    0

    文章

    163

    浏览量

    9981

原文标题:微软研究院出品《数据科学基础》,放眼未来40年(PDF下载)

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    微软内部对亚洲研究院未来持有不同看法

    四位消息人士披露,微软内部曾考虑过关闭或搬迁MSRA,但高层领导普遍倾向于维持实验室在中国的运作。目前,微软已在加拿大温哥华设立MSR分中心,部分研究员已被调配至此。此举旨在作为备用安置点,以应对可能面临的
    的头像 发表于 01-11 13:58 239次阅读

    OpenHarmony社区运营报告(202312月)

    人,华中科技大学人工智能与自动化学院副院长钟胜、网络空间安全学院副院长陈凯担任本次技术论坛的主持人,邀请到了北京大学计算机学院教授、副院长郭耀;中国科学院自动化研究所副总工程师、武汉人工智能研究院院长王
    发表于 01-10 15:44

    院士专家齐聚!京彩未来联合重点研究院创建数字空间联合实验室

    1月6日,京彩未来与北京大学数字中国研究院华南分院暨广东省数字广东研究院共同创建的“数字空间共同体联合室验室”正式挂牌运营。著名经济学家管清友博士、北京大学数字中国研究院华南分院暨广东
    的头像 发表于 01-08 18:15 146次阅读
    院士专家齐聚!京彩<b class='flag-5'>未来</b>联合重点<b class='flag-5'>研究院</b>创建数字空间联合实验室

    周礼栋对话比尔·盖茨:深入的科学研究比以往任何时候都更加重要

    特别策划了“智汇对话”系列内容,邀请全球各领域顶尖专家学者,与微软亚洲研究院院长周礼栋博士共同畅谈研究文化,探讨跨学科创新,展望技术未来。 2023年6月,
    的头像 发表于 12-12 15:55 178次阅读
    周礼栋对话比尔·盖茨:深入的<b class='flag-5'>科学研究</b>比以往任何时候都更加重要

    中国联通研究院副院长、首席科学家唐雄燕一行莅临中科驭数交流合作

    12月7日,中国联通研究院副院长、首席科学家唐雄燕莅临中科驭数参观调研, 中国联通研究院未来研究部总监曹畅、高级专家杨文聪陪同考察, 与中科驭数创始人、CEO鄢贵海以及公司管理团队就D
    的头像 发表于 12-08 18:40 303次阅读
    中国联通<b class='flag-5'>研究院</b>副院长、首席<b class='flag-5'>科学</b>家唐雄燕一行莅临中科驭数交流合作

    新华社研究院:商汤“商量”获评中国大模型市场未来领袖

    SenseChat ” 在定量实测的情商维度上,位居全部10款大模型第一 , 并在定性评估中入选大模型市场未来领袖象限 。此外,商汤赋能电力AI平台智能化升级的实践,也入围新华社研究院报告的“厂商最佳实践案例”。 新华社研究院
    的头像 发表于 11-29 18:30 279次阅读
    新华社<b class='flag-5'>研究院</b>:商汤“商量”获评中国大模型市场<b class='flag-5'>未来</b>领袖

    2023 CCF中国开源大会「开放科学——引领未来科学研究发展的新范式分论坛」成功举办

    10月22日,由开放原子开源基金会和CCF开源战略工作组联合出品,2023 CCF中国开源大会「开放科学——引领未来科学研究发展的新范式分论坛」圆满举行。本次论坛旨在探讨开放
    的头像 发表于 10-24 10:20 296次阅读

    科学匠人 | 边江:在研究院的七年“技痒”,探寻大模型助力AI与产业融合之道

    基础科研的创新为技术落地应用提供了动力,而来自真实世界的业务需求则为基础科研提供了灵感和方向。当人工智能进入大模型时代,什么样的技术创新才能更好地落地于产业?对此,微软亚洲研究院资深首席研究
    的头像 发表于 08-04 00:10 418次阅读
    <b class='flag-5'>科学</b>匠人 | 边江:在<b class='flag-5'>研究院</b>的七年“技痒”,探寻大模型助力AI与产业融合之道

    微软亚洲研究院否认撤离中国,但确认部分 AI 科学家将迁至温哥华

    6 月 19 日消息,针对有消息称微软公司旗下研究机构 微软亚洲研究院(MSRA)的 AI 顶级科学家从中国转移到温哥华,6 月 19 日上
    的头像 发表于 06-20 08:48 547次阅读

    中国科学院稀土研究院-PLC采集项目案例

    1.项目背景中国科学院稀土研究院(江西稀土研究院)隶属中国科学院。作为中国国内唯一专注于稀土科技创新的国立科研机构,中国科学院稀土
    的头像 发表于 06-14 09:11 533次阅读
    中国<b class='flag-5'>科学</b>院稀土<b class='flag-5'>研究院</b>-PLC采集项目案例

    中图仪器-陕西省计量科学研究院精密测量联合实验室揭牌成立

    5月29日,深圳市中图仪器股份有限公司-陕西省计量科学研究院精密测量联合实验室在陕西西安揭牌成立。依托精密测量联合实验室作为基地,双方将深化合作,强强联合,积极探索计量检测在国家智能制造战略下发
    的头像 发表于 06-08 09:53 328次阅读
    中图仪器-陕西省计量<b class='flag-5'>科学研究院</b>精密测量联合实验室揭牌成立

    软通动力执行副总裁彭强一行到访交通运输部水运科学研究院

    6月2日,软通动力执行副总裁彭强、高级副总裁秦张波等一行8人赴交通运输部水运科学研究院交流访问。交通运输部水运科学研究院李清副院长主持会议,其战略处、电控中心、航保中心、信息中心、装备中心、数据
    的头像 发表于 06-05 18:05 369次阅读
    软通动力执行副总裁彭强一行到访交通运输部水运<b class='flag-5'>科学研究院</b>

    中科发布“香山”与“傲来”两项开源处理器芯片

    ”(昆明湖)处理器设计。这也是国际上首次基于开源模式的处理器芯片联合开发实践。 2022,中国科学院已支持软件研究所、计算技术研究所、空天信息创新
    发表于 05-28 08:43

    微软发布 Azure Linux 正式版

    在内部使用 Azure Linux 两,并从 2022 10 月开始公开预览后,微软本周终于正式提供其 Azure Linux。Azure Linux 是 Azure Kubernetes
    发表于 05-28 08:34

    中国信通公布 5G 标准必要专利全球最新排名:华为第一、小米首次进入前十

    帮助全行业可持续发展目标的实现。 全球产业主体在积极参与5G标准制定的同时,也不断向欧洲电信标准化协会(ETSI)声明5G标准必要专利。为研究全球最新的5G标准必要专利声明情况,中国信息通信研究院
    发表于 05-10 10:39