0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于无监督学习和图学习的大数据挖掘

1ujk_Tencent_TE 来源:腾讯技术工程官方号 2019-12-08 10:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在IJCAI-2019期间举办的腾讯TAIC晚宴和Booth Talk中,来自TEG数据平台的张长旺向大家介绍了自己所在用户画像组的前沿科研结果:

1. 非监督短文本层级分类;

2. 大规模复杂网络挖掘和图表示学习。

其所在团队积极与学术界科研合作,并希望有梦想、爱学习的实力派加入,共同研究和应用半监督/弱监督/无监督学习、小样本学习、大规模复杂网络挖掘和图表示学习等做大数据挖掘。

科研结果1:非监督短文本层级分类

首先以下用户和AI算法的对话,显示了现实业务中使用现有监督文本分类算法的遇到的一些困境和问题:

算法需要海量训练数据

算法模型用户不可控

算法不能很好的适应类目的变化

我们分析现有监督算法的主要问题在于没有真正的知识, 没有对于文本和类目的真正的理解。现有算法只是在学习大量人工标注训练样本里面的模式。为了解决这个问题,我们启动了一个叫做: 基于关键词知识与类目知识的非监督短文本层级分类的探索项目。

项目的主要思想是引入关键词和类目两种知识来帮助算法理解关键词和类目的含义。然后基于知识进行文本的分类和标注。关键词知识主要来自3个方面包括:关键词的网络搜索上下文、关键词的百科上下文、关键词到类目词的后验关联概率。我们提出类目语义表达式来支持用户表达丰富的类目本身和类目之间的关系的语义。这两样知识的引入帮助算法摆脱了对于大量人工标注训练样本的依赖,同时算法分类的过程做到了人工可理解,人工可控制。

pIYBAF3sZiCAD0NcAAGXC_cWyhc920.jpg

基于关键词和类目知识的无监督文本层级分类算法流程如下:

对文本提取关键词

根据关键词知识计算关键词到类目词的相关度词向量

根据关键词的相关度词向量计算文本的相关度词向量

根据文本的相关度词向量和类目语义表达式计算文本与每个类目的匹配度

每个文本被分为与之匹配度最高的类目

pIYBAF3sZiCAc4I1AAFF-PRpshM196.jpg

通过在两个文本分类数据集合上面的实验,我们发现,我们自研的算法能够在没有训练样本的情况下提供质量可用的结果,其一级类目准确率能够达到80%,并且明显高于现有其他非监督算法。

pIYBAF3sZiCAPnfmAAGamuFnOPU555.jpg

科研结果2:大规模复杂网络挖掘和图表示学习

Network Representation Learning 或者说 Graph Embedding 是复杂网络最新的研究课题,意在通过神经网络模型,把图结构向量化,为节点分类、链路预测、社团发现等挖掘任务提供方便有效的特征,以克服图结构难以应用到机器学习算法中的难题。

本次我们在IJCAI发表的学术论文“Identifying Illicit Accounts in Large Scale E-payment Networks - A Graph Representation Learning Approach”创新性提出结合边属性的图卷积神经网络模型,弥补了现有算法无法利用边属性为节点分类提供更多信息的不足。

pIYBAF3sZiCAf4jWAADyry40GSc801.jpg

现有的图学习算法,绝大部分都忽视了边上信息的价值。在这里我们提出了一种可以把边的信息传输到节点表示结果的改进的GCN算法。算法主要思路是在做GCN里面周边邻居节点向量的聚合计算之前,把每个节点连接边的Embedding向量拼接在对应邻居节点的Embedding向量后面。实验显示,我们的算法对于金融分类问题具有更优的结果。我们团队正在进一步优化模型,正在研发利用时序的GCN模型,以可以利用边的时序交互信息,从而更好的表示动态网络。

pIYBAF3sZiGAcZ4XAAGfvV5Mbk0987.jpg

pIYBAF3sZiGAVDl_AAEtrHfo7Kk905.jpg

同时,数平数据中心研发的Angel参数服务器平台,针对关系型数据结构,在计算性能上对图算法做了优化,极大加速了PageRank等算法的计算速度,比如计算用户中心度的Closeness算法,性能比基于Spark GraphX的算法提升了6.7倍。下图显示对于大型图的计算,我们Angle框架的速度具有明显的优势。

pIYBAF3sZiGANHYUAAEl0_C2wBk224.jpg

pIYBAF3sZiGAXUHmAAEim4GgRxY047.jpg

我们所在团队积极与学术界科研合作,并希望有梦想、爱学习的实力派加入,共同研究和应用半监督/弱监督/无监督学习、小样本学习、复杂网络挖掘和图表示学习做大数据挖掘。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4762

    浏览量

    97176
  • 大数据
    +关注

    关注

    64

    文章

    9031

    浏览量

    143089

原文标题:IJCAI2019报告:基于无监督学习和图学习的大数据挖掘

文章出处:【微信号:Tencent_TEG,微信公众号:腾讯技术工程官方号】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    强化 监督学习应用:无需NG样本的缺陷检测方案,解决工业数据标注难题 多模态融合技术:PaddleOCR+YOLOv8联动方案,实现\"文字识别+缺陷定位\"一体化 团购课程大纲
    发表于 12-04 09:28

    自动驾驶数据标注是所有信息都要标注吗?

    本身只是像素和点云。标注的工作就是人为地给这些信号贴上语义标签,告诉模型这是一辆车、这是行人、这是车道线、这个区域不能通行之类的明确信息。没有这些标签,监督学习、验证和评估都无法进行,模型不知道哪些输入与哪些输出应该
    的头像 发表于 12-04 09:05 397次阅读
    自动驾驶<b class='flag-5'>数据</b>标注是所有信息都要标注吗?

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战可(11大系列课程,共5000+分钟)

    (覆盖10+主流品牌),避免采购踩坑 3)稀缺技能强化 监督学习应用:无需NG样本的缺陷检测方案,解决工业数据标注难题 多模态融合技术:PaddleOCR+YOLOv8联动方案,实现\"文字
    发表于 12-03 13:50

    自动驾驶中常提的“强化学习”是个啥?

    下,就是一个智能体在环境里行动,它能观察到环境的一些信息,并做出一个动作,然后环境会给出一个反馈(奖励或惩罚),智能体的目标是把长期得到的奖励累积到最大。和监督学习不同,强化学习没有一一对应的“正确答案”给它看,而是靠与环境交互、自我探索来发现
    的头像 发表于 10-23 09:00 347次阅读
    自动驾驶中常提的“强化<b class='flag-5'>学习</b>”是个啥?

    学习物联网可以做什么工作?

    健康、智能制造等领域。以下是一些常见的职业方向: 物联网工程师:从事物联网系统的设计、开发、测试、维护和升级等工作,包括传感器、无线通信、云计算、大数据等技术的应用。   嵌入式软件工程师:负责开发
    发表于 10-11 16:40

    XKCON祥控输煤皮带智能机器人巡检系统对监测数据进行挖掘分析

    XKCON祥控输煤皮带智能机器人巡检系统通过智能机器人在皮带运行过程中对皮带的运行状态和环境状况进行实时检测,在应用过程中,不但提升了巡视周期频次,还通过大数据分析和深度学习算法,对监测数据进行
    的头像 发表于 09-15 11:22 427次阅读
    XKCON祥控输煤皮带智能机器人巡检系统对监测<b class='flag-5'>数据</b>进行<b class='flag-5'>挖掘</b>分析

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    的基本理论。了解监督学习监督学习和强化学习的基本原理。例如,在监督学习中,理解如何通过标注数据
    发表于 07-08 17:44

    机器学习异常检测实战:用Isolation Forest快速构建标签异常检测系统

    本文转自:DeepHubIMBA监督异常检测作为机器学习领域的重要分支,专门用于在缺乏标记数据的环境中识别异常事件。本文深入探讨异常检测技术的理论基础与实践应用,通过Isolatio
    的头像 发表于 06-24 11:40 1212次阅读
    机器<b class='flag-5'>学习</b>异常检测实战:用Isolation Forest快速构建<b class='flag-5'>无</b>标签异常检测系统

    使用MATLAB进行监督学习

    监督学习是一种根据未标注数据进行推断的机器学习方法。监督学习旨在识别
    的头像 发表于 05-16 14:48 1190次阅读
    使用MATLAB进行<b class='flag-5'>无</b><b class='flag-5'>监督学习</b>

    硬件原理学习笔记

    这一个星期认真学习了硬件原理的知识,做了一些笔记,方便以后查找。硬件原理分为三类1.管脚类(gpio)和门电路类输入输出引脚,上拉电阻,三极管与门,或门,非门上拉电阻:正向标志作用,给悬空的引脚
    的头像 发表于 04-30 18:40 1252次阅读
    硬件原理<b class='flag-5'>图</b><b class='flag-5'>学习</b>笔记

    大数据与云计算是干嘛的?

    大数据与云计算是支撑现代数字化技术的两大核心。大数据专注于海量数据的采集、存储、分析与价值挖掘;云计算通过虚拟化资源池提供弹性计算、存储及服务能力。两者结合,共同赋能企业决策、业务创新
    的头像 发表于 02-20 14:48 1278次阅读

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习模型市场的未来发展。
    的头像 发表于 02-13 09:39 628次阅读

    迭代学习闭环系统simulink仿真

    其中包含了迭代学习的仿真,输入数据,控制程序等
    发表于 01-03 15:30 0次下载

    传统机器学习方法和应用指导

    用于开发生物学数据的机器学习方法。尽管深度学习(一般指神经网络算法)是一个强大的工具,目前也非常流行,但它的应用领域仍然有限。与深度学习相比,传统方法在给定问题上的开发和测试速度更快。
    的头像 发表于 12-30 09:16 1986次阅读
    传统机器<b class='flag-5'>学习</b>方法和应用指导

    学习硬件的第一节课:学习读懂原理

    学习硬件的第一节课:学习读懂原理 读懂原理对嵌入式软件工程师和程序员尤为重要。在深入细节之前请注意,对所有的嵌入式设计人员来说、能懂得硬件工程师创建和使用的来描述其硬件设计的原理
    的头像 发表于 12-16 16:04 3693次阅读
    <b class='flag-5'>学习</b>硬件的第一节课:<b class='flag-5'>学习</b>读懂原理<b class='flag-5'>图</b>