0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

互联网在进化,互联网的语言也在进化

电子工程师 来源:未知 作者:李倩 2018-07-03 11:35 次阅读

流言止于智者,聊天止于呵呵。

在 2013 年之前,“呵呵”还只是呵呵,然而风云突变,这个一直被用作表达礼貌、微笑的词汇,却在 2013 年被网友评选为年度最伤人聊天词汇。如果以前的“呵呵”是尴尬而不失礼貌的微笑,现在则是充满嘲讽和攻击性的一个词。

时间来到 2018 年,互联网上最让讨厌的已经不再只有喷子,各种阴阳怪气的言论,比如“呵呵”,比如“你开心就好”,简直让人浑身难受,这种喜欢抬杠的人我们称之为“杠精”。

互联网在进化,互联网的语言也在进化,互联网的监管技术也在进化。在这场很难设定边界的对抗中,知乎已经率先向杠精开战。

▌什么是阴阳怪气?

想要对抗阴阳怪气,首先就要给它下一个准确的定义,然而这十分困难。

YC 联合创始人保罗·格雷厄姆将人跟人之间的意见不统一、反对、冲突分成了七个层级,叫 Disagreement Hierarchy(以下简称 DH 值),如下图所示:

阴阳怪气可用“杠精”这个词来指代,通常以“不针对发言内容,而是批评对方的语气”以及“提出反对意见,但不给或给出极少数论据支持”这两类常见言论为代表,此类评论极大了伤害创作者和交流者的体验,但难以解决。

——以上是知乎给出的定义。

当然,也有一些具体的例子,比如:呵呵,你厉害,你咋不上天呢,自以为是的人等等。而根据知乎 6 月的最新统计数据,被知友们踩过次数最多的 Top 10 评论有下面几种:

那你可真是够棒的!

你还是省省吧!

你开心就好。

相信大部分读者都对这些言论都非常熟悉,而且记忆犹深,毕竟被抬杠并不是一种好的体验。知乎给出的解决方案是:「阴阳怪气」等严重影响大家讨论体验的评论,作者可以「一键折叠」,其他知友也可以点「踩」,当被踩评论的分值达到一定阈值后,评论会被自动折叠。

除了依靠用户的自发行为之外,知乎也在尝试利用算法来识别阴阳怪气的言论。

▌如何对抗阴阳怪气?

作为知乎的“当家机器人”,瓦力算法除了作用于社区内的不友善、答非所问以及低质提问等内容外,最近也正在优化识别阴阳怪气类内容的模型。

根据知乎内容质量团队技术负责人刘兆来的说法,“瓦力已经产品化很久了,过去通过关键词和不友善文本识别模型,可以处理辱骂类的文本;目前,我们希望通过对阴阳怪气类的杠精性质评论进行处理,提升用户体验。”

刘兆来详细介绍了“瓦力”最新的阴阳怪气技术方案:首先通过知乎社区里的举报、反对等负向用户行为收集训练数据。然后通过各种同义词替换、规则模版方式对训练数据进行扩展,以缓解训练数据不足的问题。同时,“瓦力”提取文本、句法、表情符等特征,并利用一个带 attention 的 CNN 和 LSTM 的融合模型进行分类,最终判断出内容是否为阴阳怪气。

具体来说,可以分为以下几个步骤:

首先,进行数据增强,以提升模型的泛化能力;

数据增强是为了提升模型在大量数据上的泛化能力。在这方面,知乎进行了两种尝试:提取阴阳怪气关键词做替换,比如同音异字变换,洗地党→洗涤党,真的很恶心 → 震得很恶心;此外,知乎也利用提取出的阴阳怪气关键样本,随机构造评论上文与评论。

其次,提取相关数据特征,利用卷积网络以及人工特征等来获得更多更详细的特征;

特征构建层方面,知乎从文本特征、数值特征、阴阳怪气词以及表情词着手。文本特征即文本加入阴阳怪气关键词进行分词后,保留标点,表情等;数值特征即句子长度,句号数量,感叹号数据等;阴阳怪气词即提取社区内被踩过很多次的表示阴阳怪气关键词;表情特征:划分正负样本表情。

最后,将提取出的特征输入分类器。

特征学习层方面,主要考虑了评论和上文的文本特征,包括字,词,标点,表情符号等,并利用知乎全量数据训练 word2vec 模型。知乎将评论上文与评论经过 embedding 层后分成两个金字塔型 CNN 网络,目的是训练各自独立的参数,知乎采取 CNN 网络是因为 CNN 卷积可以捕获字词的位置关系也可以比较有效的提取特征。

除上述文本特征外,知乎也充分考虑了其它特征,比如评论长度,评论中句号,问号等标点的个数,评论中是否包含阴阳怪气关键词等;这些特征离散化后,与评论的卷积提取特征进行拼接,最后与评论上文的卷积输出进行 dot-attention 目的是获取评论上文与评论不同的权重。最后,知乎将特征数据全连接层以 softmax 方式进行了分类。

至于这个模型对阴阳怪气的效果如何,知乎运营总监孙达云表示,其准确率比大部分人工判断还要准。

▌难点在哪里?

然而,机器并不是总能解决所有问题,很多时候人工智能会表现的像人工智障。这一点,知乎自己也承认,特别是在理解人类语言这一领域。

上图是刘兆来列举的一些算法漏识别和误识别的情况:

通过分析这些 bad case,现代模型主要受限于训练数据。一方面是训练数据的覆盖范围不够广,所以一些不是很常见的词语,模型就会识别不出来。比如算法漏识别里的第二条,这些词在训练里面比较少,甚至在模型里面没有这些词,所以模型会识别错误。

第二个类型的错误,模型过渡弥合了一些数据,比如前面两条比较明显。第一条就是因为我们加入了一些标点符号数据特征,可能在训练数据里面有连续两个问号这种属于阴阳怪气的概率比较高。第二个,“哈哈哈”可能在阴阳怪气的样本里面比较多,所以模型会把这两个特征作为是不是阴阳怪气比较重要的根据,就会导致误判。

反讽本身是情感分析领域的一个传统难题,在孙达云看来,“解决阴阳怪气类评论的难点核心主要在于网络语言的复杂性,情感分析不同于普通文本分析,例如经典的‘呵呵’,由于双方不同关系、说话的不同场景和时间都会带来迥然不同的表意。即便是人工判定都存在标准化难度,算法模型的训练挑战就更为艰辛。”

总的来说,这项艰巨的任务的难点主要在于以下几点:

需要基于上下文理解深层语义

需要了解某些背景知识

训练样本难获取

……

面对这些问题,刘兆来介绍未来的工作重点:

训练数据获取。因为训练数据标注特别困难,后边会通过主动学习(ActiveLearning)来减少样本标注的时间和工作量。

语义分析。首先会尝试加入词语的褒贬样本,就是一些谐音语句;第二个就是在词表征方面,会尝试 ELMO 的算法,最近 ELMO 词向量在多个 NLP 任务能取得提升,ELMO 词向量利用双向 LSTM 训练获得,可以捕获上下文信息以及更深层的语义;还有就是尝试比较复杂的模型。

背景知识。不同领域会有一些用词的区别,未来会对于体育、明星等领域分别建立模型。

AI 的边界?

人工智能是建立在人类标准之上的,它代表的也是人类的价值观。然而,人们对“阴阳怪气”的定义仍然模糊,不同的人针对同一个评论也会有很大的分歧。知乎在做的,就是找到社区的最大公约数。

不同的人对于同一个内容会有不同的判断,这个没有问题,但是如果绝大多数人都认为这条评论内容是不礼貌的,它是冒犯性的,我们就需要对这条内容进行标记、进行干预,我们通过算法训练已经无限接近了最大公约数的概念。

人类可以接受人类犯错,但是很难接受机器犯错,特别是在机器做的还没有人类好的情况下。此外,用人工智能去管理人类,其实是很大冒险。有知友表示,“把社区越多的控制权交给社区,其实越会导致社区畸形,这是人性问题,不能通过人工智能解决。”

戴维·温伯格在《知识的边界》一书里写道:知识的网络化正在对知识的本质以及长形式思考在其中发挥的作用,带来一些根本性的变化。如果书籍告诉我们,知识是从 A 到 Z 的漫长旅程,那么网络化的知识可能会告诉我们,世界并非是一个逻辑严密的论证,而更像是一个无定形的、相互交织的、不可掌控的大网。

人类掌控不了的就寄希望于人工智能,于是我们努力去拓展 AI 的边界。至于它最终会不会让我们失望?这就需要留给时间去验证了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    54

    文章

    10845

    浏览量

    100520
  • 人工智能
    +关注

    关注

    1773

    文章

    43356

    浏览量

    230123

原文标题:呵呵,你开心就好!——AI向杠精宣战

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    联想将进军互联网

    丰富的移动互联网终端,包括个人电脑、互联网手机、平板电脑等。  “互联网电视上,我们已经做了很长时间的研究和开发,相信用户不会等太久。希望通过与百视通的合作,在用户所经常接触信息的四
    发表于 03-18 10:48

    互联网电视迅速崛起

    互联网电视功能得到进一步完善,并在彩电市场大行其道。2010年互联网电视终于成为家庭娱乐电视的标准配备。2010年则有19个品牌销售互联网功能的电视。 2008年
    发表于 03-22 11:31

    互联网上的历史资料谁来保存

    保存计划,将互联网上的内容保存下来——涵盖杂志,图书,学术论文,文学,新闻,评论,包括 Twitter 和 Facebook 上公开发布的内容,都会收集存底,以便做历史研究使用。初始项目将会从 500
    发表于 09-17 17:07

    互联网知识分享交流

    互联网交流,你了解互一起讨论一下吧联网+吗,查看世界工厂网网页,你会了解更hulianwang多的hulian互联网知识哦
    发表于 12-29 15:25

    能源互联网是什么?通俗的解释能源互联网

      发现很多人对某些词汇给的定义概念不是理解的很透彻,果然很多东西还是需要通俗的去解释,运用生活上的例子,大家才会理解的比较透彻,所以今天通俗的给大家解释一下什么是能源互联网。 试想下未来,人们
    发表于 01-14 11:47

    工业互联网

    工业互联网是全球工业系统与高级计算、分析、感应技术以及互联网连接融合的结果。它通过智能机器 间的连接并最终将人机连接,结合软件和大数据分析,重构全球工业、激发生产力,让世界更美好、更快速、更安全、更
    发表于 01-25 09:29

    工业互联网

    工业互联网是全球工业系统与高级计算、分析、感应技术以及互联网连接融合的结果。它通过智能机器 间的连接并最终将人机连接,结合软件和大数据分析,重构全球工业、激发生产力,让世界更美好、更快速、更安全、更
    发表于 04-17 15:56

    读什么,互联网时代找到真实

    如今互联网时刻影响着人们的生活,说影响着世界格局不为过。甚至两会的答记者问上,也有记者问******,“最近是否网购过”。现在的人,没有网,或许就像突然断电。不仅是成人世界
    发表于 05-23 13:48

    技术与互联网+

    急急急!!!!!!!!!!!请问,如果用单片机做出了一个作品,互联网+可以怎么用的上我的作品?除了用互联网卖出去,还可以怎么办呢
    发表于 07-03 22:53

    互联网与工业物联网之间的区别与联系

    联网不能完全替代互联网,而互联网不能满足工业物联网的发展需求,只能说未来很长一段时间内,两者
    发表于 06-14 10:18

    CRM互联网行业的应用

    销售覆盖”的市场抢占策略上,力争最快、最精准的对接目标客户,从而成为垂直领域的龙头,因此,CRM互联网行业的应用日趋普遍。 互联网行业的业务挑战1.地推团队庞大,能力参差不齐。 如
    发表于 08-28 14:30

    空间互联网天线设计

    如鸟儿展翅,如飞机翱翔,未来的数据共享方式是如此的快捷、自由。环绕地球运行的卫星有可能彻底地改变人类收集与共享信息的方式。相比于有线或无线数据网络,以卫星系统为基础的空间互联网(Internet of Space,简称 IoS)技术能够向全球各地,甚至是最偏远的地区提供网络接入服务。什么是空间
    发表于 07-16 07:31

    什么是产业互联网

    2018年10月,腾讯宣传进军产业互联网;2019年9月,腾讯完成了史上最大的组织架构调整,新成立云与智慧产业事业群,正式发力产业互联网;2020年1月,腾讯发布《2020产业安全报告:产业互联网
    发表于 01-18 11:40

    为什么说产业互联网互联网的下半场?

    消费互联网改变的是商品销售方式,产业互联网改变的是生产和供给方式,而终极目标是产消协同的数字化社会!因此,产业互联网要求企业通过“智能化、数字化、网络化”手段全方位赋能产业链的上下游、生产体系、组织结构、运作方式等各个环节,推动
    发表于 01-18 11:42

    互联网公司为什么要学C语言?精选资料分享

    互联网作为当下最有“钱景”的行业之一,那么今天我们就聊聊,C语言这个做互联网行业影响究竟有多大呢?这里推荐一下我建的C/C++语言学习交流秋秋裙,前三位是:110,中间三位是:355,
    发表于 07-22 07:16