0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NLP技术为什么这么难落地其中有什么困难

传感器技术 来源:未知 2019-02-03 12:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI 很火,但是 AI 的门槛也很高,普通的开发者想要搭上这波 AI 红利依然困难。

近期,人工智能公司推出了新一代智能 Bot 开放平台,它整合了小i机器人 Chatting Bot、FAQ Bot、Discovery Bot 三大核心能力,为企业和开发者提供智能机器人服务+人工在线服务+智能人机协作学习的完整使用闭环,除智能客服场景应用外,智能营销、智能外呼、智能硬件等多种不同类型的应用场景也将陆续开放。

平台开放的目的就是降低企业使用和拥有AI技术的成本与门槛,让企业和开发者快速开发出满足自身业务需求的智能服务系统或者具有智能交互能力的对话机器人。

近日,CSDN主编下午茶邀请到了小i机器人技术委员会轮值主席兼首席架构师李波,与我们一起探讨了NLP技术落地的难点,以及如何降低开发者门槛的问题,希望能对广大读者有所启发。

NLP的发展方向

AI科技大本营:能简单介绍下 NLP 技术吗?

李波:NLP 技术目前有两种,一种是基于规则,还有一种是基于统计。近年来,基于统计的 NLP 技术占据了上风,特别是深度学习出现之后,基于统计的 NLP 技术进展快很多。并不是说谁更优,或者谁更差,它们各有所长,比如基于统计的模型的泛化性比较好,但是它是一个黑盒。一些应用还需要两者结合使用,比如在问答系统中,有些机器回答并不是很友好,就可以利用基于规则的方法做补充,两者结合来达到产品化的程度。

抛开运算智能,人工智能主要包含两个层面,一个是认知智能,一个是感知智能。比如常见的语音识别、图像识别就属于感知智能的层面,目前比较成熟的 落地应用也比较多,而 NLP 则属于认知智能层面。NLP 往往需要结合上下文信息,甚至考虑背景知识、常识性知识等。另外,感知智能(如图片识别)的输入输出一般是单轮的(single-turn),但是 NLP 往往需要多轮的(multi-turn)交互后才能得到结果。目前 NLP 技术还处于发展的早起阶段,还有很多难点需要突破。

AI科技大本营:你觉得它未来还会有很快的进展吗?还有哪些需要探索的方向?

李波:常识和背景知识:用 NLP 做专业性很强的事情,可能效果会很好,反到是小概率简单的事情做不到,因为缺乏常识。想要解决这个问题就需要构建常识库,然后与模型结合,这是一个难点,也是大家比较愿意探索的一个方向。

多模态:人类是通过视觉、听觉等各种感观结合在一起来理解一件事情的,也就是多模态。假设 NLP 系统可以同时结合音频和视频来理解用户的意图,那么可能会有更大的突破。

预训练:这是近期大家可以尝试的一个热点。预训练在音频和图片领域已经得到了广泛应用,最近 Google 的 BERT 则是把预训练运用到了 NLP 领域,取得了不错的效果。这也是近期的一个热点,大家可以去尝试。

强化学习:在认知智能方面,强化学习也有些不错的方向。

NLP如何走出实验室

AI科技大本营:学术界的成果能够及时地应用到工业界吗?

李波:有些技术可以及时转化,有些技术还需要转化周期。这个转化周期意思就是说,我们要考虑商用模型的性能和准确率,此外还有其他的工程条件,满足这些标准之后,才可以把研究成果输出到产品。学术界训练一个模型只看最后的评价指标,也就是一个百分比的结果,但落地的时候考虑更多因素,比如一个准确率 99% 的模型,但剩下 1% 的工程化的工作量,不一定比99%工作量小。

AI科技大本营:从实验室到模型商用化落地,你们最关心什么?

李波:我们最关心的首先是要模型的可用性要达到工业化落地的标准,除此之外包括产品的 UI 设计、体验设计等也非常重要。NLP 不像图片和语音,在 UI 方面需要考虑的更多。比如机器翻译系统的准确率达到一定程度后,如果 UI 做得不好,用户体验不好,可能会对落地造成的很大的影响。这是一个系统化的工程,包括成本、用户体验,为客户带来多少价值等,都需要考虑。

AI科技大本营:关于 AI 创业公司落地难的问题,小i机器人有什么好的经验可以分享吗?

李波:跟图片和语音对比,NLP 特别难,NLP涉及到的多模态是它的一个难点。第二个难点是需要结合背景知识及常识。这两个问题在目前并没有很好的处理方式。小i 主要是结合基于规则+统计的方式,引入知识,比如我之前提到的领域语义库,目的就是融入常识和背景知识。最后就是个性化的问题,NLP 的输出往往和个体相关,不同的个体需要依据人物画像等信息给出不同的个性化的结果,这样才更接近人类的处理方式。

此外,NLP 的落地场景不是那么直接,需要结合客户或者是产品设计。比如做推荐,我们训练模型的关注点可能就是模型对应的几个指标,比如查准率等,但是客户看的是最后推荐的效果,也就是用户实际的评价和购买情况。因此,不管实验室的效果如何,在实际效果中,需要根据客户的反馈不断调整系统参数,调整训练数据,或者结合其他算法等等,以此来提高最终落地的效果。

上线运行之后,我们还需要根据运营的日志和客户的行为,再迭代模型,这是一个闭环。而不是说不结合实际场景,把模型训练好后直接投入使用,然后就不管了,不是这回事,需要根据运营的数据,不断调优迭代。

AI科技大本营:模型可控性的问题怎么解决?

李波:比如我们帮客户做的智能客服机器人,主要依靠混合模型引擎来达到可控的目的。另外也可以通过一些工程化手段来做到可控,如在问答中涉及到一些敏感的内容,我们可以通过前处理、后处理等方式及时干预,而无需更新模型、重启系统。在用户真实的使用过程中发现问题时,我们需要有渠道、有方法控制系统的输出,甚至逻辑,保证系统是可控的。

AI科技大本营:哪些方法可以使它可控?

李波:我们的混合模型引擎包含两种模型,一个是黑盒子,就是深度学习模型,另一个是语义理解模型,基于传统的语义表达式,可以用来做干预。语义理解模型可以直接通过语义表达式来进行更改,而深度学习模型想要干预则必须重新训练。因此我们可以让深度学习模型和语义理解模型同时作用,然后调整深度学习模型和语义理解模型的输出策略(如优先级策略等)来调优。

小i机器人如何收集数据?

AI科技大本营:小i机器人是如何积累数据的?

李波:主要是三个方面:第一,我们会通过爬虫去爬取相关的行业数据。第二,我们的云端产品产生的日志数据,会直接收集到我们的数据平台里。第三,客户提供的素材,我们会把它转化成数据和知识。

AI科技大本营:数据收集之后怎么处理?

李波:非结构化数据:首先我们会对收集到数据进行数据清洗,然后再按照知识的分类通过机器+人工方式将其归类,再通过一些手段(如规则等)做一些粗颗粒度的标注,之后由人工确认,确认完后入库。

半结构化数据:客户提供的原始带格式文档,通过格式规则分析或者机器学习模型等手段来进行分类或者聚类等辅助处理,然后再进行人工梳理,最后入库。

AI科技大本营:数据的处理靠机器和人工的结合?

李波:机器做前期辅助,人工做最终的确认,而不是机器处理之后直接入库。小i有一个大的数据平台和一个标注系统,还有一个实验室系统,共同运作来产生这些行业训练数据以及行业背景知识,然后以领域语义库的形式部署到实际系统中。

小i机器人如何赋能开发者?

AI科技大本营:现在有很多平台和工具可以帮助开发者去降低门槛,据我所知,小i最近也推出了新一代智能 Bot 开放平台,这个平台能给开发者带来什么?

李波:帮助中小企业或者开发者快速打造一个适应各种实际场景的AI系统。第一个落地的场景是智能客服,以问答能力为主,降低人工客服的成本。第二个应用场景是智能营销,以营销推荐为主,包括用户画像等,我们会在后期推出。第三个应用场景是智能外呼。后续我们还会推出更多的场景。开发者不仅可以直接使用这些场景,还可以基于每个场景的API来扩充应用的能力。

AI科技大本营:因为现在有各种各样的平台和工具,假设我是个新手,我就做一个小项目练练手,应该怎么做?

李波:这个平台的目的是降低开发者的门槛。开发者如果是自己收集数据,然后训练模型,开发周期很长,而且有很多的坑要趟。我们的这个平台有两个目标,第一,让用户可以直接使用;第二个,开发者可以基于这个平台扩充自己的能力。

使用我们的平台,开发者需要提供的数据只是问答的基本意图点,我们在底层有领域语义库做支撑,我们会自动在词的层面,在句法层面帮你扩充数据集,然后自动帮你去训练。

AI科技大本营:关于NLP技术的工程实践,您对开发者有什么建议吗?

李波:针对NLP的开发者有几点建议:首先,你要对相关技术有全面的了解,不一定要特别细化,这样对开发会有帮助;第二,一定要明确你的输入和输出;最后,开发者要更多地关注产品体验。

AI科技大本营:最后,您平时都是怎样自我学习的,有哪些经验可以分享下吗?

李波:互联网是一个非常好的渠道,我比较喜欢“碰到问题后在解决问题的过程中学习“的方式。如果你只是通过书本去学习,而忽略实践,就会比较虚。因此要结合实践,哪怕是做一些Demo尝试也可以。在尝试过程中遇到问题,然后通过各种方式去获取答案,而不是像学校里的传统方式去学习。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    30580

    浏览量

    219522
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296497
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23188

原文标题:NLP技术落地为何这么难?里面有哪些坑?

文章出处:【微信号:WW_CGQJS,微信公众号:传感器技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    H5412B降压恒流智能调光IC 建筑照明落地灯48V转9V芯片方案

    H5412B降压恒流智能调光IC 建筑照明落地灯48V转9V芯片方案 一、方案适配场景与核心参数:精准匹配建筑照明需求​ 在现代建筑照明领域,落地灯作为空间氛围营造的核心载体,其供电稳定性、调光
    发表于 11-27 10:09

    千家万业拥抱AI,谁为“最后一米”连接兜底?

    AI应用落地?问题可能不在大模型
    的头像 发表于 11-05 19:42 2515次阅读
    千家万业拥抱AI,谁为“最后一米”连接兜底?

    基于RFID技术的固定资产管理与出入库管理解决方案

    基于RFID技术的固定资产管理与智能出入库管理解决方案,解决资产数量庞大、折旧率监控、数据滞后、部门协同困难等痛点。了解RFID技术如何通过快速批量识别、精准追踪与监控;
    的头像 发表于 10-16 15:10 1189次阅读
    基于RFID<b class='flag-5'>技术</b>的固定资产管理与出入库管理解决方案

    什么是Wi-Fi 6 技术,在人们生活中有哪些便利应用

    silex希来科告诉您什么是Wi-Fi 6 技术,在人们生活中有哪些便利应用
    的头像 发表于 08-28 09:19 645次阅读
    什么是Wi-Fi 6 <b class='flag-5'>技术</b>,在人们生活<b class='flag-5'>中有</b>哪些便利应用

    汇川技术助力土耳其电梯厂商突破技术瓶颈

    土耳其Top 3电梯厂商Yükseliş冲击高端市场,却受困于高速梯核心技术瓶颈与海外方案落地,项目一度搁浅。如何破局?本期《千行百业有汇川》走进土耳其,看汇川技术如何以自研13m/
    的头像 发表于 08-14 13:01 686次阅读

    华兴变压器:绝缘寿命预测为何这么

    您在使用华兴变压器时,是不是也在疑惑:三相隔离变压器的绝缘寿命预测咋就这么呢?这可困扰着不少企业。先看绝缘材料的个体差异。即便是同一批次生产的绝缘材料,由于原材料微小杂质、生产时的温度湿度波动
    的头像 发表于 07-11 11:24 337次阅读
    华兴变压器:绝缘寿命预测为何<b class='flag-5'>这么</b><b class='flag-5'>难</b>?

    业界首款支持星闪车钥匙的智能手机亮相

    华为全新一代先锋影像美学旗舰Pura80系列手机重磅发布,其中有一项产品定位格外吸引业界的关注:业界首款支持星闪车钥匙的智能手机!
    的头像 发表于 06-13 11:09 2182次阅读

    如何在MCXN947板的FlexSPI接口接HyperRAM

    MCXN947芯片是一款高度集成的微控制器,具有强大的处理能力、丰富的外设支持和高级安全特性,适用于多种复杂应用。其中有个非常重要的外设为FlexSPI。
    的头像 发表于 06-04 09:39 1723次阅读
    如何在MCXN947板的FlexSPI接口接HyperRAM

    海康威视发布视觉大模型周界摄像机

    上周,我们发布了视觉大模型系列摄像机,其中有大模型加持的周界系列摄像机,误报率下降90%以上。
    的头像 发表于 03-11 18:12 1599次阅读

    DeepSeek一体机:加速AI训推超融合,推动行业智能化落地

    在人工智能技术迅猛发展的今天,大模型技术正加速从“实验室”迈向“产业场景”,然而数据工程复杂、模型适配、训练成本高等问题,仍是行业化落地的“拦路虎”。 华为DCS AI解决方案针对D
    的头像 发表于 02-20 11:14 1261次阅读
    DeepSeek一体机:加速AI训推超融合,推动行业智能化<b class='flag-5'>落地</b>

    达实智能近期五件大事

    乙巳蛇年开工以来 仅仅过去1周时间 达实智能发生了这几件大事 或许其中有你正在关心的 最热门的当下话题 一起来看!
    的头像 发表于 02-12 13:37 978次阅读

    为什么DAC7624只能输出3路模拟电压?

    请问版主,为什么我用的DAC7624只能输出3路模拟电压,其中有一路总存在比较严重的串扰。总用两个通道输出是一样的。 电路接法就是按照数据手册的典型应用,采用双电源供电的,输出范围在正负2.5V之间的 不知道,版主以及各位朋友,有没有遇到过类似的问题?
    发表于 02-11 07:19

    使用PIC的32位单片机控制ADS8361,连续采集ADS8361的输出其中有好几对一模一样的数据,为什么?

    使用PIC的32位单片机控制ADS8361,时钟频率80MHz,ADS8361设置在模式1工作。然后连续采集十次ADS8361的输出,每次间隔300ms,采集到的十个数,其中有好几对一模一样的数据
    发表于 01-17 08:21

    请问关于ADS5407内部寄存器有没有相关的中文介绍的?

    请问关于ADS5407内部寄存器有没有相关的中文介绍的?其中有几个寄存器的功能不是特别明白,麻烦啦
    发表于 01-17 07:36

    全球地理定位技术的发展历程

    根据 Google 提供的数据,目前有 5,465 颗卫星在环绕地球轨道运行,其中有 154 颗卫星主要用于导航。
    的头像 发表于 12-16 11:37 1560次阅读