0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

探讨NLP技术落地的难点及如何降低开发者门槛的问题

电子工程师 来源:cc 2019-01-10 09:06 次阅读

AI 很火,但是 AI 的门槛也很高,普通的开发者想要搭上这波 AI 红利依然困难。

近期,人工智能公司推出了新一代智能 Bot 开放平台,它整合了小i机器人 Chatting Bot、FAQ Bot、Discovery Bot 三大核心能力,为企业和开发者提供智能机器人服务+人工在线服务+智能人机协作学习的完整使用闭环,除智能客服场景应用外,智能营销、智能外呼、智能硬件等多种不同类型的应用场景也将陆续开放。

平台开放的目的就是降低企业使用和拥有AI技术的成本与门槛,让企业和开发者快速开发出满足自身业务需求的智能服务系统或者具有智能交互能力的对话机器人。

近日,CSDN主编下午茶邀请到了小i机器人技术委员会轮值主席兼首席架构师李波,与我们一起探讨了NLP技术落地的难点,以及如何降低开发者门槛的问题,希望能对广大读者有所启发。

NLP的发展方向

AI科技大本营:能简单介绍下 NLP 技术吗?

李波:NLP 技术目前有两种,一种是基于规则,还有一种是基于统计。近年来,基于统计的 NLP 技术占据了上风,特别是深度学习出现之后,基于统计的 NLP 技术进展快很多。并不是说谁更优,或者谁更差,它们各有所长,比如基于统计的模型的泛化性比较好,但是它是一个黑盒。一些应用还需要两者结合使用,比如在问答系统中,有些机器回答并不是很友好,就可以利用基于规则的方法做补充,两者结合来达到产品化的程度。

抛开运算智能,人工智能主要包含两个层面,一个是认知智能,一个是感知智能。比如常见的语音识别、图像识别就属于感知智能的层面,目前比较成熟的 落地应用也比较多,而 NLP 则属于认知智能层面。NLP 往往需要结合上下文信息,甚至考虑背景知识、常识性知识等。另外,感知智能(如图片识别)的输入输出一般是单轮的(single-turn),但是 NLP 往往需要多轮的(multi-turn)交互后才能得到结果。目前 NLP 技术还处于发展的早起阶段,还有很多难点需要突破。

AI科技大本营:你觉得它未来还会有很快的进展吗?还有哪些需要探索的方向?

李波:常识和背景知识:用 NLP 做专业性很强的事情,可能效果会很好,反到是小概率简单的事情做不到,因为缺乏常识。想要解决这个问题就需要构建常识库,然后与模型结合,这是一个难点,也是大家比较愿意探索的一个方向。

多模态:人类是通过视觉、听觉等各种感观结合在一起来理解一件事情的,也就是多模态。假设 NLP 系统可以同时结合音频视频来理解用户的意图,那么可能会有更大的突破。

预训练:这是近期大家可以尝试的一个热点。预训练在音频和图片领域已经得到了广泛应用,最近 Google 的 BERT 则是把预训练运用到了 NLP 领域,取得了不错的效果。这也是近期的一个热点,大家可以去尝试。

强化学习:在认知智能方面,强化学习也有些不错的方向。

NLP如何走出实验室

AI科技大本营:学术界的成果能够及时地应用到工业界吗?

李波:有些技术可以及时转化,有些技术还需要转化周期。这个转化周期意思就是说,我们要考虑商用模型的性能和准确率,此外还有其他的工程条件,满足这些标准之后,才可以把研究成果输出到产品。学术界训练一个模型只看最后的评价指标,也就是一个百分比的结果,但落地的时候考虑更多因素,比如一个准确率 99% 的模型,但剩下 1% 的工程化的工作量,不一定比99%工作量小。

AI科技大本营:从实验室到模型商用化落地,你们最关心什么?

李波:我们最关心的首先是要模型的可用性要达到工业化落地的标准,除此之外包括产品的 UI 设计、体验设计等也非常重要。NLP 不像图片和语音,在 UI 方面需要考虑的更多。比如机器翻译系统的准确率达到一定程度后,如果 UI 做得不好,用户体验不好,可能会对落地造成的很大的影响。这是一个系统化的工程,包括成本、用户体验,为客户带来多少价值等,都需要考虑。

AI科技大本营:关于 AI 创业公司落地难的问题,小i机器人有什么好的经验可以分享吗?

李波:跟图片和语音对比,NLP 特别难,NLP涉及到的多模态是它的一个难点。第二个难点是需要结合背景知识及常识。这两个问题在目前并没有很好的处理方式。小i 主要是结合基于规则+统计的方式,引入知识,比如我之前提到的领域语义库,目的就是融入常识和背景知识。最后就是个性化的问题,NLP 的输出往往和个体相关,不同的个体需要依据人物画像等信息给出不同的个性化的结果,这样才更接近人类的处理方式。

此外,NLP 的落地场景不是那么直接,需要结合客户或者是产品设计。比如做推荐,我们训练模型的关注点可能就是模型对应的几个指标,比如查准率等,但是客户看的是最后推荐的效果,也就是用户实际的评价和购买情况。因此,不管实验室的效果如何,在实际效果中,需要根据客户的反馈不断调整系统参数,调整训练数据,或者结合其他算法等等,以此来提高最终落地的效果。

上线运行之后,我们还需要根据运营的日志和客户的行为,再迭代模型,这是一个闭环。而不是说不结合实际场景,把模型训练好后直接投入使用,然后就不管了,不是这回事,需要根据运营的数据,不断调优迭代。

AI科技大本营:模型可控性的问题怎么解决?

李波:比如我们帮客户做的智能客服机器人,主要依靠混合模型引擎来达到可控的目的。另外也可以通过一些工程化手段来做到可控,如在问答中涉及到一些敏感的内容,我们可以通过前处理、后处理等方式及时干预,而无需更新模型、重启系统。在用户真实的使用过程中发现问题时,我们需要有渠道、有方法控制系统的输出,甚至逻辑,保证系统是可控的。

AI科技大本营:哪些方法可以使它可控?

李波:我们的混合模型引擎包含两种模型,一个是黑盒子,就是深度学习模型,另一个是语义理解模型,基于传统的语义表达式,可以用来做干预。语义理解模型可以直接通过语义表达式来进行更改,而深度学习模型想要干预则必须重新训练。因此我们可以让深度学习模型和语义理解模型同时作用,然后调整深度学习模型和语义理解模型的输出策略(如优先级策略等)来调优。

小i机器人如何收集数据?

AI科技大本营:小i机器人是如何积累数据的?

李波:主要是三个方面:第一,我们会通过爬虫去爬取相关的行业数据。第二,我们的云端产品产生的日志数据,会直接收集到我们的数据平台里。第三,客户提供的素材,我们会把它转化成数据和知识。

AI科技大本营:数据收集之后怎么处理?

李波:非结构化数据:首先我们会对收集到数据进行数据清洗,然后再按照知识的分类通过机器+人工方式将其归类,再通过一些手段(如规则等)做一些粗颗粒度的标注,之后由人工确认,确认完后入库。

半结构化数据:客户提供的原始带格式文档,通过格式规则分析或者机器学习模型等手段来进行分类或者聚类等辅助处理,然后再进行人工梳理,最后入库。

AI科技大本营:数据的处理靠机器和人工的结合?

李波:机器做前期辅助,人工做最终的确认,而不是机器处理之后直接入库。小i有一个大的数据平台和一个标注系统,还有一个实验室系统,共同运作来产生这些行业训练数据以及行业背景知识,然后以领域语义库的形式部署到实际系统中。

小i机器人如何赋能开发者?

AI科技大本营:现在有很多平台和工具可以帮助开发者去降低门槛,据我所知,小i最近也推出了新一代智能 Bot 开放平台,这个平台能给开发者带来什么?

李波:帮助中小企业或者开发者快速打造一个适应各种实际场景的AI系统。第一个落地的场景是智能客服,以问答能力为主,降低人工客服的成本。第二个应用场景是智能营销,以营销推荐为主,包括用户画像等,我们会在后期推出。第三个应用场景是智能外呼。后续我们还会推出更多的场景。开发者不仅可以直接使用这些场景,还可以基于每个场景的API来扩充应用的能力。

AI科技大本营:因为现在有各种各样的平台和工具,假设我是个新手,我就做一个小项目练练手,应该怎么做?

李波:这个平台的目的是降低开发者的门槛。开发者如果是自己收集数据,然后训练模型,开发周期很长,而且有很多的坑要趟。我们的这个平台有两个目标,第一,让用户可以直接使用;第二个,开发者可以基于这个平台扩充自己的能力。

使用我们的平台,开发者需要提供的数据只是问答的基本意图点,我们在底层有领域语义库做支撑,我们会自动在词的层面,在句法层面帮你扩充数据集,然后自动帮你去训练。

AI科技大本营:关于NLP技术的工程实践,您对开发者有什么建议吗?

李波:针对NLP的开发者有几点建议:首先,你要对相关技术有全面的了解,不一定要特别细化,这样对开发会有帮助;第二,一定要明确你的输入和输出;最后,开发者要更多地关注产品体验。

AI科技大本营:最后,您平时都是怎样自我学习的,有哪些经验可以分享下吗?

李波:互联网是一个非常好的渠道,我比较喜欢“碰到问题后在解决问题的过程中学习“的方式。如果你只是通过书本去学习,而忽略实践,就会比较虚。因此要结合实践,哪怕是做一些Demo尝试也可以。在尝试过程中遇到问题,然后通过各种方式去获取答案,而不是像学校里的传统方式去学习。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26473

    浏览量

    264107
  • nlp
    nlp
    +关注

    关注

    1

    文章

    464

    浏览量

    21828

原文标题:NLP技术落地为何这么难?里面有哪些坑?

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    涂鸦推出完全开源的open sdk开发框架!大大降低IoT开发门槛

    开发者来说,IoT开发难点是什么?首先,IoT涉及到多个领域和多种开发技术,每一层的技术接口
    的头像 发表于 04-12 08:14 379次阅读
    涂鸦推出完全开源的open sdk<b class='flag-5'>开发</b>框架!大大<b class='flag-5'>降低</b>IoT<b class='flag-5'>开发</b><b class='flag-5'>门槛</b>

    鸿蒙开发者预览版如何?

    在24年的华为鸿蒙发布会中表示。预览版已经向开发者开放申请,首批支持的机型有三款分别为华为 Mate 60、华为Mate 60 Pro、华为Mate X5。 其HarmonyOS NEXT去除
    发表于 02-17 21:54

    鸿蒙系统优缺点,能否作为开发者选择

    起跑线,都是0基础开始。学习来轻松,未来趋势大。 那么鸿蒙的发展,开发者如何抓住机遇?鸿蒙的开发技术要学习那些呢?下面分享鸿蒙的开发者技术
    发表于 02-16 21:00

    您有一份OpenHarmony开发者论坛2023年度总结,请查收~

    体验用户,并迅速在论坛开启了 OpenHarmony 技术交流。 通过开发者们在论坛进行提问、答疑、分享技术文章、技术资料等方式为论坛沉淀了丰富的 OpenHarmony
    发表于 01-26 17:27

    HarmonyOS SDK,助力开发者打造焕然一新的鸿蒙原生应用

    ,即可降低开发者接入门槛,实现用户在地图上选择所需地点此类场景的使用体验。 焕然一新的鸿蒙原生应用:更纯净、更智能、更精致、更易用 应用上架后的用户体验,也是开发者最关注的。Harm
    发表于 01-19 10:31

    降低物联网开发门槛的TuyaOS大更新

    作为降低物联网开发门槛的TuyaOS操作系统,此次又迎来了重大更新(点击查看TuyaOS完整介绍)!本次TuyaOS3.9.0版本发布了超丰富的开发框架,覆盖多种协议连接和平台。可供
    的头像 发表于 01-05 08:14 509次阅读
    <b class='flag-5'>降低</b>物联网<b class='flag-5'>开发</b><b class='flag-5'>门槛</b>的TuyaOS大更新

    欢迎加入飞腾派开发者社区,感谢每一位开发者

    板紧密地结合在一起,为开发者提供了一个展示和分享自己才华的平台。 基于此次合作,飞腾(广州)技术有限公司给华秋 · 电子发烧友发来了感谢信,这是对此次合作的充分肯定! 来自飞腾派项目组的感谢信
    发表于 12-11 16:11

    诚邀报名|在开发者大会,洞悉云原生技术落地最佳实践

    共识,被越来越多的行业用户落地并深度使用。2023开放原子开发者大会·云原生技术前沿落地实践分论坛,将于12月16日下午正式开启。 论坛将聚焦云原生的泛在化、Serverless化以及
    的头像 发表于 12-09 18:45 420次阅读

    OpenHarmony开发者论坛正式上线,盖楼赢惊喜好礼~

    如何参与和贡献? 你们的声音,我们都有认真聆听! 你们的期待,就是我们前进的动力! 值此OpenHarmony开发者论坛正式上线之际,为了答谢广大开发者的关注与支持,我们发起了 OpenHarmony开发者论坛”盖楼有礼“活动
    发表于 11-15 09:56

    OpenHarmony技术大会 | 开发者工具分论坛圆满举办:助力应用创新,提升开发效率

    开发者们将目光转向了各种开发工具和辅助软件上。在2023年11月4日举办的第二届开放原子开源基金会OpenHarmony技术大会开发者工具分论坛上,9位
    的头像 发表于 11-11 21:10 477次阅读

    打卡有好礼!FPGA开发者技术社区每日打卡活动来啦!!

    :# ****FPGA**** #+日期+分享内容 二、每日打卡的内容可以包含但不仅限于以下内容: 1)当日的生活趣事或工作清单完成情况 ; 2)当日在电子发烧友论坛FPGA技术开发者社区分享的文章; 3
    发表于 11-06 18:28

    官宣|2023开放原子开发者大会来了!

    探讨技术趋势! 这里,您将有机会获得: 群策群智,探讨解决开源项目的技术难点 深入探讨
    的头像 发表于 10-12 18:33 377次阅读

    各位开发者期待已久的开源鸿蒙开发者手机已经开放购买啦!!

    各位开发者期待已久的开源鸿蒙开发者手机已经开放购买啦!! “开源鸿蒙开发者手机”,本质上是手机形态的开发板,为广大 OpenHarmony 开发者
    发表于 10-10 18:32

    官宣|2023开放原子开发者大会来了!

    探讨技术趋势! 这里,您将有机会获得: 群策群智,探讨解决开源项目的技术难点 深入探讨
    的头像 发表于 10-08 18:40 557次阅读

    开放原子开源基金会OpenHarmony开发者大会2023演讲资料汇总

    本届OpenHarmony开发者大会的演讲资料已为大家准备好了,有需要的可自行下载查看~ 技术分论坛 *附件:01-OpenHarmony新开发框架,开发更便捷.pdf*附件:04-
    发表于 05-29 16:34