0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

成功构建文本分析工作流的四个步骤

星星科技指导员 来源:嵌入式计算设计 作者:Seth DeLand 2022-11-23 15:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

文本分析(从原始人类语言中发现隐藏模式以实现更好的决策和预测的过程)为工业和预测性维护系统提供了几个好处。这些分析使工程师能够利用原始文本数据轻松生成有关维护记录的见解,并构建故障预测算法以预防潜在问题。

以非公路商业空间为例,在建筑工地上使用重型设备:如果一台重型设备发生故障,在修复系统所需的时间和成本与施工停滞时现场的停机时间之间,可能会发生代价高昂的故障。传统上,来自此设备的遥测数据已用于构建可预测未来故障的预测性维护模型。但是,在机械师和操作员的文本注释中也有关于过去故障及其原因的宝贵信息。工程师可以利用此文本数据来增强预测性维护模型,并确定应解决的模式和故障模式。

文本分析的挑战在于大量的非结构化原始文本数据集,这可能会使分析工具不堪重负。这使得工程师更难快速直观地提取用户可能获得的所有有价值的信息。但是,工程师可以通过正确的工具和遵守端到端工作流程来克服这些障碍。

当涉及到端到端文本分析工作流程时,工程师需要了解什么?工作流中有四个主要阶段:

poYBAGN9yKuALPZSAACS46Gxj18876.png

图1.端到端文本分析工作流。

第 1 阶段:数据访问和探索

文本数据将来自各种来源,包括数据库、内部文件存储库和 Internet,并且格式多种多样。正确准备数据是成功工作流程的关键因素。适当的数据准备会将原始文本数据清理并预处理为“清理数据”以供分析。

以词云为例。该模型将数据转换为一种格式,使工程师能够快速轻松地可视化正在使用的单词以及数据池中最常见的短语。当与应用其领域专业知识的工程师相结合时,诸如词云之类的可视化效果有利于更大的文本分析工作流程,因为工程师可以轻松发现数据可能缺少标记或需要清理的地方,因为他们了解给定环境或用例中的典型问题或问题。

第 2 阶段:数据预处理

这些可视化效果还有助于指导需要采取的后续操作。如图 2 所示,停用词(不增加价值的低信息词)很常见,它们的存在会扭曲可视化结果。在工程师开始模型开发过程之前,他们必须清理原始文本数据,以过滤掉这些“停用词”,并输入真实、重要的数据以传递给建模过程。预处理阶段允许用户从原始文本中提取有意义的单词。

数据清理通常是数据分析中最耗时的部分,根据数据量,清理步骤可能需要多次迭代。但是,投入所需的额外时间和资源所带来的投资回报率允许在文本分析工作流的后期使用更准确和成功的模型。在许多情况下,干净的词云会传递有关文本页面上实际内容的更多信息。

文本分析工具箱等工具通过提供用于预处理、分析和建模文本数据的算法和可视化,帮助用户为模型构建过程做好准备,从而为工程师解决数据清理痛点。

这些工具从流行的文件格式中提取文本,从设备日志、新闻提要、调查、操作员报告和社交媒体等来源预处理原始文本,提取利用文本、数字和其他类型的数据的单个单词或多词短语 (n-gram),将文本转换为数字表示,然后构建统计模型。

第 3 阶段:预测模型构建

清理和预处理数据后,就可以开始使用机器学习深度学习算法构建预测模型了。

这就是文本分析的优势所在:它发现数据中隐藏的模式并以直观的格式显示它们,允许用户消化数据,然后采取纠正措施解决问题,然后再进一步进入工作流程。

以将干净的文本数据转换为数字形式为例。工程师可以应用“词袋”等建模方法,该方法根据提供的文本数据创建一个数字矩阵,显示每个单词的使用频率。从那里,工程师可以使用预测模型,如潜在狄利克雷分配(LDA)模型,该模型可以拟合到单词/频率矩阵中,以发现文本数据集中隐藏的主题和见解。

LDA 模型可以生成与数据中“隐藏主题”相关的词云,显示将文本数据拟合到此预测模型中后如何开始出现模式,从而帮助为创建相应问题的解决方案提供信息。

使用新的叙述对模型(如上面示例中的模型)进行测试以验证模型的预测是否正确后,可以建立自动警报,以便系统在需要注意的任何问题上向响应团队发送标志。如果位置数据也可用,则结果会发现某些主题(例如,标记的问题)与其位置数据之间存在相关性,因此该模型还可以通过使用多个数据流来补充文本数据来提醒响应团队潜在的更大基础设施问题。

第 4 阶段:见解和预测模型部署

使用文本分析设置模型并验证其可接受的性能后,可通过多种方式与工程团队和/或管理层共享结果和模型,包括生成报告或交互式笔记本(例如 MATLAB Live 编辑器)、将数据传送到桌面或 Web 应用程序(例如 MATLAB 应用程序设计器),或在生产服务器或 Web 应用程序服务器上托管应用程序。

对于工业自动化、机械、汽车制造、航空航天设计或能源分配等行业的工程师来说,文本分析可以帮助他们执行复杂的数值分析,以识别可以带来更好结果并改进预测性维护等功能的想法和概念组。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编辑器
    +关注

    关注

    1

    文章

    826

    浏览量

    32650
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123907
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    轴无人机是如何工作的?

    才能打造一架属于自己的轴飞行器?一、轴飞行器如何飞行?本文将重点介绍轴飞行器,但本文解释的很多内容也适用于其他配备四个以上螺旋桨的飞行器。因此,如果你正在
    的头像 发表于 11-14 10:28 266次阅读
    <b class='flag-5'>四</b>轴无人机是如何<b class='flag-5'>工作</b>的?

    借助NVIDIA技术构建实时视觉检测工作流

    构建一套可靠的视觉检测流程来实现缺陷检测和质量控制面临诸多挑战,例如针对特定领域定制通用视觉 AI 模型、在算力受限的边缘设备上优化模型规模,以及高效实时部署以实现最大的推理吞吐量。
    的头像 发表于 10-21 11:01 620次阅读
    借助NVIDIA技术<b class='flag-5'>构建</b>实时视觉检测<b class='flag-5'>工作流</b>

    【产品介绍】Altair SimLab可连接CAD的多物理场工作流

    AltairSimLab可连接CAD的多物理场工作流SimLab是一种以流程为导向的多学科仿真环境,能够准确分析复杂装配件的性能。包括结构、热和流体动力学在内的多物理场可以通过高度自动化的建模任务
    的头像 发表于 09-19 17:02 558次阅读
    【产品介绍】Altair SimLab可连接CAD的多物理场<b class='flag-5'>工作流</b>

    设计优先方法论实践:SmartBear API Hub +ReadyAPI组合使用,构建高效的API开发

    设计优先是一种在编写代码和执行测试之前,优先设计API接口的开发方式,能够帮助提升团队协作效率、加快开发进度、减少Bug和返工,并改善用户体验。如何实现?——将该与SmartBear API Hub、ReadyAPI相结合,可共同构建完整、一体化的开发
    的头像 发表于 06-05 16:03 438次阅读
    设计优先方法论实践:SmartBear API Hub +ReadyAPI组合使用,<b class='flag-5'>构建</b>高效的API开发<b class='flag-5'>流</b>

    用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 频前端模块,带四个线性 TRx 开关端口 skyworksinc

    电子发烧友网为你提供()用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 频前端模块,带四个线性 TRx 开关端口相关产品参数、数据手册,更有
    发表于 05-28 18:33
    用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx <b class='flag-5'>四</b>频前端模块,带<b class='flag-5'>四个</b>线性 TRx 开关端口 skyworksinc

    用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 频前端模块,带四个线性 TRx 开关端口 skyworksinc

    电子发烧友网为你提供()用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 频前端模块,带四个线性 TRx 开关端口相关产品参数、数据手册,更有
    发表于 05-28 18:33
    用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx <b class='flag-5'>四</b>频前端模块,带<b class='flag-5'>四个</b>线性 TRx 开关端口 skyworksinc

    四个方面深入剖析富捷电阻的优势

    理成本的电阻产品系列,为电子行业提供了一可靠的选择。本文将从产品结构、同业对比、成本分析以及品质保障四个方面深入剖析富捷电阻的优势,展现其如何在激烈的市场竞争中脱颖而出。
    的头像 发表于 05-09 10:47 832次阅读
    从<b class='flag-5'>四个</b>方面深入剖析富捷电阻的优势

    非技术人员如何用n8n + DeepSeek打造AI自动化工作流

    ‌ 是一开源的低代码自动化工作流工具,允许用户通过可视化界面连接不同的应用程序和服务,实现任务自动化。 掌握n8n,公司中的非技术人员也能快速上手自动化,通过画布的方式,构建自动化工作流
    的头像 发表于 04-09 14:28 7819次阅读
    非技术人员如何用n8n + DeepSeek打造AI自动化<b class='flag-5'>工作流</b>?

    【Android开发者必看】使用JetBrains TeamCity为Android项目构建CI/CD管道详细指南

    【CI/CD】定义明确的构建、测试和部署工作流对Android应用的开发至关重要。JetBrains TeamCity是一用于构建可靠管道的CI/CD平台,可与流行的Android开
    的头像 发表于 03-21 15:42 996次阅读
    【Android开发者必看】使用JetBrains TeamCity为Android项目<b class='flag-5'>构建</b>CI/CD管道详细指南

    ADS1211获取四个通道全部数据的最短时间是多少?

    看pdf没看出什么门道,想问下这款ADC四个差分通道同步采样,获取四个通道全部数据的最短时间是多少!
    发表于 02-10 07:24

    NX CAD软件:数字化工作流程解决方案(CAD工作流程)

    NXCAD——数字化工作流程解决方案(CAD工作流程)使用西门子领先的产品设计软件NXCAD加速执行基于工作流程的解决方案。我们在了解行业需求方面累积了多年的经验,并据此针对各个行业的具体需求提供
    的头像 发表于 02-06 18:15 746次阅读
    NX CAD软件:数字化<b class='flag-5'>工作流</b>程解决方案(CAD<b class='flag-5'>工作流</b>程)

    模数转换电路的四个过程

    模数转换(Analog-to-Digital Conversion,简称ADC)是将模拟信号转换为数字信号的关键过程,广泛应用于通信、数据采集、信号处理等领域。模数转换电路的设计与实现涉及多个关键步骤,通常可以分为四个主要过程:采样、保持、量化和编码。本文将详细
    的头像 发表于 02-03 16:12 2356次阅读

    请问DAC3484四个通道能否独立使用?

    请问,DAC3484 四个通道能否独立使用?即当把DAC的NCO频率设置为fs/2时,IQ两通道是否就可以独立了?
    发表于 01-23 07:35

    请问AD9852四个输出口有什么差别?

    AD9852四个输出口有什么差别?是不是IOUT1是余弦输出,IOUT2是DAC控制输出,需要设置DAC控制寄存器?
    发表于 01-16 06:59

    AI工作流自动化是做什么的

    AI工作流自动化是指利用人工智能技术,对工作流程中的重复性、规则明确的任务进行自动化处理的过程。那么,AI工作流自动化是做什么的呢?接下来,AI部落小编为您分享。
    的头像 发表于 01-06 17:57 1424次阅读