0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

三种制作词云图的方法,你觉得用哪一种更方便?

机智云 2022-10-18 14:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

如上所示,就是常见的词云图。

所谓词云图,又称文字云,是通过对一个或多个关键词进行重复的、字体大小颜色不一的、不规则的排列,使其看上去类似于某种形状的图片,是对文本中出现频率较高的“关键词”予以视觉化的展现。

词云图能过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。

关键词云图生成器作为生成云图的一种工具,简化了制作过程。目前国内外有很多关键词云图在线生成器,普遍按月或按年收费,在付费时候尽量选择可靠性强的。小编之前就遇到过付费后,没多久网站就消失不见了。

那么如何才能自己来做词云图呢?有几种常见方法

1、使用WordArtWordArt是国外网站,支持自定义字体、词云形状、颜色等,做出来的词云图酷炫、精美,但访问时响应会比较缓慢。1.1 登录网站WordArt.com1.2 点击Words-Import words导入事先准备好的关键词与其对应词频,或是直接在对话框中输入相应关键词。同时在频数,颜色,角度,字体中进行设计,以实现预设效果。8ebd3dd8-4e47-11ed-b116-dac502259ad0.png说明:

  • Fonts:字体设置。该工具默认字体为英文,如果词云内容为英文可以使用素材提供的字体,而涉及到中文内容时我们需要选择自行添加字体或是选择素材库中的Noto Sans S Chinese(可以识别部分中文)。
  • Shapes:设计词云的形状。可以选择提供的素材库中的形状也可以选择Add Image/Add Text来自定义形状。这里选择输入数字“2020”并在选项卡中设计斜体、轮廓、字体、背景以及字体颜色,设计完成后单击Add将形状添加进来。
  • Layout:内容布局。在该选项卡中,可以更改设计文字方向和布局排列方式,该工具提供了许多现成的组合方案,只需按需加以勾选即可。同时,在Words amount ,Density中也可以对填充内容进行设计。
  • Style:词云设计,主要涉及关键词具体内容的编辑设计。通过参数调整,对背景以及底色进行编辑修改。

1.3 生成词云:单击Visualize,即可生成词云图并预览效果。1.4 导出图片:点击DOWNLOAD (选择图片格式)即可下载词云图。8ed7e8cc-4e47-11ed-b116-dac502259ad0.png8ea4df54-4e47-11ed-b116-dac502259ad0.png2、借助开源软件word-cloud是一款为 java 设计的云图生成工具。目前该项目开源,地址在https://github.com/houbb/word-cloud

特性

极简 api,一行代码搞定一切

支持自定义云图背景

支持中英文分词,默认对用户透明

支持停顿词过滤,默认对用户透明

支持各种用户自定义配置

Maven引入

com.github.houbb
word-cloud
1.2.2

使用

WordCloudHelper.wordCloud("该作讲述的是一个名为德特茅斯的衰落小镇下掩埋着一个古老的废弃王国,名叫圣巢。这个王国被瘟疫所侵蚀而废弃,废弃的原因则是因为名为辐光的光之古神,她可以通过思想来传播瘟疫,被瘟疫侵蚀的虫子都会被本能所支配,失去心智。\n" +
"这个王国的主人——苍白之王,自然不会坐视不管,他在圣巢范围之下的深渊,利用另一种远古力量“虚空”可以压制光明的特性,制造了容器一族。其中一位被选中的容器用来封印瘟疫,并被命名为空洞骑士。为了封印的稳固,白王寻找了三个守梦人来进一步巩固封印,三位守梦人的名称分别为守望者 - 卢瑞恩,导师 - 莫诺蒙,野兽 - 赫拉。但之后苍白之王不知去向,不完美的容器的力量的也变得逐渐虚弱,最终被辐光控制。主角就要穿过圣巢的各地,在安息之地中,我们受到曾经辐光的信徒和眷族——飞蛾族唯一留下的族人的帮助,获得了和辐光力量同源的梦之武器——梦之钉。梦之钉可以读取生物内心的想法,并可以打破守梦人的保护,进入到其梦境之中杀死守梦人。杀死了三位守梦人并解开封印后,可选的结局有到达十字路里的黑卵神殿打败空洞骑士或去到在“寻神者”更新中新加入的地点“神居”并挑战圣巢万神殿。");

添加背景

//以鲸鱼的背景,可以让文字以图像的形式展现:
String imagePath = "backgrounds\\whale_small.png";
WordCloudHelper.wordCloud(text,"out_bg.png",imagePath);

效果如下8f11f620-4e47-11ed-b116-dac502259ad0.png8ea4df54-4e47-11ed-b116-dac502259ad0.png3、使用python工具使用Python库jieba,jieba是一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。8f410212-4e47-11ed-b116-dac502259ad0.pngjieba分词有三种模式:
8f555316-4e47-11ed-b116-dac502259ad0.pngjieba.cut返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode)。

jieba.cut方法接受三个输入参数:

需要分词的字符串

cut_all 参数用来控制是否采用全模式,一般情况下,cut_all为False

HMM 参数用来控制是否使用 HMM 模型

示例:使用“Star.jpg”作为模板图片和“myword.txt”文本制作词云图
Star.jpg

8f73b0a4-4e47-11ed-b116-dac502259ad0.png

myword.txt

详细代码

###导入库
#导入wordcloud词云制作第三方库,并导入WordCloud.ImageColorGenerator两个模块 from wordcloud import WordCloud.imageColorGenerator

#导入imageio库
importimageio

# 导入jieba库
importjieba

### 图片处理
# 用imageio库中的imread函数读取本地图片
testmg=imageio.imread("Star.jpg")

# 调用wordcloud库中的ImageColorGenerator函数
image_color=ImageColorGenerator(testimg)

# 给WordCloud函数传入参数设置图片相关属性
test=WordCloud(mask=testimg,#将testng的值赋值给mask用作遮罩图
width=500,#输出图片宽度为500px
height=500,#输出图片高度为500px
background_color="white",#输出图片背景颜色为白色
font-path="msyh.ttc"#字体路径为微软雅黑
scale=15)#画布放大比例为15

###文本处理
# 引用外部文件,并用utf-8的编码方式
txt=open("myword.txt",encoding="utf-8").read()

# 调用词云对象test的generate方法,导入文本
# 使用jieba分词的精确模式为文本进行分词
test=test.recolor(color_func=image_color)

###输出处理
#将生成的词云保存为result.png图片文件,保存到当前文件夹中
test.to_file("result.png")

效果图

8f87d872-4e47-11ed-b116-dac502259ad0.png

词云图不仅能用来突出关键词,减少信息冗余,还能用于用户图像分析,快来试试吧。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云图
    +关注

    关注

    3

    文章

    7

    浏览量

    4657
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    UPS的三种主要类型与输出波形解析:的设备需要哪种“保护伞”

    ,性能表现也天壤之别?为何有些设备接入UPS后反而工作不稳定?答案,就隐藏在UPS的三种主要技术类型及其核心的输出波形差异之中。理解这两点,是您为关键设备选择正确
    的头像 发表于 04-14 13:13 86次阅读
    UPS的<b class='flag-5'>三种</b>主要类型与输出波形解析:<b class='flag-5'>你</b>的设备需要哪种“保护伞”

    ATE系统中这三种测量卡的架构和功能

    测试仪行业面临的个挑战是,如何在不显著增加测试仪时间、尺寸或成本的情况下,满足对大量测试通道的需求。尽管半导体测试仪(也称为自动测试器件(ATE))种类繁多,但在大多数测试仪都包含三种主要卡:电压
    的头像 发表于 04-09 15:12 147次阅读
    ATE系统中这<b class='flag-5'>三种</b>测量卡的架构和功能

    气密性检测仪选购指南:直压、差压、容积法的本质区别与实战选择

    选型很多工程师在选购气密性检测设备时都会困惑:同样是测泄漏,为什么常用的就有三种检漏方法?到底哪一种最适配自己的产品?今天我们次性把这个问题讲明白。选型的核心逻辑其实很简单:•有孔产
    的头像 发表于 04-02 12:03 1242次阅读
    气密性检测仪选购指南:直压、差压、容积法的本质区别与实战选择

    C语言中实现函数宏的三种方式

    在宏的第个分号后便结束。即 a = b 和 b = tmp 均不受控制语句所作用。 因此,在工程中,般使用三种方式来对函数宏进行封装,分别为 {}、do{...}while(0
    发表于 12-29 07:34

    请问CW32芯片的三种工作模式是什么?

    CW32芯片的三种工作模式是什么?
    发表于 12-26 06:48

    PA300系列功率计 :三种数据记录方法详解,应对不同测试场景

    本文导读致远仪器PA300系列功率计具有高精度、易集成、高性价比的特点,广泛应用于光伏、家电、电源、电机等行业。本文介绍其三种数据记录方法,适应不同测试场景需求。PA300系列功率计功率计是一种
    的头像 发表于 11-25 11:37 460次阅读
    PA300系列功率计 :<b class='flag-5'>三种</b>数据记录<b class='flag-5'>方法</b>详解,应对不同测试场景

    UART、SPI、I2C 实战对比:哪个更适合的项目?

    在嵌入式开发中,设备之间的通信是绕不开的话题。常见的三种总线接口——UART、SPI、I2C——各有优缺点。不同项目需求决定了选择哪一种协议最合适。本文结合实战经验,逐项对比者,并附带实战代码
    的头像 发表于 11-24 19:04 1584次阅读
    UART、SPI、I2C 实战对比:哪个更适合<b class='flag-5'>你</b>的项目?

    芯源的MCU最小封装是哪一种?有QFN的封装嘛?

    芯源的MCU最小封装是哪一种?有QFN的封装嘛?
    发表于 11-14 07:57

    指令集测试的一种纠错方法

    本文描述在进行指令集测试的一种纠错方法 1.打开测试指令集对应的dump文件 dump文件是指由汇编文件进行反汇编之后,可以供人阅读指令的反汇编文件。其包含了每条指令的具体操作的信息。指令集测试
    发表于 10-24 14:04

    【干货】文带你了解CAN、Modbus与LoRa三种通信协议的区别

    在工业自动化与物联网领域,CAN、Modbus和LoRa是三种主流通信技术。而亿佰特在该行业具有丰富的产品供客户选择与使用,帮助客户进步确定需求,本文将结合技术细节与实际案例解析其核心区别。
    的头像 发表于 08-28 19:32 2301次阅读
    【干货】<b class='flag-5'>一</b>文带你了解CAN、Modbus与LoRa<b class='flag-5'>三种</b>通信协议的区别

    三种SPWM波形生成算法的分析与实现

    摘要:变频技术作为现代电力电子的核心技术,集现代电子、信息和智能技术于体。而SPW(正弦波脉宽调制)波的产生和控制则是变频技术的核心之。本文对SPI波形生成的三种算法-对称规则采样法、不对称规则
    发表于 07-31 13:34

    MEMS中的三种测温方式

    在集成MEMS芯片的环境温度测量领域,热阻、热电堆和PN结原理是三种主流技术。热阻是利用热敏电阻,如金属铂或注入硅的温度电阻系数恒定,即电阻随温度线性变化的特性测温,电阻变化直接对应绝对温度,需恒流源供电。
    的头像 发表于 07-16 13:58 1886次阅读
    MEMS中的<b class='flag-5'>三种</b>测温方式

    开关电源三种控制模式:PWM/PFM/PSM

    摘要 本文详细介绍了开关电源的三种主要调制方式:PWM(脉冲宽度调制)、PFM(脉冲频率调制)和PSM(脉冲跨周期调制)。PWM通过调整脉冲宽度保持恒定频率,适用于重负载,但轻负载效率低。PFM则在
    发表于 06-09 16:11

    介绍三种常见的MySQL高可用方案

    在生产环境中,为了确保数据库系统的连续可用性、降低故障恢复时间以及实现业务的无缝切换,高可用(High Availability, HA)方案至关重要。本文将详细介绍三种常见的 MySQL 高可用
    的头像 发表于 05-28 17:16 1434次阅读

    精选好文!噪声系数测量的三种方法

    器件噪声系数的三种方法。每种方法都有其优缺点,适用于特定的应用。下表是三种方法优缺点的总结。理论上,同个射频器件的测量结果应该样,但是由
    发表于 05-07 10:18