0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

怎样使用Python创建词云

ss 来源:磐创AI 作者:磐创AI 2020-11-06 17:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

介绍从开始从事数据可视化工作的那一天起,我就爱上它了,我总是喜欢从数据中获得有用的见解。在此之前,我只了解基本图表,例如条形图,散点图,直方图等,这些基本图表内置在tableau中,而Power BI则用于数据可视化。通过每天完成此任务,我遇到了许多新图表,例如径向仪表盘,华夫图等。

因此,出于好奇,最近我正在搜索数据可视化中使用的所有图表类型,这些词云引起了我的注意,我发现它非常有趣。之后,我尝试使用Tableau和Power BI中的少量数据来制作词云,在成功尝试之后,我想通过使用条形图,饼图和其他图表的代码来尝试使用它。词云是什么?定义:词云是一个简单但功能强大的可视化表示对象,用于文本处理,它以更大,更粗的字母和不同的颜色显示最常用的词,单词的大小越小,重要性就越小。

词云的用途

1.社交媒体上的热门标签(Instagram,Twitter):全世界的社交媒体都在寻找最新的趋势,因此,我们可以获取人们在其帖子中使用最多的标签来探索最新的趋势。

2.媒体中的热门话题:分析新闻报道,我们可以在头条新闻中找到关键字,并提取出前n个需求较高的主题,来获得所需的结果,即前n个热门媒体主题。

3.电子商务中的搜索词:在电子商务购物网站中,网站所有者可以制作被搜索次数最多的购物商品的词云,这样,他就可以了解在特定时期内哪些商品需求量最大。让我们开始使用Python来实现词云首先,我们需要在jupyter notebook中安装所有库。在python中,我们将安装一个内置库wordcloud。在Anaconda命令提示符下,输入以下代码:pip install wordcloud

如果你的anaconda环境支持conda,请输入:conda install wordcloud

这可以直接在notebook中实现,只需在代码的开头添加“!”即可。像这样:!pip install wordcloud

但现在我想生成拥有任何主题的维基百科文本的词云,因此,我将需要一个Wikipedia库来访问Wikipedia API,可以通过在anaconda命令提示符下安装Wikipedia来完成,如下所示:pip install wikipedia

现在我们还需要其他一些库,它们是numpy,matplotlib和pandas。截至目前,我们需要的库就安装好了import wikipedia

result= wikipedia.page("MachineLearning")

final_result = result.content

print(final_result)

机器学习维基百科页面的输出:

上图是我们通过检索Wikipedia的机器学习页面获得的输出图像,我们还可以看到它可以向下滚动,这表示将检索整个页面。在这里,我们还可以通过摘要方法得到页面的摘要,如:result= wikipedia.summary("MachineLearning", sentences=5)

print(result)

这里我们有句子的参数,因此我们可以用它来检索特定的行数。

输出5个句子让我们一起创建wordcloudfrom wordcloud import WordCloud, StopWords

import matplotlib.pyplot as plt

def plot_cloud(wordcloud):

plt.figure(figsize=(10, 10))

plt.imshow(wordcloud)

plt.axis("off");

wordcloud = WordCloud(width = 500, height = 500, background_color='pink', random_state=10).generate(final_result)

plot_cloud(wordcloud)

停用词是没有任何含义的单词,例如‘is’, ‘are’, ‘an’, ‘I’ 等。Wordcloud带有内置停用词库,该库将自动从文本中删除停用词。同时我们也可以通过stopwords.add()函数在python中添加停用词的选择。Wordcloud方法可以设置词云的宽度和高度,我将它们都设置为500,背景色设置为粉红色。如果不添加随机状态,则每次运行代码时,词云都会看起来不同,我们可以将其设置为任何int值。从上面的代码中,我们将获得这样的词云:

通过查看上图,我们可以看到机器学习是最常用的词,还有一些其他经常使用的词是模型,任务,训练和数据,因此,我们可以得出结论,机器学习是训练数据模型的任务。我们还可以在这里通过背景颜色方法更改背景颜色,并通过colormap方法更改字体颜色,还可以在背景颜色中添加颜色的哈希码,但是mapcolor带有内置的特定颜色。让我们通过使用哈希码将背景色更改为蓝绿色,将字体颜色更改为蓝色:from wordcloud import WordCloud, StopWords

import matplotlib.pyplot as plt

def plot_cloud(wordcloud):

plt.figure(figsize=(10, 10))

plt.imshow(wordcloud)

plt.axis("off");

wordcloud = WordCloud(width = 500, height = 500, background_color='#40E0D0', colormap="ocean", random_state=10).generate(final_result)

plot_cloud(wordcloud)

在这里,我指定了ocean,如果我添加了一些错误的颜色图,jupyter将抛出一个值错误,并向我显示颜色图的可用选项,如下所示:

我们还可以使用PIL库在任何图像中实现词云。尾注在本文中,我们讨论了词云,词云的定义,应用领域以及使用python实现词云。参考链接:https://www.analyticsvidhya.com/blog/2020/10/word-cloud-or-tag-cloud-in-python/

责任编辑:xj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7363

    浏览量

    95158
  • python
    +关注

    关注

    59

    文章

    4892

    浏览量

    90417
  • 数据可视化
    +关注

    关注

    0

    文章

    503

    浏览量

    11559
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Edge Impulse 唤醒模型训练 | 技术集结

    今天,将手把手带领学习如何训练一个语音关键模型部署到嵌入式硬件上,采用Edgi-Talk平台适配EdgeImpulse,当然原理在其他的ARM嵌入式平台也是通用的。让我们看看如何让
    的头像 发表于 04-20 10:05 1747次阅读
    Edge Impulse 唤醒<b class='flag-5'>词</b>模型训练 | 技术集结

    使用Python/MyHDL创建自定义FPGA IP

    使用 Python/MyHDL 创建自定义 FPGA IP,与 Vivado 集成,并通过 PYNQ 进行控制——实现软件上的简单硬件设计。
    的头像 发表于 04-09 09:53 467次阅读
    使用<b class='flag-5'>Python</b>/MyHDL<b class='flag-5'>创建</b>自定义FPGA IP

    [VirtualLab] 使用Python运行VirtualLab Fusion光学仿真

    摘要 VirtualLab Fusion允许Python外部访问其建模技术、求解器和结果。这个用例介绍了一种使用路径变量和Visual Studio代码将Python连接到VirtualLab
    发表于 03-31 09:39

    1688 商品详情 API 调用与数据解析 Python 实战

    你想要的是 1688 商品详情 API 的 Python 调用与数据解析实战方案,核心是完成 API 凭证配置、接口请求(含签名)、响应数据解析、异常处理 的全流程落地,我会提供可直接运行的代码,并
    的头像 发表于 02-10 11:23 507次阅读

    京东关键的应用

    京东关键应用核心是围绕搜索匹配与流量获取,贯穿商品上架、搜索优化、付费推广、精细化运营等全链路,以精准匹配用户需求、提升排名与转化为目标。以下是具体应用与实操方法: 一、关键分类与筛选
    的头像 发表于 01-20 09:05 1118次阅读

    京东关键搜索商品列表的Python实战

    一、实现思路分析 URL 构造 :京东搜索 URL 格式为 https://search.jd.com/Search?keyword=关键q=0.9", "Connection
    的头像 发表于 01-09 10:34 1294次阅读

    浅谈京东关键

    格式的字符串)。 关键与搜索结果的关联性 :关键的精准度决定爬取结果的相关性,京东搜索会对关键进行分词匹配(如 “Python 实战书籍” 会拆分匹配 “
    的头像 发表于 01-04 10:40 1455次阅读

    京东关键搜索商品列表的Python爬虫实战

    京东关键搜索商品列表 Python 爬虫实战 你想要实现京东关键搜索商品的爬虫,我会从 合规声明、环境准备、页面分析、代码实现、反爬优化 五个方面展开,帮助你完成实战项目。 一、前置声明(重要
    的头像 发表于 01-04 10:16 1585次阅读

    Termux中调试圣诞树Python代码

    python --version 如果输出Python 3.x.x(比如3.11.4),说明安装成功。 二、代码编写(两种方式可选) 方式1:用Termux自带编辑器(nano)(新手推荐) 创建并编辑
    发表于 12-09 09:02

    知声入选国家知识产权示范企业创建推荐单位

    近日,上海市知识产权局公示了《2025-2027年知识产权强国建设示范创建工作推荐结果》。知声(上海)智能科技有限公司凭借其卓越的自主创新能力与知识产权,成功入选“国家知识产权示范企业创建推荐单位
    的头像 发表于 11-04 10:28 832次阅读

    Pico Technology发布Python软件包pyPicoSDK

    现有 PicoSDK 的基础上构建,使工程师、开发人员和业余爱好者能够创建 Python 脚本,更加快速方便地控制其 PicoScope 设备。
    的头像 发表于 09-29 15:03 1178次阅读

    termux调试python猜数字游戏

    用termux做一个猜数字游戏 下面是在Termux中创建猜数字游戏的步骤及完整实现方案,结合Python实现(最适配Termux环境): ? 一、环境准备(Termux基础配置) 1.
    发表于 08-29 17:15

    termux如何搭建python游戏

    戏开发流程 以Pygame为例,创建一个基础窗口: ```python import pygame pygame.init() screen = pygame.display.set_mode
    发表于 08-29 07:06

    零基础在智能硬件上克隆原神可莉实现桌面陪伴(提供人设提示、知识库、固件下载)

    个步骤:1、创建智能体:配置可莉的基础信息2、声音复刻:克隆可莉的声音3、配置知识库:配置可莉和嘟嘟可的背景、故事经历、语录等知识库 4、自定义唤醒:修改唤醒和唤醒回复语 (篇尾提供修改了唤醒
    发表于 08-22 19:51

    中国信通院发布“2025计算十大关键

    日前,中国信通院正式发布“2025计算十大关键”,中国信通院计算与大数据研究所所长何宝宏对“2025计算十大关键”进行了解读。十大
    的头像 发表于 07-30 10:53 3444次阅读
    中国信通院发布“2025<b class='flag-5'>云</b>计算十大关键<b class='flag-5'>词</b>”