0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Python Pandas如何来管理结构化数据

数据分析与开发 来源:数据分析与开发 2023-05-25 11:22 次阅读

Python Pandas是一个为Python编程提供数据操作和分析功能的开源工具包。这个库已经成为数据科学家和分析师的必备工具。它提供了一种有效的方法来管理结构化数据(Series和DataFrame)。

人工智能领域,Pandas经常用于机器学习深度学习过程的预处理步骤。Pandas通过提供数据清理、重塑、合并和聚合,可以将原始数据集转换为结构化的、随时可用的2维表格,并将其输入人工智能算法

63526d2c-fa4e-11ed-90ce-dac502259ad0.png

项目地址:https://github.com/gventuri/pandas-ai

使用 pip 安装 Pandas AI

pipinstallpandasai

使用 OpenAI 导入 PandasAI

在下一步中,我们将导入之前安装的 pandasai 库,然后导入 LLM(大型语言模型)功能。截至 2023 年 5 月,pandasai 仅支持 OpenAI 模型,我们将使用它来理解数据。

importpandasaspd
frompandasaiimportPandasAI

#SampleDataFrame
df=pd.DataFrame({
"country":["UnitedStates","UnitedKingdom","France","Germany","Italy","Spain","Canada","Australia","Japan","China"],
"gdp":[19294482071552,2891615567872,2411255037952,3435817336832,1745433788416,1181205135360,1607402389504,1490967855104,4380756541440,14631844184064],
"happiness_index":[6.94,7.16,6.66,7.07,6.38,6.4,7.23,7.22,5.87,5.12]
})

#InstantiateaLLM
frompandasai.llm.openaiimportOpenAI
llm=OpenAI(api_token="your_API_key")

pandas_ai=PandasAI(llm)
pandas_ai.run(df,prompt='Whicharethe5happiestcountries?')
6Canada
7Australia
1UnitedKingdom
3Germany
0UnitedStates
Name:country,dtype:object

要使用 OpenAI API,您必须生成自己唯一的 API 密钥。

因为pandas的特性,我们不仅仅可以处理csv文件,我们还可以连接关系型的数据库,例如pgsql:

#creatingtheuriandconnectingtodatabase
pg_conn="postgresql://YOURURIHERE"

#Querysqldatabase
query="""
SELECT*
FROMtable_name
"""

#Createdataframenameddf
df=pd.read_sql(query,pg_conn)

然后像上面代码一样,我们可以直接与它进行对话了:

#Usingpandas-ai!
pandas_ai=PandasAI(llm)
pandas_ai.run(df,prompt='Placeyourprompthere)

当然,你也可以让 PandasAI 进行更复杂的查询。例如,可以要求 PandasAI 求出 2 个最不幸福国家的 GDP 总和:

pandas_ai.run(df,prompt='WhatisthesumoftheGDPsofthe2unhappiestcountries?')

上面的代码将返回以下内容:

19012600725504

也可以请 PandasAI 画图:

pandas_ai.run(
df,
"Plotthehistogramofcountriesshowingforeachthegpd,usingdifferentcolorsforeachbar",
)
6370df14-fa4e-11ed-90ce-dac502259ad0.png
最后

ChatGPT、Pandas是强大的工具,当它们结合在一起时,可以彻底改变我们与数据交互和分析的方式。ChatGPT凭借其先进的自然语言处理能力,可以更直观地与数据进行类似人类的交互。而PandasAI可以增强Pandas数据分析体验。通过将复杂的数据操作任务转换为简单的自然语言查询,PandasAI使用户更容易从数据中提取有价值的见解,而无需编写大量代码。

这对于那些还不熟悉Python或pandas操作/转换的人来说是一种编程的新方法。我们不需要为你想要执行的任务编程,而是只是与AI代理交谈,明确的额告诉它想要的结果,代理会将此消息转换为计算机可解释的代码,并返回结果。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编程
    +关注

    关注

    88

    文章

    3440

    浏览量

    92389
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130561
  • python
    +关注

    关注

    51

    文章

    4675

    浏览量

    83466

原文标题:Pandas + ChatGPT:交互式数据分析!

文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    结构化布线系统有哪些难题

    在15年建筑物整修周期内限制系统的升级。经过精心设计的结构化布线系统可以承受超过大多数局域网传输速率10~15倍的数据流量。这将允许在不改变结构化布线系统的情况下使用新型网络技术。  2.通用
    发表于 05-19 13:46

    python数据分析的类库

    ,因为它太重要了.Pandas库提供了我们很多函数,能够快速的方便的,处理结构化的大型数据,不夸张的说,Pandas是让Python成为强大
    发表于 05-10 15:18

    MaxCompute(ODPS)上处理非结构化数据的Best Practice

    摘要: 随着MaxCompute(ODPS)2.0的上线,新增的非结构化数据处理框架也推出一系列的介绍文章,包括 MaxCompute上如何访问OSS数据, 基本功能用法和整体介绍,侧重介绍读取
    发表于 05-15 12:21

    TrustZone结构化消息是什么?

    大家好,我已阅读任何与TrustZone相关的内容,但我无法弄清楚这两个世界是如何相互沟通的。我所能找到的只是TrustZone API规范中的内容:客户端和服务可以通过两种机制进行通信:结构化
    发表于 03-20 08:58

    pandas对babynames数据集的简单处理

    利用Python进行数据分析——第二章 引言(2):利用pandas对babynames数据集进行简单处理
    发表于 08-09 12:58

    Deeplearningai结构化机器学习项目

    Deeplearningai 结构化机器学习项目 Week2 6-10
    发表于 05-18 15:12

    怎么实现基于结构化方法的无线传感器网络设计?

    怎么实现基于结构化方法的无线传感器网络设计?
    发表于 05-31 06:34

    Python机器学习入门之pandas的使用提示

    系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助
    发表于 08-13 07:36

    结构化设计分为哪几部分?结构化设计的要求有哪些

    结构化设计分为哪几部分?结构化设计的要求有哪些?结构化设计主要包括哪些部分?
    发表于 12-23 06:15

    Danfo.js提供高性能、直观易用的数据结构,支持结构化数据的操作和处理

    Danfo.js 是个 JavaScript 开源库,提供了高性能、直观易用的数据结构,支持结构化数据的操作和处理。Danfo.js 深受 Python
    的头像 发表于 09-23 18:21 4911次阅读

    如何高效的使用Pythonpandas清理非结构化文本字段技巧

    大家都知道数据清洗是数据分析过程中的一个重要部分。pandas有多种清洗文本字段的方法,可以用来为进一步分析做准备。随着数据集越来越大,文本清洗的过程会逐渐变长,寻找一个能在合理时间内
    的头像 发表于 04-06 13:43 1852次阅读
    如何高效的使用<b class='flag-5'>Python</b>和<b class='flag-5'>pandas</b>清理非<b class='flag-5'>结构化</b>文本字段技巧

    详解Python中的Pandas和Numpy库

    pandas、numpy是Python数据科学中非常常用的库,numpy是Python的数值计算扩展,专门用来处理矩阵,它的运算效率比列表更高效。
    的头像 发表于 05-25 12:49 1971次阅读

    如何使用Pythonpandas库读取、写入文件

    在本文中,我将介绍如何使用 Pythonpandas 库读取、写入文件。 1、安装 pip install pandas 2、读取 import pandas as pd df
    的头像 发表于 09-11 17:52 786次阅读

    PandasPython中最好的数据分析工具

    Pandas绝对是Python中最好的数据分析工具,不接受反驳。 本文将展示如何美化 Pandas DataFrame 中的数字,并使用一些更高级的
    的头像 发表于 10-31 10:47 213次阅读
    <b class='flag-5'>Pandas</b>:<b class='flag-5'>Python</b>中最好的<b class='flag-5'>数据</b>分析工具

    如何利用Pythonpandas来处理json数据

    了如何利用PythonpandasPython的第三方库)来处理json数据,主要内容包含: json数据简介 常用json
    的头像 发表于 11-01 10:59 630次阅读
    如何利用<b class='flag-5'>Python</b>和<b class='flag-5'>pandas</b>来处理json<b class='flag-5'>数据</b>