【小沐学AI】数据分析的Python库:Pandas AI

文章目录

  • 1、简介
  • 2、安装
    • 2.1 Python
    • 2.2 PandasAI
  • 3、部署
  • 4、功能
    • 4.1 大型语言模型 (LLM)
      • 4.1.1 BambooLLM
      • 4.1.2 OpenAI 模型
      • 4.1.3 谷歌 PaLM
      • 4.1.4 谷歌 Vertexai
      • 4.1.5 Azure OpenAI
      • 4.1.6 HuggingFace 模型
      • 4.1.7 LangChain 模型
      • 4.1.8 Amazon Bedrock 模型
      • 4.1.9 本地模型
  • 5、代码测试
    • 5.1 入门示例
  • 结语

1、简介

https://pandas-ai.com/
https://github.com/Sinaptik-AI/pandas-ai

PandasAI 是一个 Python 库,可以轻松地用自然语言向数据提问。它可以帮助您使用生成式 AI 探索、清理和分析数据。

在这里插入图片描述
PandasAI与您的数据库(SQL、CSV、pandas、polars、mongodb、noSQL 等)聊天。PandasAI 使用 LLM(GPT 3.5 / 4、Anthropic、VertexAI)和 RAG 进行数据分析对话。

PandasAI 是一个 Python 库,可以轻松地用自然语言对数据(CSV、XLSX、PostgreSQL、MySQL、BigQuery、Databrick、Snowflake 等)提出问题。xIt 可帮助您使用生成式 AI 探索、清理和分析数据。

除了查询之外,PandasAI 还提供通过图形可视化数据、通过处理缺失值来清理数据集以及通过特征生成提高数据质量的功能,使其成为数据科学家和分析师的综合工具。

PandasAI 使用生成式 AI 模型来理解和解释自然语言查询,并将其转换为 python 代码和 SQL 查询。然后,它使用代码与数据交互并将结果返回给用户。

  • PandasAI 的特点
    • 自然语言查询:使用自然语言向数据提问。
    • 数据可视化:生成图形和图表以可视化数据。
    • 数据清理:通过处理缺失值来清理数据集。
    • 特征生成:通过特征生成提高数据质量。
    • 数据连接器:连接到各种数据源,如 CSV、XLSX、PostgreSQL、MySQL、BigQuery、Databrick、Snowflake 等。

2、安装

2.1 Python

https://www.python.org/downloads/windows/
首先尝试安装Python3.12
在这里插入图片描述

2.2 PandasAI

使用如下命令安装:

pip install pandasai

在这里插入图片描述
安装刚开始还比较顺利。
在这里插入图片描述
结果后面如上报错,需要VC++编译器,于是安装VS2019如下:

vs2019社区版下载地址:
https://learn.microsoft.com/zh-cn/visualstudio/releases/2019/release-notes
vs2019专业版下载地址:
https://visualstudio.microsoft.com/zh-hans/vs/older-downloads/

在这里插入图片描述
安装完vs2019之后,再安装PandasAI 仍然报错。
于是卸载Python3.12,安装Python3.11试试。
在这里插入图片描述
安装完Python3.11之后。
在这里插入图片描述

再安装PandasAI 如下:
在这里插入图片描述
正在安装中,
在这里插入图片描述
提示安装安装成功。
运行测试脚本后,提示还需要pyyaml库。
在这里插入图片描述
这里再安装一下pyyaml库。

pip install pyyaml

在这里插入图片描述

3、部署

PandasAI 可以通过多种方式进行部署。

  • 您可以在 Jupyter 笔记本或streamlit 应用中轻松使用它,也可以将其部署为 REST API,例如使用 FastAPI 或 Flask。

  • 托管 PandasAI Cloud 或自托管企业产品,见网站https://pandas-ai.com/。

4、功能

4.1 大型语言模型 (LLM)

https://docs.pandas-ai.com/en/latest/LLMs/llms/
PandasAI 支持多种大型语言模型 (LLM)。LLM 用于从自然语言查询生成代码。然后执行生成的代码以生成结果。

您可以通过实例化一个 LLM 并将其传递给 or 构造函数来选择一个 LLM,也可以在文件中指定一个 LLM。SmartDataFrame / SmartDatalake / pandasai.json

4.1.1 BambooLLM

BambooLLM 是由 PandasAI 开发的最先进的语言模型,考虑了数据分析。

  • 示例代码如下:
from pandasai import SmartDataframe
from pandasai.llm import BambooLLM

llm = BambooLLM(api_key="my-bamboo-api-key")
df = SmartDataframe("data.csv", config={"llm": llm})

response = df.chat("Calculate the sum of the gdp of north american countries")
print(response)

4.1.2 OpenAI 模型

为了使用 OpenAI 模型,您需要拥有 OpenAI API 密钥。
https://platform.openai.com/account/api-keys

在这里插入图片描述

  • 示例代码如下:
from pandasai import SmartDataframe
from pandasai.llm import OpenAI

llm = OpenAI(api_token="my-openai-api-key")
pandas_ai = SmartDataframe("data.csv", config={"llm": llm})

4.1.3 谷歌 PaLM

为了使用 Google PaLM 模型,您需要拥有 Google Cloud API 密钥。

  • 示例代码如下:
from pandasai import SmartDataframe
from pandasai.llm import GooglePalm

llm = GooglePalm(api_key="my-google-cloud-api-key")
df = SmartDataframe("data.csv", config={"llm": llm})

4.1.4 谷歌 Vertexai

为了通过 Vertexai api 使用 Google PaLM 模型,您需要具备:
Google Cloud 项目
项目设置区域
安装可选依赖项google-cloud-aiplatform
认证gcloud

  • 示例代码如下:
from pandasai import SmartDataframe
from pandasai.llm import GoogleVertexAI

llm = GoogleVertexAI(project_id="generative-ai-training",
                     location="us-central1",
                     model="text-bison@001")
df = SmartDataframe("data.csv", config={"llm": llm})

4.1.5 Azure OpenAI

若要使用 Azure OpenAI 模型,需要具有 Azure OpenAI API 密钥以及 Azure OpenAI 终结点。
https://azure.microsoft.com/zh-cn/products/ai-services/openai-service/

  • 示例代码如下:
from pandasai import SmartDataframe
from pandasai.llm import AzureOpenAI

llm = AzureOpenAI(
    api_token="my-azure-openai-api-key",
    azure_endpoint="my-azure-openai-api-endpoint",
    api_version="2023-05-15",
    deployment_name="my-deployment-name"
)
df = SmartDataframe("data.csv", config={"llm": llm})

4.1.6 HuggingFace 模型

为了通过文本生成使用 HuggingFace 模型,您需要首先提供受支持的大型语言模型 (LLM)。例如,这可用于使用 LLaMa2、CodeLLaMa 等模型。
https://huggingface.co/docs/text-generation-inference/index

  • 示例代码如下:
from pandasai.llm import HuggingFaceTextGen
from pandasai import SmartDataframe

llm = HuggingFaceTextGen(
    inference_server_url="http://127.0.0.1:8080"
)
df = SmartDataframe("data.csv", config={"llm": llm})

4.1.7 LangChain 模型

PandasAI 还内置了对 LangChain 模型的支持。
为了使用LangChain模型,您需要安装软件包:langchain
pip install pandasai[langchain]

  • 示例代码如下:
from pandasai import SmartDataframe
from langchain_openai import OpenAI

langchain_llm = OpenAI(openai_api_key="my-openai-api-key")
df = SmartDataframe("data.csv", config={"llm": langchain_llm})

4.1.8 Amazon Bedrock 模型

要使用 Amazon Bedrock 模型,您需要拥有 AWS AKSK 并获得模型访问权限。
https://docs.aws.amazon.com/IAM/latest/UserGuide/id_credentials_access-keys.html
您需要安装软件包: pip install pandasai[bedrock]

  • 示例代码如下:
from pandasai import SmartDataframe
from bedrock_claude import BedrockClaude
import boto3

bedrock_runtime_client = boto3.client(
    'bedrock-runtime',
    aws_access_key_id=ACCESS_KEY,
    aws_secret_access_key=SECRET_KEY
)

llm = BedrockClaude(bedrock_runtime_client)
df = SmartDataframe("data.csv", config={"llm": llm})

4.1.9 本地模型

PandasAI 支持本地模型,但较小的模型通常性能不佳。要使用本地模型,请先在遵循 OpenAI API 的本地推理服务器上托管一个模型。这已经过测试,可与 Ollama 和 LM Studio 配合使用。

from pandasai import SmartDataframe
from pandasai.llm.local_llm import LocalLLM

ollama_llm = LocalLLM(api_base="http://localhost:11434/v1", model="codellama")
df = SmartDataframe("data.csv", config={"llm": ollama_llm})
from pandasai import SmartDataframe
from pandasai.llm.local_llm import LocalLLM

lm_studio_llm = LocalLLM(api_base="http://localhost:1234/v1")
df = SmartDataframe("data.csv", config={"llm": lm_studio_llm})

5、代码测试

5.1 入门示例

import pandas as pd
from pandasai import SmartDataframe

# Sample DataFrame
sales_by_country = pd.DataFrame({
    "country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],
    "sales": [5000, 3200, 2900, 4100, 2300, 2100, 2500, 2600, 4500, 7000]
})

# Instantiate a LLM
from pandasai.llm import OpenAI
llm = OpenAI(api_token="YOUR_API_TOKEN")

df = SmartDataframe(sales_by_country, config={"llm": llm})
df.chat('Which are the top 5 countries by sales?')

运行后提示open key错误或不存在,如下:
在这里插入图片描述
当然正确的结果应该输出:

China, United States, Japan, Germany, Australia

修改代码,使用google的AI如下:

import pandas as pd
from pandasai import SmartDataframe

# Sample DataFrame
sales_by_country = pd.DataFrame({
    "country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],
    "sales": [5000, 3200, 2900, 4100, 2300, 2100, 2500, 2600, 4500, 7000]
})

# Instantiate a LLM
# from pandasai.llm import OpenAI
# llm = OpenAI(api_token="YOUR_API_TOKEN")

from pandasai.llm import GooglePalm
llm = GooglePalm(api_key="my-google-cloud-api-key")

# df = SmartDataframe("data.csv", config={"llm": llm})
df = SmartDataframe(sales_by_country, config={"llm": llm})

res = df.chat('Which are the top 5 countries by sales?')
print(res)

运行又报错,如下:
在这里插入图片描述
安装了google.generativeai库之后:
在这里插入图片描述
仍然报错如上。
尝试画图语句如下:

df.chat(
    "Plot the histogram of countries showing for each the sales",
)

在这里插入图片描述
仍然报错如上。

结语

如果您觉得该方法或代码有一点点用处,可以给作者点个赞,或打赏杯咖啡;╮( ̄▽ ̄)╭
如果您感觉方法或代码不咋地//(ㄒoㄒ)//,就在评论处留言,作者继续改进;o_O???
如果您需要相关功能的代码定制化开发,可以留言私信作者;(✿◡‿◡)
感谢各位童鞋们的支持!( ´ ▽´ )ノ ( ´ ▽´)っ!!!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/464029.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

手机翻页效果的电子画册如何实现?

​在信息 爆炸的时代,纸质画册已经难以满足人们快速获取和分享信息的需求。而电子画册,以其独特的翻页效果和便捷的传播方式,正逐渐受到大众的青睐。那么,这种让人眼前一亮的手机翻页电子画册是如何制作的呢? 接下来&a…

一体成型PFA尖头镊子高纯特氟龙材质镊子适用半导体新材料

PFA镊子用于夹取小型片状、薄状、块状样品,广泛应用在半导体、新材料、新能源、原子能、石油化工、无线电、电力机械等行业。 具有耐高低温性(可使用温度-200℃~+260℃)、耐腐蚀、表面不粘性等特点,用于苛…

C#调用Halcon出现尝试读取或写入受保护的内存,这通常指示其他内存已损坏。System.AccessViolationException

一、现象 在C#中调用Halcon,出现异常提示:尝试读取或写入受保护的内存,这通常指示其他内存已损坏。System.AccessViolationException 二、原因 多个线程同时访问Halcon中的某个公共变量,导致程序报错 三、测试 3.1 Halcon代码 其中tsp_width…

【Linux】进程间通信2(共享内存||消息队列)

共享内存 介绍 1.共享内存区是最快的IPC形式。一旦这样的内存映射到共享它的进程的地址空间,这些进程间数据传递不再涉及到内核,换句话说是进程不再通过执行进入内核的系统调用来传递彼此的数据。 2.当共享内存创建出来后,通过系统调用挂接到…

StarRocks实战——云览科技存算分离实践

目录 背景 一、平台现状&痛点 1.1 使用组件多,维护成本高 1.2 链路冗长,数据时效性难以保证 1.3 服务稳定性不足 二、StarRocks 存算分离调研 2.1 性能对比 2.2 易用性 2.3 存储成本 三、StarRocks 存算分离实践 3.1 查询优化 3.1.1 物化…

人工智能轨道交通行业周刊-第75期(2024.3.4-3.17)

本期关键词:大安防平台、调度集中系统、道岔爬行、詹式车钩、星火大模型 1 整理涉及公众号名单 1.1 行业类 RT轨道交通人民铁道世界轨道交通资讯网铁路信号技术交流北京铁路轨道交通网铁路视点ITS World轨道交通联盟VSTR铁路与城市轨道交通RailMetro轨道世界铁路…

子组件自定义事件$emit实现新页面弹窗关闭之后父界面刷新

文章目录 需求弹窗关闭之后父界面刷新展示最新数据 实现方案AVUE 大文本默认展开slotVUE 自定义事件实现 父界面刷新那么如何用呢? 思路核心代码1. 事件定义2. 帕斯卡命名组件且在父组件中引入以及注册3. 子组件被引用与父事件监听4.父组件回调函数 5.按钮弹窗事件 需求 弹窗…

面向对象编程第一式:封装 (Java篇)

本篇会加入个人的所谓‘鱼式疯言’ ❤️❤️❤️鱼式疯言:❤️❤️❤️此疯言非彼疯言 而是理解过并总结出来通俗易懂的大白话, 小编会尽可能的在每个概念后插入鱼式疯言,帮助大家理解的. 🤭🤭🤭可能说的不是那么严谨.但小编初心是能让更多人…

简单!实用!易懂!:Java如何批量导出微信收藏夹链接-->转换成Markdown

文章目录 前言参考方案方案1:Python方案2:Python 我的方案手动前置操作代码处理 前言 不知道是否有很多小伙伴跟我一样,有个问题非常愁,对于收藏党来说,收藏了学会了!然后导致微信收藏夹的东西越来越多了&…

【LLM加速】注意力优化(基于位置/内容的稀疏注意力 | flashattention)

note (1)近似注意力: Routing Transformer采用K-means 聚类方法,针对Query和Key进行聚类,类中心向量集合为 { μ i } i 1 k \left\{\boldsymbol{\mu}_i\right\}_{i1}^k {μi​}i1k​ ,其中k 是类中心的…

@RequestParam、@PathVariable、@RequestBody

1、中文翻译 RequestParam-请求参数、PathVariable-路径变量、RequestBody请求体 2、作用: Controller中获取前端传递的参数 3、从注解本身角度分析 3.1、PathVariable:路径变量 通过 PathVariable 可以将URL中占位符参数{xxx}绑定到处理器类的方法形…

【组合回溯】Leetcode 131. 分割回文串

【组合回溯】Leetcode 131. 分割回文串 解法 切割组合回溯 ---------------🎈🎈131. 分割回文串 题目链接🎈🎈------------------- 解法 切割组合回溯 全局变量:result存储所有path的集合,path用来记录切…

文件系统 与 软硬链接

目录 一、文件系统 认识磁盘 磁盘存储的逻辑抽象结构 块组的内容 inode Table Data blocks inode Bitmap Block Bitmap Group Descriptor Table Super Block 理解目录 二、软硬链接 软链接​ 硬链接 硬链接数 一、文件系统 之前的博客主题叫做"进程打开文…

Redisinsight默认端口改成5540了!网上的8001都是错误的

Redisinsight 打开白屏解决方法 最近发现一个很讨厌的bug,就是redisinsight运行之后,不行了,在网上找到的所有资料里面,redis insight都是运行在8001端口,但是我现在发现,变成了5540 所以对应的docker-com…

Node.js与webpack(三)

上一节:Node.js与Webpack笔记(二)-CSDN博客 从0来一遍(webpack项目) 将之前的webpack 的纯开发配置,重新创建空白项目,重新做一遍,捋一遍思路防止加入生产模式时候弄混 1.创建文件夹…

SVM-支持向量机实验分析(软硬间隔,线性核,高斯核)

目录 一、前言 二、实验 0. 导入包 1. 支持向量机带来的效果 2. 软硬间隔 3. 非线性支持向量机 4. 核函数变换 线性核 高斯核 对比不同的gamma值对结果的影响 一、前言 学习本文之前要具有SVM支持向量机的理论知识,可以参考支持向量机(Support Vector …

epoll怎么就高效了?

目录 摘要 1 举个栗子 2 从 epoll_create 开始 3 epoll_ctl,插入待监听的描述符 3.1 故事围绕 ep_item 展开 3.2 在 socket 等待队列上设置 epoll 回调 3.3 关系变得复杂 4 epoll_wait 等你 4.1 等待就绪事件 4.2 共享内存? 5 来了来了&#xf…

第 126 场 LeetCode 双周赛题解

A 求出加密整数的和 模拟 class Solution { public:int sumOfEncryptedInt(vector<int> &nums) {int res 0;for (auto x: nums) {string s to_string(x);char ch *max_element(s.begin(), s.end());for (auto &c: s)c ch;res stoi(s);}return res;} };B 执行…

Java学习笔记(15)

JDK7前时间相关类 Date时间类 Simpledateformat Format 格式化 Parse 解析 默认格式 指定格式 EE&#xff1a;表示周几 Parse&#xff1a;把字符串时间转成date对象 注意&#xff1a;创建对象的格式要和字符串的格式一样 Calendar日历类 不能创建对象 Getinstance 获取当…

8款手机宝藏APP,每款都非常强大实用!

1. 综合AI工具箱——HuluAI 综合AI工具https://h5.cxyhub.com/?invitationhmeEo7 HuluAI是一款聚合式全能AI工具&#xff0c;完美接入官方正版GPT4.0和Midjourney绘画&#xff01;。除此之外&#xff0c;还拥有文心一言语言大模型和DallE3绘图功能。经过长时间的稳定运行&am…