数据库数据的读取
绝大多数公司都会选择将数据存入数据库中,因为数据库既可以存放海量数据,又可以非常便捷地实现数据的查询。本节将以MySQL和SQL Server为例,教会读者如何使用Pandas模块和对应的数据库模块(分别是pymysql模块和pymssql模块,如果读者的Python没有安装这两个模块,需要通过cmd命令输入pip install pymysql和pip install pysmsql)实现数据的连接与读取。
首先需要介绍pymysql模块和pymssql模块中的连接函数connect,虽然两个模块中的连接函数名称一致,但函数的参数并不完全相同,所以需要分别介绍函数用法和几个重要参数的含义:
(1)pymysql中的connect
pymysql.connect(host=None, user=None, password='', database=None, port=0, charset='')
- host:指定需要访问的MySQL服务器。
- user:指定访问MySQL数据库的用户名。
- password:指定访问MySQL数据库的密码。
- database:指定访问MySQL数据库的具体库名。
- port:指定访问MySQL数据库的端口号。
- charset:指定读取MySQL数据库的字符集,如果数据库表中含有中文,一般可以尝试将该参数设置为“utf8”或“gbk”。
(2)pymssql中的connect
pymssql.connect(server=None, user=None, password=None, database=None, charset=None)
从两个模块的connect函数看,两者几乎没有差异,而且参数含义也是一致的,所不同的是pymysql模块中connect函数的host参数表示需要访问的服务器,而pymssql函数中对应的参数是server。为了简单起见,以本地电脑中的MySQL和SQL Server为例,演示一遍如何使用Python连接数据库的操作(如果读者需要在自己电脑上操作,必须确保你的电脑中已经安装了这两种数据库)。图3、图4所示分别是MySQL和SQL Server数据库中的数据表。
# 导入模块
import pymysql
# 连接MySQL数据库
conn = pymysql.connect(host='localhost', user='root', password='*******',
database='test', port=3306, charset='utf8')
# 读取数据
user = pd.read_sql('select * from topy', conn)
# 关闭连接
conn.close()
# 数据输出
user
如上结果所示,将数据库中的数据读入到了Python中。由于MySQL的原数据集中含有中文,为了避免乱码的现象,将connect函数中的chartset参数设置为utf8。读取数据时,需要用到Pandas模块中的read_sql函数,该函数至少传入两个参数,一个是读取数据的查询语句(sql),另一个是连接桥梁(con);在读取完数据之后,请务必关闭连接conn,因为它会一直占用电脑的资源,影响电脑的运行效率。
# 导入第三方模块
import pymssql
# 连接SQL Server数据库
connect = pymssql.connect(server = 'localhost', user = '', password = '',
database = 'train', charset = 'utf8')
# 读取数据
data = pd.read_sql("select * from sec_buildings where direction = '朝南'", con=connect)
# 关闭连接
connect.close()
# 数据输出
data.head()
如上所示,连接SQL Server的代码与MySQL的代码基本相同,由于访问SQL Server不需要填入用户名和密码,因此user参数和password参数需要设置为空字符;在读取数据时,可以写入更加灵活的SQL代码,如上代码中的SQL语句附加了数据的筛选功能,即所有朝南的二手房;同样,数据导入后,仍然需要关闭连接。
Pandas与 MySQL 的兼容性
报错
“UserWarning: pandas only supports SQLAlchemy connectable (engine/connection) or database string URI or sqlite3 DBAPI2 connection. Other DBAPI2 objects are not tested. Please consider using SQLAlchemy.”
这个警告是由 Pandas 库发出的,它提示你在使用 Pandas 操作数据库时传入的连接对象不是 SQLAlchemy 的 connectable 对象或数据库字符串 URI,或者不是 sqlite3 DBAPI2 的连接对象。Pandas 只对 SQLAlchemy 连接对象进行了测试,而对于其他 DBAPI2 对象的支持没有进行充分的测试。
为了避免这个警告,你可以使用 SQLAlchemy 的 connectable 对象或数据库字符串 URI,或者使用 sqlite3 DBAPI2 的连接对象。如果你使用的是其他类型的连接对象,可以考虑使用 SQLAlchemy 进行封装,或者手动测试一下 Pandas 是否能够正常使用。
另外,需要注意的是,虽然这个警告可能会影响到程序的稳定性,但并不一定会导致程序崩溃或出现错误。如果你的程序正常运行并且没有出现问题,可以不必过于担心这个警告。
如何消除这个报错?
pymysql.connect() 是用于创建 MySQL 数据库连接的方法,而 Pandas 是一个数据分析库,它主要用于数据处理和分析,包括读取和写入数据库数据。
虽然 Pandas 可以读取和写入 MySQL 数据库中的数据,但是它并不支持直接使用 pymysql.connect() 方法创建数据库连接。相反,Pandas 支持使用 SQLAlchemy 创建数据库连接。
你可以使用以下代码创建一个 SQLAlchemy 的 MySQL 数据库连接:
from sqlalchemy import create_engine
# 创建数据库连接字符串
user = 'your_username'
password = 'your_password'
host = 'your_host'
port = 'your_port'
database = 'your_database'
db_url = f'mysql+pymysql://{user}:{password}@{host}:{port}/{database}'
# 创建 SQLAlchemy 引擎
engine = create_engine(db_url)
# 使用 Pandas 读取数据
df = pd.read_sql_table('your_table_name', engine)
在上面的代码中,我们首先创建了一个数据库连接字符串,然后使用 create_engine() 方法创建了一个 SQLAlchemy 的 MySQL 引擎。最后,我们使用 Pandas 的 read_sql_table() 方法读取了数据库中的数据。
需要注意的是,在使用 SQLAlchemy 创建 MySQL 数据库连接时,需要安装 mysqlclient 或 pymysql 包。另外,如果你使用的是 Python 3,需要使用 pymysql 包,因为 mysqlclient 包不支持 Python 3。
总之,虽然 Pandas 支持读取和写入 MySQL 数据库中的数据,但是它不支持直接使用 pymysql.connect() 方法创建数据库连接,而是需要使用 SQLAlchemy 创建连接。
SQLAlchemy不需要手动关闭数据库连接
使用 SQLAlchemy 创建的数据库连接是由 SQLAlchemy 管理的,所以在读取完数据库后,不需要手动关闭连接,而是由 SQLAlchemy 自动管理连接的生命周期。
具体来说,create_engine() 方法返回的是一个 Engine 对象,它是一个连接池,可以自动管理连接的创建和关闭。当你使用 read_sql() 或 read_sql_table() 方法读取数据时,Pandas 会自动从连接池中获取一个连接,并在读取完数据后将连接归还给连接池。
因此,你不需要手动关闭数据库连接,也不需要担心连接泄漏的问题。当你的程序结束时,连接池会自动关闭所有连接,并释放相关资源。
需要注意的是,如果你手动创建了一个数据库连接,而没有使用连接池或者没有正确地关闭连接,就可能会出现连接泄漏或资源泄漏的问题。因此,如果你手动创建了连接,最好使用 try…finally 语句来确保连接在使用完毕后被正确关闭,例如:
import pymysql
# 手动创建连接
conn = pymysql.connect(host='your_host', user='your_user', password='your_password', db='your_database')
try:
# 执行数据库操作
with conn.cursor() as cursor:
cursor.execute('SELECT * FROM your_table')
result = cursor.fetchall()
# 处理查询结果
print(result)
finally:
# 确保连接被关闭
conn.close()