pandas读取数据
-
导入需要的包
import pandas as pd import numpy as np import warnings import os warnings.filterwarnings('ignore')
读取纯文本文件
pd.read_csv
-
使用默认的标题行、逗号分隔符
import pandas as pd fpath = "./datas/ml-latest-small/ratings.csv" '''使用pd.read_csv读取数据''' ratings = pd.read_csv(fpath) ''' 查看前几行数据''' ratings.head()
查看数据的形状
'''查看数据的形状,返回(行数、列数)''' ratings.shape (100836, 4) """输出如下""" Index(['userId', 'movieId', 'rating', 'timestamp'], dtype='object')
查看索引列
'''查看索引列''' ratings.index """输出如下""" RangeIndex(start=0, stop=100836, step=1)
查看每列的数据类型
'''查看每列的数据类型''' ratings.dtypes """输出如下""" userId int64 movieId int64 rating float64 timestamp int64 dtype: object
读取txt文件
-
自己指定分隔符、列名
fpath = "./datas/crazyant/access_pvuv.txt" pvuv = pd.read_csv( fpath, sep="\t", # 指定分隔符 header=None, # 告诉pandas该数据没有 特征名称(列名) names=['pdate', 'pv', 'uv'] # 自己指定特征名称(列名) )
pvuv
读取excel文件
-
read_excel
fpath = "./datas/crazyant/access_pvuv.xlsx" pvuv = pd.read_excel(fpath)
pvuv
读取MySQL数据库
-
pymysql
import pymysql conn = pymysql.connect( host='127.0.0.1', user='root', password='123qwe', database='test', charset='utf8' ) mysql_page = pd.read_sql("select * from crazyant_pvuv", con=conn) mysql_page