使用 Pandas 读取Flat文件
filename = 'demo.csv'
data = pd.read_csv(filename,
nrows=5, # 要读取的文件的行数
header=None, # 作为列名的行号
sep='\t', # 分隔符使用
comment='#', # 分隔注释的字符
na_values=[""]) # 可以识别为NA/NaN的字符串
二、Excel 电子表格
Pandas中的ExcelFile()是pandas中对excel表格文件进行读取相关操作非常方便快捷的类,尤其是在对含有多个sheet的excel文件进行操控时非常方便。
file = 'demo.xlsx'
data = pd.ExcelFile(file)
df_sheet2 = data.parse(sheet_name='1960-1966',
skiprows=[0],
names=['Country',
'AAM: War(2002)'])
df_sheet1 = pd.read_excel(data,
sheet_name=0,
parse_cols=[0],
skiprows=[0],
names=['Country'])
使用sheet_names属性获取要读取工作表的名称。
data.sheet_names
三、SAS 文件
SAS (Statistical Analysis System)是一个模块化、集成化的大型应用软件系统。其保存的文件即sas是统计分析文件。
from sas7bdat import SAS7BDAT
with SAS7BDAT('demo.sas7bdat') as file:
df_sas = file.to_data_frame()
四、Stata 文件
Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。其保存的文件后缀名为.dta的Stata文件。
data = pd.read_stata('demo.dta')
五、Pickled 文件
python中几乎所有的数据类型(列表,字典,集合,类等)都可以用pickle来序列化。python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象
信息保存到文件中去,永久存储;通过pickle模块的反序列化操作,我们能够从文件中创建上一次程序保存的对象。
import pickle
with open('pickled_demo.pkl', 'rb') as file:
pickled_data = pickle.load(file) # 下载被打开被读取到的数据
与其相对应的操作是写入方法pickle.dump() 。
六、HDF5 文件
HDF5文件是一种常见的跨平台数据储存文件,可以存储不同类型的图像和数码数据,并且可以在不同类型的机器上传输,同时还有统一处理这种文件格式的函数库。
HDF5 文件一般以 .h5? 或者 .hdf5 作为后缀名,需要专门的软件才能打开预览文件的内容。
import h5py
filename = 'H-H1_LOSC_4_v1-815411200-4096.hdf5'
data = h5py.File(filename, 'r')
七、Matlab 文件
其由matlab将其工作区间里的数据存储的后缀为.mat的文件。
import scipy.io
filename = 'workspace.mat'
mat = scipy.io.loadmat(filename)
八、关系型数据库
from sqlalchemy import create_engine
engine = create_engine('sqlite://Northwind.sqlite')
使用table_names()方法获取一个表名列表
table_names = engine.table_names()
1、直接查询关系型数据库
con = engine.connect()
rs = con.execute("SELECT * FROM Orders")
df = pd.DataFrame(rs.fetchall())
df.columns = rs.keys()
con.close()
使用上下文管理器 -- with
with engine.connect() as con:
rs = con.execute("SELECT OrderID FROM Orders")
df = pd.DataFrame(rs.fetchmany(size=5))
df.columns = rs.keys()
2、使用Pandas查询关系型数据库
df = pd.read_sql_query("SELECT * FROM Orders", engine)
数据探索
数据导入后会对数据进行初步探索,如查看数据类型,数据大小、长度等一些基本信息。这里简单总结一些。
1、NumPy Arrays
data_array.dtype # 数组元素的数据类型
data_array.shape # 阵列尺寸
len(data_array) # 数组的长度
2、Pandas DataFrames
df.head() # 返回DataFrames前几行(默认5行)
df.tail() # 返回DataFrames最后几行(默认5行)
df.index # 返回DataFrames索引
df.columns # 返回DataFrames列名
df.info() # 返回DataFrames基本信息
data_array = data.values # 将DataFrames转换为NumPy数组