Python机器学习012:当csv格式的数据集太大(GB以上),pd.read_csv读取速度非常慢时,请果断使用h5!!!

(一)HDF与h5

HDF(Hierarchical Data Format层次数据格式)是一种设计用于存储和组织大量数据的文件格式,最开始由美国国家超算中心研发, 后来由一个非盈利组织HDF Group支持。

HDF支持多种商业及非商业的软件平台,包括MATLAB、Java、Python、R和Julia等等,现在也提供了Spark。其版本包括了HDF4和现在大量用的HDF5。

h5是HDF5文件格式的后缀。h5文件对于存储大量数据而言拥有极大的优势,当csv格式的数据集太大(GB以上),pd.read_csv读取速度非常慢时,请果断使用h5存储数据!!!,既能装逼,效率又高!

(二)h5文件数据组织方式:像Linux文件系统一样组织数据

h5文件中有两个核心的概念:组“group”和数据集“dataset”。 一个h5文件就是 “dataset” 和 “group” 二合一的容器。
   dataset :简单来讲类似数组组织形式的数据集合,像 numpy 数组一样工作,一个dataset即一个numpy.ndarray。
具体的dataset可以是图像、表格,甚至是pdf文件和excel。
   group:包含了其它 dataset(数组) 和 其它 group ,像字典一样工作。 一个h5文件被像linux文件系统一样被组织起来:
dataset是文件,group是文件夹,它下面可以包含多个文件夹(group)和多个文件(dataset)。形象来看h5数据组织方式大概像
本程序所在位置的 "HDF5.png"所

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 黑客帝国 设计师:白松林 返回首页
实付 9.90元
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值