Pandas数据结构简介


Pandas处理以下三种数据结构 -

  • 序列
  • 数据帧
  • 面板

这些数据结构建立在Numpy数组的顶部,这意味着它们很快。

尺寸和说明

考虑这些数据结构的最佳方式是高维数据结构是其较低维数据结构的容器。例如,DataFrame是Series的容器,Panel是DataFrame的容器。

数据结构 外形尺寸 描述
序列 1 1D标记的同质阵列,sizeimmutable。
数据帧 2 一般的二维标签,大小可变的表格结构,具有潜在的非均匀类型列。
面板 3 一般3D标签,大小可变的数组。

构建和处理两个或更多维数组是一项单调乏味的任务,用户在编写函数时需要考虑数据集的方向。但是使用Pandas数据结构,用户的心理努力会减少。

例如,使用表格数据(DataFrame)时,思考 索引 (行)和 而不是轴0和轴1时语义上更有用。

可变性

所有Pandas数据结构都是可变的(可以更改),除了Series都是可变大小的。序列大小不可变。

- DataFrame被广泛使用并且是最重要的数据结构之一。 面板用得少得多。

序列

序列是一种具有同质数据结构的一维数组。例如,以下序列是整数10,23,56 ...的集合

10 23 56 17 52 61 73 90 26 72

关键点

  • 同质数据
  • 大小不可变
  • 数据可变的值

数据帧

DataFrame是一个具有异构数据的二维数组。例如,

名称 年龄 性别 评分
史蒂夫 32 3.45
利亚 28 4.6
VIN 45 3.9
凯蒂 38 2.78

该表格表示一个组织的销售团队的总体绩效评级数据。数据以行和列表示。每列代表一个属性,每行代表一个人。

数据类型的列

四列的数据类型如下 -

类型
名称
年龄 整数
性别
评分 浮动

关键点

  • 异构数据
  • 大小可变
  • 数据可变

面板

面板是具有异构数据的三维数据结构。图形表示很难代表面板。但是面板可以作为DataFrame的容器来说明。

关键点

  • 异构数据
  • 大小可变
  • 数据可变