pyarrow，一个列式数据处理的 Python 库！

张

张建站

2026/6/11 16:04:51

10分钟阅读

在日常的数据处理工作中我们经常会遇到一些“甜蜜的烦恼”。比如当你用Jupyter Notebook开心的跑数据分析时突然弹出一个MemoryError那是因为你的pandas试图吃掉好几GB的日志文件结果程序直接闪退。又或者当你辛辛苦苦清洗完数据准备喂给机器学习模型时却发现数据在Python、C或Spark之间流转时序列化和反序列化慢得让人抓狂。这些场景背后其实都指向了当前数据处理中两个最核心的痛点内存瓶颈和数据交互的高开销。传统的NumPy和Pandas虽然强大但在处理大规模数据集时它们基于行式存储的设计和Python对象的额外开销往往成为性能瓶颈。这时候PyArrow的出现就显得尤为重要。它不仅仅是又一个新的数据处理库而是一种数据存储和处理范式的革新。作为 Apache Arrow 项目的 Python 官方实现PyArrow 定义了一种跨语言的、标准化的列式内存数据格式它能让数据在不同系统如 Spark、Dask、Pandas之间实现零拷贝共享。简单来说在实际生活中如果你是一个负责电商数据分析的工程师面对动辄几十GB的销售记录PyArrow可以帮助你像翻书一样只翻阅需要的“章节”列而不是搬起整本书行。如果你是一个研究物联网的学者PyArrow的高效压缩和流式处理能力能让你的树莓派轻松处理来自成百上千传感器的数据流。它解决了大数据分析时代“加载慢、内存爆、跨语言难”的三大难题。一、安装 PyArrow安装 PyArrow 非常简单但需要注意由于它包含底层的 C 实现库请尽量确保网络环境稳定。打开终端执行以下命令即可bashpip install pyarrow如果你的环境涉及大数据处理强烈建议使用国内镜像源加速或者通过conda进行安装以保证二进制兼容性bashconda install pyarrow -c conda-forge安装完成后在 Python 中验证版本pythonimport pyarrow as pa print(pa.__version__) # 输出示例14.0.2二、基本用法四大核心步骤PyArrow 的设计非常直观它围绕Array数组、Table表和RecordBatch记录批次这三个核心数据结构展开。我们可以通过以下四个步骤快速上手步骤 1创建 Arrow 数组ArrayArray 是 PyArrow 的基本构建单元代表一列同构数据pythonimport pyarrow as pa # 创建一个整数列允许包含空值 arr_int pa.array([1, 2, None, 4, 5]) print(arr_int.type) # 输出: int64 print(arr_int) # 输出: [1, 2, null, 4, 5] # 创建一个字符串列 arr_str pa.array([apple, banana, cherry], typepa.string())步骤 2从字典构建表TableTable 是 PyArrow 中最常用的高级数据结构类似于 Pandas 的 DataFrame但基于列式内存布局python# 定义数据 data { product: [手机, 电脑, 平板, 手机], price: [3999, 6999, 2999, 3999], quantity: [10, 5, 8, 15] } # 创建 Table table pa.table(data) print(table.schema) # 输出 # product: string # price: int64 # quantity: int64步骤 3数据处理与计算pyarrow.computePyArrow 内置了高度优化的compute模块支持向量化运算无需像 Pandas 那样频繁地调用 Python 层函数pythonimport pyarrow.compute as pc # 筛选价格大于 3000 的行 mask pc.greater(table[price], 3000) filtered_table table.filter(mask) print(filtered_table) # 计算价格的平均值自动忽略空值 avg_price pc.mean(table[price]) print(f平均价格: {avg_price.as_py()}) # 输出: 平均价格: 4499.0步骤 4与 Pandas 的无缝互转这是 PyArrow 最实用的特性之一。你可以在“内存高效模式”和“Pandas 易用模式”之间自由切换pythonimport pandas as pd # Arrow Table 转 Pandas DataFrame零拷贝极快 df table.to_pandas() # Pandas DataFrame 转 Arrow Table new_table pa.Table.from_pandas(df)三、高级用法零拷贝与列式存储的威力理解 PyArrow 的高级用法关键在于理解其零拷贝读取和列式存储的底层优势。1. 处理超级大文件内存映射与流式读取传统 Pandas 读取大文件时会尝试将整个文件载入内存而 PyArrow 支持流式读取分批处理甚至可以只读取内存中需要的部分列列裁剪pythonimport pyarrow.parquet as pq # 打开一个巨大的 Parquet 文件 parquet_file pq.ParquetFile(sale_records.parquet) # 逐批读取例如每次 50000 行 for batch in parquet_file.iter_batches(batch_size50000): # 在这里处理每一批数据避免内存爆炸 process_batch(batch)2. 数据集分区扫描Predicate Pushdown/谓词下推当你面对成千上万个按日期或地区分区的文件时Dataset API 可以极大提升查询效率pythonimport pyarrow.dataset as ds # 构建数据集 dataset ds.dataset(/path/to/partitioned/dataset, formatparquet) # 构建过滤条件 condition (ds.field(date) 2024-01-01) (ds.field(sales) 1000) # 读取满足条件的数据扫描时直接下推过滤条件 filtered_ds dataset.to_table(filtercondition, columns[product, sales])四、实际应用场景深度案例为了让你更深刻地感受到 PyArrow 的巨大潜力下面我们来看一个贴近日常生活的商品销量数据预警系统案例。pythonimport pyarrow as pa import pyarrow.compute as pc import pyarrow.parquet as pq from datetime import datetime # 模拟数据每天的商品销量 data { sku_id: [A1001, A1002, A1003, A1001, A1002, A1003], date: [ datetime(2024, 5, 1), datetime(2024, 5, 1), datetime(2024, 5, 1), datetime(2024, 5, 2), datetime(2024, 5, 2), datetime(2024, 5, 2) ], sales: [120, 45, 78, 80, 52, 300] } table pa.table(data) # 高级计算1分组聚合计算总销量 aggregated pc.group_by( table, keys[sku_id], aggregates[pc.sum(sales).alias(total_sales)] ) # 转换为 Pandas 查看结果便于阅读 result_df aggregated.to_pandas() print(各商品总销量:\n, result_df) # 高级计算2异常值检测找出日销量突增300%的商品 # 创建一个副本并排序此处简化逻辑实际如需窗口函数滑动计算可结合 pandas # 排序数据按 sku_id 和 date sorted_table table.sort_by([(sku_id, ascending), (date, ascending)]) # 分割字段进行计算这里展示分商品计算各自均值 grouped pc.group_by(sorted_table, keys[sku_id], aggregates[pc.mean(sales), pc.stddev(sales)]) print(各商品销量统计:\n, grouped.to_pandas()) # 在特定业务逻辑中如果某商品销量高于均值的 3 倍标准差触发预警 filtered_anomaly sorted_table.filter(pc.greater(sorted_table[sales], 150)) print(\n潜在爆品销量 150:\n, filtered_anomaly) # 高级计算3存储与压测 # 将结果数据写入 Parquet高压缩比列式存储 pq.write_table(filtered_anomaly, anomaly_skus.parquet, compressionsnappy) print(数据已存储至 anormaly_skus.parquet)为什么要这么用内存优化如果这个数据表达到几十万行Pandas 可能因为处理字符串对象而占用大量内存。而 PyArrow 在底层将所有字符串连续存储在内存中极大减少了内存碎片和指针跳转。列式特性当你只需要对sales列做sum运算时PyArrow 只需要遍历这一列的内存块而不需要像行式存储那样逐行解析整条记录。生产级别的 IO写入 Parquet 文件后这种格式不仅是 Spark、Hive 等大数据生态的标准还自带 Schema 信息非常适合做数据湖架构中的底层存储。PyArrow 并不是为了替代 Pandas 或 SQL而是为你提供了一种更低成本、更高效率的数据流底层支撑。当你的数据处理从笔记本原型走向工程化、海量化的生产环境时你会越来越依赖它的零拷贝、向量化计算以及跨语言互操作能力。它就像是一根高效的“管道”让数据在你的分析系统和存储系统之间畅通无阻。而 PyArrow 的官方文档arrow.apache.org/docs/python/是最好的学习和进阶资源可以常去翻阅。以上就是关于 PyArrow 的全部内容啦。大家在自己的数据处理工作中遇到过哪些“内存爆表”的尴尬瞬间或者对 PyArrow 有什么独到的见解欢迎在下方留言讨论哦我们一起聊聊看看还能怎么用“箭头”刺破数据处理的瓶颈

终极指南：5分钟解锁Amlogic盒子无线潜能，RTL8822CS网卡完美驱动

终极指南：5分钟解锁Amlogic盒子无线潜能，RTL8822CS网卡完美驱动【免费下载链接】amlogic-s9xxx-armbian Supports running Armbian on Amlogic, Allwinner, and Rockchip devices. Support a311d, s922x, s905x3, s905x2, s912, s905d, s905x, s905w, s…...

2026/6/11 16:02:41 阅读更多 →

43k Stars 的 CV 神器：supervision 让你 5 行代码搞定目标检测可视化

写 CV 应用不用再手撸可视化代码了，Roboflow 把工具都打包好了。这个项目解决什么问题？ 做计算机视觉，你 90% 的时间不是在调模型，是在搞那些重复的边角活：画检测框、追踪 ID 在画面上的轨迹、统计某个区域里出现了多少…...

2026/6/11 15:59:10 阅读更多 →

VScode与IAR联调实战：从配置陷阱到高效开发

1. 为什么需要VScode与IAR联调？ 嵌入式开发的朋友们都知道，IAR Embedded Workbench是个强大的开发环境，但它的编辑器用起来总感觉差点意思。这时候VScode就派上用场了——轻量级的界面、丰富的插件、流畅的代码提示，谁用谁知道。但…...

2026/6/11 15:58:17 阅读更多 →

CSDN AI分发撤回黄金15分钟法则：超时即不可逆！3类高危场景+2套应急回滚SOP（含工单提报话术模板）

更多请点击： https://kaifayun.com 第一章：CSDN AI 数字营销分发后的文章可以单独撤回某一个平台吗？ CSDN AI 数字营销平台在执行“一键多平台分发”时，会将同一份内容同步发布至 CSDN 博客、知乎、微信公众号（需授权…...

2026/6/10 17:45:53 阅读更多 →

OpenRocket：零基础掌握专业火箭设计与飞行仿真

OpenRocket：零基础掌握专业火箭设计与飞行仿真【免费下载链接】openrocket Model-rocketry aerodynamics and trajectory simulation software 项目地址: https://gitcode.com/GitHub_Trending/op/openrocket OpenRocket是一款功能强大的开源火箭设计与仿真…...

2026/6/10 18:58:26 阅读更多 →

请做coser的主人9下载2026官方正版

下载链接浅析全动态真人互动影像作品的工业化管线与设计逻辑：以《请做coser的主人9》为例近年来，随着硬件渲染能力的提升和流媒体解码技术的普及，全动态真人互动影像（Full Motion Video, 简称FMV）迎来了一波高频更…...

2026/6/11 12:17:19 阅读更多 →

深度解析移动端免Root系统提取工具：Payload-Dumper-Android技术架构与实现原理

深度解析移动端免Root系统提取工具：Payload-Dumper-Android技术架构与实现原理【免费下载链接】Payload-Dumper-Android Payload Dumper App for Android. Extract boot.img or any other partitions (images) from OTA.zip or payload.bin without PC 项目地址:…...

2026/6/10 14:38:37 阅读更多 →