使用Python处理大型CSV文件
创始人
2025-07-04 02:51:09
0

使用Python处理大型CSV文件

处理大型CSV文件时,可能会遇到内存限制等问题。一种常见的解决方案是使用Python的pandas库,它允许我们选择性地读取文件的特定部分,而不是一次性加载整个文件,这在面对大数据集时尤为重要。

本教程将详细介绍如何使用Python和pandas库来选择性地读取和处理大型CSV文件中的字段,以避免内存不足的问题。

1.选择性读取字段

在此步骤中,我们通过usecols参数选择性地读取感兴趣的列,以减轻内存负担。

import pandas as pd


# 指定CSV文件的路径
csv_file_path = "<文件路径>"


# 指定需要提取的字段列名
selected_columns = ['unified_code', 'reg_addr']


# 使用pd.read_csv()读取指定列的数据
data = pd.read_csv(csv_file_path, usecols=selected_columns)


# 显示读取的数据
print(data.head())


# 保存读取的数据到新的CSV文件中
csv_output_file_path = "<输出文件路径>"
data.to_csv(csv_output_file_path, index=False)


print("数据已保存为CSV文件:", csv_output_file_path)

2.数据合并

我们有两个CSV文件,需要基于'unified_code'字段进行合并。pandas的merge函数允许我们进行这样的操作。

import pandas as pd



# 指定两个CSV文件的路径

csv_file1_path = "<文件1路径>"

csv_file2_path = "<文件2路径>"



# 读取两个CSV文件

data1 = pd.read_csv(csv_file1_path)

data2 = pd.read_csv(csv_file2_path)



# 基于'unified_code'字段合并数据

merged_data = data1.merge(data2, on='unified_code', how='inner')



# 显示合并后的数据

print(merged_data.head())



# 保存合并后的数据到新的CSV文件中

merged_csv_file_path = "合并后的数据.csv"

merged_data.to_csv(merged_csv_file_path, index=False)



print("匹配成功的数据已保存为CSV文件:", merged_csv_file_path)

3.生成唯一ID并保存数据

最后,我们为每行数据生成一个唯一的ID,对数据进行筛选,并将结果保存到新的CSV文件中。

import pandas as pd



# 指定CSV文件的路径

csv_file_path = "合并后的数据.csv"



# 读取CSV文件

data = pd.read_csv(csv_file_path)



# 为每一行生成唯一的ID

data['ID'] = range(1, len(data) + 1)



# 选择性保留字段

selected_columns = ['ID', 'unified_code', 'reg_addr']

data = data[selected_columns]



# 保存清理后的数据到新的CSV文件中

output_csv_file_path = "clean.csv"

data.to_csv(output_csv_file_path, index=False)



print("数据已保存为CSV文件:", output_csv_file_path)

总结

本教程演示了如何使用Python和pandas库对大型CSV文件进行选择性读取、合并和保存,以避免内存不足的问题。这种方法在处理大数据集时非常有用,能够显著提高数据处理的效率。

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...
《非诚勿扰》红人闫凤娇被曝厕所... 【51CTO.com 综合消息360安全专家提醒说,“闫凤娇”、“非诚勿扰”已经被黑客盯上成为了“木...
2012年第四季度互联网状况报... [[71653]]  北京时间4月25日消息,据国外媒体报道,全球知名的云平台公司Akamai Te...