中国年度数据统计 -收集整理sop

首先 收集数据

数据源:https://data.stats.gov.cn/easyquery.htm?cn=C01

https://data.eastmoney.com/cjsj/pmi.html

文件批量合并

上诉数据源收集方式为单个下载,方便起见直接合并数据表为一个整表,并生成目录页便于查看

此步主要为数据表分表按名称合并(按自然数顺序)

import os
import pandas as pd
import re
folder_path = r'C:\Users\86191\Desktop\龙圆芝\2024年报\年报目录-更新版\数据-合并'  # 替换为你的Excel文件所在的文件夹路径
output_file = '中国年度统计数据.xlsx'  # 合并后并排序的Excel文件名
def extract_number(filename):
    match = re.search(r'\d+', filename)
    return int(match.group()) if match else None
excel_files = [os.path.join(folder_path, f) for f in os.listdir(folder_path) if
               f.endswith('.xlsx') or f.endswith('.xls')]
sorted_files = sorted(excel_files, key=lambda x: extract_number(os.path.basename(x)))
with pd.ExcelWriter(output_file, engine='openpyxl') as writer:
    for file_path in sorted_files:
        df = pd.read_excel(file_path)
        sheet_name = str(extract_number(os.path.basename(file_path)))
        df.to_excel(writer, sheet_name=sheet_name, index=False)
print(f"所有Excel文件已按名称中的数字顺序排序并合并到 {output_file}")

合并完之后 首先出现两行不必要的数据 用宏录制批量删除了

然后 优化数据视图 还是宏录制 批量调了下行列宽

然后 方便查看 因为结构化数据结构相似 同样使用宏录制批量冻结窗格 滑动的时候可以看见首行首列

最后 用函数批量生成目录页

 

由于宏表函数无法在单元格中直接使用,需要定义名称才可以使用。所以我们可以先定义一个名为“目录”的名称,并在“引用位置”处使用宏表函数“=GET.WORKBOOK(1)”,提取出工作表的信息。

在A2单元格输入公式:=REPLACE(INDEX(目录,ROW(A2)),1,FIND("]",INDEX(目录,ROW(A2))),""),下拉自动生成不带表格名的表目录字段]

接着用HYPERLINK函数批量生成超链接,在B2单元格输入公式:=HYPERLINK("#"&A2&"!A1",A2),即完成目录的制作。

若有更改 选中全部刷新即可

版权声明:
作者:夜阑
链接:http://yelan.xyz/index.php/2024/03/25/%e4%b8%ad%e5%9b%bd%e5%b9%b4%e5%ba%a6%e6%95%b0%e6%8d%ae%e7%bb%9f%e8%ae%a1/
来源:夜阑的小站
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>