04-29 16:28
上交所有包含三大报表的 网页链接
咱们A股上市公司的年报都是PDF,而且每个上市公司的PDF中的表格格式还不一样,需要股民花费很大的经历去整理数据。
如果我们普通投资者去Wind等购买数据又太贵了。当然了,也有很多网站整理了一些API,你可以调用API去获取已经治理好的数据,也挺麻烦的。所以现在呢,我在写一些Python工具来做数据治理的事情,后续逐步把工具也开放给志同道合者用一用。当前精力有限,开发进展比较慢。
Jupyter Notebook的体验还不足够好,比如代码自动提示等对于初学者非常有帮助。我就下载了PyCharm,在其中配置了Juypter和Conda,相当于套了一个高级的壳子,提效。
然后今天使用tkinter来打开对话窗口选择年报文件,使用input获取页数,这样可以灵活读取多个PDF,输出年报不同页数的数据。
import pdfplumber as pp
import tkinter as tk
from tkinter import filedialog
import pandas as pd
def open_file_dialog():
file_path = filedialog.askopenfilename()
return file_path
# 读取PDF文件
file_path = open_file_dialog()
page_number = int(input("请输入门店数据的页数:"))
print("您输入的页数是:", page_number)