听君一席话,胜似一席话
读取的代码也不复杂,使用PyPDF2和pdfplumber两个组件来读,简单示例一下,这段代码就是把读取的第26页的内容打印出来。
打印出来的效果如下:
我自己设计的报表的格式如下,我的想法就是快速将上面表格的数据写入到下面的Excel中变成结构化的数据,以方便分析,我要开发的就是这样简单的分析工具。如果是美国证监会就简单了,用XRBL格式的XML或者API就可以很简单获取到数据。
但是我们国家金融市场的数据治理还不成熟,更谈不到向公众开放了。都是机构要花钱去买,我们普通老百姓还亏着钱,也买不起。
下面的表格中就包含了经营数据、面积、店铺数量等,这样等数据都准备好了,再设计几个坪效比的观察指标,这样才可能看出一些端倪出来。
使用extract_table()很快就可以看到上面的表格被格式化成表格数据如下:
然后我就要给大模型给跪了,太强大了,程序员失业确实可能是早晚的事情。不过对我来说是好事,可以快速入门。Phython这个社区确实太强大了,有无数的文章,把这些训练数据喂给大模型,才有了大模型这么强大的智能,相互成就。
————————————————4月16日下午更新—————————————
进展:
1、已经可以从永辉2011年年报26页读取门店开办的数据。
2、已经可以把数据读取出来写入到一个csv文件中,这样就不用自己辛苦去拷贝了。601933_stores.csv是程序自动生成的。
3、这是生成的csv文件中的数据。由于年报中26和27页是完整的开办数据,还需要继续研究:
(1)如何将连个pdf中的表合并成一张表;
(2)pdfplumber是根据框线来读取PDF中数据的,坑爹的永辉年报左右缺少了两根竖线,所以开业区域数据就读取不出来,还需要手工补填一下。