查看原文
其他

2023 年批量抓取公众号历史文章数据(阅读数点赞数在看数留言数)进行数据分析

苏生不惑 玩转互联网达人 2024-04-07

我写了个脚本批量抓取公众号历史文章数据(阅读数点赞数在看数留言数)

2023 批量下载公众号文章内容/话题/图片/封面/视频/音频,导出文章pdf和文章数据包含阅读数/点赞数/在看数/留言数

下载的excel文章数据包含文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,赞赏次数,视频数,音频数等,比如深圳卫健委2022年的1000多篇文章阅读数都是10万+,excel数据分析见这篇文章2022年过去,抓取公众号阅读数点赞数在看数留言数做数据分析, 以深圳卫健委这个号为例 。

以微信派这个号2022年所有文章为例。

文章总数量168:

>>> len(wechat)
168

原创只有1篇:

wechat.groupby('是否原创')['在看数'].count().sort_values(ascending=False).head(5)
wechat.groupby('是否原创').agg({"在看数":'count'}).sort_values(by=['在看数'],ascending=False).head(5)
>>> wechat.是否原创.value_counts().sort_values(ascending=False).head(5)
否 167
是 1
Name: 是否原创, dtype: int64

头条164篇,次条4篇

文章作者只有2个,可能大部分没填:

>>> wechat.文章作者.value_counts().sort_values(ascending=False).head(5)
不会画 1
持锤鉴宝的 1
Name: 文章作者, dtype: int64

阅读数10万+的文章有10篇,总阅读数6290254:

平均阅读数,点赞数,在看数和留言数:

然后再分析留言数据excel文件,包括文章日期,文章链接,文章标题,留言昵称,留言内容,留言点赞数,留言回复,留言时间,留言地区等。

python分析留言次数最多的10个小伙伴

>>> wechat2.评论昵称.value_counts().sort_values(ascending=False).head(10)
喵 50
万景明 47
ㅤ 43
迷路的男人 41
Korin 38
谢卓锟 37
宗琦 35
ㅤ樱桃小玩子 33
HM灬涛 25
Enemy 23
Name: 评论昵称, dtype: int64

顺便再统计下留言中省份最多的10个,广东排第一。

文章下的留言也在pdf文件里,点击左侧标题书签可以跳转到对应文章:

2023 更新版:苏生不惑开发过的那些原创工具和脚本

再次更新:2023批量下载公众号文章内容/话题/图片/封面/视频/音频,导出文章pdf,文章数据含阅读数/点赞数/在看数/留言数

微博图床又搞事情不能用了,盘它,我顺便写了个微博图片/视频/内容/文章批量下载工具

2023 年数字图书馆 zlibrary 复活,新推出客户端人人可用

总有人问我 Cookie 是什么?

如果文章对你有帮助还请 点赞/在看/分享 三连支持下, 感谢各位!



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存