该内容已被发布者删除 该内容被自由微信恢复
文章于 5月6日 上午 11:21 被检测为删除。
查看原文
被用户删除
其他

一次性搞定微博,苏生不惑又写了个脚本

苏生不惑 苏生不惑 2024-03-23

苏生不惑第461 篇原创文章,将本公众号设为星标,第一时间看最新文章。

之前分享过很多微博相关的脚本和工具一键批量下微博内容/图片/视频,获取博主最受欢迎微博,图片查找微博博主,今天再整理下,一次性搞定微博。

还是以李健的微博为例https://weibo.com/u/1744395855 ,抓取2010-2023年所有的微博数据excel,包含微博链接,微博内容,发布时间,点赞数,转发数,评论数,话题等。

每个月的微博转评赞总数曲线,2015年是高峰。微博原创与转发量曲线,2013年大量转发。平常主要用iPad和网页版发微博。

微博内容生成的词云图效果:

抓取微博评论以这条微博为例 https://m.weibo.cn/status/4957540158537800 有些人是真的狗

这条微博下5000多条评论微博图床又搞事情不能用了,盘它,我顺便写了个微博图片/视频/内容/文章批量下载工具 ,大家都在义愤填膺的声讨狗主人。

来自广东的评论最多:

还有抓取微博转发,以这条微博为例https://m.weibo.cn/detail/4949167974650596 ,抓取的4000多条转发微博excel数据,包含微博昵称,微博uid,转发时间,转发地区,转发来源,转发内容,点赞数,转发数,评论数等。

来自江苏的转发最多:用iPhone客户端转发的微博最多:

转发微博生成的词云图:

然后再说导出微博内容pdf, https://github.com/meterscao/Speechless  这个浏览器扩展可以将新浪微博的所有内容导出PDF ,打开https://weibo.com/musiclijian ,点击右上角开始拉取该用户可见的微博内容,然后用 Chrome浏览器 的导出 PDF功能合成pdf。可以设置时间范围和内容类型(全部微博,原创微博)。

效果:抓取完后保存为pdf。


最后生成的pdf文件:除了这个chrome扩展还可以用这个油猴脚本导出微博内容 https://github.com/Chilfish/Weibo-archiver,安装油猴脚本后设置时间范围,是否下载原图,是否包含评论,是否包含转发微博,设置获取的评论数,不过只能获取公开可见的微博,获取数据不要刷新或关闭网页,否则重新获取。开始备份:抓取后直接导出pdf,效果:


备份微博收藏可以用这个油猴脚本,它能备份微博收藏,发布和点赞,备份以页为单位,每页20条,可以在输入框设置自已需要备份的页面范围,默认会下载全部数据,为防止保存文件过大,对备份数据分文件保存,默认10页存一个文件,备份图片清晰度分为3个等级,等级越大图片越大越清晰,备份完成后,数据自动保存到本地,下载格式为包含html文件和图片资源的 zip 压缩包,解压后使用谷歌浏览器打开。

导出的微博html效果:备份他人微博需要输入对方的用户id,比如李健的id为1744395855 。效果如图:

顺便再说下新浪博客下载https://github.com/junyiz/dature ,以古天乐的新浪博客为例,没想到他居然是日更博客 https://blog.sina.com.cn/louiskoo2008,从2008年一直更新到2023年,近6000条博客。

打开命令行执行 dature.cmd -u 1191258123 -c "cookie"导出的效果如图,左侧为文章标题,右侧为文章内容:

再说下微博无水印图,最近微博图片加了防盗链,直接打开微博图片地址会显示403 Forbidden,很多用微博当图床的网站都挂了。

解决方法很简单,安装这个chrome扩展就可以继续用了https://chrome.google.com/webstore/detail/header-editor/eningockdidmgiojffjmkdblpjocbhgh/ ,它可以管理浏览器请求,包括修改请求头和响应头、重定向请求、取消请求,修改请求头、响应头、重定向请求、取消请求,安装后点击扩展进入管理界面,右下角点添加。

规则类型选择修改请求头,匹配类型选正则表达式 ,规则为.*\.sinaimg.cn,头名称为referer,头内容为https://weibo.com

然后在浏览器输入图片网址就可以访问了https://wx1.sinaimg.cn/oslarge/001U3j31ly1gnynq1xvcqj634022oqv502.jpg,除了编辑还可以导入规则,详情见 https://github.com/FirefoxBar/HeaderEditor 修改微博图片地址就能查看无水印图片,比如李健这张微博图片,地址 https://wx1.sinaimg.cn/mw690/001U3j31ly1gnynq1xvcqj634022oqv502.jpg

把mw690换成oslarge 就行了 https://wx1.sinaimg.cn/oslarge/001U3j31ly1gnynq1xvcqj634022oqv502.jpg对于半年可见的微博是看不到的,不过如果微博博主有百家号的话,百家号会同步所有微博,所以半年前的微博也可以看了,比如胡歌的这条微博 https://author.baidu.com/home/71

微博最近还上线了访客记录 ,如果你是SVIP或VVIP会员,点进去可以看到昨日来访用户,也可以在我的访问页面管理自己的访问记录。

 

由于本公众号苏生不惑后台设置的自动回复关键词数量到上限,以上部分脚本的下载地址请关注下方公众号玩转互联网达人在后台对话框回复 20231115 ,不是在本公众号后台对话框回复我建了个新号玩转互联网达人,之后发布的软件都在新号回复关键词获取

最新原创文章:

正式介绍下我的知识星球

2023 更新版:苏生不惑开发过的那些原创工具和脚本

再次更新:2023批量下载公众号文章内容/话题/图片/封面/视频/音频,导出文章pdf,文章数据含阅读数/点赞数/在看数/留言数

微博图床又搞事情不能用了,盘它,我顺便写了个微博图片/视频/内容/文章批量下载工具

2023 年数字图书馆 zlibrary 复活,新推出客户端人人可用

批量下载抖音视频,小红书视频,抓取抖音视频数据导出excel

如果文章对你有帮助还请 点赞/在看/分享 三连支持下, 感谢各位!

公众号苏生不惑


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存