此仓库用于更新人民日报爬虫代码,人民日报会不断改版,我会长期进行更新修改。 此前,我将爬取下的所有人民日报数据(可能是全网最全的了)进行公开,但考虑到侵权风险,决定不予以公开。以后只分享交流相关的爬虫技术,如需要数据,可以自行爬取或 ...
这是一个基于Python的微博社交网络爬虫项目,可以从指定的微博帖子开始,递归抓取其互动关系网络,并将数据存储到Neo4j图数据库中。 确保Neo4j容器正常运行后,再继续后续步骤。 请将从浏览器中获取的微博cookies填入对应字段。