Skip to content

Latest commit

 

History

History
12 lines (10 loc) · 658 Bytes

README.md

File metadata and controls

12 lines (10 loc) · 658 Bytes

#百度贴吧爬虫

##程序介绍 用于抓取百度贴吧指定贴子中的内容并可以输出保存到文件中,主要用于浏览贴吧中的小说及长文章。

##软件依赖 该程序使用Python3编写并且用到了第三方的PyQuery框架,运行前需要提前安装好。

##功能说明

  • 帖子地址可以输入贴子数字编号或者网址均可以访问,有多页内容时自动抓取所有页面
  • 可以选择过滤小于指定字数的水贴,默认不进行过滤
  • 自动将贴子中的图片替换为Markdown格式的引用