Skip to content

抓取百度贴吧中指定贴子的内容,可以选择将指定的内容输出到文本文件中,默认将图片转换为Markdown格式引用,自动过滤文本内容过少的楼层。

Notifications You must be signed in to change notification settings

helscn/tieba_spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 

Repository files navigation

#百度贴吧爬虫

##程序介绍 用于抓取百度贴吧指定贴子中的内容并可以输出保存到文件中,主要用于浏览贴吧中的小说及长文章。

##软件依赖 该程序使用Python3编写并且用到了第三方的PyQuery框架,运行前需要提前安装好。

##功能说明

  • 帖子地址可以输入贴子数字编号或者网址均可以访问,有多页内容时自动抓取所有页面
  • 可以选择过滤小于指定字数的水贴,默认不进行过滤
  • 自动将贴子中的图片替换为Markdown格式的引用

About

抓取百度贴吧中指定贴子的内容,可以选择将指定的内容输出到文本文件中,默认将图片转换为Markdown格式引用,自动过滤文本内容过少的楼层。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages