Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Twitter推文爬虫,无法爬部分用户 #12

Open
JohnDoe1151 opened this issue Jan 30, 2021 · 7 comments
Open

Twitter推文爬虫,无法爬部分用户 #12

JohnDoe1151 opened this issue Jan 30, 2021 · 7 comments
Assignees

Comments

@JohnDoe1151
Copy link

Twitter_Account_Post.py
可以爬部分用户,比如文档中的@zaobaosg,比如@Jesoooor
但有些用户爬不了,比如@yitianshijieipn,比如@hanyangwang
会报错:
AttributeError: 'bool' object has no attribute 'split'
猜测是css选择器不适用

@ChangxingJiang
Copy link
Owner

我这里测试了@zaobaosg没有这个问题。
或许是因为:

  1. 我用的selenium是Selenium4R这个包?
  2. 还想表达式只在Python 3.8之后支持?
  3. 你抓取的时间范围内有特殊的推文(是否可以给我提供更具体的导致报错的推文?)

@fifysky
Copy link

fifysky commented Feb 3, 2021

我这里测试了@zaobaosg没有这个问题。
或许是因为:

  1. 我用的selenium是Selenium4R这个包?
  2. 还想表达式只在Python 3.8之后支持?
  3. 你抓取的时间范围内有特殊的推文(是否可以给我提供更具体的导致报错的推文?)

我也发现有这个问题,会报错:
AttributeError: 'bool' object has no attribute 'split'
而且实际查询语句中过滤条件是不起作用的、我只想爬一个用户所有发布、转推、回复的动态,可是用实际查询语句:
https://twitter.com/search?q=from:Cassandra3366 since:2020-10-01 until:2021-02-02&f=live(例子)
只是查出了这个用户自己发布的动态,转推、回复的没有。

@ChangxingJiang
Copy link
Owner

这个Bug我确实复现不出来...搜索语句中from是搜索到那个账号发布的推文,不包括转推和回复,如果需要采集转推和回复的话,搜索语句好像没法实现,需要从账号主页来抓。
搜索语句的规则说明:https://dataartist.blog.csdn.net/article/details/106611387

@ChangxingJiang
Copy link
Owner

ChangxingJiang commented Feb 3, 2021

我这里测试了@zaobaosg没有这个问题。
或许是因为:

  1. 我用的selenium是Selenium4R这个包?
  2. 还想表达式只在Python 3.8之后支持?
  3. 你抓取的时间范围内有特殊的推文(是否可以给我提供更具体的导致报错的推文?)

我也发现有这个问题,会报错:
AttributeError: 'bool' object has no attribute 'split'
而且实际查询语句中过滤条件是不起作用的、我只想爬一个用户所有发布、转推、回复的动态,可是用实际查询语句:
https://twitter.com/search?q=from:Cassandra3366 since:2020-10-01 until:2021-02-02&f=live(例子)
只是查出了这个用户自己发布的动态,转推、回复的没有。

你可以提供一下报错的时间范围和账号吗?

@fifysky
Copy link

fifysky commented Feb 3, 2021

我这里测试了@zaobaosg没有这个问题。
或许是因为:

  1. 我用的selenium是Selenium4R这个包?
  2. 还想表达式只在Python 3.8之后支持?
  3. 你抓取的时间范围内有特殊的推文(是否可以给我提供更具体的导致报错的推文?)

我也发现有这个问题,会报错:
AttributeError: 'bool' object has no attribute 'split'
而且实际查询语句中过滤条件是不起作用的、我只想爬一个用户所有发布、转推、回复的动态,可是用实际查询语句:
https://twitter.com/search?q=from:Cassandra3366 since:2020-10-01 until:2021-02-02&f=live(例子)
只是查出了这个用户自己发布的动态,转推、回复的没有。

你可以提供一下报错的时间范围和账号吗?

看到你代

这个Bug我确实复现不出来...搜索语句中from是搜索到那个账号发布的推文,不包括转推和回复,如果需要采集转推和回复的话,搜索语句好像没法实现,需要从账号主页来抓。
搜索语句的规则说明:https://dataartist.blog.csdn.net/article/details/106611387

如果说搜索语句不包括转推和回复的话那我理解了,主要是你的代码里头有处理转推的部分,我以为能爬对应的数据呢。

@ChangxingJiang ChangxingJiang self-assigned this Feb 3, 2021
@fifysky
Copy link

fifysky commented Feb 3, 2021

我这里测试了@zaobaosg没有这个问题。
或许是因为:

  1. 我用的selenium是Selenium4R这个包?
  2. 还想表达式只在Python 3.8之后支持?
  3. 你抓取的时间范围内有特殊的推文(是否可以给我提供更具体的导致报错的推文?)

我也发现有这个问题,会报错:
AttributeError: 'bool' object has no attribute 'split'
而且实际查询语句中过滤条件是不起作用的、我只想爬一个用户所有发布、转推、回复的动态,可是用实际查询语句:
https://twitter.com/search?q=from:Cassandra3366 since:2020-10-01 until:2021-02-02&f=live(例子)
只是查出了这个用户自己发布的动态,转推、回复的没有。

你可以提供一下报错的时间范围和账号吗?

大佬你的搜索词列表我看了,没有能搜索一个用户所有动态的搜索词,比如推文、转推、回复等等,你有相关的爬虫吗?

@ChangxingJiang
Copy link
Owner

@fifysky 我暂时没有可以实现这个需求的爬虫

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants