Skip to content

MapleShaw/dbMoment

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

#豆瓣一刻web版 1.0.0

##写在前面:

豆瓣一刻推送的文章还是不错的,可惜没有PC端的(虽说这样可能违背了这个app的初衷),但像知乎日报不也有了,所以打算自己写一个,顺便把之前接触的cURL练练手。

###详细的信息 来自:我滴Github项目页面

###备注 有些文章没有作者和头像 猜测,文章的ID从100000开始,截至2014.07.18,最大数为103148 每天19篇 豆瓣本身比较坑爹的问题,使用curl的时候有时候会出现403,但是直接访问页面正常,google了很久都没能解决,因为一开始以为是curl的问题,后来尝试百度其他网页都没问题才定位到豆瓣,加了代理,done! php curl函数应用方法

###待解决问题

  • 客户端:目前存放数据的data.js是单独一个文件,随着日积月累肯定会很大,页面每次加载不能总是加载整个js,所以需要分割按需加载
  • 服务端:每天自动爬数据,以前爬过的当然没必要重新爬。
  • 思路: 爬的时候从最近一次的最后一个id加1开始,爬100+,记录能够爬到的最后一个id,下一次备用。(观察到豆瓣一刻是以天为单位更新的)爬到的数据存入数组作为一个data.js。

###更新(2014/08/05)

  • 目前还是找不到他的更新规律,顺序上没办法更app一致,但能保证最新
  • 按需扒取已实现,用持续100次没有文章来作为扒取的分界线
  • 由于需要获取最新文章的id,目前getData.php文件只能在本地跑

###更新(2014/08/11)

  • 展示顺序改为从最近的开始
  • 估计app的更新速度为每天20篇,所以写了个cutDataJs.php把之前的大文件按20一个js分割,命名加上序号
  • 创建一个txt文档记录最新的文章ID号

###更新(2014/08/12)

  • txt文档修改为js格式文件,方便main.js通过ajax读取
  • 写入数据js文件和记录最新信息封装成独立函数,并设置标致判断是否需要对记录文件操作
  • 对sqlData里面的数据文件做无缝优化,即判断最新js文件内容,看看是否需要补全还是另外新建js
  • cutDataJs.php只作为临时性脚本,对以前扒取的数据进行分割,可不用理会
  • 遗留问题:搬到服务器上并加上自动运行脚本

###阶段性更新(2014/08/15)

  • 自己的服务器比较坑爹,自动跑脚本被限制了,最后只能本地手动跑,然后同步到服务器
  • 美国的服务器,访问起来有点慢
  • 优化待爬取文章数量超过20后不会自动分割
  • 放到服务器之后,图片有些没办法加载,显示403拒绝访问,但是把图片链接单独打开没问题
  • runTheScript.bat只是执行脚本,原本还考虑设置成开机执行一次
  • 待优化:搜索功能,分类功能

Releases

No releases published

Packages

No packages published

Languages