GitHub

#豆瓣一刻web版 1.0.0

##写在前面：

豆瓣一刻推送的文章还是不错的，可惜没有PC端的（虽说这样可能违背了这个app的初衷），但像知乎日报不也有了，所以打算自己写一个，顺便把之前接触的cURL练练手。

###备注有些文章没有作者和头像猜测，文章的ID从100000开始，截至2014.07.18，最大数为103148 每天19篇豆瓣本身比较坑爹的问题，使用curl的时候有时候会出现403，但是直接访问页面正常，google了很久都没能解决，因为一开始以为是curl的问题，后来尝试百度其他网页都没问题才定位到豆瓣，加了代理，done！ php curl函数应用方法

###待解决问题

客户端：目前存放数据的data.js是单独一个文件，随着日积月累肯定会很大，页面每次加载不能总是加载整个js，所以需要分割按需加载
服务端：每天自动爬数据，以前爬过的当然没必要重新爬。
思路：爬的时候从最近一次的最后一个id加1开始，爬100+，记录能够爬到的最后一个id，下一次备用。（观察到豆瓣一刻是以天为单位更新的）爬到的数据存入数组作为一个data.js。

###更新（2014/08/05）

目前还是找不到他的更新规律，顺序上没办法更app一致，但能保证最新
按需扒取已实现，用持续100次没有文章来作为扒取的分界线
由于需要获取最新文章的id，目前getData.php文件只能在本地跑

###更新（2014/08/11）

展示顺序改为从最近的开始
估计app的更新速度为每天20篇，所以写了个cutDataJs.php把之前的大文件按20一个js分割，命名加上序号
创建一个txt文档记录最新的文章ID号

###更新（2014/08/12）

txt文档修改为js格式文件，方便main.js通过ajax读取
写入数据js文件和记录最新信息封装成独立函数，并设置标致判断是否需要对记录文件操作
对sqlData里面的数据文件做无缝优化，即判断最新js文件内容，看看是否需要补全还是另外新建js
cutDataJs.php只作为临时性脚本，对以前扒取的数据进行分割，可不用理会
遗留问题：搬到服务器上并加上自动运行脚本

###阶段性更新（2014/08/15）

自己的服务器比较坑爹，自动跑脚本被限制了，最后只能本地手动跑，然后同步到服务器
美国的服务器，访问起来有点慢
优化待爬取文章数量超过20后不会自动分割
放到服务器之后，图片有些没办法加载，显示403拒绝访问，但是把图片链接单独打开没问题
runTheScript.bat只是执行脚本，原本还考虑设置成开机执行一次
待优化：搜索功能，分类功能

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
Smarty		Smarty
css		css
images		images
include		include
js		js
.gitignore		.gitignore
README.md		README.md
cutDataJs.php		cutDataJs.php
favicon.ico		favicon.ico
getData.php		getData.php
run.php		run.php
runTheScript.bat		runTheScript.bat

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

Languages

MapleShaw/dbMoment

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages