採用 Python 多執行緒模組加速網頁爬蟲,以 IMDb 網站為例。
- Python3, Requests, Beautifulsoup4, Pandas
movie_linking.py
: 整合電影特徵資料集與 IMDb 主頁索引IMDb_crawler.py
: 基於每部電影的主頁索引,以 Python Threading 模組同時爬取複數網頁內容
- MovieLens 25M 其中的
movies.csv
和links.csv
兩個電影特徵資料集movies.csv
: 包含 62423 部相異電影,每部電影具有 movieId, title, genres 等特徵(部分有誤或缺漏)links.csv
: 每部電影分別對應的 IMDb 主頁索引
movies_extended.csv
: 保留movies.csv
和links.csv
的原始特徵,再追加 year, genres, grade, picture 等新特徵
This project is licensed under the MIT License