一個爬取百度的利器
简体中文
|
繁體中文
|
English
快速上手 »
查看示例
·
報告問題
·
請求需求
搜索引擎是一個十分強大的工具,如果能讓其他工具集成搜索引擎的眾多強大功能,那麼必將變得更加強大。但是,目前我沒有找到一個可以精準提取搜索引擎搜索結果的開源爬蟲。於是,我便編寫了這個爬取百度搜索引擎的項目:BaiduSpider。
BaiduSpider的獨特功能:
-
節省提取數據的時間,對於類似深度學習項目的數據模型建立與訓練起到了良好的幫助。
-
精準提取數據,並刪除廣告。
-
搜索結果大而全,支持多種搜索類型,支持多種返回類型。
當然,沒有一個項目是完美的。任何一個項目的發展都需要社區的幫助。你可以通過發布一個Issue或提交一個PR來幫助BaiduSpider進步!:smile:
一些比較有幫助的文檔或工具我將在最後的致謝部分中列出。
一些BaiduSpider使用的主要開源依賴包。
以安裝BaiduSpider,請按照以下幾個步驟操作。
在安裝BaiduSpider之前,請確保你安裝了Python3.6+
:
$ python --version
若版本小於3.6.0
,請到Python官網下載並安裝Python。
請在命令行中輸入下列指令:
$ pip install baiduspider
$ git clone [email protected]:BaiduSpider/BaiduSpider.git
# ...
$ python setup.py install
你可以使用BaiduSpider通過短短的幾行代碼來獲取百度的網頁搜索結果:
# 導入BaiduSpider
from baiduspider import BaiduSpider
from pprint import pprint
# 實例化BaiduSpider
spider = BaiduSpider()
# 搜索網頁
pprint(spider.search_web(query='Python'))
更多樣例和配置,請參照文檔
請參考open issues以獲取最新的項目規劃以及已知問題。
項目貢獻是開源項目的靈魂所在,也是整個開源社區學習、交流、獲得靈感的地方。任何貢獻都將極力歡迎。
- Fork此項目
- 創建你的feature分支 (
git checkout -b NewFeatures
) - 提交你的更改 (
git commit -m 'Add some AmazingFeature'
) - 推送更改 (
git push origin username/BaiduSpider
) - 提交一個PR
此項目的開源協議為GPL-V3
,詳情請參見LICENSE
。
samzhangjy - @samzhangjy - [email protected]
項目鏈接: https://github.com/BaiduSpider/BaiduSpider
此項目僅作為學習用途,不可商用或爬取百度大量數據。此外,本項目使用GPL-V3
版權協議,意味著涉及(使用)此項目的任何其它項目必須開源且註明出處,並且本項目作者將不承擔任何法律風險。特此說明,違者後果自負。