Skip to content

Latest commit

 

History

History
248 lines (168 loc) · 7.77 KB

README-zh-tw.md

File metadata and controls

248 lines (168 loc) · 7.77 KB

Contributors Forks Stargazers Issues MIT License


Logo

BaiduSpider

一個爬取百度的利器
简体中文 | 繁體中文 | English
快速上手 »

查看示例 · 報告問題 · 請求需求

目錄
  1. 關於本項目
  2. 起步
  3. 簡單使用
  4. 項目路線圖
  5. 共同維護
  6. 開源協議
  7. 聯系方式
  8. 免責聲明
  9. 貢獻者
  10. 致謝

關於本項目

項目截圖

搜索引擎是一個十分強大的工具,如果能讓其他工具集成搜索引擎的眾多強大功能,那麼必將變得更加強大。但是,目前我沒有找到一個可以精準提取搜索引擎搜索結果的開源爬蟲。於是,我便編寫了這個爬取百度搜索引擎的項目:BaiduSpider。

BaiduSpider的獨特功能:

  • 節省提取數據的時間,對於類似深度學習項目的數據模型建立與訓練起到了良好的幫助。

  • 精準提取數據,並刪除廣告。

  • 搜索結果大而全,支持多種搜索類型,支持多種返回類型。

當然,沒有一個項目是完美的。任何一個項目的發展都需要社區的幫助。你可以通過發布一個Issue或提交一個PR來幫助BaiduSpider進步!:smile:

一些比較有幫助的文檔或工具我將在最後的致謝部分中列出。

制作依賴

一些BaiduSpider使用的主要開源依賴包。

起步

以安裝BaiduSpider,請按照以下幾個步驟操作。

預先條件

在安裝BaiduSpider之前,請確保你安裝了Python3.6+

$ python --version

若版本小於3.6.0,請到Python官網下載並安裝Python。

安裝

使用pip安裝

請在命令行中輸入下列指令:

$ pip install baiduspider

從GitHub手動安裝

$ git clone [email protected]:BaiduSpider/BaiduSpider.git

# ...

$ python setup.py install

簡單使用

你可以使用BaiduSpider通過短短的幾行代碼來獲取百度的網頁搜索結果:

# 導入BaiduSpider
from baiduspider import BaiduSpider
from pprint import pprint

# 實例化BaiduSpider
spider = BaiduSpider()

# 搜索網頁
pprint(spider.search_web(query='Python'))

更多樣例和配置,請參照文檔

項目路線圖

請參考open issues以獲取最新的項目規劃以及已知問題。

共同維護

項目貢獻是開源項目的靈魂所在,也是整個開源社區學習、交流、獲得靈感的地方。任何貢獻都將極力歡迎

  1. Fork此項目
  2. 創建你的feature分支 (git checkout -b NewFeatures)
  3. 提交你的更改 (git commit -m 'Add some AmazingFeature')
  4. 推送更改 (git push origin username/BaiduSpider)
  5. 提交一個PR

開源協議

此項目的開源協議為GPL-V3,詳情請參見LICENSE

聯系方式

samzhangjy - @samzhangjy - [email protected]

項目鏈接: https://github.com/BaiduSpider/BaiduSpider

免責聲明

此項目僅作為學習用途,不可商用或爬取百度大量數據。此外,本項目使用GPL-V3版權協議,意味著涉及(使用)此項目的任何其它項目必須開源且註明出處,並且本項目作者將不承擔任何法律風險。特此說明,違者後果自負。

貢獻者

致謝