Skip to content

dl-jack-123/CAED

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

GitHub Views GitHub Views



⭐ CAED ⭐

A. Current progress

項目 內容 負責人 完成時間
爬蟲主題方向 人力銀行職缺相關內容 - 2025-01-14
架設 Airflow 服務 Docker compose 啟動 PC / DL 2025-01-16
104 爬蟲實作 簡易版 PC 2025-01-26
Cake 爬蟲實作 簡易版 PC 2025-01-26
README : 筆記圖書館 D. Note Library PC 2025-01-26
資料庫定義 sql/CreateDB.sql DL 2025-02-10
資料表定義 sql/Job.sql DL 2025-02-10
資料存取設置 note/db_connect_setup.md DL 2025-02-10
資料表建立 dags/create_job_table.py DL 2025-02-10
PostgreSQL 儲存資料 construct_sql_syntax/save_db.py PC / DL 2025-02-15
ELK Stack note/elk_installation.md DL 2025-02-15
Yourator 爬蟲實作 簡易版 PC 2025-02-15
專案初版完成 至少 3 個人力網站 - 2025-02-15
Public Clouds *如何上傳 - -

B. Summary

  • a. Crawler + Airflow + ELK Stack + Docker

    • Crawler : 撰寫爬蟲邏輯,並基於 ETL 流程實作

    • Airflow : 使用其框架管理工作流

    • ELK Stack

      • 部署 ELK 監控 Airflow 的任務執行情況和爬蟲日誌

      • 配置 Logstash,將 Airflow 和爬蟲日誌導入 Elasticsearch

      • 使用 Kibana 可視化日誌,方便追蹤問題與錯誤

    • Docker : 將數個服務容器化,統一管理

  • b. PostgreSQL

    • 定義資料庫規範

    • 測試 CRUD 標準操作

  • c. Deployed on 3 Major Public Clouds
    ( Airflow 為地端開發的解決方案,至此後續就不上雲端 )

    • Amazon Web Services

    • Google Cloud Platform

    • Microsoft Azure


C. Showcase Results

# airflow:airflow # account:password
http://localhost:8080/

00.jpg 01.jpg 02.jpg


D. Note Library

About

Crawler + Airflow + ELK + Docker

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •