dvc.lock

schema: '2.0'
stages:
  get_data:
    cmd: python src/stages/data_get.py --config=params.yaml
    deps:
    - path: src/stages/data_get.py
      md5: 79b1180fb658e000f131028d054904e3
      size: 1297
    - path: src/stages/utils/log.py
      md5: e1c8d76c94e2be36d2139d82f9cee9ff
      size: 629
    params:
      params.yaml:
        base:
          random_state: 42
          log_level: INFO
        data_load:
          dataset_zip: health-dataset.zip
          dataset_folder: data/raw
          dataset_csv: data/raw/diabetes_data.csv
    outs:
    - path: data/raw/diabetes_data.csv
      md5: 9a9161518e3622deaa5655b42a2a197b
      size: 5287141
    - path: health-dataset.zip
      md5: aa113db36a5123a20a1cb416d749b130
      size: 1050035
  process_data:
    cmd: python src/process_data.py
    deps:
    - path: health_data/diabetes_data.csv
      md5: 9a9161518e3622deaa5655b42a2a197b
      size: 5287141
    - path: src/process_data.py
      md5: d345803603db975791616971274ae166
      size: 449
    outs:
    - path: Processed_data.csv
      md5: bec80b6142f1c2df04c60b9ab3f75c2d
      size: 4368119
  train:
    cmd: python src/stages/train.py --config params.yaml
    deps:
    - path: data/processed/train.csv
      md5: 6a5c7defbd522ec508be4464727ccb5e
      size: 3453410
    - path: src/stages/train.py
      md5: 9bf7aa6ef7f61e8d6aaa3bc008062143
      size: 1678
    - path: src/stages/utils/log.py
      md5: e1c8d76c94e2be36d2139d82f9cee9ff
      size: 629
    - path: src/stages/utils/train.py
      md5: 6121d87a5b2daa8689a38332cadad58a
      size: 1773
    params:
      params.yaml:
        base:
          random_state: 42
          log_level: INFO
        data_split:
          test_size: 0.3
          trainset_path: data/processed/train.csv
          testset_path: data/processed/test.csv
        featurize:
          feature_folder: data/processed
          features_path: data/processed/featured_data.csv
          drop_features:
          - Veggies
          target_column: Diabetes
        train:
          cv: 3
          estimator_name: xgb
          estimators:
            logreg:
              param_grid:
                C:
                - 0.1
                max_iter:
                - 200
                solver:
                - lbfgs
                multi_class:
                - multinomial
            knn:
              param_grid:
                n_neighbors:
                - 9
            xgb:
              param_grid:
                min_child_weight:
                - 1
                gamma:
                - 1
                - 5
                subsample:
                - 1.0
                colsample_bytree:
                - 0.6
                - 1.0
                max_depth:
                - 3
            dectree:
              param_grid:
                criterion:
                - gini
                - entropy
                max_depth:
                - 8
            randforest:
              param_grid:
                n_estimators:
                - 100
                max_depth:
                - 11
                min_samples_split:
                - 15
          model_folder: model
          model_path: model/model.joblib
          scaler_path: model/scaler.joblib
    outs:
    - path: model/model.joblib
      md5: 0c3dcab7aa395dd8391c1aaacf7f2d6d
      size: 124873
    - path: model/scaler.joblib
      md5: 034384424b5bd54ec590a37f4caf3f8f
      size: 1606
  featurize:
    cmd: python src/stages/feature_select.py --config params.yaml
    deps:
    - path: data/raw/diabetes_data.csv
      md5: 9a9161518e3622deaa5655b42a2a197b
      size: 5287141
    - path: src/stages/feature_select.py
      md5: be210d913ccbcf256c79ff7fbf24da4a
      size: 970
    - path: src/stages/utils/log.py
      md5: e1c8d76c94e2be36d2139d82f9cee9ff
      size: 629
    params:
      params.yaml:
        data_load:
          dataset_zip: health-dataset.zip
          dataset_folder: data/raw
          dataset_csv: data/raw/diabetes_data.csv
        featurize:
          feature_folder: data/processed
          features_path: data/processed/featured_data.csv
          drop_features:
          - Veggies
          target_column: Diabetes
    outs:
    - path: data/processed/featured_data.csv
      md5: d4027581f861aab6fe57755ab8fbfb95
      size: 4933672
  data_split:
    cmd: python src/stages/data_split.py --config params.yaml
    deps:
    - path: data/processed/featured_data.csv
      md5: d4027581f861aab6fe57755ab8fbfb95
      size: 4933672
    - path: src/stages/data_split.py
      md5: f285ddcbd9e76eec5e21ca378a3d26bd
      size: 1192
    - path: src/stages/utils/log.py
      md5: e1c8d76c94e2be36d2139d82f9cee9ff
      size: 629
    params:
      params.yaml:
        base:
          random_state: 42
          log_level: INFO
        data_split:
          test_size: 0.3
          trainset_path: data/processed/train.csv
          testset_path: data/processed/test.csv
        featurize:
          feature_folder: data/processed
          features_path: data/processed/featured_data.csv
          drop_features:
          - Veggies
          target_column: Diabetes
    outs:
    - path: data/processed/test.csv
      md5: 55384cfd635be459af11e2738b3d5fd5
      size: 1480417
    - path: data/processed/train.csv
      md5: 6a5c7defbd522ec508be4464727ccb5e
      size: 3453410
  evaluate:
    cmd: python src/stages/evaluate.py --config params.yaml
    deps:
    - path: data/processed/test.csv
      md5: 55384cfd635be459af11e2738b3d5fd5
      size: 1480417
    - path: model/model.joblib
      md5: 0c3dcab7aa395dd8391c1aaacf7f2d6d
      size: 124873
    - path: model/scaler.joblib
      md5: 034384424b5bd54ec590a37f4caf3f8f
      size: 1606
    - path: src/stages/evaluate.py
      md5: 8fc33f15c59e5b197f5aa57ee8995899
      size: 2255
    - path: src/stages/utils/evaluate.py
      md5: 029deb8ce0375be04deb22736831405d
      size: 1439
    - path: src/stages/utils/log.py
      md5: e1c8d76c94e2be36d2139d82f9cee9ff
      size: 629
    params:
      params.yaml:
        data_split:
          test_size: 0.3
          trainset_path: data/processed/train.csv
          testset_path: data/processed/test.csv
        evaluate:
          report_folder: report
          accuracy_report_path: report/report.json
          confusion_matrix_path: report/confusion_matrix.png
          translated_report_path: report/confusion_matrix_data.csv
          target_names:
          - no_diabetes
          - diabetes
        featurize:
          feature_folder: data/processed
          features_path: data/processed/featured_data.csv
          drop_features:
          - Veggies
          target_column: Diabetes
        train:
          cv: 3
          estimator_name: xgb
          estimators:
            logreg:
              param_grid:
                C:
                - 0.1
                max_iter:
                - 200
                solver:
                - lbfgs
                multi_class:
                - multinomial
            knn:
              param_grid:
                n_neighbors:
                - 9
            xgb:
              param_grid:
                min_child_weight:
                - 1
                gamma:
                - 1
                - 5
                subsample:
                - 1.0
                colsample_bytree:
                - 0.6
                - 1.0
                max_depth:
                - 3
            dectree:
              param_grid:
                criterion:
                - gini
                - entropy
                max_depth:
                - 8
            randforest:
              param_grid:
                n_estimators:
                - 100
                max_depth:
                - 11
                min_samples_split:
                - 15
          model_folder: model
          model_path: model/model.joblib
          scaler_path: model/scaler.joblib
    outs:
    - path: report/confusion_matrix.png
      md5: 4c9d3030f20a5e0fac89a4642a3dfaaa
      size: 24628
    - path: report/confusion_matrix_data.csv
      md5: 74b56f360c6dd4817227e337b92e38e6
      size: 442529
    - path: report/report.json
      md5: a79b40fd99b0928c89f55349b417ff1e
      size: 77