neptune.yaml

project-key: TOX

name: toxic
tags: [glove, lstm, adam]


metric:
  channel: 'Final Validation Score ROC_AUC'
  goal: maximize

# Comment out if not in Cloud Environment
pip-requirements-file: requirements.txt

exclude:
  - output
  - imgs
  - neptune.log
  - offline_job.log
  - .git
  - .idea
  - .ipynb_checkpoints

parameters:
# Cloud Environment
  data_dir:                     /public/toxic_comments
  embedding_filepath:           /public/models/glove/glove.840B.300d.txt
  single_model_predictions_dir: /public/toxic_comments/single_model_predictions_03092018
  experiment_dir:               /output/trained_pipelines/glove_lstm

# Local Environment
#  data_dir:                     /path/to/toxic/data
#  embedding_filepath:           /path/to/embedding i.e. ~/glove/glove.840B.300d.txt
#  single_model_predictions_dir: /path/to/single/model/preds/ i.e. ~/single_model_predictions_03092018
#  experiment_dir:               /my/working/directory i.e. ~/toxic/trained_pipelines/glove_lstm

  bad_words_filepath: None
  overwrite: 1
  num_workers: 4
  n_cv_splits: 10

# Preprocessing
  max_features_char: None # 100 for vdcnn, for tfidf something like 20000 should be used
  max_features_word: 100000
  maxlen_char: None
  maxlen_words: 200
  char_ngram_max: 4
  drop_punctuation: 1
  drop_newline: 1
  drop_multispaces: 1
  all_lower_case: 1
  fill_na_with: ' '
  deduplication_threshold: 10
  anonymize: 1
  apostrophes: 1
  use_stopwords: 1

# Architecture
  filter_nr: 512
  kernel_size: None
  repeat_block: 1
  dense_size: 256
  repeat_dense: 0
  max_pooling: 1
  mean_pooling: 0
  weighted_average_attention: 0
  concat_mode: 'concat'
  trainable_embedding: 0
  word_embedding_size: 300
  char_embedding_size: None

# General Architecture
  use_prelu: 1

# Log Reg Params
  log_reg_c: None
  log_reg_penalty: None
  max_iter: None

# Training schedule
  epochs_nr: 1000
  batch_size_train: 128
  batch_size_inference: 128
  lr: 0.001
  momentum: 0.9
  gamma: 0.7
  patience: 5

# Regularization
  batch_norm_first: 0
  use_batch_norm: 0
  dropout_embedding: 0.5
  rnn_dropout: 0.5
  dense_dropout: 0.5
  conv_dropout: None
  dropout_mode: 'spatial'
  rnn_kernel_reg_l2: 0.0001
  rnn_recurrent_reg_l2: 0.0001
  rnn_bias_reg_l2: 0.0001
  dense_kernel_reg_l2: 0.0001
  dense_bias_reg_l2: 0.0001
  conv_kernel_reg_l2: None
  conv_bias_reg_l2: None

# Postprocessing
  clipper__lower: None
  clipper__upper: None

# Ensemble Catboost
  catboost__iterations: None
  catboost__learning_rate: None
  catboost__depth: None
  catboost__l2_leaf_reg: None
  catboost__border_count: None
  catboost__model_size_reg: None
  catboost__rsm: None
  catboost__verbose: None

# Ensemble XGBoost
  xgboost__objective: None
  xgboost__eval_metric: None
  xgboost__n_estimators: None
  xgboost__learning_rate: None
  xgboost__max_depth: None
  xgboost__min_child_weight: None
  xgboost__gamma: None
  xgboost__subsample: None
  xgboost__colsample_bytree: None
  xgboost__reg_lambda: None
  xgboost__reg_alpha: None

# Ensemble Blender
  blender__method: None
  blender__runs: None
  blender__maxiter: None