del comments

pujiashu@corp.netease.com · pujiashu@corp.netease.com · commit 696da9fa0739 · 2022-04-21T14:46:18.000+08:00
diff --git a/app/train_roberta.py b/app/train_roberta.py
@@ -1,17 +1,13 @@
 import os
 import sys
-import ipdb
-import time
 import random
 import shutil
-import ntpath
 import numpy as np
 import argparse
 
 sys.path.append('..')
 
 from core.task import StoryTuringTest
-from core.utils import load_save_json
 from core.exp_record import ExpRecorder
 from core.semantic_modifier import SemanticModifier
 from exp_config import TRAIN_CONFIG, TRAIN_DEBUG_CONFIG, SYSTEM_CONFIG, SEED_OFFSET, TEST_PERCENT, VAL_PERCENT, \
@@ -24,14 +20,6 @@
 from pytorch_lightning import seed_everything
 
 
-# python3.6 train_roberta.py --epoch 1 --debug_N 100
-# python3.6 train_roberta.py --epoch 20 --per_device_train_batch_size 32 --gradient_accumulation_steps 4
-
-# python3.6 train_roberta.py --epoch 10 --per_device_train_batch_size 32 --gradient_accumulation_steps 4 --data_dir ../data/5billion_sort
-# python3.6 train_roberta.py --epoch 10 --per_device_train_batch_size 32 --gradient_accumulation_steps 4 --data_dir ../data/5billion_sort_no_reverse
-# python3.6 train_roberta.py --epoch 10 --per_device_train_batch_size 32 --gradient_accumulation_steps 4 --data_dir ../data/5billion_sort_unique_no_reverse
-# python3.6 train_roberta.py --epoch 10 --per_device_train_batch_size 32 --gradient_accumulation_steps 4 --data_dir ../data/5billion_shuffle_unique_no_reverse
-
 def compute_metrics(eval_predict):
     predict_prob, labels = eval_predict
     predict_label = np.argmax(predict_prob, axis=1)
@@ -166,11 +154,6 @@ def main():
         else:
             load_complete = True
 
-    # 直接用tokenizer的vocab看来也不行，因为前面都是ascii码，后面也不是完全按照词频排序的样子
-    # tokenizer_keys = list(tokenizer.vocab.keys())
-    # ipdb.set_trace()
-    # read whole dataset into memory
-
     # (0.) read dataset
     story_turing_test = StoryTuringTest(tokenizer, dataset_name=dataset_name)
     whole_texts, whole_labels = story_turing_test.read_cn_novel_whole_data(data_dir, semantic_change)
@@ -315,11 +298,6 @@ def main():
         model_save_dir = os.path.abspath(model_save_dir)
         model.save_pretrained(model_save_dir)
         print(f"Save best model ckpt to {model_save_dir}")
-    #
-    # train_result_save_path = os.path.join(model_save_dir, 'train_result.json')
-    # test_result_save_path = os.path.join(model_save_dir, 'test_result.json')
-    # load_save_json(train_result_save_path, 'save', data=train_result)
-    # load_save_json(test_result_save_path, 'save', data=test_result)
 
 
 if __name__ == '__main__':
diff --git a/readme.md b/readme.md
@@ -82,6 +82,9 @@ Arguments for ```run_story_interpret.sh```:
 - ig_n_steps: The number of steps used by the approximation method for Integrated Gradients.
 - use_pad_baseline: Bool value. 1: use all [PAD] baseline for Integrated Gradients. 0: Use all zero baseline.
 
+#### Other
+
+- To create result figures, you may refer to notebooks in result/vis
 ---
 ### License:
 Our code is under Apache License 2.0.