release dino-eva 1280 checkpoint (#338)

rentainhe · web-flow · commit 67f703b4afcd · 2024-01-30T13:05:39.000+08:00
diff --git a/projects/dino_eva/README.md b/projects/dino_eva/README.md
@@ -37,6 +37,7 @@ Here's the model card for `dino-eva` models, all the pretrained weights can be d
 | `dino-eva-02-B` | `eva02_B_pt_in21k_p14to16` | `1024x1024` | 12 | 55.8 | [config](./configs/dino-eva-02/dino_eva_02_vitdet_b_4attn_1024_lrd0p7_4scale_12ep.py) | [Huggingface](https://huggingface.co/IDEA-CVR/DINO-EVA/resolve/main/dino_eva_02_in21k_pretrain_vitdet_b_4attn_1024_lrd0p7_4scale_12ep.pth) |
 | `dino-eva-02-B` | `eva02_B_pt_in21k_p14to16` | `1536x1536` | 12 | 58.1 | [config](./configs/dino-eva-02/dino_eva_02_vitdet_b_6attn_win32_1536_lrd0p7_4scale_12ep.py) | [Huggingface](https://huggingface.co/IDEA-CVR/DINO-EVA/resolve/main/dino_eva_02_in21k_pretrain_vitdet_b_6attn_win32_1536_lrd0p7_4scale_12ep.pth) |
 | `dino-eva-02-L` | `eva02_L_pt_m38m_p14to16` | `1024x1024` | 12 | 58.9 | [config](./configs/dino-eva-02/dino_eva_02_vitdet_l_4attn_1024_lrd0p8_4scale_12ep.py) | [Huggingface](https://huggingface.co/IDEA-CVR/DINO-EVA/resolve/main/dino_eva_02_m38m_pretrain_vitdet_l_4attn_1024_lrd0p8_4scale_12ep.pth) |
+| `dino-eva-02-L` | `eva02_L_pt_m38m_p14to16` | `1280x1280` | 12 | 59.8 | [config](./configs/dino-eva-02/dino_eva_02_vitdet_l_4attn_1280_lrd0p8_4scale_12ep.py) | [Huggingface](https://huggingface.co/IDEA-CVR/DINO-EVA/resolve/main/dino_eva_02_m38m_pretrain_vitdet_l_4attn_1280_lrd0p8_4scale_12ep.pth) |
 | `dino-eva-02-L` | `eva02_L_m38m_to_o365` | `1536x1536` | 12 | 61.6 | [config](./configs/dino-eva-02/dino_eva_02_vitdet_l_8attn_1536_lrd0p8_4scale_12ep.py) | [Huggingface](https://huggingface.co/IDEA-CVR/DINO-EVA/resolve/main/dino_eva_02_o365_backbone_finetune_vitdet_l_8attn_lsj_1536_4scale_12ep.pth) |
 
 </div>
diff --git a/projects/dino_eva/configs/dino-eva-02/dino_eva_02_vitdet_l_4attn_1280_lrd0p8_4scale_12ep.py b/projects/dino_eva/configs/dino-eva-02/dino_eva_02_vitdet_l_4attn_1280_lrd0p8_4scale_12ep.py
@@ -0,0 +1,63 @@
+from functools import partial
+from detrex.config import get_config
+from detrex.modeling.backbone.eva import get_vit_lr_decay_rate
+
+from ..models.dino_eva_02 import model
+from ..common.coco_loader_lsj_1280 import dataloader
+
+# get default config
+optimizer = get_config("common/optim.py").AdamW
+lr_multiplier = get_config("common/coco_schedule.py").lr_multiplier_12ep
+train = get_config("common/train.py").train
+
+
+# modify model config
+model.backbone.net.img_size = 1280 
+model.backbone.square_pad = 1280  
+model.backbone.net.patch_size = 16  
+model.backbone.net.window_size = 16  
+model.backbone.net.embed_dim = 1024
+model.backbone.net.depth = 24
+model.backbone.net.num_heads = 16
+model.backbone.net.mlp_ratio = 4*2/3
+model.backbone.net.use_act_checkpoint = True
+model.backbone.net.drop_path_rate = 0.4  
+
+# 5, 11, 17, 23 for global attention
+model.backbone.net.window_block_indexes = (
+    list(range(0, 5)) + list(range(6, 11)) + list(range(12, 17)) + list(range(18, 23))
+)
+
+# modify training config
+train.init_checkpoint = "/path/to/eva02_L_pt_m38m_p14to16.pt"
+train.output_dir = "./output/dino_eva_02_vitdet_l_4attn_1024_lrd0p8_4scale_12ep"
+
+# max training iterations
+train.max_iter = 90000
+
+
+# gradient clipping for training
+train.clip_grad.enabled = True
+train.clip_grad.params.max_norm = 0.1
+train.clip_grad.params.norm_type = 2
+
+# set training devices
+train.device = "cuda"
+model.device = train.device
+
+# modify optimizer config
+optimizer.lr = 1e-4
+optimizer.betas = (0.9, 0.999)
+optimizer.weight_decay = 1e-4
+optimizer.params.lr_factor_func = partial(get_vit_lr_decay_rate, lr_decay_rate=0.8, num_layers=24)
+optimizer.params.overrides = {}
+optimizer.params.weight_decay_norm = None
+
+# modify dataloader config
+dataloader.train.num_workers = 16
+
+# please notice that this is total batch size.
+# surpose you're using 4 gpus for training and the batch size for
+# each gpu is 16/4 = 4
+dataloader.train.total_batch_size = 16
+