-
Notifications
You must be signed in to change notification settings - Fork 55
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
DETR结果对齐实验记录 #288
Comments
detr
DETR
libai DETR
libai DETR 修复resnet50 bug后
libai DETR 修复bug后,接在torch权重后结果与原论文一致
@rentainhe @Ldpe2G 目前inference对齐了。没有遇到oneflow或libai的bug,主要是对实现细节的修订。 为了正确加载torch权重,我的注意力实现参考了很多torch.nn.MultiHeadAttention,感觉有点偏离libai,这周我完善一下。 |
这是哪个backbone的结果,类似这样 https://github.com/facebookresearch/detr#model-zoo 列一下表格? |
OK |
是inference的结果吗~ |
是的。今天排查到我实现的multihead attention和torch.nn.MultiHeadAttention不一致(detr源代码用的它),可能是这里的问题,目前在修改代码。 |
OKOK~ |
对某些input shape导致loss.backward报错"F20220602 14:17:25.050042 15603 shape.cpp:187] Check failed: !broadcast_axis_vec.empty() "问题的排查 问题定位至:projects/DETR/utils/box_ops.py 中 min/max oneflow的bug
最小复现代码:以flow.max为例,flow.min同理 版本:
输入为:
Bugs:
以上代码torch无bug |
libai/utils/distributed.py 中
作用是在build_model时将模型to_global。 但如果模型中有register_buffer参数,module.parameters()是不包含register_buffer参数的,所以也就不会把buffer参数to_global。 这里是否应该改成state_dict来实现:
这样才能把buffer参数to_global @rentainhe @CPFLAME 帮忙看下有没有必要改一下~ |
我感觉应该可以改. 改了以后可以跑一下其他的case, |
OK,我来试试 |
我用pynvml监控了下0卡显存的占用
vae迭代过程的memory变化 目前不确定是哪里的问题 |
是不是有一些变量没有及时释放 |
我排查下 |
上面的问题定位到了,是因为在执行 详细的最小复现我明天整理下 这可能是个潜在的bug? |
记录一个之前遗留的问题 首先有如下代码,transformer两个output,第二个没有用到
在transformer内部,逻辑如下:
可以看到第二个output是encoder的输出 问题是,如果transformer返回 经过排查,是.view这个op导致的。 完整报错信息如下:
|
记录待复现/排查的bug 训练过程中会遇到 复现/排查到之后会更新过来。
|
张晓雨: eager是没什么问题的,Graph这里的处理之前啸宇和慈杰尝试推进过,他们有更详细的记录。 许啸宇: 现在在做 graph 的 inplace。先做了些调研,关联动态 shape 推导、寄存器规划、动态内存分配 |
好的,谢谢袁老师。我这边是eager,看来更可能是我自己实现有问题,我在尝试复现看看。 |
这个问题,我在更新oneflow后消失了,尝试训练了一些iter也没再出现。 |
参考https://github.com/Oneflow-Inc/OneTeam/issues/779 做模型loss对齐的记录
aux_loss AdamW 4卡 |
看loss曲线基本没问题 |
Eager global 模型并行
参数对齐:https://github.com/facebookresearch/detr
问题排查TODO LIST:
The text was updated successfully, but these errors were encountered: