-
Notifications
You must be signed in to change notification settings - Fork 37
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
AlexNet 单卡精度对齐 #188
Comments
目前存在的问题:
|
这个有没有试过,用pytorch载入它自己的预训练模型,准确率是多少? |
用pytorch载入自己的预训练模型进行测试吗,之前测过一次是56+,但是数据预处理不一样,也是符合预期的准确率了 |
AlexNet简要总结验证精度相关的实验:
关于收敛速度问题的实验由于之前观测到OneFlow的AlexNet Eager在 1. 猜测可能是Dropout的问题 在 相关的实验超参数与resnet50对齐
结论
2. 猜测可能是学习率的问题 由于之前的实验里是和resnet50对齐,所以刚开始的warmup阶段学习率较低,因此修改实验超参数,改用StepLR后,在前几个epoch固定使用0.01的学习率,观测到模型的收敛速度明显加快,目前只跑了两个epoch,收敛的结果如下
结论
3. 在Pytorch框架下验证AlexNet模型的收敛速度 由于AlexNet模型较老,之前没有相关的调参记录,因此重新跑了Pytorch的AlexNet模型,为了公平比较,采用了ofrecord的数据输入,并且为了排除warmup带来的影响,使用了固定的学习率0.01,观察到Pytorch版本的AlexNet收敛速度也很慢 结论
总结
|
刚刚和星宇沟通后,BERT那边是由于之前传参问题,导致的收敛出现错误,在正确地修改后已经可以正常收敛了,因此记录一下这次(奇怪的)debug中踩的坑以及后续自己做实验会注意的点
|
AlexNet实验与benchmark对齐的graph训练90epoch后最高精度54.75%与benchmark中的AlexNet54.76%对齐 |
对齐Eager下的AlexNet精度与Benchmark中的AlexNet精度
超参:
需要进行的工作:
FQAs:
Q: 在小数据集imagenette上进行训练的时候,可以正常收敛和验证,但是在imagenet数据集上训练的时候,正常收敛,但是验证精度极低
A:
可能的问题是data-part-num设置错误,目前已修正,重新验证
1. 载入pytorch预训练模型并在imagenet上进行测试
载入pytorch预训练模型在imagenet val上验证准确率为: 55.38%
2. 对齐lazy和eager的模型加载,保证两边模型在相同输入下得到相同输出
此工作依赖于 Oneflow-Inc/OneFlow-Benchmark#215
The text was updated successfully, but these errors were encountered: