-
Notifications
You must be signed in to change notification settings - Fork 36
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请问在screenspot测试中,数据的platform字段是如何确定的,以及推理中历史信息是否利用了 #18
Comments
在模型训练阶段,是有一定概率不加入platform字段的,在不确定数据采集平台的情况下,可以选择不加入platform字段,或者尝试使用默认平台WIN。历史信息请参考提示词拼接文档“History 字段”部分:https://zhipu-ai.feishu.cn/wiki/D9FTwQ78fitS3CkZHUjcKEWTned。您可以提供更加详细的评测配置,如是否使用模型量化、提示词拼接的具体代码等,以便我们帮助您发现潜在问题。 |
我利用cogagent-9b-20241220参数在benchmark screenspot上进行推理评测,未添加history字段 未使用量化,判断标准为:预测box中心点位于真实标注框内算正确。 |
推理代码如下:def main_ScreenSpot():
|
评测代码如下: def evaluate(df):
|
请问在screenspot测试中,数据的platform字段是如何确定的,如原始数据中web,tool来源的数据,如何划分到Mac,Mobile,WIN中,以及推理中历史信息是否利用了?本人复现模型在screenspot上评估结果的指标(70.%)上,与报告所述85.4%相差较大
The text was updated successfully, but these errors were encountered: