本项目主要继承自PaddleOCR项目,主要对小语种OCR能力进行优化。
- OCR接口精度测试
- 【PP-OCRv30】通用多语言场景文档大模型
- 【PP-OCRv30】通用多语言文档大模型
中文语系
- 【PP-OCRv30】中文文本行识别
阿拉伯语系
- 【PP-OCRv30】阿拉伯语文本行识别模型
- 【PP-OCRv30】维吾尔语文本行识别
表音文字语系
- 【PP-OCRv30】日语文本行识别
- 【PP-OCRv30】韩语文本行识别
斯拉夫语系
- 【PP-OCRv30】俄语文本行识别
- 【PP-OCRv30】哈萨克语文本行识别
- 【PP-OCRv30】乌克兰语文本行识别
元音附标语系
- 【PP-OCRv30】藏语文本行识别
- 【PP-OCRv30】缅甸语文本行识别
- 【PP-OCRv30】印地语文本行识别
- 【PP-OCRv30】高棉语文本行识别
- 【PP-OCRv30】老挝语文本行识别
- 【PP-OCRv30】泰语文本行识别
- 【PP-OCRv30】孟加拉语文本行识别
拉丁语系
- 【PP-OCRv30】越南语文本行识别
- 【PP-OCRv30】马来语文本行识别
- 【PP-OCRv30】印尼语文本行识别
- 【PP-OCRv30】西班牙语文本行识别
- 【PP-OCRv30】葡萄牙语文本行识别
- 【PP-OCRv30】意大利语文本行识别
- 【PP-OCRv30】法语文本行识别
- 【PP-OCRv30】德语文本行识别
模型名称 | 模型简介 | 配置文件 | 模型大小 | hmean |
---|---|---|---|---|
ch_PP-OCRv30_det_dml | 文本行检测大模型,支持中英、多语言文本行检测 | ch_PP-OCRv30_det_dml.yml | 122M | 89.87% |
语言 | 配置文件 | acc | norm_edit_dis | 备注 |
---|---|---|---|---|
中文 | rec_chinese_common_train_v2.0.yml | 77.38% | 94.21% | 文档数据集 |
阿拉伯语 | ar_PP-OCRv30_rec.yml | 73.33% | 97.83% | |
维吾尔语 | ug_PP-OCRv30_rec.yml | 70.97% | 93.83% | |
俄语 | ru_PP-OCRv30_rec.yml | 93.55% | 99.57% | 需优化 |
哈萨克语 | kk_PP-OCRv30_rec.yml | 59.37% | 95.30% | |
藏语 | bo_PP-OCRv30_rec.yml | 67.09% | 93.07% | 需优化 |
缅甸语 | my_PP-OCRv30_rec.yml | 74.19% | 97% | |
印地语 | hi_PP-OCRv30_rec.yml | 43.01% | 85.05% | 需优化 |
高棉语 | km_PP-OCRv30_rec.yml | 53.5% | 79.98% | |
老挝语 | lo_PP-OCRv30_rec.yml | 11% | 78.33% | |
泰语 | th_PP-OCRv30_rec.yml | |||
越南语 | ||||
马来语 | ||||
印尼语 |
注:测试数据采用场景数据。
This project is released under Apache 2.0 license