Skip to content

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)

License

Notifications You must be signed in to change notification settings

superocr/PaddleOCR

 
 

Repository files navigation

原项目说明文档

简介

本项目主要继承自PaddleOCR项目,主要对小语种OCR能力进行优化。

计划

新增功能

  • OCR接口精度测试

文本检测优化

  • 【PP-OCRv30】通用多语言场景文档大模型
  • 【PP-OCRv30】通用多语言文档大模型

文本识别优化

中文语系

  • 【PP-OCRv30】中文文本行识别

阿拉伯语系

  • 【PP-OCRv30】阿拉伯语文本行识别模型
  • 【PP-OCRv30】维吾尔语文本行识别

表音文字语系

  • 【PP-OCRv30】日语文本行识别
  • 【PP-OCRv30】韩语文本行识别

斯拉夫语系

  • 【PP-OCRv30】俄语文本行识别
  • 【PP-OCRv30】哈萨克语文本行识别
  • 【PP-OCRv30】乌克兰语文本行识别

元音附标语系

  • 【PP-OCRv30】藏语文本行识别
  • 【PP-OCRv30】缅甸语文本行识别
  • 【PP-OCRv30】印地语文本行识别
  • 【PP-OCRv30】高棉语文本行识别
  • 【PP-OCRv30】老挝语文本行识别
  • 【PP-OCRv30】泰语文本行识别
  • 【PP-OCRv30】孟加拉语文本行识别

拉丁语系

  • 【PP-OCRv30】越南语文本行识别
  • 【PP-OCRv30】马来语文本行识别
  • 【PP-OCRv30】印尼语文本行识别
  • 【PP-OCRv30】西班牙语文本行识别
  • 【PP-OCRv30】葡萄牙语文本行识别
  • 【PP-OCRv30】意大利语文本行识别
  • 【PP-OCRv30】法语文本行识别
  • 【PP-OCRv30】德语文本行识别

模型

文字检测

模型名称 模型简介 配置文件 模型大小 hmean
ch_PP-OCRv30_det_dml 文本行检测大模型,支持中英、多语言文本行检测 ch_PP-OCRv30_det_dml.yml 122M 89.87%

文字识别

语言 配置文件 acc norm_edit_dis 备注
中文 rec_chinese_common_train_v2.0.yml 77.38% 94.21% 文档数据集
阿拉伯语 ar_PP-OCRv30_rec.yml 73.33% 97.83%
维吾尔语 ug_PP-OCRv30_rec.yml 70.97% 93.83%
俄语 ru_PP-OCRv30_rec.yml 93.55% 99.57% 需优化
哈萨克语 kk_PP-OCRv30_rec.yml 59.37% 95.30%
藏语 bo_PP-OCRv30_rec.yml 67.09% 93.07% 需优化
缅甸语 my_PP-OCRv30_rec.yml 74.19% 97%
印地语 hi_PP-OCRv30_rec.yml 43.01% 85.05% 需优化
高棉语 km_PP-OCRv30_rec.yml 53.5% 79.98%
老挝语 lo_PP-OCRv30_rec.yml 11% 78.33%
泰语 th_PP-OCRv30_rec.yml
越南语
马来语
印尼语

注:测试数据采用场景数据。

📄 License

This project is released under Apache 2.0 license

About

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 79.3%
  • C++ 13.3%
  • Shell 4.5%
  • Java 1.3%
  • Cuda 0.4%
  • CMake 0.4%
  • Other 0.8%