简介

原项目说明文档

简介

本项目主要继承自PaddleOCR项目，主要对小语种OCR能力进行优化。

计划

新增功能

OCR接口精度测试

文本检测优化

【PP-OCRv30】通用多语言场景文档大模型
【PP-OCRv30】通用多语言文档大模型

文本识别优化

中文语系

【PP-OCRv30】中文文本行识别

阿拉伯语系

【PP-OCRv30】阿拉伯语文本行识别模型
【PP-OCRv30】维吾尔语文本行识别

表音文字语系

【PP-OCRv30】日语文本行识别
【PP-OCRv30】韩语文本行识别

斯拉夫语系

【PP-OCRv30】俄语文本行识别
【PP-OCRv30】哈萨克语文本行识别
【PP-OCRv30】乌克兰语文本行识别

元音附标语系

【PP-OCRv30】藏语文本行识别
【PP-OCRv30】缅甸语文本行识别
【PP-OCRv30】印地语文本行识别
【PP-OCRv30】高棉语文本行识别
【PP-OCRv30】老挝语文本行识别
【PP-OCRv30】泰语文本行识别
【PP-OCRv30】孟加拉语文本行识别

拉丁语系

【PP-OCRv30】越南语文本行识别
【PP-OCRv30】马来语文本行识别
【PP-OCRv30】印尼语文本行识别
【PP-OCRv30】西班牙语文本行识别
【PP-OCRv30】葡萄牙语文本行识别
【PP-OCRv30】意大利语文本行识别
【PP-OCRv30】法语文本行识别
【PP-OCRv30】德语文本行识别

模型

文字检测

模型名称	模型简介	配置文件	模型大小	hmean
ch_PP-OCRv30_det_dml	文本行检测大模型，支持中英、多语言文本行检测	ch_PP-OCRv30_det_dml.yml	122M	89.87%

文字识别

语言	配置文件	acc	norm_edit_dis	备注
中文	rec_chinese_common_train_v2.0.yml	77.38%	94.21%	文档数据集
阿拉伯语	ar_PP-OCRv30_rec.yml	73.33%	97.83%
维吾尔语	ug_PP-OCRv30_rec.yml	70.97%	93.83%
俄语	ru_PP-OCRv30_rec.yml	93.55%	99.57%	需优化
哈萨克语	kk_PP-OCRv30_rec.yml	59.37%	95.30%
藏语	bo_PP-OCRv30_rec.yml	67.09%	93.07%	需优化
缅甸语	my_PP-OCRv30_rec.yml	74.19%	97%
印地语	hi_PP-OCRv30_rec.yml	43.01%	85.05%	需优化
高棉语	km_PP-OCRv30_rec.yml	53.5%	79.98%
老挝语	lo_PP-OCRv30_rec.yml	11%	78.33%
泰语	th_PP-OCRv30_rec.yml
越南语
马来语
印尼语

注：测试数据采用场景数据。

📄 License

This project is released under Apache 2.0 license

Name		Name	Last commit message	Last commit date
Latest commit History 6,017 Commits
.github/ISSUE_TEMPLATE		.github/ISSUE_TEMPLATE
PPOCRLabel		PPOCRLabel
StyleText		StyleText
applications		applications
benchmark		benchmark
configs		configs
deploy		deploy
doc		doc
ppocr		ppocr
ppstructure		ppstructure
test_tipc		test_tipc
tools		tools
.clang_format.hook		.clang_format.hook
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
.style.yapf		.style.yapf
LICENSE		LICENSE
MANIFEST.in		MANIFEST.in
README.md		README.md
README_ch.md		README_ch.md
__init__.py		__init__.py
paddleocr.py		paddleocr.py
requirements.txt		requirements.txt
setup.py		setup.py
train.sh		train.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

简介

计划

新增功能

文本检测优化

文本识别优化

模型

文字检测

文字识别

📄 License

About

Releases

Packages

Languages

License

superocr/PaddleOCR

Folders and files

Latest commit

History

Repository files navigation

简介

计划

新增功能

文本检测优化

文本识别优化

模型

文字检测

文字识别

📄 License

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages