📌  相关文章
📜  pytesseract 限制字符 - Python (1)

📅  最后修改于: 2023-12-03 14:45:52.921000             🧑  作者: Mango

pytesseract 限制字符 - Python

在Python中,pytesseract是一个识别字符的OCR库,可以让我们将图像中的字符转换成文本。但是有些时候,我们希望只识别固定的字符,这时候就需要使用pytesseract的限制字符功能。

如何限制字符

pytesseract的限制字符功能通过设置一个配置项来实现,具体代码如下:

import pytesseract
from pytesseract import Output

custom_config = r'--oem 3 --psm 6 -c tessedit_char_whitelist=abcdefghijklmnopqrstuvwxyz0123456789'
text = pytesseract.image_to_string(image, config=custom_config)

其中,tessedit_char_whitelist是设置允许识别的字符的参数。上面的代码就是限制只能识别小写字母和数字。

其他配置项

pytesseract还有其他几个相关的配置参数:

  • tessedit_char_blacklist:设置不允许识别的字符
  • tessedit_char_unblacklist:设置允许识别的字符,但是排除一些特定的字符
  • tessedit_char_whitelist_punc:设置允许识别的标点符号
  • tessedit_char_reject_mode:设置是否拒绝无法识别的字符
总结

通过设置pytesseract的配置项,我们可以灵活地控制字符识别的范围,从而得到更准确的结果。