#将识别的文本整理成word、txt格式的文件:
import pytesseract
from PIL import Image
import docx
import os
# 打开图片
img = Image.open('example.png')
# 识别图片中的文本
text = pytesseract.image_to_string(img, lang='eng')
# 去除多余的空格和换行符
text = ' '.join(text.split())
text = text.replace('\n', ' ')
# 将文本按照段落进行分割
paragraphs = text.split('\n\n')
# 将文本整理成word格式的文件
doc = docx.Document()
for p in paragraphs:
doc.add_paragraph(p)
doc.save('example.docx')
# 将文本整理成txt格式的文件
with open('example.txt', 'w') as f:
for p in paragraphs:
f.write(p + '\n\n')
# 打开生成的文件
os.system('start example.docx')
os.system('start example.txt')