怎么识别视频里的中文

anth · #1

一年前我做了个小工具识别抖音视频的作者账号很好用里面最关键的几个工具是

cv2 截图
tesseract 识别
re 正则表达式做判断剔除乱码

英文非常好用最快手头有些视频是中文的这就抓瞎了
遇到了两个困难

tesseract中文错误率很高
re 正则判断困难

其实刚开始的时候工具没做好英文识别错误也高
但是能用
因为可以用re判断
只要匹配一下四个英文字母基本上所有的乱码都能踢出去

中文不行啊
比如
云字可以识别成去上芸丰二

我用re踢不出去错误的
怎么踢

astolia · #2

之前看你对预处理不屑一顾的态度，我就知道会有这种结果了。
关于tesseract的识别率我的体会是，如果能用目标字形去训练出自己的数据集的话，效果会比用tesseract自带的那些训练数据好很多。加上适当的预处理，tesseract的识别正确率能在95%以上，基本不需要再对识别出的文本进行后期加工。不过这些也只是针对拉丁字符识别的经验。中文的话你也可以尝试找找抖音文字用的字体，再用那个字体生成一堆文字和对应的字形图片喂给tesseract进行针对性训练，看看效果如何。
或者用些免费的在线API，扔给别人的服务进行处理

anth · #3

astolia 写了： ↑2023-10-27 19:40 之前看你对预处理不屑一顾的态度，我就知道会有这种结果了。
关于tesseract的识别率我的体会是，如果能用目标字形去训练出自己的数据集的话，效果会比用tesseract自带的那些训练数据好很多。加上适当的预处理，tesseract的识别正确率能在95%以上，基本不需要再对识别出的文本进行后期加工。不过这些也只是针对拉丁字符识别的经验。中文的话你也可以尝试找找抖音文字用的字体，再用那个字体生成一堆文字和对应的字形图片喂给tesseract进行针对性训练，看看效果如何。
或者用些免费的在线API，扔给别人的服务进行处理

谢谢昨天我又想了很久对于预处理识别工具后期判断这方面分别有这样的结论

1 预处理用了一年了根据经验模糊笔画断续倾斜其实都很罕见现有的预处理图像非常清晰再要降低噪声做去噪对我来说既有难度又有时间成本很难实现

2 后期处理英文可以后期处理因为编码成千上万字母就只有那几十个所以正则表达式匹配一下几乎所有的错误都没了中文真不行必须提高识别率

3 文字识别工具我看了一篇评论是某个会议以后一个学生和文字识别大佬的谈话他说中文识别太容易变现了人家又不是雷锋不可能开源我已经不抱希望找现成工具了确实要自己做了

我的结论和你的建议差不多要自己拿tesseract训练难度很大首先是收集dataset 手头完全没有其次是没有显卡妈呀拿macbook 训练想想都酸爽这个方向对我来说很可能走不通我打算慢慢的试不着急也不抱希望

4 关于现在这个工具怎么做那很简单我自己想办法绕开中文了视频里不可能全部中文了还是有英文重新截图就可以了

anth · #4

补充一下进度吧

个人用户还是要知道自己能干什么不能干什么一直往深了走时间成本还是太高了我发现在软件领域我的优势就是开源说白了就是白嫖对自己的定位还是要清晰一点那么问题来了现在的开源领域中文是什么状况英文是什么状况长眼睛都知道继续白嫖下去中文来源确实捉襟见肘去英文来源人家也没兴趣提供中文特供版本所以结论就是白嫖就要嫖相同点文字不一样脸是一样的与其卡在文字不如转向刷脸这个可以继续嫖下去

我评估了 opencv tensorflow pytorch dlib等平台结论是还是有点超过我的能力了目前选择了最简单的成品产品 face recognition 已经完成组件拆解备用了速度测试和准确率测试自己做完至于人工智能这个还是直接买比较划算我不搞了不过pytorch打算继续观望一下没准什么时候需要微调

怎么识别视频里的中文

怎么识别视频里的中文

Re: 怎么识别视频里的中文

Re: 怎么识别视频里的中文

Re: 怎么识别视频里的中文