Back to Mvision

Text Segementation 文字定位与切割

opencv_app/project/TextSegementation/readme.md

latest1.6 KB
Original Source

Text Segementation 文字定位与切割

【OCR技术系列之二】文字定位与切割

代码

们实际上要识别的图片很可能没上面那张图片如此整洁, 很可能是倾斜的,或者是带噪声的,又或者这张图片是用手机拍下来下来的, 变得歪歪扭扭,所以需要进行图片预处理,把文本位置矫正, 把噪声去除,然后才可以进行进一步的字符分割和文字识别。 这些预处理的方法在我的前面几篇博客都有提到了,大家可以参考参考:

透视矫正

水平矫正

在预处理工作做好之后,我们就可以开始切割字符了。最普通的切割算法可以总结为以下几个步骤:

对图片进行水平投影,找到每一行的上界限和下界限,进行行切割 对切割出来的每一行,进行垂直投影,找到每一个字符的左右边界,进行单个字符的切割 一看只有两个步骤,好像不太难,马上编程实现看看效果。

首先是行切割。这里提到了水平投影的概念,估计有的读者没听过这个名词,我来解释一下吧。水平投影,就是对一张图片的每一行元素进行统计(就是往水平方向统计),然后我们根据这个统计结果画出统计结果图,进而确定每一行的起始点和结束点。 下面提到的垂直投影也是类似的,只是它的投影方向是往下的,即统计每一列的元素个数。