Image Data Augmentation for OCR

Posted on 2019-01-25 Edited on 2026-04-04 In Computer Vision Views: Disqus:

OCR 模型往往会受限于训练数据的规模和多样性。对于字符识别、单词识别或者简单的文本行识别任务来说，训练集里的文本图像通常都比较“干净”：文字比较居中，角度正常，背景单一，几乎没有模糊和噪声。但真实场景中的 OCR 输入并不是这样，拍照、扫描、裁剪和压缩都会带来各种各样的形变和退化。

因此，一个很自然的想法是：在训练阶段主动对图像做一些随机扰动，构造出更大规模、更多样化的训练样本，让模型提前见过这些变化，从而提升鲁棒性。

Deep learning models are data-greedy and often limited by small datasets. Data augmentation can improve both performance and robustness, especially for OCR tasks where geometric distortion is common.

为什么 OCR 需要数据增强

OCR 和普通图像分类有一个很不一样的地方：它通常对几何形变更加敏感。

同样一个单词，只要发生一点点旋转、缩放、透视变化，或者变得稍微模糊一些，识别难度就会明显上升。例如：

拍照时相机没有对正文本区域
扫描件存在轻微倾斜
裁剪框不够准，文字区域被拉伸
图像分辨率低，笔画边缘模糊
压缩、噪声和阴影影响字符形状

如果训练数据里只有非常标准的文字图像，那么模型学到的判别边界往往会比较脆弱。一旦测试图像的分布和训练集不一致，性能就会明显下降。

因此，在 OCR 中做数据增强，目标并不是生成“更花哨”的图片，而是尽量模拟真实采集过程中的常见失真。

几类常用的经典增强方法

这篇文章只讨论一些比较经典、实现也比较简单的方法。它们不依赖复杂的策略搜索，也不依赖生成模型，但对于很多 OCR 任务来说往往已经足够有效。

仿射变换 (Affine Transform)

仿射变换是最常见的一类增强方法，通常包括：

rotation 旋转
scale 缩放
translation 平移
shear 错切

对于 OCR 来说，这几种变换都很自然，因为在真实数据中，文字区域本来就可能存在轻微倾斜、放缩或者拉伸。

例如，一张原始文字图像：

hello

经过轻微旋转或者错切之后，字符的相对结构仍然保留，但整体外观已经和原图不一样了。如果模型在训练时见过这些变化，那么在测试时就更不容易被类似扰动击穿。

从工程角度看，仿射变换通常是最先加入的一类增强，因为：

实现简单
速度快
对 OCR 有直接帮助

投影变换 (Perspective Transform)

除了仿射变换，OCR 里另一个很常见的增强是投影变换 (perspective transform)。

这类变换特别适合模拟拍照场景下的文本畸变。例如用户从侧面拍摄一张文档照片时，文本区域就很可能从一个矩形变成一个梯形。

如果训练数据里完全没有这种视角变化，模型在真实照片上的表现往往会比较差。

和仿射变换相比，投影变换可以模拟更强的视角变化，因此对于自然场景文字 (scene text) 识别或者拍照 OCR 往往更有意义。

模糊、噪声和亮度扰动

除了几何变换，还可以加入一些简单的低层图像扰动，例如：

Gaussian blur
motion blur
additive noise
brightness / contrast adjustment

这些增强的作用，是模拟真实成像过程中的退化：

拍照抖动会产生模糊
弱光环境会改变亮度和对比度
压缩和传输过程会带来噪声

和几何变换相比，这些方法通常不是 OCR 中最核心的增强手段，但作为补充往往很有价值。

一个简单的增强 pipeline

如果目标是做一个简单、稳定、容易落地的 OCR augmentation pipeline，我会优先考虑下面这个顺序：

resize 到统一尺寸
随机 rotation
随机 shear / scale
随机 perspective transform
随机 blur 或 noise
resize 回模型输入尺寸

这个流程的关键不在于“增强越强越好”，而在于控制扰动范围。

如果增强幅度过大，比如：

rotation 太大
perspective 过强
blur 太重

那么生成出来的样本可能已经偏离真实的 OCR 分布，反而会伤害模型训练。

所以更合理的策略通常是：使用小幅、但高频的随机扰动，去覆盖真实场景中的常见形变。

伪代码可以写成：

def augment(image):
    image = random_rotate(image, angle_range=(-8, 8))
    image = random_shear(image, shear_range=(-0.15, 0.15))
    image = random_scale(image, scale_range=(0.9, 1.1))
    image = random_perspective(image, distortion=0.1)
    image = random_blur_or_noise(image)
    return image

这类实现并不复杂，OpenCV、PIL 或者常见深度学习框架里的图像处理接口都足够支持。

这些增强为什么有效

从直觉上看，OCR augmentation 的作用可以概括为两点。

第一，它增加了训练样本的局部多样性。

同一个字符、单词或者文本行，在训练时会以多个不同外观出现。这样模型学到的就不再是某一种固定模板，而是一个更稳定的表示。

第二，它降低了训练分布和测试分布之间的差距。

真实 OCR 数据很少是“标准模板图像”，而增强的本质，就是在训练阶段人为制造一部分测试阶段会遇到的变化。

对于经典 OCR 模型来说，这类收益往往非常直接。哪怕模型结构本身没有变化，仅仅通过更合理的数据增强，也经常能带来可观的提升。

局限性

当然，经典数据增强也有明显的局限。

首先，它只能模拟一些低层次的图像变化，比如旋转、透视、模糊、噪声，而不能真正生成新的文本布局和复杂背景。

其次，增强策略的效果非常依赖任务场景。

例如：

对手写 OCR，过强的透视变换未必有意义
对扫描文档 OCR，过多的背景扰动可能没有帮助
对自然场景文字 (scene text) 识别，单纯的 rotation 可能不够，还需要更强的 perspective 和背景变化

最后，数据增强并不能替代真实数据。

如果训练集和目标场景差得太远，仅靠人工设计的增强操作通常是不够的。增强更适合被看作是一种提高鲁棒性的补充手段，而不是数据问题的根本解法。

小结

如果只从工程角度看，OCR 中最值得优先尝试的数据增强方法其实并不复杂：

affine transform
perspective transform
blur / noise
brightness / contrast adjustment

它们的共同目标，都是让训练图像更接近真实 OCR 输入中可能出现的失真。

对于很多基础 OCR 任务，一个简单的经典 augmentation pipeline 往往已经足够有效。至少在我当时做这个方向实验的时候，最先带来收益的也正是这些简单直接的方法，而不是更复杂的自动增强策略。

References

Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis, Patrice Y. Simard, Dave Steinkraus, John C. Platt
IIIT 5K-Word Dataset
Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition, Max Jaderberg, Karen Simonyan, Andrea Vedaldi, Andrew Zisserman