让机器阅读图片上的文字，总共分几步？

2018/07/14 09:17

编者按：本文来自于微信公众号 “KnowingAI知智”（微信公众号：Knowing_AI），动点科技经授权发布。

拍照搜题、名片信息自动归类，这些神奇功能是如何完成的？

除了提取图片中的文字，OCR 还能做什么？

点击下方视频，你对人工智能的了解就能轻松超过全世界 99% 的人类！

▼

图文版本送给不方便打开的朋友 (●°u°●)」

拍下快递单就能自动填充单号，拍下名片信息就能自动归类，拍下题目就能得到答案，这些方便的功能，都是 OCR 的功劳。

OCR（Optical Character Recognition）中文名叫「光学字符识别」，是指将带有文字的图像进行分析处理，获取其中的文字信息。对于机器来说图片只是一连串像素值，正是 OCR 给了机器阅读文字的能力。

想要识别图片中的文字，总共分几步？

首先是找到图片中文字的位置，校正文字的方向，再对图片进行二值化处理，切割并识别它们。对于得到的文字，有时还要进行语义纠错，才能输出最后的结果。

在提取图片中的文字信息之外，OCR 能帮我们完成许多更有趣的应用。

与机器翻译、 AR 相结合，就能实时将摄像头拍摄到的文字，翻译成你能读懂的语言；

整理购物小票太繁琐？拍下照片机器就能将它们整理归类，自动记账；

不仅如此，理解图片中的文字还能提升图像识别的准确率，像是商品包装上的文字就能为商品细粒度识别提供不少帮助。

不过手写文字、多语言混合文本、混合排列文本，仍是 OCR 需要解决的难题。

下一期我们将围绕人体姿态识别展开讨论，敬请期待！