一, AI模块介绍

通用文字识别支持表格、文档、网络图片等任意格式图片上文字信息的自动化识别，自适应分析各种版面和表格，输出为标准的Json格式，完成信息的结构化。该AI模块目前支持的版本有标准版、高级版，印刷体识别准确率可达99%，可应用的场景包括扫描文件、各种类型的文档电子化等，提升文件处理效率。

比如，通过通用文字识别技术，识别印刷体中英文，可以将纸质的合同、档案、PPT、论文等资料均可拍照上传识别为文字，方便进行信息的结构化处理和保存。

通用文字识别的核心特点如下：

中英识别：支持图像英文文字的检测和识别，返回文字框位置与文字内容。支持多场景、任意版面下的英文、字母、数字和常见字符的识别。
支持处理的文件类型为jpg、jpeg、png、bmp四种格式的图片。
支持表格、网络图片、截图、文档、PPT等多种格式的图片形式。
支持多方向文件检测，并通过自动对图像裁边、截切，去除图像的背景部分，将图像旋转还原来对图像进行多角度处理。

二, 功能介绍

通用文字识别（标准版）支持图片中的文字的检测与识别，并返回文字框位置与文字内容。标准版不支持多语言、手写体识别。
通用文字识别（高级版）支持图像整体文字的检测和识别，并返回文字框位置与文字内容。支持英语、日语、韩语、法语、德语、葡萄牙语、意大利语、西班牙语、荷兰语、繁体字等多种语言。

三, 学习小贴士

本章内容主要是UiBot Mage界面相关操作, 用来对非结构化数据进行操作, 通过底层OCR技术对文字,图像,PDF,段落等内容进行识别。

四, 学习目标

1, 掌握[通用文字识别]命令使用
2, 掌握[屏幕文字识别]命令使用
3, 掌握[图像文字识别]命令使用
4, 掌握[PDF文字识别]命令使用
5, 掌握[获取全部文本]命令使用
6, 掌握[获取段落文本]命令使用
7, 掌握[获取每行文本]命令使用
8, 掌握[获取所有文本元素]命令使用

results matching ""

No results matching ""