一, AI模块介绍

通用文字识别支持表格、文档、网络图片等任意格式图片上文字信息的自动化识别,自适应分析各种版面和表格,输出为标准的Json格式,完成信息的结构化。该AI模块目前支持的版本有标准版、高级版,印刷体识别准确率可达99%,可应用的场景包括扫描文件、各种类型的文档电子化等,提升文件处理效率。

比如,通过通用文字识别技术,识别印刷体中英文,可以将纸质的合同、档案、PPT、论文等资料均可拍照上传识别为文字,方便进行信息的结构化处理和保存。

通用文字识别的核心特点如下:

  • 中英识别:支持图像英文文字的检测和识别,返回文字框位置与文字内容。支持多场景、任意版面下的 英文、字母、数字和常见字符的识别。
  • 支持处理的文件类型为jpg、jpeg、png、bmp四种格式的图片。
  • 支持表格、网络图片、截图、文档、PPT等多种格式的图片形式。
  • 支持多方向文件检测,并通过自动对图像裁边、截切,去除图像的背景部分,将图像旋转还原来对图像进行多角度处理。

二, 功能介绍

  • 通用文字识别(标准版) 支持图片中的文字的检测与识别,并返回文字框位置与文字内容。标准版不支持多语言、手写体识别。
  • 通用文字识别(高级版) 支持图像整体文字的检测和识别,并返回文字框位置与文字内容。支持英语、日语、韩语、法语、德语、葡萄牙语、意大利语、西班牙语、荷兰语、繁体字等多种语言。

三, 学习小贴士

       本章内容主要是UiBot Mage界面相关操作, 用来对非结构化数据进行操作, 通过底层OCR技术对文字,图像,PDF,段落等内容进行识别。

四, 学习目标

  • 1, 掌握[通用文字识别]命令使用
  • 2, 掌握[屏幕文字识别]命令使用
  • 3, 掌握[图像文字识别]命令使用
  • 4, 掌握[PDF文字识别]命令使用
  • 5, 掌握[获取全部文本]命令使用
  • 6, 掌握[获取段落文本]命令使用
  • 7, 掌握[获取每行文本]命令使用
  • 8, 掌握[获取所有文本元素]命令使用

results matching ""

    No results matching ""