PDF文字识别
命令原型
jsonRet = Mage.PDFOCRText(#config, #path,#password,#all_pg_state,#page_cfg,#sleepTime,#time)
命令说明
将 PDF 指定的页码通过智能文档处理平台(UiBot Mage)通用文字识别,识别结果返回 JSON 格式。在识别多页过程中如果其中一页失败则整个识别会返回错误,且会消耗配额
适应版本
社区版与企业版
必选参数
- config -- 智能文档处理平台配置
- 参数描述:智能文档处理平台(UiBot Mage) 的调用配置
- 参数默认值:{}
- 适应版本:社区版与企业版
- path -- PDF文件路径
- 参数描述:PDF文件路径
- 参数默认值:'''C:\Users'''
- 适应版本:社区版与企业版
- password -- 密码
- 参数描述:PDF文件密码,无密码不需要填写
- 参数默认值:""
- 适应版本:社区版与企业版
- all_pg_state -- 识别全部页
- 参数描述:当全部页码设为"是",则识别全部且指定页码输入无效。设为否时,可指定页码识别
- 参数默认值:False
- 适应版本:社区版与企业版
- page_cfg -- 识别指定页码
- 参数描述:支持正整数和数组格式,如输入2,则识别第2页;如输入[1,3,5],则识别第1,3,5页;如输入[1,[6,9],4],则识别1,4页和第6到第9页。当识别全部页码设为"是",则识别指定页码的输入失效。超出PDF页码总数的部分会报错,页码重叠部分仅识别1次
- 参数默认值:[[1,2]]
- 适应版本:社区版与企业版
- sleepTime -- 间隔时间-毫秒
- 参数描述:识别PDF每页的间隔时长(以毫秒为单位),默认10000毫秒(10秒)。识别页数较多,间隔较短可能会导致调用频率超限错误
- 参数默认值:10000
- 适应版本:社区版与企业版
- time -- 超时时间-毫秒
- 参数描述:指定等待时间(以毫秒为单位),如果超出该时间,则引发异常。默认30000毫秒(30秒)
- 参数默认值:30000
- 适应版本:社区版与企业版
返回结果
jsonRet,将命令运行后的结果赋值给此变量。