滕旭云光学字符识别评价研究报告经AIIA批准正式成立

2020-01-17 16:54 来源:科创网

原标题:腾迅云光学字符识别评价研究报告获AIIA批准,并于1月13日在北京举行的中国人工智能产业发展联盟2019年第四次全体会议上正式获得项目批准。会上,腾迅云人工智能视觉团队组织《OCR产业应用及评测需求研究报告》获得与会专家的认可,项目获得成功批准。该报告是腾讯、中国信息通信研究所和中国人工智能产业发展联盟联合成立的“智能产品安全与评估联合实验室”的第一个研究成果。

OCR(Optical Character Recognition)是“光学字符识别”的全称,即利用光学技术和计算机技术读出打印或书写的字符和纸上的字符,并将其转换成计算机可读、人们可以理解的格式。光学字符识别作为高速文本输入的关键技术,已经广泛应用于政府、金融、交通、教育、泛互联网等领域。但是,在不同的应用场景中,光学字符识别数据类型差异很大,每个应用场景对光学字符识别引擎有不同的要求。例如,金融和运输领域的光学字符识别数据大多是结构化卡数据,如身份证、银行卡、驾照等。而卡片数据简单,对场景安全性要求较高,所以光学字符识别引擎的识别精度会更高。在教育和泛互联网领域,大部分是非结构化数据,如计算公式、表格、广告图片、游戏图片等。光学字符识别引擎的识别精度相对较低。

目前,行业内还没有统一、规范的光学字符识别引擎评估方法,导致光学字符识别应用市场混乱,阻碍了光学字符识别技术在不同领域的良性发展。

基于腾迅云提供的腾迅云OCR文本识别技术和人工智能在许多行业的应用经验,腾迅云人工智能视觉团队开始编制《OCR产业应用及评测需求研究报告》(以下简称“研究报告”),分析OCR应用评价场景、样本分类和关键评价指标。

根据不同的应用场景,《研究报告》将光学字符识别引擎分为“卡型字符识别”、“票据文档识别”、“汽车相关识别”、“行业文档识别”和“通用字符识别”,基本覆盖主流光学字符识别应用场景。对于不同的光学字符识别引擎,《研究报告》还建立了不同的标准评估样本集。

评价的关键指标,《研究报告》分为“效果指标”和“绩效指标”。例如,对于身份证、驾驶证等对字段精度要求较高的场景,主要查看字段级效果指标,而对于普通人物、行业文件等场景,主要查看字符级效果指标。

与会专家认为,由于光符识别应用领域的广泛性,不可能用单一的标准和评价样本集来衡量不同领域的光符识别性能。因此,根据不同的场景建立权威的评价标准将有助于加快光学字符识别技术的产业化。

标签: 应用 评测 识别

热门文章

热点图文