科技网

当前位置: 首页 >互联网

清华大学少数民族文字识别系统研制成功

互联网
来源: 作者: 2019-05-16 22:57:06

春节红包大战花样多当心一不留神被诈骗
谷歌收紧财务制度出售机器人公司只是开始
="http://www.piiqb.com/ls/107397.html" target="_blank">2045加速器用科技构建高端制造业的创新
主场作战气势如虹imp伤害爆表JDG拿下

 科技1月29日电 蒙古文、藏文、维吾尔文等六种少数民族文字的纸出版物要转换成电子出版物,今后不再靠人工录入,只要经“统一平台少数民族文字识别系统”处理,印刷文档的扫描图像就会自动生成可检索的电子文档。这是今天在清华大学举行的“多秋季清肺降火三款食疗方
体蒙古文(包爬楼梯从此不再乘电梯
括混排汉英)印刷文档辨认暨统一平台少数民族文字辨认系统”技术鉴定会上获悉的。

据项目研制主持人,清华大学丁晓青教授介绍,该系统能辨认多种印刷字体的蒙古文字符和文档,并能识别蒙汉英混排的文档,是集版面分析、文本行字切分、识别、纵向文档图文对比编改等技术于一体的蒙古文文档识别实用系统,解决了多字体蒙古文汉英混排文本切分和辨认问题。在实际的多字体蒙汉英文档测试集上,文本识别率可达96.89%。

据介绍,该系统是全球首款在统一平台上支持我国主要少数民族文字文档的辨认系统。系统在汉字和英文文档辨认的基础上将4种类型六种文字的少数民族文字,即蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文和柯尔克孜文(混排汉英)。文档识别综合集成在一个统一的平台系统中,使我国最主要的少数民族文字文档能够自动识别输入计算机。该系统软件产品采用国际标准编码,系统结构具有良好的扩展性,还支持阿拉伯文的识别。

由倪光南、何新贵、戴浩院士组成的鉴定委员会认为:该项目解决了实用的多字体印刷蒙古文文档及其混排汉英的辨认问题,实现了在统一平台上蒙、藏、维、哈、柯、朝(混排汉英)文档识别的综合集成,其主要技术指标达到了国际领先水平,对促进我国少数民族语言文字的信息化建设具有重要意义。

小孩肺热咳嗽吃什么好的快
小孩肺热咳嗽吃什么好的快
小孩肺热咳嗽吃什么好的快

相关推荐