计算机(软件)学院“十二五”标志性成果——蒙古文软件2017-01-04    文字:计算机(软件)学院

 

实验室开发了蒙古文信息检索系统、蒙古语大词汇量连续语音识别系统、蒙古语语音合成系统、印刷体蒙古文字识别系统、蒙古文古籍图像检索系统、新蒙汉翻译系统等,并且自主研发了“西里尔蒙古文与传统蒙古文相互转换系统”、“奥云蒙古文整词输入法”(下载量已达16000余套)和“面向手机的以蒙古文为主的多语种电子辞典软件”等一系列产品。实验室与中标软件有限公司合作研发了“中标麒麟蒙古文操作系统”、“中标普华蒙古文office”软件,已上市实现产业化,为内蒙古自治区政府机关、教育、文化等行业赠送20000套,在内蒙古大学、内蒙古财经大学、呼和浩特民族学院等高校开设了相应的课程,这是我国完全具有自主知识产权且符合蒙古文国家标准的软件产品。

部分成果介绍如下:

1、西里尔蒙古文与传统蒙古文相互转换系统

传统蒙古文和西里尔蒙古文分别是在中国和蒙古国使用的蒙古文,随着中国和蒙古国两国之间的文化、教育和经济的交流与合作不断深入,两国之间的文字转换工作也变的极其重要。实验室采用了基于规则和统计相结合的方法研究和开发了西里尔蒙古文与传统蒙古文相互转换系统,其中西里尔蒙古文到传统蒙古文的转换正确率达到了95%以上,传统蒙古文到西里尔蒙古文的转换正确率达到了90%以上。本成果申请了发明专利1项(受理号:CN 18103103810161 A,),获得计算机软件著作权2项(软件登记号:2015SR103555,2014SR104997)。本成果已经免费为广大用户使用(使用网址为:http://trans.mglip.com),目前为止翻译量已达到40多万条。为了推动蒙古文信息化发展,实验室向广大软件开发者以web服务的形式开放了西里尔蒙古文与传统蒙古文相互转换系统,有需要的软件开发者可以直接使用该系统进行软件开发,成功案例为“中国民族语文翻译局智能翻译系统”(网址:http://www.mzywfy.org.cn/translate.jsp)。下一步实验室将对蒙古文命名实体识别、外来词转换、一对多对应转换等转换系统中的关键问题进行进一步优化,从而提高系统的整体性能。本系统工作不仅给两国蒙古族同胞的交流带来了更多的便利,而且对蒙古族的科学,文化和教育发展同样具有重要意义。

2、奥云蒙古文整词输入法

实验室开发了符合蒙古文国家标准编码的蒙古文整词输入法(奥云蒙古文输入法),并在2015年3月正式发布,给用户免费使用,下载网址为http://oyun.mglip.com。输入法支持Windows xp、Win7、Win8等多种操作系统,并且有智能记忆、词库大、输入简便、字体全、皮肤美观等特点。从发布到现在一个月的时间里输入法下载量达到了16000多个,并得到了用户的一致好评。

3、中标普华蒙古文office

实验室与中标软件有限公司联合研制了一款针对蒙古文少数民族语言的蒙古文办公软件(中标普华蒙古文办公软件)。该产品以满足中国内蒙古等地区信息处理需求为出发点,针对蒙古文进行了针对性的技术攻关与研制。产品包含文字处理、电子表格、演示文稿等组件,符合蒙古文编辑处理习惯和编码规范,完全满足内蒙古地区少数民族用户日常办公和文档处理的需求。

中标普华蒙古文办公软件成功解决了从上向下书写等蒙古文编辑排版难点,支持中文、蒙古文文、英文混排;提供蒙古文拼写检查、蒙古文电子词典等实用工具;支持软件界面在汉文、蒙古文语言间互相切换,方便民族交流;全面支持国家、国际编码标准。

该产品是国家工信部电子信息发展基金“蒙古文多语种跨平台办公套件”的重要项目之一。项目的开发得到了工信部、内蒙古经信委和上海市经信委等单位的大力支持。

4、中标麒麟蒙古文操作系统

实验室与中标软件有限公司联合研制了蒙古文桌面操作系统(中标麒麟蒙古文桌面操作系统)。中标麒麟蒙古文桌面操作系统是在国产桌面操作系统的基础上开发的符合蒙古文字型国家标准的国产桌面操作系统蒙古文版产品,并与中文桌面操作系统保持同步升级更新。

产品优势:

(1)符合蒙古文字形国家标准;

(2)提供方便用户使用的蒙古文输入法;

(3)界面支持蒙古文化,并和汉语切换使用;

(4)实现蒙古文与中英文的混合编辑与处理,形成符合语言特点与排版规范的处理规则。

5、蒙古语大词汇量连续语音识别系统

蒙古语语音识别就是让机器通过识别和理解过程把蒙古语语音信号转变为相应的蒙古文文本。实验室通过十几年的努力,建立了300多小时的语音资源库和3GB的文本语料库,并开发了蒙古语大词汇量连续语音识别系统。而且近期,实验室采用了最新的深度神经网络技术,将蒙古语大词汇量连续语音识别系统的正确识别率提高到了90%以上,得到了突破性的进展。实验室尽快将蒙古语语音识别系统对外公布,并服务于广大用户。

6、蒙古语语音合成系统

蒙古语语音合成解决的主要问题就是怎样将可视的蒙古文文字信息转化成可以让人耳听得到的蒙古语声音信息,打个形象的比喻就是要让机器可以像人的嘴巴一样开口说蒙古语。实验室与科大讯飞股份有限公司一起成立了联合实验室,并将国际最先进技术应用到了蒙古语语音合成系统中。实验室的蒙古语语音合成演示系统的网址为:http://mtts.mglip.com

7、面向手机的以蒙古文为主的多语种电子辞典软件

实验室开发了基于安卓操作系统的传统蒙古文、西里尔蒙古文、汉语、英语等4种语言对照的词典。词典包含7万多对照词条和500多常用对照语句,并且词条和语句包含对应的发音语音。实验室还开发了基于安卓的传统蒙古文输入法和西里尔蒙古文输入法,为词典提供基本的录入工具。该词典对新老蒙古文、汉语和英语的学习和翻译提供了快捷、高效的服务,对蒙古文的文化和教育的发展具有重要意义。

8、印刷体蒙古文字识别系统

印刷体蒙古文字识别是利用模式识别、人工智能、数字图像处理等技术将图片格式中的蒙古文字转换成可编辑文本格式的过程。印刷体蒙古文字识别技术的实现为蒙古文信息处理提供了一种快捷、方便、高效的录入方式。目前,已实现一套运行于Windows操作平台的印刷体蒙古文字识别系统,具有的功能包括版面分析、倾斜检测与校正、文字识别等。目前,字元级识别正确率能达到98%以上,单词级的识别正确率可达90%以上。

9、蒙古文古籍图像检索系统

利用图像处理、信息检索和模式识别等相关技术和方法,提出了一套适合于蒙古文古籍图像检索的技术路线,即:采用词定位技术,通过图像匹配的方式直接在古籍图像上定位出待检索单词,而不进行识别。目前,以具有代表性的蒙古文《甘珠尔经》为对象,当性能指标为R-Precision时,可达到50%;当性能指标为MAP时,可达49.97%。平均检索(响应)时间为10秒。与其他语言(如:希腊文、叙利亚文、英文、日文、中文等)的古籍图像检索系统相比,无论检索性能还是效率都取得了较好的结果。蒙古文古籍图像检索系统的实现为中外学者提供了一种查阅蒙古文古籍文献的途径,从而提高了蒙古文古籍的利用效率,对传承和发展蒙古族文化具有重要意义。

-------- 相关新闻 --------

读取内容中,请等待...