为了进一步加强项目合作,推广研发成果,提高社会服务能力,内蒙古自治区东北亚语言资源中心与中国中文信息学会民族语言文字专业委员会于2022年5月14-15日共同组织召开了“语言资源与语言智能”为主题的第二期“云讲堂”。北京语言大学李宇明教授,清华大学孙茂松教授,中国科学院研究员孙乐、华为首席科学家刘群教授、青海师范大学才让加教授、华中师范大学何婷婷教授以及东北大学朱靖波教授应邀做主题报告,西藏大学尼玛扎西教授做总结报告。会议由中心主任那顺乌日图教授主持,我校社科处处长达胡白乙拉教授致辞。
我校社科处处长达胡白乙拉教授致辞
中心主任那顺乌日图教授主持会议
会上,曾任国家语委副主任、教育部语言文字信息管理司司长、教育部语言文字应用研究所所长、北京语言大学党委书记、华中师范大学副校长的李宇明教授做“语言数据与数据产业”主题报告。他认为:语言数据的研究超出了现有的语言学范畴,也超出了其它科学的单一学科范畴。需要多学科联袂进行交叉研究;语言数据问题也超出了学术研究范畴,成为社会发展的重要问题,需要全社会的共同参与。报告中他指出:东北亚语言资源中心在少数民族语言资源开发与利用方面做了令人瞩目的工作,希望以后发挥更大的引领作用。
兼任教育部教学信息化与教学方法创新指导委员会副主任委员的孙茂松教授做“人工智能与语言计算”主题报告。报告结合人工智能发展的脉络,从“人工智能目前形成的基本态势和面临的主要挑战”、“深度学习框架下的语言计算”及“语言学能帮助人工智能什么”三个角度深入浅出地进行较为全面的阐述和讨论。对人工智能技术优势及其局限性进行了充分的讲解。
中国中文信息学会秘书长、中文信息学报副主编、中国科协全委会委员、国家语委语言文字规范标准审定委员会委员孙乐研究员做“UIE:基于统一结构生成的通用信息抽取”主题报告。报告中指出:信息抽取是一个从文本到结构的转换过程。由于信息抽取任务的多样性、抽取结构的复杂性、以及抽取目标的需求多变性,导致信息抽取模型一直难以实现统一建模,面临抽取架构定制化、模型孤立化、监督特定化的不足。报告介绍实验室最近的相关工作,并认为UIE统一生成框架在实体、关系、事件和情感等4个信息抽取任务、13个数据集取得了最佳性能。
原爱尔兰都柏林城市大学教授、爱尔兰ADAPT中心自然语言处理主题负责人、中国科学院计算技术研究所研究员、自然语言处理研究组负责人刘群教授做“大规模预训练语言模型的机会和挑战”主题报告。报告中指出:预训练语言模型改变了自然语言处理的面貌,并成为一种全新的研究范式。近年来,随着模型规模的迅速膨胀,预训练语言模型不仅刷新了很多传统NLP任务的性能指标,而且具备了很多传统NLP模型不具备的新能力,如少样本或者零样本的学习能力、多模态表示和处理能力等。与此同时,大规模预训练语言模型也带来了数据、训练、安全、能耗等方面的一系列挑战。同时,他介绍了华为诺亚方舟实验室相关工作进展。
藏语智能信息处理及应用国家重点实验室副主任、藏文信息处理教育部重点实验室副主任、青海省藏文信息处理工程技术研究中心主任才让加教授做“语言.智能.未来”主题报告。主要介绍语言的功能、价值与传承等问题。同时介绍自然语言处理(以藏语自然语言处理为例)与人工智能和自然语言理解(以藏语自然语言理解)与人工智能的关系。提出机器智能和人类智能的一些浅显思考和人类面临的语言博弈与语言消失问题。
国家语委科研中心国家语言资源监测与研究网络媒体中心主任、湖北省人工智能与智慧学习重点实验室主任,国家社科基金重大计划项目首席专家何婷婷教授做“语言资源建设与应用”主题报告。报告回顾语言资源建设的发展历史,介绍当前语言资源建设的相关工作,交流国家语言资源监测与研究网络媒体中心相关的语言资源建设实践。同时,讨论大数据、人工智能时代,语言资源建设的趋势和特点。
“小牛翻译”创始人朱靖波教授做“机器翻译技术和应用挑战”主题报告。主要介绍机器翻译技术发展历史。具体包括基于规则的方法、统计机器翻译技术和神经机器翻译技术等。同时,探讨各种技术的基本原理和优缺点。最后,探讨机器翻译技术应用水平和面临的一些挑战。
中国中文信息学会民族语言文字专委员会主任,教育部计算机类专业教学指导委员会委员尼玛扎西做总结报告,并指出未来的发展方向与合作期许。
专家们针对语言资源建设、语言智能研究及其发展趋势等方面进行广泛而深入的探讨。来自国内外教学科研单位以及社会各界的600余人次参加本次讲坛。