188体育app官网_188体育投注

返回首页
您的位置:首页 > 新闻 > 专题 > CCF获奖人故事

CCCF人物专访 | 用信息技术架起民族交流的桥梁——专访2018 CCF夏培肃奖得主于洪志教授

阅读量:282 2020-11-04 收藏本文
微信图片_20200204091145



编者按:2019年1月19日,CCF在北京举行2018 CCF颁奖大会。西北民族大学于洪志教授因为在藏文信息处理方面所做出的杰出贡献,荣获2018 CCF夏培肃奖。于洪志教授长期从事藏文信息处理研究,在藏文编码国际标准、藏汉双语信息处理、藏文字处理软件等方面做出了突出贡献,推动了少数民族语言信息处理技术的发展和应用普及。CCCF“动态”栏目编委张民特别采访了于洪志教授,请她分享40年来在西部扎根工作、生活的感悟。


微信图片_20200204091514

时任CCF理事长高文(左)和曙光公司高级副总裁沙超群(右)在2018CCF颁奖大会上为于洪志教授(中)颁奖


问:于老师,您是如何走上藏文信息处理道路的?


于洪志:1982年1月,我毕业被分配到西北民族学院(西北民族大学前身)。“民族”对于我来说不再是一个抽象的概念。在这里,计算机就像一个巨大的磁场,强烈地吸引了我。这所学校的藏学研究在国内外有很大影响力,我决定选择开发藏文软件作为自己的教学、科研方向。那时没有任何可以借鉴的资料,研究也毫无头绪,我硬是凭借自己的兴趣和数学基础进行一次次尝试。很多人都对我质疑、嘲笑,他们认为压根就没有“藏文信息处理”。


我跟藏文老师山夫旦在围棋盘上摆出藏文字母,根据0-l编码原理,先写出二进制数,再转换成十六进制写入计算机。几百个藏文字符被“装”进计算机,却显示不出来。我按照数学推理的方法,把所有的藏文字符都找出来了,在完成的那一时刻,仿佛难产的婴儿突然诞生了,简直是历史性的突破,而现在看来是多么平凡。可是当时,极少有人知道操作系统。


后来,我完成了“藏文输入系统”和“藏文操作系统”,实现了藏文字型从16×16点阵到24×24、48×48点阵,输入方法从区位码到音形结合法,屏幕提示从汉字方式到藏汉双语方式的变革。在很短时间里,我从计算机“机盲”成长为甘肃省计算机专家顾问团专家。


时任甘肃省政协副主席贡唐仓活佛参加了早期的鉴定会。他对我说,你一定要把藏文计算机研究坚持到底,藏族的科技进步离不开计算机。但是,藏族人民接受计算机还需要一个过程。他给我讲了两个故事:刚解放时,他号召藏族同胞用电灯,但是藏族人民认为电灯把佛光照了,不肯用。1986年,拉卜楞寺大经堂着火,损失惨重。他希望用钢筋水泥重建大经堂,又结实又防火,而藏族人民不愿接受,因为世袭的大经堂是木质结构。他说先进的事物最终被一个民族所接受,这个民族就进步了。1988年,甘肃省佛学院购买了第一台计算机。藏文计算机技术就如同数学中的极限一样,在无限发展的过程中,被藏族人民所接受、所应用;藏族地区经济文化的发展,又促进了藏文信息技术的发展。


1987年,“国际中文多文种信息处理与办公自动化展览会”在北京劳动人民文化宫举行。大殿中央,悬挂着嘉木样活佛、贡唐仓活佛观看我操作计算机的巨幅照片,我们的展台引起极大轰动。包括各计算机专家在内,与会人员都要看一看计算机藏文系统是什么样子。时任国家教委主任李铁映、班禅十世大师以及在京的藏族领导、专家学者、工作人员都来到展台前。当时的藏文系统版本很低,但所有的人都称赞、鼓励和期望。这毕竟是一个民族与科学技术的结合。只有迈出第一步,才有可能实现巨大的飞跃。


后来,我去中国藏语系高级佛学院作藏文软件培训,班禅十世大师对我说:“藏族人民能使用上计算机,就是一个先进的民族。请你在计算机上给我们解决古藏文的问题。”在我从事藏文信息技术研究的几十年间,遇到了许多无法想象的困难。无论是遇到地雷阵还是面对万丈深渊,我都咬紧牙关克服困难。“位卑未敢忘忧国”,大师的嘱托就是我的目标。

 

问:作为从事藏文信息处理的资深专家,您可以回顾一下它的研究历程和发展现状吗?


于洪志:我从以下五个方面来介绍。


1. 操作系统的研发


微机汉字系统起步于1980年,在英文DOS的内核嵌入汉字编码、存储、输入和输出显示功能,形成汉字操作系统。1983年,开始藏文计算机系统的研制。从汉字磁盘操作系统(CCDOS)、WPS一直到UCDOS(北京希望公司研制的汉字系统),Windows、Linux始终与汉字操作系统同步。


英文和汉字系统,都是一个编码对应一个显示字符。按照藏文编码国际标准,由一个藏文前导字符和若干个藏文组合用字符构成藏文编码复合序列,对应一个藏文显示字符,通过迭加组合生成藏文动态字库进行信息交换。


2. 制定藏文编码国际标准和国家标准


藏文编码标准的制定在国际上竞争十分激烈,除我国外,英、美、印度、爱尔兰等国家都提出了藏文编码提案。1992年,国家技术监督局、电子工业部和国家民族事务委员会组织了藏文编码国家标准研制小组。1996年10月,藏文编码字符集、字型、键盘布局三项国家标准通过全国信息技术标准化技术委员会审定。1997年7月,藏文编码国际标准通过国际标准化组织(ISO)和国际电工委员会(IEC)审定,标志着我国藏文信息处理和交换技术正式走向世界,在国际社会引起强烈反应。


3. 研发藏文通用、应用软件


早期工具软件是基于英文操作系统的,在支持藏文字库挂接和藏文显示上存在问题。我们编写了藏文字库接口和藏文显示模块,使广大藏族普通用户在藏文多媒体、网页制作、非线性编辑等领域能够处理藏、汉、英三种文字。


为了让藏族用户能够接受并使用计算机,我们编写了融入藏族文化的系列软件,如格萨尔(古代藏族人民创造的一部伟大的英雄史诗)、藏文历算、藏医、藏药等系统。


4. 用国有优质藏文软件抵制国外劣质藏文软件


进入本世纪,有人有目的、无偿地向藏区发放国外劣质藏文软件,对我国的信息安全造成极大威胁。


2002年,国家民族事务委员会、教育部、信息产业部、国家标准化管理委员会等部委组成的联合调研组,赴四川、西藏对藏文软件开发和使用现状进行了调研。藏文信息技术引起了政府的高度重视,提到国家议事日程,并通过国家项目资助民族文字信息技术。我国民族信息技术开始有了质的飞跃。


5. 以汉字为核心的多语言信息处理


中国是多民族国家,每个民族有使用自己民族文字的权利。汉语是国家通用语言,在国际活动中代表中国法定文字。


进入本世纪,随着操作系统的完善,民族语言文字在数据稀疏的环境下,在文字识别、语音合成、语音识别、机器翻译等领域取得了一系列重大成果。一流科研院所、国内大公司的参与,提高了以汉字为核心的多语言信息处理技术。

 

问:深度学习是目前主流的自然语言处理方法,它在藏语及其他民族语言信息处理上的应用现状及前景如何?


于洪志:深度学习在2013~2014年在自然语言处理领域取得了突破,神经机器翻译模型的提出标志着深度学习成为主流的自然语言处理方法。在藏语信息处理相关领域,如藏语分词、词性标注、命名实体识别、机器翻译等任务中,目前均采用最新的神经网络方法,同时我们自己的研究成果和主流方法保持同步,方法和模型与国际主流水平相差不大,原因在于国内外最新的成果和方法可以通过互联网迅速获取,同时我们也得到了国内一流大学和科研机构的帮助,比如联合培养学生,委托培养我们自己的教师等。我们与国外的主要差距在于语料资源的大小,这种现象在维吾尔语、蒙古语等民族语言上同样存在。虽然深度学习目前仍然存在可解释性差、较为依赖大规模语料等不足之处,但是我对深度学习在自然语言处理,以及民族语言文字信息处理领域的应用前景非常看好。

 

问:请介绍一下您和您的团队目前的主要研究方向和研究内容。


于洪志:我们团队坚持原始创新和集成创新,坚持做以汉字为核心的多民族语言信息处理技术,融入和服务“一带一路”民族地区建设中。


其中,“面向民族语公共信息服务”项目融合多种少数民族语言到汉语之间的语音识别、机器翻译、复杂问题求解、答案生成、语音合成等技术,构建包括人工和智能语音应答的多语言公共信息服务系统。藏语、蒙古语和维吾尔语都是跨境语言,是服务于“一带一路”建设的重要抓手。


该项目建设了国内大型藏汉双语远程教育门户网站,运用藏文文本挖掘和藏文搜索技术,实现面向藏族的汉语普通话学习系统和藏汉双语辅助教学系统,包含九年义务教育、大学藏语言文学专业基础课和专业课,藏语农林牧科普教育等远程教育资源库,使藏族人民享受到优质的教学资源。


“一带一路特色农产品多语言电子商务平台”采用深度学习、人工智能和后期大数据处理等技术,实现了汉语、藏语、蒙古语、维吾尔语、英语五种语言的搜索、推荐、翻译,多语言版本、多终端。该平台以“一带一路”沿线特色农产品为特定交易对象,辐射全国,贯通中亚沿线,围绕电子商务生态圈,打造数据、人才、经济、扶贫、贸易中心。“一带一路特色农产品多语言电子商务平台”已写入2019年甘肃省政府工作报告,现在平台已经上线运营。

 

问:很多民族语言文字存在使用人数较少、文化断层等问题,一些优秀的民族文化因此面临失传的危险。您是如何看待民族语言文字保护问题的?


于洪志:2008年,我作为全国人大代表,在给政府的“188体育投注:开展中国语言普查工作的建议”中写道:“少数民族语言和汉语方言已经发生了巨大变化。全面科学地描写、展示我国少数民族语言和汉语方言的传统面貌,及时记录和保存语言、方言资料,抢救、保护民族语言文化遗产,是我国政府和学术界一项迫在眉睫的历史使命。” 2012年,我又提交了“188体育投注:科学保护各民族语言文字的建议”。


作为领域工作者,我们团队进行了民族语音声学、生理、认知多模态研究,面向的语种主要是藏语、蒙古语、维吾尔语和甘肃特有民族的保安语、裕固语、东乡语;研究的内容有多维嗓音、鼻音度、动态腭位、机器唇读、语音视位、言语空气动力学、言语呼吸韵律、婴幼儿言语发音、言语认知的眼动和脑电等;研究的领域有少数民族文学作品、民歌、格萨尔、藏戏、呼麦、长调、诵经、花儿等,致力于通过多模态的方式将民族语言文字和文化保存下来。这些工作的意义在于:为政府制定语言政策,提供数据和技术支持,为专家学者科学研究提供基础资源,为子孙后代保留可视化的科学资料。

 

问:作为多民族多学科交叉的研究方向,您能介绍一下自己团队的特点和优势吗?


于洪志:我们团队在长达30年的民族信息技术研发过程中,凝聚了一支由汉族、藏族、蒙古族、维吾尔族、哈萨克族、土族、回族组成,拥有计算机、数学、自动化、汉语、藏文、蒙古文、维吾尔文、外国语多专业背景的科研团队。理工科的收敛性思维和文科的发散性思维,在自然语言理解中碰撞、融合、统一;各个民族不同的文化背景,使民族信息技术保持人性化、科学化。


我们的研究成果获得了国家最高奖励:由团队独立完成的“藏汉双语信息处理系统”和“藏文视窗平台、字处理软件和藏文网站”两次获得国家科技进步二等奖,团队制定了信息交换用藏文系列国际标准和国家标准,为信息领域制订技术法则。


国家人权白皮书记载:“世界首个藏文网站——同元藏文网站,1999年在中国兰州西北民族学院建成”,我们的工作载入国家史册。


我们是国家科技支撑计划项目“少数民族语言文字信息处理共性关键技术研究与示范应用”和“新丝路经济带民族特色农产品品牌培育科技示范工程”的首席专家单位,具备承担国家重大项目能力,得到了学术界认可。


团队建设了“民族信息技术国家级实验教学示范中心”和“民族语言文化与教育虚拟仿真国家级实验教学示范中心”,提高了学校的办学层次。


团队是国家语言绿皮书的撰稿单位,科研工作忠诚地服务于政府需求。


2014年,中央组织部、中央宣传部、人力资源和社会保障部、科学技术部授予民族信息技术团队为“全国专业技术人才先进集体”。我们坚持做了政府需要而其他单位难以完成的科学研究。