生成式人工智能突飞猛进,使得中国学者开始关注、思考语料库问题,《读+》在此摘编介绍其中若干有价值的观点。
■ 国家语料库是重大文化资源
许多国家都将语料库建设视为重要的基础工程,并建设了国家语料库。比如,英国国家语料库于1991年开始建设,1994年完成第一版,此后在2001年和2017年相继发布了第二版、第三版,规模为1亿词。美国国家语料库2003年发布第一版(规模为1110万词),2005年发布了第二版(规模为2200万词),2006年以后开始专注于开放的语料库建设。韩国政府于1998年启动了“21世纪世宗计划”项目,建设2亿词单元的韩国国家语料库,如今已经完成。此外,俄罗斯、匈牙利、泰国、爱沙尼亚等国家也都建设并发布了各自的国家语料库。
我国语料库的建设在20世纪70年代开始起步,目前已建成了多个汉语语料库,如几所高校和科研院所独立建设的规模不等的语料库,但是由于这些语料库在建设之初或多或少存在临时性、局部性、短期性、功能单一性等限制,缺乏长远考虑和全局性设计,未能全面反映国家通用语使用的现状。需要指出的问题主要有以下几点。
其一,语料库采样不平衡,多为书面语语料,缺少口语语料。比如,目前在汉语学界使用率很高的某语料库,其当代语料中报刊语料的占比高达70%以上,而口语语料占比不足0.3%。有的语料库仅将某一年度的微博文本作为口语语料,有的很大规模的语料库甚至没有收录口语语料。
其二,样本大小未加以控制,同等规模的语料库文本覆盖面较窄,影响了语料库的平衡性与代表性。比如,有的语料库对现当代作家作品全文收录,而标准的平衡语料库应避免同一作者的文学作品过多、过长、比重过大,否则会影响语料库的平衡性。如英国国家语料库最多只从单一作者作品的不同部分中抽取45000词的样本。
其三,语料库没有或缺少定期更新计划,难以进行基于历时平衡语料的研究。
其四,语料媒体形式较为单一。国内现有大型语料库中的语料多为文本形式,多媒体形式的语料库规模均比较小,取材受限,无法反映汉语使用的全貌,尤其是鲜活口语使用的面貌。处于国际研究前沿的基于“多媒体、多模态”语料库的研究越来越多,但国家通用语的多媒体、多模态语料库的建设仍相对滞后。
其五,语料库应用系统功能不足。
(中国社会科学院语言研究所所长张伯江、语言研究所副研究员张永伟)
■ 语料库建设必须破解瓶颈
ChatGPT等国外模型训练语料主要取自英文语料库,来源主要包括维基百科、新闻报道、社交媒体、电子书籍、论坛帖子等,中文比重不足千分之一,英文语料占比超过92.6%。由于中西文化的源头、演进路径不同,导致国外生成式人工智能产品可能对中华文化的包容性和多样性的认识不充分,生成交互信息的文化内涵和精神往往带有局限性和片面性;同时,大模型对不同国家地区用户输入内容的语言习惯、表达方式在理解和处理方面也可能存在较大的差异,从而进一步加大误解风险。
目前,我国人工智能语料库建设虽然取得一定发展成果,但总体水平还处于相对落后的状态,要全面推动语料库建设向深度、广度拓展,必须破解其发展中所面临的诸多瓶颈。
一些商业数据平台出于商业利益考虑,在长期发展过程中已经形成自己的数据壁垒,数据开放、共享共用难度较大,难以作为语料基础平台。国内不少商业大模型团队利用私有数据库建设数据集,例如百度的内容生态数据、腾讯的公众号数据、知乎的问答数据、阿里的电商和物流数据等,这些花费不菲的商业数据集难以作为开源资源免费提供给其他组织机构共享。此外,语料库内容还受制于知识产权保护,一些是由于语料库设计不合理导致,比如因收录大量全文而引起的版权问题,限制了语料库的对外开放,另一些问题则与版权保护制度有关。现实中语料内容的知识产权保护会对语料库建设和共享造成一定限制。
(中国社会科学院图书馆李栋)
■ 让人工智能具备“汉语思维”
目前的生成式人工智能产品,多带有一定的“西方思维”色彩。因此,随着技术的不断发展,我国人工智能需要关注“汉语思维”,提供具有汉语意识的技术刻画方式和行之有效的技术实现路径。
汉语语言语法结构复杂,词汇量丰富。因此,在“汉语思维”同自然语言理解与自然语言生成相关联的过程中,需要关注汉语语法、词义、语义和语用等,需要深入理解汉语的语言和文化背景,尤其要考虑我国用户的文化习惯和心理需求。我们可以通过收集和整理不同领域和语境下的汉语文本进行语料库建设,然后依托语料库中的大量语言数据来训练模型,并将其应用到机器翻译、语音识别等领域。
在“汉语思维”方面,需要解决的问题包括汉语的音调、声调和语音变异等问题。此外,还需要考虑汉语的方言和口音等因素。比如,汉语中有许多词汇在不同语境下的发音和语调是不同的。建立一个汉语语音语料库,可以帮助语音识别系统更好地理解和分析汉语语音信号。此外,还可以在语音库中加入成语、俗语、习惯用语等固定搭配的语音样本,帮助系统更好地识别这些表达方式。
(同济大学外国语学院教授许文胜等)