SERVICE PHONE

363050.com
shijiebei 2026世界杯
你的位置: 首页 > 2026世界杯
学苑 全球数字空间中文活力与影响力考察(叶军、朱晓睿、蔺鹏飞)2026年足球世界杯完整赛程与投注指南

发布时间:2026-01-08 06:37:53  点击量:

  2026世界杯赛程,世界杯球队,足球预测,世界杯投注,赛事直播数字时代,以大语言模型为代表的生成式人工智能的开发与应用,使数字语言能力成为新质生产力的重要组成部分。数字语言资源不仅是国家软实力的体现,更是国家未来发展的基石。数字空间中文的活力与影响力是重要的语情与国情。本文以数字空间语言使用占比为核心,建立涵盖经济、科技、文化、社会、教育5个垂直领域的指标体系,加上数字中文基础指标,通过采集、分析有关数据,与英文、法文、西班牙文、俄文、阿拉伯文等世界主要语言使用情况进行比较,对数字空间中文的活力与影响力进行初步考察与评估。考察发现:在数字化浪潮推动下,中文已突破地域界限,从区域性语言发展为世界性语言;数字空间中文的活力与影响力稳居世界第二;动态数据相对丰富,静态数据相对缺乏,是中文数字生态最显著的特点;数字文化典籍保护和数字中文应用,是数字中文发展的两大亮点。

  一种语言的使用人数、使用量、使用范围体现了该语言的活力;而一种语言与世界主要语言在全球范围内使用情况的比较则反映了该语言的全球影响力。语言使用是文化传承与传播的基础。信息时代,语言作为最重要信息载体的作用进一步凸显,重要的知识生产、传播、创新大多需要通过语言使用来完成。因此,一个国家主要语言的活力和影响力直接影响该国在各领域的国际话语权和全球影响力。

  数字时代,以大语言模型为代表的生成式人工智能的开发与应用使数字语言能力成为新质生产力的重要组成部分。数字语言资源不仅是国家软实力的体现,更是国家未来发展的基石。数字空间是基于通信网络、大数据、云计算、物联网等数字技术,将现实物理空间的实体信息虚拟化、符号化,并逐渐以数字化形式再现于本地数据库或云端数据库中,形成的一个能够映射现实物理空间物质属性和社会属性的虚拟空间,以网络空间的流动数据为基础,同时还有大量可数字化、非联网数据(李芳,程如烟2020)。谁掌握数字空间的话语权,谁就在未来的发展中占有更大的主动权,产生更大的影响力。百年未有之大变局背景下,世界语言和文明发展与竞争的格局正在发生深刻的变化。数字空间打破了传统语言使用的空间边界,网络的互联互通一定程度上正在消弭作为殖民主义遗产的强势语言因殖民扩张而形成的在地域空间上的霸权地位。尽管强势语言在不少内容领域仍然占据着明显优势,但以“使用为王”“内容为王”为特征的数字空间却为像中国这样的发展中大国和中文这样在国际传播中处于相对边缘地位的语言(尽管中文是世界上使用人口最多的语言,但其使用者多局限于中国国内)提供了重新洗牌的机会。2025年1月,《教育部国家语委中央网信办关于加强数字中文建设、推进语言文字信息化发展的意见》(以下简称《意见》)发布,强调加强数字中文建设,着力提升语言文字服务数字教育、数字科技、数字文化、数字经济、数字社会建设的实际能力。[2]中文在数字空间的使用情况成为最重要的语情、国情之一。刘培俊(2025)从本体性技术和功能性特征上明确了“数字中文”概念的内涵,指出数字中文建设应着眼于“以信息化、数字化、智慧化方式全方位释放中文全要素价值”,“要推进中文数字化与数据中文化‘两化并进’”。本文聚焦“数据中文化”,即中文在全球数字空间中的数据化使用与影响力,系统采集中文使用占比数据,考察其活力及影响力,科学评估其优势与短板,精准把握语言文字服务数字中国建设的基本国情,从而提升语言文字对国家语言能力和中国式现代化的战略支撑力。

  “语言活力”的概念源于民族语言研究,最初是针对语言濒危问题而产生的。2003年,联合国教科文组织发布了一套全面评估语言活力的框架,该框架包含9项指标,涉及语言使用人数、代际传承、语言政策和语言态度等。[3]随着数字时代的到来,研究者们开始关注数字空间中的语言活力。目前,国内外机构已展开了一些研究。根据W3Techs网络技术调查网站对全球网站内容使用语言的统计,截至2025年8月,中文网页占比仅为1.1%,远低于英文的49.4%和西班牙文的6.0%,位列第十三。[4]根据阿里研究院2024年5月发布的《大模型训练数据白皮书》,全球网站中,英文占比高达59.8%,而中文仅占1.3%。[5]需要说明的是,上述统计的数据来源主要是互联网上的静态网页数据,没有将大量更为活跃的动态数据包括在内,并不能全面反映数字空间中文的活力和影响力。

  在人工智能大语言模型领域,根据OpenAI早期公开数据,在GPT-3训练数据集的语言占比中,英文高达92.65%,其次为法文1.81%,德文1.47%,其他语种均在1%以下,中文语料只占总训练量的0.1%。[6]《科技日报》2024年1月报道,中国工程院院士高文曾公开表示,全球通用的50亿大语言模型数据训练集里,中文语料占比仅为1.3%。[7]凤凰网科技频道2023年6月就“ChatGPT英文比中文表现更好”这一话题采访北京智源人工智能研究院院长黄铁军,他表示是因为“英文数据多,中文数据少”,“他们用的中文数据只有百分之几”。[8]不过这是两年前的情况。根据国家数据局2025年8月的数据,国内多数模型训练使用的中文数据占比已经超过60%,有的模型甚至达到80%。[9]中文高质量数据的开发和供给能力持续增强,推动中国人工智能模型性能快速提升。

  近年来,世界主要语言的调查报告越来越多地关注数字空间的语言活力与影响力。在法语方面,《全球法语现状(2022)》重点调查了法语在数字网络世界中的影响力。报告从“网民、流量、使用、指数、内容、界面”6个维度构建模型,来评估语言互联网地位及排名。其中,法语排名第四,在互联网空间的存在率为3.5%;前三名分别为英语、中文、西班牙语,存在率分别为25%、15%、7%。此外,该报告还提出“语言网络化全球程度”,法语为1.09,仅次于英语的1.61;中文为0.25,位列第九。[10]在俄语方面,俄罗斯国立普希金俄语学院2020年首次发布《全球俄语发展指数报告》,以呈现全球俄语竞争力指数与俄语稳定指数等数据。全球语言竞争力指数的设计除包括语言使用人数等传统指标外,还加入大量信息时代特有的指标,包括国际数据库学术论文数量、语言媒体数量、互联网用户数量及网站数量等互联网空间的语言传播数据。在这一排名中,俄语的竞争力指数为2.78,位列第五;中文的竞争力指数为3.45,位列第四。[11]除此之外,德语、西班牙语的语言调查报告也关注到了在线语言学习、人工智能等数字空间相关领域。

  纵观国内外相关研究和世界其他主要语言的研究实践,当前语言活力与影响力评估体系呈现出从传统线下应用场景向数字空间加速拓展的趋势,但仍有很多不足。从评价角度来看,现有其他语种的评价指标多样,中文排名不一;选取的评估指标数量较少,对内容垂直领域关注不足,覆盖领域较为有限,评估指标的全面性和代表性都有待加强。数据采集方面,多集中于静态网页,忽视静态和动态内容的结合,且对中国境内数据的关注较为缺乏,因此存在一定局限性。要对数字空间中文活力与影响力做出评估,必须建立一套能够全面反映全球数字网络公共空间中文使用情况,精准体现数字空间经济、社会、科技、文化等各领域中文影响力的评估体系。具体来说,需要处理好以下3点。

  第一,要突出以用为本的原则,围绕内容重点聚焦数字空间中文之用。前人对数字空间语言使用的调查多从传播学、数字技术等角度入手,而数字空间中文活力与影响力评估,关注的不应只是数字技术本身,更应该是数字中文所表达的内容。《意见》从实施数字中文“服务教育发展行动”“助力科技创新行动”“赋能文化传承行动”“推动产业升级行动”“促进社会进步行动”5个方面对如何着力提升语言文字信息化服务水平提出5点意见,正反映了教育、科技、文化、经济、社会这五大数字中文的应用领域。本研究按照“数据中文化”以内容分类呈现的原则,设立经济、科技、文化、社会、教育5个垂直领域一级指标,对应不同领域数字空间的语言使用场景。

  (1)经济领域:依据“生产—交换—分配—消费”的社会经济运行环节,采集企业、商业、金融等垂直细分领域数据。

  (2)科技领域:依据资源与应用的分类,采集学术资源库、数字图书馆、大语言模型语料、大语言模型应用等方面的数据。

  (3)文化领域:依据资源与传播的分类,采集数字典籍资源、数字博物馆、语料库、网络文学、在线音乐、在线影视、电子游戏等数据。

  (4)社会领域:依据社会运行的主要功能类型,采集社会治理、社会交流、社会服务等方面的数据或案例。

  (5)教育领域:依据资源和应用的分类,采集在线数字化课程和教育应用软件等数据。

  第二,要平衡静态数据与动态数据的关系。互联网公共空间存在两种不同类型的数据——静态数据与动态数据。静态数据是以组织机构官网、产品手册、个人博客文章等为代表的,内容固定不变、预先创建好的文件;而动态数据则是以社交媒体、电商网站、搜索引擎等为代表内容,可因人、因时、因输入而异,根据用户请求实时生成或变动的数据。相对来说,静态数据具有确定性,容易获得,动态数据具有不确定性,也不易获得;静态数据数量较少,但质量较高,动态数据数量巨大,但质量不稳定。现有评估体系大多使用静态数据,但考虑到移动互联网迅速发展背景下动态数据的持续增加,再加上大语言模型未来发展对动态训练语料的需求,我们在构建评估体系时专门设置了数字中文基础指标,不仅通过域名数量和网站语言占比等数据反映静态数据(静态呈现的内容),还通过网民(静态内容与动态内容的生产者与传播者)数量、移动数据量(主要是动态数据)等数据兼顾对动态数据的考察。

  第三,通过与世界主要语言的比较,反映中文在数字空间的活力和全球影响力。本研究为保证各领域评价指标的一致性,将考察的语言限定于联合国6种官方语言,即中文、英文、法文、俄文、西班牙文、阿拉伯文。

  本研究是基于上述指标体系围绕语言使用占比的初步考察,暂不涉及各项指标的权重设定。数据采集工作完成于2025年6—8月,大部分数据均是截至采集时间的最新数据。考虑到数据的年度完整性和可比性,我们将年度数据的时段设定在2024年。例如,APP(应用程序)年下载量和学术文献年度新增量,其检索时间均统一限定在2024年度内,以覆盖2024年全年的数据。

  [5]《大模型发展提速,中文语料够“吃”吗?》,《科技日报》2024年6月27日第05版。

  [6]OpenAI公开的GPT-3训练数据集语言占比统计文件可在GitHub网站中查看,。

  [7]《大模型发展亟需高质量“教材”相伴》,《科技日报》2024年1月15日第06版。

  [8]《黄铁军:ChatGPT训练只用了百分之几的中文数据》,凤凰网科技,2023–6–16,。

  [11]Индекс положения русского языка в мире, Государственный институт русского языка им. А.С. Пушкина, Москва: Государственный институт русского языка им. А.С. Пушкина, 2020.

  Statista数据分析平台的数据显示,世界网民总数为55.6亿(截至2025年2月)。[12]根据statista统计的全球网民数量最多的25个国家,参考各国语言使用人口的数据,统计出世界主要语言网民数量。其中,中文全球第一,占比19.96%(见表1)。

  [13]本表数据基于不同国家主要官方语言统计而来,如中国、俄罗斯、法国、美国/英国分别对应中文、俄文、法文、英文,印度、菲律宾等多语国家按照“该国公布的各语言使用人口比例×网民数量”进行估算。

  域名是互联网的关键基础资源,是数字时代的重要网络入口和人机交互标识。域名系统是互联网的关键基础设施和“中枢神经系统”,也是支撑各国经济社会运行和推动数字经济发展的重要基础。[14]数据显示,截至2025年第一季度末,全球域名保有量达3.79亿,美国第一,中国第二(见表2)。

  [15]数据来源于《全球域名发展统计报告》。该报告是专注于顶级域名全球市场与中国市场现状与发展趋势的季度报告,由互联网域名系统国家工程研究中心(ZDNS)与北龙中网(北京)科技有限责任公司联合发布。

  根据W3Techs对全球网站内容使用语言的统计,截至2025年8月,英文占比49.3%,排名第一;西班牙文6.0%,排名第二;中文仅1.1%,排名第十三(见表3)。

  以《爱立信移动报告》2024年全球各地区的月移动流量数据为基准,结合各地理大区下属国家语言分布情况,得到2024年各主要语言移动通信数据量及占比(见表4)。其中,中文占比最高,为20.49%;英文第二,为10.67%。

  数字中文基础的4项数据显示,网民数量是数字中文发展最大的优势,而网站语言占比则是最大的短板。尽管中国域名保有量世界第二,但与中国的人口数量仍不匹配。中国网民主要是通过手机上网,“静态数据少,动态数据多”是数字空间中文使用最显著的特点。

  世界500强企业是最活跃的经济主体之一,其官网语言对探究经济领域的语言使用极具参考价值。已有研究据此评估中文在全球经济领域中的地位与影响力(张黎,张钰浠2016)。2024年数据显示,92%的500强企业官网设有英文频道;49%的设有中文频道(见表5)。

  [18]语言频道占比=该语言频道数量/官网数量× 100%,文中其他语言频道占比的计算方法相同。

  选择Statista统计的2024年全球GMV(商品交易总额)排名前十的头部电商平台,补充不在排名中的俄语地区2家(Wildberries、Ozon)、阿拉伯语地区1家(Noon),共13家电商平台[19]进行考察。其中,设置中文频道的电商平台最多,有10家,占比76.92%;设置英文的有8家,占比61.54%(见表6)。

  基于Sensor Tower[20]公司提供的数据,考察所选取的13家电商平台APP在中国、英国、俄罗斯、美国、法国、西班牙、埃及等7个国家[21]2024年度的下载量。其中,中国位列第一(见表7)。

  [20]Sensor Tower是一家全球领先的移动应用数据分析与市场研究公司,专注于提供应用商店的下载量、用户行为等深度数据,是衡量移动应用市场表现的行业基准之一。由于中国安卓应用市场高度碎片化的客观原因,Sensor Tower缺少中国安卓应用的完整且可靠的下载数据,通常只包括ios端的下载量数据。公开数据显示,2024年中国苹果用户和安卓用户的占比情况大致为1∶4,因此中国市场APP的下载量我们以“ios下载量× 5”的方式进行估算,下文同。

  [21]这7个代表性国家主要使用的语言依次为中文、英文、俄文、英文、法文、西班牙文、阿拉伯文。

  通过semrush[22]流量监测平台检索,选择全球流量最大的100个金融网站,考察其官网语言频道设置。其中,有英文频道的84家,有中文频道的28家(见表8)。

  [22]Semrush是一个全球知名的在线营销和搜索引擎优化工具平台,提供关键词研究、网站流量分析等多种功能,常被用于评估网站的表现和市场趋势。

  中文在企业、商业、金融领域的活跃程度和影响力,大多排在英文之后,位列第二。这与中国作为世界第二大经济体,尤其是制造业大国和贸易大国的地位基本相符。由于目前采集的数据主要是静态数据,电商领域更为活跃的动态数据没能反映出来,中国在移动支付、网购、物流等方面的优势还没有得到充分显现。可以预见,随着人民币国际化和中国在制造业大国的基础上向消费大国迈进,中文在商业与金融领域会有更加亮眼的表现。

  科技知识的创造、传播、扩散、应用都离不开语言载体,科技知识以语言呈现,科学研究借助语言开展(沈骑,张冰天2022)。

  Web of Science是国际上规模处于头部的以学术论文为主的在线学术资源库,被全球学术界广泛作为衡量科研产出质量和影响力的重要基准。现有对国际科技领域学术资源的研究多选择该数据库作为数据来源,有较高的参考价值(沈骑,张冰天2022)。考察该资源库中6种语言截至2025年的文献总量和2024年的新增量,发现英文文献在数量上占据绝对优势。中文文献在绝对数量上与英文文献存在数量级的差距,但相较于西班牙文、法文、俄文和阿拉伯文,又呈现出相对明显的优势(见表9)。

  综合馆藏量、“数据是否公开”等因素,我们分别搜集中国国家图书馆、美国数字公共图书馆、俄罗斯国家电子图书馆、法国国家电子图书馆、西班牙数字图书馆、卡塔尔图书馆的数据,考察6种语言的图书资源情况。其中,英文资源量位列第一,占比44.35%;中文第二,占比39.45%(见表10)。

  据表9、表10,在图书类数字资源中,中文数量仅次于英文,差距较小;在论文类数字资源中,中文虽已表现出相当大的活力,但较英文仍有显著差距,尤其在国际通用平台的影响力还非常有限。可见,数字空间中文学术资源已初具规模,但仍缺乏承载科技创新最新成果的高质量数据。

  大语言模型训练语料是影响大语言模型性能的重要因素。机器学习模型的性能受规模的影响最大,而规模又包括模型大小、数据集大小和用于训练的计算量(Kaplan et al. 2020)等指标。鉴于目前不少大语言模型不再公开其预训练语料数据,我们在hugging face[23]官网的大语言模型下载量排行榜中选取前30个开源大语言模型(同系列的保留下载量最多的一个),据其公开数据依次标注预训练语料占比,再以每个模型下载量占30个模型总下载量的比例为权重,按照“语料总占比=∑(语料占比i ×权重i)”公式计算加权总占比,得到30个开源大语言模型的语料占比情况。其中,中文占比35.12%,仅次于英文(见表11)。

  [23]Hugging Face是一个开源的国际性机器学习平台,提供机器学习模型和工具,在全球范围内拥有庞大的用户和开发者社区。

  考察上榜全球最权威的LM Arena大语言模型性能测评榜单[24]的216个大语言模型,确定其所属国家(见表12),并结合主页判定其使用的主要语言。其中,主要使用中文的有49个,为中国公司发布;主要使用英文的有167个,为美国和其他国家发布(见表13)。

  在大语言模型开发和应用中,英文和中文占有绝对优势。数字中文在该领域中展现出强劲的发展态势和战略价值。

  [24]LM Arena是由LMSys(Large Model Systems Organization)发布的用于评估和排名大语言模型的权威榜单,常被视为衡量大语言模型通用能力和用户偏好的重要参考。

  根据规模大小、发布方等指标,选择每种语言有代表性的大型数字典籍资源库作为考察对象。中文选择由北京大学图书馆牵头联合多个高校图书馆建立的高校古文献资源库,英文选择大英图书馆的英文简称目录(ESTC),俄文选择俄罗斯国家电子图书馆,法文选择法国国家图书馆,阿拉伯文选择中东数字图书馆。[25]以每个资源库条目在6个资源库总条目的占比估测各语言资源的规模。其中,中文在传统典籍资源数字化方面成绩显著,处于全球领先位置(见表14)。

  [25]中国国内建有多个大型数字古籍库,而国外的数字典籍多散见于各国数字图书馆。因此对法文、俄文、西班牙文、阿拉伯文的资源,我们直接检索对应国家数字图书馆所收录的1800年及以前的资源总量。中文数据来源于高校古文献资源库简介(),英文数据来源于ESTC简介()。

  选取《博物馆指数报告》[26]统计的全球前20名博物馆,考察其语言频道的设置。其中,设置英文频道的博物馆有18个,占比90%;设置中文频道的有9个,占比45%(见表15)。

  考察每种语言处于头部、最具代表性的大型语料库,根据官网公开数据[27]估算其规模。其中,英文语料库规模最大,中文次之(见表16)。

  [27]语料库规模数据来源于各语料库简介、报道或相关文献,分别为中文()、英文()、西班牙文()、法文()、俄文()、阿拉伯文(Al-Thubaity 2015)。

  参考Google Pay、Apple Store等国际应用商店网络文学类阅读APP的下载量,选取国内外排名前列的起点中文网(仅发布中文类网络文学)及其国际版Webnovel(起点国际)[28]作为考察对象。中文作品在发布量、收藏量和下载量上均占绝对优势,但最关键的阅读量却远不及英文作品(见表17)。

  [28]起点国际专门面向全球非中文读者,支持超过10种语言的原创或翻译网络文学作品。

  选择全球范围内被广泛使用的Apple Music[29]作为考察对象,统计不同语言在线音乐的数据。中文作品在发布量、播放量、收藏量和下载量上均位于英文作品之后,位列第二(见表18)。

  [29]该平台服务覆盖全球多数国家,并提供统一的“全球TOP100”与“各国TOP100”排行榜,这保证了研究对象(歌曲)在全球范围具有相同的统计标准与平台基础,保障了研究的客观性与准确性。

  参考Google Pay、Apple Store的在线影视平台APP下载量,选取头部影视平台Netflix、Prime Video作为考察对象。中文影视作品在发布量、播放量、收藏量、下载量上均位于英文作品之后,位列第二(见表19)。

  以全球最大的电子游戏平台Steam为考察对象,统计不同语言电子游戏的数据。中文游戏在下载量、收藏量、评论量、发布量上均位于英文游戏之后,位列第二(见表20)。

  中文在数字空间拥有丰富的文化资源和传播力。中文数据库建设取得显著成效。包括网络文学和影视作品等在内的数字文化产品出海推动了中国文化的传播。但在全球范围内的传播力和影响力上,中文与英文仍存在一定差距。

  国际组织门户网站的语言使用情况一定程度上代表了各语言在国际政治领域的地位与影响力。现有国内研究以中文在政府、国际组织官网的使用,来评估中文在国际社会的影响力和发展前景(张慧玉,叶梦泽2025;熊文新,苏子珺2020)。

  我们从联合国官网[30]采集三级网页11 349个,统计其语言使用。其中,英文最多,占比26.93%;中文第二,占比18.68%(见表21)。

  [31]有104个网页的语言无法判定,主要由网页无法访问、语言标签缺失或内容为多语言混合等原因所致。

  整体来看,在社会政治领域的数字空间中,英文仍然占据主导地位,中文的影响力有待进一步提升。

  国际体育赛事官网的语言使用一定程度上反映各主要语言在国际社会活动(尤其是体育活动)中的影响力。依据国家体育总局总结的2024年国际赛事名单,选择34项赛事的官网进行考察。其中,设置中文频道的有6个,占比17.65%(见表22)。

  依据全球展览业协会(UFI)认证名单,选择国际认可度较高的120项国际性展会官网进行考察。其中,设置中文频道的有23个,占比19.17%(见表23)。

  在社会活动领域,国际赛事和国际展会官网的语言频道设置,英文位列第一,远超其他语言。中文影响力仍有较大提升空间。

  在社会服务领域,近年来中文的国际影响力日益提升。2025年7月26—28日举办的2025世界人工智能大会暨人工智能全球治理高级别会议(WAIC)上,北京语言大学研发的“中缅英互译系统”运用于缅甸特大地震救援事项成为人工智能赋能语言社会服务的典型案例。

  以Twitter(推特)、Facebook(脸书)、Instagram(照片墙)、Tik Tok(抖音国际版)/抖音、微博、小红书等国内外主流社交平台为考察对象。鉴于社交媒体数据多为难以直接采集的动态数据,改用Sensor Tower公布的社交媒体APP在各国的下载量间接反映各语言的使用情况。其中,中国的下载总量位列第一,其次是美国,远超于其他国家(见表24)。

  社会领域数字空间,中文的动态数据最为活跃,而静态数据方面相对比较落后,仍有较大的提升空间。

  根据第三方市场调查公司QYResearch(恒州博智)提供的资料,选取英语国家头部慕课平台udemy、edx、coursesa和中国头部慕课平台中国大学慕课、学堂在线、智慧树网,再选取法国MyMooc、俄罗斯开放教育平台、西班牙MiriadaX、阿拉伯语区edraak等各国本土慕课平台,考察6种语言课程量及占比。其中,英文课程最多,中文次之,二者远高于其他语言(见表25)。

  综合“是否有APP”及使用量等因素,选取udemy、coursera、edx、edraak、中国大学mooc、超星学习通等6个代表性的教育应用,统计其软件在中国、美国、英国、西班牙、法国、埃及、俄罗斯等7个国家的下载量和月平均活跃用户数。结果显示,中国教育软件(中国大学mooc、超星学习通)两项指标均居首位,说明本土应用在国内市场占据绝对主导地位(见表26、表27)。

  从教育领域来看,中国拥有庞大的数字教育资源,数字教育应用的前景广阔,但其全球影响力有待进一步提升。

  由于受数据的可及性及数据采集合法、合规性等方面的限制,目前的研究只是利用评价指标体系框架,对各指标涉及的数字空间中文活力与影响力进行定量统计和跨语言比较的初步尝试,尚未涉及不同指标之间的权重设定与指数计算,后续在数据选择、数据采集、数据处理、指数计算等方面还有极大的拓展与改善的空间。尽管如此,基于现有数据和材料,我们仍然能够得出一些具有确定性的结论。

  第一,全球最大的互联网人口、优质的数字网络基础设施和迅速发展的数字科技,使中文在数字空间的发展快速且健康。各领域数据均显示,数字空间中文的活力和影响力均仅次于英文,稳居第二,并已明显与法文、西班牙文等其他主要国际语言拉开差距。事实证明,在数字化浪潮的推动下,中文已突破地域界限,从区域性语言成长为世界性语言。可以期待,随着中国社会、经济、文化、科技的进一步发展,中文的活力和影响力将会持续不断地得到加强与提升。

  第二,动态数据相对丰富,静态数据相对缺乏,是中文数字生态最显著的特点。这既是数字中文发展的短板,也是潜在的优势。静态数据因其稳定可靠一般被视作高质量数据,而中文在这方面,尤其是代表知识创新前沿的国际学术论文平台数据,与英文相比还存在很大的差距。要改变这一局面,一方面有赖于中国科技不断进步,产生更多原创于中国并用中文发表的科技成果;另一方面也应通过国际间的多语服务,推动中文优秀期刊进入国际学术资源库,推动国际期刊接受中文发表的论文。动态数据尽管质量不够确定,但也同样是重要的数字资源。目前人工智能的预训练语料多是静态数据,但未来为适应更丰富的语境、更多样的人类互动场景,满足更灵活功能需求的人工智能应用,还需要更多高质量动态数据的支持。中国应发挥在语料库建设方面的优势,率先开展针对数字空间的中文动态数据语料库建设,为未来发展提前布局。

  第三,数字典籍库、数字图书馆建设是数字中文发展的亮点。文化典籍的数字化关乎文明的延续和文化的传承,也是优秀传统文化在当下持续获得创造性转化与创新性发展的前提与基础。数据表明,中文在文化典籍的数字化方面已经走在世界的前列,这是中国语言文字管理部门发挥制度优势,集中力量办大事,持续投入、持续推进的成果。

  第四,数字中文应用是数字中文发展的另一亮点。数据表明,在大语言模型及其应用的开发过程中,中文和英文几乎是唯二使用的两种语言。自主可控高性能大语言模型的研制和庞大且高素养中文的用户群体在各垂直场景的深度使用,必将为中国人工智能的发展带来更加美好的未来。基于大语言模型在国际间灾害救助等多语种服务等方面的成功案例,彰显了中国作为负责任大国的道义与担当。未来可以通过基于人工智能的国际间多语数字语言服务,更好地发挥中文在国际组织、国际赛事、国际展会中的作用,也可通过跨国语言服务合作,推进数字博物馆、数字自然文化遗产等建设。

  本文的考察是一个开端,未来将以此为基础,科学地确定各级指标权重,构建中文在全球数字空间的占比指数,动态监测数字中文的活力与影响力,持续助力数字中国建设。

  该文发表于《语言战略研究》2025年第6期。参考文献从略,引用请以期刊版为准,转发请注明来源。

地址:足球世界杯永久网址【363050.com】  电话:363050.com 手机:363050.com
Copyright © 2012-2025 足球世界杯网站 版权所有 非商用版本 ICP备案编: