二、基础科研:美国最强,中国快速追赶

中国人工智能领域论文数量增长较快,但论文质量与美国依然存在差距。如图5.3所示,全球累计发布人工智能论文超过70万篇,中美两国是论文发表大国,2018年中美两国分别发表论文2.5万篇和1.6万篇,合计占全球比重达46.5%。从增长趋势来看,美国保持匀速增长,中国自2014年后增长较快,中国论文数量占全球总量比重从1998年的8.9%上升为2018年的28.2%。从代表论文质量的FWCI(平均加权引用影响)指数来看,如图5.4所示,中国论文质量也在稳步提升,从1998年的0.43提升至2018年的1.39。美国保持全球最高水平,长年保持在2左右,2018年FWCI指数达2.38。

从论文发表机构类型来看,包括中国、美国、欧盟27国等在内的各国和地区均以高校为核心科研力量,2018年三者高校论文产出占各自总产出的92.1%、84.6%、90.7%。除高校外,中美两国的主力科研主体有所不同。如图5.5所示,2018年中国科研机构产出约为中国企业产出的3倍。如图5.6所示,同期美国企业产出约为美国科研机构产出的1.6倍。

全球AI技术制高点之争,中国排哪里?全球AI技术制高点之争,中国排哪里?全球AI技术制高点之争,中国排哪里?全球AI技术制高点之争,中国排哪里?

三、数据量:人工智能时代的“原材料”,中国具有规模优势

电脑和智能手机的普及、互联网和移动互联网所累积的数据爆发,是促进人工智能技术和应用突破的重要原因之一。人工智能需要做到“感知、思考、决策”,首先就需要足够多、足够好的原始数据对计算机进行训练,犹如培育良驹,必须喂足新鲜的牧草。“足够多”代表数据的数量要多,电脑的发明使运算简化,并让信息以电子化形式保存,智能手机的普及使全球网民渗透率大幅提高,两者令大量的数据被保存。“足够好”代表数据的质量要佳,互联网的诞生极大地缩短了信息交流的物理距离,提高了传播速度,各类互联网类服务应用程序诞生,其产生的数据类型也更加多样,包括浏览网页喜好、外卖点单频率、行程记录等,只有多元丰富的数据才能应对各种训练人工智能的要求。数据增长和应用依赖于信息及物理的基础设施构建,中国将成为全球最大的数据中心。得益于人口数量、互联网渗透率、智 能手机渗透率、网速等因素,如图5.7所示,2018年中国拥有数据量7.6ZB,占全球数据总量的23.4%。随着5G、物联网等的发展,通信设备接入数量和承载能力的提高,终端消费者的增多,预计中国的数据量将在2025年达48.6ZB,占全球数据总量的27.8%(见图5.8),成为全球最大的数据集中地,这将极大地促进和丰富人工智能训练,相关模型结构和结果也会更精准。