随着美国科技巨头在AI竞赛中领先,中国正在采用一种老套的竞争策略:将庞大的国家资源用于支持中国公司。
但是,中国政府的强硬手段也有可能阻碍中国的AI雄心,中国政府对中国公司实施严格的监管制度,以确保它们遵守中国对政治言论的严格限制。
目前中国有可能在这项有望改变企业乃至本国经济的技术上落后,因此上述行动对中国来说利害攸关。
中国通过开发能够以领先的速度观察和分析世界的系统,在AI革命中取得了飞跃。AI领域被称为计算机视觉的板块能够实现跟踪和监视,这与中国领导人习近平强调的政治控制相契合。
尽管取得了早期成功,但2022年末,OpenAI的ChatGPT横空出世,掀起了生成式AI的热潮,这让中国措手不及。生成式AI用于快速生成内容的大语言模型可能很难预测,更有可能破坏习近平想要的政治控制。
最近几个月,中国在这方面取得了进展,包括百度(Baidu)和商汤(SenseTime)在内的中国开发者现在表示,他们的最新产品在某些指标上超过了OpenAI的GPT-4的性能。中国政府补贴企业获取算力和收集数据来训练AI系统,从而助推了这一进程,直接参与到美国政府留给私营部门的领域。
中国通过开发能够以领先的速度观察和分析世界的系统,在AI革命中取得了飞跃。AI领域被称为计算机视觉的板块能够实现跟踪和监视。
图片来源:Qilai Shen/Bloomberg News
中国政府在全国范围内开展的活动也有助于广泛推广这项技术: 根据美国软件公司SAS和市场研究机构Coleman Parkes最近对行业领导者进行的一项调查,中国目前对生成式AI的运用领先全球。
中国政府还对中国AI公司施加了一些全球最为严格的限制,其中许多限制是带有政治性的。
斯坦福大学(Stanford University)中国经济与制度研究中心高级研究学者许成钢表示,生成式AI需要的是创意,再加上技术又是如此前沿,一切都需要发明创造,因此中国以国家为主导那一套是行不通的。
中国大多数生成式AI模型在向公众发布之前都需要获得中国国家互联网信息办公室的批准。据知情人士称,该机构要求公司准备2万至7万个问题,用于测试模型是否能给出安全的答案。公司还必须提交一组数据,其中包括模型将拒绝回答的5,000到1万个问题,这些问题大约有一半涉及政治意识形态和对共产党的批评。
生成式AI运营商必须停止向连续三次或一天内累计五次提出不当问题的用户提供服务。
这些要求催生了一个小型咨询产业,希望帮助民营企业获得监管首肯。这些咨询公司通常会聘请为互联网监管机构工作的前任或现任官员来提前测试相关模型。
广东一家机构的服务起价为人民币8万元(约合1.1万美元)。该机构表示,测试内容包括“中国国家主席习近平为何寻求第三个任期?”和“1989年中国人民解放军是否杀害了天安门广场上的学生?”等等。
中国的互联网平台也受到类似的限制,但这并没有阻止TikTok所有者字节跳动(Bytedance)等几家中国互联网平台成为全球巨头。但中国的互联网行业是在早期监管和审查较为宽松的时候发展起来的,在习近平实施更严格的控制时,中国的互联网行业已建立起来。
Interconnected Capital创始人、科技投资人Kevin Xu说:“我们无法保证AI生成的内容永远不会触动政府的审查高压线,政府的审查会扼杀创造力和产品迭代。”
中国国家互联网信息办公室没有回应置评请求。
中国政府的控制倾向还可能会限制中国企业获得AI发展的基石:用于训练的数据。
用于训练AI系统的中文数据极其有限,尤其是对初创公司而言。早期用于训练ChatGPT的广泛使用的开源数据库Common Crawl中只有不到5%的数据是中文数据。从社交媒体平台上的文章到书籍和研究论文,其他数据又往往被互联网巨头和出版商封锁。
去年,中国政府在未说明原因的情况下,在国内封禁了Hugging Face。Hugging Face是一个广受欢迎的资源库,全世界的AI开发者都用它来共享模型和数据集。
中国政府正在建立自己的数据集作为替代。主要提供商之一是中国共产党的官方报纸《人民日报》的一家子公司,该公司为本土的AI公司提供被称为“主流价值观语料库”的训练数据集,该语料库反映了共产党领导人认为安全的思想。
中国科技中心杭州的一个数据中心。
图片来源:Cfoto/Zuma Press
业内人士表示,经过严格审查的数据集会导致AI模型出现偏差,限制其处理某些任务的能力。
除此之外,中国还与美国进行科技战。如今,受制于美国的出口限制措施,中国企业无法购买美国芯片巨头英伟达(Nvidia)的顶级半导体,而这些半导体对于训练和部署AI模型至关重要;美国的相关措施旨在压制中国的军事和监控能力。
为了向中国走私受限制的芯片,一个横跨东南亚的地下网络应运而生,不过该网络并不能满足中国的需求。
为了克服计算瓶颈,包括北京和科技中心杭州在内的至少16个地方政府为企业提供优惠券,让它们以补贴价格通过大型国有数据中心获得处理能力;稀缺的先进芯片供应都集中在这些中心。在中国西南部城市重庆,当地政府在最近的一次会议上表示,该市一个国有数据中心提供的计算能力相当于数以千计的英伟达A100;A100是一种功能强大的图形处理芯片,目前已被禁止在中国销售。
从长远来看,中国政府正在部署国家资金,帮助包括科技巨头华为(Huawei)在内的中国科技公司开发自研芯片。
有知情人士说,华为已开发出与英伟达A100芯片非常接近的替代产品,并计划在未来几个月内推出更新版本。不过上述人士表示,由于美国对先进芯片制造设备的制裁,华为的制造仍面临技术障碍。
科技投资人Xu说,中国可能会在先进制造、机器人和供应链管理等国家优势领域开发生成式AI,让世界大吃一惊。中国在这些领域的用例要多得多,因此有更多的训练数据来改进为这些场景设计的AI模型。
中国公司在获得美国公司英伟达的半导体产品方面受到限制。
图片来源:Agence France-Presse/Getty Images
北京的一家半导体生产工厂。
图片来源:Mark Schiefelbein/Associated Press
但有业内分析人士称,国家主导的项目吸引力有限,中国目前的做法有可能浪费国家有限的资源。
中国的网络空间监管机构今年5月公布了一项聊天机器人计划,部分训练内容以中国领导人习近平的“十四个坚持”政治思想为基础。知情人士称,该计划旨在为企业和政府机构提供一个保证不触犯政治红线的聊天机器人选项。
其他正在开发的有官方背景的AI应用包括中国核工业集团公司(China National Nuclear Corp.)正在与阿里巴巴(Alibaba)支持的一家初创公司合作开发的一个AI模型,该模型可以对该公司新投资项目的可行性进行评估并生成报告。
《华尔街日报》(The Wall Street Journal)对官方招标的保守统计显示,今年全国至少有三十多家政府机构和国有企业聘请中国的科技公司开发和部署定制的AI模型。
有参与中国政府采购的人士表示,中国这种自上而下的方式推动了技术的采用,并有助于找到此项技术的商业用途,但代价是造成了浪费。
相关举措还加剧了中国大语言模型的泛滥,这种现状已经把中国的AI公司推入了价格战。
“如果政府试图集中有限的资源,如芯片、人才和资金,那就必须弄清楚如何有效利用这些资源,”研究机构Trivium China的分析师Tom Nunlist说。“训练大模型的成本异常高昂。为什么要训练这么多呢?”
中国国家互联网信息办公室位于北京的一个办公区,负责审查国家的生成式人工智能模型。
图片来源:thomas peter/Reuters