AI大模型“狂”潮还将持续多久?访北京邮电大学教授曾剑秋
【资料图】
科技创新总是在发现问题、解决问题中前行,每一项颠覆性创新成果从来都不是水到渠成的自然发展,而是由量的积累带来质的提升。对于人工智能大模型而言,参数规模的倍增带来了智能涌现。当下,大模型密集发布,各大厂商纷纷加码人工智能,这样的大模型“狂”潮还会持续多久,发展方向是什么?针对业界关注的热点问题,《人民邮电》报记者采访了北京邮电大学教授曾剑秋。
AI大模型兼具“大规模”和“预训练”两种属性,在海量数据上进行训练后能够完成一系列下游任务。曾剑秋认为,大模型带来的颠覆性创新可以总结为:规模大、速度快、场景全。首先,参数规模上,从GPT-1的亿参数到GPT-3的1750亿参数,大模型的参数规模动辄上千亿,能够从海量数据和知识中学习,在不同领域和场景中“轻松”完成任务。其次,得益于信息基础设施稳步推进带来的算力提升,大模型能够在短时间内响应用户并提供归纳整理后的内容,已然从聊天机器人转变为数字助手。最后,在应用广度方面,大模型似乎是“全才”,写诗、编程、绘画、解题样样全能,具有广阔的应用场景。
曾剑秋认为,大模型是建立在网络能力、数据能力和计算能力三者之上的创新应用。大模型需要在多个设备之间进行数据传输和参数同步,而坚实的网络基础为大模型提供了高效、稳定、可扩展的训练和部署环境。数据要素作为数字经济的核心生产要素,已成为推动产业升级、优化经济结构和打造经济增长点的战略性资源。数据能力对于大模型的训练和应用至关重要,因为大模型需要从海量数据中学习和捕获知识以提升泛化能力。在计算能力方面,大模型需要海量的计算资源来执行复杂运算和存储巨量参数,需要使用高性能、低功耗、高度并行的计算设备和系统(如GPU),可以说,算力是大模型训练、人工智能发展的基础设施。曾剑秋谈到,这三种能力是大模型发展、人工智能产业进步、信息技术创新应用的“沃土”。
入局大模型的门槛主要包括基础门槛、训练门槛和应用门槛。曾剑秋谈到,基础门槛包括网络能力和数据处理能力,需要具备大模型训练计算所需的高性能服务器、GPU设备、高速网络等。训练门槛是指大模型的“成长”迭代需要不断训练,需要提供符合一定标准的高质量训练数据,因而需要花费时间和计算资源来对数据进行清洗和预处理,从而保障数据的质量和准确性。应用门槛是指大模型的落地需要与垂直行业需求深度融合,同时,对于企业来说需要权衡收益与研发成本。
基于公有数据的大模型是通用底座,很难满足专业场景的特定需求。曾剑秋谈到,如何打通大模型技术和产业应用的“最后一公里”,找到计算资源和产业应用效果之间的平衡,是需要关注的重点课题。
大模型“热”需要“冷”思考,要超前布局也要理性发展。曾剑秋表示,盲目跟风研发大模型不可取,当热潮退去,留下的注定是推动人工智能技术革新、深耕垂直行业应用的数智实干家。同时,曾剑秋建议建立国家级的基础大模型平台,加强智算中心、超算中心等算力资源统筹,加强跨数据中心算力协同能力,从战略高度着手,培育大模型发展基础,构筑人工智能发展优势。