当前位置:首页 > 最新资讯 > 新闻动态

十年磨一剑:数据—算法—算力

时间:2024-07-31

  引言

  2020年,通过GPT(Generative Pretrained Transformer)一统江湖的openAI团队提出了生成式自回归模型中的幂率(《Scaling laws for autoregressive generative modeling》),他们在文中深度剖析了数据规模、算力规模、参数规模对模型性能提升过程中存在的线性对数依赖关系。如今,数据、算力、算法,已然成为当代人工智能技术发展的三大核心支柱。数据作为信息的基础,提供了算法训练所需的丰富素材;算法作为处理工具,通过深度复杂的数据处理方法,从数据中提取有用信息;算力则是整个过程的支持保障,为算法的高效运行提供必要的计算资源。这三者相互依存,共同推动了当下人工智能技术的不断进步。本文将从人工智能技术发展历程回顾的角度,对这三者的共生发展关系进行总结。

  你追我赶的历史发展进程∞

  1、从仰望星空到电子计算

  浩瀚星空,自古以来都是人类仰望和探索的目标。

  【数据】众所周知,近代科学起源于经典物理学,而经典物理学的前身便是天文学。在人类对客观世界认知进步的发展历程中,始终伴随着各种信息的记录和分析过程。例如早在上古农耕时期,人们就通过观测天文现象确定一年中二十四节气的变换作为生产劳作时的时间标识。这类信息记录的初衷是为了是让人可以更好地理解和掌握自然现象以提高生产效率,当其从具体的描述形式转向抽象的数字形式而成为人们记录分析信息的依据时,这便形成了数据。

  【算法】在数据积累的过程中逐渐催生出了各种学科理论,这便是算法的雏形,开普勒通过分析其老师第谷二十余年详细的星体观测数据提出了著名的行星运动定律,法国天文学教师奥本·勒维耶通过推演计算在理论上先发现了海王星的存在,而后被实验观测到。大量数据的记录亟需更具深度化和标准化的处理手段,这种对数据标准化处理需求催生了算法的发展。这促进了数学作为一门工具学科更为广泛的应用,从莱布尼茨的微积分到高斯的统计方法,这些方法也逐步扩展到化学、生物学、经济学等领域,形成了一套数据处理完备的算法体系。

  【算力】学科研究的深度发展使得其对数据处理的复杂性要求不断增加,传统的手工和半机械的计算方式已无法满足需求。20世纪中叶,电子计算机的出现代表了算力发展的一个重要里程碑。从第一台电子计算机ENIAC被研制用于计算复杂的炮弹弹道,到利用计算机穷举解决四色问题等复杂的数学难题,标志着以电子计算为代表的新一代算力不仅极大地提高了数据处理效率,同时也可以用于对过往的算法验证和更深层次的数据规律挖掘。

  2、从数据管理到深度学习

  “数据—算法—算力”,三者如命运的齿轮一般,一旦起转就不再停歇,并且越转越快。

  【数据】电子计算机对数据的存储和处理优势促使人们加快了对数据的收集速度,这期间,大规模的多模态、跨领域数据带来了新的数据管理问题。数据库技术应运而生,数据库通过将数据存储在表格中,使得数据查询和分析变得更加高效和系统化,侧面提升了计算机的数据处理能力。特别是关系型数据库管理系统(RDBMS),被广泛应用于数据管理的各个方面。结构化数据管理方式为数据驱动的决策提供了坚实的基础,可支持复杂的跨学科数据分析应用,使得计算机存储数据无论从数量还是质量上都有了巨大进步。

  【算法】随着数据量的飞速增长和数据类型的多样化,各学科理论的发展呈现出“多点开花”的特点。然而,在众多的学科垂直细分和交叉领域,传统的数理统计理论因无法挖掘数据间更深层次的非结构化特征关联而显现出局限性。维克托·迈尔等人在《大数据时代》一书中总结了大数据的4个重要特征:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(value)。在此背景下,以机器学习为首的多种人工智能算法迅速崛起,如支持向量机、神经网络、随机森林等。这些人工智能算法能够在无先验知识的条件下从大量数据中找到更多的特征关联。

  【算力】深度学习—机器学习发展的一个重要里程碑,通过多层神经网络的处理,可以更为有效的挖掘大规模数据中多种特征关联信息。与此同时由于深度学习算法中的梯度反馈传播机制涉及到了大量并行运算操作,导致其对计算资源的消耗也大大增加。这种并行计算需求是之前计算机中以中央处理器(CPU)为数据处理单元的训练架构难以有效支撑的。为此在2006年英国学者杰弗里·辛顿通过实验指出基于图形处理器(GPU)的训练架构更适合深度学习的需求。由此打开了GPU计算芯片在支撑人工智能算法的大门。同年,英伟达更是推出了CUDA——通用并行计算架构,此后,GeForce™(精视™)、ION™(翼扬™)、Quadro以及Tesla等多款产品也相继问世。2015年,伴随着搭载TEGRA X1的NVIDIA DRIVE问世,英伟达开始正式投身于深度学习领域。

  3、从数据标注到通用人工智能

  【数据】随着GPU的并行处理能力开始被广泛用于深度学习计算中,例如以卷积神经网络(CNN)为核心的深度学习算法在图像检测识别等下游任务的成功应用,体现了深度学习算法在处理复杂数据模式的强大数据挖掘能力。在面向下游任务应用时(多为预测类任务),通过深度学习挖掘到的高层数据特征往往需要标签数据做引导,这就使得深度学习算法对标注数据的需求急剧增加。这是为机器学习算法提供明确指导的关键,因此,各行各业开始大量转换原始数据为适用于深度学习的标注数据,令模型在学习效率和精确度获得了提升的同时,也催生了一个全新的行业——数据标注。数据标注行业的应运而生,加速了深度学习算法在科研、金融、交通等行业中的广泛应用,这也意味着人们对于数据的收集过程从过往的数据记录模式正式过渡为数据生产模式。

  【算法】尽管标注市场上出现了诸多如自动化、众包等业务管理模式使得数据生产能力得到了充分释放,但此时人工智能研究领域的学者们却注意到:一味的增加网络深度会产生数据过拟合、信息损失等问题,这就使得特定的算法模型只能被用于特定的任务中,加之数据标注本身是一个资源密集且耗时的人工劳动过程,这就严重限制了深度学习算法的域泛化能力,解决这些问题成为深度学习算法发展的下一个目标。2017年后,基于自注意力机制的transformer算法架构横空出世,深度学习算法迎来了全新的升级——生成式预训练模型,transformer在以往循环神经网络的基础上,融合了卷积神经网络关注全局数据的思想,能够处理大规模未标注数据,支持自监督学习,使得深度学习中数据的特征表示近乎可以实现“无脑堆叠”网络层数,从而在自然语言处理等领域实现了突破性的进展,预训练大模型如BERT和GPT由此诞生,它们通过在广泛的下游任务中进行监督微调的方式,一时间让transformer在机器学习各大公开竞赛榜单中成为了“屠榜”的存在。自此也深度学习领域内逐渐形成了预训练+微调的大语言模型【注】训练范式共识,这标志着生成式人工智能AIGC(Artificial Intelligence Generated Content)时代的到来。

  【算力】2022年,随着ChatGPT火出圈,通用人工智能(General Artificial Intelligence,AGI)的概念被提出,这一年被定为通用人工智能元年。一时间,智能体、多模态、具身智能等多个基于大模型的理念设想也相继产生。生成式预训练模型解决了算法处理未标注数据的问题,但由此带来庞大的深度学习模型体量也产生了新的问题:算力资源匹配。无论在训练阶段还是推理阶段,基于Transformer架构的深度学习模型都需要极高的计算资源。为了满足这一需求,出现了新一代人工智能专用计算硬件,如NVIDIA的A100和H100显卡。据悉,OpenAI团队更是计划筹资数十亿美元建晶圆厂生产自研人工智能芯片。这些AI专用显卡提供了前所未有的并行处理能力,极大地加速了深度学习模型的训练和部署,加速推进了实时和大规模AI的应用。

  下一步该走向何方?

  新年伊始,OpenAI放出开年大礼包——Sora,打开了AGI迈向物理世界认知的大门,作为第一款声称模拟真实的“世界模型”,人们在感叹它惊艳的视频生成能力同时,也发现这些视频中存在很多物理上的逻辑错误,如人在跑步机上倒着跑,以及“聚沙成椅”等“奇闻轶事”。事实上不止Sora,诸如此类的问题还有很多,在此前很多视频生成类大模型也存在类似错误。

  其实,在客观真实的世界中,除了局部的数据关联外,我们还需要受到物理规则的约束,且由于人类是社群动物,我们在生产生活中还会受到社会规则的约束。在虚拟世界中,我们可以让一只蚂蚁轻易的举起大象,但这显然是“不现实的”。这是否有点儿像电影“黑客帝国”?而反观深度神经网络,作为一种数据驱动的机器学习算法,其本身更擅长的是挖掘深层次的数据关联,但它却无法挖掘到那些受客观世界规律影响的“逻辑关联”。

  那么为什么模型仍然可以根据输入文本来生成看似合理的图像或者视频呢?这是一个很难回答的问题,也许下一代人工智能走向何方的答案就藏在其中。笔者在此试作推断,以期抛砖引玉:这大抵是由于目前以transformer为算法架构的多模态大模型是以语言处理作为对齐基准的,哲学家说:语言是逻辑的载体,所以我们似乎应该庆幸,人类语言先天就带有对客观事物进行抽象性总结特点,此处我们可以将其称为知识。以现有自动驾驶算法为例,在一段开放道路上,驾驶员需要“明白”车辆开上新修的水泥路面会陷入其中,“判断”在空中随风漂浮的塑料袋是否会对车辆造成危险,“理解”前方行人伸手是在示意停车让行等。传统基于感知—决策—控制的自动驾驶解决方案正是缺少了这种自然语言的开放性,才会产生如“幽灵”般的长尾场景。因此选择将语言数据作为预训练模型的对齐基准,就令训练数据包含了一定知识特点,这如果是巧合的话,那人类在这里“没走弯路”就显得太幸运了。

  下表1总结了上述人工智能你追我赶的历史发展进程,回顾一下“仰望星空”的那个年代,人们“手动”记录数据,在“脑中”处理数据,接着便推动了各种学科的诞生和发展。那么大模型呢?也许也是一样的,人工智能领域中有一个著名的“No free launch”说法,它表明做任何改进都会有代价。在算法、算力水平发展到了如今这样的规模,我们就需要更多,更有价值的“知识”作为数据,用于引导模型产生对客观世界真正的理解。然而,这些现有和人类意图对齐的高质量数据具有高度的稀缺性,有研究表明,按照现在数据的消耗情况看,人类现存高质量数据消耗殆尽的时间预计在2027年左右,由此我们可以预知,在AGI引发的新一轮人工智能发展趋势中,未来数据作为支柱行业的发展方向,应是围绕“知识驱动”的高质量数据生产工程,这有别于过往的数据标注,本质上是一种“知识型标注”。

表1 “数据—算法—算力”三支柱你追我赶的历史发展进程

  清华大学苏州汽车研究院,依托清华大学车辆与运载学院长期的学术深耕成果,一直以来专注于汽车领域的AI应用研究,有着丰富的行业数据生产经验与数据处理能力。经过多年来的不断探索,逐步形成了驾驶场景数据融合与自适应标注策略的新范式,开发Neptune数据闭环支撑自动驾驶场景测试,围绕大模型算法架构深度布局数据标注业务领域,致力于融合打造集数据生成、数据应用、数据管理于一体的完整自动驾驶AI数据工具生态体系。

  清华大学苏州汽车研究院AI数据工具生态体系

  结语

  事实上,大模型本身并不属于基础理论层面的奠基性贡献,而是人工智能领域内的一种统合性贡献,它是数据—算法—算力三要素循环往复发展过程的产物,此三者彼此共生合为有机整体,共同推动了人工智能领域的进步。整个过程就像十年磨剑一般,数据,如同铸剑中的原材料,它的质量直接影响到模型的基础性能;算法,则更像是锻造技艺,它决定了如何处理数据,以抽取信息、发现规律,最终形成有用的知识;而算力相当于火力,为模型训练提供必要的能量,确保数据在模型中能够被高效处理。只有当这三者达到完美的平衡与协调时,我们才能铸就一把锐不可挡的“人工智能之剑”。