2024年年底以来,围绕大模型有非常多讨论,其中一个声音是,技术上Scalling law(尺度定律)面临“撞墙”2023实盘配资公司,大模型迭代放缓。另一方面,大模型在落地应用上也有诸多掣肘。这些话题也是刚刚过去的GDC(全球开发者先锋大会)讨论的一个焦点。
“行业非常关注产业落地,但和很多企业聊的时候,大家经常说的是,大模型适合做演示,在真正落地的时候存在着成本、效率、可靠性、稳定性和安全性等很多挑战。”上海人工智能实验室主任助理、领军科学家乔宇在大会上表示。
乔宇认为,这些讨论预示着,大模型虽然目前已经取得一定成果,但还有很多“乌云”。他判断,从2025年开始,大模型进入下一个阶段时,破解这些瓶颈的关键是创新和应用,在这方面DeepSeek带来了一些启发。
DeepSeek做的是体系化的创新,乔宇提到,“DeepSeek不仅技术系统做得好,而且将模型的架构、训练的方式和训练的框架高速并行,做体系化的优化,带来了非常大的效率提升与成本降低,语言大模型V3的训练,(成本)相当于Llama3的1/10。”
在这一基础上,乔宇补充表示,在大模型产业链上,DeepSeek所做的也只是中间模型和系统,“如果我们能将芯片、互联、框架、数据、模型、评测、应用做更好的体系创新,这里面会有更大的空间,一方面将模型做得更强,一方面也可以将效率做得更高”。
在接受采访时,上海人工智能实验室青年科学家何聪辉认为,DeepSeek所做的事情一定程度上打开了大模型当前的一些瓶颈。“它让整个训练成本降下来了,会让更多的研究者能参与进来,另一方面,将强化学习直接引入到后训练的这个阶段,也会促进很多科学方面的探索,且它本身很强的推理模型,也可以作为一个研究科学发现很好的起点。”
此前,数据语料的缺乏,被认为是Scalling law“撞墙”、迭代放缓的核心原因。“互联网上的人类语料是基本原料,已经耗尽了,虽然模型变大了,但是输入没有变得更多,无法学习新知识。”一位从业者对记者表示。
何聪辉长期研究大模型的数据语料方面,他对记者表示,“现在说的数据用完了,更多是说已知的一些公开数据模型都见过了,但其实并没有充分利用起来,质量还有持续提升的空间,还没有到头。”
何聪辉表示,质量的提升能够让数据的效率更高,模型可能不需要那么多数据,这样会带来进一步的计算成本降低,并进一步带动越来越多人进来优化它。
在另一场论坛上,MiniMax副总裁刘华也在演讲时提及大模型“撞墙”这一话题,他更多认为,现在的大模型处于快速的发展阶段,原因在于,2024年底Open AI推出了o1,这意味着在推理阶段大模型还在“scaling Law”,随着DeepSeek 1月的开源,大家又更熟悉了什么是强化学习。
“这一切的一切都没有结束,未来两到三年,类似GPT3.5到GPT4这样的技术再发生两次是高度可预期的。”刘华的判断是,未来两到三年大模型会飞快地发展,技术上限远没有看到。
对于未来,业界目前相对较为乐观。乔宇认为,2025年有三方面值得关注的事情,包括更多的多模态智能涌现,以及AI助力科学发现等。
在过去一两年中,多模态在语言上取得突破之后,对图像、视频、音频等的多模态引入,行业期待非常高,但现在很多的模态只是在对齐理解有进展,真正像语言一样的涌现能力,将生成理解相结合,能够从多模态中间发现知识的能力还非常有限。乔宇认为,2025年这方面或许会有值得期待的进展。
其次,在“AI4S”相关的科学智能方面,是未来人工智能的高价值区域,人工智能不应该简简单单陪我们聊聊天、画画,更多的是帮人类进行知识发现。
“我们有了AlphaFold这样单点的巨大成功,但是人工智能的潜力绝对不在于专项智能,而是如何能够实现从科学假设的提出,到实验的设计,甚至包括实验的自动化完成,以及科学知识发现的全流程。”乔宇提到,期待的是,2025年AI会不会在某一个重要的科学问题突破上体现作用。
举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。 文章作者
刘晓洁
相关阅读
“the whale is making waves!(鲸鱼正在掀起波浪!)”有网友在DeepSeek的帖子下留言称。
497 10小时前
“中国已经从原来的获益者变成一个今天在开源社区的贡献者。”
185 02-22 18:16
有道预计,2025及2026年,将是教育和广告领域大规模开发和应用大模型的关键时期。
196 02-20 22:24
集成DeepSeek大模型,AI眼镜为更多专业领域带来了新的可能性,但实际体验仍有落地后的进一步优化。
276 02-20 18:02
DeepSeek的出现标志着全球AI发展进入了一个以创新和算法为核心的新阶段2023实盘配资公司,彻底改变了以往以资本和算力为主导的模式。
51 02-19 15:51 一财最热 点击关闭