事实证明,人们对于AI能力的认知还有许多误区和歧义,因此需要消除这些误解。
像ChatGPT和GPT-4这样的大型语言模型(LLM)得到全球关注,人们也在充分发挥他们的想象力,这样功能强大的AI系统展现出了迷人的魅力,但许多研究人员指出,很多人对大型语言模型的了解只是冰山一角。
斯坦福大学研究人员日前进行的一项研究表明,大型语言模型(LLM)的一些能力可能被人们误解了。研究人员研究了先前报道的大型语言模型(LLM)在训练和开发过程中出现的“涌现能力”。他们在研究中发现,当选择正确的指标来评估大型语言模型(LLM)时,大型语言模型(LLM)的涌现能力就会消失。
(资料图片)
这项研究的结果很重要,因为它揭开了大型语言模型(LLM)具有的一些神奇能力的神秘面纱,并且还对“规模是创造更好的大型语言模型唯一途径”这一观点提出了质疑。
大型语言模型(LLM)的涌现能力
一些研究已经检验了大型语言模型(LLM)显示出的涌现能力。一项研究将涌现能力定义为“在较小的模型中不存在,但在较大的模型中存在的能力”。基本上,这意味着机器学习模型在某些任务上具有随机性能,直到其大小达到一定的阈值。在达到阈值之后,随着其规模的增长,大型语言模型(LLM)的能力将开始提升。可以在图1中看到LLM表现出的涌现能力,其性能在一定范围内突然跃升。
大型语言模型(LLM)显示出大规模的涌现能力,在模型大小达到一定阈值之前,其完成任务的性能保持在随机水平。之后,随着模型规模的变大,其性能将会跃升并开始提高。
研究人员对LaMDA、GPT-3、Gopher、Chinchilla和PaLM等具有1000多亿个参数的大型语言模型(LLM)的涌现能力进行了研究。这些研究包括从BIG-Bench中选择的任务,BIG-Bench是一个众包基准,包括语言学、常识推理和数学等许多领域。他们还使用了TruthfulQA、大规模多任务语言理解(MMLU)和场景中的单词(WiC)进行了测试,这些测试都是为了了解大型语言模型(LLM)在处理复杂语言任务方面的局限性。
有几个原因使大型语言模型(LLM)的涌现能力变得非常重要。首先,这些研究表明,在开展进一步创新的情况下扩展大型语言模型(LLM)规模可以继续在更通用的AI能力方面取得进展。其次,随着大型语言模型(LLM)的发展,人们无法预测它们会带来什么。当然,这些研究结果将会进一步强化大型语言模型(LLM)的神秘光环。
为什么大型语言模型(LLM)的涌现能力会被炒作
斯坦福大学的这项新研究对大型语言模型(LLM)所谓的涌现能力提出了不同的看法。根据他们的研究,对大型语言模型(LLM)的涌现能力的观察通常是由于指标的选择引起的,而不是规模。斯坦福大学的研究人员认为,“现在关于涌现能力的说法是研究人员分析的结果,而不是特定任务中模型行为随着规模的增加而发生变化。”他们指出,强有力的支持证据表明,涌现能力可能不是扩展AI模型的基本属性。
具体来说,他们认为涌现能力似乎只出现在非线性或不连续地缩放任何模型的每个令牌错误率的指标下。这意味着在衡量任务性能时,一些指标可能显示出大规模的涌现能力,而另一些则显示出持续的改进。
例如,有些测试只测量大型语言模型(LLM)输出正确令牌的数量。这种情况尤其发生在与分类和数学相关的任务中,只有当所有生成的令牌都是正确的时候,其输出才是正确的。
实际上,LLM模型输出的令牌逐渐接近正确的令牌。但由于最终答案与基本事实不同,它们都被归类为不正确,直到它们达到所有标记都是正确的阈值。
研究人员表示,在他们的研究中,如果对相同的输出使用不同的指标,涌现能力就会消失,LLM模型的性能也会平衡提高。这些指标衡量的是到达正确答案的线性距离,而不仅仅是计算正确答案。
当用非线性指标进行评估时,LLM出现涌现能力;当用线性指标进行评估时,性能会平稳提高
研究人员还发现,在某些情况下,出现涌现能力是由于没有足够的测试数据。通过创建更大的测试数据集,其性能改进就会变得稳步提高。
为了进一步证明这一点,研究人员试图了解是否能在其他类型的深度神经网络中重现涌现能力的情况。他们对视觉任务和卷积神经网络(CNN)进行了测试。测试结果表明,如果他们使用非线性指标来评估LLM模型的性能,那么就会观察到在大型语言模型(LLM)中会出现相同的情况。
为什么这个结论至关重要?
研究人员在发表的论文总结出一个重要的结论:“对于一个固定的任务和一个固定的模型家族,研究人员可以选择一个指标来创建涌现能力,也可以选择一个指标来消除涌现能力。因此,涌现能力可能是研究人员选择的产物,而不是模型家族在特定任务上的基本属性。”
研究人员表示,并不是说大型语言模型(LLM)不能显示出涌现能力,但他们强调,之前声称的LLM中的涌现能力可能是研究人员在分析时引发的幻象。
这一研究的一个重要收获是对于认识大型语言模型(LLM)性能提供了一个更关键的视角。鉴于LLM的惊人能力和成果,如今已经有了一种将它们拟人化的趋势,或将它们与其不具备的特性联系起来。
这项研究得出的结论很重要,因为它们将有助于为大型语言模型(LLM)领域带来更清醒的认识,并更好地理解扩大LLM模型规模的影响。SamBowman最近发布的一篇论文指出:“当实验室投资训练一个新的大型语言模型(LLM)并逐步扩大规模时,他们有理由相信将会获得具有经济价值的各种新能力,但他们几乎无法对这些能力做出自信的预测,或者他们需要做些什么准备才能负责任地部署这些能力。”而有了更好的技术来衡量和预测改进,研究人员将能够更好地评估更大的LLM模型的效益和风险。
这种方法也有助于鼓励研究人员探索创建更大的大型语言模型(LLM)的替代方案。虽然只有大型科技公司才能负担得起训练和测试大型LLM的成本,但规模较小的公司也可以对较小的模型进行研究。有了这些指标,他们将能够更好地探索这些较小的LLM的功能,并找到新的研究方向来改进它们。
关键词:
(责任编辑:黄俊飞)推荐内容
- 像ChatGPT和GPT-4这样的大型语言模型在应
- 美经济学家:美国沉迷战争导致债务危机
- 研报掘金丨天风证券:泽布替尼海外放量符
- 百万医疗坑为什么?购买百万医疗如何避免
- 天天速看:忻州一日游_忻州一日游哪里好玩
- 2023年5月24日山东省正癸醇价格最新行情预测
- 汉光兵推美方观摩人数创纪录 萧天流析原
- 全球短讯!中国属于哪个半球 美国属于哪
- 当前快看:大比分1-3!绿军116-99热火
- 每日看点!5月24日连豆早盘上涨
- 【速看料】甘肃省文化馆服务宣传周暨全省
- 研报速递|坚定持续看好建筑“中特估”年
- 每日头条!三星Galaxy S23 Ultra:新一
- 全球热点评!全民竞速飞车官网在哪下载
- 环球信息:智慧课堂让学习更有趣(网上中
- 增速转正难掩日本经济前景低迷
- 月亮有哪些别称和由来_月亮有哪些别称
- 世界热讯:中国加入亚太经合组织_亚太经合
- 光峰科技营收承压净利润腰斩:多指标欠佳
- 世界观速讯丨向华强玩过哪些女明星(向华
- 注意!好想你将于6月9日召开股东大会
- 全球快资讯:内蒙古杭锦旗总工会等单位举
- 海口“四廉”并举推进清廉国企建设
- 行测得分分配_行测分数分配 当前时讯
- 2023年宁波镇海区四价新冠疫苗接种点+地
- TikTok起诉美国蒙大拿州禁令违法 停止无
- 世界通讯!单车少年深夜“狂飙”,给蓝朋
- 环球聚焦:NBA校园篮球联赛江苏站落幕
- 毕竟只是一个底薪球员,湖人后场大将的表
- 全球动态:世乒赛:倪夏莲无缘女单32强
- 华尔街严阵以待 为美国债务违约风险做准备
- 焦点速递!独角兽早报 | 叮咚买菜回应
- 北京密云力推“四带” 做好休闲文化游_
- 贵州从江县检察院“369检察工作室”成立
- 期货公司观点汇总一张图:5月23日黑色系
- 2023年5月23日|高标准高质量开展好主题教育
- 海融科技:5月22日融资买入152.26万元,
- 焦点滚动:2023最新社保补助?假的!别点
- 粤 传 媒:5月22日融资买入628.56万元
- *ST左江涨超4%,股价267元刷新历史新高
- 质量五大工具七大手法(七大手法五大工具
- 2023春季江苏连云港市赣榆区事业单位赴高
- 深圳地铁图2020-2028年 深圳地铁图2020|
- 友联国际教育租赁(01563.HK)拟配发1.09亿
- 焦点要闻:第三届嘉昆太乒乓球联盟俱乐部
- 天天热推荐:键盘有些键失灵了 键盘有些
- 每日快报!四川金阳索玛花节盛大开幕
- 施罗德:持续看好中国股市
- 世界热文:蔡嵩松单独在管产品仅剩一只
- 德媒:相比自己基米希更担心拜仁的未来
- 官方指导价8.69万元起 2023款捷达VS5/VS
- 当日快讯:上海松江区建筑建材业管理中心
- 即时:湛江男子当街捅杀女子案一审宣判:
- 西安高新区推介高新CID等板块30宗地 60
- 佐力药业:股东人数将在定期报告中予以披
- 《这个地下城有点怪》最佳氪金成长路线
- 成功复产!马钢3号高炉完成整修顺利开炉
- 阿根廷国家男子足球队6月来京进行友谊赛
- 1:0小胜主场大连人 河南队艰难拿到联赛首胜
- 有「颜」有音乐,「莓」好Hi自在 中信银
- 注意!好想你将于6月9日召开股东大会
- 全球快资讯:内蒙古杭锦旗总工会等单位举
- 海口“四廉”并举推进清廉国企建设
- 行测得分分配_行测分数分配 当前时讯
- 2023年宁波镇海区四价新冠疫苗接种点+地
- TikTok起诉美国蒙大拿州禁令违法 停止无
- 世界通讯!单车少年深夜“狂飙”,给蓝朋
- 环球聚焦:NBA校园篮球联赛江苏站落幕
- 毕竟只是一个底薪球员,湖人后场大将的表
- 全球动态:世乒赛:倪夏莲无缘女单32强
- 华尔街严阵以待 为美国债务违约风险做准备
- 焦点速递!独角兽早报 | 叮咚买菜回应
- 北京密云力推“四带” 做好休闲文化游_
- 贵州从江县检察院“369检察工作室”成立
- 期货公司观点汇总一张图:5月23日黑色系
- 2023年5月23日|高标准高质量开展好主题教育
- 海融科技:5月22日融资买入152.26万元,
- 焦点滚动:2023最新社保补助?假的!别点
- 粤 传 媒:5月22日融资买入628.56万元
- *ST左江涨超4%,股价267元刷新历史新高
- 质量五大工具七大手法(七大手法五大工具
- 2023春季江苏连云港市赣榆区事业单位赴高
- 深圳地铁图2020-2028年 深圳地铁图2020|
- 友联国际教育租赁(01563.HK)拟配发1.09亿
- 焦点要闻:第三届嘉昆太乒乓球联盟俱乐部
- 天天热推荐:键盘有些键失灵了 键盘有些
- 每日快报!四川金阳索玛花节盛大开幕
- 施罗德:持续看好中国股市
- 世界热文:蔡嵩松单独在管产品仅剩一只
- 德媒:相比自己基米希更担心拜仁的未来
- 官方指导价8.69万元起 2023款捷达VS5/VS
- 当日快讯:上海松江区建筑建材业管理中心
- 即时:湛江男子当街捅杀女子案一审宣判:
- 西安高新区推介高新CID等板块30宗地 60
- 佐力药业:股东人数将在定期报告中予以披
- 《这个地下城有点怪》最佳氪金成长路线
- 成功复产!马钢3号高炉完成整修顺利开炉
- 阿根廷国家男子足球队6月来京进行友谊赛
- 1:0小胜主场大连人 河南队艰难拿到联赛首胜
- 有「颜」有音乐,「莓」好Hi自在 中信银
- 厦门地铁无障碍出行攻略盲文版发布 已在
- 天天时讯:51岁大叔还在当伞兵:日本自卫
- 南京高科“23南京高科SCP002”5月29日兑
- 环球滚动:《闪电侠》中文预告:反派佐德
- 工商银行龙凤呈祥金条100克价格今天多少
- 全球观察:开封市通许县冯庄乡:“五美”
- 每日播报!国家邮政局:1-4月快递业务量累
- 三大运营商最新数据出炉 5G套餐使用情况
- 宝胜股份的股价 宝胜股票怎么样
- 荣晟环保(603165):5月22日技术指标出
- 澳大利亚警察电击95岁老人,致其摔倒在地
- 目击者:虎鲸在教幼崽撞船! 天天微速讯
- 埃及总统同阿曼苏丹举行会晤|每日观察
- 憧憬下赛季 辽篮剑指“三连冠”
- 亮组词三个字 亮组词-焦点滚动
- 2023年职工大病医疗保险缴费标准_大病医
- ai制作齿轮详细图文教程视频 ai制作齿轮
- 魔兽世界怀旧服多相数据调查任务怎么做(
- 设计总院:中标12个项目,金额合计约9.37
- 蔡斌两大爱将全部出局?中国女排又有新变















