过去2个月,来自UC伯克利的研究人员给大语言模型们安排了一个擂台——Chatbot Arena。
(相关资料图)
GPT-4等大语言模型玩家打起了「排位赛」,通过随机battle,根据Elo得分来排名。
这一过程中,每当一个用户访问并使用网站,就需要同时让两个不同的模型跑起来。
他们是如何做到的?
这不,就在今天,UC伯克利重磅开源了世界最快LLM推理和服务系统vLLM。
简之,vLLM是一个开源的LLM推理和服务引擎。它利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值。
配备全新算法的vLLM,重新定义了LLM服务的最新技术水平:
与HuggingFace Transformers相比,它提供高达24倍的吞吐量,而无需进行任何模型架构更改。
值得一提的是,「小羊驼」Vicuna在demo中用到的就是FastChat和vLLM的一个集成。
正如研究者所称,vLLM最大的优势在于——提供易用、快速、便宜的LLM服务。
这意味着,未来,即使对于像LMSYS这样计算资源有限的小型研究团队也能轻松部署自己的LLM服务。
项目地址:https://github.com/vllm-project/vllm
现在,所有人可以在GitHub仓库中使用一个命令尝试vLLM了。论文随后也会发布。
性能全面碾压SOTA今天,这个由UC伯克利创立的开放研究组织LMSYS介绍道:
「一起来见证vLLM:Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU数量减少了一半,同时每天平均提供3万次请求。」
vLLM的性能具体如何?
UC伯克利团队将vLLM的吞吐量与最受欢迎的LLM库HuggingFace Transformers(HF),以及HuggingFace文本生成推理(TGI),先前的最新技术水平进行了比较。
团队在两个设置中进行评估:在NVIDIA A10G GPU上运行LLaMA-7B模型,在NVIDIA A100 GPU(40GB)上运行LLaMA-13B模型。
然后,研究人员从ShareGPT数据集中抽样请求的输入/输出长度。
在实验中,vLLM的吞吐量比HF高达24倍,并且比TGI高达3.5倍。
在每个请求只需要一个输出完成时的服务吞吐量。vLLM比HF的吞吐量高出14倍-24倍,比TGI的吞吐量高出2.2倍-2.5倍
在每个请求需要3个并行输出完成时的服务吞吐量。vLLM比HF的吞吐量高出8.5倍-15倍,比TGI的吞吐量高出3.3倍-3.5倍
秘密武器:PagedAttention在vLLM中,团队发现LLM服务的性能受到内存的限制。
在自回归解码过程中,LLM的所有输入token都会生成注意力键(key)和值(value)张量,并且这些张量被保留在GPU内存中以生成下一个token。
这些缓存的键和值张量通常被称为KV缓存。KV缓存具有以下特点:
1. 内存占用大:在LLaMA-13B中,单个序列的KV缓存占用高达1.7GB的内存。
2. 动态化:其大小取决于序列长度,而序列长度高度易变,且不可预测。
因此,有效管理KV缓存是一个重大挑战。对此,研究团队发现现有系统由于碎片化和过度保留而浪费了60%至80%的内存。
用团队的导师Joey Gonzalez的一句话来讲:GPU内存碎片化=慢。
为了解决这个问题,团队引入了PagedAttention,一种受到操作系统中虚拟内存和分页经典概念启发的注意力算法。
与传统的注意力算法不同,PagedAttention允许在非连续的内存空间中存储连续的键和值。
具体来说,PagedAttention将每个序列的KV缓存分为若干块,每个块包含固定数量token的键和值。在注意力计算过程中,PagedAttention内核能够高效地识别和提取这些块。
PagedAttention:KV缓存被分割成块,这些块在内存中不需要连续
由于这些块在内存中不需要连续,因此也就可以像操作系统的虚拟内存一样,以更灵活的方式管理键和值——将块看作页,token看作字节,序列看作进程。
序列的连续逻辑块通过块表映射到非连续的物理块。随着生成新的token,物理块会按需进行分配。
使用PagedAttention的请求生成过程示例
PagedAttention将内存浪费控制在了序列的最后一个块中。
在实践中,这带来了接近最优的内存使用——仅有不到4%的浪费。
而这种内存效率的提升,能让系统将更多的序列进行批处理,提高GPU利用率,从而显著提高吞吐量。
此外,PagedAttention还具有另一个关键优势:高效的内存共享。
比如在并行采样中,就能从相同的提示生成多个输出序列。在这种情况下,提示的计算和内存可以在输出序列之间共享。
并行采样的示例
PagedAttention通过块表自然地实现了内存共享。
类似于进程共享物理页的方式,PagedAttention中的不同序列可以通过将它们的逻辑块映射到相同的物理块来共享块。
为了确保安全,PagedAttention会跟踪物理块的引用计数,并实现了写时复制机制。
采样多个输出的请求示例生成过程
PagedAttention的内存共享极大减少了复杂采样算法(如并行采样和束搜索)的内存开销,将它们的内存使用量减少了高达55%。这可以将吞吐量提高多达2.2倍。
总结而言,PagedAttention是vLLM的核心技术,它是LLM推断和服务的引擎,支持各种模型,具有高性能和易于使用的界面。
GitHub上,团队也介绍了vLLM能够无缝支持的HuggingFace模型,包括以下架构:
- GPT-2(gpt2、gpt2-xl等)
- GPTNeoX(EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等)
- LLaMA(lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等)
- OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)
小羊驼和排位赛的「幕后英雄」4月初,UC伯克利学者联手UCSD、CMU等,最先推出了一个开源全新模型——130亿参数的Vicuna,俗称「小羊驼」。
从那时起,Vicuna已在Chatbot Arena为数百万用户提供服务。
最初,LMSYS的FastChat采用基于HF Transformers的服务后端来提供聊天demo。
但随着demo变得越来越受欢迎,峰值流量猛增了好几倍,而HF后端也因此成了一个重大的瓶颈。
为了解决这一挑战,LMSYS与vLLM团队紧密合作,全力开发出了全新的FastChat-vLLM集成——通过将vLLM作为新的后端,来满足不断增长的需求(最多增加5倍的流量)。
根据LMSYS内部微基准测试的结果,vLLM服务后端可以实现比初始HF后端高出30倍的吞吐量。
4月-5月期间,Chatbot Arena的后端已经部落了FastChat-vLLM的集成。实际上,有超过一半的Chatbot Arena请求都使用FastChat-vLLM集成服务的
自4月中旬以来,最受欢迎的语言模型,如Vicuna、Koala和LLaMA,都已成功使用FastChat-vLLM集成提供服务。
FastChat作为多模型聊天服务前端,vLLM作为推理后端,LMSYS能够利用有限数量的GPU(学校赞助的),以高吞吐量和低延迟为数百万用户提供Vicuna服务。
现在,LMSYS正在将vLLM的使用扩展到更多的模型,包括Databricks Dolly、LAION的OpenAsssiant和Stability AI的StableLM等。
vLLM使用教程使用以下命令安装vLLM(另可查看安装指南了解更多信息):
$ pip install vllmvLLM可用于离线推理和在线服务。要使用vLLM进行离线推理,你可以导入vLLM并在Python脚本中使用LLM类:
from vllm import LLMprompts = ["Hello, my name is", "The capital of France is"] # Sample prompts.llm = LLM(model="lmsys/vicuna-7b-v1.3") # Create an LLM.outputs = llm.generate(prompts) # Generate texts from the prompts.要使用vLLM进行在线服务,你可以通过以下方式启动与OpenAI API兼容的服务器:
$ python -m vllm.entrypoints.openai.api_server --model lmsys/vicuna-7b-v1.3你可以使用与OpenAI API相同的格式查询服务器:
$ curl http://localhost:8000/v1/completions \-H "Content-Type: application/json" \-d "{ "model": "lmsys/vicuna-7b-v1.3", "prompt": "San Francisco is a", "max_tokens": 7, "temperature": 0 }"有关使用vLLM的更多方法,请查看快速入门指南:
https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html
团队介绍Zhuohan Li
Zhuohan Li是加州大学伯克利分校计算机科学专业的博士生,研究兴趣是机器学习和分布式系统的交叉领域。
在此之前,他在北京大学获得了计算机科学学士学位,指导老师是王立威和贺笛。
Woosuk Kwon
Woosuk Kwon是加州大学伯克利分校的博士生,研究兴趣是为大语言模型等新兴应用建立实用、灵活和高性能的软件系统。
团队其他成员包括庄思远、盛颖、郑怜悯、Cody Yu。团队导师包括Joey Gonzalez,Ion Stoica和张昊。
其中,团队的大部分成员同时也是LMSYS成员。
关键词:
(责任编辑:黄俊飞)推荐内容
- 比HuggingFace快24倍!伯克利神级LLM推理
- 云南小伙既“修路建桥”也“牵线搭桥”
- 全球快报:新思路计算机题库 新思路计算
- 港股IPO动态:艾迪康控股(9860.HK)和来凯
- 世界动态:江西省南昌市开展“商业秘密保
- 快消息!武汉U9女足三胞胎队员:锻炼身体
- autodesk recap 360可以卸载吗_autodesk recap干嘛的
- 每人每月补贴2500元!深圳市机关事业单位
- 微信状态视频怎么发(微信状态视频怎么发
- 专业“上新”促人才“出新”-全球速看
- 【快播报】跨界共治“一江清水” 长三角
- 张艺兴工作室公开招聘,盘点其商业版图
- 天天新消息丨仙侠神域手游攻略及内部号福
- 今年618:投入最大、割裂最大、动静最小
- 中酒协中期研报:上半年白酒市场遇冷 近
- 高新技术产品、农产品出口增长迅速!前5
- 全球最新:taptap电脑模拟器怎么用 tapt
- 环球今热点:游戏demo(游戏demo是什么意
- 国美电器股票名称
- 观天下!网传上海中考疑似泄题?市教育考
- 天天亮点!产业帮扶“扶上马再送一程”
- 出门问问大客户依赖明显:研发费用率三年
- 书签制作大全简单漂亮_简易捕鼠神器制作
- 2023年注会《经济法》第9章高频考点10:
- 四十三家公司预告半年报业绩 高端制造领
- 天天微资讯!途安2012款_途安2012款1.4t
- 今日热议:流浪乞讨人员夏季集中救助启动
- 网络丢包率很高怎么解决(网络丢包率)
- 今日要闻!万凯新材(301216):6月19日北
- 大连民族大学预科班学姐 大连民族大学预
- 恶魔城暗影之王2图文全攻略(全流程全剧
- 天能电池价格12v100价格表(天能电池价格
- 迈百瑞四千万元建实验室或为关联方作嫁衣
- 幼师拍小朋友谈“房车钱”视频惹争议 主
- 骗子被骗子给骗了!
- 和元生物: 关于首次公开发行部分限售股
- 吉峰科技:第二大股东、副董事长拟合计减
- 京津冀现代商贸物流金融创新发展论坛召开
- 天宜上佳(688033.SH):预计上半年净利润
- ST南卫最新公告:公司不存在应披未披信息
- 群星不同隐形场有什么区别
- 沧州二中学校招生条件_沧州二中
- 国家发改委:端午假期临近 猪价或震荡微
- 环球播报:以军在约旦河西岸打死3名巴勒斯
- 全球观点:信测标准创业板再融资审核状态
- 快讯!阿联酋与卡塔尔正式复交 两国使领
- 焦点信息:《神界:原罪2》游戏试玩体验优
- 每日速讯:键盘侠|太阳队惊天动地获“残
- 曾国藩打下天京,进入藏宝库一看,掩面长
- 太原中考成绩查询入口(每年更新)|全球
- 环球快资讯:乌鲁木齐机场改扩建项目塔台
- 初三学生被老师暗示弃考?当地教育局通报
- 火影忍者团藏之死(关于火影忍者团藏之死
- 赛龙舟_天天关注
- 全球报道:60后夫妻骑电瓶车环游世界,前
- 快看点丨卫生间太矮热水器怎么装_厕所太
- 世界快资讯:杭州跳桥救人小哥治疗康复费
- 189是联通还是移动|世界快资讯
- 世界快报:【短视频】全国第二届地勘行业
- 今日热门!帮扶救助、护航中考,风雨中南
- 天天亮点!产业帮扶“扶上马再送一程”
- 出门问问大客户依赖明显:研发费用率三年
- 书签制作大全简单漂亮_简易捕鼠神器制作
- 2023年注会《经济法》第9章高频考点10:
- 四十三家公司预告半年报业绩 高端制造领
- 天天微资讯!途安2012款_途安2012款1.4t
- 今日热议:流浪乞讨人员夏季集中救助启动
- 网络丢包率很高怎么解决(网络丢包率)
- 今日要闻!万凯新材(301216):6月19日北
- 大连民族大学预科班学姐 大连民族大学预
- 恶魔城暗影之王2图文全攻略(全流程全剧
- 天能电池价格12v100价格表(天能电池价格
- 迈百瑞四千万元建实验室或为关联方作嫁衣
- 幼师拍小朋友谈“房车钱”视频惹争议 主
- 骗子被骗子给骗了!
- 和元生物: 关于首次公开发行部分限售股
- 吉峰科技:第二大股东、副董事长拟合计减
- 京津冀现代商贸物流金融创新发展论坛召开
- 天宜上佳(688033.SH):预计上半年净利润
- ST南卫最新公告:公司不存在应披未披信息
- 群星不同隐形场有什么区别
- 沧州二中学校招生条件_沧州二中
- 国家发改委:端午假期临近 猪价或震荡微
- 环球播报:以军在约旦河西岸打死3名巴勒斯
- 全球观点:信测标准创业板再融资审核状态
- 快讯!阿联酋与卡塔尔正式复交 两国使领
- 焦点信息:《神界:原罪2》游戏试玩体验优
- 每日速讯:键盘侠|太阳队惊天动地获“残
- 曾国藩打下天京,进入藏宝库一看,掩面长
- 太原中考成绩查询入口(每年更新)|全球
- 环球快资讯:乌鲁木齐机场改扩建项目塔台
- 初三学生被老师暗示弃考?当地教育局通报
- 火影忍者团藏之死(关于火影忍者团藏之死
- 赛龙舟_天天关注
- 全球报道:60后夫妻骑电瓶车环游世界,前
- 快看点丨卫生间太矮热水器怎么装_厕所太
- 世界快资讯:杭州跳桥救人小哥治疗康复费
- 189是联通还是移动|世界快资讯
- 世界快报:【短视频】全国第二届地勘行业
- 今日热门!帮扶救助、护航中考,风雨中南
- 2018 中国首富 2018中国首富
- 环球微头条丨6月16日亚洲地区对二甲苯收
- 艾能聚:6月16日融资买入4.33万元,融资
- 玩世不恭的意思 玩世不恭意思是什么
- 沪b是哪里的车牌
- 14日至16日华北东北将迎来强高温天气
- 前瞻全球产业早报:iPhone15系列已在郑州
- 阿里巴巴全球数学竞赛决赛开考 马老师杭
- 道县举办2023 年“道‘舟’迎老乡、道‘
- 纯瘦肉需要焯水吗?
- 世界最资讯丨父爱如山!公交“龙兄虎弟”
- 诺基亚8800s(8800a诺基亚) 环球热点
- 青海西宁文明办发新版《倡议书》:此前表
- 天地在线:公司经营业绩及总体毛利率存在
- 南京发布今年第1号地质灾害气象风险黄色
- 世界微动态丨西南三条铁路干线启动大修集
- 全球快看点丨2121年高考是几月几号_21年
- 观热点:这五大蓝筹股的购买收入达数十亿
- 奇瑞瑞虎9华东大区上市,售15.29-20.39万元
- “一天有四季 十里不同天” 新疆独库公















