首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/295224

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

LLM Serving 有效吞吐量的最大化实现

如今的LLM应用具有多样化的时延要求。例如,聊天机器人可能需要快速的初始响应(例如,少于0.2秒),但在解码速度上只需要匹配人类阅读速度,而代码补全则需要快速的端到端生成时间,以实现实时代码建议。 本文说明了优化吞吐量(throughput)的现有serving系统,在时延标准下并不是最优选择。作者主张使用有效吞吐量(goodput),即符合服务等级目标(SLO)的每秒完成请求数量,作为衡量LLM serving性能的改进指标,以考虑成本和用户满意度。 为优化有效吞吐量,作者引入了预填充-解码解耦(prefill-decode disaggregation),也就是将预填充从解码中分离到不同的GPU。他们还构建了一个系统原型DistServe,能够实现高达4.48倍的吞吐量或SLO严格(tighter)10.2倍,同时保持在严格的时延约束内。DistServe正在集成到vLLM中。 (以下内容由OneFlow编译发布,转载请联系授权。原文:https://hao-ai-lab.github.io/blogs/distserve/) 作者|Yinmin Zhong, Junda Chen...

SQLE 3.2405.0 发布

本周我们发布了 SQLE 3.2405.0 正式版!主要更新概览: 社区版 针对工单变更功能做了整体 UI 交互优化,提升工单使用体验! 企业版 SQL 工单支持存储过程等复杂语法上线 SQL 工单支持变更上线顺序,保障上线成功率 CloudBeaver 工作台支持审计操作记录 以下是 SQLE 3.2405.0 正式版的新功能解读。 🎈 新功能 企业版 1. SQL 工单支持存储过程等复杂语法上线 本期新增了一种工单上线模式 ——文件模式。 该模式参考了数据库客户端执行 SQL 脚本的方式。使用文件模式,您可以直接将能够在数据库客户端执行的 SQL 脚本通过 SQLE 平台进行上线,无需对脚本进行任何调整。 文件模式的优势在于能够更大程度地支持复杂的 SQL 语法,如:存储过程、触发器等。您可以将包含这些复杂语法的 SQL 脚本直接上传至 SQLE 平台,并进行上线操作。这样,您无需手动拆分或修改脚本,简化了上线流程,提高了开发效率。另外,在文件模式下,支持以文件方式聚合和查看 SQL 脚本,使您能够更方便地管理和审查脚本内容。 本期已支持SQL Server、Oracle插件...

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Oracle

Oracle

Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Apache Tomcat

Apache Tomcat

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。