首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/290370

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

模型量化与量化在 LLM 中的应用

一、模型推理优化 随着模型在各种场景中的落地实践,模型的推理加速早已成为AI工程化的重要内容。而近年基于Transformer架构的大模型继而成为主流,在各项任务中取得SoTA成绩,它们在训练和推理中的昂贵成本使得其在合理的成本下的部署实践显得愈加重要。 大模型推理所面临的挑战主要有以下两点: 巨大的内存(显存)需求,主要来自于模型本身参数和推理的即时需求。 对于一个LLaMA2-30B的模型,载入显存其模型本身需要约60GiB的显存,推理过程中,单个token的KV cache 需要1.6MiB左右的显存:6656(layer dim) * 52(layer num) *2 (K & V) * 2(fp16, 2bytes);对于一个2048个token的请求则需要3.3GiB的显存。 并行性较差,因为生成过程通常在时序上是一个串行的过程,导致decoding的过程较难并行,成为计算的瓶颈。 常见的推理优化方式有知识蒸馏(Knowledge Distillation,KD),剪枝(Pruning)和量化(Quantization),以及针对LLM的内存优化而提出的各种方案(如...

中国码农的“35岁魔咒”

34 岁的老白在短视频应用快手的工作岌岌可危的第一个迹象,是其一位 35 岁同事被解雇。 “既震惊又焦虑,” 老白说,他使用昵称以免遭到前雇主的报复。这位开发人员距离 35 岁生日只有几个月,就被解雇了,成为公司内部称为“石灰石”的重组的又一个牺牲品。据五名前任和现任员工透露,快手正在推出 35 岁左右的初级员工。快手被告知,他的解雇是公司整体裁员计划的一部分。快手拒绝置评。 所谓“35 岁门槛”长期困扰着白领职业的工人,人们普遍认为年长的员工由于家庭责任而更不愿意加班。 随着中国科技行业因北京的监管整顿和经济放缓而陷入困境,过去几个月来数以万计的就业岗位被裁撤,中年员工被认为尤其脆弱。科技公司毫不掩饰地更青睐年轻和未婚的员工。 “科技行业中的年龄歧视是一个大问题,”总部位于北京的劳工律师杨宝泉说,“一种观点认为,年长的员工无法跟上最新的技术发展,他们没有精力继续努力工作,而且他们太贵了。” 虽然中国劳动法禁止雇主基于种族、性别和宗教等属性歧视员工,但并未明确提及年龄。但杨律师表示,一些人将该法律解释得更广泛,禁止歧视老年人,这意味着雇主不会明确引用年龄作为解雇理由。 中国科技公司的高...

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

用户登录
用户注册