首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/290370

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

模型量化与量化在 LLM 中的应用

一、模型推理优化 随着模型在各种场景中的落地实践,模型的推理加速早已成为AI工程化的重要内容。而近年基于Transformer架构的大模型继而成为主流,在各项任务中取得SoTA成绩,它们在训练和推理中的昂贵成本使得其在合理的成本下的部署实践显得愈加重要。 大模型推理所面临的挑战主要有以下两点: 巨大的内存(显存)需求,主要来自于模型本身参数和推理的即时需求。 对于一个LLaMA2-30B的模型,载入显存其模型本身需要约60GiB的显存,推理过程中,单个token的KV cache 需要1.6MiB左右的显存:6656(layer dim) * 52(layer num) *2 (K & V) * 2(fp16, 2bytes);对于一个2048个token的请求则需要3.3GiB的显存。 并行性较差,因为生成过程通常在时序上是一个串行的过程,导致decoding的过程较难并行,成为计算的瓶颈。 常见的推理优化方式有知识蒸馏(Knowledge Distillation,KD),剪枝(Pruning)和量化(Quantization),以及针对LLM的内存优化而提出的各种方案(如...

中国码农的“35岁魔咒”

34 岁的老白在短视频应用快手的工作岌岌可危的第一个迹象,是其一位 35 岁同事被解雇。 “既震惊又焦虑,” 老白说,他使用昵称以免遭到前雇主的报复。这位开发人员距离 35 岁生日只有几个月,就被解雇了,成为公司内部称为“石灰石”的重组的又一个牺牲品。据五名前任和现任员工透露,快手正在推出 35 岁左右的初级员工。快手被告知,他的解雇是公司整体裁员计划的一部分。快手拒绝置评。 所谓“35 岁门槛”长期困扰着白领职业的工人,人们普遍认为年长的员工由于家庭责任而更不愿意加班。 随着中国科技行业因北京的监管整顿和经济放缓而陷入困境,过去几个月来数以万计的就业岗位被裁撤,中年员工被认为尤其脆弱。科技公司毫不掩饰地更青睐年轻和未婚的员工。 “科技行业中的年龄歧视是一个大问题,”总部位于北京的劳工律师杨宝泉说,“一种观点认为,年长的员工无法跟上最新的技术发展,他们没有精力继续努力工作,而且他们太贵了。” 虽然中国劳动法禁止雇主基于种族、性别和宗教等属性歧视员工,但并未明确提及年龄。但杨律师表示,一些人将该法律解释得更广泛,禁止歧视老年人,这意味着雇主不会明确引用年龄作为解雇理由。 中国科技公司的高...

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。