-
大语言模型推理优化技术综述(The Art of LLM Inference)
编者按: 如何将 LLM 的推理过程从"烧钱的无底洞"转变为"高性能的生产力引擎"?本文深入剖析了提升 LLM 推理效率的五大核心技术:巧妙的 KV 缓存管理、Query-sparsity attention(QUEST)、推测解码(使用 draft model 加速生成过程)、权重调度(通过 Flexgen 实现跨设备资源分配)以及系统级优化(FastSe...
时间:2025-05-28点击:66收藏
-
Kmesh v1.1.0 发布,基于 eBPF 和可编程内核的无 Sidecar 服务网格
Kmesh v1.1.0 版本已正式发布。 在 v1.0.0 的基础上,此版本对 Kmesh 的架构、可观察性和生态系统集成进行了重大改进。Kmesh 官方网站经过了全面的重新设计,提供了直观的界面和精简的文档,以增强用户和开发者的体验。此外,我们还重构了 DNS 模块并添加了长连接指标,从而能够更深入地洞察更多流量模式。 在 Kernel-Native 模...
时间:2025-05-28点击:47收藏
-
Redisson 3.48.0 发布,官方推荐的 Redis 客户端
Redisson 3.48.0现已发布,这是一个 Java 编写的 Redis 客户端,具备驻内存数据网格(In-Memory Data Grid)功能,并获得了 Redis 的官方推荐。 此版本更新内容如下: Feature 添加 retryDelay 和 reconnectionDelay 设置,允许定义延迟策略。可用实现: FullJitterDela...
时间:2025-05-28点击:34收藏
-
开源快讯 | 近期开源资讯一览(2025.5.28)
开源生态建设加速技术创新,促进全球协作,是科技发展的强大驱动力,其重要性对现代科技社会至关重要。 新致开源团队整理了近期开源生态重要行业信息,供读者参考。 杭州市滨江区发布新一轮人工智能产业政策 2025年5月26日, 杭州市滨江区在2025滨江国际人才活动开幕式上推出了以“真金白银”支持为核心的最新 产业政策。新政策将聚焦 “ 算力 、算法、数据”三要素,...
时间:2025-05-28点击:59收藏
-
etcd v3.6.0 发布,开源分布式键值存储项目
etcd v3.6.0 已正式发布,这是自 2021 年 6 月 15 日 etcd v3.5.0 以来的第一个小版本更新。 此版本引入了多个新功能,在长期项目如降级支持和迁移到 v3store 上取得重要进展,还修复了大量关键和重大问题。内存使用也有显著优化,提升了效率和性能。 支持更丰富的架构与操作系统,包含最新 Linux 发行版与 macOS 版本 ...
时间:2025-05-28点击:49收藏
-
大模型评估排障指南 | 关于可复现性
这是大模型评估排障指南系列文章的第三篇,敬请关注系列文章: 关于推理 关于 公式解析 关于可复现性 假设你读了一篇最近的新模型技术报告,然后心血来潮想要在本机复现他们的结果,却发现根本没法复现,这是为什么? 让我们来探讨一下原因。 代码库不同 要想复现论文或报告的评估得分并精确到小数点,首先要确保使用的代码库一致。 一般情况下,你可以选择使用作者提供的默认评...
时间:2025-05-28点击:35收藏
-
从 o11y 2.0 说起,大数据 Pipeline 的「多快好省」之道
作者:唐恺(风毅) 什么是 o11y 2.0 o11y 2.0(可观测性 2.0)是最近半年 DevOps 领域的热点话题,HoneyComb 介绍了《Introducing Observability 2.0》【1】, CNCF 则引述了 Middleware 定义的《What is observability 2.0?》【2】。 对于 o11y 2.0 ...
时间:2025-05-28点击:32收藏
-
YashanDB V23.4 LTS全库闪回新特性解读
柏杨 YashanDB存储研发技术专家 本文主要对YashanDB V23.4 LTS新版本的全库闪回新特性进行原理探讨与技术解析。 证券交易系统突发数据异常,三甲医院电子病历系统遭遇误操作...在这些极端故障场景中,传统数据库恢复方案正面临前所未有的挑战。传统数据库恢复技术(Point-In-Time-Recovery, PITR)通过全量数据库备份进行整...
时间:2025-05-28点击:23收藏
-
k0s 正式加入 CNCF 沙箱
轻量级、零依赖、完全开源的 Kubernetes 发行版 k0s 已正式成为云原生计算基金会(CNCF)的沙箱项目。 “CNCF 是最具创新力的云原生项目聚集地,加入这个社区进一步坚定了我们推动 Kubernetes 易用性和普及的决心。加入 CNCF 沙箱计划,意味着我们可以与社区紧密合作,获取宝贵反馈,推动 Kubernetes 更加易用和高效。” k0...
时间:2025-05-28点击:31收藏
-
WordPress 官宣成立 AI 团队
WordPress 正式官宣了其成立的 AI 团队 (WordPress AI Team),该团队专门负责加速和协调 WordPress 生态中的 AI 项目开发: 协调跨团队合作,负责任且包容性地探索 AI 功能。 发布并维护 AI 计划及官方插件的公共路线图。 与核心团队、设计团队、无障碍团队及其他团队紧密合作,确保强大的集成和共同标准。 据介绍,Wor...
时间:2025-05-28点击:24收藏
-
RWKV-8 预览之 DeepEmbed:对端侧友好的稀疏设计,解决 MoE 显存占用
RWKV-8 "Heron" 是我们的下一代架构,具有多个全新技术。在此我们首先公布其中的 DeepEmbed 技术,它可以实现类似 MoE 的优秀推理性能,同时无需占用显存,甚至无需占用内存,可以让稀疏的大模型真正部署到所有端侧设备。 推理代码:https://github.com/BlinkDL/RWKV-LM/blob/main/RWKV-v7/rwk...
时间:2025-05-28点击:27收藏
-
小米 Q1 财报:研发支出 67 亿元,同比增长 30.1%
小米集团发布2025年第一季度业绩报告,集团收入及盈利均再次创下历史新高。财报显示,2025年第一季度小米集团总收入为人民币1,113亿元,创历史新高,同比增长47.4%。 业务分部来看,2025年第一季度,手机×AIoT分部收入为人民币927亿元,同比增长22.8%。其中手机业务收入506亿元,同比增长8.9%,IoT与生活消费产品业务收入323亿元,同比...
时间:2025-05-28点击:857收藏
点击排行
推荐阅读
最新文章
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7设置SWAP分区,小内存服务器的救世主
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Hadoop3单机部署,实现最简伪集群
- MySQL8.0.19开启GTID主从同步CentOS8