首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/379737

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

蚂蚁百灵团队开源高效推理模型 Ring-mini-sparse-2.0-exp

蚂蚁百灵大模型团队正式开源高效推理模型Ring-mini-sparse-2.0-exp,该模型采用的 Ling 2.0 架构是专为长序列解码优化的稀疏注意力架构,创新性地融合了高稀疏比 Mixture of Expert(MoE)结构与稀疏注意力机制。 团队表示,得益于架构与推理框架的深度协同优化,该模型在复杂长序列推理场景下的吞吐量较原版 Ring-mini-2.0 实现近 3 倍提升,同时在多项高难度推理基准测试中持续保持 SOTA 性能。这一成果为开源社区提供了兼具高效推理与强上下文处理能力的轻量化解决方案。 Ling 2.0 Sparse 是专为应对大语言模型未来两大核心趋势 —— 上下文长度扩展(Context Length Scaling) 与测试时扩展(Test Time Scaling)而设计的高效稀疏注意力机制。 团队借鉴了 Mixture of Block Attention (MoBA),采用块级稀疏注意力(block-wise sparse attention),将输入的 Key 和 Value 按块(block)划分,每个 query 在 head 维度上进行...

大量 “垃圾” 数据影响大语言模型推理能力

一项新研究表明,大语言模型(LLM)在持续接触无意义的在线内容后,可能会出现显著的性能下降。这项研究表明,这些模型的推理能力和自信心都受到影响,引发了对它们长期健康的担忧。研究团队来自多个美国大学,提出了 “LLM 脑衰退假说”,借鉴了人类在过度接触无脑在线内容时可能造成的认知损害。 为验证这一理论,研究人员进行了控制实验,使用2010年的 Twitter 数据。他们训练了四个较小的模型,包括 Llama3-8B-Instruct 和 Qwen 系列模型,采用不同比例的 “垃圾” 数据与高质量的控制数据进行对比。 研究者们以两种方式定义 “垃圾” 数据。第一种方法(M1)通过互动量来筛选,认为短于30个字且高互动(超过500个赞、转发或评论)的帖子为垃圾内容,而长于100个字但互动少的帖子则作为控制内容。第二种方法(M2)则使用 GPT-4o-mini 根据内容质量进行排序,标记阴谋论、夸大说法和吸引眼球的标题为垃圾内容,更深思熟虑的材料则被视为高质量内容。 研究发现,随着垃圾数据比例的增加,模型在推理准确性上的表现急剧下降。例如,在 ARC 挑战基准测试中,推理准确率从74.9% 降...

相关文章

发表评论

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。