首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/329528

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

开源推理 AI 模型 Sky-T1,训练成本不到 450 美元

加州大学伯克利分校 Sky Computing 实验室的研究团队 NovaSky 发布了一款名为 Sky-T1-32B-Preview 的推理模型。并表示在多项推理和编码基准测试中,该模型性能与 o1-preview 相当。 “值得注意的是,Sky-T1-32B-Preview 的训练成本不到 450 美元,这表明可以经济高效地复制高级推理能力”。 目前,该模型的所有细节(即数据、代码、模型权重)均已开源,用户可以从零开始复现该模型。 根据介绍,Sky-T1 的初始训练数据是通过阿里巴巴的QwQ-32B-Preview 生成。然后整理 data mixture,以涵盖需要推理的不同领域,并使用拒绝采样程序来提高数据质量。之后利用 OpenAI 的GPT-4o-mini将数据重构为更易用的格式。训练这款拥有 320 亿参数的 Sky-T1模型耗时约 19 小时,使用了 8 台 Nvidia H100 GPU。 NovaSky 团队表示,Sky-T1-32B-Preview 仅标志着其开发具有高级推理能力的开源模型的征程开始。“展望未来,我们将专注于开发更高效的模型,保持强大的推理性能,并...

为什么大语言模型 OpenAI o1 有时候会用中文思考?

最近 X 上在讨论为什么大语言模型 O1,有时候会用中文思考? 转发一段 Hugging Face 王铁震老师的想法: 我一直觉得,会两种语言不仅仅是能用两种语言交流,而是能根据话题和场景,自然地用更合适的语言去思考。比如,我更喜欢用中文做加减乘除,因为每个数字只有一个音节,算起来干脆利落。但一提到 “无意识偏见” 这种话题,我就会不自觉地切换到英语,毕竟这些概念我最开始就是从英语里学来的。 这让我想到编程语言:大多数程序用什么语言都能写,但我还是会用 Bash 写命令行脚本,用 Python 搞机器学习,因为每种语言都有自己最顺手的地方。现实中的语言也一样,我们会根据语言的特点和自己的习惯,选择最顺手的语言去表达特定的内容。 这也是为什么我觉得,在训练大语言模型(LLM)时,保持所有语言和文化的多样性和包容性特别重要。就像哲学家维特根斯坦说的:“语言的界限就是世界的界限。” 只有包容每一种语言的细微差别,才能让模型学到更全面的思维。即使两种语言里的两个词意思一样,它们在模型中的 Embedding 也可能完全不同,因为它们背后的文化和使用方式截然不同。在我看来,这种包容性不仅能打造更...

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Oracle

Oracle

Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Apache Tomcat

Apache Tomcat

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

JDK

JDK

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。