开源日报 | OpenAI CEO&COO首次合体；开源大模型厂商不认“落后”宿命论；警惕开源项目被“社工”渗透-低调大师

开源日报 | OpenAI CEO&COO首次合体；开源大模型厂商不认“落后”宿命论；警惕开源项目被“社工”渗透

2024-04-17 442

欢迎阅读 OSCHINA 编辑部出品的开源日报，每天更新一期。

# 2024.4.17

今日要点

CentOS 7 将在 6 月 30 日结束支持 (EOL)

2020 年 12 月 8 日，红帽公司单方面宣布终止 CentOS 的开发。此决定让原本拥有 10 年支持的 CentOS 8 在 2021 年年底结束维护，而 CentOS 7 因用户基数多获得红帽 “优待”—— 按照计划维护至生命周期结束（2024 年 6 月 30 日）。

xz Utils 后门这样的社工渗透模式，需要引起关注

以下社会工程接管中的可疑模式值得关注：

社区中相对不知名的成员对维护者或其托管实体（基金会或公司）友好、积极和持续的渴求。
请求由新人或未知人员提升为维护者状态。
来自社区中其他未知成员的认可，他们也可能使用虚假身份，也称为 “sock puppets”（白手套）。
包含 blob 作为制品的 PR。例如，XZ 后门是一个精心设计的文件，作为测试套件的一部分，与源代码相反，该文件不是人类可读的。
故意混淆或难以理解源代码。
安全问题逐渐升级。例如，XZ 问题一开始是用 fprintf () 相对无害地替换 safe_fprintf ()，看看谁会注意到。
偏离典型的项目编译、构建和部署实践，可能允许将外部恶意负载插入 blob、zip 或其他二进制制品中。
错误的紧迫感，尤其是当隐含的紧迫性迫使维护者降低审查的彻底性或绕过控制时。

这些社会工程攻击正在利用维护者对项目和社区的责任感来操纵它们，需要注意互动给你带来的感受，能够让你产生自我怀疑、不足感、对项目做得不够等的互动，可能此时你正在被社会工程攻击。

中国电信将于年内开源千亿级参数大模型

近日中国电信开源了 12B 参数规模星辰语义大模型 TeleChat-12B。相较于 1 月开源的 7B 版本，内容、性能和应用等方面整体效果提升了 30%。其中，多轮推理、安全问题等领域提升超 40%。另外，据了解，中国电信将于年内开源千亿级参数大模型。

根据介绍，TeleChat-12B 将 7B 版本 1.5T 训练数据提升至 3T，优化数据清洗、标注策略，持续构建专项任务 SFT（监督微调）数据，优化数据构建规范，大大提升数据质量；同时，基于电信星辰大模型用户真实回流数据，优化奖励模型和强化学习模型，有效提升模型问答效果。

开源地址：https://gitee.com/Tele-AI/tele-chat

今日观察

社交观察

看网友们谈论中医感觉有点类似于开源

看网友们谈论中医感觉有点类似于开源,都可以声明自己是中医疗法,同时他们也不排斥别人的治疗经验, 比如吃汞吃硫磺等等,都公开自己了吃这种东西的玄学理论了同时给爱好者借鉴,其他人可以根据自身的五行寒热属性改良出不错的重金属进补吃法。

- 微博 鸡老师的肉身

微软贡献模块初始化补丁：推动 Linux Kernel 集成 Rust

微软贡献模块初始化补丁：推动 Linux Kernel 集成 Rust。微软工程师 Wedson Almeida Filho 近日发布邮件，通过和 Rust for Linux 项目密切合作，已经发布新的补丁来彻底改变内核中的模块初始化。

- 微博 曲怀长

斯坦福开源创新型 AI 写作工具 STORM

只需要告诉它你的写作主题，它就能自动帮你深挖资料，大量收集多角度参考信息，并创建大纲。

不仅如此，它还会模拟专家与你问答对话，结合互联网的资源回答深入了解主题，并逐步撰写完整的文章且带引用。

GitHub：github.com/stanford-oval/storm
在线体验：storm.genie.stanford.edu/

- 微博 GitHubDaily

如何人为制造一个不存在的东西就现在来说太易如反掌了

查AI相关资料的时候看到一个很无语的新闻
所以什么是真什么是假？
如何人为制造一个不存在的东西
就现在来说太易如反掌了
我只能说蔡徐坤本人就是现象级的
IKUN对于蔡徐坤的爱也是无与伦比的

- 微博 KUN海外特级小肉包

媒体观察

中国首个音乐SOTA模型「天工音乐大模型」今日公测

「天工3.0」旗下的「天工SkyMusic」音乐大模型也在今日面向全社会开放公测。「天工SkyMusic」是中国首个音乐SOTA模型，更是中国的自研大模型技术第一次在AIGC领域领跑全球。

与行业主流路径不同，「天工SkyMusic」采用自研大模型音乐音频生成技术路线。这一路线直接通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成，技术难度极大，全球只有包括昆仑万维在内的极少数顶尖玩家参与。

在与海外顶尖的AI音乐大模型Suno V3的横向测评中，「天工SkyMusic」在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手，并以6.65分的综合得分超越Suno V3，成为全球AI音乐SOTA模型。

- 硅星人

Sam Altman最新采访：模型性能不是长期差异化的关键

这不仅是OpenAI CEO和COO首次合体采访，也是Brad Lightcap为数不多的公开露面。在采访中，Brad Lightcap认为，智能正在从一种非常有限的东西，转变为一种富足且廉价的资源。同时，他也坦言，大公司对AI的落地速度极大超出了他们预期。

Sam Altman则认为，在这场世界范围内的“百模大战”中，可能只有少数玩家能够存活。而真正实现差异化的地方，并不在于基础模型的质量或者开源与否的运作方式，而是模型能否能真正实现个性化、定制化，真正与人的生活和使用场景高度匹配。

- 乌鸦智能说

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

这篇论文提出了GeRM（通用机器人模型），研究人员利用离线强化学习来优化数据利用策略，从演示和次优数据中学习，从而超越了人类演示的局限性。通过引入专家混合结构，GeRM实现了更快的推理速度和更高的整体模型容量，从而解决了强化学习参数量受限的问题，提高了多任务学习中的模型性能，同时控制了计算成本。

通过一系列实验证明，GeRM在所有任务中均优于其他方法，同时验证了其在训练和推理过程中的效率。

此外，研究人员还提供了QUARD-Auto数据集以支持训练，该数据集的构建遵循文中提出的数据自动化收集的新范式，该方法可以降低收集机器人数据的成本，推动多任务学习社区的进步。

- 新智元

李彦宏：开源模型将会越来越落后 | 最前线

这个论断看似激进，但基于一个重要的讨论背景：开源还是闭源，哪个应用成本更高。

开源是互联网的根基，无论是从浏览器的出现，到如今的大模型，都离不开开源的贡献。比如，大模型的核心技术Transformer架构，就是谷歌的开源工作。

到了2023年，Meta旗下的Llama 2开源，免费可商用，这瞬间让大模型领域的格局改变——后来者可以直接基于开源的Llama 2模型基础上做微调，进而开始商业化。

开源能够借助开发者的力量，让技术获得突破，但要降低应用门槛，最终还是要走到用户端：产品落地应用，反哺到开发者生态，才会不断提升已有模型的能力。

正因如此，如今OpenAI等头部模型厂商的最新模型，都毫无疑问走闭源战略，并且大力做商业化。李彦宏的观点代表着，大模型领域经历过去一年紧张的你追我赶之后，如今进入新阶段：商业化效率，将会成为接下来模型能力提升的重要变数。

- 36氪

今日推荐

开源项目

ravynsoft/ravynos

https://github.com/ravynsoft/ravynos

ravynOS 是一个新的开源操作系统项目（前身是 airyxOS），基于 FreeBSD 构建，目标是在 x86-64 设备上提供与 macOS 类似的体验，以及对 macOS 的部分兼容特性。

每日一博

秒开率破 90%！交易后台渲染性能优化

本文从本次交易后台性能优化实践出发，同时介绍应用整体架构和设计，希望可以给参与网站性能建设的同学提供一定的学习和参考价值。

事件点评

xz Utils 后门这样的社工渗透模式，需要引起关注

近期开源圈 xz Utils 安全事件让业内震惊，当前幕后黑手仍然没有查明。简单来说，xz Utils 入侵者在潜伏两三年时间中，通过社会工程的方式，先获得了项目的高级权限，进而执行一系列错综复杂的操作。

这样的事情其实在开源项目中并不是孤例，这两天 OpenSSF 和 OpenJS 基金会也呼吁所有开源维护者对这样的社会工程渗透接管模式保持警惕，识别早期出现的威胁模式，并采取措施保护开源项目。

点评

这些事件的影响是深远的。它们凸显了开源项目在面临外部威胁时可能存在的脆弱性，同时也提醒了开源社区和维护者，需要加强项目的管理和维护，提高项目的整体安全性。此外，这些事件也促使开源社区更加关注和重视开源项目的安全性和可持续性，以及维护者对项目责任的认真态度。开源社区需要继续加强合作，共同维护一个安全、可靠的开源环境。

奥特曼：AGI 不该被秘密构建，GPT-6 将成通用工具

OpenAI 首席执行官 Sam Altman 与首席运营官 Brad Lightcap 于日前合体接受了一次采访。OpenAI 是历史上规模扩张最快的公司之一，目前估值已达 900 亿美元，收入超过 20 亿美元。

Altman 在采访中发表了对 AGI (通用人工智能) 的看法。他认为，对 AGI 而言迭代部署至关重要，我们不应该秘密地在实验室里构建 AGI，“想象一下那种极限情况，我们辛苦工作了几十年，然后突然按一下按钮，整个世界就不得不与 AGI 抗争”。

点评

这些观点和预测不仅对 IT 行业和人工智能领域产生了影响，也预示着未来技术发展的趋势。这可能会促使其他企业和组织在 AI 技术应用方面更加谨慎，同时也推动了 AI 技术在企业界的广泛应用。

然而，我们也需要注意，随着AI技术的发展，我们也需要面对一系列的挑战，包括数据安全、隐私保护、伦理问题等。因此，我们需要持续关注AI技术的发展，以确保我们能够充分利用其潜力，同时也能有效地管理其带来的风险。

CentOS 7 将在 6 月 30 日结束支持 (EOL)

2020 年 12 月 8 日，红帽公司单方面宣布终止 CentOS 的开发。

此决定让原本拥有 10 年支持的 CentOS 8 在 2021 年年底结束维护，而 CentOS 7 因用户基数多获得红帽 “优待”—— 按照计划维护至生命周期结束（2024 年 6 月 30 日）。

点评

CentOS 7 将于 2024 年 6 月 30 日结束支持，这一事件产生了多方面的影响。对用户来说，安全风险增加，需要投入更多资源来维护和更新系统；还需要投入额外的资源来进行系统迁移，包括人力、时间和金钱。如果选择转向商业发行版，可能还需要支付额外的许可费用。迁移到其他操作系统，也可能需要适应新的技术环境。

同时，这为其他 Linux 发行版提供了吸引用户的机会。可能会改变 Linux 发行版的市场格局，使得其他发行版有机会获得更多的市场份额。也可能推动市场上的创新，因为各个发行版会竞相提供更好的功能和服务，以吸引原 CentOS 用户。

开源之声

媒体观点

李彦宏坚定具有成本优势的闭源路线开源大模型厂商不认“落后”宿命论

开源和闭源的选择是大模型领域的热点话题，OpenAI的GPT-4模型就是采用闭源模式，微软则开源了WizardLM-2。国内，百川智能、智源都是开源的支持者，通义千问亦有开源，而华为盘古大模型则坚定选择不开源。模式之争的背后，是关于如何平衡技术创新、商业利益、社区参与和市场竞争力的讨论。

但业内共识也愈加明确，AI必将掀起创造力革命，在技术普惠与文化平权等多个方面，推动社会的发展。

- 每日经济新闻

工业大模型应用怎么做？海尔卡奥斯给了一个答案

工业互联网被视为工业数字化、网络化、智能化转型的基础设施。卡奥斯沉淀了海尔近40年的制造经验，能为用户提供以大规模定制为核心的数字化转型解决方案。

通过对开源大模型进行微调训练，2023年9月，卡奥斯推出工业大模型COSMO-GPT（下称“卡奥斯工业大模型”）。卡奥斯工业大模型拥有562个工业数据集、300多万条高质量工业数据。与通用大模型不同，它能够读懂工业语言、理解工业工艺及机理、生成工业执行指令及执行工业机械控制，目前主要应用于智能柔性装配、生产工艺优化、工业企业智能中台三大方面。

- 经济观察报

清华团队推出新平台：用去中心化AI打破算力荒

放眼大模型市场，轰轰烈烈发展了一整年后，真正能站稳脚跟的创业公司并不多。除了极少数几家明星独角兽外，大模型的未来似乎正在收敛到微软、谷歌、英伟达等科技巨头手中。长此以往，少数企业可能会对计算资源的定价、可用性和访问权限形成垄断控制。

这时候，正需要类似NetMind Power这样的民主化叙事，为AGI的故事撰写新的蓝图。

- 量子位

霍学文：将打造“人工智能驱动的商业银行”作为换道超车的重大机遇

北京银行发布2023年度报告。该行将科技创新作为全面创新的核心，还将打造“人工智能驱动的商业银行”（AI Banking，缩写为AIB）作为换道超车的重大机遇，是该行未来一段时间坚持的重要方向。用北京银行董事长霍学文的话说，这是在“做难而正确的事，做对未来赋能的事”。

- 中国电子银行网

用户观点

云开源公司成“恶龙”？——指控Linux基金会旗下开源项目盗用代码

观点 1：利用开源力量把软件做起来了，现在又收费了，这有点过河拆桥吧

观点 2：开源软件从来跟收费不矛盾，矛盾的是开源和闭源，你思维还停留在开源就不能收费

观点 3：搞闭源以后发现开源社区同样功能做的更好，马上抄一遍代码然后反手把开源社区告了。如果是这种流氓行为如何破局？

观点 4：提交没有时间吗

观点 5：这公司，没有任天堂的命，却得了任天堂的病，玩不起

观点 6：想讹人是吧

观点 7：不是你说别的开发者抄我还听一耳朵 Linux 基金会也能让你这么蹭么？

观点 8：鲍尔默的“开源是毒瘤”的喊声犹在耳畔

前后端源代码都有了，谁去搞个新「抖音」！

观点 1：这个就和手办娃娃一样，看起来丝丝入微，非常逼真，但是没灵魂啊，没推荐算法加持，没内容

观点 2：推荐算法层面，直接接大模型搞搞

观点 3：想啥呢，想白吃还不想自己拿碗啊

观点 4：哪怕你拿了抖音的全套源代码，你也运营不起来呀！算力，带宽、存储，这谁用的起。除非是你只打算搞个最多几人几十人在线的，不然运营成本分分钟逼死你。

CentOS 7 将在 6 月 30 日结束支持 (EOL)

观点 1：咱公司的Centos7万年不更新了

观点 2：Ubuntu 还不错

PuTTY 0.81 发布，SSH/Telnet 程序

观点 1：多少年了，版本还在小数点后一位

观点 2：上一就想上二，上二就想上十，上十就想上一百，哈哈

观点 3：它这个0.81 ，实际上就是81版了😀

程序员梗图

---END---

最后，欢迎扫码下载「开源中国 APP」，阅读海量技术报告、程序员极客分享！

微信关注我们

原文链接：https://www.oschina.net/news/288157

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

操作教程丨MaxKB+Ollama：快速构建基于大语言模型的本地知识库问答系统

2024年4月12日，1Panel开源项目组正式对外介绍了其官方出品的开源子项目——MaxKB（github.com/1Panel-dev/MaxKB）。MaxKB是一款基于LLM（Large Language Model）大语言模型的知识库问答系统。MaxKB的产品命名内涵为“Max Knowledge Base”，为用户提供强大的学习能力和问答响应速度，致力于成为企业的最强大脑。 2024年4月16日，MaxKB成功登顶GitHub Trending主榜单，自项目发布后快速收获超过1,800个Star和超过5,000次下载。有社区用户反馈，已经成功将MaxKB部署到其产品官网，以低成本的方式打造出一个贴身的官方AI客服。除了基于OpenAI、百度千帆大模型等在线大模型快速搭建知识库问答系统外，MaxKB还支持与以Ollama为代表的本地私有大模型相结合，快速部署本地的知识库问答系统。本文为您详细介绍通过1Panel应用商店（apps.fit2cloud.com/1panel）快速部署MaxKB和Ollama，在MaxKB中接入Ollama的LLM模型，以及快速上线企业知识库小助...

2024-04-17

612

检索增强生成（RAG）是一种新兴的 AI 技术栈，通过为大型语言模型（LLM）提供额外的“最新知识”来增强其能力。基本的 RAG 应用包括四个关键技术组成部分： Embedding 模型：用于将外部文档和用户查询转换成 Embedding 向量向量数据库：用于存储 Embedding 向量和执行向量相似性检索（检索出最相关的 Top-K 个信息）提示词工程（Prompt engineering）：用于将用户的问题和检索到的上下文组合成大模型的输入大语言模型（LLM）：用于生成回答上述的基础 RAG 架构可以有效解决 LLM 产生“幻觉”、生成内容不可靠的问题。但是，一些企业用户对上下文相关性和问答准确度提出了更高要求，需要更为复杂的架构。一个行之有效且较为流行的做法就是在 RAG 应用中集成 Reranker。 01.什么是 Reranker？ Reranker 是信息检索（IR）生态系统中的一个重要组成部分，用于评估搜索结果，并进行重新排序，从而提升查询结果相关性。在 RAG 应用中，主要在拿到向量查询（ANN）的结果后使用 Reranker，能够更有效地确定文档和查询之间...

2024-04-17

540

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。