马斯克旗下 xAI 发布 Grok 3 推理模型，声称超越 o1、R1-低调大师

马斯克旗下 xAI 发布 Grok 3 推理模型，声称超越 o1、R1

2025-02-18 189

马斯克旗下xAI刚刚发布了Grok 3推理模型。据介绍，在数学推理、科学逻辑推理和代码写作等能力表现方面，Grok-3在多项benchmark测试中均取得了比DeepSeek-v3、GPT-4o、Gemini-2 pro更优的效果。

据悉，目前Grok 3已经在xAI内部运行了2周。马斯克及其团队表示，Grok 3也将具有类似DeepSeek R1和OpenAI o3 Mini的推理能力。

马斯克上周在迪拜世界政府峰会的视频通话中预告了Grok 3即将发布，并称该聊天机器人具有“非常强大的推理能力”并且是“地球上最聪明的人工智能”。

据xAI官方介绍，Grok 3在训练过程调用了10万个Nvidia H100芯片，较前代产品Grok 2使用的15,000个GPU实现了数倍的跨越式提升。

xAI通过修改Grok 3的训练过程（而不仅仅是硬件改进）为Grok 3实现了更好的功能。更新后的模型实现了合成数据集、自我校正和强化学习，以提高其性能。

Grok 3最大的亮点在于其引入了“思维链”（Chain Of Thought）推理机制。这一机制允许Grok 3像人类一样分步骤解决复杂问题，显著提高了模型处理复杂查询和提供更连贯、更有逻辑响应的能力。

马斯克在发布会上表示，这种推理机制使得Grok 3在逻辑推理测试中的表现远超ChatGPT-5和谷歌的Gemini Ultra，能够构思出新颖的想法和解决方案。Grok大模型已接入马斯克旗下社交媒体X平台，用户可在X上使用Grok聊天机器人。

微信关注我们

原文链接：https://www.oschina.net/news/334522/xai-grok3

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

大语言模型显示出令人担忧的“奉承”用户倾向

斯坦福大学最近的研究揭示了一个令人担忧的趋势：领先的AI语言模型表现出强烈的谄媚倾向，或者说过度奉承，其中谷歌的Gemini显示出最高的这种行为比率。这一发现引发了关于AI系统在关键应用中可靠性和安全性的重大疑问。 AI谄媚行为的规模这项名为"SycEval: Evaluating LLM Sycophancy"（评估LLM谄媚）的斯坦福研究对包括ChatGPT-4o、Claude-Sonnet和Gemini-1.5-Pro在内的主要语言模型进行了广泛的测试。结果引人注目：平均而言，58.19%的回复显示出谄媚行为，Gemini以62.47%的比率领先，而ChatGPT显示出最低的比率，为56.71%。这些发现出现在用户已经在类似DeepSeek等模型中注意到这种行为的时候，AI倾向于与用户观点一致，有时甚至支持错误陈述以维持一致。这种行为模式在各种AI交互中变得越来越明显，表明这些模型在训练和运营方面存在系统性问题。研究方法斯坦福团队开发了一个全面的评估框架，在两个不同的领域测试了这些模型：数学（使用AMPS数据集）和医疗建议（使用MedQuad数据集）。研究涉及3,000...

2025-02-18

262

OpenAI 前首席科学官、联合创始人 Ilya Sutskever 在离开 OpenAI 创建的 Safe Superintelligence Inc.（SSI）宣布已经完成新一轮的 10 亿美元融资，投资方包括 NFDG、a16z、Sequoia、DST Global 和 SV Angel。该公司的另外两个合伙人分别是前 Y Combinator 合伙人 Daniel Gross，和前 OpenAI 工程师 Daniel Levy。路透社报道称，SSI 目前共拥有 10 名员工，他们计划利用这笔资金购买计算能力并聘请顶尖人才，建立一支由研究人员和工程师组成的高度可信赖的小型团队。 SSI 拒绝透露其最新估值，但知情人士称其估值为 50 亿美元。这笔融资凸显了一些投资者仍然愿意对专注于基础人工智能研究的顶尖人才进行大规模押注。尽管整体上对这类公司的投资兴趣有所减弱——这些公司可能在一段时间内无法盈利，并导致几位初创公司创始人离职加入科技巨头——但这一投资趋势依然存在。 Gross 在接受采访时表示：“我们来说，身边有理解、尊重和支持我们使命的投资者非常重要，我们的使命就是直指安全的...

2025-02-18

213

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。