最佳开源模型：Qwen2- 72B -Instruct-低调大师

最佳开源模型：Qwen2- 72B -Instruct

2024-07-31 885

AI 初创公司 Galileo 宣布推出其最新的 Hallucination Index，一个以检索增强生成 (RAG) 为重点的评估框架，对来自 OpenAI、Anthropic、Google 和 Meta 等品牌的 22 个（12 个开源 LLM 和 10 个专有 LLM）领先的生成式 AI 大语言模型性能进行了比较排名。

Hallucination Index 使用 Galileo 专有的评估指标“context adherence”对开源和闭源模型进行了测试。测试模型的输入量从 1,000 到 100,000 token 不等，以了解短语境（少于 5k token）、中等语境（5k 到 25k token）和长语境（40k 到 100k token）的性能。

综合表现最佳模型： Anthropic 的 Claude 3.5 Sonnet。该闭源模型在短、中、长上下文场景中的表现均优于竞争模型。Anthropic 的 Claude 3.5 Sonnet 和 Claude 3 Opus 在各个类别中的得分始终接近满分，击败了去年的冠军 GPT-4o 和 GPT-3.5。在短语境中得分为 0.97（满分 1 分）。
成本表现最佳模型： Google 的 Gemini 1.5 Flash。Google 模型在所有任务上均表现出色，在短、中、长上下文场景中分别获得了 0.94、1 和 0.92 的准确率，因此成为性价比最高的机型。
最佳开源模型：阿里巴巴的 Qwen2- 72B -Instruct。该开源模型在短和中语境背景下表现最佳，得分最高。

Galileo 联合创始人兼首席执行官 Vikram Chatterji 表示：“由于幻觉仍然是一个主要障碍，我们的目标不仅仅是对模型进行排名，而是为 AI 团队和领导者提供他们所需的真实数据，以便他们以合适的价格采用合适的模型，完成合适的任务。”

主要发现和趋势：

开源缩小差距：由于专有训练数据，Claude-3.5 Sonnet 和 Gemini 1.5 Flash 等闭源模型仍然表现最佳，但 Qwen1.5- 32B -Chat 和 Llama-3- 70b -chat 等开源模型正在通过幻觉性能的改进和比闭源模型更低的成本壁垒迅速缩小差距。
长上下文长度的整体改进：当前的 RAG LLM，如 Claude 3.5 Sonnet、Claude-3-opus 和 Gemini 1.5 pro 001 在扩展上下文长度的情况下表现尤为出色 - 不会损失质量或准确性 - 反映了模型训练和架构方面所取得的进展。
大模型并不总是更好：在某些情况下，小模型的表现优于大模型。例如，Gemini-1.5-flash-001 的表现优于大模型，这表明模型设计的效率有时比规模更重要。
从国家到全球焦点：美国以外的法学硕士，例如 Mistral 的 Mistral-large 和阿里巴巴的 qwen2- 72b -instruct，是该领域的新兴参与者，并且越来越受欢迎，代表了全球创建有效语言模型的努力。
改进空间：虽然 Google 的开源 Gemma-7b 表现最差，但他们的闭源 Gemini 1.5 Flash 模型始终名列前茅。

详情可查看：https://www.rungalileo.io/hallucinationindex

微信关注我们

原文链接：https://www.oschina.net/news/304710/galileo-new-hallucination-index

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

苹果为 Swift 发布同态加密工具库

苹果公司发布了新的开源 Swift 工具库，以便开发者使用 Swift 实现同态加密 (swift-homomorphic-encryption)，此举标志着苹果在数据隐私保护方面迈出了重要一步。开发文档：https://developer.apple.com/documentation/sms_and_call_reporting/getting_up-to-date_calling_and_blocking_information_for_your_app 下面是使用 Swift 实现同态加密的基本示例： import HomomorphicEncryption // We start by choosing some encryption parameters for the Bfv<UInt64> scheme. // *These encryption parameters are insecure, suitable for testing only.* let encryptParams = try EncryptionParameters&...

2024-07-31

311

欢迎阅读 OSCHINA 编辑部出品的开源日报，每天更新一期。 # 2024.7.31 今日要闻苹果为 Swift 发布同态加密工具库苹果公司发布了新的开源 Swift 工具库，以便开发者使用 Swift 实现同态加密 (swift-homomorphic-encryption)，此举标志着苹果在数据隐私保护方面迈出了重要一步。下面是使用 Swift 实现同态加密的基本示例： import HomomorphicEncryption // We start by choosing some encryption parameters for the Bfv<UInt64> scheme. // *These encryption parameters are insecure, suitable for testing only.* let encryptParams = try EncryptionParameters<Bfv<UInt64>>(from: .insecure_n_8_logq_5x18_logt_5) //...

2024-07-31

339

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。