您现在的位置是:首页 > 文章详情

大模型选型攻略,限免!

日期:2025-02-25点击:51

赠书啦,欢迎大家在评论区聊聊「大模型选型那些事」,畅所欲言

我们将在评论区随机选出 3 名 OSCer,赠送《AI赋能:大模型概念、技术及企业级项目应用一本

活动截止时间:2月28日18:00

面对市场上众多的大模型选择,如何进行科学的选型也成为了企业面临的一个重要问题。根据笔者的实践经验总结,我们会从大模型基础信息评估、大模型性能评估大模型的备案信息评估三个维度来进行大模型的选型。

大模型基础信息评估

大模型基础信息评估作为选型的第一步,显得尤为关键。下面我们将从参数量、数据规模和维度、模型架构、模型能力应用领域、供应商企业特征以及社区支持与生态系统等六个角度,详细阐述大模型基础信息评估。

1.参数量

参数量是衡量大模型复杂度的重要指标,它直接影响到模型的表达能力和学习能力。根据大模型的缩放定律和涌现能力,参数量越大,模型的学习能力和表达能力通常越强。然而,参数量的增加也会带来计算资源的消耗和训练难度的提升。这也会影响到项目执行中的微调策略,以及上线运行时的计算资源。

因此,根据企业的计算资源和业务需求,选择适当参数量的模型。对于资源有限的企业,可以选择参数量适中的模型以平衡性能和资源消耗。避免盲目追求大参数量,要结合实际应用场景来评估模型的性能。

2.模型数据规模和维度

数据是训练大模型的基础,数据规模和维度的选择直接影响到模型的训练效果和性能。大而全的数据集有助于模型学习更广泛的知识,提高泛化能力,而特定领域的数据集则能使模型在特定任务上表现更出色。

因此,优先选择与企业所在行业、领域相关的数据集训练的模型,以确保模型对特定领域有深入的理解。同时,考虑数据的丰富性和多样性,以提高模型的泛化能力和适应性。

3.模型架构

模型架构决定了大模型的学习方式和性能上限。目前主流的大模型架构大多基于Transformer,但不同模型在架构上可能有所创新和优化,以适应不同的应用场景。

因此在实际项目中,要关注模型架构的创新性和优化点,了解其在提升性能、降低计算复杂度等方面的改进,选择经过验证、性能稳定的模型架构,以降低实际应用中的风险。

4.模型能力应用领域

不同的大模型可能针对特定领域进行了优化,或者其底层训练数据决定了其应用能力。因此,在选择大模型时,需要根据企业的实际需求来确定模型的应用领域。

5.供应商企业特征

供应商的企业特征也是选型时需要考虑的因素之一。包括供应商的信誉、技术实力、服务质量等都会影响到模型的使用体验和后续支持。

6.社区支持与生态系统

一个活跃的社区和丰富的生态系统意味着更多的资源和支持,有助于企业在使用过程中解决问题和优化模型。社区的活跃度和生态系统的完善程度也是评估大模型价值的重要因素。

大模型性能评估

大模型性能评估是选定基础信息后的关键环节,它旨在全面衡量大模型在实际应用中的表现。在项目实操中,我们从两个主要方面来评价大模型的性能:大模型通用模型能力场景适应能力。对于通用模型能力,我们会综合考察备选大模型在基础能力、智商能力、情商能力和工具提效能力等各方面的表现,以此来判断其是否具备类似于人的通用智能。而场景适应能力评估则更为具体,我们会根据项目的实际需求设计验证性问题,通过大模型对这些问题的回答和处理情况来检验其是否真正符合项目的特定要求。

表1.大模型通用能力评估方法问题量表

图1.大模型通用测试评估示例

图2.大模型提示词优化后的特定场景评估示例

图3.大模型微调后的场景能力测试评估示例

大模型备案信息评估

目前虽然没有明确要求企业在构建私有大模型时只能应用备案过的大模型,但是完成备案的大模型都经过了严格的能力审查,在模型性能和安全性上有较强的优势,因此建议企业优先选用通过备案的大模型。

1. 大模型备案概述

大模型备案,即生成式人工智能(大语言模型)上线备案,是网信部门针对生成合成(深度合成)类算法的特定管理流程。这一制度的设立,旨在确保大模型在上线运行前已经通过了严格的能力审查和安全评估,从而保障其在模型性能和安全性方面达到一定的标准。

在这里,“生成式人工智能技术”特指那些具备文本、图片、音频、视频等内容生成能力的模型及相关技术。而“深度合成技术”则涵盖了利用深度学习、虚拟现实等手段制作文本、图像、音频、视频等网络信息的技术。这些技术包括文本生成与风格转换、问答对话,以及人脸生成与替换、人物属性编辑等。

(1)大模型备案的主体

根据《生成式人工智能服务管理暂行办法》的规定,具有舆论属性或社会动员能力的生成式人工智能服务提供者,需按照国家相关规定开展安全评估并进行备案。这些服务提供者主要分为两类:平台运营方和技术支持方。

(2)大模型备案流程

 如下图所示,大模型备案流程的重要节点如下:

图4.大模型备案流程

(3)大模型备案所需材料

在进行大模型备案时,服务提供者需要准备以下材料:

大模型上线备案申请表:详细填写模型的基本信息、开发团队情况、应用场景等。

附件1:安全自评估报告:对模型的安全性进行全面评估,包括数据安全性、算法安全性、系统安全性等方面。

附件2:模型服务协议:明确服务提供者与用户之间的权利义务关系,保障双方合法权益。

附件3:语料标注规则:详细说明模型在训练过程中使用的语料标注规则和方法。

附件4:关键词拦截列表:列出可能被模型识别并拦截的关键词或敏感词汇。

附件5:评估测试题集:提供一套用于评估模型性能和准确性的测试题集。

综上所述,大模型备案制度的确立和实施对于规范我国人工智能技术的发展具有重要意义。通过严格的备案流程和材料审核,可以确保大模型在合法性、安全性和性能方面达到高标准,从而推动我国人工智能产业的健康、可持续发展。

2. 企业对备案信息审查评估

大模型在备案时会提交详细的应用场景、安全自评估报告、模型的预料标注规则、关键词和敏感词拦截信息以及测试集信息等。这对企业全面了解和评估大模型的能力和应用,确定供应商是否具备本项目的实施能力至关重要。以下是我们在项目实践中的常用方法。

(1)明确评估目标与标准

在开始评估前,企业应首先明确自身的业务需求、技术要求和安全标准。这有助于企业在后续的评估过程中,更加针对性地审查相关信息,确保所选大模型能够满足企业的安全需求。

(2)审查应用场景

企业需仔细阅读大模型备案中提供的应用场景描述,了解模型的主要用途、使用环境和预期效果。通过对比企业的实际需求,判断该模型是否适用于本企业的业务场景。同时,关注应用场景中可能存在的风险点和挑战,以便在后续合作中制定相应的应对措施。

(3)分析安全自评估报告

安全是企业在选择大模型时不可忽视的重要因素。企业应详细审查安全自评估报告,了解模型在数据安全、算法安全和系统安全等方面的设计和实施情况。特别关注报告中提到的安全漏洞和应对措施,确保模型在实际应用中能够保障企业数据的安全性和完整性。

(4)核查预料标注规则

预料标注规则直接影响大模型对数据的理解和处理能力。企业应核查这些规则是否科学、合理,并符合企业的数据处理需求。通过对比不同模型的标注规则,选择那些能够更准确地反映企业数据特征和处理逻辑的模型。

(5)检查关键词和敏感词拦截信息

关键词和敏感词拦截功能对于保障信息安全和遵守法律法规至关重要。企业应检查备案信息中提供的关键词和敏感词列表,确保其全面且符合企业的合规要求。同时,测试模型的拦截功能是否有效,以避免在实际应用中出现不当内容或敏感信息的泄露。

(6)评估测试集信息与模型性能

测试集信息是评估大模型性能的重要依据。企业应审查测试集的设计是否合理、数据是否丰富多样,并了解测试过程中的评估指标和方法。通过对比不同模型的测试结果,选择那些在准确率、召回率等关键指标上表现优异的模型。此外,企业还可以自行设计测试用例,对模型进行进一步的性能测试。

综上所述,企业对大模型备案信息的审查评估是一个系统而细致的过程。通过明确评估目标、审查应用场景、分析安全报告、核查标注规则、检查关键词拦截信息以及评估测试集信息与模型性能等具体步骤,企业可以更加全面地了解大模型的能力和应用情况,从而做出更加明智的选择。

以上内容节选自《AI赋能:大模型概念、技术及企业级项目应用》

作者:田野 张建伟

 

《AI赋能:大模型概念、技术及企业级项目应用

田野 张建伟

  • 京东“计算机与互联网”图书销量榜TOP1!

  • 三一集团副总裁、三一商用车智造公司总经理吴盛楠、徐工集团工程机械股份有限公司副总裁闫君,倾情作序。

  • 联想方案服务业务集团大模型与智能体项目实践经验总结,全景式展现大模型产品生态圈及技术原理,提出大模型选型和建设标准及项目实施方法,企业建设、部署、应用大模型的实用指南。

本书聚焦于大模型技术在企业中的实际应用,帮助读者应用大模型为企业降本增效。全书共6章:初识大模型、大模型产品生态圈、大模型的技术原理、企业如何部署和应用大模型、企业大模型项目的实施方法、大模型企业应用实践。

本书提供了详细的大模型选型和建设标准,旨在为企业提供一份清晰的大模型建设指南,帮助读者了解如何建设、部署和应用大模型。本书详细介绍了企业大模型项目的实施方法,从项目规划到工程化部署,并通过具体的企业应用实践案例,展示了大模型在基座型基础设施、企业知识中台、业务知识库、智能体及个人办公智能辅助工具中的强大应用潜力,帮助读者在实践中掌握应用大模型的关键技术和管理能力。

本书的读者对象为人工智能、机器学习和数据分析等领域的从业人员,对企业数字化转型和智能化应用感兴趣的企业管理者和决策者,希望通过大模型技术和实施方法增强自身技能的技术研究者和开发者,以及对大模型技术感兴趣并希望深入了解和探索这一前沿科技及其应用场景的读者。

原文链接:https://my.oschina.net/u/4489239/blog/17766917
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章