万字长文解答:除了问答,大模型还有什么用?
OSCHINA 编辑部【OSC有问必答】栏目,每周一会,聚焦开发者提出的实际问题,邀请行业专家、技术大咖或资深开发者进行深度剖析和解答,人话版呈现开发者们最关心的问题。
欢迎各位开发者说出你最关心的技术难题,也欢迎资深开发er、行业专家、学者大咖们自荐!
交流可添加微信:JunoHsu1122
本期我们聚焦的核心问题是:除了问答,大模型还有什么用?
大模型的对话功能几乎每隔一段时间就让大众惊艳一次,但是在复杂的业务场景中却常常“翻车”,导致开发者与企业既惊叹于大模型理解自然语言、生成代码或报告的效率,又深陷于其面对真实业务场景时暴露的局限性。这种矛盾折射出技术理想与产业现实之间的鸿沟。
但是方法总比困难多,智能体、模型微调、垂域大模型、大模型与现有技术栈融合等等,都是业界正在探索的解决方式。
OSCHINA 邀请邀请宾夕法尼亚州立大学博士田野做客【有问必答】,拆解大模型使用方法论,从不同行业场景下的大模型选择与使用原理,到智能体实践探讨,希望能为各位开发者找到更好的大模型使用方法。
本文的最后,田野博士页分享了对开发者个人技能树更新的建议。欢迎各位开发者留言分享你的大模型技术栈学习进度条,我们将随机抽取3位读者赠送 OSCHINA 全新周边一份。
本期嘉宾:
田野,宾夕法尼亚州立大学博士,《AI赋能:大模型概念、技术及企业级项目应用》作者、资深数据科学家,原联想数据智能集团突出贡献专家,首席科学家,多家上市公司首席技术顾问。研究领域包括机器学习、人工智能、大模型及工业智能。在工艺优化质量控制、能耗优化、供应链优化等领域具有丰富工程实践经验,主持和建设了国内外十余家世界500强企业的智能化转型和智能化应用项目,拥有国内外授权专利30余项。
目录:
大模型落地的行业解法
工业场景下的大模型结合措施
问:OSCHINA曾推过您的著作《AI赋能:大模型概念、技术及企业级项目应用》,根据荐书评论区反馈,工业场景中似乎很难结合大模型技术,您如何看这个问题?怎么解决?
答: 从评论区反馈来看,工业场景结合大模型技术虽存在挑战,但并非难以实现,可从技术适配、场景深挖、实际落地等方面解决。
存在困难的原因:主流的基于 Transformer 的大模型在处理工业现场复杂、动态的数据时存在局限,而像 Time series 大模型这类更适合工业场景的模型,目前与工业现场控制的结合还处于探索阶段,尚未成熟应用 。工业场景的业务需求复杂多样,不同的工业环节,如矿山场景的装车匹配、工业现场控制等,都有其独特的要求,现有的大模型难以直接满足这些专业化、精细化的需求。
解决措施:根据工业场景的特点和需求,选择或开发适配的大模型。例如,Time series 大模型在工业现场有应用潜力,可深入研究和优化该类模型,将其更好地应用于工业数据处理、预测性维护等方面。也可以对现有的通用大模型进行微调,使其适应工业领域的特定任务。深入挖掘工业场景的具体需求,不能仅停留在表面应用。
在矿山装车匹配场景中,利用多模态视觉大模型识别装车并生成装车单,要充分考虑实际操作中的细节和问题,如摄像头的安装位置、光线对识别的影响等,确保技术能切实解决业务痛点。
目前很多大模型在企业应用中形式单一,不接地气。在工业场景应用大模型时,应避免简单地构建知识库和问答系统,而是要将大模型与工业业务流程深度融合,如在会计报销凭证处理项目中,大模型不仅能整理数据,还能进行验证、归纳形成报表,真正发挥大模型的优势,解决业务实际问题。
问:在工业场景中,业务逻辑往往高度复杂且专业性强。您认为企业应如何权衡提示工程(Prompt Engineering)与模型微调(Fine-tuning)的投入比例?能否分享实际项目中通过"轻量级改造"实现业务适配的典型案例?
答:在工业场景中,提示工程和模型微调各有优劣,企业需综合多方面因素权衡两者投入比例,同时也有通过 “轻量级改造” 成功实现业务适配的可能,以下是具体分析:
-
权衡提示工程与模型微调投入比例的方法
依据任务复杂度和专业性权衡:对于业务逻辑相对简单、专业性不太强的工业任务,如一般性的设备运行状态文本记录分析,通过精心设计提示词,就能引导大模型输出较为准确的结果,此时可适当加大提示工程的投入比例。而对于复杂且专业性强的任务,如高精度的工业故障诊断、复杂工艺参数优化建议生成,模型微调能让模型更好地学习工业领域特定知识和业务逻辑,应加大微调投入。像化工生产中对反应过程的精确控制,微调模型可更精准地预测和优化生产条件。
考虑数据可用性和成本:如果企业积累了一定量的高质量工业数据,但数据量又不足以支持大规模的模型训练,微调模型可能效果受限,这时可以尝试在提示工程上投入更多资源,利用现有通用模型,通过巧妙设计提示词来挖掘模型潜力。相反,若企业拥有丰富的领域数据,且有相应的计算资源和专业技术人员,微调模型能获得更好的定制效果,应增加微调投入。例如汽车制造企业,若有大量生产过程数据,微调模型可更好地服务于质量检测和工艺改进。
结合业务变化频率权衡:工业场景中业务需求变化频繁的部分,如市场需求驱动的产品定制化生产安排,提示工程更具灵活性,能快速调整提示词以适应变化,可多投入资源。而对于相对稳定的业务环节,如一些成熟工业产品的标准生产流程监控,微调后的模型能长期稳定发挥作用,可加大微调投入。
“轻量级改造” 实现业务适配的典型案例:在某电子制造企业的质量检测环节,原本采用人工抽检的方式判断电子产品是否存在外观缺陷,效率低且易出错。该企业引入大模型后,没有对模型进行大规模微调,而是采用了 “轻量级改造” 的方式。先利用提示工程,精心设计提示词,让大模型理解电子产品外观缺陷的特征描述,如 “划痕”“磕碰”“焊点异常” 等。同时,收集少量生产线上具有代表性的缺陷产品图像和描述数据,对模型进行简单的微调,增强其对特定缺陷的识别能力。经过这种 “轻量级改造”,大模型能够快速准确地识别电子产品的外观缺陷,检测效率大幅提升,人工成本显著降低,且由于改造投入较小,实施周期短,很快就为企业带来了效益 。
数据高敏感行业中的隐私保护
问:针对金融、医疗等行业数据敏感性高、标注成本大的痛点,大模型“着陆”需要哪些关键要素?如何设计数据隐私保护机制?
答:金融、医疗行业数据敏感性高、标注成本大,大模型要在这些行业成功 “着陆”,需具备特定关键要素,并建立完善的数据隐私保护机制。
-
大模型在金融、医疗行业 “着陆” 的关键要素
合规性保障:金融、医疗行业受严格监管,大模型必须严格遵守相关法律法规,如金融行业的反洗钱法规、医疗行业的患者隐私保护法规等。确保数据的收集、存储、使用和共享都在合法合规的框架内进行,这是大模型应用的基本前提。
高精度与可靠性:这些行业对数据的准确性和可靠性要求极高。在金融风险评估中,错误的判断可能导致巨大的经济损失;医疗诊断的失误更是关乎患者生命安全。因此,大模型需要具备高精度和可靠性,能够准确处理和分析敏感数据,提供可靠的结果和建议。
少样本学习能力:考虑到标注成本高,大模型应具备强大的少样本学习能力。通过少量的标注样本,结合先验知识和预训练模型,快速适应行业特定任务,减少对大规模标注数据的依赖,降低标注成本。
可解释性:在金融和医疗领域,决策的可解释性至关重要。大模型的输出结果需要有清晰的解释,以便专业人员理解和信任。例如,在医疗诊断中,医生需要知道模型给出诊断建议的依据;在金融贷款审批中,需要向客户解释审批结果的原因。
-
数据隐私保护机制设计
加密技术应用:在数据的整个生命周期中,采用加密技术对数据进行保护。在数据存储阶段,使用高级加密标准(AES)等算法对敏感数据进行加密存储,确保即使数据泄露,攻击者也难以获取明文信息。在数据传输过程中,利用 SSL/TLS 等加密协议,保证数据在网络传输时的安全性。
多方安全计算:对于需要多方协作使用数据的场景,采用多方安全计算技术。在不泄露原始数据的情况下,各方可以共同计算出目标结果。在金融联合风控场景中,多家金融机构可以在不共享各自客户详细信息的前提下,共同评估客户的信用风险。
差分隐私技术:在数据发布或使用过程中,引入差分隐私技术。通过向查询结果或数据分析结果中添加适量的噪声,使得攻击者难以从结果中推断出个体的敏感信息,同时又能保证数据的实用性,满足大模型训练和分析的需求。
访问控制与权限管理:建立严格的访问控制和权限管理体系,根据员工的工作岗位和职责,精细划分数据访问权限。只有经过授权的人员才能访问特定的敏感数据,并且对数据的访问操作进行详细记录和审计,以便及时发现和追溯潜在的数据泄露风险。
教育、政务、能源行业案例与经验
问:除了问答,目前大模型真正在不同行业的生产场景中,有哪些比较成功的落地案例,如何从中借鉴经验?
答: 大模型在不同行业生产场景中有许多成功的落地案例,以下是部分案例及可借鉴的经验:
教育行业
-
案例:作业帮推出的智能辅导系统,基于大模型为学生提供个性化的学习辅导。它可以根据学生的学习进度、知识掌握情况,生成针对性的学习计划和练习题,帮助学生更高效地学习。科大讯飞的智慧教育解决方案,利用大模型实现智能语音交互、试卷批改等功能,提升了教学效率和质量。
-
借鉴经验:在企业培训、人才培养等方面,可以借鉴教育行业利用大模型实现个性化学习路径规划和智能辅导的经验,根据员工的技能水平和学习需求,提供定制化的培训内容和指导。
政务行业
-
案例:北京市的 “接诉即办” 平台利用大模型对市民诉求进行智能分析和分类,能够快速准确地将诉求分配到相应的处理部门,并对处理过程和结果进行智能跟踪和评估,提高了政务服务的效率和质量。上海的一网通办平台借助大模型优化办事流程,实现智能表单填写、材料自动审核等功能,方便了企业和群众办事。
-
借鉴经验:企业在处理客户投诉、业务流程优化等方面,可以借鉴政务行业利用大模型进行智能分类、流程自动化的经验,提高运营效率和客户满意度。
能源行业
-
案例:国家电网利用大模型对电力系统的运行数据进行分析和预测,实现对电网故障的提前预警和智能调度,保障了电网的稳定运行。中国石油利用大模型进行油藏数值模拟和产量预测,提高了油藏开发的效率和效益。
-
借鉴经验:对于有大量设备运行和数据监测需求的行业,可学习能源行业利用大模型进行数据分析和预测的方法,实现设备的智能运维和资源的优化配置,降低运营成本和风险。
问:目前大模型比较难以落地的行业是哪些,为什么?
答:目前大模型在传统制造业比较难以落地的行业及原因如下:
-
复杂的生产流程和环境:制造业的生产环节涉及大量复杂的物理过程和专业知识,例如汽车制造中的冲压、焊接、涂装等工艺,大模型难以快速理解和掌握这些复杂专业的知识与流程。并且工厂环境中的噪音、振动、电磁干扰等因素会影响数据采集的准确性和稳定性,给大模型的训练带来困难。
-
数据质量和标注难题:生产设备产生的数据往往存在数据缺失、噪声大、不一致等问题,需要耗费大量时间和精力进行清洗和预处理。同时,制造业数据标注需要专业的工程技术人员,标注成本高、难度大,导致难以获得足够高质量的标注数据用于模型训练。
-
可靠性和安全性要求高:制造业生产中的决策和操作直接影响产品质量和生产安全,如航空航天零部件制造,对精度和可靠性要求极高。大模型存在的 “幻觉” 等不确定性问题,使其难以满足制造业对决策准确性和可靠性的严格要求。
选型步骤与失败案例警示
问:企业在选用大模型的时候,正确的选型评估步骤应该是什么?
答:企业在选用大模型时,正确的选型评估步骤一般包括明确需求、调研市场、评估技术、测试验证等,具体如下:
-
明确业务需求与目标
全面梳理业务场景:企业要对自身业务流程进行全面盘点,明确哪些环节可以应用大模型,如客服、营销、生产优化等,确定每个场景期望大模型实现的具体功能,如智能问答、精准营销推荐、质量检测等。
确定关键指标与预期效果:根据业务目标,制定具体的评估指标,如客服场景中的问题解决率、营销场景中的转化率提升、生产场景中的缺陷检测准确率等,明确期望大模型带来的业务提升效果,如提高效率、降低成本、提升用户满意度等。
-
调研市场与大模型产品
收集大模型信息:通过行业报告、技术论坛、媒体资讯等渠道,广泛收集市场上各类大模型的相关信息,包括模型的名称、研发团队、技术特点、应用案例等,了解不同大模型在各行业的应用情况和口碑。
分析供应商实力:对大模型的供应商进行深入分析,评估其技术研发能力、数据资源优势、行业经验、服务支持能力以及市场信誉等,选择具有强大技术实力和良好信誉的供应商,以确保模型的稳定性和持续优化能力。
-
评估技术能力
模型性能指标:重点关注大模型的准确性、召回率、F1 值等基础性能指标,在具体业务场景相关的任务上,如文本分类、情感分析、图像识别等,评估模型的表现。同时,考察模型的泛化能力,即对未见过的数据和新场景的适应能力,避免模型出现过拟合现象。
技术架构与特性:了解大模型的技术架构,如 Transformer 架构及其变体等,以及模型所具备的独特技术特性,如多模态融合能力、少样本学习能力、可解释性等,判断其是否符合企业业务需求和技术发展方向。
资源需求与效率:评估大模型运行所需的计算资源,如 CPU、GPU 的性能和数量要求,以及模型的训练和推理速度,确保企业现有硬件设施能够支持模型的运行,或者明确是否需要额外投入资源进行硬件升级。
-
数据适应性评估
数据类型与格式兼容性:检查大模型对企业现有数据类型和格式的支持程度,如文本、图像、音频、结构化数据等,确保模型能够有效处理企业的数据资源,无需进行过度的数据转换和预处理,降低数据处理成本和风险。
数据隐私与安全保障:了解大模型在数据隐私保护和安全方面的措施和技术,如数据加密、访问控制、模型安全审计等,确保企业数据在使用大模型过程中的安全性和合规性,符合相关法律法规和企业内部数据管理要求。
-
进行测试验证
小规模实验测试:选取部分具有代表性的业务数据和场景,对候选大模型进行小规模的实验测试,实际运行模型,观察其在具体任务上的表现,如智能客服中的问题回答准确性和合理性、智能营销中的推荐精准度等,收集实际运行数据和用户反馈。
对比评估与优化:将不同大模型在相同测试环境和数据上的表现进行对比分析,根据业务需求和评估指标,确定各模型的优劣。同时,尝试对模型进行一些简单的优化和调整,如调整参数、增加数据等,观察模型的可优化空间和潜力。
问:哪个大模型应用失败案例最具警示意义?导致失败的核心因素(如需求错位/数据质量/组织阻力)占比如何?后续制定了哪些风险防控checklist?
答:字节跳动实习生攻击导致模型训练失败事件具有很强的警示意义。具体分析如下:
-
组织管理因素(占比较大,约 40%):主要体现在权限管理方面,公司未能实现有效的权限隔离,导致实习生能够轻易植入破坏代码,这反映出企业内部安全管理存在较大疏漏。同时共用代码审计机制的缺失,使得代码变动缺乏有效监控,任何人皆可擅自改动而不留痕迹,这是组织管理层面的严重问题。
-
人员因素(约 30%):涉事实习生因对资源分配不满,利用 hf(huggingface)漏洞植入破坏代码,其个人的不当行为是导致模型训练出现问题的直接原因之一。
-
技术因素(约 30%):依赖的 hf 框架存在漏洞,为恶意攻击提供了可乘之机,说明在技术选型和技术安全防护上存在一定的不足。
风险防控 checklist
-
权限管理方面
严格执行最小权限原则,根据员工的工作内容和职责范围,精确配置其访问资源的权限,确保仅能访问完成工作所必需的资源。
定期对员工权限进行审查和更新,确保权限与实际工作需求始终保持匹配。
-
代码审计方面
建立严格的代码审查流程,对每次代码变更,尤其是重大变更进行详尽审计,确保代码的安全性、合规性和质量。
采用代码审查工具和技术,如静态代码分析、代码比对工具等,辅助人工审查,提高审查效率和准确性。
保留完整的代码操作记录,包括代码的修改、提交、合并等操作,以便追溯和排查问题。
-
部署安全方面
采用三级隔离导向性部署策略,通过严格的扫描、密钥验证、分级训练及自动清理机制,确保每一阶段代码的安全性和完整性。
对部署环境进行定期的安全评估和漏洞扫描,及时发现和修复潜在的安全隐患。
-
人员管理方面
加强员工的安全意识培训,特别是对于实习生和新员工,确保他们充分理解并遵守企业安全规定。
在招聘环节加强对人员的背景调查和风险评估,尽量降低人员带来的安全风险。
-
应急响应方面
建立健全的安全事件应急响应机制,明确在发生安全事件时的应急流程、责任分工和处理措施。
定期进行应急演练,确保团队在遇到安全事件时能够迅速响应,有效控制损失,并及时修复漏洞。
智能体实践
问:大模型与智能体的关系是什么?基于大模型的智能体对企业有什么价值?
答:大模型与智能体既有紧密联系又有明显区别,基于大模型的智能体在提升企业效率、创新能力、客户体验等方面具有重要价值,以下是具体说明:
-
大模型与智能体的关系
大模型是智能体的基础支撑:大模型拥有强大的语言理解、知识推理和生成能力等,为智能体提供了核心的智能能力。智能体依靠大模型的这些能力来理解外部输入的信息,如自然语言文本等,并基于此进行分析、决策和生成相应的输出。例如智能客服智能体,就是借助大模型来理解客户咨询的问题,并生成合适的回答。
智能体是大模型的应用形态:智能体是具有自主性、交互性和目标导向性的实体,它将大模型的能力封装在内部,以具体的角色或功能与外部环境进行交互,为用户提供各种服务和支持。智能体可以根据不同的应用场景和需求,利用大模型的能力来实现特定的任务,如智能办公助手智能体可以利用大模型来处理文档、安排会议等。
相互促进和发展:大模型的不断发展和优化,为智能体提供了更强大、更智能的基础能力,使其能够更好地完成各种任务和提供更优质的服务。而智能体在实际应用中的广泛使用和需求,也会推动大模型进一步改进和创新,以满足智能体在不同场景下的更高要求。
-
基于大模型的智能体对企业的价值
提高工作效率
自动化任务流程:能够自动处理一些重复性、规律性的工作任务,如数据录入、文档分类和整理等,将员工从繁琐的工作中解放出来,使其能够专注于更有价值的工作内容,从而提高整体工作效率。
快速信息检索和分析:可以快速从大量的企业数据和知识中检索和分析出有用的信息,为员工提供决策支持,减少信息查找和分析的时间成本。
提升创新能力
激发创意和灵感:基于大模型的智能体具有广泛的知识和联想能力,能够为企业的产品研发、市场营销等提供新的创意和思路,激发企业的创新活力。
探索新的业务模式:帮助企业探索和尝试新的业务模式和解决方案,通过模拟和预测不同的业务场景,为企业的战略决策提供参考,助力企业开拓新的市场和业务领域。
优化客户体验
个性化服务:通过对客户数据的分析和理解,为客户提供个性化的产品推荐、服务方案等,满足客户的个性化需求,提高客户满意度和忠诚度。
实时响应和解决问题:智能客服智能体能够实时响应客户的咨询和问题,快速给出准确的答案和解决方案,提高客户服务的效率和质量,减少客户等待时间和投诉率。
问:现在的智能体的应用正走向多智能体的编排协作,多智能体是否会成为未来的主要应用趋势?其中的优势和困难点在哪里?
答:多智能体很有可能成为未来的主要应用趋势,其具有诸多优势,同时也面临一些困难点,具体如下:
-
多智能体成为未来主要应用趋势的可能性
从技术发展角度:OpenAI 和谷歌等科技巨头纷纷布局多智能体研究团队,说明行业对多智能体的重视和看好。多智能体强化学习作为分布式 AI 的先进范式,在理论和实践上都取得了进展,如自然机器智能子刊有相关论文研究多智能体在大规模网络控制中的应用。
从应用场景角度:多智能体系统的应用场景极为广泛,已在智能交通、飞行器编队、传感器网络、多机械臂协同装备、多机器人合作控制等众多领域得到应用,且未来还将涵盖智能城市建设、清洁能源实现以及精准医疗等更多领域。
-
多智能体的优势
解决复杂问题能力强:可以将复杂任务分解为多个子任务,由不同智能体分别负责,发挥各自专长,共同协作完成任务。例如在智能交通系统中,车辆、交通信号灯等作为不同智能体,协同工作以优化交通流量1。
提高系统可靠性:分布式的架构使得系统具有冗余性,部分智能体出现故障或异常,其他智能体可以继续工作,维持系统的基本功能。比如在传感器网络中,个别传感器智能体失效,不影响整体网络对环境信息的感知。
增强系统灵活性和可扩展性:当系统需求变化或任务规模扩大时,可方便地添加新的智能体或调整现有智能体的功能和数量。如企业业务拓展时,可增加相应的智能体来处理新的业务流程。
促进智能体间的知识共享和学习:智能体在协作过程中可以相互学习、交流信息,提升整体智能水平和决策能力。在多机器人合作任务中,机器人智能体通过共享经验,能更快地找到完成任务的最优策略。
-
多智能体面临的困难点
通信与协调问题
通信成本高:多个智能体之间频繁通信会导致通信成本增加,包括时间、带宽、能量等消耗。在大规模的多智能体系统中,如智能电网中大量电力设备智能体之间的通信,可能会造成网络拥堵。
协调复杂:要使多个智能体高效协作,需要设计合理的协调机制,确保它们在任务分配、资源利用等方面相互配合,避免冲突和混乱,这在复杂场景下难度较大。
智能体间的一致性和冲突解决
目标不一致:不同智能体可能有各自的目标和利益,需要进行协调和平衡,以确保整体系统目标的实现。在多智能体谈判场景中,如客户智能体和租赁公司智能体之间存在利益博弈。
决策冲突:智能体基于自身的信息和算法做出决策,可能会出现决策冲突的情况,需要有效的冲突解决机制。比如在自动驾驶场景中,不同车辆智能体对行驶路径和速度的决策可能会产生冲突。
数据隐私和安全
隐私保护:多智能体系统中,智能体之间共享数据可能涉及隐私问题,需要采取加密、权限控制等措施保护数据隐私。在医疗领域的多智能体系统中,患者数据在智能体间传输时,隐私保护至关重要。
安全风险:系统可能会受到网络攻击、恶意智能体的干扰等安全威胁,影响系统的正常运行。如智能交通系统中的智能体可能会被黑客攻击,导致交通混乱。
效率与资源,开源与商用
问:对于IT预算有限的中小企业,有没有即省钱又高效的模型部署、使用方式?
答:对于 IT 预算有限的中小企业,有以下一些既省钱又高效的模型部署、使用方式:
-
采用开源大模型
优势:开源大模型如 LLaMA、Bloom 等,中小企业可以免费获取代码和模型权重,根据自身需求进行个性化训练和微调,大大降低了采购成本。
使用方式:企业技术团队可以在开源模型基础上,针对特定业务数据进行微调,使其适应企业的业务场景。如中小企业是做电商客服的,可使用开源模型,用自己的客服对话数据进行微调,以提高对商品咨询等问题的回答准确性。
-
选择云计算平台的模型服务
优势:云平台提供的大模型服务按使用量付费,中小企业无需一次性投入大量资金购买硬件和软件,降低了前期投资风险,且云平台具有弹性扩展能力,可根据业务量灵活调整资源使用量。
使用方式:像阿里云、腾讯云等提供的大模型服务,企业通过 API 接口调用,按调用次数或使用时长付费。比如中小企业做内容创作,可调用云平台的大模型生成文案,根据实际生成的字数或调用次数付费,业务量小时费用低,业务量增长时再增加资源使用。
-
与高校或科研机构合作
优势:高校和科研机构有科研资源和技术人才,可能在大模型研究方面有一定成果,与他们合作可以共享资源,借助他们的技术力量进行模型部署和应用,同时可能获得一些科研项目资金支持或优惠政策。
使用方式:中小企业可以与当地高校建立合作关系,共同开展项目研究。比如高校有图像识别方面的模型研究成果,中小企业是做制造业零部件检测的,双方可以合作,利用高校的模型和技术,结合企业的生产数据进行优化,企业可能只需提供数据和少量的研究经费。
-
利用低代码 / 无代码平台
优势:低代码 / 无代码平台降低了技术门槛,无需专业的编程知识,中小企业员工经过简单培训即可操作,减少了对专业技术人员的依赖,节省了人力成本,同时平台提供了可视化的操作界面,提高了模型部署和应用的效率。
使用方式:如一些低代码平台提供了大模型集成功能,企业用户通过简单的拖拽、配置等操作,就可以将大模型集成到自己的业务应用中。例如中小企业想做一个智能表单分析应用,利用低代码平台,无需编写大量代码,即可将大模型与表单应用结合,实现对表单内容的智能分析。
-
模型轻量化与本地部署
优势:对一些开源或自研的大模型进行轻量化处理后在本地服务器或边缘设备上部署,可以在满足业务需求的基础上,降低对硬件资源的要求,减少云服务费用,且数据在本地处理,提高了数据安全性和隐私性。
使用方式:对于有一定技术能力的中小企业,可对预训练模型进行裁剪、量化等轻量化操作,使其能在本地的普通服务器甚至性能较好的 PC 机上运行。如中小企业做智能巡检,将图像识别模型轻量化后部署在巡检设备或本地服务器上,对现场采集的图像进行实时分析,无需将数据上传到云端处理,节省了数据传输和云服务费用。
问:如何看待开源模型与商用API的竞合关系?
答:开源模型与商用 API 存在着既竞争又合作的关系,以下是对这种竞合关系的具体看法:
-
竞争关系
市场份额竞争:在模型服务市场中,开源模型可供用户免费使用和修改,对于预算有限、追求自主定制的用户,尤其是中小企业、科研机构和个人开发者具有很大吸引力。而商用 API 通常需要付费使用,会使一些对成本敏感的用户望而却步。例如,开源模型 DeepSeek-R1 以超低成本的 API 定价,使许多中小开发者放弃了部分价格较高的商用 API1。
性能与功能竞争:开源模型社区发展迅速,性能不断提升,像 Llama3.1 和 Qwen2 等开源模型在某些任务上已能与商用 API 的闭源模型相媲美。当开源模型在功能和性能上能够满足用户需求时,用户就可能会选择开源模型而放弃商用 API。
-
合作关系
技术互补:开源模型的代码和算法公开,开发者可以在此基础上进行改进和优化,开发出更具针对性的应用或功能,然后可以通过商用 API 将这些优化后的成果进行集成和部署,为用户提供更完整的解决方案。比如,开发者利用开源模型进行自然语言处理的基础研究,再通过商用 API 将其集成到企业的智能客服系统中。
拓展生态:开源模型有助于扩大技术的影响力和用户基础,吸引更多开发者参与到相关技术的研究和应用开发中,从而形成一个庞大的开源社区。商用 API 提供商可以与开源模型社区合作,将自己的 API 与开源模型进行整合,为用户提供更多的选择和更丰富的功能,拓展自身的生态系统。例如,微软 Azure 云平台与一些开源模型合作,为用户提供了更多的 AI 服务选项。
促进创新:开源模型的快速发展和创新,可以为商用 API 提供商带来新的思路和技术灵感,推动商用 API 的不断升级和改进。同时,商用 API 提供商在与开源模型的合作中,也可以将自己的专业技术和经验反馈给开源社区,促进开源模型的进一步发展。
开发者技能树更新
问:您认为当下的开发者可以如何更新自己的技能树来跟上时代新的需求?
答:当下的开发者为了跟上时代新的需求,需要在提升基础能力、掌握新兴技术、培养实践与协作能力等多方面更新自己的技能树,以下是具体建议:
-
提升基础能力
强化编程语言技能:深入掌握主流编程语言,如 Python、Java、C++ 等。以 Python 为例,除了掌握基础语法,还要精通数据结构、算法设计以及各种高级特性,如装饰器、生成器等,同时了解不同编程语言在不同场景下的优势和适用范围,以便根据项目需求选择最合适的语言。
深入学习数据知识:包括数据结构和算法,这是编程的基石,有助于提高程序的效率和性能。还要掌握数据库管理,如关系型数据库 MySQL、PostgreSQL,非关系型数据库 MongoDB 等的使用,理解数据建模、查询优化等技术,并且要学习数据挖掘和数据分析,掌握数据预处理、特征工程、常见算法等,能够从数据中提取有价值的信息。
加强系统设计与架构能力:学习微服务架构、分布式系统、云计算等相关知识,了解如何设计高可扩展性、高可用性的系统,掌握容器化技术如 Docker,容器编排工具如 Kubernetes,理解云平台如 AWS、Azure、阿里云的服务和应用。
-
掌握新兴技术
关注人工智能与机器学习:学习机器学习的基础算法,如监督学习、无监督学习、强化学习等,深入了解深度学习框架,如 TensorFlow、PyTorch 等,掌握自然语言处理、计算机视觉等领域的应用技术,关注人工智能领域的最新研究成果和发展趋势,如大模型、多模态等。
钻研区块链技术:了解区块链的基本原理,如分布式账本、共识机制、加密技术等,掌握智能合约的开发,熟悉主流的区块链平台,如以太坊、Hyperledger Fabric 等,关注区块链在金融、供应链、物联网等领域的应用场景和发展趋势。
熟悉物联网技术:掌握物联网的体系架构和通信协议,如 MQTT、CoAP 等,了解传感器和执行器的原理和应用,学习嵌入式系统开发,能够将硬件设备与软件系统进行集成,实现物联网设备的智能化管理和控制。
-
培养实践与协作能力
参与开源项目:通过参与开源项目,不仅可以学习到优秀的代码规范和设计模式,还能与全球的开发者进行交流和合作,提升自己的技术水平和团队协作能力。在开源社区中,积极贡献代码、参与讨论和解决问题,能够快速积累实践经验,了解行业最新的技术动态。
持续学习与自我提升:关注行业内的知名技术博客、论坛和社交媒体账号,及时了解最新的技术动态和行业趋势。参加技术会议、研讨会和线上课程,不断学习新的知识和技能,与同行进行交流和互动,拓展自己的人脉资源。
提升软技能:开发者不仅要具备扎实的技术能力,还要具备良好的沟通能力、团队协作能力和问题解决能力等软技能。在项目开发过程中,能够与团队成员、产品经理、客户等进行有效的沟通和协作,共同推动项目的顺利进行。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
技术只有能力门槛,没有性别门槛
联合国教科文组织发布的一份报告显示,在STEM 领域(科学、技术、工程和数学),全球女性研究人员仅占 29.3%,不到三分之一。这说明了,在技术这一行业中,男女比例存在显著的不平衡。从学校教育到职场环境,女性在技术相关岗位上的比例远低于男性。这种现象不仅仅体现在数量上,还反映在社会对性别的刻板印象中,即认为某些职业更适合男性。 3 月 8 日,在开源中国 OSCHINA 的直播节目《数智漫谈》上, 上海杉达学院副教授祝欣蓉却表示,技术领域是没有性别门槛的。“我们今天虽然是在讨论女性话题,但对我来说,只有能力的门槛。无论是在底层研发还是项目管理等工作中,关键在于个人的能力与贡献,而非其性别。” (微信扫码,查看直播回放) PingCAP 首席技术专家缪翎也发表了一样的看法:“主要还是看能力,无论是争取项目还是沟通工作,都与你是男性还是女性无关。” 祝欣蓉发现,不少女学生找工作时,大部分都倾向于选测试或前端岗位。“好像自然而然就往这方向走。但只要她们来问我,如果我觉得她技术不错,我一定建议她先往后端走——先做后端,之后再转前端或运营都更容易。但如果你先做销售,再想转回技术岗就比较难了。” ...
- 下一篇
AI Infra再次起飞的前夜,回顾从大数据到大模型,Data & AI Infra 的演进之路1.0-> 2.0 -> 3.0
AI Infra再次起飞的前夜,回顾从大数据到大模型,Data & AI Infra 的演进之路1.0-> 2.0 -> 3.0 (题图由即梦AI生成) 引子: 最近,笔者参加一场现场直播,直播题目是《AI Infra起飞前夜:开源、免费的模型有了,如何实现算力自由》,跟业内专家一起聊AI Infra的相关议题。我在直播访谈中,梳理了Data Infra和AI Infra的几个发展阶段。之后,在杭州参加开放原子基金会TOC的讨论,跟朋友们交流了DeepSeek等大模型对Data Infra和AI Infra对影响,以及我们如何进行前瞻性的研发和应对,那次讨论很热烈,也让我受益匪浅。之后,我又搜集了一些相关资料,有了更深的理解和感悟。作为曾经参与创建中国互联网行业第一个Inf部门(百度基础架构部),之后又在国内推动以实时特征计算、“Data-Centric AI vs Model-Centric AI” (Data-Centric AI 强调以高质量的数据驱动AI模型优化,而 Model-Centric AI 则侧重于模型结构和算法的创新)为主要特点的的AI Inf ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8安装Docker,最新的服务器搭配容器使用
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19