模型不懂开源、不懂法,我们要做些什么?
在人工智能技术迅猛发展的当下,软件开发领域正经历着深刻变革。4月17日,开源中国成功举办以“降低风险,人工智能生成代码时代的许可安全与合规”为主题的网络研讨会,观看人数超过30万。
三位来自开源、人工智能与安全治理前沿领域的国际专家,深入探讨了人工智能生成代码面临的合规性与安全性挑战以及策略、全球开源合规实践的多样性,以及可信供应链平台在风险管控中的关键作用,为行业发展指明方向,也为企业应对新挑战提供了宝贵思路。
AI生成代码蕴藏巨大潜力,同时面临着重大挑战
人工智能生成代码已在软件开发工作流中广泛应用。谷歌超过25%的代码由人工智能编写;亚马逊通过人工智能辅助开发已累计节省2.6亿美元成本,并减少了4500名开发者一年的工作量;微软CTO预测,到2030年,人工智能将生成95% 的代码。这些数据充分彰显了人工智能生成代码的巨大潜力。
然而,随着人工智能生成代码技术的持续发展及其在软件开发流程中的深度整合,国际知名企业技术高管、开源与人工智能生态领军者 Ibrahim Haddad 博士指出,围绕许可证合规性审查、安全漏洞防范、多源许可证兼容处理、商业秘密保护以及与现有代码库集成等维度的挑战正日益凸显。
-
许可证合规。这是最显而易见的挑战之一。由于AI模型可能吸收第三方开源代码片段进行训练,其生成的代码常面临原始许可条款不明确、版权归属模糊等法律风险,导致企业难以履行开源协议义务。
-
安全漏洞风险。人工智能生成的代码实际上可能会引入常见的漏洞,它可能包括易受攻击的代码片段,这些片段来自其学习的数据集。在实践中,人工智能本质上无法理解安全代码,除非它已经接受了相关训练。
-
许可证兼容风险。人工智能生成的代码可能包含源自训练数据的开源代码片段,而这些片段往往附带特定许可证。若这些代码的许可证与项目现有许可证不兼容,将导致法律合规的模糊性风险——尤其在AI系统无意识复用受版权保护的训练代码时,企业可能面临侵权纠纷。
-
供应链风险:当AI生成代码包含复用片段时,下游用户将难以构建完整的溯源记录,包括依赖关系、许可证信息及已知漏洞等关键元数据。这种信息断层会直接威胁软件供应链安全。
-
数据隐私与商业秘密泄露风险。当开发者将数据输入AI模型时,对模型提供方的数据使用控制权缺失,可能导致隐私数据滥用或商业秘密泄露。这一风险在涉及敏感信息处理的场景中尤为关键。
事实上,人工智能生成代码还面临许多其他的挑战,例如缺乏解释能力,与现有代码库的整合,过度依赖人工智能工具等等。Ibrahim Haddad 博士指出,必须系统性地构建应对机制以化解这些风险,方能最大化地发挥技术工具的价值。
例如,面对人工智能可能无意中生成违反开源协议的代码片段,或引入未知安全漏洞,同时其与既有代码的兼容性亦需严格验证等问题,Ibrahim Haddad 博士提出,需部署恰当策略以平衡风险管控与创新效率,在不拖慢创新步伐的前提下,通过工具链优化与流程设计(如合规审查、安全扫描及代码溯源机制)实现风险缓释,推动人工智能生成代码的安全落地。
开源合规既是风险控制, 也是价值管理
在人工智能生成代码时代,企业如果没有做好开源合规治理,会面临多方面的风险和负面影响,比如项目延期,引入安全漏洞,客户信任流失,社区信任受损,引起知识产权风险等等。
“不合规的代价其实远高于合规本身。”这不仅仅是为了“合法”,更是构建长期可持续业务的基础。 Ibrahim Haddad 博士建议,企业应该建立完善的合规流程,包括代码扫描、组件识别、许可归属标注、修改记录追踪,并梳理清晰的义务清单。
“我们见过太多‘生命线级’的合规风险。在AI生成代码的时代,模型‘懂开源、懂法律'是个伪命题。”开源中国董事长马越以实战经验敲响警钟,并用用三个维度解剖AI生成代码面面临的开源合规风险。
第一,产品风险——“起个大早,赶个晚集”。在 AI 生成代码的时代,模型“懂开源、懂法律”是个伪命题。很多开源组件默认可以使用,但一旦发现生成的代码违反开源协议,产品可能被迫叫停,错过关键发布时间窗口。对企业而言,这等于“搬起石头砸自己的脚”,严重时甚至会丢掉整个市场先机。
第二,供应链风险——“看不见的炸弹”。AI 生成的不合规代码就像病毒,极具隐蔽性但具有传染性。比如,一家企业用大厂的 AI 工具生成了代码,未经严格审核就交付给甲方,一旦被发现包含违规代码,就像是将病毒传染给了客户,结果是甲乙双方的信任关系崩塌。“开源合规不应该是产品发布前 QA 测试团队的工作,而应贯穿整个研发生命周期,尤其要‘左移’到开发初期阶段。像许可证扫描、组件来源识别、变更追踪等工具,必须集成进 AI 开发的工具链中,实现自动预警,尽早发现隐患,防止‘隐形爆炸’。”马越对此提出具体解决方法。
第三,信任风险与商业风险。在中国市场,甲乙方合作关系本就敏感,一旦交付出现问题,乙方的信誉会受到严重质疑。客户原本是“请你来解决问题的”,结果反而引入了更大的合规风险,这在商业上是难以接受的。
对此,马越强烈建议:要建立代码训练数据的透明机制,定期发布清晰报告,与客户保持公开沟通,从源头上建立信任。“Gitee 也在积极推动这一点,我们已经积累了 17 年的开源经验,目前平台聚集了超过 1000 万名开发者。通过 AI 技术,我们希望进一步提升代码可见性和透明度,因为每一行代码的合规性,决定了整个项目的可持续性。”
Ibrahim Haddad 博士还表示,从商业角度出发,开源合规已经成为并购尽调中的关键环节。如果一家企业计划融资或被收购,合规能力会直接影响其市场估值和交易效率。“开源合规不仅仅是履行许可义务,它还能帮助你全面了解自身产品中使用了哪些开源组件,厘清自身的技术价值在哪里。比如,如果你在中间件层使用了大量开源组件,那你的真正技术价值可能在应用层或底层架构中。”总而言之,开源合规不仅是风险控制,更是价值管理,能帮助企业明确边界、建立信任、提升效率,同时更好地融入开源生态。
马越也对此表示赞同:“今天,尤其在美国,AI 代码生成领域的并购已成为热点。从 Google 到 IBM 收购 Red Hat,大家越来越认识到:代码已成为企业最核心的数字资产,而资产的‘成色’也取决于它的合规性。合规不再是‘额外成本’,而是核心能力,是保障商业持续发展的底层逻辑。”
君同未来CEO 韩蒙认为,建立一套真正避免代价、可持续的合规文化,需要长期、持续且深思熟虑的投入。
对于“如何建立合规文化”,韩蒙提出了四点要求。一是提升代码合规的教育与意识,这是基础也是起点。要让团队真正理解开源许可证的要求、安全风险的种类与后果,就必须开展系统性的培训,提升全员的合规意识。二是明确流程与机制。必须建立清晰的合规政策、审批制度以及审查和审计流程。正如马越先生所提到的,规范化的机制可以大幅降低风险,提高处理效率。第三,推动自动化工具的使用。合规工具必须“左移”到开发流程前期。例如,自动化的许可证扫描、漏洞检测与组件追踪工具,可以极大减轻工程师负担,并在早期发现问题。四是领导力的支持至关重要。如果企业的领导者能明确将合规作为公司的工程目标之一,而不仅仅是法务层面的任务,这种价值导向将极大推动组织文化的转变。
降低风险的核心,在于构建可信的溯源平台以及供应链平台
“人工智能生成代码管理的核心在于构建可信溯源体系。”马越认为,随着企业代码库中人工智能生成内容占比的快速提升,需重点突破三大治理难题:代码权属界定、许可证合规性管理及开发责任链追溯,这要求将溯源能力系统化植入创新价值链。
技术实施层面,他建议采取"基因级"溯源架构,重点完善元数据管理三要素:第一,强制人工智能工具输出携带数字指纹,完整记录训练数据溯源信息(包括GitHub仓库URL、Commit ID等数字凭证);第二,标注模型版本号与数据过滤策略(如商业代码排除规则);第三,生成不可篡改的时间戳并记录完整操作链,实现开发行为可审计、权责可追溯。
马越补充道:"该方案已通过实践验证,某头部金融机构接入我们的智能流水线后,结合动态代码扫描与许可证知识图谱技术,成功将GPL协议冲突率降低82%。这证明在CI/CD流程中集成实时合规引擎具有显著价值。"
随着第三方依赖增加,供应链安全管理变得关键。“AI生成代码的合规问题并非中国特有,而是一个全球性议题。”Ibrahim Haddad 博士表示,无论是在中国、美国还是欧盟,全球开源生态系统的参与者都对这一问题高度关注。
建立可信的开源软件供应链平台,不仅有助于管理日益复杂的第三方软件开发生命周期,还能够为开源代码的使用提供一个安全的环境,防止恶意代码注入,增强对依赖关系的识别和控制。同时,可信平台通过标准化流程帮助企业识别许可风险,降低侵权风险。
Ibrahim Haddad 博士建议人们关注OpenChain 与 SPDX——它们是 Linux 基金会牵头推动的国际标准,可以帮助企业全面、系统地识别、记录并追踪第三方组件,从而构建起可信、透明的全球软件供应链。
韩蒙建议,利用可信的制品库来有效管理第三方依赖,以减少恶意代码注入、供应链攻击和依赖混淆等风险。通过集中存储和管理依赖关系,提供安全性扫描、检测漏洞及许可问题的服务,使用签名确保制品的完整性和不可篡改性,并通过代理和缓存机制来避免供应链风险。
此外,对于人工智能生成的代码,韩蒙认为应集成代码追溯能力到整个价值链中,建立细颗粒度的工具链以支持合规性和应对开发挑战,这一点也非常重要。可信平台不仅在传统方法中发挥作用,在处理人工智能生成代码这一新兴且不断变化的环境里同样重要。
Ibrahim Haddad 最后表示,尽管人工智能生成代码面临诸多风险和挑战,但正通过提升开发效率、加速创新迭代、缩小团队能力差距及优化工作体验等方面重塑软件开发模式,释放技术生产力。
微信扫码,观看直播回放:

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Bytebase 3.5.1 - 扩展了对数据库的连接参数支持
🚀 新功能 在 SQL 编辑器中支持 Cosmos DB SQL 语法中的 WHERE 子句和 SELECT 项目。 支持使用 Elasticsearch 客户端库连接 OpenSearch。 🎄 改进 扩展了对 PostgreSQL、MySQL、Microsoft SQL Server 和 Oracle 数据库的连接参数支持。 通过消除约束和索引的冗余 DROP 语句,优化了 PostgreSQL 表的删除。 支持 OceanBase 服务器端标识符大小写敏感性。 增强了二进制数据可视化。 更新了布尔、二进制、十六进制和文本表示的格式选项。 在列和单个单元格级别实施可定制的二进制显示首选项。 📕 安装及升级 新安装 https://www.bytebase.com/docs/get-started/self-host/ 升级 https://www.bytebase.com/docs/get-started/upgrade/ 升级前请备份元数据库,升级后无法回退版本。 💡 更多资讯,请关注 Bytebase 公号:Bytebase
- 下一篇
深圳市机器人产业链总产值首破 2000 亿元
深圳先进院联合深圳市机器人协会发布的《深圳市机器人产业发展白皮书(2024年)》显示,深圳2024年机器人产业产业链总产值为2012亿元,首次突破2000亿元,相较于2023年的1787亿元,同比增长12.58%,增速略高于2024年深圳市战略性新兴产业增加值10.50%的增速。 值得关注的是,2024年,深圳新增机器人企业达14534家,相较于2023年10408家同比增长39.64%,呈现出显著增长态势。 其中,深圳拥有机器人相关专利的企业数量达3915家,相较于2023年的3699家,同比增长6.04%;2024年新增企业拥有机器人相关专利的企业数量达223家,相较于2023年的20家同比增长超10倍。 从深圳机器人产业专利数量来看,2024年专利申请20531件,相较于2023年的15145件同比增长35.56%,专利授权7575件相较于2023年的5564,同比增长36.14%。尽管部分数据尚未完全公开,但仍延续了自2015年以来的爆发式增长态势。 从2024年深圳机器人企业数量结构来看,工业机器人企业数量占比为43.75%,非工业机器人企业数量占比为56.25%。深圳市工业...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Mario游戏-低调大师作品
- CentOS8编译安装MySQL8.0.19
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS6,7,8上安装Nginx,支持https2.0的开启