GPT 模型容易被误导从而输出问题内容
微软研究院近日发布文章介绍了他们对 GPT 模型可信度的研究。文章称 GPT 模型很容易被误导,产生有毒和有偏见的输出,并泄露训练数据和对话历史中的隐私信息。
▲ https://arxiv.org/abs//2306.11698
微软联合伊利诺伊大学厄巴纳-香槟分校与斯坦福大学、加州大学伯克利分校、人工智能安全中心发布了一款面向大语言模型的综合可信度评估平台——DecodingTrust,对大模型的毒性、刻板偏见、对抗稳健性、分布稳健性、对抗演示稳健性、隐私、机器伦理和公平性等内容进行评估。
根据测试,研究者发现GPT 模型很容易被误导,产生有毒和有偏见的输出,并泄露训练数据和对话历史中的隐私信息。
研究还发现,虽然在标准基准上,GPT-4 通常比 GPT-3.5 更值得信赖,但在越狱系统或用户提示的情况下,GPT-4 更容易受到攻击,这些提示是恶意设计来绕过 LLM 的安全措施的,这可能是因为 GPT-4 更精确地遵循了(误导性的)指令。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Gartner 发布 2024 十大战略技术趋势
Gartner 最新发布了预计将在未来 36 个月内为 IT 领导者带来重大颠覆和机遇的 10 大战略技术趋势。“这些创新可以推动你更快地实现业务目标,尤其是在人工智能快速发展的时代。” 十大技术趋势具体如下: 人工智能信任、风险和安全管理 (AI TRiSM) 持续威胁暴露管理 (CTEM) 可持续技术 平台工程 人工智能增强开发 行业云平台 智能应用 全民化的生成式人工智能 增强型互联员工队伍(Augmented-Connected Workforce) 机器客户(Machine Customers) 该公司每年都会列出一份它认为下一年将在科技行业占据主导地位的 10 大趋势。每种趋势都与企业的一个或多个关键主题有关:保护和保存过去和未来的投资,在正确的时间为正确的利益相关者构建正确的解决方案,以及为内部和外部客户不断变化的环境提供价值。 在今年的清单中,其中有 5 个趋势属于“资产保护”的类别:人工智能信任、风险和安全管理 (AI TRiSM),持续威胁暴露管理 (CTEM),行业云平台,可持续技术,全民化的生成式人工智能。 Gartner 表示,实现这种保护的关键在于要深思熟虑...
- 下一篇
ScyllaDB 获 4300 万美元融资,NoSQL 数据库市场再掀热潮!
ScyllaDB是一家成立于2012年12月的美国公司,总部位于加利福尼亚州桑尼维尔。作为一家数据密集型应用程序数据库供应商,ScyllaDB生产的NoSQL数据库兼容Apache Cassandra和Amazon DynamoDB,具有可靠的低延迟和10倍的吞吐量。在2023年10月17日,该公司成功获得了4300万美元的融资。截至目前,ScyllaDB已经筹集了1.03亿美元的风险投资。 关于ScyllaDB公司 本篇内容是根据 Kyle Wiggers 发布在 TechCrunch 网站上的文章翻译整理,以下是玖章算术NineData的工程师点评: : 对于日新月异的高科技领域,NoSQL属于爷爷辈的技术名词。ScyllaDB 成立在10+年前,对标MongoDB, Cassandra和DynamoDB,依然显示其生命活力,主要的优势在于其向云原生的成功转型,精简的团队(168人)和成功的生态构建。 在市场相对萎靡的情况下,作为一个数据库引擎公司,获得了投资者的青睐,说明投资方对于优质团队的信心。当然,我们也要看到现在数据库系统的公司暂时的困境,比如去年勉强上市的MariaD...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19