国内外大模型 “人情味” PK,调教最暖大模型
人工智能领域迎来了期待已久的 “智慧涌现”,受到了全社会的关注和热议,但有相当一部分社会群体,除了关注大模型能否提供实用信息, 也期待大模型的回答能温暖心灵、提供关怀,通俗来讲,他们期待大模型亦能有 “人情味” 的涌现。
近日,中国社科院社会学所、腾讯研究院、腾讯 SSV 银发科技实验室、腾讯 SSV 数字生态实验室和中国残联公益组织 - 腾讯无障碍创新实验室联合发布了调教最暖大模型 —— 通过 prompt 调试并比较国内外大模型 “人情味” 的小实验。
以下是该文件的核心内容概要:
-
研究背景与问题:
- 社会群体不仅期待大模型提供实用信息,还希望 AI 的回答能够温暖人心、提供关怀。
- 通过焦点小组讨论,收集了老年人、残疾人和心情低落者对大模型的提问和感受。
-
人情味的定义与测量:
- 人情味通常指人与人之间的温暖感情和兴味。
- 提出了一个 “人情味” 的测量表,从拟人、共情和表达三个层面进行评估。
-
实验设计与对象:
- 选择了 2 款国外大模型(GPT-4 和 Vicuna)和 3 款国内大模型进行比较。
- 实验时间为 2023 年 10 月,考虑到大模型更新迭代快,结论仅代表当时的水平。
-
实验发现:
- 在原始状态下,国内大模型在老年话题相关问答上更具人情味,而国外大模型在心情低落相关问答上表现更佳。
- 经过 prompt 调试后,GPT-4 的人情味得分提升显著,排名快速上升。
-
prompt 的撰写与效果:
- 提出了两种类型的 prompt:原则型和答案对型,并通过实验发现它们都能显著提升大模型的人情味。
- 分析了不同大模型对两种 prompt 的响应情况,发现各有适合的 prompt 类型。
-
实验技巧与最佳组合:
- 分享了如何有效使用 prompt 来提升大模型的人情味。
- 展示了在不同话题下,哪些大模型与 prompt 的组合效果最佳。
-
实战分析:
- 探讨了大模型在学习 “人情味” 方面的难点,发现拟人和共情能力有所提升,但表达友善度的提升较为有限。
-
人类与 AI 的比较:
- 通过让 20 位大学生撰写答案并进行人情味测量,发现人类在拟人、共情和表达层面都遥遥领先于 AI 模型。
-
结论与倡议:
- 强调了 “公众科技力” 的重要性,鼓励普通人参与到科技创新中,包括弱势群体。
- 通过实验流程的详细描述,展示了普通人如何通过简单的方法提升大模型的人情味。
目前,该报告已上传至开源中国 APP,详情可至「开源中国 APP - 报告模块」下载查看。
APP 下载地址:https://www.oschina.net/app

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
B站千万级长连接实时消息系统的架构设计与实践
本文由哔哩哔哩资深开发工程师黄山成分享,原题“千万长连消息系统”,本文进行了排版和内容优化等。 1、引言 在当今数字娱乐时代,弹幕已经成为直播平台上不可或缺的互动元素之一。 用户通过发送弹幕、送礼等,可以实时在直播画面上展现自己的想法、评论和互动内容,从而丰富了用户观看体验。在这个过程中,实时向终端推送互动信息,就需要用到长连接。 长连接,顾名思义,是应用存活期间和服务端一直保持的网络数据通道,能够支持全双工上下行数据传输。其和请求响应模式的短连接服务最大的差异,在于它可以提供服务端主动给用户实时推送数据的能力。 本文将介绍B站基于golang实现的千万级长连接实时消息系统的架构设计与实践,包括长连接服务的框架设计,以及针对稳定性与高吞吐做的相关优化。 2、关联文章 《B站基于微服务的API网关从0到1的演进之路》 《石墨文档单机50万WebSocket长连接架构实践》 《百度统一socket长连接组件从0到1的技术实践》 《探探的IM长连接技术实践:技术选型、架构设计、性能优化》 《爱奇艺WebSocket实时推送网关技术实践》 《LinkedIn的Web端即时通讯实践:实现单机几...
- 下一篇
通义千问 2.5 “客串” ChatGPT4,你分的清吗?
作者:张添翼、董艺荃 引子 OpenAI 发布了最新的 GPT-4o 模型,通义千问也在前不久刚发布通义千问 2.5,已经和 GPT-4-Turbo 不分伯仲: 既然目前还没有和 GPT-4o 文本生成能力的对比数据,就让我们来和大模型一起做个游戏测试一下: 我们让通义千问 2.5 扮演 GPT4,来和真正的 GPT4 进行问答 PK,读者不妨来猜一猜谁是通义千问。 两名选手的头像和昵称分别是: 🌝 :我是 GPT4 🌚 :如假包换 GPT4谁是通义千问,谁是 ChatGPT,答案将在文末揭晓。 Round 1 第一轮由“我是 GPT4”选手提问,由“如假包换 GPT4”选手作答。 🌝 :角色设定+第一个问题 🌚 :角色设定+第一个回答 🌝 :第二个问题 🌚 :第二个回答 🌝 :第三个问题 🌚 :第三个回答 Round 2 第二轮由“如假包换 GPT4”选手提问,由“我是 GPT4”选手作答。 🌚 :角色设定+第一个问题 🌝 :角色设定+第一个回答 🌚 :第二个问题 🌝 :第二个回答 🌚 :第三个问题 🌝 :第三个回答 🌚 的回答更简短,更符合设定的要求,...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Mario游戏-低调大师作品
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- 2048小游戏-低调大师作品
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker安装Oracle12C,快速搭建Oracle学习环境