不同语言使用 AI 大模型的成本不同:英语最便宜、中文是英文成本的 2 倍
推特用户 Dylan Patel(@dylan522p) 发布的一张图片显示,大语言模型使用不同语言的成本差异很大。
这名用户展示了一张牛津大学的研究显示成果。根据对GPT-4和其他常见大语言模型的研究,由于 OpenAI 等服务所采用的服务器成本衡量和计费的方式,英语输入和输出的费用要比其他语言低得多,其中简体中文的费用大约是英语的两倍,西班牙语是英语的 1.5 倍,而缅甸的掸语则是英语的 15 倍。
根据牛津大学的研究,让一个 LLM 处理一句缅甸语句子需要 198 个词元(tokens),而同样的句子用英语写只需要 17 个词元。词元代表了通过 API(如 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 2)访问 LLM 所需的计算力成本,这意味着缅甸语句子使用这种服务的成本比英语句子高出 11 倍。
词元化模型(即人工智能公司将用户输入转换为计算成本的方式)意味着,除了英语之外的其他语言使用和训练模型要贵得多。
这是因为像中文这样的语言有着不同、更复杂的结构(无论是从语法还是字符数量上),导致它们需要更高的词元化率。例如,根据 OpenAI 的 GPT3 分词器 ,“你的爱意(your affection)”的词元,在英语中只需要两个词元,但在简体中文中需要八个词元。尽管简体中文文本只有 4 个字符(你的爱意),而英文有 14 个字符。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
百度 CTO 王海峰解读文心大模型 3.5 最新进展
百度首席技术官王海峰在近日举办的ACM 中国图灵大会上,就文心大模型的核心技术进行了解读。 文心一言是百度自主研制的知识增强大语言模型,首先从数万亿数据和数千亿知识中融合学习得到预训练大模型,在此基础上采用有监督精调、人类反馈的强化学习和提示等技术,并具备知识增强、检索增强和对话增强等技术优势。 王海峰解读了文心大模型3.5的核心技术创新,通过飞桨与文心协同优化,文心大模型3.5实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等,模型效果提升50%,训练速度提升2倍,推理速度提升30倍。 在基础模型训练上,采用了飞桨最先进的自适应混合并行训练技术及混合精度计算策略,并采用多种策略优化数据源及数据分布,加快了模型迭代速度,显著提升了模型效果和安全性。同时,百度研发团队创新了多类型多阶段有监督精调、多层次多粒度奖励模型、多损失函数混合优化策略、双飞轮结合的模型优化等技术,进一步提升模型效果及场景适配能力。 在知识增强和检索增强基础上,文心大模型3.5提出了“知识点增强技术”,使得模型能够更好地利用精细的知识点来提升理解生成等方面的能力,进而提升对世界知识的掌握和运用。 在推理方面...
- 下一篇
每日一博 | 面向未来的开源 OLAP 技术架构探讨以及选型实践
摘要:本文将介绍开源大数据 OLAP 的演化过程和最佳实践。文章将围绕下面六点展开: 1.开源 OLAP 综述 2.OLAP 场景思考 3.开源数据湖/流式数仓解决方案 4.StarRocks 介绍 5.客户案例 6.未来规划 一、开源 OLAP 综述 基于历史发展和开源社区的火热,现在的OLAP技术可以用百花齐放四个字来形容。 如图中最左边这一部分,是现在比较流行或者已经是业界标准的 OLAP 数据仓库/LakeHouse,包括 StarRocks、Doris、ClickHouse。第二部分是 SQL on Hadoop,该技术于10年前开始,以 HDFS 平台或者 OSS 为存储底座,包括 Presto 以及分支出来的 Trino、Impala。第三部分是预处理/Cube/NoSQL,已经使用得越来越少,麒麟、Druid 社区以及背后的商业化公司活跃度不高,Hbase 目前主要用在 Serving 的场景,社区相对比较老,稳定性尚可,解决了一部分业务场景,应用规模不小,但热度在逐渐下降。第四列是离线部分,目前的事实标准是 Spark,比较老的技术栈则是 Hive。 最底下这一部分是...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Windows10,CentOS7,CentOS8安装Nodejs环境
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,CentOS7官方镜像安装Oracle11G