Jina AI 开源中英和英德双语 8K 向量模型
在 Jina Embeddings 英语向量模型突破百万下载后,Jina AI 宣布又正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。
技术亮点
8K 输入:长文本处理更得心应手
在 RAG 应用里,文本就像被切成了多个块,通过 Embedding 模型变成向量,然后存进数据库。当你搜索时,系统会把这些文本块的向量和你的搜索词比对,找到最匹配的文本。
传统模型最多只能处理 512 Token 的文本,面对更长文本时,就力不从心,尤其是预测的时候。
但 Jina Embeddings v2 能处理高达 8k 的输入,能够实现从实体、句子、段落到整个篇章的多粒度向量表示。实际应用的时候,可以将这些不同层次的向量结合起来,实现更为精准的匹配。此外,也支持按语义切割,获得更佳的搜索效果。
8K token,也就是说一整版人民日报的内容可以压缩成一个向量!
技术创新:JinaBert 架构
Jina Embeddings 系列模型均基于 Jina AI 自研的 JinaBert 架构,这是首次将 ALiBi 应用到编码器上,该架构专为长文本任务优化,直接在 Attention 层处理位置信息,让模型更准确地捕捉词语间的关系。就算是超长文本,也能轻松应对。
这一技术创新让模型在处理长文本时更加强大,也为 RAG 应用带来了更多可能性。无论是解读法律文件、研究医学文献、还是文学分析,Jina Embeddings 系列模型都表现出色,任务的准确率和效率都大大提升。
双语支持:无缝跨语言交互
双语模型能把中文(或德文)和英文映射到同一个向量空间。即使是不同语言,只要含义相近,它们在向量空间里就很接近。
尽管很多模型也声称支持多种语言,但由于英语在互联网上的主导地位,以及训练阶段大量使用机器翻译文本,这些模型往往对某些人群、主题或话题存在偏见,其影响会在下游任务中进一步放大。Jina AI 则专注于优化 2 种语言的向量表征,严格把关训练数据,力求把偏见降到最低,并确保性能超越那些支持多语言的大型模型。
用 Jina Embeddings,不管是在 RAG 聊天机器人里,还是给文本分类、做摘要、分析情感,都能把不同语言的文本当作同一种语言来处理,让多语言应用的构建变得无比丝滑。用中文搜中文资料,或者中文搜英文、英文搜中文,都能得到又准又顺的结果。Jina Embeddings 助力您打造和全球用户无障碍沟通的新时代!
MTEB 排行榜:性能领先
Jina Embeddings v2 系列模型在 MTEB 排行榜上,在文本分类、检索、重排、摘要等任务上均有优势。并且输出和 OpenAI 完全一致,是 OpenAI ada 002 模型的理想替代开源解决方案。
jina-embeddings-v2 的双语模型以 322MB 的轻巧体积(包含 1.61 亿参数),输出维度为 768,能够在普通计算机硬件上高效运行,无需依赖 GPU,极大地提升了其实用性和便捷性。
最近,在 Standford HAI 发布的 LoCo 性能测试中,Jina Embeddings 同样名列前茅。
Jina AI 方面表示,未来将持续扩展多语言 8k 向量模型家族,支持更多语言。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Milk-V Vega: 全球首款 RISC-V 万兆开源交换机正式发售
MilkV 于去年 8 月亮相了“全球首款开源万兆 RISC-V 网络交换机 Milk-V Vega”。时隔数月,该产品现已上架官方淘宝店开售,定价 799 元。 据介绍,Milk-V Vega是 Milk-V 面向新一代网络架构开发的一款小体积、高密度盒式开源万兆网络交换机,为用户提供宽带、语音、视频、监控等多业务统一承载平台,多网融合覆盖全业务;搭载国产RISC-V高可靠网络交换芯片,帮助企业与用户大幅简化网络架构,降低能耗成本与运维成本;可广泛应用于数据中心、园区、大中型企业网络、酒店、科研教学等场景。 Milk-V Vega支持完备的二层网络协议处理功能,包括 L2 桥接,L2 组播和风暴抑制等;支持基于流、端口、协议、子网的 VLAN 功能;支持 STP,RSTP 和 QinQ 功能;支持防 DOS 攻击,黑白名单和协议包滤除功能;支持滤镜,链路聚合,OAM 报文发送和端口保护功能;支持入口及出口的 ACL 功能,还支持同步以太网,1588 功能。 同时 Milk-V Vega 作为全球首款 RISC-V 开源万兆交换机,为开发者提供了以下特性: 基于开源 Linux 系统...
- 下一篇
Wok-Server —— 轻量级 Nodejs 后端框架
Wok-Server是一个简洁易用的 Nodejs 后端框架,使用 Typescript 开发,有完整的类型约束和定义,注释详细,文档齐全,支持国际化。 主要功能:配置,日志,国际化,校验,缓存,MVC,mysql,mongodb ,周期任务 。 查看文档 优点 学习成本较低,函数式为主,少量面向对象,未使用代理和装饰器等增强技术 功能简单,使用方便,保持克制,不引入太多特性 轻量封装,最大限度兼容已有生态,支持集成第三方 http 相关的库来处理请求 支持国际化,自带多种语言的支持,国际化内容支持扩展 有完整的类型约束和定义,结合 IDE 的代码补全功能,开发效率高 注释详细,文档就在代码中,方法和参数都有详细说明,可在 IDE 的辅助下方便查看 Hello world 安装: npm i wok-server --save 入口文件: import { startWebServer } from 'wok-server' startWebServer({ routers: { '/': async exchange => exchange.respondT...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS关闭SELinux安全模块
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS6,CentOS7官方镜像安装Oracle11G
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8编译安装MySQL8.0.19