Jina AI 开源中英和英德双语 8K 向量模型
在 Jina Embeddings 英语向量模型突破百万下载后,Jina AI 宣布又正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。 技术亮点 8K 输入:长文本处理更得心应手 在 RAG 应用里,文本就像被切成了多个块,通过 Embedding 模型变成向量,然后存进数据库。当你搜索时,系统会把这些文本块的向量和你的搜索词比对,找到最匹配的文本。 传统模型最多只能处理 512 Token 的文本,面对更长文本时,就力不从心,尤其是预测的时候。 但 Jina Embeddings v2 能处理高达 8k 的输入,能够实现从实体、句子、段落到整个篇章的多粒度向量表示。实际应用的时候,可以将这些不同层次的向量结合起来,实现更为精准的匹配。此外,也支持按语义切割,获得更佳的搜索效果。 8K token,也就是说一整版人民日报的内容可以压缩成一个向量! 技术创新:JinaBert 架构 Jina Embeddings 系列模型均基于 Jina AI 自研的 Jina...