网易有道Qanything开源:探索个性化问答的新纪元
网易有道最新开源力作:QAnything引擎。是基于RAG(Retrieval Augmentated Generation)的引擎,可以用于建立本地知识库做问答,解锁本土ChatGPT般的问答体验。☝
「Qaynthing」是一个成熟的系统,有着准确率高、速度快、纯离线,易于使用(一键部署),占用资源小(只要16G显存即可)的特点。
目前,「Qaynthing」已经在有道的多个产品中落地应用,包括有道词典的文档问答,有道速读,以及有道课程业务(高中、少儿围棋等)的客服系统等,在有道合作的2B客户的场景中已经落地应用。
chatgpt的大模型能力很强,但其训练耗时很长,无法利用用户的私有数据,且有胡乱编造的幻觉问题。
与ChatGPT相比,有道自研的「Qaynthing」有自己的突出优势。它能够快速塞入各种格式的文档,如doc、ppt、excel、图片、pdf等,系统将在很短的时间内对这些文档进行处理并根据语义建立知识库,用户可以基于这样的知识库做各种问答。系统将理解用户的意图,在全库中寻找相关的内容,理解、提取用户关心的要点,并加以总结后呈现给用户。
「Qaynthing」包含的模型和系统代码,我们都全面开源了。此次开源还包含了一个应用系统,用户可以通过前端页面上传文档,直接使用。也可以通过我们提供的API接口做二次开发,搭建诸如智能客服等应用。用户直接一键下载我们的代码和模型即可开始使用。
在模型部分,我们开源了有道自研的BCE embedding和rerank,用来做语义检索和相关性排序。得益于有道在翻译领域的积累,有道自研的embedding/rerank模型在跨语种场景下表现尤其好。比如知识库的文档有中文、英文混合语种的内容,当用中文去问问题的时候,我们能够很好的检索出英文内容。目前所有的开源embedding模型都忽略了跨语种检索的问题,在跨语种上表现不佳。此外,开源的embedding很多时候忽略了RAG的问题,只是单纯追求语义相似。而我们的embedding和rerank模型专门针对RAG的场景做了训练,所以有着更高的准确率。
在系统部分,我们对文档的解析、切片、建库、embedding/LLM的推理做了大量的优化,具有稳定、速度快、易于安装使用的特点。
目前该项目还处于不断迭代的阶段,欢迎大家参与开发,并给予我们更多反馈。
官网地址:https://qanything.ai

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
探索 Zadig 自测模式,一套环境多人协同,释开发者创造力!
在日常开发中,研发工程师经常遇到环境不足、环境管理混乱以及互相抢占环境的问题,这种情况不仅使得研发工程在等待环境准备和切换中花费大量宝贵的工作时间,无法充分发挥创造性,还直接影响了项目的进度和质量。对于业务架构简单、服务数量较少的情况,往往会选择扩展出一套完整的新环境来满足不同研发同时自测联调的诉求,减少不必要的等待时间。而面对复杂的业务场景,一套测试环境中可能包含成千上百个服务,额外搭建这样一套完整的环境成本极高,甚至由于一些服务的基础架构的原因,复制多套环境几乎不可能。 为了应对上述痛点问题,Zadig 提出了一种低成本搭建子环境的解决方案。在 Zadig 自测模式的子环境中,只需部署少量服务,并与基准服务进行交互,实现了更为高效的开发和联调流程。 在本文中,我们将深入探讨 Zadig 自测模式的基本原理、应用场景、管理员操作细节和工程师在日常使用中的实际操作等。 基本原理 自测模式是 Zadig 为降低环境管理复杂度和部署成本而推出的一种面向开发者的功能模块。当开启了环境的自测模式后,该环境则成为基准环境,该环境拥有完整的服务调用链。没有灰度标的请求会在基准环境中进行调用,调用...
- 下一篇
基于Hologres+Flink的曹操出行实时数仓建设
作者:林震|曹操出行实时计算负责人 曹操出行业务背景介绍 曹操出行创立于2015年5月21日,是吉利控股集团布局“新能源汽车共享生态”的战略性投资业务,以“科技重塑绿色共享出行”为使命,将全球领先的互联网、车联网、自动驾驶技术以及新能源科技,创新应用于共享出行领域,以“用心服务国民出行”为品牌主张,致力于打造服务口碑最好的出行品牌。 作为一家互联网出行平台,主要提供了网约车、顺风车、专车等一些出行服务。打车为其主要的一个业务场景。用户会在我们的平台中去进行下单,然后我们的系统会给司机进行派单,接到订单之后,进行履约服务。结束一次订单服务后,乘客会在平台做出支付。 曹操出行业务痛点分析 整个流程中这些数据会流转到我们的业务系统,主要会有营销、订单、派单、风控、支付、履约这些系统。这些系统的数据会进入到RDS数据库,流转到实时数仓中去做一个分析和处理。最终数据会进入到不同的使用场景中,比如实时的标签,实时大屏、多维BI,还有业务监控以及算法决策。 在传统lambda架构中,架构主要会分做实时数据流和离线数据流。在实时链路中,业务数据库会在RDS中通过Canal、Binlog同步的方式进入K...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS7,CentOS8安装Elasticsearch6.8.6