今年的 GenAI 发展是否需要重回 “打好地基再盖房”?
要论当前流行的开源搜索引擎,Elasticsearch 必然榜上有名,不仅在金融、电商、医疗、法律等领域,帮助 GenAI 模型生成更符合专业要求的内容,同时赋能企业构建智能知识管理系统。
Elasticsearch 开源于 2021 年,作为世界上最流行的大数据搜索引擎,其客户包括微软、甲骨文、Adobe 、苹果、沃尔玛、腾讯、阿里、滴滴、抖音等,我们常用到的 linkedin 、Wikipedia 等上面的搜索也都是使用 Elasticsearch 来完成。
日前 Elastic 8.17 正式发布,聚焦快速跟踪关键功能上,其功能将带来存储节省和搜索性能等一系列优势。这些功能包括:
-
Elasticsearch logsdb 索引模式正式发布
-
Elastic Rerank 模型的技术预览
-
Elasticsearch 查询语言(ES|QL)全文搜索的技术预览
......
随着 Elasticsearch 的不断演进,在并行化,硬件加速,数据标量量化等方面做了深入的性能优化,为超大规模的向量搜索提供了商用化的基础。同时,Elastic 也构建了广泛的 AI 生态圈,结合大模型,加速 GenAI 生成式的应用开发。
在 GenAI 发展如日中天之际,开源中国 110 期-源创会 邀请到了 Elastic 中国首席布道师-刘晓国 以《运用 Elasticsearch 进行向量搜索及 GenAI 智能应用开发》为题,为广大开发者详细描述 RAG 基本原理,Elastic 在向量搜索上的最新进展,以及如何结合 Elasticsearch 消除 GenAI 所产生的幻觉。
演讲嘉宾:刘晓国 Elastic 中国社区首席布道师
主讲议题:《运用 Elasticsearch 进行向量搜索及 GenAI 智能应用开发》
议题简介:Elasticsearch 是全球领先的大数据数据搜索及分析引擎,也是全球下载量最多的向量数据库。Elastic 作为 Search AI 公司,在向量搜索方面提供了无如伦比的性能。Elasticsearch 除了提供传统的词汇搜索,也提供和向量(密集向量,稀疏向量)搜索的混合搜索,实现多路召回,并提高搜索精度。 随着 Elasticsearch 的不断演进,在并行化,硬件加速,数据标量量化等方面做了深入的性能优化,为超大规模的向量搜索提供了商用化的基础。Elastic 也构建了广泛的 AI 生态圈,结合大模型,加速 GenAI 生成式的应用开发。本次议题将详细描述 RAG 基本原理,Elastic 在向量搜索上的最新进展,如何结合 Elasticsearch 消除 GenAI 所产生的幻觉。
Elastic 官方中文博客: https://my.oschina.net/u/3343882
点击报名:https://www.oschina.net/event/2407669
前情放送
OSCHINA:Elastic 最新的技术动态有哪些?
刘晓国:
首先,在 8.17 版本的 logsdb 索引模式中我们引入了 Elastic Rerank ,这是 Elastic 的新语义重新排名模型。重新排名可以用作现有搜索方式之上的第二阶段,无论是词法搜索、ELSER 还是密集嵌入,主要通过召回率改进实现显著的语义相关性能提升。这对于 RAG 应用程序是非常重要的,因为开发者希望将最相关的信息发送到 LLM 以生成可能的响应。
其次,我们还发布了(ES|QL)全文搜索功能的技术预览。这一全新的(ES|QL)全文搜索功能旨在进一步拓展 Elasticsearch 的搜索边界,为用户带来更为强大、便捷的搜索体验。它融合了传统 SQL 的结构化查询优势与 Elasticsearch 本身卓越的全文搜索能力,让使用者能够在同一查询语句中灵活运用两种范式。
OSCHINA:未来,GenAI 还有哪些突破口?
刘晓国:
在我们看来,我们企业的业务数据或者私有数据在不断地生成,而大模型在生产时,它的知识已经固定。如果我们直接把我们问题提交给大模型时,大模型不具备在它生成之后的知识。为了能够让大模型生成我们想要的答案,一种方式就是先把业务数据写入到数据库/向量数据库中,然后我们针对数据进行搜索。我们可以把搜素到前面的几个结果作为上下文提交给大模型,那么大模型最终生成的结果就是和我们问题相关的结果。这样搜索的结果可以避免产生幻觉。Elasticsearch 除了传统的词汇搜索,也同时提供密集向量搜索,稀疏向量搜索,并且我们还提供这几种搜索的混合搜索,从而达到更为精确的搜索结果。密集向量和稀疏向量搜索都是基于人工智能发展而来,它可以帮助我们进行语义搜索。
当然说,很大一部分的模型幻觉被解决,随着 GenAI 的发展,我们现在所讨论的,更多的是算力成本和复杂任务的自动化。
前者很好理解,无论是大数据的运算还是训练模型,我们以往所消耗的资源都是巨大的,往往一次模型训练,花费上百万甚至是上千万美金,Elasticsearch 在 GenAI 里面扮演了一个非常重要的角色,它可以做向量搜索,把任何一个数据(文本,图像,语音及视频)转换为一个向量。我们可以针对文本进行语义搜索,也可以针对图像、语音及视频进行相似性比较,从而得到最为相近的搜索结果。
而后者,更像是 GenAI 的 2.0 时代,我们要在一些复杂领域,如法律、金融、医药等专业领域做优化,这就非常考验专业数据的输入能力,当然,首先还得构建专业数据的库以及索引能力,ElasticSearch 下一步也会朝着这一方面发展。
OSCHINA:本次源创会,您将带来哪些前沿思索?
刘晓国:
肯定是 ElasticSearch 在向量搜索的一些最新成果,实际上,Elastic 的发展从 8.0 就开始支持向量搜索了,本次源创会也是对行业伙伴和使用我们产品的开发者做一个汇报,我们的目标,是把 ElasticSearch 建设成全世界最好的向量搜索引擎。
其次,GenAI 的发展在未来一定是一个重塑多行业格局和人类生活方式的强大引擎,从根本上改变企业的运营模式、产品与服务的设计理念以及决策的定制流程。所以,我也想谈谈未来的搜索引擎在一些专业领域,如教育、金融、医疗、法律等,能起到如何关键的作用。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
枫清科技高雪峰: Data-Centric新范式开启,知识引擎+大模型双轮驱动企业智能化
2024年12月,由智猩猩与智东西联合主办的2024中国生成式AI大会(上海站)在上海圆满收官。在第二日主会场进行的「AI Infra峰会」上,枫清科技创始⼈兼CEO高雪峰以《从数据到知识:AI 重塑百行千业的基石》为主题发表了主题演讲。 在演讲中,高雪峰谈到要将生成式 AI 真正应用到企业决策场景中,弥合其与决策智能之间鸿沟的技术突破点,就是利用好企业本地知识,同时将符号逻辑推理的能力和各种大模型的算法能力相融合。 枫清科技创始⼈兼CEO高雪峰 随后,高雪峰指出企业智能化的核心趋势,正在从以模型为中心(Model-Centric)的人工智能架构落地范式,转向以数据为中心(Data-Centric)这一新的人工智能落地范式。 他总结了企业智能化面临的四个典型困境:模型幻觉、可解释性、推理能力弱、安全与合规;以及企业级人工智能平台场景落地需要解决的四个技术挑战:数据孤岛、数据整合、知识校验、实时性与时效。 为此,他在演讲中表示,枫清科技可以为企业提供知识引擎与大模型双轮驱动的新一代智能体平台,通过构建全链路优化体系,帮助企业提升数据质量,将企业本地数据知识化,并融合大模型沉淀的泛化知识,...
- 下一篇
OpenNJet v3.2.0 正式发布!
在这个版本中,NJet实现重大突破,提供了动态Upstream的能力。这是一个关键的特性,使得NJet可以按需动态管理上游服务器池,从而使得业务方可以按需配置资源池,实现业务分区、算法切换;结合动态路由技术,NJet可以在不依赖外部逻辑的情况下,实现复杂的灰度需求。这个功能实现的较晚,是因为底层的动态共享内存技术在上个版本才发布,稳定后才引入进来。而且,目前的动态Upstream,还局限在HTTP 代理层面, 通用的TCP代理的动态Upstream支持,还要等下个开发周期实现。 此外,上个版本发布的“动态协议框架”能力,在这个版本中得到了具体应用。利用这个特性,我们在这个版本中快速实现了一系列的协议转换及代理功能,满足了NJet企业版及客户的需求,比如一系列的xxx over websocket, 利用websocket做传输层,实现 WEB 端直通后端的xxx服务器。具体是NJet在项目中碰到了一个不支持websocket的MQTT broker,利用“动态协议框架”, NJet仅仅利用了数百行脚本代码,就实现了一个websocket 2 MQTT proxy 模块,在后端broke...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Red5直播服务器,属于Java语言的直播服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7