首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://my.oschina.net/u/4611872/blog/18683173

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

向量检索算法:从哈希、树到量化与图

向量检索这门技术,其发展由来已久,可以追溯到上世纪六七十年代。1975 年发表的 KD 树算法,就是早期经典的高维数据检索算法之一。然而,此后近四十年间,向量检索长期处于冷门状态,并没有特别多的应用需要它。 直到 2015 年,ImageNet 图片分类数据集及何恺明教授的 ResNet 等突破性论文引爆了深度学习,使得模型在多个任务上超越人类。推荐系统和搜索引擎快速成为向量检索技术主要落地场景,向量引擎也由此开始大规模应用。 大模型爆发又掀起第二轮热潮:基于向量检索的 RAG 架构,已成为解决模型幻觉、实现知识实时更新的关键技术,推动其在多模态、企业知识库等场景爆发式应用。 不久前,开源中国直播栏目《数智漫谈》邀请到了傅聪博士,分享了向量检索技术的发展情况。傅聪于浙江大学计算机博士毕业,曾赴美国南加州大学访问研究,其主导发明的 NSG、SSG、PSP、MAG 等高性能检索算法,已落地为千亿级向量检索系统,成为工业界大规模检索的标杆方案。目前,傅聪博士在shopee(新加坡)担任资深算法专家,专注于 AI 大规模应用落地方面的研究。 微信扫码,观看直播回放: 本文根据直播整理,介绍四种...

HDFS迁移:企业数据迁移的高效之旅与优化攻略

在数字化浪潮的冲击下,企业数据量呈爆炸式增长,大数据迁移成为企业优化数据架构、提升数据价值的关键举措。而 HDFS(Hadoop Distributed File System)作为分布式存储的基石,其数据迁移操作尤为重要。HDFS DistCp(分布式拷贝)工具因其高效、可靠的特点,成为众多企业进行大数据迁移的首选。本文将从技术角度深入探讨 HDFS DistCp 迁移的“爽”与“痛”,并分享实用的调优手段与宝贵经验,其中重点结合了袋鼠云为某综合性集团进行数据迁移的实战经验。 高效之旅:HDFS迁移的优势与便捷性 高效的数据复制能力 HDFS DistCp 利用 MapReduce 框架实现分布式的数据复制,能够同时启动多个任务并行处理数据拷贝任务,大大提高了数据迁移的效率。在迁移大规模数据集时,DistCp 可以充分利用集群的计算资源,将数据块分散到多个节点上进行复制,避免了单点瓶颈。例如,在一个拥有数百个节点的 Hadoop 集群中,使用 DistCp 迁移一个包含数 TB 数据的目录,可以在短时间内完成,相比传统的单线程拷贝工具,速度提升数十倍甚至上百倍。其工作原理是将数据拷贝...

相关文章

发表评论

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat

Apache Tomcat

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse

Eclipse

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。