首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://my.oschina.net/u/3859945/blog/17101038

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

网页结构建模在低质采集站上的识别应用

导读 百度搜索是全球最大的中文搜索引擎,拥有着几十亿级的流量,作弊团伙通过各种各样的手段妄想从巨大的流量中不劳而获。搜索反作弊团队维护百度搜索生态安全和质量,经过不断探索并利用前沿技术过滤低质作弊网页,保护真正付出劳动的站长的利益。本文介绍了基于MarkupLM的网页建模方式,引入XPath embedding自动化提取作弊页面结构特征,并与文本结合来进行采集站点识别。 01 背景 1.1业务背景 采集是指网站维护人员(下文中统称站长)通过程序或者人工手段,将他人网站的内容复制到自己的网站中的行为。优质的采集网站会在原有内容的基础上进行加工,为用户输出更有价值的内容,比如删掉不必要的内容、高成本的编辑和内容的重新排版等。而少量站长为了利用搜索引擎获取更多不法流量,无视用户的浏览体验,从别处大量采集内容并通过使用一些作弊手段来提升自身排名。 恶劣采集网站的展现会使得投入大量精力建设优质内容的站长流失本该属于他们的流量,造成站长获得的收益与付出的精力不匹配。长此以往,互联网上的原创内容将会越来越少,因此识别并打击这部分作弊站点,是维护站长创作公平性和搜索内容生态环境质量的关键。 △采集示例...

日志服务 SQL 引擎全新升级

作者:戴志勇、顾汉杰(执少) SQL 作为 SLS 基础功能,每天承载了用户大量日志数据的分析请求,既有小数据量的快速查询(如告警、即席查询等);也有上万亿数据规模的报表级分析。SLS 作为 Serverless 服务,除了要满足不同用户的各类需求,还要兼顾性能、隔离性、稳定性等要求。过去一年多的时间,SLS SQL 团队做了大量的工作,对 SQL 引擎进行了全新升级,SQL 的执行性能、隔离性等方面都有了大幅的提升。 SQL 引擎重磅升级 计算引擎切换为 C++ 版本,充分利用 CPU 的 SIMD 指令集加速能力。 计算存储融合,将计算和存储(只读)并入一个进程,减少数据转换和拷贝开销。 Pipeline 计算模型支持细粒度并行,充分释放单机多核 CPU 的计算能力。 调度模型升级,使任务调度更均衡和稳定,减少数据倾斜,并充分利用历史亲和力和多级缓存。 更优的分布式执行计划,优化了多 count distinct、高基数聚合等场景。 增量计算,对于相同的 SQL,复用历史局部查询结果,只计算最新的数据。 数据缓存,引入阿里自研的缓存组件,自适应缓存列存数据,减少直接 IO 开销。 ...

相关文章

发表评论

资源下载

更多资源
腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

用户登录
用户注册