首页 文章 精选 留言 我的

精选列表

搜索[文档处理],共10000篇文章
优秀的个人博客,低调大师

ES里设置索引中倒排列表仅仅存文档ID——采用docs存储后可以降低pos文件和cfs文件大小

index_options Theindex_optionsparameter controls what information is added to the inverted index, for search and highlighting purposes. It accepts the following settings: docs Only the doc number is indexed. Can answer the questionDoes this term exist in this field? freqs Doc number and term frequencies are indexed. Term frequencies are used to score repeated terms higher than single terms. positions Doc number, term frequencies, and term positions (or order) are indexed. Positions can be used forproximity or phrase queries. offsets Doc number, term frequencies, positions, and start and end character offsets (which map the term back to the original string) are indexed. Offsets are used by thepostings highlighter. Analyzedstring fields usepositionsas the default, and all other fields usedocsas the default. PUT my_index { "mappings": { "my_type": { "properties": { "text": { "type": "text", "index_options": "offsets" } } } } } PUT my_index/my_type/1 { "text": "Quick brown fox" } GET my_index/_search { "query": { "match": { "text": "brown fox" } }, "highlight": { "fields": { "text": {} } } } COPY AS CURL VIEW IN CONSOLE Thetextfield will use the postings highlighter by default becauseoffsetsare indexed. 转自:https://www.elastic.co/guide/en/elasticsearch/reference/current/index-options.html 注意:ES2.41里没有text这个type curl -XPUT 'http://localhost:9200/hec_test2' -d ' { "mappings": { "hec_type2": { "properties": { "filed-0": { "type": "string", "index_options": "docs" }, "filed-1": { "type": "string", "index_options": "docs" } } } } } ' 比较测试: 可以比默认的节省10+%的存储空间! 本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/6397522.html,如需转载请自行联系原作者

优秀的个人博客,低调大师

万豪酒店因数据泄露被罚款近1.6亿元,这还是从轻处理的结果

英国信息专员办公室(UK Information Commissioner's Office,简称’ICO”)对美国酒店集团万豪(Marriott)进行了1840万英镑(约1.6亿元)的罚款,原因是该公司的数据泄露事件影响了全球数百万客户。 ICO的调查发现,万豪没有按照通用数据保护条例(GDPR)的要求,采取适当的技术或组织措施来保护其系统上的个人数据。 据悉,此次罚款金额其实比最初计划的要少,因为监管机构考虑了万豪的陈述、万豪为减轻事件影响所采取的措施,以及疫情对其业务的经济影响,然后才制定了最终的处罚。 此次数据泄露主要和喜达屋有关,万豪于2016年收购了喜达屋,但违规行为直到2018年11月才公布。 2016年,万豪国际斥资130亿美元收购了喜达屋环球酒店和度假村。该品牌包括圣里吉斯、喜来登酒店及度假村、W酒店、威斯汀酒店及度假村、雅高酒店、贡品组合、元素酒店、勒梅里登酒店及度假村、豪华精选等。 2018年11月,万豪宣布,疑似受2014年发生的安全漏洞影响,其旗下的喜达屋酒店多达5亿客人的数据遭到泄露风险。这是历史上最大的数据泄露事件之一,也是万豪酒店业遭受最严重的的一次。 据该公司称,2014年,黑客开始入侵喜达屋的客人预订系统,并对信息进行复制和加密。黑客访问了近3.27亿客人的个人信息,泄露的记录包括姓名、邮寄地址、电话号码、电子邮件地址、护照号码、出生日期、性别、到达和离开信息、预订日期。喜达屋数据泄露案的调查显示,被盗数据还包括财务数据、支付卡号和支付卡截止时间,即使是已经加密的信息也没逃过。 据信息专员办公室说,数据泄露影响了3000万名欧洲居民,其中包括700万名英国居民。 英国监管机构认为,万豪在2016年收购喜达屋时没有进行充分的尽职调查,也没有采取必要措施确保其系统安全。“个人信息很珍贵,企业必须加以照顾。企业之所以需要严格保护客户数据,除了面临罚款惩罚之外,他们有义务保护数据。” 这不是万豪首次因数据泄露而遭到添加罚款。2019年7月,英国数据隐私监管机构宣布,根据GDPR,万豪国际因2014年数据泄露将面临9900万英镑(1.23亿美元)的罚款。 参考来源: https://securityaffairs.co/wordpress/110297/data-breach/uk-ico-fines-marriott.html 【责任编辑: 赵宁宁 TEL:(010)68476606】

优秀的个人博客,低调大师

【最佳实践】ingest对异源数据结构化处理,并由Elastic Stack实现可观测性分析

数据集 在我们的实际数据采集中,数据可能来自不同的来源,并且以不同的形式展展现: 这些数据可以是一种很结构化的数据被摄入,比如数据库中的数据, 或者就是一组最原始的非结构化的数据,比如日志。对于一些非结构化的数据,我们该如何把它们结构化,并使用 Elasticsearch 进行分析呢? 结构化数据 就如上面的数据展示的那样。在很多的情况下,数据在摄入的时候是一种非结构化的形式来呈现的。这个数据通常有一个叫做 message 的字段。为了能达到结构化的目的,我们们需要 parse 及 transform 这个 message 字段,并把这个 message 变为我们所需要的字段,从而达到结构化的母的。让我们看一个例子。假如我们有如下的信息: { "message": "2019-09-29T00:39:02.9122 [Debug]

资源下载

更多资源
腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

WebStorm

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源,继承了IntelliJ IDEA强大的JS部分的功能。

用户登录
用户注册