首页 文章 精选 留言 我的

精选列表

搜索[优化],共10000篇文章
优秀的个人博客,低调大师

大数据分析之纳税人画像-实现和优化思路

1.背景环境 本文章来自最近做的项目模块的思考和总结,主要讲思路不涉及过多的基础和实现细节。 需求:统计出来纳税人名称、行业、近一年业务量(办税服务厅、电子税务局、自助渠道),近一年业务量top5(办税服务厅、电子税务局、自助渠道)、近一年纳税金额、近一年申报数、近一年用票数。支持根据所属税务机关分页查询。 看上去业务不复杂,但是**数据来自多个系统,数据量很大。**来来画个示意图展示下数据来源的复杂程度: 数据涉及5个厂商,数据库采用oracle,涉及几十张表,其中纳税人信息生产环境下有380多万,更不用说其他业务表的数据量有多大了,并且还需要分组,统计,排序。此时此刻心情如下: 2.实现方案 2.1 视图(失败的方案) 由于项目时间关系,想法很简单先采用视图,先实现再说。(其实在做的时候就有不详的预感,感觉这种方案不行)。于是开干,在实现的过程中我用到的关键技术点有:oracle wm_concat(column)函数实现查询相同id字段,内容以逗号分隔 select id, wmsys.wm_concat(字段名)字段别名 from table group by id Oracle分组查询取每组排序后的前N条记录 SELECT * FROM ( SELECT 分组的字段名, ROW_NUMBER() OVER(PARTITION BY 分组的字段名 ORDER BY 排序的字段名) AS RN FROM 表名 ) WHERE RN <= 10 得到分组后,数据的前几条 count、sum、group by 、join、dblink等等生产环境下验证结果测试环境还好,生产环境打开视图好久查不出来数据,临时表空间暴增30g. 来看下现场的执行计划 冷静分析 数据库是其他厂商的,我们没有权限去建索引,只给了查询权限。 大量的hash join,这些操作都在内存中,内存不足会把临时计算结果放到磁盘导致临时表空间暴增。 分组、排序类的特别耗时。 问题的本质也就是类似于数据结构的:时间复杂度和空间复杂度。 通俗点说你愿意拿空间换时间还是时间换空间? 大道至简、分而治之。当人类面临负责问题和巨大工程的时候,都喜欢切成一小块一小块的去处理,问题就迎刃而解。 2.2 定时任务汇总(备选方案1) 接着上文,其实我们可以提前把数据加工好,插入汇总表,不用每次用户查询的时候去计算就好了。技术实现关键点: 可以用spring +quarter 定时任务 oracle中定时任务 以上在汇总的过程中必须注意一次拉取小批量数据加工。由于时间紧急,定时任务需要开发代码,数据量大,数据批次需要处理等缺点放弃了 2.3 物理视图(选用方案2) 因为有比较多的查询汇总,考虑到速度,最后选择了物理视图方案。下面简单介绍下物理视图。物化视图也是种视图。Oracle的物化视图是包括一个查询结果的数据库对像,它是远程数据的的本地副本,或者用来生成基于数据表求和的汇总表。物化视图存储基于远程表的数据,也可以称为快照。物化视图可以查询表,视图和其它的物化视图。特点:(1) 物化视图在某种意义上说就是一个物理表(而且不仅仅是一个物理表),这通过其可以被user_tables查询出来,而得到确认;(2) 物化视图也是一种段(segment),所以其有自己的物理存储属性;(3) 物化视图会占用数据库磁盘空间,这点从user_segment的查询结果,可以得到佐证;创建语句:create materialized view mv_name as select * from table_name创建过程一波三折把方案一种的视图sql改称物理视图,到生产环境下创建。尼玛又出状况了一个sql执行了8个小时,居然失败了,怎么办? 冷静分析 仔细看sql,去掉了不必要的关联查询。 拆分物理视图,一个拆三,分而治之。 最后在3个小时左右,成功创建了5个物理视图。又出状况、一波四折 测试库是11.2.0.1.0的,WMSYS.WM_CONCAT( )函数返回的是varchar类型,而正式库是11.2.0.4.0的,返回的是CLOB类型的。为了兼容,所以解决办法是:TO_CHAR(WMSYS.WM_CONCAT(param )); 只要用to_char()函数转换一下就可以了。。。好吧,重新来过,最后在3个小时左右,成功创建了5个物理视图。 2.4 hadoop(做梦的方案,杀鸡蔫用牛刀) 据说PB级别的数据,才上hadoop。为了卖弄一下我也懂点大数据技术(毕竟也读过几本书),简单的列一下实现思路:0.搭建hadoop平台1.sqoop导入数据到hive2.利用hive进行分析3.sqoop把分析结果导入Oracle汇总表4.持续运维为什么不采用的原因:1.数据量远远不够2.客户是否给你那么多机器来组集群。3.公司缺乏相关技术的开发和运维,成本代价高。 3.结论 大道至简、分而治之 思路总比问题多,不抛弃不放弃。 总结不易欢迎在看或转发,更多精彩关注微信公众号【lovepythoncn】

优秀的个人博客,低调大师

微软 Edge 浏览器通过众包测试优化网站通知提示

Microsoft 将会使用众包测试的方式来确定是否在 Microsoft Edge 浏览器中显示网站的通知对话框提示。 现在有越来越多的网站会在用户访问后弹出提示,询问用户是否要开启网站在浏览器上的通知功能(如下图),通过该功能可以快速向用户推送新内容,即使用户没有打开浏览器也是如此。 开启通知后,一旦网站有新内容,网站就会将通知发送到用户的桌面上,用户只需单击就可以打开该网页。 尽管网站开发者出于良好的意图创建了此服务,但如今也有越来越多的不法分子在网站上采用了该技术,通过浏览器的通知功能可以将垃圾内容发送到用户的设备上,其中可能包含恶意程序、诈骗信息、成人内容等。 Microsoft Edge 转向众包 在微软于 Edge 84 中推出其使通知请求静音功能之后(如下图),他们注意到不希望的通知对话框提示大大减少,但与此同时,合法网站的通知也受到了影响。 微软本周宣布,Edge 88 现在正在使用一种称为自适应通知请求(adaptive notification requests)的功能,该功能将会使用众包测试的方式来确定是否显示网站的通知对话框。 通过此新功能,如果一个网站有足够多的人开启了通知对话框提示的话,则表明该站点很受欢迎,因此 Edge 浏览器也将显示完整的通知订阅对话框。而另一方面,如果大多数用户都选择关闭网站的通知功能,则 Edge 将显示静默通知对话框。 通过这种新方法,Edge 浏览器可以根据实际用户选择产生的数据即提供完整通知提示,也提功了静默通知。 微软本周在博客中解释道:“我们建议网站所有者在用户与网站互动后,并在提出通知许可请求时,要充分考虑到用户浏览行为和时机。遵循良好做法获得较高接受率的网站会显示完整的通知提示,而不会被静默。” 当使用自适应通知功能显示静默通知时,Edge 浏览器会显示已自动阻止该站点的通知,因为大多数人在此站点都将其阻止(如下图所示)。 此功能已经加入 Microsoft Edge 88 中,并且只有在「设置」>「Cookie 和网站权限」>「通知」>「使通知请求静音」被禁用的情况下才可以启用。

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

用户登录
用户注册