blink cep基于用户的行为分析大杀器

2019-08-01 725

场景

今天我们做o2o有很多的线下场景需要基于用户的行为进行分析，比如我们在商场入门口装了一个摄像头，可以通过摄像头识别商场进入的人脸，和出去时候的人脸，这样形成了2条数据。商场想统计下，每个用户在商场的逗留时间。这里面就出现了一种pattern的模式，就是当用户进门和出门这两个事件都发生的时候，激发某个动作（事件）。比如在这里是在用户出门的时候将用户进门时间和出门时间的差值相减，并存储在tablestore当中。然后可以通过分析汇总算出今日用户在商场的平均逗留时间，继而可以统计出当月，当年的平均逗留时间,等等,促使商家提升总体运营水平。
这里面用户进入商场和用户走出商场是两个用户行为，当它们组合在一起时候就有了奇妙的意义。blink在分析此类用户行为方面提供了极其强大的模式匹配功能。下面我以这个场景，详细描述下如果使用。

架构图

用户行为表

用户逗留时间表

用户行为表用来记录摄像头识别的用户进门和出门的产生的记录，用户逗留时间表用来记录每个用户的逗留时间。
以用户行为表为blink的源表，用户逗留时间表为结果表。这里使用tablestore为存储数据库。为什么使用tablestore，因为tablestore的通道和blink能进行无缝的集成，tablestore的存储成本非常的低廉，扩展性又非常的好。有想了解tablestore的同学,点击传送门,当然也可以换成hbase等类似的数据库。
下面是具体的代码
CREATE TABLE mofun_source_user_action (
--id
id BIGINT,
-- 记录日期
record_date BIGINT,
--用户id
user_id BIGINT,
--数据触发时间
prd_time BIGINT,
--数据行为类型
opt_type varchar,
--计算列
ts AS to_timestamp(prd_time),
WATERMARK FOR ts AS withOffset(ts, 1000),
primary key (record_date, user_id, prd_time,opt_type)
)

CREATE TABLE ots_result_user_play_time (
--进入id
inid BIGINT,
--出去id
outid BIGINT,
--记录日期
record_date BIGINT,
user_id BIGINT,
play_time BIGINT,
primary key (record_date,user_id)
)

insert into ots_result_user_play_time
SELECT

inid,
outid,
start_tstamp,
`user_id`,
play_time

FROM mofun_source_user_action MATCH_RECOGNIZE (

 PARTITION BY `user_id`
 ORDER BY ts
 MEASURES  
            e1.id as inid,
            e2.id as outid,
            e1.record_date AS start_tstamp,
           (e2.prd_time-e1.prd_time) AS play_time
 ONE ROW PER MATCH
 PATTERN (e1->e2) WITHIN INTERVAL '10' Hour
 DEFINE
    e1 AS  e1.opt_type ='in',e2 as e2.opt_type='out'
 )

其中最关键的是最后这块代码
解释一下代码
DEFINE，定义的是模式匹配的变量，意思你要用哪列，什么条件的数据来进行条件匹配
PATTERN 就是变量的匹配模式，e1->e2的意思是指进门后面如果出现了出门就匹配成功
MEASURES 里面是要在select中显示的数据列

具体文档看传送门(https://yuque.antfin-inc.com/rtcompute/doc/sql-query-cep)，不过这篇文章讲得也不是很清楚，后面我会写一篇文章专门详细介绍复杂的匹配。

像上面这种场景稍微的进行一下更改就有很多场景可以使用。比如我们现在经常使用短视频，那么我们怎么分析用户在某个短视频的停留时间呢？就可以在用户进入视频和出了视频产生一个事件，然后用上面这个语法就能分析出来，每个用户在视频上面的停留时间，然后根据排个实时排行榜，然后进行推荐。排行榜的架构，可以看我的上一篇文章，如何构建实时的排行数据。

微信关注我们

原文链接：https://yq.aliyun.com/articles/712253

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

云计算数据库迁移需要避免的10个错误

云计算数据库迁移需要避免的10个错误139w.com 鼎点网络数据库专家Chris Foot分享了IT团队在进行云计算数据库迁移时通常会遇到的十个疏忽和错误，并为此提供了如何避免这些错误的建议。越来越多的组织正在采用数据库即服务(DBaaS)平台，以寻求更快、更具可扩展性的部署，并降低成本。随着现有的大量数据库即服务(DBaaS)产品和工具的出现，启动云计算数据库迁移的案例变得更加令人关注。但是，很多组织在云计算数据库迁移期间存在一系列常见的误解和错误，这些问题将继续为其IT团队带来困扰。主要影响那些对云计算数据库迁移不熟悉的组织，但已将大量本地数据库迁移到云平台的公司也不能幸免。当组织在云计算数据库迁移的早期识别并解决问题时，就能够在数据库即服务(DBaaS)系统出现问题时将其影响降至最低，并减少意外发生。以下是IT团队在进行云计算数据库迁移时需要避免的10个错误。1.低估云计算数据库迁移和支持成本数据库即服务(DBaaS)平台并不是一种新产品，而是一种新架构，与所有新架构一样，数据库即服务(DBaaS)将产生广泛的影响，从而改变组织存储的构建、访问、管理、监控、保护其系统的方式。...

2019-08-01

638

继续上一篇 (空学Kafka之一)[https://www.atatech.org/articles/145913] 构建数据通道考量点及时性，可靠性，吞吐量，安全性（通道安全，审计等），数据格式的上线兼容，ETL or ELT，统一还是专属（比如GoldenGate是oracle私有的，有很强的耦合性），优先选择Kafka Connect 深入浅出Connect 连接器插件实现了 Connector API，API 包含了两部分内容。大致上是分而治之的思想，连接器相当于分拆器splittor，任务相当于拆分后的具体执行器executer。连接器：负责以下三件事。决定需要运行多少个任务。按照任务来拆分数据复制。从 worker 进程获取任务配置并将其传递下去。任务：负责将数据移入或移出 Kafka。相比较直接采用Kafka的publis

2019-08-01

706

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

blink cep基于用户的行为分析大杀器

场景

架构图

云计算数据库迁移需要避免的10个错误

空学Kafka之二

相关文章

发表评论

资源下载

Mario

Rocky Linux

Sublime Text

WebStorm

欢迎您来访！