转载：linux下大数据人工智能自动化脚本定时任务模板-低调大师

转载：linux下大数据人工智能自动化脚本定时任务模板

2018-09-07 619

转自：

https://mp.weixin.qq.com/s/mXXJmDqtv7PyqglN9ekvNQ

本文针对有初级sql及python人工智能开发基础，需要执行定时任务的初学人员。

假设在工作中，要执行一个任务，大致要求如下：

一、每月执行一次定时任务；

二、用hive处理数据，并下载；

三、用python读取数据，送入机器学习算法训练，预测结果，保存结果；

四、读取预测结果，上传到数据库指定位置，并按月分区

（一）、关于定时任务crontab，命令网上可以搜到很多用法。在这里有一个坑需要注意，就是直接执行shell脚本时用到的python环境路径，可能与定时任务的python路径不同，导致执行脚本时报错，找不到模块。这里有一个小方法，写一个python程序test.py。

import sys

print(sys.path)

python test.py与crontab -e各执行一次，就可以看到两次路径是否相同了。还有一点，就是关于注册信息的问题，

kinit -kt /home/accunt/cluster_keytab/accunt.keytab accunt中的accunt是你自己的账户，没有这句话，程序也会报错。所以建议专门写一个定时任务，每隔几个小时执行一次该命令。

（二）、程序中经常会涉及到变量，比较常见的是时间变量，这样才能做到自动化，train_month_t=$(date +%Y%m -d '-1 month')这句话意思是，获取执行程序时的月份的前一个月，‘$’是定义一个变量，用$train_month_t传入sql语句中。exportHIVE_SKIP_SPARK_ASSEMBLY=true; 这句话的作用是在下载数据时，保证数据能够下载齐全。

（三）、为了降低shell脚本的篇幅，可以将python部分以子文件形式执行。这里为了防止在定时任务时，python路径不统一，使用python的环境路径执行程序。通过sys.argv[1]将参数$py_month传进去。这里的月份形式是'201808'，传进去是字符串格式。

（四）、在数据库里建表，并将通过人工智能预测好的数据，上传到指定分区。

下面是模板内容：

#!/bin/bash

kinit -kt /home/accunt/cluster_keytab/accunt.keytab accunt

echo "***************************"

train_month_t=$(date +%Y%m -d '-1 month')

echo $train_month_t

echo "*************start*************"

sql_train="

create table if not exists test.t_test

(a string,

b string)

row format delimited fields terminated by '\t'

lines terminated by '\n'

stored as textfile;

set hive.exec.dynamic.partition.mode=nonstrict;

insert overwrite table test.t_test

select a,b

from product.t_test

where day=concat('$train_month_t','01');

"

echo $sql_train >./train.sql

kinit -kt /home/accunt/cluster_keytab/accunt.keytab accunt

hive -f ./train.sql

export HIVE_SKIP_SPARK_ASSEMBLY=true;

hive -e "set hive.cli.print.header=true;

select distinct a,b from test.t_test;" >./train.csv

echo "*************train sql successful************"

kinit -kt /home/accunt/cluster_keytab/accunt.keytab accunt

./python ./train_pred.py $py_month

echo "*************py successful************"

load_sql="

create table if not exists test.result

(a string,

b string)

partitioned by (month string)

row format delimited fields terminated by '\t'

lines terminated by '\n'

stored as textfile

tblproperties('skip.header.line.count'='1');

LOAD DATA LOCAL INPATH './preds_$load_month.csv'

into table test.result PARTITION (month='$load_month');

"

echo $load_sql>./load.sql

kinit -kt /home/accunt/cluster_keytab/accunt.keytab accunt

hive -f ./load.sql

echo "*************load_sql successful************"

echo "*************successful************"

至此，一个简单的大数据人工智能预测分析脚本模板完成了，希望能有所帮助，并指出不足之处，共同进步！

转自：

https://mp.weixin.qq.com/s/mXXJmDqtv7PyqglN9ekvNQ

微信关注我们

原文链接：https://yq.aliyun.com/articles/637273

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

【云周刊】第187期：阿里推出 PolarFS 分布式文件系统：将存储与计算分开，提升云数据库性能

本期头条阿里推出 PolarFS 分布式文件系统：将存储与计算分开，提升云数据库性能将存储与计算分开来大有意义，对于部署的云数据库而言更是如此。为此，阿里巴巴推出了一种新开发的名为PolarFS的分布式文件系统，旨在确保低延迟和高可用性。这个文件系统与阿里云上自己的PolarDB数据库服务搭配使用。像PolarDB这样的云数据库服务（或者各大云提供商的平台上的同类云数据库服务）拥有一个更具可扩展性且安全的基础以便充分利用容器，并以快速I/O、检查点和数据共享来支持后端存储集群，从而充分发挥将存储资源和计算资源分开来的这种做法具有的好处。点击查看全球区块链专利榜，阿里蝉联冠军阿联酋深化与支付宝合作，迪拜多店可刷支付宝马云亮相亚运会闭幕式，向全世界发出邀请！助力非洲数字化转型，阿里巴巴与卢旺达合作推进eWTP 印尼总统会谈马云：用互联网

2018-09-08

624

点击可以看大图。迁移需求描述迁移中遇到的问题迁移步骤

2018-09-09

653

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。