用Tensorflow搭建预测磁盘性能的机器学习模型

2018-07-09 533

前言：这篇文章的内容是去年上家公司参加部门code hackthon活动上运用了一些简单的Tensorflow机器学习模型，做的一个预测磁盘性能的小工具。因为和现在所做的行业和工作内容有些一定差距，就不详述应用的详细场景。google今年的开发者大会上定位所有的方向主攻“AI First”，相信机器学习将来会越来越多的提高大家的工作效率，也希望以后能用机器学习来给业务赋能。

背景：企业级存储器在目前应用在众多银行和大企业中，目前主流的存储，底层介质依然还是性价比高的磁盘（价格便宜，容量大），不过由于flash的强势崛起，新的中高端存储会越来越多的使用flash做为其存储介质。在实际使用中，不同企业在存储数据的时候应用场景不一样，有些是频繁，小批量；有些是单次大文件；有些是无规律的写入大小数据。不同存储在这些应用场景下，性能差距会比较大。这会导致销售人员在前线了解到需求后，需要测试部门模拟相应的场景，来给出存储的具体性能数据，这种场景可能需要花费一周才能拿到性能数据。

目标：收集足够多的磁盘性能原始数据，选择合适的机器学习模型来仿真性能数据。以后销售人员在评估性能的时候，只需要将数据输入到系统中，就可以得出一个较合理的结果。

说明：影响磁盘性能有30多个因素，在初期的模型中选择了特征显著的9个参数，磁盘性能的结果也有10多个维度来表示，这里选择了2个特征值。

直接贴：

import tensorflow as tf
import numpy as np
import csv
import time
from sklearn.preprocessing import StandardScaler

input_ = []
output1_ = []
output2_ = []
data_lenth = 1000
with open('train_5.csv') as f:
f_csv = csv.reader(f)
headers = next(f_csv)
for row in f_csv:
num_row = [ float(i) for i in row ]
input_.append(num_row[0:9])
output1_.append(num_row[9:10])
output2_.append(num_row[10:11])

my_X = np.array(input_[0:data_lenth])
my_Y1 = np.array(output1_[0:data_lenth])
my_Y2 = np.array(output2_[0:data_lenth])

scaler_x = StandardScaler().fit(my_X)
scaler_y1 = StandardScaler().fit(my_Y1)
scaler_y2 = StandardScaler().fit(my_Y2)

trX = scaler_x.transform(my_X)
trY1 = scaler_y1.transform(my_Y1)
trY2 = scaler_y1.transform(my_Y2)
print(" starting normalize *")
time.sleep(2)
print(" normalize input data *")
print(trX)
print(" normalize response_time_rnd *")
print(trY1)
print(" normalize response_time_seq *")
print(trY2)

创建两个占位符，数据类型是 tf.float32

X = tf.placeholder(tf.float32)
Y = tf.placeholder(tf.float32)
biases = tf.Variable(tf.zeros(1) + 0.1)

创建一个变量系数 w , 最后训练出来的值，应该接近 2

w = tf.Variable(tf.zeros([1, 9]), name = "weights")
y_model = tf.multiply(X, w)+biases

定义损失函数 (Y - y_model)^2

cost = tf.square(Y - y_model)

定义学习率

learning_rate = 0.01

使用梯度下降来训练模型，学习率为 learning_rate , 训练目标是使损失函数最小

train_op = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost)

with tf.Session() as sess:

初始化所有的变量

init = tf.global_variables_initializer()
sess.run(init)

对模型训练100次

for i in range(100):
for (x, y) in zip(trX, trY1):
sess.run(train_op, feed_dict = {X: x, Y: y})

输出 w 的值

W = sess.run(w)

输出 b 的值

B = sess.run(biases)

test_input = np.transpose(np.transpose(np.array([100,5000,4000])))

test_input = np.transpose(np.transpose(np.array([50,100,5000,4000,70,20,40,90,1000000])))
W = np.transpose(W)

print(" testing response_time_rnd *")
print(W)
print(B)
print("testing data: ")
print(test_input)
test_X = scaler_x.transform(test_input)
print(test_X)
test_output = np.dot(test_X,W)+B
print("result data(response_time_rnd): ")
print(scaler_y1.inverse_transform(test_output))

with tf.Session() as sess:

初始化所有的变量

init = tf.global_variables_initializer()
sess.run(init)

对模型训练100次

for i in range(100):
for (x, y) in zip(trX, trY2):
sess.run(train_op, feed_dict = {X: x, Y: y})

输出 w 的值

W = sess.run(w)

输出 b 的值

B = sess.run(biases)

W = np.transpose(W)
print(" testing response_time_seq *")
print(W)
print(B)
print("testing data: ")
print(test_input)
test_X = scaler_x.transform(test_input)
print(test_X)
test_output = np.dot(test_X,W)+B
print("result data(response_time_seq): ")
print(scaler_y1.inverse_transform(test_output))

此处的入参需要做归一化处理，不做归一化，数据量达到一定量时就会出现不收敛的情况。

scaler_x = StandardScaler().fit(my_X)
scaler_y1 = StandardScaler().fit(my_Y1)
scaler_y2 = StandardScaler().fit(my_Y2)
矩阵运算的转置处理。

trX = scaler_x.transform(my_X)
trY1 = scaler_y1.transform(my_Y1)
trY2 = scaler_y1.transform(my_Y2)
这部分是模型的核心，注释说明比较清楚。

创建两个占位符，数据类型是 tf.float32

X = tf.placeholder(tf.float32)
Y = tf.placeholder(tf.float32)
biases = tf.Variable(tf.zeros(1) + 0.1)

创建一个变量系数 w , 最后训练出来的值，应该接近 2

w = tf.Variable(tf.zeros([1, 9]), name = "weights")
y_model = tf.multiply(X, w)+biases

定义损失函数 (Y - y_model)^2

cost = tf.square(Y - y_model)

定义学习率

learning_rate = 0.01

使用梯度下降来训练模型，学习率为 learning_rate , 训练目标是使损失函数最小

train_op = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost)

with tf.Session() as sess:
# 初始化所有的变量
init = tf.global_variables_initializer()
sess.run(init)
# 对模型训练100次
for i in range(100):

for (x, y) in zip(trX, trY1): 
  sess.run(train_op, feed_dict = {X: x, Y: y})

# 输出 w 的值
W = sess.run(w)

# 输出 b 的值
B = sess.run(biases)

结果：因为对数据做了奇异值处理，所以用模型跑出来的结果八成以上是符合预期的，不过当实际存在较多奇异点的时候，准确率会下降到六至七成。而且原始数据的量还不够，也会导致现实场景奇异点较多。后续考虑用多层神经网络模型来模拟这种场景，在数据源足够的情况下，结果会更加符合预期。

附件说明：

py文件是包含QT界面的完整文件

csv文件是数据素材

微信关注我们

原文链接：https://yq.aliyun.com/articles/609437

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

【从入门到放弃-Hadoop】Hadoop基础学习

前言目前人工智能和大数据火热，使用的场景也越来越广，日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解基础概念大数据的本质一、数据的存储：分布式文件系统（分布式存储）二、数据的计算：分部署计算基础知识学习大数据需要具备Java知识基础及Linux知识基础学习路线（1）Java基础和Linux基础（2）Hadoop的学习：体系结构、原理、编程第一阶段：HDFS、MapReduce、HBase（NoSQL数据库）第二阶段：数据分析引擎 -> Hive、Pig 数据采集引擎 -> Sqoop、Flume 第三阶段：HUE：Web管理工具 ZooKeeper：实现Hadoop的HA

2018-07-10

605

Mondrain支持kylin问题解决 Mdx select {[MEASURES].[UNITPRICE],[MEASURES].[NUMBER]} on columns, {[CUSTOMER].[GENDER].members} on rows from saleinfo 问题问题1： mondrian转换过来的sql kylin不支持：Cartesian Join is not supported. while executing SQL: "select "CUSTOMER"."GENDER" as "c0", sum("SALE"."UNITPRICE") as "m0", sum("SALE"."NUMBER") as "m1" from "SALE" as "SALE", "CUSTOMER" as "CUSTOMER" where "SALE"."CUSID" = "CUSTOMER"."CUSID" group by "CUSTOMER"."GENDER" 不支持笛卡儿积的写法=》对应源码修改1，2，3 问题2：No realization found for ...

2018-07-10

627

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

用Tensorflow搭建预测磁盘性能的机器学习模型

创建两个占位符，数据类型是 tf.float32

创建一个变量系数 w , 最后训练出来的值，应该接近 2

定义损失函数 (Y - y_model)^2

定义学习率

使用梯度下降来训练模型，学习率为 learning_rate , 训练目标是使损失函数最小

初始化所有的变量

对模型训练100次

输出 w 的值

输出 b 的值

test_input = np.transpose(np.transpose(np.array([100,5000,4000])))

初始化所有的变量

对模型训练100次

输出 w 的值

输出 b 的值

创建两个占位符，数据类型是 tf.float32

创建一个变量系数 w , 最后训练出来的值，应该接近 2

定义损失函数 (Y - y_model)^2

定义学习率

使用梯度下降来训练模型，学习率为 learning_rate , 训练目标是使损失函数最小

【从入门到放弃-Hadoop】Hadoop基础学习

Mondrain支持kylin问题解决

相关文章

发表评论

资源下载

Nacos

Spring

Rocky Linux

Sublime Text

欢迎您来访！