搜索[基础搭建]结果-低调大师优秀个人博客

2016年中国基础云计算服务商估值TOP10

2016年中国企业云服务市场规模超500亿元，较去年相比增长32%，其中基础云计算业务占比达到42%，Gartner数据显示，2009年至2015年云计算复合增长率高达69%，远超同期我国IT支出8.9%

2017-07-11

关键基础设施是否会成为DDoS攻击的新目标？答案是不大会

不过安全专家认为，类似电网和天然气管道等关键基础设施不太可能会遭到大规模的DDoS攻击。但是他们也承认，目前大量的关键基础设施中仍然存在严重的安全问题。

2017-07-10

奚国华：5G标准将在年底完成第一基础版本制定

2017年，5G国际标准正式启动，也将在年底完成5G第一基础版本，因此从这个意义上讲，可以说2017年是5G标准元年。

2017-07-04

工信部：推动窄带物联网、5G泛在信息基础设施

二是要建好网络基础设施,深入推进“宽带中国”战略，积极部署全光网，加快4G发展，推动部署窄带物联网、5G等泛在信息基础设施，建设高速畅通、覆盖城乡、优质价廉、服务便捷的宽带网络设施和服务体系，为“互联网

2017-07-03

关键基础设施遭受攻击数量上升网络保险业务亟待发展

问题在于，这导致此类系统对黑客门户大开，可能引来对电网、大坝和其它关键基础设施的网络攻击。去年十二月，黑客在乌克兰引发了一场断电事故。

2017-07-03

《深入理解Spark:核心思想与源码分析》——2.2节Spark基础知识

本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的第2章，第2.2节Spark基础知识，作者耿嘉安，更多章节内容可以访问云栖社区“华章社区”公众号查看 2.2 Spark基础知识1.

2017-05-02

《Android智能穿戴设备开发指南》——第6章，第6.1节Socket编程基础

本节书摘来自异步社区《Android智能穿戴设备开发指南》一书中的第6章，第6.1节Socket编程基础，作者王长青，更多章节内容可以访问云栖社区“异步社区”公众号查看 6.1 Socket编程基础Android

2017-05-02

《21天学通Java（第7版）》—— 第1章 Java基础 1.1 Java语言

第1章 Java基础 Java试图解决众多领域的问题，实际上也确实在这方面取得了极大的成功。它让程序员能够开发应用程序服务器和手机程序、进行科学编程、编写软件以及进行星际导航等。

2017-05-02

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.2 文本清理

本节书摘来异步社区《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书中的第2章，第2.2节，作者：Nitin Hardeniya，更多章节内容可以访问云栖社区“异步社区”公众号查看。

2017-05-02

深度 | 伯克利教授Stuart Russell：人工智能基础概念与34个误区

这种加速可能是很多因素的集合，包括逐步完善的理论基础，它连接了很多的人工智能领域成为一个统一的整体。还有学术实验室能产出达到能够应用并解决现实世界的实际问题在人工智能方向商业投资的急剧增加也作为。

2017-05-02

网站前端_EasyUI.基础入门.0005.使用EasyUI Accordion组件的最佳姿势?

基础的手风琴 <divid="a"class="easyui-accordion"data-options="width:500,height:300"> <divdata-options

2017-01-18

时间日期命令：date 1、命令格式： date[OPTION]...[+FORMAT] date[-u|--utc|--universal][MMDDhhmm[[CC]YY][.ss]] 2、命令功能打印不同格式的时间或日期，以及要根据时间和日期执行操作。日期可以以多种格式去打印，也可以使用命令设置固定的格式。在类UNIX系统中，日期被存储为一个整数，其大小为自世界标准时间（UTC）1970年1月1日0时0分0秒起流逝的秒数。 3、常用选项 -d "String" 显示字符串所指的时间。字符串前后必须加上双引号""，也可以用做转换时间显示格式 -s "String" 根据字符串来设置时间，字符串前后必须加上双引号 -u 显示世界时间日期格式 %Y：显示四位的年份(2016) %y：显示两位的年份(16) %m：月份 %d：天数 %H：小时24小时制 %M：分钟 %S：秒钟 %T：时间，冒号分隔的时间(12:12:01) %X|%r：时间，冒号分隔的时间(10:58:02AM)[%T%p] %D：日期，以斜线隔开的日期(12/27/16) %x：日期，以斜线隔开的日期(12/27/2016) %F：日期：以横杠隔开的日期(2016-12-27) %p：显示出AM或PM unix元年：1970-01-0100:00:00 %s：距离unix元年到现在经历的秒数 %j：一年的第几天（001~366） %w：一个星期的第几天（0代表星期天） %W：一年的第几个星期 %Z显示时区，日期域（CST） %a星期的简称（Sun~Sat） %A星期的全称（Sunday~Saturday） %h,%b月的简称（Jan~Dec） %B月的全称（January~December） 4、使用实例 1、显示当前时间命令：date [root@server~]#date TueDec2711:06:57CST2016 2、设置指定时间命令：date [MMDDhhmm[[CC]YY][.ss]] [root@server~]#date122711302016 TueDec2711:30:00CST2016 [root@server~]#date TueDec2711:30:05CST2016 [root@server~]# 提示：MM：月份 DD：天 hh：小时 mm：分钟 [CC[YY]]：两位的年，或者四位的年 .ss：秒钟如果不指，则按照当前时间设置 3、以指定的格式显示时间命令：date +FORMAT [root@server~]#date+%T 11:10:59 [root@server~]#date+%H-%M-%S 11-11-23 [root@server~]#date+%F 2016-12-27 [root@server~]#date"+%F%H-%M-%S" 2016-12-2711-11-48 [root@server~]#date"+%F%T" 2016-12-2711:12:00 [root@server~]# 提示：显示指定格式时间时：如果中间有空格，需在显示时间的格式上加入双引号 4、创建以当前时间为名称的目录命令：mkdir `COMMAND` [root@server~]#mkdir`date+%F-%H-%M-%S` [root@server~]#ls 2016-12-27-11-15-05install.loganaconda-ks.cfginstall.log.syslog [root@server~]# 提示：此时我们用到了命令引用`` 命令引用：引用的是命令的执行结果 date +%F-%H-%M-%S执行结果为2016-12-27-11-15-05，创建时，就直接创建以当前时间为名称的目录 5、输出昨天现在的时间命令：date -d "1 day ago" [root@server~]#date-d"1dayago" MonDec2611:22:50CST2016 [root@server~]# 提示：也可以使用 date -d "+ 1 day" date-d "+1 day" +%Y%m%d //显示前一天的日期 date-d "-1 day" +%Y%m%d //显示后一天的日期 date-d "-1 month" +%Y%m%d //显示上一月的日期 date-d "+1 month" +%Y%m%d //显示下一月的日期 date-d "-1 year" +%Y%m%d //显示前一年的日期 date-d "+1 year" +%Y%m%d //显示下一年的日期常用的日期英文格式都可以来进行使用 6、显示30秒后的时间命令：date -d "30 second" +%T [root@server~]#date+%T 11:24:50 [root@server~]#date-d"30second"+%T 11:25:21 7、将指定的时间转换显示的格式命令：date -d "TIME" +FORMAT [root@server~]#date-d"2012-12-12""+%Y/%m/%d%H:%M.%S" 2012/12/1200:00.00 [root@server~]#date TueDec2711:26:14CST2016 [root@server~]# 提示：转换时间格式时，不影响当前时间 8、转换apache日志时间格式命令：date -d "TIME" +FORMAT [root@server~]#date-d"Dec5,201612:12:31AM"+"%Y-%m-%d%H:%M.%S" 2016-12-0500:12.31 [root@server~]# [root@server~]#date-d"Dec5,201612:12:31"+"%Y-%m-%d%H:%M.%S" 2016-12-0512:12.31 [root@server~]# 9、设置时间命令：date -s "String" [root@server~]#date-s"2016122712:23:00"//设置全时间 TueDec2712:23:00CST2016 [root@server~]#date-s"2016/12/2712:23:00"//设置全时间 TueDec2712:23:00CST2016 [root@server~]#date-s"2016-12-2712:23:00"//设置全时间 TueDec2712:23:00CST2016 [root@server~]#date-s"20161227"//设置成20161227，不过会把具体时间设置成00:00:00 TueDec2700:00:00CST2016 [root@server~]#date-s"12:25:00"//设置具体时间，不会对日期做出修改 TueDec2712:25:00CST2016 [root@server~]# 硬件时钟命令：hwclock [options] 常用选项 -s：以硬件时钟为准，将系统时间修改成硬件时间--hctosys -w：以软件时钟为准，将硬件时间修改成系统时间--systohc [root@server~]#hwclock Tue27Dec201612:02:21PMCST-1.016560seconds [root@server~]#date TueDec2712:04:17CST2016 [root@server~]#hwclock-s [root@server~]#date TueDec2712:02:32CST2016 显示日历 cal cal[-smjy13] [[[day] month] year] 月历常用选项： -3：显示前三月份 -m：显示时以mon(星期一)打头 -j：显示当前月份在本年的第几天 -y：显示整年

2016-12-27

为 Neutron 准备物理基础设施（I） - 每天5分钟玩转 OpenStack（75）

前面讨论了 Neutron 的架构和基础知识，接下来就要通过实验深入学习和实践了。第一步就是准备实验用的物理环境，考虑如下几个问题：需要几个节点？如何分配节点的角色？节点上部署哪些服务？

2016-08-19

Spark入门到精通视频学习资料--第一章、Scala基础与实践

第一章、Scala基础与实践（3讲） Scala编程语言抓住了很多开发者的眼球。

2015-02-06

手把手教你在 Sevalla 上部署 Next.js 博客：从搭建到上线全流程

对独立开发者来说，Next.js 不只是个博客工具，更是搭建个人技术品牌的 “地基”。

2025-07-14

使用 Hugging Face 推理终端搭建强大的“语音识别 + 说话人分割 + 投机解码”工作流

audio_encoded,"parameters":{"batch_size":24}}res=client.post(json=data) 总结本文讨论了如何使用 Hugging Face 推理终端搭建模块化的

2024-06-05

如何极速极速搭建个人博客？Copy攻城狮用的这一招很优秀！

摘要：在中国功夫中，“天下武功，无坚不摧，唯快不破”，在编程的世界里，如何快速搭建一个属于自己的博客呢？那么 Pagic + Vercel 应该是个不错的选择！

2021-05-26

如何在双十一给自己送个“陪聊女友”——基于飞桨&Plato搭建多轮对话模型

近年来，机器人对话应该是NLP领域最火热的领域之一了。几乎每一个手机操作系统都内置了对话机器人，智能音箱的最大卖点之一也是智能对话。那么，这种对话是如何实现的呢？我们可不可以自己定制，训练自己的对话机器人呢？回答当然是肯定的。今天，我们就尝试用百度开源模型Plato训练一个对话模型。下载安装命令 ## CPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle ## GPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu 百度Plato-2对话模型 Plato是百度推出的一个多轮对话模型。该模型的最大改进在于通过引入离散隐变量实现了对话场景中多回答中的择优，即，对于同一个问题，实现不同场景下的不同回答的选择。最新推出的Plato-2在中英文效果上，已全面超越 Google Meena、Facebook Blender、微软小冰等先进模型。图一：Plato-2模型框架模型的整体框架如图一所示。该模型采用了经典的Transformer结构，通过注意力机制提高了模型针对不同长度对话的生成效果。隐变量z的引入，使预训练模型依据z可以生成多种回答，最终从多种回答中择优。在训练中，该模型采用两阶段训练的方法。第一阶段，基于表现良好的预训练模型，训练出一对一回答的模型；第二阶段，引入评估和隐变量z，训练出一对多回答的模型。模型的具体原理可以参考原论文，论文地址： https://arxiv.org/abs/2006.16779 对话模型训练工具飞桨Knover工具包百度飞桨推出的Konver工具包是一个非常强大的对话模型训练工具，我们可以通过Konver工具包快速地训练属于自己的Plato模型。Knover工具包目前支持了Plato-2模型的训练。具体参考链接：https://github.com/PaddlePaddle/Knover。在这里，我们解释一下Knover工具包中一些常见的问题。 1. 工具包分析我们可以用train.py来进行微调训练，用infer.py 导出想要的结果。这里介绍一下这个模型的一些代码细节。 package文件夹中存放了其自带的试验数据的词集，语句切分模型（spm.model, 即sentencepiece model，这个模型用在语句的预处理上，必须给定），以及模型的细节参数（词集大小，隐含层个数，激活函数等等，具体查看package/dialog_en/24L.json。 models文件夹存放了模型的各个子模块，plato模块也在其中。data文件夹存放了实验用的小文件。tasks文件夹中包含了模型两种应用任务的实现，包括“下一句语句预测”和“会话生成”。需要注意的是，这个应用任务的选择是必须给出的，对应参数 --tasks, 分别写作NextSentencePrediction和DialogGeneration。不过实测只有DialogGeneration可以生成预测语句，NextSentencePrediction并不能生成预测语句（为打分模型，负责对回答的效果打分，以便Plato模型选择最佳的回答）。需要指出的是，在infer.py中需要指出需要保存的内容，对应参数 --output_name，输出结果有3项：data_id, score,和response（response在NextSentencePrediction中并不生成），同时，需要在子目录创建output文件夹，否则会报错（因为源码中并没有自动创建这个文件夹,如果微调中保存了checkpoints，则会自动创建output文件夹）。 2. 常用参数这里需要指出，--do_generation这个参数，推测是手动确定执行任务是否是生成句子的任务的，由于不需要提前指定，所以默认一直是False，但是这会在infer任务中报错，而且对于NSPModel来说，并不存在这个参数，但是在infer时仍然会报错。解决的方法是在执行Plato时加上--do_generation参数并赋值为True。 --init_pretraining_params 预训练模型所在文件夹，如果需要加载（当然需要）预训练模型需要给出这个参数 --init_checkpoint 保存节点的所在文件夹，如果给出了init_checkpoint则从该文件夹初始化训练参数（等于覆盖了init_pretraining_params的参数） train.py --train_file 训练文件地址 --valid_file 评估文件地址 --model 用到的模型名称：Plato：plato；NSPModel：next_sentence_prediction model --config_path 模型细节参数配置文件，如24L.json --task 模型应用任务 NextSentencePrediction；DialogGeneration；UnifiedTransformer --vocab_path 词集路径 --spm_model_file sentencepiece model文件的路径 --num_epochs 训练周期数 --log_steps 输出训练详情的间隔步数 --validation_steps 评价间隔步数 --save_steps 保存间隔步数 infer.py --infer_file 需要推断的文件 --output_name 需要保存的对象，response；data_id；score --model 用到的模型名称：Plato：plato；NSPModel：next_sentence_prediction model --config_path 模型细节参数配置文件，如24L.json --task 模型应用任务 NextSentencePrediction；DialogGeneration；UnifiedTransformer --vocab_path 词集路径 --spm_model_file sentencepiece model文件的路径训练Plato模型 1. 数据准备 Plato-2模型的输入采用了token，role，turn，position相融合的表示方式。在训练和测试过程中，我们需要搞清楚文本数据需要经过怎样的转化才能作为输入，以及输出数据需要怎样的处理才能转换成文本。目前我们可以获取各种开放的对话训练集，如百度千言数据集和清华开放数据集。目前飞桨正在进行的千言多技能会话比赛中，报名即可下载多个对话数据集，我们即用这些数据集进行以下的训练。这里也号召有兴趣的朋友参加千言多技能会话比赛，奖励多多哟！地址在此： https://aistudio.baidu.com/aistudio/competition/detail/55 1.1 中文分词中文必须面对的一个问题就是如何实现分词。在公开的开放域对话数据集中，大多数已经做了分词，然而真实场景中语句是不可能时时刻刻都被分词了的。在Knover的源码中，对输入的处理是通过了sentencepiece工具（BERT也使用的这个）。sentencepiece提供了一种方便快捷的分词操作，我们可以直接将整个数据集放进去，设定分词的单元数量，然后等待训练出一个好用的分词模型（会输出一个预训练模型，之后对每个语句都会用这个模型进行编码和解码，即分词，转换成数字编码，输出再转换回句子）。 Knover中训练必须输入的参数spm_model，就是对应sentencepiece的预训练模型。我们当然可以自己训练一个sentencepiece的预训练模型出来，但是考虑到分词模型对效果的影响，推荐大家使用千言多技能对话中给出的baseline模型（luge-dialogue）中附带的spm.model文件，这个文件分词的效果已经非常出色了。当然，别忘了搭配词表vocab.txt使用。仔细分析luge的spm.model我们可以发现，这个预训练模型其实是根据已经分词的句子训练的，虽说如此，因为分词单元足够多，也覆盖了所有常见的单个中文词。我们可以直接把语句送入得到编码，也可以先用jieba分词预先分一次，然后再编码。用sentencepiece模型的例子如下： importsentencepieceassp importjieba text="我今天做了一顿丰盛的晚餐！" SPM=sp.SentencePieceProcessor() SPM.load('spm.model') #直接分词 ids=SPM.encode_as_ids(text) print(ids) print(SPM.decode_ids(ids)) #先用jieba分词，再用sentencepiece编码 text=''.join(list(jieba.cut(text))) ids=SPM.encode_as_ids(text) print(ids) print(SPM.decode_ids(ids)) 1.2 文本的输入 Plato对文本输入的支持还是挺多样化的，它支持直接输入原始文本，也支持输入经过tokenize的分词序列，或者是已经编码（encoded）的数字序列。但是无论Plato支持的格式如何，在进行训练和预测之前，都会转换成能够被识别的标准格式。在Knover中，这个格式是通过定义的Record完成的。Record的定义如下： fromcollectionsimportnamedtuple Record=namedtuple("Record",fields,defaults=(None,)*len(fields)) 在解释fields的值之前，我们先来思考一下Plato需要哪些输入。在完成一段对话时，我们通常会综合对话的历史和自己所知的历史知识来进行判断，来决定自己将要回答什么。而在对话生成中，这些信息也是需要考虑的。因此，Plato需要的输入有两个，首先，是当前对方的问话，其次是已经进行过的历史对话信息，最后是背景知识。由于各种条件的限制，背景知识可能并没有办法获取，所以至少需要的是已进行的历史对话信息，和此时对方的问话。进一步，我们需要考虑更多的信息：如果纪录了历史对话，我们如何判断每段对话的起始位置，如何判断从什么时候开始生成需要的回答，在训练集中，我们还要知道哪一部分是训练中给出的回答用于调整模型的参数。我们通过图二可以直观地看出这些输入信息的复杂性：图二：Plato的输入结构上图给出了Plato模型需要的输入，当然这些是以Embedding的形式给出的，而Embedding是在模型中转化的，它在转化之前是以数字编码存在的。Embedding现在已经是语言处理技术的标配了，它把每一个标记映射到空间中，增加其表征能力。我们暂时忽略最前边的latent，它是表示不同回答方式的隐变量，用于Plato在众多可能回答中选择正确的回答，我们这里不关心这个是怎么实现的，所以不展开讨论。在latent之后，有contex和response两个内容，其中context包含了众多信息：历史对话，背景知识，以及对话与对话之间分隔的符号[EOU], [BOU]等等，如果有背景知识的话，也会列到context中response则是训练中需要的部分，在测试中这一部分是空的。 TokenEmbeddings表示各语言单元的Embedding（词向量）；RoleEmbeddings是各个语言单元在其中扮演的角色，这个主要是用来区分内容是context（EA）还是response（EB）（亦或是背景知识，背景知识可以作为response的角色，也可以单独成为一类，即EC）；TurnEmbeddings表示每一部分在当前回合中的相对回合数；PositionEmbeddings则是每个语言单元的位置，一般是range(0, len(context))。知道了这些，我们回到Record上来看这个输入应该怎么得到。由定义可知，Record是带名称的元组，这样我们立马可以知道，这个元组是通过名称来调用其中的内容的。fields的内容是什么呢？从官方的源码中可以总结出：fields = ["token_ids", "type_ids", "pos_ids", "tgt_start_idx", "data_id"]。也就是说，输入需要给出5个部分，token_ids就是处理过的语言单位的编码；type_ids就是个语言单位扮演的角色，是context还是response；pos_ids是各个语言单位的位置；tgt_start_idx是回复生成的开始位置，也即context的最后一个词的位置；data_id就是这个训练样本的标记。如下给出一个例子，可以清楚的知道一个输入是如何形成的： fromcollectionsimportnamedtuple fields=["token_ids","type_ids","pos_ids","tgt_start_idx","data_id"] Record=namedtuple("Record",fields,defaults=(None,)*len(fields)) #新的会话 question ='我刚刚去动物园了。' #历史对话 history ='你好？[SEP]你好，谈谈你自己吧？[SEP]我今天过得很开心呢！[SEP]是嘛，你今天干了什么？' #背景知识 background ='天气：晴朗，地点：北京，人物：男孩，动物园，熊猫' #回答 answer ='北京动物园吧，那里的熊猫很受欢迎呢！' question=SPM.encode_as_ids(question) history=[SPM.encode_as_ids(text)fortextinhistory.split("[SEP]")] background=SPM.encode_as_ids(background) answer=SPM.encode_as_ids(answer) token_ids=[] type_ids=[] data_id=0#如果样本多的话，会按排序进行标记 token_ids+=[0]+background+[2]#0表示语句开头，2表示句子结尾 type_ids+=[0]+len(background)*[0]+[0]#0表示context类，1表示response类 forlineinhistory: token_ids+=line+[2] type_ids+=len(line)*[0]+[0] token_ids+=question+[2] type_ids+=len(question)*[0]+[0] token_ids+=[0]+answer+[2] type_ids+=[1]+len(answer)*[1]+[1]#注意符号的变化 fields_value={} fields_value["token_ids"]=token_ids fields_value["type_ids"]=type_ids fields_value["pos_ids"]=list(range(len(type_ids))) fields_value["tgt_start_idx"]=fields_value["pos_ids"][-1] fields_value["data_id"]=data_id record=Record(**fields_value) print(record) 1.3 文本的转换得到record以后，Plato还会将其中的各个标签的元组分别转换成矩阵，这里涉及到填充的过程，由于与其他文本填充的操作基本相同，这里不再赘述。 2. 训练模型对于Plato-2模型来说，其训练包括两个过程：首先，训练出一个一对一的对话模型（UnifiedTransformer）,然后基于这个模型，训练Plato模型。Plato模型的模型结构和UnifiedTransformer很接近（参数中多了一个latent_type_size）。 2.1 配置准备由于在训练模型的时候，需要输入--config_path，这个参数用来读取模型的配置（Transformer层数量等等），这里我们需要定义两个模型的配置文件（**.json）。如下参数生成两个配置文件，配置即为我数据集中附带的模型的配置，如果有兴趣和算力，可以自己改配置训练，最有效的参数是num_hidden_layers和hidden_size，增加这些值会增加模型的规模。 importjson ##定义UnifiedTransformer的参数 key={'pre_encoder_cmd':'d','preprocess_cmd':'n','postprocess_cmd':'da','post_cls_cmd':'n','cls_bias':True, 'attention_probs_dropout_prob':0.1,'hidden_act':'gelu','hidden_dropout_prob':0.1,'hidden_size':768, 'initializer_range':0.02,'max_position_embeddings':512,'num_attention_heads':12, 'num_hidden_layers':12,'type_vocab_size':2,'role_type_size':32,'vocab_size':30004} f=open("12L.json","w") json_data=json.dump(key,f) f.close() ##定义Plato的参数 key={'pre_encoder_cmd':'d','preprocess_cmd':'n','postprocess_cmd':'da','post_cls_cmd':'n','cls_bias':True, 'attention_probs_dropout_prob':0.1,'hidden_act':'gelu','hidden_dropout_prob':0.1,'hidden_size':768, 'initializer_range':0.02,'max_position_embeddings':512,'latent_type_size':20,'num_attention_heads':12, 'num_hidden_layers':12,'type_vocab_size':2,'role_type_size':32,'vocab_size':30004} f=open("12L_P.json","w") json_data=json.dump(key,f) f.close() 2.2 训练一对一模型（UnifiedTransformer）用命令行的方式来调用.py文件进行训练，对于模型的训练，我们可以用Knover工具包中的train.py文件进行。代码如下： pythonKnover/train.py\ --modelUnifiedTransformer--taskDialogGeneration--vocab_pathKnover/config/vocab.txt--spm_model_fileKnover/config/spm.model\ --train_filepro_data/train.txt--valid_filepro_data/valid.txt--data_formatnumerical--file_formatfile--config_pathKnover/config/12L.json\ --init_checkpointKnover/latest_model/ut_model\ --in_tokensTrue--batch_size16000-lr1e-5--warmup_steps1000--weight_decay0.01--num_epochs20\ --max_src_len384--max_tgt_len128--max_seq_len512\ --log_step100--validation_steps20000--save_steps5000\ --save_pathKnover/output\ --is_distributedFalse\ --is_cnTrue\ --start_step 2.3 训练一对多模型（Plato）用3.2中得到的模型，继续训练Plato模型。由于是接着3.2模型进行的调整，--lr最好不要设置的过大（3.2模型--lr的十分之一即可）。注意更改配置文件，否则会报错。 pythonKnover/train.py\ --modelPlato--taskDialogGeneration--vocab_pathKnover/config/vocab.txt--spm_model_fileKnover/config/spm.model\ --train_filepro_data/train.txt--valid_filepro_data/valid.txt--data_formatnumerical--file_formatfile--config_pathKnover/config/12L_P.json\ --init_checkpointKnover/latest_model/pt_model\ --in_tokensTrue--batch_size1000-lr1e-5--warmup_steps1000--weight_decay0.01--num_epochs20\ --max_src_len384--max_tgt_len128--max_seq_len512\ --log_step100--validation_steps20000--save_steps100\ --save_pathKnover/output\ --start_step\ --is_cnTrue 3. 保存模型当Plato训练完后，我们可以保存相应的模型，以较少模型参数的容量占用。我们需要把NSPModel和Plato模型分开储存，代码如下： ##保存NSPModel pythonKnover/save_inference_model.py\ --modelNSPModel\ --taskNextSentencePrediction --vocab_pathKnover/config/vocab.txt--spm_model_fileKnover/config/spm.model\ --init_checkpointKnover/latest_model/pt_model\ --inference_model_pathNSP\ --config_pathKnover/config/12L.json ##保存Plato pythonKnover/save_inference_model.py\ --modelPlato\ --do_generationtrue\ --taskDialogGeneration\ --vocab_pathKnover/config/vocab.txt--spm_model_fileKnover/config/spm.model\ --init_checkpointKnover/latest_model/pt_model\ --inference_model_pathPlato\ --config_pathKnover/config/12L_P.json 训练模型的应用在模型训练完之后，便用训练后的模型做一些应用了。比如生成下一句话，或者进行多轮对话。 1. 对话生成我们可以直接用Knover提供的infer.py生成下一句话。我们可以通过生成的NSPModel和Plato进行上述操作，代码如下： pythonKnover/infer.py\ --modelPlato--taskDialogGeneration--vocab_pathKnover/config/vocab.txt--spm_model_fileKnover/config/spm.model\ --infer_filepro_data/test.txt--data_formatnumerical--file_formatfile--config_pathKnover/config/12L_P.json\ --init_pretraining_paramsPlato--nsp_inference_model_pathNSP--ranking_scorensp_score\ --batch_size1\ --max_src_len384--max_tgt_len128--max_seq_len512\ --output_nameresponse\ --do_generationTrue--num_samples20--topk5--is_cnTrue\ --do_generationtrue--save_pathKnover/output--log_step1 2. 用Paddlehub实现多轮对话 PaddleHub是飞桨预训练模型应用工具，开发者可以便捷地使用高质量的预训练模型结合Fine-tune API快速完成模型迁移到部署的全流程工作。PaddleHub提供的预训练模型涵盖了图像分类、目标检测、词法分析、语义模型、情感分析、视频分类、图像生成、图像分割、文本审核、关键点检测等主流模型。更多详情可查看官网，链接： https://www.paddlepaddle.org.cn/hub 2.1 英文多轮对话在Paddlehub中已经集成了两个plato对话模型，分别是plato2_en_base和plato2_en_large。其中，第一个是小模型，占用1.2G；第二个是大模型，占用12G。小模型可以在4G显存以上的电脑上直接运行，但是如果需要运行大模型，则至少需要一块16G的V100了。官方给出的这两个模型其实对话效果已经很棒了，特别是大模型，效果相当惊艳。然而，遗憾的是并不支持中文对话。如果实在想用英文对话，可以用几个简单的代码实现该模型的调用： importpaddlehubashub module=hub.module("plato2_en_base") #直接产生对话： text="whatyouwanttosay" response=module.generate([text]) #多轮对话 withmodule.interactive_mode(max_turn=3): your_words=input() response=module.generate(your_words) print("robotanswer:%s"%response) 其中，module在非对话模式（interactive_mode）下，需要输入一个储存多个问句的list；在对话模式下，则每次输入一个问句。 2.2 实现中文多轮对话当然，只有英文对话是不够的，我们不是已经有了中文模型了吗？通过对官方hub模块的修改，我们可以将自己的模型嵌入进去，实现中文对话！当你调用了一次官方的plato2_en_base模型后（为什么我写plato2_en_base呢？因为plato2_en_large也跑不动啊！除非你有16G显存的显卡），对应的模型已经保存到了paddlehub的离线模型库中，你可以在C:\Users\你的计算机名\paddlehub\modules\路径下找到自己下载的plato2_en_base文件夹。首先，我们来分析一下官方模块的组成部分，如下，当我们把plato2_en_base下载下来后，可以看到其主要由以下几个部分组成：图三：plato2_en_base组成我们需要改的只有红线标出的部分。首先我们要准备的东西有：save_inference_model.py导出的NSPModel和PlatoModel，分别对应图中的NSP和Plato；查询字典vocab.txt以及sentencepiece预训练模型spm.model。这些文件分别放到图中所示的对应位置。以上工作完成后，如果你确保了你替换的文件都是按照官方模块中的名字进行的命名，那么你可以直接进行调用，即用官方的名称调用。当然，稍微有强迫症的人可能并不想用官方的名字，我们可以对module进行如下更改来更改模块的名字： name即你想更改的名字，在调用模型时可以用这个名字来进行搜索。当然，如果你的模型时另外存到了其他地方，你可以用hub.module(directory=dirs)而非hub.module(name)来调用，dirs直接指定到你自己的模块所在的文件夹。更进一步地，你也可以对模块的文件夹更改名字，但是需要注意的是，如果你更改了文件夹的名字，记得将所有py文件中的import选项与文件名相关的import进行更改，即类似from plato2_en_base import ...字段的plato2_en_base更改为你想要定制的文件夹名称。经过这些简单的操作，我们就可以通过以下几行简单的代码进行自己模型的对话了！ importpaddlehubashub importos os.environ["CUDA_VISIBLE_DEVICES"]='0' module=hub.Module(directory='plato2_cn_small') withmodule.interactive_mode(max_turn=3): whileTrue: human_utterance=input() iflen(human_utterance)>0: print("You:"+human_utterance) robot_utterance=module.generate(human_utterance) print("Robot:%s"%robot_utterance[0]) else: break 最后，下边是一个对话展示：相关模型我已经公开到了AI Studio上，项目链接： https://aistudio.baidu.com/aistudio/projectdetail/1197592 下载安装命令 ## CPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle ## GPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu >>访问 PaddlePaddle 官网，了解更多相关内容。

2020-11-13

Proxy-Go 控制面板 v2.1 发布，一秒搭建专业代理服务！

刚刚用了它，隔壁代理小李都馋哭了。 Proxy-Go 控制面板 ProxyAdmin是强大的代理服务工具snail007/goproxy的控制面板，运行了它，一秒让你的服务器变为强大的代理服务器，友好的交互界面，小白也能轻松上手，让你用起来得心应手，心情舒畅。更新内容： 1.更新sdk内核至最新版v9.5。 2.针对有拨号的机器进行了优化。功能预览展现客户端参数实时日志参数文件管理调试模式下载地址: Gitee Github 详细信息：https://github.com/snail007/proxy_admin_free

2020-05-22

如何快速学习网站基本搭建和服务器环境配置（LAMP/LNMP/Tomcat）？

实验2: 快速搭建和部署LAMP环境点击详情 LAMP是指Linux（操作系统），ApacheHTTP服务器，MySQL（有时也指MariaDB，数据库软件）和PHP（有时也指Perl或Python）

2020-04-17

精选列表

2016年中国基础云计算服务商估值TOP10

关键基础设施是否会成为DDoS攻击的新目标？答案是不大会

奚国华：5G标准将在年底完成第一基础版本制定

工信部：推动窄带物联网、5G泛在信息基础设施

关键基础设施遭受攻击数量上升网络保险业务亟待发展

《深入理解Spark:核心思想与源码分析》——2.2节Spark基础知识

《Android智能穿戴设备开发指南》——第6章，第6.1节Socket编程基础

《21天学通Java（第7版）》—— 第1章 Java基础 1.1 Java语言

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.2 文本清理

深度 | 伯克利教授Stuart Russell：人工智能基础概念与34个误区

网站前端_EasyUI.基础入门.0005.使用EasyUI Accordion组件的最佳姿势?

一天一个linux基础命令之时间日期命令date

为 Neutron 准备物理基础设施（I） - 每天5分钟玩转 OpenStack（75）

Spark入门到精通视频学习资料--第一章、Scala基础与实践

手把手教你在 Sevalla 上部署 Next.js 博客：从搭建到上线全流程

使用 Hugging Face 推理终端搭建强大的“语音识别 + 说话人分割 + 投机解码”工作流

如何极速极速搭建个人博客？Copy攻城狮用的这一招很优秀！

如何在双十一给自己送个“陪聊女友”——基于飞桨&Plato搭建多轮对话模型

Proxy-Go 控制面板 v2.1 发布，一秒搭建专业代理服务！

如何快速学习网站基本搭建和服务器环境配置（LAMP/LNMP/Tomcat）？

资源下载

Mario

腾讯云软件源

Spring

Rocky Linux

欢迎您来访！

精选列表

2016年中国基础云计算服务商估值TOP10

关键基础设施是否会成为DDoS攻击的新目标？答案是不大会

奚国华：5G标准将在年底完成第一基础版本制定

工信部：推动窄带物联网、5G泛在信息基础设施

关键基础设施遭受攻击数量上升 网络保险业务亟待发展

《深入理解Spark:核心思想与源码分析》——2.2节Spark基础知识

《Android智能穿戴设备开发指南》——第6章，第6.1节Socket编程基础

《21天学通Java（第7版）》—— 第1章 Java基础 1.1 Java语言

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.2 文本清理

深度 | 伯克利教授Stuart Russell：人工智能基础概念与34个误区

网站前端_EasyUI.基础入门.0005.使用EasyUI Accordion组件的最佳姿势?

一天一个linux基础命令之时间日期命令date

为 Neutron 准备物理基础设施（I） - 每天5分钟玩转 OpenStack（75）

Spark入门到精通视频学习资料--第一章、Scala基础与实践

手把手教你在 Sevalla 上部署 Next.js 博客：从搭建到上线全流程

使用 Hugging Face 推理终端搭建强大的“语音识别 + 说话人分割 + 投机解码”工作流

如何极速极速搭建个人博客？Copy攻城狮用的这一招很优秀！

如何在双十一给自己送个“陪聊女友”——基于飞桨&Plato搭建多轮对话模型

Proxy-Go 控制面板 v2.1 发布，一秒搭建专业代理服务！

如何快速学习网站基本搭建和服务器环境配置（LAMP/LNMP/Tomcat）？

资源下载

Mario

腾讯云软件源

Spring

Rocky Linux

欢迎您来访！

关键基础设施遭受攻击数量上升网络保险业务亟待发展