首页 文章 精选 留言 我的

精选列表

搜索[快速入门],共10000篇文章
优秀的个人博客,低调大师

大数据 第一天 linux入门 及基本操作指令

内容 防火墙 查看状态 service iptables status 关闭 service iptables stop 打开 service iptables start 永久关闭防火墙 chkconfig iptables off 2.常用命令 命令组成 命令+选项+参数 短选项(-):只能修饰一个字符的选项。 比如: ls -a,当然多个短选项可以合并,比如tar -cvf 短选项使用一个字母表示,但如果能更清楚的表达含义,可以使用一个单词来表达选项。如ls命令都有size选项,表示显示文件的大小。如果写成-size的话,会被误解为-s、-i、-z、-e4个选项。所以这时使用长选项。另外,许多命令的选项都提供长短两种选项,如 长选项(--):可以修饰单个字符,也可以修饰一个单词。 cd :切换目录 rm:删除 -r 递归删除所有文件 -f 强制 不提示删除文件 ma

优秀的个人博客,低调大师

Python爬虫入门教程 33-100 《海王》评论数据抓取 scrapy

1. 海王评论数据爬取前分析 海王上映了,然后口碑炸了,对咱来说,多了一个可爬可分析的电影,美哉~ 摘录一个评论 零点场刚看完,温导的电影一直很不错,无论是速7,电锯惊魂还是招魂都很棒。打斗和音效方面没话说非常棒,特别震撼。总之,DC扳回一分( ̄▽ ̄)。比正义联盟好的不止一点半点(我个人感觉)。还有艾梅伯希尔德是真的漂亮,温导选的人都很棒。真的第一次看到这么牛逼的电影 转场特效都吊炸天 2. 海王案例开始爬取数据 数据爬取的依旧是猫眼的评论,这部分内容咱们用把牛刀,scrapy爬取,一般情况下,用一下requests就好了 抓取地址 http://m.maoyan.com/mmdb/comments/movie/249342.json?_v_=yes&offset=15&startTime=2018-12-11%2009%3A5

优秀的个人博客,低调大师

Python爬虫入门教程 29-100 手机APP数据抓取 pyspider

1. 手机APP数据----写在前面 继续练习pyspider的使用,最近搜索了一些这个框架的一些使用技巧,发现文档竟然挺难理解的,不过使用起来暂时没有障碍,估摸着,要在写个5篇左右关于这个框架的教程。今天教程中增加了图片的处理,你可以重点学习一下。 2. 手机APP数据----页面分析 咱要爬取的网站是 http://www.liqucn.com/rj/new/ 这个网站我看了一下,有大概20000页,每页数据是9个,数据量大概在180000左右,可以抓取下来,后面做数据分析使用,也可以练习优化数据库。 网站基本没有反爬措施,上去爬就可以,略微控制一下并发,毕竟不要给别人服务器太大的压力。 页面经过分析之后,可以看到它是基于URL进行的分页,这就简单了,我们先通过首页获取总页码,然后批量生成所有页码即可 http://www.liqucn.

优秀的个人博客,低调大师

Python爬虫入门教程 22-100 CSDN学院课程数据抓取

1. CSDN学院课程数据写在前面 今天又要抓取一个网站了,选择恐惧症使得我不知道该拿谁下手,找来找去,算了,还是抓取CSDN学院吧,CSDN学院的网站为 https://edu.csdn.net/courses 我看了一下这个网址,课程数量也不是很多,大概有 6000+ 门课程,数据量不大,用单线程其实就能很快的爬取完毕,不过为了秒爬,我还是选用了一个异步数据操作。 2. CSDN学院课程数据分析页码 还是需要好好的分析一下页码规律 https://edu.csdn.net/courses/p2 https://edu.csdn.net/courses/p3 https://edu.csdn.net/courses/p4 ... ... https://edu.csdn.net/courses/p271 页码还是非常有规律的,直接编写

优秀的个人博客,低调大师

Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取

1.煎蛋网XXOO-写在前面 很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断的完善,反爬措施也很多,今天我用selenium在揍他一波。 整体看上去,煎蛋网的妹子图质量还是可以的,不是很多,但是还蛮有味道的,这可能也是爬虫er,一批一批的奔赴上去的原因。 2. 煎蛋网XXOO-网站分析 这个网站如果用 selenium 爬取,其实也没什么要分析的,模拟访问就行,导入必备的模块。 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from lxml import etree import requests import time 我使用的是PhantomJS 去加载浏览器,关于这个PhantomJS,去互联网搜索一下吧,资料大把,会看的很爽的,总之呢,它可以模拟一个真实的浏览器做任何事情,得到你想要的数据。 browser = webdriver.PhantomJS() browser.set_window_size(1366, 768) # 这个地方需要设置一下浏览器的尺寸 wait = WebDriverWait(browser,10) browser.get("http://jandan.net/ooxx") 3. 煎蛋网XXOO-分析数据 程序获取到数据之后就可以对数据进行处理了,编写一个get_content函数,用来处理网页源码。 def get_content(): try: wait.until( EC.presence_of_element_located((By.XPATH,'//*[@id="comments"]/ol')) ) # print("正在爬取{}".format(browser.current_url)) page_source = browser.page_source # 获取网页源码 html = etree.HTML(page_source) # 解析源码 imgs = html.xpath("//li[contains(@id,'comment')]//img/@src") # 匹配图片 download(imgs) except Exception as e: print("错误") print(e) finally: browser.close() 图片获取到之后,在上面的代码中,注意有一个地方调用了一个 download函数,这个函数就是用来下载图片的 def download(imgs): path = "./xxoo/{}" # 路径我写死了 for img in imgs: try: res = requests.get(img) content = res.content except Exception as e: print(e) continue file_name = img.split("/")[-1] # 获取文件名 with open(path.format(file_name),"wb") as f: f.write(content) print(file_name,"成功下载文件") time.sleep(0.3) # 循环下载完毕,进行翻页操作 previous-comment-page next = wait.until( EC.presence_of_element_located((By.XPATH, '//*[@id="comments"]//a[@class="previous-comment-page"]')) ) next.click() return get_content() # 继续调用上面的网页源码分析流程 OK,运行一下。

优秀的个人博客,低调大师

Golang 入门系列(九) 如何读取YAML,JSON,INI等配置文件

实际项目中,读取相关的系统配置文件是很常见的事情。今天就来说一说,Golang 是如何读取YAML,JSON,INI等配置文件的。 1. json使用 JSON 应该比较熟悉,它是一种轻量级的数据交换格式。层次结构简洁清晰 ,易于阅读和编写,同时也易于机器解析和生成。 1. 创建 conf.json: { "enabled": true, "path": "/usr/local" } 2. 新建config_json.go: package main import ( "encoding/json" "fmt" "os" ) type configuration struct { Enabled bool Path string } func main() { // 打开文件 file, _ := os.Open("conf.json") // 关闭文件 defer file.Close() //NewDecoder创建一个从file读取并解码json对象的*Decoder,解码器有自己的缓冲,并可能超前读取部分json数据。 decoder := json.NewDecoder(file) conf := configuration{} //Decode从输入流读取下一个json编码值并保存在v指向的值里 err := decoder.Decode(&conf) if err != nil { fmt.Println("Error:", err) } fmt.Println("path:" + conf.Path) } 启动运行后,输出如下: D:\Go_Path\go\src\configmgr>go run config_json.go path:/usr/local 2. ini的使用 INI文件格式是某些平台或软件上的配置文件的非正式标准,由节(section)和键(key)构成,比较常用于微软Windows操作系统中。这种配置文件的文件扩展名为INI。 1. 创建 conf.ini: [Section] enabled = true path = /usr/local # another comment 2.下载第三方库:go get gopkg.in/gcfg.v1 3.新建 config_ini.go: package main import ( "fmt" gcfg "gopkg.in/gcfg.v1" ) func main() { config := struct { Section struct { Enabled bool Path string } }{} err := gcfg.ReadFileInto(&config, "conf.ini") if err != nil { fmt.Println("Failed to parse config file: %s", err) } fmt.Println(config.Section.Enabled) fmt.Println(config.Section.Path) } 启动运行后,输出如下: D:\Go_Path\go\src\configmgr>go run config_ini.go true /usr/local 3. yaml使用 yaml 可能比较陌生一点,但是最近却越来越流行。也就是一种标记语言。层次结构也特别简洁清晰 ,易于阅读和编写,同时也易于机器解析和生成。 golang的标准库中暂时没有给我们提供操作yaml的标准库,但是github上有很多优秀的第三方库开源给我们使用。 1. 创建 conf.yaml: enabled: true path: /usr/local 2. 下载第三方库:go getgopkg.in/yaml.v2 3. 创建 config_yaml.go: package main import ( "fmt" "io/ioutil" "log" "gopkg.in/yaml.v2" ) type conf struct { Enabled bool `yaml:"enabled"` //yaml:yaml格式 enabled:属性的为enabled Path string `yaml:"path"` } func (c *conf) getConf() *conf { yamlFile, err := ioutil.ReadFile("conf.yaml") if err != nil { log.Printf("yamlFile.Get err #%v ", err) } err = yaml.Unmarshal(yamlFile, c) if err != nil { log.Fatalf("Unmarshal: %v", err) } return c } func main() { var c conf c.getConf() fmt.Println("path:" + c.Path) } 启动运行后,输出如下: D:\Go_Path\go\src\configmgr>go run config_yaml.go path:/usr/local 最后 以上,就把golang 读取配置文件的方法,都介绍完了。大家可以拿着代码运行起来看看。

优秀的个人博客,低调大师

深度学习入门笔记系列 ( 七 ) ——循环神经网络(RNN)学习笔记

1.引言 在传统的神经网络模型中 ,是从输入层到隐含层再到输出层 ,层与层之间是全连接的 ,每层之间的节点是无连接的 。但是这种普通的神经网络对于很多问题却无能无力 。例如 ,你要预测句子的下一个单词是什么 ,一般需要用到前面的单词 ,因为一个句子中前后单词并不是独立的 。于是乎 ,我们就名正言顺的引出了这篇文章的 RNN 。 2.什么是RNN RNN(Recurrent Neural Networks)翻译为循环神经网路 ,与传统神经网络模型对比 ,RNN 一个序列当前的输出与前面的输出也有关 。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中 。重点的讲就是 ,隐藏层之间的节点之间是有连接的 ,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出 。 例如上图 ,中间A表示隐含层 ,能够看出来从左到右的序列中 ,隐含层输入不仅包括输入层还有上一个序列的隐含层输出 。 3.RNN 能干些啥 理论上 ,RNN 能够对任何长度的序列数据进行处理 。但是在实践中 ,为了降低复杂性往往假设当前的状态只与前面的几个状态相关 ,下图便是一个典型的RNN : 坦白讲 ,小詹对 RNN 只知道基础概念 ,用的很少很少 。因为个人感觉 RNN 更多的应用到 NLP 即自然语言处理中 ,如如词向量表达 、语句合法性检查 、词性标注 。与之相对的 ,在计算机视觉领域 ,可能 CNN 及其变种使用的更为频繁 ,但是 RNN 也并非无用武之地 。 RNN 可以应用的领域大致有 : ●语言模型与文本生成(Language Modeling and Generating Text) ●机器翻译(Machine Translation) ●语音识别(Speech Recognition) ●图像描述生成 (Generating Image Descriptions) 4.LSTM网络 和 CNN 一样 ,基础的 RNN 网络也存在很多改进和拓展 ,相信大家听到比较多的是 LSTM(Long Short Term Memory)。 它与一般的 RNN 结构本质上并没有什么不同 ,只是使用了不同的函数去去计算隐藏层的状态 。在 LSTM 中 ,i 结构被称为 cells ,可以把 cells 看作是黑盒用以保存当前输入 xt 之前的保存的状态 ht−1 ,这些 cells 更加一定的条件决定哪些 cell 抑制哪些 cell 兴奋 。它们结合前面的状态 、当前的记忆与当前的输入 。已经证明 ,该网络结构在对长序列依赖问题中非常有效 。 原文发布时间为:2018-09-4 本文作者:小詹 本文来自云栖社区合作伙伴“小詹学Python”,了解相关信息可以关注“小詹学Python”。

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源,继承了IntelliJ IDEA强大的JS部分的功能。

用户登录
用户注册