搜索[镜像无法拉取]结果-低调大师优秀个人博客

精选列表

搜索[镜像无法拉取]，共10016篇文章

面试大杂烩

因为数组长度 n 总是 2 的幂，(n-1) & hash 等价于 hash % n，但位运算 & 的效率远高于取模 %。处理哈希冲突如果计算出的桶位置是空的，直接放入新节点。

2025-09-18

MySQL数据库中FOR UPDATE的使用

索引的重要性 sql 复制代码 -- 使用主键索引（高效） SELECT * FROM users WHERE id = 1 FOR UPDATE; -- 无索引字段可能导致表锁（性能差） SELECT

2025-10-26

1.创建项目在控制台通过scrapy startproject 创建项目我们通过scrapy startproject haozu 创建爬虫项目 2.创建爬虫文件在控制台进入spiders 文件夹下通过scrapy genspider <网站域名> scrapy genspider haozu_xzl www.haozu.com 创建爬虫文件 3.在爬虫文件中 haozu_xzl.py写代码 python version=3.6.0 -- coding: utf-8 -- import scrapyimport requestsfrom lxml import htmletree =html.etreefrom ..items import HaozuItemimport random class HaozuXzlSpider(scrapy.Spider): # scrapy crawl haozu_xzl name = 'haozu_xzl' # allowed_domains = ['www.haozu.com/sz/zuxiezilou/'] start_urls = "http://www.haozu.com/sz/zuxiezilou/" province_list = ['bj', 'sh', 'gz', 'sz', 'cd', 'cq', 'cs','dl','fz','hz','hf','nj','jian','jn','km','nb','sy', 'su','sjz','tj','wh','wx','xa','zz'] def start_requests(self): user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2' headers = {'User-Agent': user_agent} for s in self.province_list: start_url = "http://www.haozu.com/{}/zuxiezilou/".format(s) # 包含yield语句的函数是一个生成器，每次产生一个值，函数被冻结，被唤醒后再次产生一个值 yield scrapy.Request(url=start_url, headers=headers, method='GET', callback=self.parse, \ meta={"headers": headers,"city":s}) def parse(self, response): lists = response.body.decode('utf-8') selector = etree.HTML(lists) elem_list = selector.xpath('/html/body/div[2]/div[2]/div/dl[1]/dd/div[2]/div[1]/a') print(elem_list,type(elem_list)) for elem in elem_list[1:-1]: try: district = str(elem.xpath("text()"))[1:-1].replace("'",'') # district.remove(district[0]) # district.pop() print(district,type(district)) district_href =str(elem.xpath("@href"))[1:-1].replace("'",'') # district_href.remove(district_href[0]) print(district_href,type(district_href)) elem_url ="http://www.haozu.com{}".format(district_href) print(elem_url) yield scrapy.Request(url=elem_url, headers=response.meta["headers"], method='GET', callback=self.detail_url, meta={"district": district,"url":elem_url,"headers":response.meta["headers"],"city":response.meta["city"]}) except Exception as e: print(e) pass def detail_url(self, response): print("===================================================================") for i in range(1,50): # 组建url re_url = "{}o{}/".format(response.meta["url"],i) print(re_url) try: response_elem = requests.get(re_url,headers=response.meta["headers"]) seles= etree.HTML(response_elem.content) sele_list = seles.xpath("/html/body/div[3]/div[1]/ul[1]/li") for sele in sele_list: href = str(sele.xpath("./div[2]/h1/a/@href"))[1:-1].replace("'",'') print(href) href_url = "http://www.haozu.com{}".format(href) print(href_url) yield scrapy.Request(url=href_url, headers=response.meta["headers"], method='GET', callback=self.final_url, meta={"district": response.meta["district"],"city":response.meta["city"]}) except Exception as e: print(e) pass def final_url(self,response): try: body = response.body.decode('utf-8') sele_body = etree.HTML(body) #获取价格名称地址 item = HaozuItem() item["city"]= response.meta["city"] item['district']=response.meta["district"] item['addr'] = str(sele_body.xpath("/html/body/div[2]/div[2]/div/div/div[2]/span[1]/text()[2]"))[1:-1].replace("'",'') item['title'] = str(sele_body.xpath("/html/body/div[2]/div[2]/div/div/div[1]/h1/span/text()"))[1:-1].replace("'",'') price = str(sele_body.xpath("/html/body/div[2]/div[3]/div[2]/div[1]/span/text()"))[1:-1].replace("'",'') price_danwei=str(sele_body.xpath("/html/body/div[2]/div[3]/div[2]/div[1]/div/div/i/text()"))[1:-1].replace("'",'') print(price+price_danwei) item['price']=price+price_danwei yield item except Exception as e: print(e) pass 4.修改items.py 文件 -- coding: utf-8 -- Define here the models for your scraped items See documentation in: https://doc.scrapy.org/en/latest/topics/items.html import scrapy class HaozuItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() city = scrapy.Field() district =scrapy.Field() title = scrapy.Field() addr =scrapy.Field() price = scrapy.Field() 5修改settings.py 打开ITEM_PIPELINES = { 'haozu.pipelines.HaozuPipeline': 300,} 6 修改pipelines.py文件这里可以自定义存储文件格式 -- coding: utf-8 -- Define your item pipelines here Don't forget to add your pipeline to the ITEM_PIPELINES setting See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html import csv class HaozuPipeline(object): def process_item(self, item, spider): f = open('./xiezilou2.csv', 'a+',encoding='utf-8',newline='') write = csv.writer(f) write.writerow((item['city'],item['district'],item['addr'],item['title'],item['price'])) print(item) return item 7.启动框架在控制台输入 scrapy crawl haozu_xzl 启动程序

2019-06-30

Python 爬取斗图啦图片

斗图啦 requests BeautifulSoup4 代码 # -*- coding:utf-8 -*- # pip install requests 框架 import requests # pip install beautifulsoup4 框架 # pip install lxml 解析器 from bs4 import BeautifulSoup import os class doutuSpider(object): headers = { "user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36" } def get_url(self, url): data = requests.get(url, headers=self.headers) soup = BeautifulSoup(data.content, 'lxml') totals = soup.findAll("a", {"class": "list-group-item"}) for one in totals: sub_url = one.get('href') global path path = 'E:\\img' + '\\' + sub_url.split('/')[-1] os.mkdir(path) try: self.get_img_url(sub_url) except: pass pass pass def get_img_url(self, url): data = requests.get(url, headers = self.headers) soup = BeautifulSoup(data.content, 'lxml') totals = soup.findAll('div', {'class': 'artile_des'}) for one in totals: img = one.find('img') try: sub_url = img.get('src') except Exception as e: raise e finally: urls = sub_url try: self.get_img(urls) except: print urls pass pass pass def get_img(self, url): filename = url.split('/')[-1] global path img_path = path + '\\' + filename img = requests.get(url, headers = self.headers) try: with open(img_path, 'wb') as f: f.write(img.content) except: pass pass def create(self): for count in range(1,10): url = 'https://www.doutula.com/article/list/?page={}'.format(count) print 'download {} page'.format(count) self.get_url(url) pass pass if __name__ == '__main__': doutu = doutuSpider() doutu.create()

2018-09-24

爬取高德地图poi数据

高德地图搜索poi的api介绍地址当前想法是爬取目标区域（作者所在小县城）的所有poi数据，存到数据库中作为原始数据，然后供其它系统调用，因为之前爬取过百度地图的poi数据，所以这次工作就驾轻就熟了。

2018-09-18

Python爬取猫眼「碟中谍」全部评论

其实正常来说到这儿就差不多了，按照以往的套路循环传入offset参数就好了，不过当我爬到第67页的时候，就已经不返回值了，为啥是67，6715=1005，猫眼应该是控制了每个startTime只能往前取1000

2018-09-01

python爬取糗事百科

闲来无事，找点段子一乐呵，就逛到糗事百科，这次爬取没有什么难度，唯一值得说道的是增加了一点点的代码健壮性。

2018-08-13

Python 爬取周杰伦 instagram

整体框架使用国内能访问的某国外 app angine 爬取Jay的 Instagram 并显示，再使用国内的 sae 访问这个网站，再爬取一次并发送到微博小号。

2018-07-07

Python使用BeautifulSoup爬取妹子图

最近突然发现之前写的妹子图的爬虫不能用了，估计是网站又加了新的反爬虫机制，本着追求真理的精神我只好又来爬一遍了! 效果文件夹妹子图思路整理页面地址：http://www.meizitu.com/ 获取首页分类标签地址，传入下一步 image.png 获取每个分类下内容页面地址 image.png 获取内容页面图片地址以及标题，以页面标题作为文件夹名 image.png 最后保存图片就好了代码所需包 import os import sys import urllib2 from bs4 import BeautifulSoup import requests import lxml import uuid 获取地址首先说BeautifulSoup真的是爬虫利器，不过需要注意这里返回的list，还需要通过for循环读取每个地址。贴一段官方解释： Beautiful Soup提供一些简单的、python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。 Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。下面给出的代码是从首页获取每个分类的地址，其他的获取包括图片地址，内容页地址也都是大同小异，然后一直嵌套就可以了。 def get_mei_channel(url): web_data=requests.get(url) web_data.encoding='gb2312' soup=BeautifulSoup(web_data.text,'lxml') channel=soup.select('body span a') return channel ##获取分类地址保存图片这里需要注意的是保存图片的时候需要加上header，应该是网站更新了验证，去年爬妹子图直接保存就可以的。文件命名的话我引入了uuid包来生成唯一guid，避免重名保存失败。 def save_pic(url,path): header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' } request = urllib2.Request(url, None, header) response = urllib2.urlopen(request) filename = path +'/'+str(uuid.uuid1())+'.jpg' with open(filename,"wb") as f: f.write(response.read()) ##保存图片，生成唯一guid作为文件名嵌套最后按照思路一步步嵌套起来就可以啦，贴完整代码： # -*- coding: utf-8 -*- import os import sys import urllib2 from bs4 import BeautifulSoup import requests import lxml import uuid def judge_folder(path): if os.path.isdir(path): return False else: os.mkdir(path) return True def save_pic(url,path): header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' } request = urllib2.Request(url, None, header) response = urllib2.urlopen(request) filename = path +'/'+str(uuid.uuid1())+'.jpg' with open(filename,"wb") as f: f.write(response.read()) def get_mei_channel(url): web_data=requests.get(url) web_data.encoding='gb2312' soup=BeautifulSoup(web_data.text,'lxml') channel=soup.select('body span a') return channel def get_mei_info(url): web_data=requests.get(url) web_data.encoding='gb2312' soup=BeautifulSoup(web_data.text,'lxml') info=soup.select('body div.pic a') return info def get_mei_pic(url): web_data=requests.get(url) web_data.encoding='gb2312' soup=BeautifulSoup(web_data.text,'lxml') pic=soup.select('body p img') titlelist=soup.select('body div h2 a') for list in titlelist: path_folder = format(list.get_text()) path = root_folder + path_folder.encode('utf-8') print '创建文件夹>>>'+ path_folder.encode('utf-8') +'>>>' if judge_folder(path): print '***开始下载啦！！***' else: pic =[] print '***文件夹已存在，即将开始保存下一个页面***' return pic ,path def MeiZiTuSpider(url): channel_list = get_mei_channel(url) for channel in channel_list: channel_url = (channel.get('href')) channel_title = (channel.get('title')) print '***开始查找 '+channel_title.encode('utf-8') +' 分类下的妹子图***' info_list = get_mei_info(channel_url) for info in info_list: info_url = (info.get('href')) pic_list,path = get_mei_pic(info_url) for pic in pic_list: pic_url = (pic.get('src')) save_pic(pic_url,path) root_folder = 'MEIZITU/' url='http://www.meizitu.com/' if __name__ == "__main__": if os.path.isdir(root_folder): pass else: os.mkdir(root_folder) MeiZiTuSpider(url) print '****MeiZiTuSpider@Awesome_Tang****' 其实还有一步可以做，每个分类页面下目前是只取了第一页的内容，再加一个页码的嵌套的话基本上就可以全部download下来了，不过我盖中盖的Mac吃不消了，有兴趣的可以尝试下～另外我把代码打包生成了exe，有兴趣的可以留言或者私信我，我发你^^ peace~

2018-01-16

阿里云ECS云服务器镜像之公共镜像、自定义镜像、共享镜像和镜像市场的区别与使用说明

阿里云ECS云服务器镜像分为阿里云公共镜像、自定义镜像、共享镜像和镜像市场，镜像之间有什么区别？

2020-04-16

SSH无密码验证

Salve 1）SSH无密码原理 Master（NameNode |JobTracker）作为客户端，要实现无密码公钥认证，连接到服务器Salve（DataNode |Tasktracker）

2018-03-09

ssh无密钥登录

创建hadoop用户 groupadd hadoop useradd -g hadoop hadoop 三、设置密码 passwd hadoop 切换到hadoop用户登录su hadoop 四、生成无密码访问的公钥

2017-11-06

无 IaC 不 DevOps

可以用Packer创建操作系统、开发环境的镜像，一次打包多次分发；用Terraform搭建云资源基础架构，一键部署、基础设施即代码；基于Docker构建容器集群，让开发者更关注应用本身；Ansib

2017-03-09

.NET 无商业，无授权开源框架 Furion v3.8.4 发布

框架特色 / Feature 木兰宽松开源协议，无需商业授权基于 .NET5/6 平台，没有历史包袱极少依赖，只依赖两个第三方包极速上手，一个 Inject() 完成配置代码无侵入性，100%

2022-07-15

镜像即代码：基于Packer构建阿里云镜像

什么是Packer Packer是HashiCorp推出的一款工具，旨在提供简易的方式自动化构建镜像。

2019-03-17

Docker-在Harbor镜像仓库上推拉镜像

之前搭建好了docker和harbor，现在就可以在harbor上进行镜像管理了。环境准备两台机器，物理机、虚拟机不限，分别作为docker镜像仓库和客户端。

2018-07-11

利用阿里云docker镜像服务加速镜像编译

阿里云docker镜像可以节省编译时间，便于在swarm各个容器间共享镜像，快速部署。主要采用github上的dockerfile与文件进行自动编译。

2018-02-04

如何把ISO镜像转换成Docker镜像

最近开始研究docker，如果想要自己创建个镜像，必须从Docker Hub上面获取一个基础镜像来创建；对于我们公司是定制的ISO，我就在想有没有办法把ISO转换成Docker格式，然后上传到Docker

2017-11-26

Docker基于已有的镜像制新的镜像

COMMIT-ID打包容器Tag dockertagCOMMIT-ID 经过以上几个步骤，根据当前运行的容器制作镜像就完成了。

2017-11-26

使用aliyun镜像源下载镜像及仓库搭建

阿里云Docker镜像库阿里云容器Hub服务：http://dev.aliyun.com/search.html 来自云端的容器Hub服务高性能的本地Registry，提供上传、下载、构建及托管的全方位镜像服务

2017-11-15

（五）Docker镜像管理2之nginx镜像制作

下面我们来制作一个Nginx的镜像，通过编译安装方式来完成。

2017-11-07

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。