JavaWeb技术内幕二:Java IO工作机制
微信公众号【Java技术江湖】一位阿里 Java 工程师的技术小站。(关注公众号后回复”Java“即可领取 Java基础、进阶、项目和架构师等免费学习资料,更有数据库、分布式、微服务等热门技术学习视频,内容丰富,兼顾原理和实践,另外也将赠送作者原创的Java学习指南、Java程序员面试指南等干货资源)
IO问题是当今web应用所面临的主要问题之一,因为数据在网络中随处流动,在这个流动过程中都涉及IO问题,并且大部分应用的瓶颈都是IO瓶颈。
本章将从IO的角度出发,介绍IO类库的基本架构,磁盘IO的工作机制,网络IO的工作方式,以及socket和NIO等等。
Java的IO类库基本架构
IO问题无法回避,很容易成为性能瓶颈,因为IO设备的速度一般是很慢的。Java IO一直在做这方面的优化,1。4开始引入了NIO
数据格式:可以是字符流或者是字节流
基于字节操作的IO接口stream
基于字符操作的接口 writer和reader
传输方式:可以在网络中传输也可以和磁盘进行传输
基于磁盘操作的File
基于网络操作的socket
基于字节的IO操作接口
对于字节流来说,一般需要写入或读取字节数组,而这个写入或读取位置可能是文件,也可能是网络
基于字符的IO操作接口
实际上磁盘和网络传输都要转化成二进制字节流,之以所提供字符流接口是因为方便用户直接写入字符。
当然这其中还涉及到编码和解码的问题。
字符和字节的转化接口
为了实现字符到字节的相互转化,java提供了inputstreamreader和outputstreamreader两个类来实现转化,这个类通过装饰者
模式封装两个实例,从而完成转化操作。
但是转换过程中注意指定编码,要不然就乱码了,装饰者模式还支持把IO流包装成支持缓存,支持管道等特性IO流。
磁盘IO工作机制
几种访问磁盘的方式
1 我们知道,读写文件的IO操作需要执行操作系统提供的接口,因为磁盘是操作系统管理的,应用程序只能通过系统调用来工作。 写和读对应write和read系统调用。 2 由于操作系统执行系统调用可能会有上下文切换的问题,需要到内核空间运行,也就涉及到内核空间和用户空间的数据复制问题。 为什么要这样呢,因为操作系统为了保护自身安全,要把用户程序和内核空间分开,虽然保证安全性,但是却会降低速度。 3 由于IO本身非常耗时,所以为了弥合磁盘和内存的速度差,一般会使用缓存机制缓存一部分的磁盘文件。这样就可以避免每次IO都要经过磁盘。
标准访问文件方式(需要两个空间的数据复制)
标准IO就是使用read接口时,先访问内核缓存,未命中就访问磁盘,然后进行缓存。
使用write接口时,write接口用户空间复制到内核空间的缓存中,此时用户程序就会返回,至于什么时候把缓存内容写入磁盘则由操作系统来决定,除非我们显示地调用了sync命令进行同步调用。
用户空间缓存-->内核空间缓存-->物理磁盘
直接IO(不需要经过内核空间)
直接IO就是应用程序不需要经过内核空间,直接访问磁盘。这种方式的典型就是数据库,数据库知道该缓存哪些数据,可以做预加载,提高访问速度,这些处理对用户程序是透明的。
如果是由操作系统来缓存,是很难做到的。
但是这也有一些问题,就是缓存不命中时就会直接从磁盘加载,速度很慢,一般结合直接IO和异步IO来做,会比较高效。
同步IO
同步指的是读取和写入是同步的,只有数据读写成功后才会返回结果,需要程序等待,性能比较差。
异步IO
异步IO可以先执行其他任务,而不是阻塞等待,请求数据返回后才会继续执行下面的操作。
内存映射
内存映射指的是操作系统将某一块内存和磁盘中的文件关联起来,当要访问内存的一段数据时,转换为访问文件的某一段数据。
这种操作也可以避免数据从内核空间和用户空间间的复制
Java访问磁盘文件
Java的file用于定位资源,他不一定是实际文件,也可以是一个目录,甚至一个不存在的对象。
只有在真正读取file的时候才会检查它存不存在。
在打开文件的输入流inputstream时,会创建一个filedescription对象,代表Linux中对应的fd。Linux通过fd与磁盘进行交互。
在这里说下fd和inode的区别
inode 或i节点是指对文件的索引。如一个系统,所有文件是放在磁盘或flash上,就要编个目录来说明每个文件在什么地方,有什么属性,及大小等。就像书本的目录一样,便于查找和管理。这目录是操作系统需要的,用来找文件或叫管理文件。许多操作系统都用到这个概念,如linux, 某些嵌入式文件系统等。当然,对某个系统来说,有许多i节点。所以对i节点本身也是要进行管理的。
在linux中,内核通过inode来找到每个文件,但一个文件可以被许多用户同时打开或一个用户同时打开多次。这就有一个问题,如何管理文件的当前位移量,因为可能每个用户打开文件后进行的操作都不一样,这样文件位移量也不同,当然还有其他的一些问题。所以linux又搞了一个文件描述符(file descriptor)这个东西,来分别为每一个用户服务。每个用户每次打开一个文件,就产生一个文件描述符,多次打开就产生多个文件描述符,一一对应,不管是同一个用户,还是多个用户。该文件描述符就记录了当前打开的文件的偏移量等数据。所以一个i节点可以有0个或多个文件描述符。多个文件描述符可以对应一个i节点。
Java序列化技术
Java序列化就是把一个对象转换成一串二进制表示的字节数组,通过保存或转移这些数据来持久化。
序列化对象必须实现serializable接口。但是和class文件可以直接通过defineclass加载类不同,反序列化时字节码必须依据模板类进行反序列化。
所以我们应该看看序列化后的对象到底长啥样
实际上,序列化以后的数据主要包括这些内容(只列举重要的)
1 序列化协议 2 版本 3 class名字 4 域类型,弗雷信息,实际属性值等等。
网络IO工作机制
网络IO必须通过物理链路和通信协议进行连接。
TCP状态转化
影响网络传输的因素
1 网络带宽,一般受物理链路影响,比如光纤比双绞线快得多
2 传输距离,传输距离主要影响传输延时
3 TCP拥塞控制,为了实现拥塞控制,网络传输速度会受整体网络环境影响
Java socket工作机制
socket就是操作系统对TCP/IP协议栈的封装,以便用户程序进行为了编程。
建立通信链路
1 客户端建立socket,自动分配端口号,然后绑定远端地址和端口号。 2 执行connect方法,完成三次握手的前两次 执行accpet方法完成三次握手的第三次 3 服务端建立serversocket需要绑定端口号进行监听,调用accpet方法进入阻塞等待请求到了,连接到来时为其建立一个新的数据结构,此时这个数据结构还只是未完成的结构。
只有在它与客户端完成三次握手后socket新实例才被成功创建。
每个已完成三次握手的socket都被操作系统管理,对应着不同的本地主机ip+端口:远程主机+端口
数据传输
socket通过inputstream和outputstream传输数据,事实上,操作系统会为它们分配一定大小的缓冲区,数据的读取和写入都是通过这个缓冲区来完成的(NIO出现后可以让用户程序管理缓冲区)
这个缓冲区也被称作RecvQ队列和SendQ队列。当队列为空或满时,执行读和写操作会阻塞。
如果读和写同时发生,可能会造成死锁。
NIO的工作方式
BIO的挑战
1 BIO即阻塞IO,无论是磁盘还是网络IO,都会发生阻塞等待,线程会阻塞,等待IO响应时间很长,并且导致上下文切换,开销很大。 2 对于服务端,高并发访问时使用BIO显然不能被接受。如果一个线程对应一个客户端,可以避免影响其他线程工作,同时使用线程池降低线程创建开销。 3 但是有些场景仍然不能解决,比如需要大量HTTP长连接,比如几百万,这些连接不怎么需要IO操作,但是却需要保持连接,如果开启200w的线程,显然是不可能的。
另外,多线程读写共享数据时需要同步,非常麻烦。
而且多线程优先级不好控制
NIO的工作机制
Channel,buffer,selector,key。
Channel指的是IO访问对象,可以是File,也可以是socket
,通过channel再派生出socket
selector是选择器,基于底层的IO多路复用器实现。
buffer是缓存,用户可以自己控制IO的读缓存和写缓存。
key就是selector上注册的键,分别代表不同状态的IO,比如就绪,已连接,可读,可写。
通信过程:
1 selector工厂创建一个selector,创建一个channel,绑定到一个serversocket上。 2 设置serversocket为非阻塞 3 调用seletor的selectedkeys获得所有事件,判断是否就绪事件。 4 通过channel获取buffer,完成IO读写操作。
上述过程,一个线程负责监听就绪时间,一般是阻塞的while循环,一个线程负责处理就绪的IO请求。
由于这个特点,只需少量线程就可以完成大量的连接请求。
buffer的工作方式
buffer就是一个缓冲区,可以分配长度。
使用position,limit,capacity标识容量情况。
使用flip可以在读缓存和写缓存之间转换。
1 当然,使用buffer需要进行用户空间和内核空间的数据复制,所以比较耗时,buffer提供另一种方式directbuffer就是和底层存储空间直接关联的缓冲区,他通过jni直接操作非堆内存。 2 由于这部分内存直接分配在内核空间,所以不需要额外一次复制,所以执行的效率要更高。 3 jvm释放这部分非堆内存一般需要调用system.gc来显示释放,可能引起内存泄漏。
NIO的数据访问方式
NIO提供了比传统文件访问方式更好的方法,NIO有两个优化方法:一个是Filechannel.transferTo,一个是filechannel.map
1 filechannel.transferTo
该操作直接在内核空间移动数据,当然是用于写操作,不用于读操作。
2 filechannel.map将文件按照一定大小块映射成内存区域,实现了mmap。
IO调优
磁盘IO优化
性能检测
1 我们可以压测应用,看看IO的wait指标是否正常。
Linux下可以通过iostat查看IO状态
2 IOPS是IO性能的重要参数,要看看最低的IOPS是多少。
IOPS (Input/Output Operations Per Second),即每秒进行读写(I/O)操作的次数,多用于数据库等场合,衡量随机访问的性能。存储端的IOPS性能和主机端的IO是不同的,IOPS是指存储每秒可接受多少次主机发出的访问,主机的一次IO需要多次访问存储才可以完成。例如,主机写入一个最小的数据块,也要经过“发送写入请求、写入数据、收到写入确认”等三个步骤,也就是3个存储端访问。
3 RAID技术可以提升磁盘IO性能。每种RAID方案对IO性能提升不同,可以用raid因子来表示。
提升IO性能
1 增加缓存
2 优化磁盘管理系统,寻址策略,非常底层。。
3 设计索引,异步和非阻塞加快磁盘访问。
4 使用raid。
1 raid0平均写到多个磁盘阵列,读写都是并行的,速度翻倍 2 raid1实现了数据备份 3 raid5是0和1的折中,平均读写,但是留一盘用来备份和恢复。 4 raid0+1
TCP网络参数优化
1 端口号有65536个。 2 可用端口号不足时遇到大量并发请求时会成为瓶颈,大量请求等待建立连接。 如果出现大量time wait,可以设置timewait时间为更小值。 3 通过ab压测,发现time wait的连接很多,降低timeout时延,则timewait数量明显减少。 4 除了增大端口范围外,还可以让TCP连接复用等方式来提高性能。
网络IO优化
1 减少网络交互次数
可以合并多个请求为一个请求
2 减少网络传输数据量大小
压缩数据,尽量通过协议头来获取信息,设置使用代理时只判断协议头即可完成请求或者负载均衡。
3 尽量减少编码
直接使用字节流传输,减少了一次解码过程
4 IO方式
1 同步和异步 同步就是前后任务依次完成,互相依赖,异步则不依赖其他任务。 2 阻塞和非阻塞 阻塞和非阻塞主要和cpu有关,阻塞会切换cpu上下文,非阻塞则不会。
设计模式
适配器
IO接口在转换inputstream到reader时使用inputstreamreader作为适配器。
装饰者
inputstream是具体组件,filterinputstream和bufferedinputstream是装饰者
区别
适配器是将一个接口转变成另一个接口,主要实现了复用目的。而装饰者则是要保持原有接口,但是要增强其接口功能。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
概念化学习Django
Django的由来 Django是一个开放源代码的Web应用框架,由Python写成。采用了MVC的软件设计模式,即模型M,视图V和控制器C。它最初是被开发来用于管理劳伦斯出版集团旗下的一些以新闻内容为主的网站的。并于2005年7月在BSD许可证下发布。这套框架是以比利时的吉普赛爵士吉他手Django Reinhardt来命名的。 Django的主要目标是使得开发复杂的、数据库驱动的网站变得简单。Django注重组件的重用性和“可插拔性”,敏捷开发和DRY法则(Don't Repeat Yourself)。在Django中Python被普遍使用,甚至包括配置文件和数据模型。 -----维基百科 Django的MTV开发模式: Django是一个基于MVC构造的框架;但是在Django中,控制器接受用户输入的部分由框架自行处理,所以 Dj
- 下一篇
FreeMarker之根据模板生成Java代码
FreeMarker根据模板生成Java代码,光这句话,大家想必也知道它的应用了,比如流行的DRY原则,该原则的意思,可简单概述为"不要写重复的代码"。 比如Java中三层架构,数据访问层,业务逻辑层,表现层,光这三层就出现重复性的增删改查及其相关的界面代码。 如何不写重复的增删改查相关的代码,可以参考我的MP实战系列文章和MyBatis的逆向工程(针对Java相关框架): mybatis逆向工程之maven工程 MP实战系列(六)之代码生成器讲解 其中MP实战系列(六)之代码生成器讲解 用的是volocity模板引擎。原理与FreeMarker本质上是一致的,这个本质一致,你可以理解为都是基于已有的模板进行代码生成。 下面进入简单示例讲解: 一、导入maven依赖 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0....
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS关闭SELinux安全模块
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS6,CentOS7官方镜像安装Oracle11G
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- CentOS6,7,8上安装Nginx,支持https2.0的开启