爬虫数据库MongoDB的介绍
- MongoDB (名称来自「humongous (巨大无比的)」), 是一个可扩展的高性能,开源,模式自由,面向文档的NoSQL,基于 分布式 文件存储,由 C++ 语言编写,设计之初旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。
- MongoDB使用的是内存映射存储引擎,它会把磁盘IO操作转换成内存操作,如果是读操作,内存中的数据起到缓存的作用,如果是写操作,内存还可以把随机的写操作转换成顺序的写操作,大幅度提升性能。
- MongoDB 既拥有Key-Value存储方式的高性能和高度伸缩性,也拥有传统的RDBMS系统的丰富的功能,集两者的优势于一身。 介于关系数据库和NoSQL之间,也是功能最丰富、最像关系数据库的的NoSQL。
MongoDB官方文档:https://docs.mongodb.com
MongoDB中文社区:http://www.mongoing.com
MongoDB特点:
- 模式自由 :可以把不同结构的文档存储在同一个数据库里
- 面向集合的存储:适合存储 JSON风格文件的形式,
- 完整的索引支持:对任何属性可索引,
- 复制和高可用性:支持服务器之间的数据复制,支持主-从模式及服务器之间的相互复制。复制的主要目的是提供冗余及自动故障转移。
- 自动分片:支持水平的数据库集群,可动态添加额外的机器。
- 丰富的查询:支持丰富的查询表达方式,查询指令使用JSON形式的标记,可轻易查询文档中的内嵌的对象及数组。
- 快速就地更新:查询优化器会分析查询表达式,并生成一个高效的查询计划。
- 高效的传统存储方式:支持二进制数据及大型对象(如图片等...)。
根据DB-Engines的排名统计,MongoDB综合排名第五(2017年10月数据,前四名分别是Oracle,MySQL,SQL Server,PostgreSQL),在NoSQL领域(非RDBMS)里排名第一。
适用场景
- 网站数据: 适合实时的插入,更新与查询,并具备网站实时数据存储所需的复制及高度伸缩性。
- 缓存: 由于性能很高,也适合作为信息基础设施的缓存层。在系统重启之后,搭建的持久化缓存可以避免下层的数据源过载。
- 高伸缩性的场景: 非常适合由数十或者数百台服务器组成的数据库。
用于对象及JSON数据的存储: MongoDB的BSON数据格式非常适合文档格式化的存储及查询。
不适用的场景
- 高度事物性的系统: 例如银行或会计系统。传统的关系型数据库目前还是更适用于需要大量原子性复杂事务的应用程序。
- 需要使用SQL语句解决的场景: MongoDB不支持SQL语句。
下载mongodb的版本,两点注意
根据业界规则,偶数为稳定版,如3.2.X;奇数为开发版,如3.3.X
32bit的mongodb最大只能存放2G的数据,64bit就没有限制。
MongoDB官网安装包下载地址:http://www.mongodb.org/downloads
MongoDB安装文档:https://docs.mongodb.com/getting-started/shell/installation/
Ubuntu下安装MongoDB:
python@ubuntu:~$ sudo apt-get install mongodb
使用MongoDB,需要先启动服务端,再使用客户端连接数据库。
服务端
MongoDB 默认的存储数据目录为 /data/db,默认端口27017
服务的命令为mongod,可以通过help查看所有参数
python@ubuntu:~$ mongod --help
- 相关文件存放路径:默认各个文件存放路径如下所示:
- 可执行文件存放路径:/usr/bin/mongod 和 /usr/bin/mongo
- 数据库文件存放路径:/data/db
- 日志文件存放路径:/var/log/mongodb/mongod.log
- 配置文件存放路径:/etc/mongod.conf
启动注意事项:
- 首次启动:
- 启动MongoDB服务: sudo mongod
报出如下错误,表示默认的存储数据目录 /data/db 不存在:
[initandlisten] exception in initAndListen: 29 Data directory /data/db not found., terminating
- 创建 /data目录和 /data/db 目录,并指定 读/写/执行 权限
python@ubuntu:~$ sudo mkdir -p /data/db python@ubuntu:~$ sudo chmod 777 /data/db
- 再次启动:
- 再次启动MongoDB服务: sudo mongod
启动成功,但是可能会有如下警告:
#### 此乃 Warning 1: [initandlisten] ** WARNING: /sys/kernel/mm/transparent_hugepage/enabled is 'always'. [initandlisten] ** We suggest setting it to 'never' [initandlisten] [initandlisten] ** WARNING: /sys/kernel/mm/transparent_hugepage/defrag is 'always'. [initandlisten] ** We suggest setting it to 'never' #### 此乃 Warning 2: [initandlisten] ** WARNING: soft rlimits too low. rlimits set to 1024 processes, 64000 files. Number of processes should be at least 32000 : 0.5 times number of files. #### 此乃 Warning 3: [initandlisten] ** WARNING: You are running this process as the root user, which is not recommended.
注意:这里的三个Warning并非必须处理,大家了解即可:
Warning 1:
[initandlisten] ** WARNING: /sys/kernel/mm/transparent_hugepage/enabled is 'always'. [initandlisten] ** We suggest setting it to 'never' [initandlisten] [initandlisten] ** WARNING: /sys/kernel/mm/transparent_hugepage/defrag is 'always'. [initandlisten] ** We suggest setting it to 'never'
Linux的内存分配默认由内核动态分配,而不是由程序自行管理。而MongoDB对内存占用有那么点...严重,所以为了防止MongoDB占用内存过大而被内核"管理",官方推荐关闭动态分配。
默认"always"表示允许动态分配,对应的"never"就是不允许,所以我们将这两个文件内容修改为"naver"后就没有warning了。
# Ctrl + c 退出 MongoDB 数据库服务 # 然后进入 root 用户下,执行修改命令 python@ubuntu:~$ sudo su [sudo] python 的密码: root@ubuntu:~# sudo echo "never" > /sys/kernel/mm/transparent_hugepage/enabled root@ubuntu:~# sudo echo "never" > /sys/kernel/mm/transparent_hugepage/defrag
实际上,除非网站DBA对数据库性能有极限要求,在通常情况下系统动态分配的内存页大小足够我们正常使用,而且更能优化整个系统,所以一般不必理会这个warning。而且这样只是临时修改Linux内核的设置,在Linux服务器重启后则会失效。
Warning 2:
[initandlisten] ** WARNING: soft rlimits too low. rlimits set to 1024 processes, 64000 files. Number of processes should be at least 32000 : 0.5 times number of files.
这个WARNING(如果有的话)含义为: 表示默认分配给MongoDB的进程和文件数量限制过低,需要重新分配值:
- mongodb当前限制:1024 processes, 64000 files
- mongodb建议要求:processes = 0.5*files=32000(至少)
咱们学习阶段默认用不着这么多的进程和文件,所以也可以不必理会。
# 打开 相关配置文件: root@ubuntu:~# vi /etc/security/limits.conf # 在打开的 文件最下方,添加,然后保存退出 mongod soft nofile 64000 mongod hard nofile 64000 mongod soft nproc 32000 mongod hard nproc 32000
Warning 3:
[initandlisten] ** WARNING: You are running this process as the root user, which is not recommended.
意思是我们在用root权限做这些事,理论上是不安全的。我们可以通过附加--auth参数,来使用用户认证来处理这个情况,这个后面会讲到。
- 再再次启动:
- 再再次启动MongoDB服务: sudo mongod
启动后查看进程,以确定是否启动成功
python@ubuntu:~$ ps aux | grep mongod
- 如果进程中没有mongod的项则没有启动成功,可以通过查看日志来确定错误原因,默认日志文件为 /var/log/mongodb/mongod.log,最新的信息在最后面显示。
客户端
- 客户端命令为 mongo,可以通过help查看所有参数。
- 这个shell即是mongodb的客户端,用来对MongoDB进行操作和管理的交互式环境。
python@ubuntu:~$ mongo --help
- 终端退出连接
> exit (或Ctrl+C)
本文最终解释权归本文作者所有,未经允许不得私自转载
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
python中urllib2库的基本使用
版权声明:版权人:张元江 https://blog.csdn.net/zyj1471664/article/details/84180421 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中抓取出来。在Python中有很多库可以用来抓取网页,此篇介绍urllib2。 urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) urllib2 官方文档:https://docs.python.org/2/library/urllib2.html urllib2 源码:https://hg.python.org/cpython/file/2.7/Lib/urllib2.py 在 python3 中,urllib2 被改为urllib.request urlopen 我们先来段代码: # urllib2_urlopen.py # 导入urllib2 库 import urllib2 # 向指定的url发送请求,并返回服务器响应的类文件对象 response = urllib2.urlopen("http://www.baidu.com") # 类文件对象支持 文件...
- 下一篇
《Java8实战》-第十二章笔记(新的日期和时间API)
新的日期和时间API Java的API提供了很多有用的组件,能帮助你构建复杂的应用。不过,Java API也不总是完美的。我们相信大多数有经验的程序员都会赞同Java 8之前的库对日期和时间的支持就非常不理想。然而,你也不用太担心:Java 8中引入全新的日期和时间API就是要解决这一问题。 在Java 1.0中,对日期和时间的支持只能依赖java.util.Date类。正如类名所表达的,这个类无法表示日期,只能以毫秒的精度表示时间。更糟糕的是它的易用性,由于某些原因未知的设计决策,这个类的易用性被深深地损害了,比如:年份的起始选择是1900年,月份的起始从0开始。这意味着,如果你想要用Date表示Java 8的发布日期,即2014年3月18日,需要创建下面这样的Date实例: Date date = new Date(114, 2, 18); 它的打印输出效果为: Tue Mar 18 00:00:00 CST 2014 看起来不那么直观,不是吗?此外,甚至Date类的toString方法返回的字符串也容易误导人。 随着Java 1.0退出历史舞台,Date类的种种问题和限制几乎一扫...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- MySQL8.0.19开启GTID主从同步CentOS8
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Hadoop3单机部署,实现最简伪集群
- CentOS8安装Docker,最新的服务器搭配容器使用
- Docker快速安装Oracle11G,搭建oracle11g学习环境