涂鸦科技：支撑从零暴增数十亿数据的背后，竟无专职运维！-低调大师

涂鸦科技：支撑从零暴增数十亿数据的背后，竟无专职运维！

2016-03-23 707

直播视频

95e0638d3afbf8438333d39efe54bf12c675c9bb

(点击图片查看视频)

幻灯下载地址： https://oss.aliyuncs.com/yqfiles/76d3bb80d4a9da17ababada8f56ecd8b.pdf

3月23日云栖社区在线实时分享顺利结束，本次由涂鸦科技技术总监柯都敏分享了涂鸦科技云上架构设计和借助阿里云实现轻运维高可用性监控的实战经验，同时也介绍了网络安全、权限控制等特定场景下如何利用阿里云产品解决特定的问题题。本次视频直播的整理文章、视频、幻灯片整理完毕，如下内容。

架构演变历程

初创公司的团队刚起步时一般规模都不是很大，并且成员能力各异，而且为了公司的长远发展，初始的架构需要设计的尽可能优秀。因此在设计时需要考虑到架构性能、扩展、代码安全、测试等等问题。

fa9411b5c0ee5eb6f76c1c6a1596d540bb9c3589

图一第一代轻架构

在涂鸦科技设计第一代架构时，业务量并不是很大。在设计之初，对整个架构进行了简

微信关注我们

原文链接：https://yq.aliyun.com/articles/8896

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

一分钟了解互联网数据挖掘流程

1、爬虫抓取网络数据真实的数据挖掘项目，一定是从获取数据开始的，除了通过一些渠道购买或者下载专业数据外，常常需要大家自己动手爬互联网数据，这个时候，爬虫就显得格外重要了。 Nutch爬虫的主要作用是从网络上抓取网页数据并建立索引。我们只需指定网站的顶级网址，如taobao.com，爬虫可以自动探测出页面内容里新的网址，从而进一步抓取链接网页数据。nutch支持把抓取的数据转化成文本，如（PDF、WORD、EXCEL、HTML、XML等形式）转换成纯文字字符。 Nutch与Hadoop集成，可以将下载的数据保存到hdfs，用于后续离线分析。使用步骤为：向hdfs中存入待抓取的网站url $ hadoop fs -put urldir urldir 注：第一个urldir为本地文件夹，存放了url数据文件，每行一个url地址第二个urldir为hdfs的存储路径。启动nutch，在NUTCH_HONE目录下执行以下命令 $ bin/nutch crawlurldir –dir crawl -depth 3 –topN 10 命令成功执行后，会在hdfs中生成crawl目录。 2...

2016-03-24

731

技术 Spark+中文分词算法对爬取的网站文章的关键词进行统计，是进行主题分类，判断相似性的一个基础步骤。例如，一篇文章大量出现“风景”和“酒店”之类的词语，那么这篇文章归类为“旅游”类的概率就比较大。而在关于“美食”的文章中，“餐厅”和“美味”等词语出现的频率一般也会比较大。分词使用语言云http://www.ltp-cloud.com实现对一段中文先进行分词，然后通过Spark streaming 对分词后的内容进行词频统计。通过ltp-cloud进行中文分词目前国内有不少科研机构开发了中文分词系统，例如中科院、哈工大、科大讯飞等，本次体验的是哈工大的语言云。 Rest API调用，例如(YourAPIKey替换成你的APIKey)： curl -i"http://api.ltp-cloud.com/analysis/?api_key=YourAPIKey&text=认知商业需要认知技术&pattern=ws&format=plain" HTTP/1.1 200 OK Server: nginx Date: Tue, 22Mar 2016 14:...

2016-03-25

783

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。