课堂随笔1 - MOOC网站日志分析
大数据Clouder:MOOC网站日志分析 日志,log,事件记录网站日志:系统日志,程序日志 网站的系统访问日志,有通用格式 网站日志分析:(1)价值/重要性:运行,安全,运营,用户信息(2)流程:采集,处理,展现,结果 重要性:①网站运行状况(如网站PV,UV),②网站安全状况(如恶意攻击,密码暴力破解),③网站运营状况(如搜索引擎流量来源),④网站用户信息(如操作系统,浏览器)。 流程:①数据采集(Tomcat、Nginx、使用程序自定义采集),②数据处理(清理、转换、抽取,SQL、Java、Python、Hadoop),③数据展现(图表化、Tableau、D3.js、Python),④结果处理(程序优化、服务器调整、SEO优化)。 Nginx:Nginx(engine x)是一个高性能的HTTP和反向代理服务器。用户请求分发,简单的负载均衡。默认不开启访问日志。修改配置文件。开启访问日志,配置访问日志格式。Tomcat:Tomcat服务器是一个免费的开放源代码的Web应用服务器。默认不开启访问日志。修改配置文件。 正则表达式,提取属性HTTP请求类型:GET,POST。判断是否...