如何解决租房烦恼？阿里工程师写了一套神奇的代码-低调大师

如何解决租房烦恼？阿里工程师写了一套神奇的代码

2018-11-27 882

租房的烦恼，相信大家或多或少都有过。独自一人在大都市打拼，找个温暖的小窝实属不易，租个称心又价格公道的房子是件重要的事儿。

作者阿里工程师鹿星，也是众多北漂中的一员。如何从各大租房网的房源里面，找到最称心如意的小窝？今天让鹿星带大家看看大数据能不能做出最优选择。文末有代码。

选择困难症

毕业到现在两年多了，一直住的自如合租房，但因为各种原因住处已经换过4次，每次换租都是一件头疼的事。从茫茫房海中找一间中意的房间，实在是一件费时费力的活，对于我这种买东西直奔目的地的人来说，在这么多房间里对比各种房间属性选出最优的根本就是一种折磨（这里不得不说一下自如网的选房功能，列表筛选无法准备知道房间地点，而地图找房功能的筛选项又太少，实在无法满足我的需求），所以我每次都是草草选一个，将就着住。

最近在经历了又一次换租后，我萌生了把自如所有在租的房间数据都爬下来，找出最符合我预期的房间的想法，制作好一套流程以后再要换租的时候就可以无脑操作了。

爬取数据

分析之前需要从自如网上爬数据，我用的是Python的Scrapy爬虫框架，但第一遍采集后发现房间数量要比自如网上能查到的数量少，找了下原因发现是自如的房间列表页中有些房间条目是js动态生成的，因为Scrapy没有js引擎，只能爬取静态页面，这部分数据自然就没采集下来。利用scrapy-splash来提供js渲染服务，最终完整采集到了所有在租的自如房间数据，共7907条。采集到的数据样例如下。每一行是一个json格式的字符串

{"floorTotal": "6", "rooms": "2", "lng": "116.422213", "direction": "南", "floorLoc": "5", "halls": "1", "rentType": "整", "time_unit": "每月", "title": "青年沟2居室", "privateBathroom": "0", "confStatus": "1", "district": "东城", "lat": "39.968073", "area": "64.17", "privateBalcony": "0", "confType": "", "link": "http://www.ziroom.com/z/vr/60563968.html", "confGen": "", "price": "6590", "nearestSubWayDist": "367"}
{"floorTotal": "18", "rooms": "3", "lng": "116.400737", "direction": "西", "floorLoc": "6", "halls": "1", "rentType": "合", "time_unit": "每月", "title": "望陶园小区3居室-02卧", "privateBathroom": "0", "confStatus": "1", "district": "东城", "lat": "39.870957", "area": "10.7", "privateBalcony": "0", "confType": "布丁", "link": "http://www.ziroom.com/z/vr/60570725.html", "confGen": "4.0", "price": "2490", "nearestSubWayDist": "517"}

租金的整体印象

我只关心合租房的数据，再做脏数据过滤，共得到4762条合租房数据。合租房房租的平均值和中位数非常接近，整体数据基本无偏，即低价位和高价位的房间数量差不多。

不同价格的房间数量分布如图1，基本符合正态分布。

图 1 合租房不同价格区间的房间数量分布

神秘的最贵房间

从上图可以看到一间房超过了6000元，这勾起了我的好奇心，什么房间能这么贵。这间6290元月租金的房间链接是http://www.ziroom.com/z/vr/60558368.html ，如下图。除了紧邻西单商场其它属性都没什么突出的。去链家上看了一下这个西黄城根45号院，小区均价14.6万元/平米，好吧，似乎明白为啥这屋子这么贵了。

为了膜拜一下这个西黄城根45号院，我又在自如上搜了这个小区的所有在租房间，如下。突然发现好像就这间很贵，而其它房间价格虽然也不算低，但也不像这间这么离谱，有些房间的属性甚至看起来还比这间更好。这个房间总感觉是被自如标错价了，难不成它有什么隐藏属性（住进去每天精神值MAX）。

租金地图

房间价格在地图上的分布如图2。红色表示大于3000元/月的房间，绿色表示2000-3000元/月的房间，紫色表示小于2000元/月的房间。颜色越深表示同一个位置重叠有越多房屋，可见总体上北京北边比南边贵，东边比西边贵。而要想租到月租2000以下的房间，就得考虑去往五环之外了。

图 2 合租房价格在地图上的分布

谁最重要？

接下来看一下自如对房间定价时考虑的因素主次。使用随机森林算法对房间每月租金进行预测，选取如下14个特征：房间面积、自如配置版本(1.0,2.0等)、配置类型(布丁、拿铁等)、朝向、房间所在楼层、房间所在楼的总楼层、离最近地铁站的距离、是否有独立阳台、是否有独立卫生间、几室、几厅、所在北京区县、相对天安门的方位角、与天安门的距离。对其中的自如配置版本、配置类型、朝向、所在北京区县这四个类别特征使用One-Hot Encoding进行编码，最终扩展为41个特征。使用2/3的数据训练模型，1/3的数据进行测试，在测试集上得到拟合优度R2=0.86，不同特征对租金的影响程度Top10如下：

可见所在方位、房间面积大小、交通方便程度、有没有独卫是影响房间租金的主要因素。话说以前我还一直觉得房间加上朝南的属性会更贵，现在看来好像是我的错觉？

终极目标

最后，回到本次分析的终极目标，找出最符合我预期的房间。我需要做的就是综合我自己的关注属性值对房间进行排序，我最关心的房间属性是[房间面积，房间租金，到公司的距离]，这里我使用的是灰度关联分析法对房间进行打分，详细计算过程网上都有，这里我就不再罗列了。

首先我过滤掉属性值超出我心理预期范围的房间，将价格大于等于2200元/月，面积小于等于8m2的房间过滤掉。过滤后的数据集中选5条数据如下：

对这三个属性值无量纲化，这里我使用的是离差标准化，如下。标准化后x_i^,的取值范围为[0,1]。

后数据如下：

然后设定最优序列，最理想的状态当然是房间面积最大，租金最小，到公司距离最近了。因此最优序列为[1,0,0]，计算每个属性与最优序列相应属性之间的关联系数如下：

由于我对不同属性的关注程度不同，因此这里需要设定每个属性的权重，权重值使用目标优化矩阵确定。

因此房间面积权重为1/6，房间租金权重为1/3，到公司的距离权重为1/2，则每个房间的关联系数=房间面积关联系数/6+房间租金关联系数/3+到公司的距离关联系数/2，计算结果如下：

计算出所有房间的关联系数，从大到小排列后取Top10如下：

这下可以挑选房间的范围就大大缩小了，以后要是再租房感觉烦恼少好多。当然由于自如网上房间信息变动较快，随时都会有人下定，这套流程还得随租随用，不然筛选出房间后过个两三天再看，说不定房间早就被别人抢了。

微信关注我们

原文链接：https://blog.roncoo.com/article/129583

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

springboot--springboot+mybatis多数据源最简解决方案

说起多数据源，一般都来解决那些问题呢，主从模式或者业务比较复杂需要连接不同的分库来支持业务。我们项目是后者的模式，网上找了很多，大都是根据jpa来做多数据源解决方案，要不就是老的spring多数据源解决方案，还有的是利用aop动态切换，感觉有点小复杂，其实我只是想找一个简单的多数据支持而已，折腾了两个小时整理出来，供大家参考。废话不多说直接上代码吧配置文件 pom包就不贴了比较简单该依赖的就依赖，主要是数据库这边的配置： mybatis.config-locations=classpath:mybatis/mybatis-config.xml spring.datasource.test1.driverClassName=com.mysql.jdbc.Driver spring.datasource.test1.url=jdbc:mysql://localhost:3306/test1?useUnicode=true&characterEncoding=utf-8 spring.datasource.test1.username=root spring.datasource...

2018-11-27

891

前言微服务是当前非常流行的技术框架，通过服务的小型化、原子化以及分布式架构的弹性伸缩和高可用性，可以实现业务之间的松耦合、业务的灵活调整组合以及系统的高可用性。为业务创新和业务持续提供了一个良好的基础平台。本文分享在这种技术架构下的数据架构的设计思想以及设计要点，本文包括下面若干内容。微服务技术框架中的多层数据架构设计数据架构设计中的要点要点1：数据易用性要点2：主、副数据及数据解耦要点3：分库分表要点4：多源数据适配要点5：多源数据缓存要点6：数据集市为了容易理解，本文用一个简化的销售模型来阐述，如下图。图1显示了客户、卖家、商品、定价、订单的关系（这里省略支付、物流等其他元素）。图1 销售模型在这个销售模型中，卖家提供商品、制定价格，客户选择产品购买、形成销售订单。根据微服务的理念设计，可以划分为客户服务、卖家服务、商品服务、定价服务、订单服务，以及公共服务（比如认证、权限、通知等），如图2所示。图2 微服务功能微服务架构中的多层数据架构设计分布式架构一般把系统分为 Saas（Software-as-a-Service）、Paas（Platform-a...

2018-11-27

1009

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。