《Storm技术内幕与大数据实践》一9.4 实时意图和搜索
本节书摘来异步社区《Storm技术内幕与大数据实践》一书中的第9章,第9.4节,作者: 陈敏敏 , 黄奉线 , 王新春责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。 9.4 实时意图和搜索 在PC互联网时代,谷歌2005年就推出了个性化搜索服务,因为引发公众对隐私的担忧,没有太商业化,如今移动互联网时代,去哪儿、京东等电商,慢慢都推出了个性化搜索,无论消费者登录与否,通过追踪客户的搜索行为来判断其消费喜好,即便用户退出登录,也会根据Cookie、设备号等信息,给用户返回个性化的搜索内容。当然搜索引擎本身的爬虫/反爬虫等异常检测、对搜索关键字分词后进行同义词/反义词/全半角/简繁体等自动扩展以及错别字的纠正都可以在实时计算中进行数据清洗。例如,eBay应用Jetstream流处理技术,对海量的用户行为进行了实时的数据清洗。 要让个性化的搜索内容更加精准,需要打通外部用户画像和不断更新着的商家的服务、商品等。在电商的搜索系统中,为了解决搜索的并发和性能,往往有内存中的实时分布式索引和硬盘中的全量索引,热门商品信息直接从内存中读取,当内存中不存在时,才从硬盘中读全量索引...