【数据蒋堂】非结构化数据分析是忽悠?
大数据概念兴起的同时也带热了非结构化数据分析。传说一个企业中80%的数据都是非结构化数据,如果按占据空间来算,这个比例大体不假,毕竟音视频这类数据真地很大。有这么大的数据量,需要进行分析是很自然的事了,而要分析当然就要有相应的技术手段了。
那为什么说非结构化数据分析技术是忽悠呢?
不存在通用的非结构化数据计算技术
非结构化数据五花八门,有声音图像、文本网页、办公文档、设备日志、....;每类数据的都有各自的计算处理手段,比如语音识别、图像比对、文本搜索、图结构计算等等,但是并不存在一种适用于所有非结构化数据的通用计算技术。语音识别的方法不能用于图像比对、文本搜索和图结构计算也扯不上关系。
一个厂商如果擅长某种技术,那一定会直接宣称自己专业于该领域,而不会泛泛地说自己精于非结构化数据分析。比如人脸识别做得非常精准、或是文本敏感词挖掘的专业公