第2期:非结构化数据分析技术是忽悠
创始人
2025-02-12 09:30:31
0

大数据概念兴起的同时也带热了非结构化数据分析。传说一个企业中80%的数据都是非结构化数据,如果按占据空间来算,这个比例大体不假,毕竟音视频这类数据真地很大。有这么大的数据量,需要进行分析是很自然的事了,而要分析当然就要有相应的技术手段了。

那为什么说非结构化数据分析技术是忽悠呢?

不存在通用的非结构化数据计算技术

非结构化数据五花八门,有声音图像、文本网页、办公文档、设备日志、….;每类数据的都有各自的计算处理手段,比如语音识别、图像比对、文本搜索、图结构计算等等,但是并不存在一种适用于所有非结构化数据的通用计算技术。语音识别的方法不能用于图像比对、文本搜索和图结构计算也扯不上关系。

一个厂商如果擅长某种技术,那一定会直接宣称自己专业于该领域,而不会泛泛地说自己精于非结构化数据分析。比如人脸识别做得非常精准、或是文本敏感词挖掘的专业公司,显然这样更容易定位用户和应用场景。如果一家公司只说自己擅长非结构化数据分析而不指明具体的领域,那就不知道到底能做些什么了。

面向非结构化数据的通用技术只是存储

虽然许多专业技术领域都可以归类为对非结构化数据的处理,但总体应用范围并不广泛,大多数用户还用不上这些专门技术,而只是需要把这些数据存储下来。非结构化数据没有通用的分析计算技术,但存储和相应的管理(增删检索等)是可以通用化的。非结构化数据占据的空间较大,经常需要不同于结构化数据的特殊存储手段。

不过,如果不是数据量特别大,或者有高并发的检索需求,大多数的网络文件系统(如HDFS)已经能够胜任存储和访问需求。厂家如果只喊能做非结构化数据的存储和基本管理,那会显得没什么技术含量。所以这些厂商会不遗余力地往分析上靠,但没有实质东西。而能提供大容量高性能的访问的专业存储厂商却只会喊存储,而不会刻意提及分析。

通用分析技术在于相伴产生的结构化数据

采集非结构化数据的同时,常常会伴随着采集许多相关的结构化数据,比如音视频的制作人、制作时间、所属类别、时长、…;有些非结构化数据经过处理后也会转变成结构化数据,比如网页日志中拆解出访问人IP、访问时刻、关键搜索词等。所谓的非结构化数据分析,经常实际上是针对这些伴生而出的结构化数据,这个领域有不少较为成熟的通用计算技术(比如关系代数和关系数据库)。

但现在只喊结构化数据显得不够时髦,为了吸引用户,就要把本质上的结构化数据分析说成是非结构化数据分析了。

作为需求方的用户,这时候需要清楚地知道到底要对这些数据做什么处理。如果只是简单存储,那上个HDFS这类开源网络文件系统就够了;如果有高性能访问需求,那要找专业的存储厂商;如果其实要分析的是伴生出来的结构化数据,那就是已经熟悉的数据库类业务了;如果真有特定的处理需求,那也是找专门领域的厂商和技术。总之,不要泛泛地只说需要非结构化数据分析。

相关内容

热门资讯

PHP新手之PHP入门 PHP是一种易于学习和使用的服务器端脚本语言。只需要很少的编程知识你就能使用PHP建立一个真正交互的...
网络中立的未来 网络中立性是什... 《牛津词典》中对“网络中立”的解释是“电信运营商应秉持的一种原则,即不考虑来源地提供所有内容和应用的...
各种千兆交换机的数据接口类型详... 千兆交换机有很多值得学习的地方,这里我们主要介绍各种千兆交换机的数据接口类型,作为局域网的主要连接设...
什么是大数据安全 什么是大数据... 在《为什么需要大数据安全分析》一文中,我们已经阐述了一个重要观点,即:安全要素信息呈现出大数据的特征...
如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
P2P的自白|我不生产内容,我... 现在一提起P2P,人们就会联想到正在被有关部门“围剿”的互联网理财服务。×租宝事件使得劳...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
Windows恶意软件20年“... 在Windows的早期年代,病毒游走于系统之间,偶尔删除文件(但被删除的文件几乎都是可恢复的),并弹...
范例解读VB.NET获取环境变... VB.NET编程语言的使用范围非常广泛,可以帮助开发人员处理各种程序中的需求,而且还能对移动设备进行...