此前讨论了“大数据应用落地”和“大数据一体机的定位”等问题,接下来想讨论,大数据应用与BI(商业智能)的区分问题,所以如此,是感觉有些混淆。例如有人将“啤酒和尿布”的故事,作为大数据应用的成果。一来这说明目前大数据应用还没有为人津津乐道的应用成果,二来对于大数据应用与此前倡导的BI、数据挖掘等,还没有一个相对完整的认知。
对于BI我求教了Informatica大中国区首席产品顾问但彬,而Informatica最富盛名的是数据集成平台,“所谓数据集成平台,其前身是ETL(Extraction Transformation Loading,数据提取、转换和加载),是伴随着BI、数据仓库的需求出现的,其主要功能对各种业务平台数据进行抽取和相关转化,以此来满足BI、数据仓库对数据格式和内容挖掘的要求。”但彬说。“不仅BI、数据仓库对数据格式/内容有需求,企业不同应用系统之间也不断交换数据,为此,企业数据集成概念脱颖而出。”
数据集成平台的基础工作与ETL有很大的相似性,其主要功能也是实现不同系统不同格式数据地抽取,并且按照目标需求转化成为相应的格式,满需求,这就是一个典型的数据集成平台。数据集成开始是点对点的,慢慢地发现这种模式对于系统之间,不同所有权的企业数据流向以及数据标准控制很难,为此,诞生了对统一企业数据平台的需求,来实现企业级之间的数据交互。
“数据集成平台就像网络中Hub,可以连接所有应用系统,实现系统之间数据的互通有无。” 但彬说。也就是说,数据集成平台以BI、数据仓库需求而产生,现在已经跨越了最初的需求,上升到了一个更高的阶段。
谈到如今流行的大数据,但彬表示,如今大数据应用更多关注非结构化数据,更多谈论互联网,Twitter、Facebook、博客等非结构化数据,如此理解大数据应用,显然就有些走偏了。他指出,结构化数据也属于大数据,且呈现出相同的特点和特征,如数据量大,增长越来越快,对数据处理要求高等。
“结构化数据是广义大数据中含金量或者价值密度最高的一部分数据,与之相比,非结构化数据含金量高但价值密度低。在Hadoop平台出现之前,没有人谈论大数据。数据应用主要是结构化数据,多采用IBM、HP等老牌厂商的小型机或服务器设备。”但彬说。
但彬强调,采用传统方法处理这些价值密度低的非结构化数据,被认为是不值得的,因为其产出实在是有限。Hadoop平台出现之后,提供了一种开放的廉价的基于普通商业硬件的平台,其核心是分布式大规模并行处理,从而为非结构化数据处理创造了条件。 Informatica也推出了相应的Hadoop平台组件,也是因为看到了Hadoop是一种经济效应更好的模式。
谈到大数据应用的数据来源,但彬表示,数据来源应该包括结构化数据,如各种各样数据库、各种结构化文件、消息队列和应用系统数据等;其次才是非结构化数据,又可以进一步细分为两部分,一是社交媒体,如Twitter、Facebook、博客等产生的数据,其中包括各种演讲、发言,以及博主创作等内容,也包括用户点击的习惯/特点,或者所发表的评论,以及评论的特点;网民彼此之间的关系,例如谁是谁的粉丝、好友,购买什么产品等,这些都构成了大数据来源。另外一部分数据,也是数据量比较大的数据,这就是机器设备以及传感器所产生的数据。以电信行业为例,CDR、呼叫记录,这些数据都属于原始传感器数据,主要来自路由器或者基站。此外,手机的置传感器,各种手持设备、门禁系统,摄像头、ATM机等,其数据量也非常巨大。
对于分析大数据的工具,但彬认为目前所有的分析工具都侧重于结构化分析,例如针对社交媒体评论方向的分析,根据特定的词频或者语义,通过统计正面/负面评论的比例,来确定评论性质。Informatica致力于数据整理和收集,同时通过自然语言解析,把这些数据经过Informatica过程中,把他解析成为一些关键的词、语义、正面/负面的评价。这时,如果有一个应用系统是接收结构化数据的,例如一个分析系统,接收这些语义就可以便于分析。这也是大数据与分析相关的一个重要原因。针对大数据,Informatica有一个口号:Informatica是大数据分析的幕后英雄。因为Informatica为各种分析系统做好了数据准备,让分析更加具有价值和高效。
让大数据应用落地,在但彬看来,其中的关键在于与行业应用的深度融合。
“为什么大数据应用不落地,是因为浮在面上,大数据落地只有结合行业,因为大数据应用具有典型行业特征,通用性的内容要少一些。因此,大数据应用落地不能够脱离行业。”但彬说。
在此,但彬列举了几个典型行业大数据应用。
一个是公安行业的视频影像处理,它这是一个特定应用领域,传统BI、ETL工具拿这些数据就没有办法,这就需要采用分布式Hadoop进行处理,且能够带来很好的效益。因为Hadoop可以处理数据量足够大,因而会大有用武之地,可以很好落地。但彬指出,公安行业实际上已采集了大量视频影像数据,利用这些数据,可以追踪一个嫌疑犯的行踪,什么时间在全国哪些地区出现过。这些应用不可能单纯依靠人的力量,需要借助人脸识别、图像识别技术、模式处理,数据压缩等技术,需要海量处理软件,抓出相关特征,帮助公安人员提高工作效率。
在电信行业,计费系统实际上是对各种应用数据进行整合最终提供的结果数据,实际上是一个缩小以后的数据。如今,借助大数据应用,运营商可以原始大数据进行分析,例如分析传感器数据是否有异常,从而判断设备异常等,这些都是一些用传统BI工具无法实现的分析,其结果往往会出乎意料,帮助运营商提高服务水平以及用户的满意度。
在互联网行业,通过分析手机上网轨迹,可以分析了解客户群,了解用户的偏好,此外,获取地理位置的信息,也具有特定价值。
从这些行业大数据应用分析来看,一个是视频影像处理,一个是日志分析,另外一个是处理特定文件格式的分析处理,彼此之间显然没有任何通用性的特点,其共同点就是利用了廉价的大数据处理平台。
“要想大数据应用落地,就必须深入行业,与行业特点相结合,挖掘需求,如此,大数据应用才有落地的可能。大数据应用没有一个放之四海而皆准的通用解决方案。”但彬说。
但彬表示,Informatica所倡导的Vibe是一种理念。作为为““一次开发,多次部署”功能,提供技术支持的虚拟数据机引擎,Vibe能够让客户在无需重新编码的情况下,即可存取、集合及管理任何类型、来源、数量、计算平台或用户的数据。对于大数据应用,可以把类似Hadoop平台视为一种数据源,以此来减轻应用开发者的工作量。此外,Informatica基于自然语言解析,对于网络日志、网络言论等非结构化数据进行分析,尽可能提取语义,这就为应用开发者带来了方便,尽可能降低大数据应用开发的难度。
“让大数据应用站在巨人的肩膀上,这是大数据应用时代,Informatica的使命。”但彬说。
欢迎光临 重庆思庄Oracle、Redhat认证学习论坛 (http://bbs.cqsztech.com/) | Powered by Discuz! X3.2 |