大数据已经成为IT部门不可忽视的一类沉重负担——其数据存储规模开始成倍扩大。如果不解决这一首要难题,企业根本无法从中提取到具备指导意义的实际价值。
大数据解决方案既能够运行在内部环境当中,又可以栖身在公有云平台之上——后者也正是众多大数据解决方案的主要指向目标。像Amazon EC2(全称为弹性计算云,即Elastic Compute Cloud)这样的商业云能够根据实际需求提供成千上万颗处理器计算核心以及几乎不设上限的数据存储容量。目前,只需一套网络浏览器、一根网线外加一张个人信用卡,每位用户都能以每小时1.70美元的实惠价格享受到具备32个虚拟CPU、60GB内存以及600GB存储容量的云基础设施服务。
向外扩展计算允许数据科学家们通过分而治之的方式处理大数据计算难题,这种分布式处理几乎能够在瞬间从庞大的数据集中返回对应结果。与此同时,先进的分析与数据可视化技术则让庞大而复杂的数据集变得易于理解,足以供不同领域的专家据此探寻更深层次的趋势与规律。
商业案例:老数据中蕴藏新机遇
大数据给企业业务带来的助益可以说显而易见。一方面,企业能够从数据中获取到原本只能经由应用程序服务器或者(时间更久远的)备份磁带乃至文件柜提供的重要信息。最直观的例子就是网站点击流数据、系统事件日志以及其它一些重要记录。这些数据随后即可被全新的垂直应用程序体系所使用。
不夸张地说,大数据所蕴藏的力量将只受到我们想象力的约束。下面举几个实例:
(1)零售商已经开始应用这项新技术
举例来说,苹果的iBeacon会对客户的活动轨迹进行追踪,而且追踪对象并非哪些客户进入了直营店、而是这些客户在经过店内各检测位置时正在做什么。其中包括他们在哪些产品或者演示内容前驻足,具体驻足时间有多长等等。将这些数据整理起来,再结合他们最终所购买的产品,苹果就能发现如何更加有效地对直营店组织以及产品的标注与销售作出改革。
(2)快捷脚本
快捷脚本每年能够帮助医生开具14亿份处方。它会利用来自医生办公室、药店、医院以及实验室的数据分析结果来诊断哪些病患有可能拒绝服药或者不同药品之间可能产生的副作用。
向云敞开怀抱,随着云计算变得愈发流行,能够与数据分析机制相对接的可用数据源的数量也呈现出爆发式增长。其中包括对社交媒体数据、财务数据以及医疗数据的挖掘能力,这些数据通常都由经过充分定义的API加以访问,并能够通过互联网进行交付。尽管本身并不具备什么实际价值,但这类数据往往会在与其它时间序列型数据结合后带来极具意义的关键性信息。举例来说,我们可以通过对个人完整履历的深入分析来推断此人在未来几年中犯罪入狱的可能性,预测某款新型产品线到底是疯狂大卖还是无人问津,甚至检测到某人或某个群体所携带的未确诊健康问题将给人寿保险赔付成本带来的显著影响。
换句话来说,大数据分析并不属于利基业务。它实际是一块复杂的区域,在这里用户可以从大量平台当中作出选择,而每种平台都拥有着自己的优势与不足。事实上,大多数企业用户在现有传统数据库之外,最终都会同时使用多种不同类型及品牌的新型数据库方案。
Hadoop可以说是目前处理大规模结构化与非结构数据的首选平台。该技术方案采用分布式处理框架与开发环境,通常来讲只有借助特定的应用程序开发技能才能对其加以高效利用。
现在最大的问题在于,专用型大数据分析工具到底能否在已经具备商务分析基础设施的企业当中确切起效。很多企业已经制定了数据仓储策略,而新型大数据解决方案则公然对其业已部署的传统机制发起挑衅。与此同时,向新型数据分析基础设施转移意味着我们将面临大量设计与实施方面的挑战,其中包括数据整合、数据安保、数据治理、数据可视化以及解决数据复杂性等等。