大数据分析的概念已经成为我们社会不可或缺的一部分。众多公司和机构已经开发了大数据应用程序,取得了不同程度的成功。社交媒体平台和传感器等技术正在以前所未有的速度生成数据,就像一条装配线。如今,几乎所有东西都是物联网的一部分:智能药丸、智能电表、智能飞机发动机以及更多的设备在不断地创造实时数据。这些数据通常是非结构化的,并且以巨大的数量生成,这就需要进行有效的管理和分析。这就引出了一个问题:你如何为大数据分析制定高效且有效的政策?以及你需要采取哪些步骤才能让大数据为你服务?本页面解释了大数据的要点以及大数据分析的最佳策略。
什么是大数据?
大数据是非常庞大或非结构化的数据。它是最难分析的数据。为此,你需要先进的大数据技术和能够处理大量非结构化数据的大数据解决方案(工具)。
为什么要进行大数据分析?答案很简单:大数据中常常隐藏着丰富的信息,这些信息可以帮助你的企业或机构表现得更好。你会突然开始看到一些用常规数据分析无法发现的模式。你进行大数据研究,偶然发现新的知识,这些知识可以给你带来竞争优势或大幅提高你的服务质量。
决定大数据应用成败的相关问题
每天我们都被大量的数据淹没。不知何故,你感觉你的组织能够并且必须对这些数据做些什么。毕竟,竞争不会停滞不前,技术在快速发展,市场也在不断变化。于是出现了一些具体的问题:
- 我的组织可以并且应该用大数据分析做什么?
- 一个成功的项目是什么样的?你何时以及如何让利益相关者参与到一个项目中?
- 大数据科学有哪些风险、陷阱以及利弊?
- 在我的组织中可以确定哪些大数据应用,其影响是什么?
- 有哪些新的商业模式支持大数据分析?
- 哪些大数据例子引人遐想,你能从中学到什么?
- 我在哪里以及如何存储大数据?什么时候需要数据湖?
- 有哪些大数据分析工具可用?
- 我的员工需要具备哪些技能才能管理好数据?
- 我的组织应该如何处理任何大数据隐私问题?
- 需要考虑哪些相关法律法规?
大数据是易变的、复杂的、大量的和非结构化的
大数据对任何组织都可能具有前所未有的价值。但这些数据也很难分析和应用。为什么呢?因为大数据是易变的、复杂的、规模庞大且非结构化的。例如,想想卫星图像、系统日志文件或声音片段,你可以分析它们以提取信息。
大数据管理领域特别有趣,因为你可以开始创建预测模型、更新你的商业模式(从被动变为主动)并实施颠覆性创新。
大数据示例与应用
为了向其他组织学习并作为灵感来源,我们在此提供一些在多个领域中具有吸引力的大数据应用示例。引人注目的是,公共部门的大数据应用示例数量很多。对此有一个合理的解释:公共空间本身非常庞大,大致包括你的家、办公室和其他目的地之间的所有区域。
此外,如今拍摄照片和视频图像很容易,甚至可以通过让无人机携带(红外)摄像头自动飞行来实现。例如,照片可以显示树木是否生病、花园是否整洁以及杂草是否过高。但这些照片也可以显示停车位是否被没有有效许可证的汽车占用,或者它们可以指示户外区域物体的维护状态。在医疗保健领域也有许多大数据的例子。在医疗保健领域,越来越常见的是使用大数据分析使专家能够早期检测疾病。
首先考虑一个有用的大数据应用
都柏林的案例非常清楚地表明,他们事先提出了一个相关的应用。这是在你开始进行大数据管理并构建一个成熟架构之前最关键的一步。基于这些数据,你可以做出哪些更好或更快的决策呢?在这个领域中,人们往往过于关注数据存储或大数据工具,而不是它能产生什么以及它能实现哪些新的商业模式。
大数据的原则和特征:五个 V。
大数据具有一些特征,我们称之为五个 V。以下一种或多种情况可被视为大数据:
- 容量(Volume):大数据有多大?数据量非常大,以至于不再适合传统的 SQL 数据库。数据存储在文件系统或所谓的 NoSQL 数据库中。提取的数据存储在数据仓库中。
- 速度(Velocity):数据出现得很快,并且可能很快再次消失。例如,推特会将较旧的推文移至档案中。那些数据很快就消失了。机器数据(物联网大数据)甚至几乎立即消失。所以,你必须非常迅速地获取数据。
- 多样性(Variety):数据在结构、容量和意义上有很大的变化。
- 准确性(Veracity):不同的数据质量以及对数据可靠性的怀疑使得大数据的使用存在问题。
- 价值(Value):这才是真正重要的,大数据将为你的客户和你的组织带来什么价值?
你可以用大数据的特征来阐明大数据的原则,但这并不能说明全部情况。特别是在图像处理方面。由于这个特定的应用,我们也把摄影称为新的通用语言,因为基于照片,你可以非常精确和快速地相对容易地识别出产品中的缺陷,还可以检测出人类、动物或植物中的初期疾病。图像处理的应用可能性是巨大的,特别是与机器人、人工智能和无人机结合使用时。
大数据分析:八步流程。
为了从大数据中获取大量价值,你需要采取特定的一系列步骤。这些步骤有助于你构建项目结构,并确保你从一个业务问题开始。这一点至关重要,因为许多项目在实际中并未显示出回报。通常,会收集大量数据,但几乎没有进行分析和应用。以下是大数据分析的八个步骤以及关于如何通过大数据取得成功的解释:
- 确定并定义业务问题:在这里,你和你的同事将探讨哪些业务问题适合进行大数据分析。在这个过程中,首先使用你所在组织或业务流程中最重要的关键绩效指标(KPI)。
- 收集并准备相关数据:基于业务问题,你将选择一个初始数据集,并在相关情况下进行清理。
- 探索和分析数据:现在你将进行大数据分析,并使用商业智能工具探索数据,以便了解数据以及它是否能够解决业务问题。你还将以各种方式可视化数据。
- 整理出最终的数据集:你执行步骤 1、2 和 3,直到你拥有一个良好的数据集。
- 构建大数据模型:你将构建一个模型,其中算法基于训练数据集进行预测。
- 验证模型:现在需要由领域专家开始验证模型;他们确定算法给出的预测结果是否正确。
- 将模型投入生产:如果模型有效,考虑到初始情况和业务问题,并且你已经控制了数据质量,那么你将大数据模型投入生产。
- 评估模型的结果:定期测试模型的预测是否仍然准确,并查看它产生了哪些结果。基于此评估,你将创建一个更复杂的模型版本,能够进行更准确的预测。
这大数据分析的八个步骤有助于你始终将业务问题置于技术项目的中心,并通过负责的角色组织治理(大数据治理)。此外,路线图明确表明这不是一次性的练习,而是一个持续改进和完善模型的过程。最后,在大数据中寻找模式不能再使用传统的分析工具,因为数据太大或太复杂。你将不得不开发一种算法,例如神经网络(人工智能),它将以高效有效的方式为你完成这项工作。
从传统商业智能到大数据科学
传统上,商业智能(BI)处理结构化数据,你可以相对容易地存储和访问这些数据。你可以基于这些数据创建数据仪表板。商业智能大数据科学涉及处理(大量)非结构化数据和算法。你如何正确处理这些数据,以及如何构建良好的大数据分析?还有哪些方面你应该注意?
由 Hadoop 组成的计算机集群提供巨大的计算能力
一个众所周知的技术是 Hadoop。它提供了一个框架来访问和过滤大量数据。在由许多计算机组成的集群上的 Hadoop 提供巨大的计算能力。这使得这些计算机能够以闪电般的速度将特定数据提供给最终用户的商业智能工具。
大数据与零数据
我们坚信大数据可以为你的组织增加巨大的价值。然而,你不应局限于目前列出的可能性。有时,你没有记录的关于你的客户或流程的数据,即所谓的零数据,比大数据包含更大的价值。
超越你自己的数据
还建议不要局限于您自己的数据。在你的分析中包括外部数据源和开放数据。这样,你可以用相关的背景信息丰富内部视角。考虑人口统计(客户)数据和市场信息、竞争分析,还有诸如天气、交通流量或社交媒体上的情绪等因素。如今,您更有可能从外到内而不是从内到外看待问题或机会。
采取双轨策略:大数据科学不仅仅是大数据策略。
当然,你需要开始制定政策和策略,以便在你的组织中启动大数据预测分析,但快速开始尝试大数据科学也至关重要。这是一个复杂的领域,通过尝试,你将学习并更好地理解这个主题、风险、利弊以及潜在回报。因此,建议采取双轨政策,即制定政策和进行实验。你希望在大数据挖掘中取得成功,因此了解主要风险并尽早预测它们是有好处的:
-
技术驱动的旅程:国际数据集团(IDG)的研究表明,组织在大数据技术上的投资中,超过一半与大数据应用以及这些应用对流程、工作方式和人员的影响无关。这与我们在实践中的经验相符。因此,始终从业务角度启动一个项目,并确保不是技术在主导,而是你的业务策略、关键绩效指标和业务流程。
-
数据的复杂性和规模:照片、文本、机器数据和视频图像可能很快就需要数 TB 的存储空间。虽然如今存储空间的成本不高,但容量仍然是一个问题。此外,由于大数据分析可能会很快因数据的复杂性而陷入困境。因此,你需要大量的 “强大” 和智能计算能力来建立一个良好的系统,以便你能够快速且敏捷地开发应用程序。该系统必须是可扩展的、面向未来的和可测试的。
-
数据质量:在许多组织中仍然是一个很大且未被充分暴露的问题。计算表明,由于数据质量差,大约 10% 的组织利润会消失。在大数据挖掘中,数据质量的挑战变得更大,因为投入生产的机器学习模型通常像一个黑箱一样运行。此外,在数据湖中,几乎没有可用的设施来全面测量和提高数据质量。
-
伦理与大数据隐私:当涉及到个人数据的处理和分析时,法律法规,如《通用数据保护条例》(AVG),可能会很快成为成功应用大数据机器学习的一个相当大的障碍。
大数据和人工智能(AI)或大数据上的机器学习是两个独立的领域,但它们之间有很多关联。如果你想在没有人工智能的情况下分析大量数据,那么作为一名数据分析师,你可能会花费数年时间试图将其全部整合在一起。如果你想在没有机器学习模型的情况下分析大量非结构化数据,错误的几率会很大,或者你会很快忽略一些事情。而且,人工智能会获得更多价值,因为你的算法可以用大量数据进行训练。这增加了获得可靠且准确模型的机会。大数据与人工智能的结合产生了完美的相互作用,增加了你在大数据分析中取得显著成功的机会。
分析大数据是新的黄金,新的石油。
如果你的大数据中隐藏着一些众所周知的黄金宝藏呢?例如,你的公司比你的竞争对手提前一个月知道一种商品的价格将会上涨。或者飞机发动机的传感器数据显示,在特定高度和特定不利天气条件下,飞机在飞行中出现了故障。在许多情况下,发动机故障意味着灾难。正是这些关键应用以及新的商业模式使大数据变得极其有趣。因此,大数据也被称为新的黄金或新的石油,因为它代表着巨大的价值。
通过大数据管理发现新机会并降低风险。
或者想想对数百万张精神病患者的相机图像进行分析。然后,你可以构建一个模型,让你能够快速注意到患者的异常行为。这些模式告诉你,某个特定的人很有可能 “脱离正轨”,并带来所有相关风险。通过及早发现这种行为变化,你可以及时进行(额外的)检查和控制。这就是为什么组织渴望挖掘那座数据之山、发现机会并管理风险。我们希望帮助你基于大数据预测分析从被动工作转变为主动工作。
大数据解决方案和分析工具
只有选择并获得正确的工具、仪器和解决方案,你才能成功挖掘出黄金或其他有价值的资源。大数据也是如此。你需要特殊的大数据解决方案或大数据分析工具来存储、分析和可视化大量数据或非结构化数据。这些大数据工具分为三类:
- 存储大数据:想象一下Hadoop、MongoDB、Apache Cassandra 和 NoSQL,你将数据存储在数据湖中。
- 处理数据:这是一个中间层,用于快速分析数据,无论数据存储在数据湖的何处。例如,Knime 是一个非常适合数据集成的开源环境。
- 分析、报告和可视化大数据:这类软件允许你深入挖掘数据、进行分析并创建数据可视化、算法和报告。例如 Datawrapper、Watson Analytics 和 FusionCharts。
市场上还有更多的大数据分析工具:IBM Cognos Analytics、SAP BusinessObjects、SAP HANA、Microsoft BI 和 Power BI、Oracle BI、WebFOCUS、Style Intelligence、Yellowfin、Pentaho BI、SAS、BOARD、MicroStrategy、QlikView、Qlik Sense、Sisense、TIBCO JasperSoft、Tableau Software、Infor Birst。
大数据分析成功案例
越来越多的关于大数据与分析的成功案例正在迅速涌现。这些案例也不再被媒体忽视。阿姆斯特丹消防队使用大数据预防火灾的事实已经登上了荷兰国家电视台的晚间新闻和英国广播公司。阿姆斯特丹警方能够在罪犯犯罪之前将其抓获,这使他们在 “荷兰最聪明的组织” 中登上领奖台。
都柏林市利用大数据优化交通流量这一事实,对所有公共机构来说都是一个光辉的榜样。他们现在更好地理解到,你可以极大地改善对公民的服务。简而言之:这些成功案例令人信服地表明,大数据预测分析可以区分愚蠢的组织和聪明的组织,区分失败者和成功者。
本文转载自 雪兽软件
更多精彩推荐请访问 雪兽软件官网