文章目录
- 第二章 信息技术发展
- 2.2 新一代信息技术及应用
- 2.2.3 大数据
- 1.技术基础
- 2.关键技术
- 3.应用和发展
第二章 信息技术发展
信息技术是在信息科学的基本原理和方法下,获取信息、处理信息、传输信息和使用信息的应用技术总称。从信息技术的发展过程来看,信息技术在传感器技术、通信技术和计算机技术的基础上,融合创新和持续发展,孕育和产生了物联网、云计算、大数据、区块链、人工智能和虚拟现实等新一代信息技术,成为支撑当今经济活动和社会生活的基石,代表着当今先进生产力的发展方向。
从宏观上讲,信息技术与信息化、信息系统密不可分。信息技术是实现信息化的手段,是信息系统建设的基础。信息化的需求驱动信息技术高速发展,信息系统的广泛应用促进了信息技术的迭代创新。近年来,随着新一代信息技术的发展,信息及其相关的数据成为重要生产要素和战略资源、使得人们能更高效地进行资源优化配置,持续推动传统产业不断升级、社会劳动生产率的不断提升,从而带动全球信息化发展和数字化转型,新一代信息技术已成为世界各国投资和重点发展的战略性产业。
2.2 新一代信息技术及应用
信息技术在智能化、系统化、微型化、云端化的基础上不断融合创新,促进了物联网、云计算、大数据、区块链、人工智能、虚拟现实等新一代信息技术的诞生。新一代信息技术与信息资源充分开发利用形成的新模式、新业态等,是信息化发展的主要趋势,也是信息系统集成领域未来的重要业务范畴。
2.2.3 大数据
大数据(Big Data)指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
1.技术基础
大数据是具有体量大、结构多样、时效性强等特征的数据,处理大数据需要采用新型计算架构和智能算法等新技术。大数据从数据源到最终价值实现一般需要经过数据准备、数据存储与管理、数据分析和计算、数据治理和知识展现等过程,涉及数据模型、处理模型、计算理论以及与其相关的分布计算、分布存储平台技术、数据清洗和挖掘技术、流式计算和增量处理技术、数据质量控制等方面的研究。一般来说,大数据主要特征包括:
●数据海量:大数据的数据体量巨大,从TB级别跃升到PB级别(1PB=1024TB)、EB级别(1EB=1024PB),甚至达到ZB级别(1ZB=1024EB)。
●数据类型多样:大数据的数据类型繁多,一般分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
●数据价值密度低:数据价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”,成为目前大数据背景下亟待解决的难题。
●数据处理速度快:为了从海量的数据中快速挖掘数据价值,一般要求要对不同类型的数据进行快速的处理,这是大数据区分于传统数据挖掘的最显著特征。
2.关键技术
大数据技术作为信息化时代的一项新兴技术,技术体系处在快速发展阶段,涉及数据的处理、管理、应用等多个方面。具体来说,技术架构是从技术视角研究和分析大数据的获取、管理、分布式处理和应用等。大数据的技术架构与具体实现的技术平台和框架息息相关,不同的技术平台决定了不同的技术架构和实现。从总体上说,大数据技术架构主要包含大数据获取技术、分布式数据处理技术和大数据管理技术,以及大数据应用和服务技术。
1)大数据获取技术
目前,大数据获取的研究主要集中在数据采集、整合和清洗三个方面。数据采集技术实现数据源的获取,然后通过整合和清理技术保证数据质量。
数据采集技术主要是通过分布式爬取、分布式高速高可靠性数据采集、高速全网数据映像技术,从网站上获取数据信息。除了网络中包含的内容之外,对于网络流量的采集可以使用
DPI或DFI等带宽管理技术进行处理。
数据整合技术是在数据采集和实体识别的基础上,实现数据到信息的高质量整合。数据整合技术包括多源多模态信息集成模型、异构数据智能转换模型、异构数据集成的智能模式抽取和模式匹配算法、自动容错映射和转换模型及算法、整合信息的正确性验证方法、整合信息的可用性评估方法等。
数据清洗技术一般根据正确性条件和数据约束规则,清除不合理和错误的数据,对重要的信息进行修复,保证数据的完整性。包括数据正确性语义模型、关联模型和数据约束规则、数据错误模型和错误识别学习框架、针对不同错误类型的自动检测和修复算法、错误检测与修复结果的评估模型和评估方法等。
2)分布式数据处理技术
分布式计算是随着分布式系统的发展而兴起的,其核心是将任务分解成许多小的部分,分配给多台计算机进行处理,通过并行工作的机制,达到节约整体计算时间,提高计算效率的目的。目前,主流的分布式计算系统有Hadoop、Spark和Storm。Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。
大数据分析与挖掘技术主要指改进已有数据挖掘和机器学习技术:开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术:创新基于对象的数据连接、相似性连接等大数据融合技术:突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
3)大数据管理技术
大数据管理技术主要集中在大数据存储、大数据协同和安全隐私等方面。
大数据存储技术主要有三个方面。①采用MPP架构的新型数据库集群,通过列存储、粗粒度索引等多项大数据处理技术和高效的分布式计算模式,实现大数据存储:②围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,通过扩展和封装Hadoop来实现对大数据存储、分析的支撑:③基于集成的服务器、存储设备、操作系统、数据库管理系统,实现具有良好的稳定性、扩展性的大数据一体机。
多数据中心的协同管理技术是大数据研究的另一个重要方向。通过分布式工作流引擎实现工作流调度、负载均衡,整合多个数据中心的存储和计算资源,从而为构建大数据服务平台提供支撑。
大数据隐私性技术的研究,主要集中于新型数据发布技术,尝试在尽可能少损失数据信息的同时最大化地隐藏用户隐私。在数据信息量和隐私之间是有矛盾的,目前没有非常好的解决办法。
4)大数据应用和服务技术
大数据应用和服务技术主要包含分析应用技术和可视化技术。
大数据分析应用主要是面向业务的分析应用。在分布式海量数据分析和挖掘的基础上,大数据分析应用技术以业务需求为驱动,面向不同类型的业务需求开展专题数据分析,为用户提供高可用、高易用的数据分析服务。
可视化通过交互式视觉表现的方式来帮助人们探索和理解复杂的数据。大数据的可视化技术主要集中在文本可视化技术、网络(图)可视化技术、时空数据可视化技术、多维数据可视化和交互可视化等。在技术方面,主要关注原位交互分析(In Situ Interactive Analysis)、数据表示、不确定性量化和面向领域的可视化工具库。
3.应用和发展
大数据像水、矿石、石油一样,正在成为新的资源和社会生产要素,从数据资源中挖掘潜在的价值,成为当前大数据时代研究的热点。如何快速对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态,是其应用价值的重要体现。
(1)在互联网行业,网络的广泛应用和社交网络已深入到社会工作、生活的方方面面,海量数据的产生、应用和服务一体化。每个人都是数据的生产者、使用者和受益者。从大量的数据中挖掘用户行为,反向传输到业务领域,支持更准确的社会营销和广告,可增加业务收入,促进业务发展。同时,随着数据的大量生成、分析和应用,数据本身己成为可以交易的资产,大数据交易和数据资产化成为当前具有价值的领域和方向。
(2)在政府的公共数据领域,结合大数据的采集、治理和集成,将各个部门搜集的信息进行剖析和共享,能够发现管理上的纰漏,提高执法水平,增进财税增收和加大市场监管程度,大大改变政府管理模式、节省政府投资、增强市场管理,提高社会治理水平、城市管理能力和人民群众的服务能力。
(3)在金融领域,大数据征信是重要的应用领域。通过大数据的分析和画像,能够实现个人信用和金融服务的结合,从而服务于金融领域的信任管理、风控管理、借贷服务等,为金融业务提供有效支撑。
(4)在工业领域,结合海量的数据分析,能够为工业生产过程提供准确的指导,如在航运大数据领域,能够使用大数据对将来航路的国际贸易货量进行预测分析,预知各个口岸的热度:能够利用天气数据对航路的影响进行分析,提供相关业务的预警、航线的调整和资源的优化调配方案,避免不必要的亏损。
(5)在社会民生领域,大数据的分析应用能够更好地为民生服务。以疾病预测为例,基于大数据的积累和智能分析,能够透视人们搜索“流感、肝炎、肺结核和未病”的发病时间和地点分布,结合气温变化、环境指数、人口流动等因素建立预测模型,能够为公共卫生治理人员提供多种传染病的趋势预测,帮助其提早进行预防部署。