什么叫大数据?

华人影响 影响世界

<p class="ql-block" style="text-align:center;"><b>大数据</b></p><p class="ql-block" style="text-align:center;"><b>巨量数据集合(IT行业术语)</b></p> <p class="ql-block">  大数据(Big Data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助人类生活更高效、便利的资讯。其数据类型包括结构化数据,半结构化数据和非结构化数据。大数据具有“5V”特点,它们分别是数据量(Volume)、速度(Velocity)、多样性(Variety)、真实性(Veracity)和价值(Value)。</p> <p class="ql-block">  大数据的发展历史可以追溯到19世纪末,美国统计学家赫尔曼·霍尔瑞斯(Herman Hollerith)发明了电动读取设备,初步实现了数据处理的自动化。到1980年,未来学家阿尔文·托夫勒阿尔文·托夫勒(Alvin Toffler)在《第三次浪潮》中首次提出“大数据”概念,突出其对社会的潜在影响。2001年,Gartner的道格·莱尼提出了描述大数据的“3V”模型,即数据量、速度和多样性。2003年至2008年间,随着Google等公司的关键技术发布,大数据技术快速进化。到2012年,IBM将“真实性”加入“3V”模型,形成了“4V”模型,后来又增加了“价值”维度,成为“5V”模型。近年来,技术如Apache Storm和Databricks的Delta Lake推动了实时数据处理和数据湖技术的发展。到2024年,大数据技术不断创新,支持AI等新兴领域的需求。</p><p class="ql-block"> 大数据的技术架构涵盖数据采集、处理、存取、分析、可视化和管理等关键环节,包括大数据安全、实时处理和分布式计算等核心技术。现代工具如Elasticsearch和Apache Flink等,已显著推动数据处理和分析的发展。大数据技术已在金融、医疗、教育和安全等众多领域得到广泛应用。然而,随着这些技术的普及,数据安全和隐私保护、构建数据核心计算体系以及应对数据垄断等成为了当前亟需解决的关键挑战。</p> <p class="ql-block" style="text-align:center;"><b>概述定义</b></p><p class="ql-block"><b> 术语定义</b></p><p class="ql-block"> 大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷[xié]取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。</p><p class="ql-block"> 大数据的概念最早由Gartner公司的分析师Doug Laney于2001年提出。他在论文《3D数据管理:控制数据量、速度和多样性》中首次引入了“大数据3V”概念,即数据量(Volume)、速度(Velocity)和多样性(Variety),以描述大数据的基本特征​​。后来,IBM公司在2012年增加了“真实性(Veracity)”这一维度,扩展为“4V”模型,以应对数据质量和可信度的挑战。随后,业界又引入了“价值(Value)”作为第五个维度,强调从大数据中提取有用信息和洞察的重要性,从而形成了“5V”模型​​,即数据量、速度、多样性、真实性和价值。</p><p class="ql-block"><b> 狭义定义</b></p><p class="ql-block"> 大数据是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。这种架构涉及数据的获取、存储和分析三个核心活动。它面向技术人员,目的在于高效处理和分析大规模数据集,挖掘其隐藏价值。人类科学能够探索应用的一切大数据,都算是狭义大数据。</p> <p class="ql-block"><b>  广义定义</b></p><p class="ql-block"> 大数据是指物理世界到数字世界的映射和提炼,通过发现其中的数据特征,从而做出提升效率的决策行为。这个世界上存在的河流、山川、日月、星辰、花鸟、鱼虫,乃至人类思维念头、外太空的细微震动,人们生活的这个维度、乃至于所有维度的一切事物,都是大数据。上到宇宙的运动,下到质子活动,全都能够被细化成为一组组的数据。 广义的定义有点哲学意味,突破了人类所定义的科学与宗教范围的一种存在。</p><p class="ql-block"><b> 特点</b></p><p class="ql-block"> 数据量:大数据最显著的特征之一。大数据通常涉及极其庞大的数据集,数据量以TB(太字节)、PB(拍字节)甚至ZB(泽字节)为单位计量。数据量的增加来源于各种数据生成源,如社交媒体、传感器、交易记录等。例如,Facebook每天产生超过600TB的数据,而Google每天也需处理超过3.5亿次的搜索请求。</p><p class="ql-block"><b> 速度:</b></p><p class="ql-block"> 指的是数据生成和处理的速度。在大数据背景下,数据以极快的速度不断生成和流动,这需要实时或近实时的处理能力。例如,社交媒体上的数据和传感器数据需要实时分析,以便快速响应市场变化和环境变化。数据处理速度的提升依赖于先进的计算技术和大规模并行处理能力,以确保能够在短时间内处理大量数据。</p><p class="ql-block"><b> 多样性:</b></p><p class="ql-block"> 指数据类型的多样性。大数据不仅包括结构化数据(如数据库中的数据),还包括大量的非结构化数据(如文本、图像、视频等)。这种多样性要求采用不同的数据处理和分析技术,以便从各种数据中提取有价值的信息。</p><p class="ql-block"><b> 真实性:</b></p><p class="ql-block"> 指数据的准确性和可信度。这意味着数据需要尽可能少的噪声、偏差和异常,确保数据来源可靠,数据处理方法合理。数据的不准确性会导致错误的分析结果和决策,从而影响业务的各个方面。例如,在金融行业中,准确的数据对于检测欺诈行为至关重要。</p><p class="ql-block"><b> 价值:</b></p><p class="ql-block"> 指的是从数据中提取有价值信息的能力。尽管大数据的量非常庞大,但并不是所有的数据都具有同等的价值。关键在于通过分析和处理,提取出对决策和业务发展有用的信息。例如,零售企业可以通过分析顾客购买数据,了解顾客的偏好和消费习惯,从而优化库存管理和营销策略。大数据的真正价值在于能够通过数据分析,提供深刻的洞察和预测,支持智能决策和创新。</p> <p class="ql-block" style="text-align:center;"><b>发展历程</b></p><p class="ql-block"><b>早期历史</b></p><p class="ql-block"> 大数据的历史渊源可追溯至18世纪80年代,在1887年至1890年间,美国统计学家赫尔曼·霍尔瑞斯(Herman Hollerith)为统计1890 年的人口普查数据发明了一台电动读取设备,用于快速统计卡片上的洞数,这极大地提升了数据处理效率,使得预计耗时8年的人口普查工作在一年内完成,由此在全球范围内引发了数据处理的新纪元。</p><p class="ql-block"><b>概念提出与早期应用</b></p><p class="ql-block"> 1980年,未来学家阿尔文·托夫勒(Alvin Toffler)在其著作《第三次浪潮》中提出了“大数据”这一概念,在书中,他将“大数据”赞誉为“第三次浪潮的华彩乐章”,预见了数据在未来社会中的重要作用。他认为,信息和数据将成为新的经济资源,影响社会的方方面面,从商业到个人生活,再到政府治理,强调了大数据在未来社会发展中的巨大潜力。</p><p class="ql-block"> 到2001年,Gartner公司的分析师道格·莱尼(Doug Laney)在其技术峰会上创新性地引入了“大数据”的概念,他提出了著名的“三个V”模型,即Volume(数据量)、Velocity(数据速度)和Variety(数据种类),以此描述大数据的特点和挑战。同时,他也明确指出了在数据规模不断扩大的背景下,人们亟需开发和应用新的数据管理和分析手段,以应对日益增长的数据处理需求。后来,IBM公司在2012年又增加了“真实性(Veracity)”这一维度,扩展为“4V”模型。随后,业界又引入了“价值(Value)”作为第五个维度,从而形成了现在人们熟知的“5V”模型​​。</p> <p class="ql-block"><b> Google等公司的技术开发</b></p><p class="ql-block"> 在2003年,Google引入了Google File System (GFS),一种旨在处理大规模数据的分布式文件系统,解决了传统文件系统的瓶颈问题。紧随其后的2004年,Google推出了MapReduce,这是一个编程模型及其实现,通过简化并行处理任务,有效地支持大数据集的处理。</p><p class="ql-block"> 2005年,道格·卡廷(Doug Cutting)和迈克·卡法雷拉(Mike Cafarella)在Yahoo!支持下开发了Hadoop,这是一个基于GFS和MapReduce的开源软件框架,用于分布式处理大数据。2006年,Google推出了BigTable,一个专为结构化数据设计的分布式存储系统,支持PB级数据存储需求。随后在2008年,Yahoo!又推出了高级数据流语言Pig Latin,简化了复杂的数据转换和分析任务。同年,Facebook也推出了Hive数据仓库系统,允许用户使用类似SQL的查询语言进行数据分析,大大降低了数据处理的门槛。</p><p class="ql-block"> 进入2012年,Apache发布了Hadoop 2.0,引入了YARN,作为新一代资源管理框架,提高了资源利用效率。同年,Apache Spark被引入,其核心特点是数据能在内存中处理,大大提高了处理速度。它提供了一个统一的分析引擎,支持批处理、流处理、机器学习和图计算。在这一年,IBM公司也将“真实性(Veracity)”这一维度归纳入大数据的概念中,扩展为“4V”模型。随后,业界又引入了“价值(Value)”作为第五个维度,从而形成了现在人们熟知的“5V”模型​​。</p> <p class="ql-block"><b>  技术演进与现代应用</b></p><p class="ql-block"> 2011年,Twitter将实时流数据处理框架Storm作为开源项目发布。而后于2014年,Storm正式成为Apache软件基金会的顶级项目。Storm能够处理无穷的数据流,确保低延迟的数据处理和高度的容错能力,使得实时数据处理成为可能。此后,多个流处理框架如Apache Flink和Apache Kafka相继出现,进一步推动了实时数据处理技术的发展。</p><p class="ql-block"> 随着现代大数据技术的不断进步,各大公司不断整合其大数据平台以提供更高效、更可靠的数据处理解决方案。在2019年,Databricks推出了Delta Lake,这是一种构建在Spark之上的存储层,旨在解决数据湖中的一致性和性能问题,提供ACID事务支持,并提升查询性能。Delta Lake的出现,标志着大数据平台整合的一个重要里程碑。2024年,AWS(亚马逊网络服务)宣布计划投资100亿美金在美国密西西比州建设两个数据中心综合体。同年,Meta(脸书母公司)计划耗资8亿美金在美国印第安纳州杰斐逊维尔建设一个数据中心园区。此外,Meta还正在重新设计其位于美国爱达荷州库纳和德克萨斯州坦普尔的数据中心,以满足人工智能等新兴领域的数据处理需求。</p> <p class="ql-block"><b>数据类型</b></p><p class="ql-block"> 大数据的数据类型主要划分为三类:结构化数据、非结构化数据以及半结构化数据。</p><p class="ql-block"><b>结构化数据</b></p><p class="ql-block"> 结构化数据是指那些可以通过关系型数据库进行表示和存储的数据,它们以二维表格的形式呈现。在这种结构中,数据以行为单位,每一行数据代表一个特定的实体信息,且每一行数据的属性都是一致的。简单来说,就是可以存储到中的各种表格,</p> <p class="ql-block"><b>非结构化数据</b></p><p class="ql-block"> 非结构化数据一般指没有固定类型的数据,例如文本、图片、音频、视频、位置信息、链接信息、手机呼叫信息、网络日志等。这些数据不遵循预定义的数据模型,通常不能直接存储在关系型数据库中,需要通过特定的工具和技术进行处理和分析。</p><p class="ql-block"><b>半结构化数据</b></p><p class="ql-block"> 半结构化数据介于结构化数据和非结构化数据之间,它具有一定的结构化特征,但又不符合关系型数据库的模型(即如上图所示的二维表格)。半结构化数据包含一些易于分析的结构化元素,最为常见的半结构化数据包括日志文件、XML文档、JSON文档、Email、HTML文档等。</p><p class="ql-block"><b>数据单位转换关系</b></p><p class="ql-block"> 在处理大数据时,数据量通常以字节(Byte,B)为基本单位,并通过多个量级单位来表示。常见的数据单位及其换算关系如下:</p>