大数据(big data)定义:
美国国家标准技术研究院(NIST)给出的定义是:大数据是数量大、获取速度快或形态多样的数据,难以用传统关系型数据分析方法进行有效分析,或者需要大规模的水平扩展才能高效处理。
1. 1.Volume容量:数据体量巨大,从TB增长到PB指非结构化数据的模型和增长速度;
①非结构化数据占总数据量的80-90%,比结构化数据增长快10-50倍,数据量是传统数据库的10-50倍;
说明:
a、非结构化数据-是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所
有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。
b、结构化数据,简单来说就是数据库。比如企业ERP、财务系统、医疗HIS数据库等
②数据基本单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB.相邻单位之间差1024倍,如TB=1024GB,PB=1024TB;
1.2.Variety多样化:指数据的异构和多样性,数据多种不同形式,如文本、图像、视频、机器数据;数据无模式或者模式不明显;
①数据来源多,微博、传感器、社交网站;
②数据的种类多,非结构化数据多,视频、模型、音频、文档、连接信息;
③关联性强:譬如旅行图片和日志,就能推测出你的位置和行程是怎么样的。
1.3.Value价值:体现在大量的不相关信息,价值密度低,需要通过深度复杂分析才可以对未来趋势与模式进行预测;价值密度低,从海量数据中挖掘稀有并珍贵的信息才是大数据的核心;
1.4.Velocity高效:实现实时分析,实时呈现分析结果;能否实现实时的数据流处理是区别大数据应用和传统数据仓库技术-BI的关键差别之一;
2.大数据的意义:
大数据是帮助企业利用海量数据资产实时、精确的洞察未知逻辑领域的动态变化,并快速重塑业务流程、组织和行业的新型数据管理技术构建颠覆性优势:
①洞察未知:多样化的数据使企业可以利用更为广泛的数据以支撑企业更多维度的分析需求,而不再局限于已知事实的分析,进而增加战略洞察力;
②优化流程:动态的分析变化可以使企业实时监测分析业务流程的不足,进而不断优化业务流程;
③实时响应:数据可实时访问分析加速了企业获取信息及分析的速度,进而使用户更加灵敏的应对市场的变化。
更多山东编程培训相关资讯,请扫描下方二维码