| 注册
home doc ppt pdf
请输入搜索内容

热门搜索

年终总结个人简历事迹材料租赁合同演讲稿项目管理职场社交

大数据技术之大数据概论

向***睡

贡献于2019-05-10

字数:5510

数技术数概
数概念
数(big data)指法定时间范围常规软件工具进行捕捉理处理数集合需新处理模式具更强决策力洞察发现力流程优化力海量高增长率样化信息资产
基单位bit序出单位:bitByteKBMBGBTBPBEBZBYBBBNBDB
1Byte 8bit 1K 1024bit 1MB 1024K 1G 1024M
1T 1024G 1P 1024T 1E 1024P 1Z 1024E
1Y 1024Z 1B 1024Y 1N 1024B 1D 1024N
二 数特点
1)Volume(量):
截目前类生产印刷材料数量200PB历史全类总说话数量约5EB前典型计算机硬盘容量TB量级企业数量已接EB量级

2)Velocity(高速):
数区分传统数挖掘显著特征根IDC数字宇宙报告预计2020年全球数量达352ZB海量数面前处理数效率企业生命
天猫双十:2016年6分58秒天猫交易额超100亿

3)Variety(样):
种类型样性数分结构化数非结构化数相便存储数库文结构化数非结构化数越越包括网络日志音频视频图片理位置信息等类型数数处理力提出更高求
订单数:

网络数:

4)Value(低价值密度):
价值密度高低数总量成反天监控视频中关心宋宋老师晚床健身分钟快速价值数提纯成目前数背景解决难题

三 数干啥?
1)O2O:百度数+台通先进线线通技术客流分析力助力商家精细化运营提升销量

2)零售:探索户价值提供性化服务解决方案贯穿网络实体零售携手创造极致体验典案例子尿布+啤酒

3)旅游:深度结合百度独数力旅游行业需求建旅游产业智慧理智慧服务智慧营销未

4)商品广告推荐:户推荐访问商品广告类型

5) 房产:数全面助力房产行业造精准投策营销选出更合适建造更合适楼卖更合适
6)保险:海量数挖掘风险预测助力保险行业精准营销提升精细化定价力
7)金融:维度体现户特征帮助金融机构推荐优质客户防范欺诈风险

8)移动联通:移动联通:根户年龄职业消费情况分析统计种套餐适合类群市场群精准定制

9)工智



四 数发展前景
1)十八届五中全会提出实施国家数战略国务院印发促进数发展行动纲数技术应处创新突破期国市场需求处爆发期国数产业面重发展机遇
2)国际数公司IDC预测2020年企业基数计算分析台支出突破5000亿美元目前国数46万未35年缺口达150万

缺口计算
150w40w110w
110W5年 22w年
22w12月183w月
古变真理:先入行者吃肉入行者喝汤买单
3)2017年北京学中国民学北京邮电学等25高校成功申请开设数课程
4)数属高新技术牛少升职竞争
5)北京数开发工程师均薪水已17800元(数统计职友集)目前保持强劲发展势头


智联BOSS直聘
五 企业数部业务流程分析

六 企业数部般组织结构
企业数部般组织结构适中型企业

七 Hadoop框架讨数生态
11 Hadoop什
1)HadoopApache基金会开发分布式系统基础架构
2)解决海量数存储海量数分析计算问题
3)广义说HADOOP通常指更广泛概念——HADOOP生态圈

12 Hadoop发展历史
1)LuceneDoug Cutting开创开源软件java书写代码实现Google类似全文搜索功提供全文检索引擎架构包括完整查询引擎索引引擎
2)2001年年底成apache基金会子项目
3)数量场景Lucene面Google样困难
4)学模仿Google解决问题办法 :微型版Nutch
5)说Googlehadoop思想源(Google数方面三篇文)
GFS >HDFS
MapReduce >MR
BigTable >Hbase
6)20032004年Google公开部分GFSMapreduce思想细节基础Doug Cutting等2年业余时间实现DFSMapreduce机制Nutch性飙升
7)2005 年Hadoop 作 Lucene子项目 Nutch部分正式引入Apache基金会2006 年 3 月份MapReduceNutch Distributed File System (NDFS) 分纳入称 Hadoop 项目中
8)名字源Doug Cutting子玩具象

9)Hadoop诞生迅速发展标志云计算时代
13 Hadoop三发行版
Hadoop 三发行版 ApacheClouderaHortonworks
Apache版原始(基础)版入门学
Cloudera型互联网企业中较
Hortonworks文档较
1)Cloudera Hadoop
(1)2008年成立Cloudera早Hadoop商公司合作伙伴提供Hadoop商解决方案包括支持咨询服务培训
(2)2009年Hadoop创始Doug Cutting加盟Cloudera公司Cloudera产品CDHCloudera ManagerCloudera Support
(3)CDHClouderaHadoop发行版完全开源Apache Hadoop兼容性安全性稳定性增强
(4)Cloudera Manager集群软件分发理监控台时部署Hadoop集群集群节点服务进行实时监控Cloudera SupportHadoop技术支持
(5)Cloudera标价年节点4000美元Cloudera开发贡献实时处理数Impala项目
2)Hortonworks Hadoop
(1)2011年成立Hortonworks雅虎硅谷风投公司Benchmark Capital合资组建
(2)公司成立初吸纳约25名30名专门研究Hadoop雅虎工程师述工程师均2005年开始协助雅虎开发Hadoop贡献Hadoop80代码
(3)雅虎工程副总裁雅虎Hadoop开发团队负责Eric Baldeschwieler出Hortonworks首席执行官
(4)Hortonworks产品Hortonworks Data Platform(HDP)样100开源产品HDP常见项目外包括Ambari款开源安装理系统
(5)HCatalog元数理系统HCatalog现已集成Facebook开源Hive中HortonworksStinger开创性极优化Hive项目Hortonworks入门提供非常易沙盒
(6)Hortonworks开发增强特性提交核心干Apache Hadoop够包括Window ServerWindows Azuremicrosoft Windows台运行定价集群基础10节点年12500美元
14 Hadoop优势
1)高性:Hadoop假设计算元素存储会出现障维护工作数副出现障时失败节点重新分布处理
2)高扩展性:集群间分配务数方便扩展数千计节点
3) 高效性:MapReduce思想Hadoop行工作加快务处理速度
4)高容错性:动保存份副数够动失败务重新分配
15 Hadoop组成
1)Hadoop HDFS:高高吞吐量分布式文件系统
2)Hadoop MapReduce:分布式离线行计算框架
3)Hadoop YARN:作业调度集群资源理框架
4)Hadoop Common:支持模块工具模块

151 HDFS架构概述

152 YARN架构概述
1)ResourceManager(rm):处理客户端请求启动监控ApplicationMaster监控NodeManager资源分配调度
2)NodeManager(nm):单节点资源理处理ResourceManager命令处理ApplicationMaster命令
3)ApplicationMaster:数切分应程序申请资源分配部务务监控容错
4)Container:务运行环境抽象封装CPU存等维资源环境变量启动命令等务运行相关信息
153 MapReduce架构概述
MapReduce计算程分两阶段:MapReduce
1)Map阶段行处理输入数
2)Reduce阶段Map结果进行汇总

图简单阐明mapreduce两程者作然够严谨足提供概认知map程蔬菜制成食物前准备工作reduce准备材料合进制作出食物程
16 数技术生态体系

图中涉技术名词解释:
1)Sqoop:sqoop款开源工具Hadoop(Hive)传统数库(mysql)间进行数传递关系型数库(例 : MySQL Oracle 等)中数导进HadoopHDFS中HDFS数导进关系型数库中
2)Flume:FlumeCloudera提供高高分布式海量日志采集聚合传输系统Flume支持日志系统中定制类数发送方收集数时Flume提供数进行简单处理写种数接受方(定制)力
3)Kafka:Kafka种高吞吐量分布式发布订阅消息系统特性:
(1)通O(1)磁盘数结构提供消息持久化种结构数TB消息存储够保持长时间稳定性
(2)高吞吐量:非常普通硬件Kafka支持秒数百万消息
(3)支持通Kafka服务器消费机集群分区消息
(4)支持Hadoop行数加载
4)Storm:Storm分布式实时计算提供组通原语流处理中实时处理消息更新数库理队列工作者集群种方式 Storm连续计算(continuous computation)数流做连续查询计算时结果流形式输出户
5)Spark:Spark前流行开源数存计算框架基Hadoop存储数进行计算
6)Oozie:Oozie理Hdoop作业(job)工作流程调度理系统Oozie协调作业通时间(频率)效数触发前Oozie工作流程
7)Hbase:HBase分布式面列开源数库HBase般关系数库适合非结构化数存储数库
8)Hive:hive基Hadoop数仓库工具结构化数文件映射张数库表提供简单sql查询功sql语句转换MapReduce务进行运行 优点学成低通类SQL语句快速实现简单MapReduce统计必开发专门MapReduce应十分适合数仓库统计分析
10)R语言:R统计分析绘图语言操作环境R属GNU系统免费源代码开放软件统计计算统计制图优秀工具
11)Mahout
Apache Mahout扩展机器学数挖掘库前Mahout支持4例:
推荐挖掘:搜集户动作户推荐喜欢事物
聚集:收集文件进行相关文件分组
分类:现分类文档中学寻找文档中相似特征标签文档进行正确类
频繁项集挖掘:组项分组识项会常起出现
12)ZooKeeper:ZookeeperGoogleChubby开源实现针型分布式系统协调系统提供功包括:配置维护名字服务 分布式步组服务等ZooKeeper目标封装复杂易出错关键服务简单易接口性高效功稳定系统提供户

文档香网(httpswwwxiangdangnet)户传

《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 4 香币 [ 分享文档获得香币 ]

购买文档

相关文档

数据加密技术

数据加密技术数据加密技术 发布时间: 2003-11-3 作者:秩名 我们经常需要一种措施来保护我们的数据,防止被一些怀有不良用心的人所看到或者破坏。        在信息时代,信息可以帮助团体或个人,使他们受益,同样,信息也可以用来对他们构成威胁,造成破坏。        在竞争激烈的大公司中,工业间谍经常会获取对方的情报。        因此,在客观上就需要一种强

j***n 8年前 上传520   0

大数据技术之Flink

Flink起源于Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会,参加这个孵化项目的初始成员是Stratosphere系统的核心开发人员,2014年12月,Flink一跃成为Apache软件基金会的顶级项目。

宝***2 3年前 上传522   0

感受数据管理技术的应用

本节课是《数据管理技术》课的开篇,是在《信息技术基础》课的基础上对数据管理知识的进一步认识、拓展与加深。共有两方面的主要内容,一是体验数据管理技术,二是数据管理技术的应用。这节课既要让学生了解认识数据库,又要让学生理解数据管理技术的一些概念,并且激发学生对数据管理技术的兴趣,为以后的教学打下基础。 

&***) 5年前 上传1051   0

数据库 数据查询

第四章 数据的查询例题解析1、 将表A的记录添加到表B中,要求保持表B中原有的记录,可以使用的查询是( C )。A、选择查询 B、生成表查询 C、追加查询 D、更新查询2、在Access中,查询的数据源可以是( C )。A、表 B、查询 C、表和查询 D、表、查询和报表3、在一个Access的表中有字段“姓名”,要查找包含“宏”字的记录,正

小***库 3年前 上传1737   0

数据的引用

数据的引用    前言:本来想今天介绍用EXCEL表格编制“现金流量表”(不仅仅是用来糊弄领导的东东哦),但经aegis提醒,在介绍表数据的计算时应先讲述数据的引用,包括数组的定义,数组命名,数据的三维引用等内容。现介绍我所知道的数组及其一些小技巧。一、数组基本概念(此处省略数组与数组公式定义两个!!)下面专门介绍区域数组与常量数组(1)区域数组如:C5:D7  

鼎***润 12年前 上传874   0

《数据库应用技术》大作业

《数据库应用技术》大作业题 目: 数 据 库 应 用 技 术 专 业: 网 络 工 程 学 号: 姓 名: 指导老师:

文***品 3年前 上传652   0

《数据库技术及应用》知识点总结

《数据库技术与应用》知识点总结第一章 数据库基础1. 基本概念: 数据:数据泛指对客观事物的数量、属性、位置及其相互关系的抽象表示,以适合于用人工或自然的方式进行保存、传递和处理。数据是形成信息的源泉,信息是有价值的数据是数据的内涵。 信息:有一定含义的、经过加工处理的、对决策有价值的数据数据库:数据库是长期存储在计算机内、有组织的可共享的数据集合。

l***i 3年前 上传919   0

《VMware 虚拟化数据中心技术方案》

VMware虚拟化数据中心解决方案 目 录一、VMWARE公司简介及解决方案综述 11.1. VMware公司简介 11.2. 虚拟化架构的优势 11.3. VMware数据中心解决方案综述 21.3.1. VMware服务器整合解决方案 21.3.2. VMware商业连续性解决方案 41.3.3. VMware VD

雅***韵 2年前 上传397   0

Server数据完整性约束的实现技术

基于Client/Server数据完整性约束的实现技术  摘 要:本论文主要讨论基于Client/Server数据完整性约束及其如何实施企业业务规则,并以SQLServer和PowerBuilder为例,介绍了数据完整性约束的实现技术。  关键词:Client/Server,数据完整性约束, 企业业务规则  DBMS已从早期的分散的一个个计算模型、网络/文件服务计算模型(针对文件)发展到现在

Z***8 9年前 上传399   0

大数据技术在广电领域的应用探索

大数据又称为海量数据、巨量数据,其中所包含的数据量规模巨大到无法通过人工在一定的时间内达到管理、截取、处理并整理为人类能够解读的信息。

h***y 6年前 上传2087   0

技术合同:数据保密协议

技术合同:数据保密协议  甲方:_________________  乙方:_________________  双方经平等协商同意,自愿签订本协议,共同遵守本协议所列条款。  1.保密的内容和范围  (1) 涉及甲方具体的信息,包括甲方使用保存在乙方服务器上的数据。  (2) 凡以直接、间接、口头或书面等形式提供涉及保密内容的行为均属泄密。  2. 双方的权利与义务

t***y 9年前 上传425   0

课程数据信息表(XX工程技术大学)

课程数据信息表课程平台单位(公章):基本信息课程名称 学校名称 课程负责人 单期课程开设周数 课程上线平台名称:课程开设情况开设学期起止时间选课人数课程链接1   2     …   第( )、( )期课程资源与学习信息授课视频总数量(个) 总时长(分钟) 非视频资源数量(个) 课程公告数量(次) 测

教***心 2年前 上传528   0

**大酒店数据接入技术方案d座

根据**大酒店的相关需求,并结合到**大酒店d座建筑物平面布置及预埋线路,现将**酒店数据网络建设所需的设备设施、施工费用及宽带接入费用预算如下:

黑***2 3年前 上传381   0

基于Action的数据分析大数据平台

 基于Action的用户行为分析大数据平台Action-based user behavior analytics big data platform内容摘要电商平台作为当前最受欢迎,热度最高的平台,流量高,数据量大,数据种类多本文利用了逆向工程思维从现在热度高、流量高、数据量大的各个电商网站平台,对用户行为收集js脚本进行分析,并从多方面对脚本采集的数据进行判断和推测其具体内

平***苏 10个月前 上传244   0

数据录入及数据保密工程合同书

数据录入及数据保密工程合同书  根据《中华人民共和国合同法》,委托方和承揽方双方经平等协商同意,自愿签订本合同,共同遵守本合同所列条款。  委托方:  承揽方:  承揽方的义务:  1. 承揽方按照委托方的要求将委托方提供的_____资料,进行录入,并确保在_____工作日内完成_____数据。承揽方应按照委托方的要求,及时取稿、送稿,若由于委托方提供资料间断或程序问题造成的

R***K 9年前 上传519   0

数据库元数据管理系统设计与实现

本科毕业设计(论文) 题  目:  数据库元数据管理系统设计与实现 院  系:       专业年级:  2009级    学生姓名:   学号:  指导教师:  2013年 X月 X日数据库元数据管理系统设计与实现摘要元数据

文***品 2年前 上传397   0

实验数据淀粉

一.相关分析1.温室种植表.生物产量、经济产量与淀粉含量的关系生物产量经济产量淀粉含量生物产量10.941**0.121.0.0000.541经济产量0.941**10.1390.000.0.754淀粉含量0.1210.13910.5410.754.*0.05水平上具备显著性**0.01水平上具备显著性通过对在温室种植下的生物产量、经

平***苏 2年前 上传358   0

数据管理

数据管理 数据管理包括数据的存储、检索和操纵。为了能够在系统开发和开展业务工作期间有效地与信息服务人员进行联系,用户管理人员应具备本章中所提到的有关概念、方法和术语方面的业务知识。   数据和信息   计算机系统并不存储信息,只存储数据。数据是获得信息的原始材料,为了满足定期存取的需要,它们被存储在二级(辅助)存储设备(磁盘和磁带)上。信息是经过同化、聚合和“加工“后的有特定含义的数

张***度 11年前 上传23098   0

2018**春运预测数据

2018年春节假期,高速公路免费通行时间自2月15日零时至2月21日24时止,为做好今年春节期间高速公路的保畅工作,方便人民群众安全便捷出行,节前我省根据以往经验、春节出行特点及群众需求,对高速公路通行形势进行分析预判。

3***4 6年前 上传1195   0

施工数据

施工数据 12墙一个平方需要64块标准砖 18墙一个平方需要96块标准砖 24墙一个平方需要128块标准砖 37墙一个平方需为192块标准砖 49墙一个平方需为256块标准砖 计算公式: 单位立方米240墙砖用量1/(0.24*0.12*0.6) 单位立方米370墙砖用量1/(0.37*0.12*0.6) 空心24墙一个平方需要80多块标准砖 一个土建工程师应掌握的数

任***少 10年前 上传8611   0

分析数据的采集

二、专利分析 (一)分析数据的采集 此次分析的数据来源于国家知识产权局专利局的“中国专利文献数据库”,检索于2004年1月8-9日进行。因此本分析是基于该数据库中2004年1月7日前收录的已公开专利文献。限于发明专利的审查程序,从提出申请到公开需18个月时间,2002年和2003年的发明专利申请量还会有所变化。 为保证分析数据全面准确,检索从专利申请人入手,筛选出国内重要手机生产厂家提交的

t***2 11年前 上传6667   0

数据采集板规约

数据采集板与主控板16进制通信规约

m***g 6年前 上传1817   0

数据备份管理规定

数据备份管理规定第一条 本办法适用于院内计算机网络系统信息数据的备份与管理。第二条 我院计算机信息数据的备份工作由信息技术管理中心管理,负责全院计算机信息数据备份的检查和督促。第三条 提高数据备份的自动化运行管理水平,做好本地数据冷备份,减少人的操作与干预,或制定严格的管理规范,避免误操作。第四条 计算机信息数据备份的基本原则是“谁使用,谁备份”。具体包括:医院信息管理系统(HIS)、医

s***7 2年前 上传526   0

数据备份与恢复预案

公司数据灾难备份及恢复应急预案1.数据抢救灾难发生时,需在保证人身安全的情况对公司的重要数据进行抢救,抢救的围主要包括:记录公司重要信息的文件、资料,存储公司重要数据的磁带,存放重要数据的硬盘、服务器。此过程需由安全组进行统筹指挥,按照既定的计划执行,各组成员、公司员工必须服从安全组的统一调度和指挥。2.损坏评估及启动应预案灾难发生后需根据情况汇报损失情况给损坏评估组,损坏评估组根据汇总

文***享 1年前 上传550   0

数据分析

表四: 数据分析部及KASP信息管理职数表 编制 部门 职 能 岗 位 工作描述 数据分析部(共7人) 1、建立公司数据信息管理平台 2、规划各部门数据分析报表 3、制定数据信息管理制度 4、全国客户管理 5、数据分析员工作技能培训 6、随时完成上级安排的其它工作 主任(1人)周辉 建立销售数据及市场信息管理平台, 建立数据管理权限及各项规章制度, 负责数

A***9 15年前 上传13010   0