| 注册
home doc ppt pdf
请输入搜索内容

热门搜索

年终总结 个人简历 事迹材料 租赁合同 演讲稿 项目管理 职场社交

Hadoop大数据平台安全问题和解决方案的综述

人***路

贡献于2019-10-25

字数:22010 关键词: 大数据处理

 
 
 
Hadoop数台安全问题解决方案综述①
陈 丽1  黄 晋2  王 锐3
1(广东交通职业技术学院 信息学院 广州 510650)
2(华南师范学 计算机学院 广州 510631)
3(中国移动通信集团广东限公司 广州 510623)
摘  数时代 更强计算机更成熟数台工具企业海量数中挖掘数价值成
 尤基Hadoop数台 甚利廉价商业硬件处理TBPB级数 初Hadoop数
台落建设程中 功先行 忽略安全控策略 直2009年Yahoo团队提出基Kerberos
身份验证方案 带动Hadoop数台安全控工作全面开展 文介绍Hadoop数台基
历程 描述2009年前Hadoop数台存传统安全问题 尝试着目前行业Hadoop生态系统组件
安全性组件安全解决方案做次系统梳理 希构建Hadoop数台控方案时提供参考意
见 便合理利先进安全控方案保护企业户隐私数
关键词 数 Hadoop 身份验证 授权 数安全 审计
引格式  陈丽黄晋王锐Hadoop数台安全问题解决方案综述计算机系统应201827(1)1–9 httpwwwcsaorgcn1003
32546169html
Overview on Security Issues and Solutions of Hadoop Big Data Platform
CHEN Li1 HUANG Jin2 WANG Rui3
1(School of Information Guangdong Communication Polytechnic Guangzhou 510650 China)
2(School of Computer South China Normal University Guangzhou 510631 China)
3(China Mobile Group Guangdong Co Ltd Guangzhou 510623 China)
Abstract With the arrival of the big data era more powerful computers and more mature big data platform tools for
enterprises from the massive data mining data value has become possible especially based on Hadoop Big Data Platform
which can even handle TB PB level of data with cheap commercial hardware In the initial construction process of
Hadoop Big Data Platform the first step often starts with the building function ignoring the security control strategy The
Yahoo team proposed Kerberosbased authentication scheme in 2009 which led to the Hadoop Big Data Platform security
control work in full swing This article introduces the history of the Hadoop Big Data Platform Then it describes the
traditional security issues existing in Hadoop Big Data Platform before 2009 Finally it tries to present the security of the
Hadoop ecosystem components in the industry and the security solution for each component We hope to provide
reference for the construction of Hadoop Big Data Platform security so people can reasonably use advanced security
control program to protect the enterprise’s and user’s privacy data
Key words big data Hadoop authentication authorization data security audit
 
谓数 狭义定义难现
般技术理量数集合 数难理原
 3V描述Volume(容量)Variety(样
性)Velocity(产生频率更新频率)[1] 图1示
计算机系统应 ISSN 10033254 CODEN CSAOBN Email csa@iscasaccn
Computer Systems & Applications201827(1)1−9 [doi 1015888jcnkicsa006169] httpwwwcsaorgcn
©中国科学院软件研究版权 Tel +861062661041
① 基金项目 广东省然科学基金(2016A030313437) 广东省重科技专项(2016B030305004)
收稿时间 20170408 修改时间 20170504 采时间 20170516 csa线出版时间 20171114
Special Issue 专·综述 1Big
Data
㔃ᶴॆ઼
䶎㔃ᶴॆ ᢩ䟿ᮠᦞ
⍱ᮠᦞ
TBZB
㔃ᶴॆ
Variety
V
elocity
Volume
 
图1    数3V描述
 
广义说 数定义包括具备
3V特征难进行理数 数进行存
储处理分析技术 够通分析数
获实意义观点组织综合性概念[2]
量数进行分析 中获观点种
做法 已存部分研究机构企业中
现数相 3点区[3] 第 
着社交媒体传感器网络等发展 身边正产
生出量样数 第二 着硬件软件技术
发展 数存储处理成幅降 第三 着云
计算兴起 数存储处理环境已没必
行搭建
数处理技术起源Google Google提出
整套基分布式行集群方式基础架构技术 利
软件力处理集群中常发生节点失效问题
Google数台包括五相互独立紧
密结合起系统 分布式资源理系统Borg[4]
Google文件系统(GFS)[5] 针Google应程序特
点提出MapReduce编程模式[6] 分布式锁机制
Chubby[7]规模分布式数库BigTable[8] 
先进数处理技术Doug Cutting牵头开发
Hadoop开源软件 支持廉价商业硬件构建型
集群运行应程序 数技术应
飞速发展关键推动力
早期Hadoop 包括Hadoop v1更早前
版 两核心组件构成 HDFSMapReduce
中HDFSGoogle GFS开源版 MapReduce计
算框架实现Google工程师提出MapReduce编
程模型 围绕Hadoop周围开源项目 
完善数处理全生命周期提供必配套补
充 软件常ZooKeeperHivePig
HBaseStormKafkaFlumeSqoopOozie
Mahout等 2012年5月 Hadoop v2alpha版发布
中重变化Hadoop核心组件中增加
YARN (Yet Another Resource Negotiator)[9] YARN
出现计算框架资源理彻底分离开 解决
Hadoop v1带扩展性差单点障
时支持种计算框架问题
Hadoop目前流行数处理台
围绕Hadoop台安全已存量研究工作 研
究方具体Hadoop台安全隐患研究
具体Hadoop组件安全方案优化实现 缺少
Hadoop台总体安全问题组件解决方案
题综述型文章 文致力填补研究方
空白 文首先介绍Hadoop台传统安全问
题 然身份验证访问授权数加密操作审
计四安全控方说明Hadoop台述传
统安全问题解决方法 细化具体组件 包括
HDFSYARNHBaseHivePigOozieZookeeper
Hue 次工业界视角 阐述目前投入实际生产
环境中数台安全技术方案 全文进行
总结提出进步研究方
1   Hadoop台传统安全问题
初Hadoop开发时考虑功优先 
没考虑安全问题 没安全控方案 没
户服务身份认证 没数隐私考虑 集群
中意户均集群提交作业务[10] 着业
务发展需求 Hadoop增加审计授权机制(
HDFS文件访问权限ACL) 旧缺乏
身份验证机制 早期安全方案容易恶意
户身份伪装方式轻易绕 数台安全
直令顾虑 相庞Hadoop集群 传统安
全控方案愈发显足 存问题[11]
(1) 善意户偶尔会犯错( 误操作导致
量数删)
(2) 意户程序均通Hadoop客户端
编程方式访问Hadoop集群全部数 
HDFS中户身份意申明检查机制[12]
(3) 意户均集群提交务[13]查
务状态修改务优先级甚强行杀死
计算机系统应 httpwwwcsaorgcn 2018 年 第 27 卷 第 1 期
2 专·综述 Special Issue正运行程序 MapReduce务没身份验证
授权概念[14]
 
 
图2    HDFS中户身份意申明
 
数台Hadoop已仅仅HDFS
加MapReduce 包括生态圈中众组件 行业
Hadoop数台般仅包括Hadoop核心
组件 Hadoop CommonHDFSYARN 般包括
核心组件配套流组件 ZookeeperHBase
HivePigOozieHue等 组件介绍
(1) Hadoop Common Hadoop框架基础类库 包含
文件系统RPC协议数串行化库等 提供基础支
撑性功
(2) HDFS 分布式文件系统 具高度容错性特
点 提供高吞吐量数访问 适合超数集
应程序
(3) YARN 集群资源调度器 提供集群计算资源
(CPU存)资源集中控调度 提供务进度
集中控 支持种分布式计算框架 含Spark
MapReduceTez等 效提升集群机器资料利

(4) Zookeeper 利Paxos算法解决消息传递致
性分布式服务框架 解决分布式应中
常遇数理问题  统命名服务状
态步服务集群理分布式应配置项理等
分布式协调服务难正确误实现 容易
竞争条件死锁犯错误 Zookeeper出现述场
景提供优秀解决方案
(5) HBase 分布式面列开源数库 适合
结构化非结构化数存储 托HDFS 具备高
性高性伸缩 量数中进行实时
查询
(6) Hive 面数实时性求低海量数查询
基SQL 结合定义复杂组合查询函数实现目标
业务搜索 托HDFS 数安全 支持删
更新中间插入
(7) Pig 专属分析语言(Pig Latin)数分
析工具 支持行化处理 适合数准备阶段量快
速达数进行ETL处理 规模数集进
行迭代处理
(8) Oozie 分布式务调度系统 DAG(
环图Direct Acyclic Graph)定义工作流程
环节具体操作动作
(9) Hue 快速开发调试Hadoop生态系统种
应基浏览器图形化户接口 支持
HDFS文件浏览HBase数查修改Hive元数
查Spark务开发调试MapReduce务进度
追踪Zookeeper浏览编辑Oozie务开发监
控等众功
着Hadoop数台应广泛性重性
日渐提高 安全问题众组织机构提议程 然
Hadoop数台安全确实相复杂问题 
涉组件非常技术非常复杂 数
量计算规模非常 Hadoop数台需
满足众组件横扩展安全控方案
终2009年 YahooHadoop安全控提
出系统全面解决思路 作出实质性贡献
2013年 Intel牵头启动开源项目Project Rhino 致
力Hadoop生态组件安全数安全提供增强
力保证 通Hadoop社区众贡献者努力
目前已提供套解决述问题基解决方
案 通引入Kerberos 配置防火墙基础
HDFS权限ACLs实现 Kerberos实建设
Hadoop集群必备 更贴操作系统层面套身
份验证系统 搭建Hadoop服务整合配置
工作非常复杂 易性方面直没
够获较效果 该Hadoop安全控
方案行业实践旧少
缺少效身份验证安全解决方案(Kerberos)
剩防火墙HDFS权限ACLs控方案
足提供安全保证 恶意户穿透防火墙
身份伪装方式意读取集群中数
安全隐患包括限9条
(1) 未授权户通RPCHTTP访问
HDFS文件 集群执行意代码
(2) 未授权户直接相应流式数
传输协议直接DataNode中文件块进行读写操作
(3) 未授权户私授权
集群意队列提交务修改户务优
先级 甚删户务
(4) 未授权户通HTTP shuffle protocol
2018 年 第 27 卷 第 1 期 httpwwwcsaorgcn 计算机系统应
Special Issue 专·综述 3直接访问Map务中间输出结果
(5) 务通操作系统接口访问
正运行务 直接方案运行务节点(般
台DataNode)磁盘数
(6) 未授权户截获户客户端
DataNode通信数包
(7) 程序节点伪装成Hadoop集群部
服务  NameNodeDataNode等
(8) 恶意户户身份Oozie提交

(9) DataNode身文件概念(数块
概念) 恶意户视集群HDFS文件权限
ACLs直接读取DataNode中意数块
综述 传统Hadoop台建设优先考虑
功性 安全问题没重点考虑 恶意
户留利安全漏洞隐患 善意户留
错误操作影响超预期隐患 然Hadoop行业领先
企业开源社区提出安全控方案 实
际工业界普率然低 安全问题旧需引起
重视
2   Hadoop台安全问题解决方法
Hadoop分布式系统 允许存储量
数 行处理数 支持租户服
务 避免会存储户相关敏感数 身
份信息财务数 企业户言 Hadoop
数台存储海量数包含户相关敏
感数 数仅权限真实户见 
需强认证授权
Hadoop生态系统种组件组成 需保护
Hadoop生态系统组件 Hadoop组件般
会终户直接访问Hadoop核心组件部
(HDFSMapReduce)访问 2009年 Yahoo团队发表
文[15]选择Kerberos做Hadoop台身份验
证方案 Hadoop数台安全控方案提供
坚实基础 Hadoop生态系统安全控突飞猛
进 尝试着生态系统组件安全性
组件安全解决方案做次系统梳理 组件
安全挑战 需采取特定方案根需求
进行正确配置确保安全
Hadoop数台安全问题两方面体
现 第 部Hadoop数台需支持租户
安全 确保户身份信具备细粒度访问
权限控制 保证操作相互影响 数安全隔离
第二 外部Hadoop数台需支持禁止匿名
户访问 禁止恶意窃取户信息 确保户操作
审计 查 保证户数加密 避免
泄露数导致信息窃取
针述Hadoop数台安全两方面
问题 解决时需针全部组件 身份验证访
问授权数加密操作审计[1617]四方出解决
方案
21 身份验证
身份验证指验证访问系统户标识 Hadoop提
供Kerberos作身份验证 初 SASLGSSAPI
实现Kerberos 通RPC连接相互验证户 应
程序Hadoop服务 Hadoop支持HTTP Web控制
台Pluggable身份验证 意味着Web应程序
Web控制台实现者HTTP连接实现
身份验证机制 包括限HTTP SPNEGO身
份验证
Hadoop组件支持SASL框架 RPC层根需
选择SASL DigestMD5认证SASL GSSAPI
Kerberos认证[18] 详细
(1) HDFS NameNodeDataNode间通信通
RPC连接 间执行相互Kerberos认证[19]
(2) YARN 支持Kerberos身份验证 SASL Digest
MD5身份验证RPC连接委派令牌身份验证
(3) HBase 支持通RPC HTTPSASL
Kerberos客户端安全认证
(4) Hive 支持KerberosLDAP认证 支持通
Apache Knox认证
(5) Pig 户票作业提交Hadoop 
 需额外Kerberos安全认证 启动
Pig前 户应该KDC进行身份验证获取
效Kerberos票
(6) Oozie Web客户端提供Kerberos HTTP
简单受保护GSSAPI协商机制(SPNEGO)
身份验证 客户端应程序想远程服务器进行
身份验证 确定身份验证协议时 
SPNEGO协议
(7) Zookeeper RPC连接支持SASL Kerberos
计算机系统应 httpwwwcsaorgcn 2018 年 第 27 卷 第 1 期
4 专·综述 Special Issue身份验证
(8) Hue 提供SPENGO身份验证 LDAP身份验
证 现支持SAML SSO身份验证
Hadoop认证涉数流 Kerberos RPC认证
机制户认证应程序Hadoop服务 HTTP
SPNEGO认证Web控制台 委托令牌
委托令牌户NameNode间认证户双
方认证协议 Kerberos三方协议更加简单
运行效率更高 OozieHDFSMapReduce均支
持委托令牌
22 访问授权
授权户系统指定访问控制权限程
Hadoop中 访问控制遵循UNIX权限模型基
文件权限模型实现 具体
(1) HDFS NameNode基户户组文件权
限HDFS中文件进行访问控制
(2) YARN 作业队列提供ACL 定义户
组作业提交队列户组更
改队列属性
(3) HBase 提供表列族户授权 协处
理器实现户授权 协处理器HBase中数
库触发器 前拦截表请求 目前
HBase支撑单元级超细粒度访问控制
(4) Hive 赖HDFS文件权限进行控制
类似SQL方式实现数库数
表甚字段级超细粒度访问控制
(5) Pig ACL作业队列提供授权
(6) Oozie 提交务权限赖YARN定义
务队列提交权限控制
(7) Zookeeper 提供节点ACL授权
(8) Hue 通文件系统权限提供访问控制 提
供作业队列ACL
Hadoop设置通户组权限访
问控制列表(ACL)执行访问控制 足满
足企业需 组件均套
控体系导致控入口分散 组件控具体操作
方式异 导致运维实施操作时复杂度高 般
会采集成解决方案 访问授权集中
视化方式封装起[20] 降低运维操作复杂
度 提升效率 解决方案包括 Apache Ranger
Cloudera Sentry等
23 数加密
加密确保户信息机密性隐私性 保护
Hadoop中敏感数[21] Hadoop机器
运行分布式系统 意味着数网络定期传输
避免 数挖掘需求会求
数持续断写入集群 数写入读出集群时
称运动数 数保存集群部时 称静
止数 全面数加密方案需时兼顾运动
数加密静止数加密[22] 常见数加密保护
策略包括两条
(1) 运动数加密保护策略 数传输
Hadoop系统Hadoop系统读出数时 
简单认证安全层(SASL)认证框架Hadoop生
态系统中加密运动中数 SASL安全性保证客户端
服务器间交换数 确保数会中间
读取 SASL支持种身份验证机制 例DIGEST
MD5 CRAMMD5等
(2) 静止数加密保护策略 静止数通
两种方案加密 方案 数存储HDFS前
首先整数文件进行加密 然加密文
件写入HDFS中 种方法中 DataNode中
数块单独解密 全部DataNode中全部
数块读取出 进行解密 方案二 
HDFS层面数块进行加密 操作文
件写入方感知 HDFS底层静默进行加密处

Hadoop组件数加密支持
(1) HDFS 支持种通道加密功 RPC
HTTP数传输协议等 支持运动数进行加
密保护 Hadoop支持静止数加密保护 
通Hadoop加密编解码器框架加密编解码器
实现
(2) YARN 存储数 涉数加密
(3) HBase 支持基SASL框架RPC操作
提供运动数进行加密 目前暂提供静止数
加密解决方案 通定制加密技术第三
方工具实现
(4) Hive 目前官方暂提数加密解决方案数
 通定制加密技术第三方工具实现
(5) Pig 支持SASL运动数进行加密
目前暂提供静止数加密解决方案 通
2018 年 第 27 卷 第 1 期 httpwwwcsaorgcn 计算机系统应
Special Issue 专·综述 5定制加密技术第三方工具实现
(6) Oozie 支持SSLTLS运动数进行
加密 目前暂提供静止数加密解决方案 
通定制加密技术第三方工具实现
(7) Zookeeper 目前官方暂提数加密解决方
案数 通定制加密技术第三方工具
实现
(8) Hue 支持HTTPS运动数进行加
密 目前暂提供静止数加密解决方案 
通定制加密技术第三方工具实现
24 操作审计
Hadoop集群托敏感信息 信息安全企
业具成功安全数关重[23] 便做
较完善安全控 然存未授权访问
特权户适访问发生安全漏洞性 
满足安全合规性求 需定期审计整
Hadoop生态系统 部署实施执行日志监视
系统[24] 详细
(1) HDFS 提供户访问HDFS执行操作行
审计支持
(2) YARN 提供户务提交资源量资
源队列操作等行审计支持
(3) HBase 提供户访问HBase执行操作行
审计支持
(4) Hive 通Metastore提供户访问Hive执
行操作行审计支持
(5) Pig 目前官方暂提审计功 通
定制加开发第三方工具实现
(6) Oozie 通Oozie日志文件提供户执行
分布式务调度信息审计支持
(7) Zookeeper 目前官方暂提审计功 
通定制开发第三方工具实现
(8) Hue 通Hue日志文件提供户
Hue执行操作行审计支持
官方提供置审计日志记录Hadoop组
件 行业般通定义开发日志记录结合日志
采集工具 例 FlumeScribeLogStash等开源工
具 实现审计日志数接入数台中 然托
需采集日志 搭建适合企业部日志理系
统 支持集中式日志记录审核[25]
综述 Hadoop安全问题目前身份验证访
问授权数加密操作审计四方均
解决方案实现解决思路 数台
户应该合理分析应场景明确安全保障等级
台组件应该存安全短板 具体
租户场景 户身份验证访问授权关
重 数敏感场景 数传输中动态加密
数存储时静态加密均需考虑 问题追责体系
量计量需求时 操作审计必需具备安全控
力 实际生产环境中实践显示操作审计性
定影响 审计日志体量较 需做评估
优化设计
3   Hadoop台安全技术方案
数台开源社区致力开发更高性
更稳定数组件时 致力解决台安全
重问题 着发行版Hadoop日趋成熟 目前
行业领先ClouderaHortonworks等Hadoop发行
厂商支持开源社区输出较成熟先进
组件产品技术方案
Hadoop台安全技术方案正致力覆盖更
全面Hadoop台组件 均数台安全控
身份验证访问授权数加密操作审计四方
应设计出安全控产品 具备安全力保障
安全力易两特性 具体 技术方案分

(1) Hadoop台安全技术控核心 集中化安
全控
(2) Hadoop台安全技术台应方更友
封装 集群边界安全控
(3) Hadoop台安全技术台运维方更友
封装 动化安全控
31 集中化安全控
早期没集中化安全控工具时 Hadoop数
台安全理问题运维团队相友
(1) 控入口零散 技术组件具备
控指令语法 控工作繁琐效率低
(2) 缺少视化界面 全部技术组件仅支持命令
行式配置查询操作方式 控工作复杂出错概
率高
计算机系统应 httpwwwcsaorgcn 2018 年 第 27 卷 第 1 期
6 专·综述 Special Issue 
图3    传统数台安全控方式
 
通集中化安全控组件 幅度降低数
台安全控复杂度工作量
311    Apache Sentry
Apache SentryCloudera公司发布
Hadoop开源组件 提供细粒度级基角色授
权租户理模式 该项目2016年3月孵化
成果 目前属Apache顶级项目
Apache Sentry目前Cloudera发行版Hadoop
(CDH) 集中化安全控组件 定位集中
化提供Hadoop数台组件权限控 设计目

(1) 授权户数元数访问需求提
供细粒度基角色控制 (RBAC rolebased
access control)
(2) 企业级数安全控标准
(3) 提供统权限策略控方式
(4) 插件化高度模块化
截止版v170已支持组件包括 HDFS
Hive (SolrKafkaImpla)
Apache Sentry架构设计支持高 单点障
影响正常服务
目前Apache Sentry支持Hadoop相关组件
数量然 支持基属性标签权限控制方案
支持Hadoop相关组件操作行审计
312    Apache Ranger
Apache RangerHortonworks发布
Hadoop开源组件 解决Hadoop台服务安
全理政现状 造集中统理
界面 服务提供权限理日志审计等
Apache Ranger目前Hortonworks发行版
Hadoop (HDP) 集中化安全控组件 定位
集中化提供Hadoop数台组件权限控
相关组件提供审计力 设计目标
(1) 通Web UIREST APIs方式提供集中化
安全控力
(2) 集中式理工具提供细粒度操作
行控
(3) Hadoop相关技术组件提供标准化授权
理方案
(4) 增强支持权限控方案  基角色
控基属性标签 (Tag) 控
(5) 支持Hadoop相关技术组件户操作维护
行集中审计
截止版070已支持组件包括 YARN
HDFSHiveHBase (SolrKafkaKnox
StormNiFi)
Apache Ranger目前支持组件较丰富 提供
统审计力
目前Apache Ranger高力暂完善
单点障时然影响Hadoop相关组件权限判
断户 时法提供访问权限变更服

32 集群边界安全控
数台安全解决方案然显著提升集
群安全性 运维团队说面租户场景
运维存定复杂性工作量 开发团队说
基Kerberos身份验证存着编程开发门
槛 集群边界安全控方案提出 运维团队
仅须关注集群部 需部署细节外公布 开
发团队说 通边界网集中式访问种Hadoop相
关服务 幅度简化开发复杂性
321    Apache Knox
Apache Knox开源Hadoop Gateway 
目简化标准化发布实现安全
Hadoop集群 Kerberos化集群 
者屏蔽复杂Kerberos交互 需专注通集
中式REST APIs访问Hadoop相关服务
具体 Apache Knox支持户身份验证单点登
录服务级授权控制审计功 配合合理配置
网络安全策略Kerberos化Hadoop集群 Apache
Knox提供企业级REST API Gateway服务
(1) 企业现户身份理方案快速集成
(2) 保护集群部署细节 终端户需保留集
群机端口号等信息 减少安全隐患
(3) 简化开发团队需交互服务数量 需
众Hadoop相关组件直接交互 仅需Apach Knox
交互
截止版0120已支持组件包括
2018 年 第 27 卷 第 1 期 httpwwwcsaorgcn 计算机系统应
Special Issue 专·综述 7(1) 服务 AmbariHDFSHBaseHCatalog
OozieHiveYARNStorm
(2) Web UI NameNode UIJobHistory UIOozie
UIHBase UIYARN UISpark UIAmbari UI
Ranger Admin Console
Apache Knox处快速发展程中 Horton
works发行版Hadoop (HDP) 已提供较完善
支持 支持键安装 余Hadoop发行版
时需行做相关适配工作
33 动化安全控
331    Apache Ambari
Apache Ambari创建理监视
Hadoop集群开源工具 Hadoop相
关数软件更容易工具 Ambari
数台安全支持良 提供键式视化
Kerberos化Hadoop集群功
截止版250 安全控方面 Apache
Ambari提供功
(1) 视化动化Kerberos化Hadoop集群操

(2) Apache Ranger键安装配置
(3) Apache Knox键安装配置
Apache AmbariHortonworks IBM Pivotal
Infosys等公司支持开发 益开源社区力量 
发展速度相快 目前相成熟Hadoop集群
控工具
目前存问题界面友性较弱 动
化部署配置时错误日志显示精确 (便定位问
题根原) 出现问题缺少动回滚力 (停留
配置中间状态需工修复)
332    Cloudera Manager
Cloudera Manager定位Apache Ambari
致产品 Cloudera公司开发支持
发行版Hadoop (CDH) 理工具 开发投产时间
早Apache Ambari约3年 产品完善程
度户界面友程度较领先
截止版5101 安全控方面 Cloudera
Manager提供功
(1) 视化动化Kerberos化Hadoop集群
操作
(2) Apache Sentry键安装配置
Cloudera ManagerCloudera公司闭源开发产
品 仅支持发行版Hadoop配套 没采
开源路线 缺陷新功修改意见等均法
Apache Ambari样快速响应 时需
License付费支持二次开发
目前存问题缺少集群边界安全控
支持
综述 目前工业界开源社区已具备基
Hadoop安全技术方案 实现基安全
控力 构建安全数台时 建议选择集中化
安全控工具动化安全控工具实现安全控
希降低数台户门槛运维理维
护工作量需求 考虑引入集群边界安全控工
具 总体言 目前安全技术方案开箱
力稳定性易性完善 般需投入定
定制化开发适配工作 台运营理流程
需针性做规范 避免台运维者者间
分工模糊流程紊乱产生突问题
4   结语
数时代 数台需处理海量数
承载租户应 集群安全数安全成需
重点关注问题 着Hadoop行业越越采
纳广泛生产环境 实战环境中安全
解决方案企业团队需综合考虑实践
文描述传统Hadoop数台安全隐患 基涵
盖解决隐患采技术方法 目前
成熟技术方案 认研究方侧重
4方面
(1) Hadoop台安全问题 持续进Hadoop生态
圈技术组件 关注生产实践中新发现安全问
题隐患
(2) Hadoop台安全问题解决方法 持续进安
全控四方新方 Hadoop
生态圈技术组件安全问题解决方法补充更
新 关注新安全问题解决方法
(3) Hadoop台安全问题技术方案 持续进工
业界开源社区 关注Hadoop台安全问题技
术方案力更新出现新技术方案
(4) Hadoop台安全控佳实践 根技术方
案成熟度行业应实战验 技术方案足
计算机系统应 httpwwwcsaorgcn 2018 年 第 27 卷 第 1 期
8 专·综述 Special Issue够解决基安全问题时 出Hadoop台安全控
佳实践 安全理等级需求 出针性
落方案指导佳实践建议
参考文献
Laney  D  3D  data  management  Controlling  data  volume
velocity and variety META Group Research Note 2001 (6)
70
1
Terzi  DS  Terzi  R  Sagiroglu  S  A  survey  on  security  and
privacy  issues  in  big  data  2015  10th  International  Confer
ence  for  Internet  Technology  and  Secured  Transactions
(ICITST) London UK 2015 14–16
2
Hashem  IAT  Yaqoob  I  Anuar  NB et al  The  rise  of   big
data on cloud computing Review and open research issues
Information  Systems  2015  (47)  98 –115  [doi 101016
jis201407006]
3
Verma A Pedrosa L Korupolu M et al Largescale cluster
management at Google with Borg Proceedings of the Tenth
European  Conference  on  Computer  Systems  Bordeaux
France 2015 18
4
Ghemawat S Gobioff H Leung ST The Google file system
ACM SIGOPS Operating Systems Review 2003 37(5) 29–
43 [doi 1011451165389]
5
Dean J Ghemawat S MapReduce A flexible data processing
tool  Communications  of  the  ACM  2010  53(1)  72 –
77 [doi 1011451629175]
6
Burrows  M  The  Chubby  lock  service  for  looselycoupled
distributed  systems  Proceedings  of  the  7th  Symposium  on
Operating  Systems  Design  and  Implementation  Berkeley
CA USA 2006 335–350
7
Chang F Dean J Ghemawat S et al Bigtable A distributed
storage  system  for  structured  data  ACM  Transactions  on
Computer Systems (TOCS) 2008 26(2) 4
8
Vavilapalli  VK  Murthy  AC  Douglas  C et al  Apache
Hadoop  YARN  Yet  another  resource  negotiator
Proceedings  of  the  4th  Annual  Symposium  on  Cloud
Computing New York NY USA 2013 5
9
Big Data Working Group Expanded top ten big data security
and privacy challenges 2013
10
Adluru P Datla SS Zhang XW Hadoop eco system for big
data security and privacy 2015 IEEE Long Island Systems
Applications  and  Technology  Conference  (LISAT)
Farmingdale NY USA 2015 1–6
11
Somu N Gangaa A Sriram VSS Authentication service in12
Hadoop  using  one  time  pad  Indian  Journal  of  Science  &
Technology 2014 7(S4) 56–62
Bardi  M  Zhou  XW  Li  S et al  Big  Data  security  and
privacy A review China Communications 2014 11(14) 135–
145 [doi 101109CC20147085614]
13
Fernandez EB Security in data intensive computing systems
Furht B Escalante A Handbook of Data Intensive Comput
ing New York Springer 2011 447–466
14
O ’Malley  O  Zhang  K  Radia  S et al  Hadoop  security
design Sunnyvale CA USA Yahoo Inc 2009
15
Hortonworks  Securing  your  hadoop  infrasturcture  with
apach knox httphortonworkscomhadooptutorial securing
hadoopinfrastructureapacheknox 2014
16
Shukla  V  Hadoop  security  Today  and  tomorrow
httpshortonworkscombloghadoopsecuritytodayand
tomorrow [20131209]
17
Zhang XF Secure your Hadoop cluster with apache sentry
Cloudera [20140407]
18
Saraladevi B Pazhaniraja N Paul P V et al Big Data and
Hadoopa  study  in  security  perspective  Procedia  Computer
Science  2015  (50)  596 –601  [doi 101016jprocs2015
04091]
19
Hortonworks  Comprehensive  and  coordinated  security  for
enterprise  hadoop httphortonworkscomlabssecurity
[20140515]
20
Tene  O  Polonetsky  J  Big  Data  for  all  Privacy  and  user
control  in  the  age  of  analytics  Northwestern  Journal  of
Technology  and  Intellectual  Property  Volume  2013  11(5)
240–273
21
Cheng  HB  Rong  CM  Hwang  K et al  Secure  Big  Data
storage and sharing scheme for cloud tenants China Communic
ations 2015 12(6) 106–115 [doi 101109CC 20157122469]
22
Marchal S Jiang XY State R et al A Big Data architecture
for large scale security monitoring 2014 IEEE International
Congress on Big Data (BigData Congress) Anchorage AK
USA 2014 56–63
23
Lan  L  Jun  L  Some  special  issues  of  network  security
monitoring  on  Big  Data  environments  Proceedings  of  the
2013  IEEE  11th  International  Conference  on  Dependable
Autonomic  and  Secure  Computing  (DASC)  Washington
DC USA 2013 10–15
24
Gupta  A  Verma  A  Kalra  P et al  Big  Data  A  security
compliance  model  Proceedings  of  the  2014  Conference  on
IT in Business Industry and Government (CSIBIG) Indore
India 2014 1–5
25
2018 年 第 27 卷 第 1 期 httpwwwcsaorgcn 计算机系统应
Special Issue 专·综述 9

《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 3 香币 [ 分享文档获得香币 ]

下载文档

相关文档

慧点科技电子政务数据共享平台解决方案-电子政务解决方案

慧点科技电子政务数据共享平台解决方案-电子政务解决方案  项目背景   随着信息化进程的推进,佛山市电子政务建设已经取得可喜突破和巨大成就。但由于现时佛山市属下各区、各部门的信息化建设的独立性,导致了目前的电子政务系统大都是以某区、部门或某厂家系统集成技术为基础,各系统自成体系,从而带来资源分散、信息共享困难等问题,而且形成彼此隔离的“孤岛式”的信息系统,严重影响电子政务的深度发展。

刘***侠 11年前 上传632   0

中创软件电子政务数据交换平台解决方案-电子政务解决方案

中创软件电子政务数据交换平台解决方案-电子政务解决方案  方案概要  中创软件推出的“电子政务数据交换平台解决方案”,是基于中创软件Infor系列中间件技术,结合政府信息化建设现状及发展需求而推出的,使得各政府部门之间的基础数据共享,让基础数据发挥更大的社会价值,使得政府从宏观上把握经济运行的整体情况。该方案主要实现:   实现政府部门之间数据的安全、可靠交换和共享,避免数据

d***3 11年前 上传488   0

中创软件数据交换平台系统解决方案-信息系统解决方案

中创软件数据交换平台系统解决方案-信息系统解决方案  随着我国信息化工程建设的迅速发展,政府部门及各大企业都建立了各自的信息处理系统。这些信息系统往往是在不同时期、由不同厂商、在不同平台上建设而成的,而且大都是使用不同语言进行开发的。由于缺少统一规划、统一标准,彼此之间很难实现信息共享,形成了大量孤岛式的业务应用系统。因此,在各部门的信息系统之间建立统一、规范的接口,通过计算机网络进行信息的

Q***O 9年前 上传608   0

StorageTek:医疗数据档案解决方案-数据存储解决方案

StorageTek:医疗数据档案解决方案-数据存储解决方案  商务需求  克利夫兰医疗中心是美国接收病人最多的保健中心之一,必须保证病人的研究数据实时快速可用。医疗中心决不能容忍因为存储产品不可靠而导致数据丢失。   20世纪90年代,医疗中心决定对来自不同部门的影像研究数据进行集中化数码归档。这些数据有许多高达几百兆,经常被医务人员频繁的访问,这就给存储系统提出了特殊的要

天***1 9年前 上传564   0

基于Action的数据分析大数据平台

 基于Action的用户行为分析大数据平台Action-based user behavior analytics big data platform内容摘要电商平台作为当前最受欢迎,热度最高的平台,流量高,数据量大,数据种类多本文利用了逆向工程思维从现在热度高、流量高、数据量大的各个电商网站平台,对用户行为收集js脚本进行分析,并从多方面对脚本采集的数据进行判断和推测其具体内

平***苏 10个月前 上传249   0

VERITAS:数据保护和防灾系统解决方案-灾难备份解决方案

VERITAS:数据保护和防灾系统解决方案-灾难备份解决方案  项目背景   北京市公安局出入境管理处是为中国公民和外国公民出入境提供服务的政府机构,是北京乃至中国的对外服务窗口机构,由于近年来计算机和信息化的普及,北京市出入境管理处实施了业务的计算机处理系统,该系统的实施和运行为其出入境服务业务提高了效率并带给中国和外国公民优质的服务,提升了其在北京市和我国的窗口形象。  

平***1 10年前 上传457   0

医疗大数据解决方案

医疗大数据解决方案与信息系统的耦合度为零的数据才是合格的大数据全国97.8万家医疗机构的信息系统基本上都是用关系数据库而建立的,然而要对关系数据库中的数据进行挖掘非常困难。大数据并不是小数据之和,关系数据库系统不适合处理大数据。发明专利技术(发明申请号201310495041.8)《医学信息的结构化存贮方法》非常适合处理医疗大数据。目 录医疗大数据解决方案 1

x***2 4年前 上传697   0

MapReduce在Hadoop中的性能分析

MapReduce在Hadoop中的性能分析 第1章      Hadoop平台研究 3.1  Hadoop的思想之源:Google Google的服务非常多,包括Google搜索引擎,Gmail,安卓,AppspotGoogleMaps,Google earth, Google学术,Google翻译,Google+等。在这些产品体系中最重要的就是Google引擎,这是Google最核

2***q 10年前 上传8845   0

深思数据库信息整合发布平台(WEB)方案-信息系统解决方案

深思数据库信息整合发布平台(WEB)方案-信息系统解决方案  一.前言  信息技术目前已进入的社会的各个领域,许多政府和企业已开发应用的许多管理信息系统,这些系统在日常业务管理工作中发挥了极其重要的作用,同时也积累了大量的数据库信息资源。由于系统的开发时期及采用的技术不同,各系统具有不同的运行平台和数据库平台,大多基于C/S结构或单机系统,而且各个系统大多分散在各个不同的部门,无法实

懒***虫 9年前 上传652   0

中远物流公司数据交换平台项目应用案例-物流与供应链(SCM)解决方案

中远物流公司数据交换平台项目应用案例-物流与供应链(SCM)解决方案  行业背景  中国远洋物流公司(COSCO LOGISTICS以下简称中远物流)是中国远洋运输集团(COSCO)下属的、规模和实力位于国内行业前列的公共物流企业。中远物流为国内外广大货主和船东提供现代物流、国际船舶代理、国际多式联运、公共货运代理、空运代理、集装箱场站管理、仓储、拼箱服务;铁路、公路和驳船运输、项目

f***g 10年前 上传609   0

光明乳业应用数据交换平台成功案例-进销存管理解决方案

光明乳业应用数据交换平台成功案例-进销存管理解决方案  公司简介  上海光明乳业有限公司成立于1996年,经过五年健康良性的快速发展,已经取得了在中国乳品行业的领先地位。光明乳业于2000年底正式启动ERP系统,目的是对企业内部资源进行优化管理,大幅提高各部门底业务水平和管理效率,以适应企业的快速发展。  公司中涉及到订单录入的部门有常温产品事业部、瓶袋奶事业部、保鲜产品事业

魔***女 9年前 上传449   0

VERITAS助福建地税实现数据备份解决方案-数据存储解决方案

VERITAS助福建地税实现数据备份解决方案-数据存储解决方案  项目背景   随着福建地税管理信息系统的全面运行,全省业务数据将随业务的开展逐步增加,这些数据对福建地税来说至关重要,数据的丢失将导致福建地税的直接经济损失和用户数据的丢失,严重影响福建地税对社会提供正常的服务,因此,数据备份系统是必不可少的。  福建地税每天都有大量的极为重要和关键的数据生成,为将不可预见的故

小***娜 11年前 上传447   0

Sybase数据仓库解决方案--贵州电信-数据仓库解决方案

Sybase数据仓库解决方案--贵州电信-数据仓库解决方案  概 述  随着电信市场的逐步开放,新兴的运营商不断产生,电信市场的竞争日趋激烈。一方面,为了能够在竞争中生存和持续发展,各电信运营商都对企业的经营和管理提出了更高的要求。另一方面,电信运营商原来为支撑各种业务运营所建立的计算机管理系统,由于功能比较单一,已无法全面满足企业经营管理工作的需要,突出表现在: 单一系统产生的报表

鹏***来 9年前 上传471   0

Sybase:电信运营数据集成成功案例-数据仓库解决方案

Sybase:电信运营数据集成成功案例-数据仓库解决方案  客户背景  Telefonica,西班牙及葡萄牙语地区领先的电信运营商,拥有8200多万用户。  系统介绍  Telefonica已经建立了新的“统一信息系统(Unified Information System)”,该系统也是Teleefonica “运营数据存储(ODS)”概念的一部分。该项目的目标是建立

f***1 11年前 上传632   0

金保工程应用Sybase数据中心成功案例-数据存储解决方案

金保工程应用Sybase数据中心成功案例-数据存储解决方案  项目背景  金保工程是劳动和社会保障信息化建设的总称。劳动和社会保障信息化建设是我国政府信息化建设的重要组成部分,也是我省的电子政务信息化建设的主要内容之一。  黑龙江省地处偏远,资金匮乏,人才技术力量薄弱,但全省劳动和社会保障系统在省政府、厅、局领导的高度重视下,克服种种困难,在省本级、哈尔滨、齐齐哈尔、牡丹江、

12年前 上传743   0

GoCom融合通信平台电子政务解决方案-平台软件解决方案

GoCom融合通信平台电子政务解决方案-平台软件解决方案  行业背景  在信息化迅速发展的今天,政府面对各种各样业务,需要一个能够简洁对业务进行处理的通道,需要一个能够实时,快速与其它工作人员沟通的方式。当前,即时通讯已经成为继电话、传真、E-mail之后一种最重要的沟通与交流方式。相对于以上传统的沟通方式,IM无疑在沟通、协作方面有着方便、快捷、实时的优势。但在政府日常的办公中,不

好***呢 11年前 上传439   0

IBM ACS:某数据中心整体解决方案-光纤接入解决方案

IBM ACS:某数据中心整体解决方案-光纤接入解决方案  1.项目概况  XX大型数据中心项目,总计建筑面积约为1万平方米,铜缆4000多个信息点,光纤20000芯,全面采用IBM ACS F.I.T高密度光纤互联系统,大大降低了光纤跳线密度,提高了可靠性和可管理性,并实现了安全环保。共有主机机房,网络机房,存储机房,服务器机房,外联机房5个数据机房;服务器机房采用上走线方式,其他

d***h 11年前 上传614   0

长久斯捷数据备份解决方案-灾难备份解决方案

长久斯捷数据备份解决方案-灾难备份解决方案  LANfree的概念 SAN存储区域网基于高速光纤通道(Fibre Channel)SCSI技术,在服务器之间以及服务器和存储设备之间建立了高速的数据传输通道。在SAN内进行大量数据的陈述,复制,备份时不再占用宝贵的LAN资源,使得LAN的带宽得到极大的释放,服务器在为前端网络客户机提供服务时也可以更高的效率进行。SAN技术在保证高速数据传输的同

h***r 10年前 上传495   0

ICEFLOW MC助“华氏大药房”提升数据安全性-系统安全解决方案

ICEFLOW MC助“华氏大药房”提升数据安全性-系统安全解决方案  用户背景:  上海华氏大药房成立于1998年,拥有一支不断发展的员工与专业人员队伍,公司建立了以质量管理为主线贯穿于整个经营活动的质量经营理念,并坚持“以服务创品牌,以诚信树品牌”,把“健康生活、全面奉献”的口号贯穿于企业经营行为和为消费者服务的全过程。全体员工树立华氏品牌优质服务的理念,积极为人民的健康生活奉献

沈***师 11年前 上传591   0

中国建设银行数据存储管理解决方案-数据存储解决方案

中国建设银行数据存储管理解决方案-数据存储解决方案  面对日趋激烈的竞争,中国建设银行需要整合、统一、改进其存储基础设施。赛门铁克数据管理解决方案帮助该行将存储利用率提高50%,能够避免购买10 TB的新增存储容量,还能够管理每年50%递增的数据量 ,而不会增加任何管理时间。与许多同等规模的竞争者相比,该行的存储管理员数量少了40%。  艰难的起步  一些最有价值的成功故事的

涿***计 9年前 上传403   0

银行数据中心数据存储、备份解决方案-金融证券解决方案

银行数据中心数据存储、备份解决方案-金融证券解决方案  用户的需求  某国内大银行上海数据中心(以下简称上海数据中心),每天需要从8个VSE/ESA系统和8个OS/390系统上的数百个3390-3型磁盘卷上备份大量VSAM文件(业务数据)和备份磁盘卷的整卷数据。现在,每个VSE/ESA生产系统每天的数据备份量达200盘3490E磁带,其中有60盘左右为对磁盘卷的备份。   为

g***0 10年前 上传499   0

BEA用电营销支持平台解决方案-电力解决方案

BEA用电营销支持平台解决方案-电力解决方案  统一的中间件为用电营销系统提供了一个统一的基础软件平台,而统一的基础软件平台又为用电营销系统提供了一个统一的开发、管理、维护的技术架构。   随着以“厂网分离、竞价上网”为主旨的电力体制改革     的不断深入,许多电力公司都将思想观念转变到“以市场需求为导向,以效益为中心”的轨道上来。很明显,在新的形势下,电力公司只有以市场需

h***h 9年前 上传382   0

数字化医院核心信息平台解决方案-HIS解决方案

数字化医院核心信息平台解决方案-HIS解决方案  数字化医院的建设是一个长期复杂的工程,其难点,主要是由于医疗信息系统主要研究的是“患者”“疾病”和“管理模式”三个高度不确定的对象。患者的个体差异,人类对疾病认识的有限性,和医疗机构运营管理模式的动态调整,是当前医疗信息系统面临的主要挑战。  根据HIMMS对美国众多医院CIO的调查表明,未来数字化医院建设的重点,将集中在临床信息的共

c***9 10年前 上传624   0

岛田商事 ERP自主平台解决方案-ERP解决方案

岛田商事 ERP自主平台解决方案-ERP解决方案  1 行业特征  1.1 行业背景  服装企业在纺织行业数量最多,位于产业链末端,直接面向最终用户,因而最显著的一点就是受市场影响大、产品种类多、使用周期短、面对瞬息万变的市场需求。这些企业绝大多数是小型企业和民营企业,服装CAD系统推广应用较好,而管理信息化比较薄弱。  就服装行业而言,属于离散制造,但与机械制造不同

c***e 9年前 上传359   0

万户集成通讯平台解决方案-通信解决方案

万户集成通讯平台解决方案-通信解决方案  1、整体介绍   信息技术的快速发展为用户提供了越来越多的沟通交流手段,每一项新工具在某种特定的环境下都能大大提高用户间沟通交流的效率。这些新技术在带来沟通便捷的同时也为日常管理带来一些难题。如何在日常协同工作中充分发挥这些工具的作用,为用户提供最经济、最有效的服务正是万户集成通讯平台解决方案所要解决的。   万户集成通讯平台解决方案

w***9 9年前 上传479   0