Hadoop数台安全问题解决方案综述①
陈 丽1 黄 晋2 王 锐3
1(广东交通职业技术学院 信息学院 广州 510650)
2(华南师范学 计算机学院 广州 510631)
3(中国移动通信集团广东限公司 广州 510623)
摘 数时代 更强计算机更成熟数台工具企业海量数中挖掘数价值成
尤基Hadoop数台 甚利廉价商业硬件处理TBPB级数 初Hadoop数
台落建设程中 功先行 忽略安全控策略 直2009年Yahoo团队提出基Kerberos
身份验证方案 带动Hadoop数台安全控工作全面开展 文介绍Hadoop数台基
历程 描述2009年前Hadoop数台存传统安全问题 尝试着目前行业Hadoop生态系统组件
安全性组件安全解决方案做次系统梳理 希构建Hadoop数台控方案时提供参考意
见 便合理利先进安全控方案保护企业户隐私数
关键词 数 Hadoop 身份验证 授权 数安全 审计
引格式 陈丽黄晋王锐Hadoop数台安全问题解决方案综述计算机系统应201827(1)1–9 httpwwwcsaorgcn1003
32546169html
Overview on Security Issues and Solutions of Hadoop Big Data Platform
CHEN Li1 HUANG Jin2 WANG Rui3
1(School of Information Guangdong Communication Polytechnic Guangzhou 510650 China)
2(School of Computer South China Normal University Guangzhou 510631 China)
3(China Mobile Group Guangdong Co Ltd Guangzhou 510623 China)
Abstract With the arrival of the big data era more powerful computers and more mature big data platform tools for
enterprises from the massive data mining data value has become possible especially based on Hadoop Big Data Platform
which can even handle TB PB level of data with cheap commercial hardware In the initial construction process of
Hadoop Big Data Platform the first step often starts with the building function ignoring the security control strategy The
Yahoo team proposed Kerberosbased authentication scheme in 2009 which led to the Hadoop Big Data Platform security
control work in full swing This article introduces the history of the Hadoop Big Data Platform Then it describes the
traditional security issues existing in Hadoop Big Data Platform before 2009 Finally it tries to present the security of the
Hadoop ecosystem components in the industry and the security solution for each component We hope to provide
reference for the construction of Hadoop Big Data Platform security so people can reasonably use advanced security
control program to protect the enterprise’s and user’s privacy data
Key words big data Hadoop authentication authorization data security audit
谓数 狭义定义难现
般技术理量数集合 数难理原
3V描述Volume(容量)Variety(样
性)Velocity(产生频率更新频率)[1] 图1示
计算机系统应 ISSN 10033254 CODEN CSAOBN Email csa@iscasaccn
Computer Systems & Applications201827(1)1−9 [doi 1015888jcnkicsa006169] httpwwwcsaorgcn
©中国科学院软件研究版权 Tel +861062661041
① 基金项目 广东省然科学基金(2016A030313437) 广东省重科技专项(2016B030305004)
收稿时间 20170408 修改时间 20170504 采时间 20170516 csa线出版时间 20171114
Special Issue 专·综述 1Big
Data
㔃ᶴॆ઼
䶎㔃ᶴॆ ᢩ䟿ᮠᦞ
⍱ᮠᦞ
TBZB
㔃ᶴॆ
Variety
V
elocity
Volume
图1 数3V描述
广义说 数定义包括具备
3V特征难进行理数 数进行存
储处理分析技术 够通分析数
获实意义观点组织综合性概念[2]
量数进行分析 中获观点种
做法 已存部分研究机构企业中
现数相 3点区[3] 第
着社交媒体传感器网络等发展 身边正产
生出量样数 第二 着硬件软件技术
发展 数存储处理成幅降 第三 着云
计算兴起 数存储处理环境已没必
行搭建
数处理技术起源Google Google提出
整套基分布式行集群方式基础架构技术 利
软件力处理集群中常发生节点失效问题
Google数台包括五相互独立紧
密结合起系统 分布式资源理系统Borg[4]
Google文件系统(GFS)[5] 针Google应程序特
点提出MapReduce编程模式[6] 分布式锁机制
Chubby[7]规模分布式数库BigTable[8]
先进数处理技术Doug Cutting牵头开发
Hadoop开源软件 支持廉价商业硬件构建型
集群运行应程序 数技术应
飞速发展关键推动力
早期Hadoop 包括Hadoop v1更早前
版 两核心组件构成 HDFSMapReduce
中HDFSGoogle GFS开源版 MapReduce计
算框架实现Google工程师提出MapReduce编
程模型 围绕Hadoop周围开源项目
完善数处理全生命周期提供必配套补
充 软件常ZooKeeperHivePig
HBaseStormKafkaFlumeSqoopOozie
Mahout等 2012年5月 Hadoop v2alpha版发布
中重变化Hadoop核心组件中增加
YARN (Yet Another Resource Negotiator)[9] YARN
出现计算框架资源理彻底分离开 解决
Hadoop v1带扩展性差单点障
时支持种计算框架问题
Hadoop目前流行数处理台
围绕Hadoop台安全已存量研究工作 研
究方具体Hadoop台安全隐患研究
具体Hadoop组件安全方案优化实现 缺少
Hadoop台总体安全问题组件解决方案
题综述型文章 文致力填补研究方
空白 文首先介绍Hadoop台传统安全问
题 然身份验证访问授权数加密操作审
计四安全控方说明Hadoop台述传
统安全问题解决方法 细化具体组件 包括
HDFSYARNHBaseHivePigOozieZookeeper
Hue 次工业界视角 阐述目前投入实际生产
环境中数台安全技术方案 全文进行
总结提出进步研究方
1 Hadoop台传统安全问题
初Hadoop开发时考虑功优先
没考虑安全问题 没安全控方案 没
户服务身份认证 没数隐私考虑 集群
中意户均集群提交作业务[10] 着业
务发展需求 Hadoop增加审计授权机制(
HDFS文件访问权限ACL) 旧缺乏
身份验证机制 早期安全方案容易恶意
户身份伪装方式轻易绕 数台安全
直令顾虑 相庞Hadoop集群 传统安
全控方案愈发显足 存问题[11]
(1) 善意户偶尔会犯错( 误操作导致
量数删)
(2) 意户程序均通Hadoop客户端
编程方式访问Hadoop集群全部数
HDFS中户身份意申明检查机制[12]
(3) 意户均集群提交务[13]查
务状态修改务优先级甚强行杀死
计算机系统应 httpwwwcsaorgcn 2018 年 第 27 卷 第 1 期
2 专·综述 Special Issue正运行程序 MapReduce务没身份验证
授权概念[14]
图2 HDFS中户身份意申明
数台Hadoop已仅仅HDFS
加MapReduce 包括生态圈中众组件 行业
Hadoop数台般仅包括Hadoop核心
组件 Hadoop CommonHDFSYARN 般包括
核心组件配套流组件 ZookeeperHBase
HivePigOozieHue等 组件介绍
(1) Hadoop Common Hadoop框架基础类库 包含
文件系统RPC协议数串行化库等 提供基础支
撑性功
(2) HDFS 分布式文件系统 具高度容错性特
点 提供高吞吐量数访问 适合超数集
应程序
(3) YARN 集群资源调度器 提供集群计算资源
(CPU存)资源集中控调度 提供务进度
集中控 支持种分布式计算框架 含Spark
MapReduceTez等 效提升集群机器资料利
率
(4) Zookeeper 利Paxos算法解决消息传递致
性分布式服务框架 解决分布式应中
常遇数理问题 统命名服务状
态步服务集群理分布式应配置项理等
分布式协调服务难正确误实现 容易
竞争条件死锁犯错误 Zookeeper出现述场
景提供优秀解决方案
(5) HBase 分布式面列开源数库 适合
结构化非结构化数存储 托HDFS 具备高
性高性伸缩 量数中进行实时
查询
(6) Hive 面数实时性求低海量数查询
基SQL 结合定义复杂组合查询函数实现目标
业务搜索 托HDFS 数安全 支持删
更新中间插入
(7) Pig 专属分析语言(Pig Latin)数分
析工具 支持行化处理 适合数准备阶段量快
速达数进行ETL处理 规模数集进
行迭代处理
(8) Oozie 分布式务调度系统 DAG(
环图Direct Acyclic Graph)定义工作流程
环节具体操作动作
(9) Hue 快速开发调试Hadoop生态系统种
应基浏览器图形化户接口 支持
HDFS文件浏览HBase数查修改Hive元数
查Spark务开发调试MapReduce务进度
追踪Zookeeper浏览编辑Oozie务开发监
控等众功
着Hadoop数台应广泛性重性
日渐提高 安全问题众组织机构提议程 然
Hadoop数台安全确实相复杂问题
涉组件非常技术非常复杂 数
量计算规模非常 Hadoop数台需
满足众组件横扩展安全控方案
终2009年 YahooHadoop安全控提
出系统全面解决思路 作出实质性贡献
2013年 Intel牵头启动开源项目Project Rhino 致
力Hadoop生态组件安全数安全提供增强
力保证 通Hadoop社区众贡献者努力
目前已提供套解决述问题基解决方
案 通引入Kerberos 配置防火墙基础
HDFS权限ACLs实现 Kerberos实建设
Hadoop集群必备 更贴操作系统层面套身
份验证系统 搭建Hadoop服务整合配置
工作非常复杂 易性方面直没
够获较效果 该Hadoop安全控
方案行业实践旧少
缺少效身份验证安全解决方案(Kerberos)
剩防火墙HDFS权限ACLs控方案
足提供安全保证 恶意户穿透防火墙
身份伪装方式意读取集群中数
安全隐患包括限9条
(1) 未授权户通RPCHTTP访问
HDFS文件 集群执行意代码
(2) 未授权户直接相应流式数
传输协议直接DataNode中文件块进行读写操作
(3) 未授权户私授权
集群意队列提交务修改户务优
先级 甚删户务
(4) 未授权户通HTTP shuffle protocol
2018 年 第 27 卷 第 1 期 httpwwwcsaorgcn 计算机系统应
Special Issue 专·综述 3直接访问Map务中间输出结果
(5) 务通操作系统接口访问
正运行务 直接方案运行务节点(般
台DataNode)磁盘数
(6) 未授权户截获户客户端
DataNode通信数包
(7) 程序节点伪装成Hadoop集群部
服务 NameNodeDataNode等
(8) 恶意户户身份Oozie提交
务
(9) DataNode身文件概念(数块
概念) 恶意户视集群HDFS文件权限
ACLs直接读取DataNode中意数块
综述 传统Hadoop台建设优先考虑
功性 安全问题没重点考虑 恶意
户留利安全漏洞隐患 善意户留
错误操作影响超预期隐患 然Hadoop行业领先
企业开源社区提出安全控方案 实
际工业界普率然低 安全问题旧需引起
重视
2 Hadoop台安全问题解决方法
Hadoop分布式系统 允许存储量
数 行处理数 支持租户服
务 避免会存储户相关敏感数 身
份信息财务数 企业户言 Hadoop
数台存储海量数包含户相关敏
感数 数仅权限真实户见
需强认证授权
Hadoop生态系统种组件组成 需保护
Hadoop生态系统组件 Hadoop组件般
会终户直接访问Hadoop核心组件部
(HDFSMapReduce)访问 2009年 Yahoo团队发表
文[15]选择Kerberos做Hadoop台身份验
证方案 Hadoop数台安全控方案提供
坚实基础 Hadoop生态系统安全控突飞猛
进 尝试着生态系统组件安全性
组件安全解决方案做次系统梳理 组件
安全挑战 需采取特定方案根需求
进行正确配置确保安全
Hadoop数台安全问题两方面体
现 第 部Hadoop数台需支持租户
安全 确保户身份信具备细粒度访问
权限控制 保证操作相互影响 数安全隔离
第二 外部Hadoop数台需支持禁止匿名
户访问 禁止恶意窃取户信息 确保户操作
审计 查 保证户数加密 避免
泄露数导致信息窃取
针述Hadoop数台安全两方面
问题 解决时需针全部组件 身份验证访
问授权数加密操作审计[1617]四方出解决
方案
21 身份验证
身份验证指验证访问系统户标识 Hadoop提
供Kerberos作身份验证 初 SASLGSSAPI
实现Kerberos 通RPC连接相互验证户 应
程序Hadoop服务 Hadoop支持HTTP Web控制
台Pluggable身份验证 意味着Web应程序
Web控制台实现者HTTP连接实现
身份验证机制 包括限HTTP SPNEGO身
份验证
Hadoop组件支持SASL框架 RPC层根需
选择SASL DigestMD5认证SASL GSSAPI
Kerberos认证[18] 详细
(1) HDFS NameNodeDataNode间通信通
RPC连接 间执行相互Kerberos认证[19]
(2) YARN 支持Kerberos身份验证 SASL Digest
MD5身份验证RPC连接委派令牌身份验证
(3) HBase 支持通RPC HTTPSASL
Kerberos客户端安全认证
(4) Hive 支持KerberosLDAP认证 支持通
Apache Knox认证
(5) Pig 户票作业提交Hadoop
需额外Kerberos安全认证 启动
Pig前 户应该KDC进行身份验证获取
效Kerberos票
(6) Oozie Web客户端提供Kerberos HTTP
简单受保护GSSAPI协商机制(SPNEGO)
身份验证 客户端应程序想远程服务器进行
身份验证 确定身份验证协议时
SPNEGO协议
(7) Zookeeper RPC连接支持SASL Kerberos
计算机系统应 httpwwwcsaorgcn 2018 年 第 27 卷 第 1 期
4 专·综述 Special Issue身份验证
(8) Hue 提供SPENGO身份验证 LDAP身份验
证 现支持SAML SSO身份验证
Hadoop认证涉数流 Kerberos RPC认证
机制户认证应程序Hadoop服务 HTTP
SPNEGO认证Web控制台 委托令牌
委托令牌户NameNode间认证户双
方认证协议 Kerberos三方协议更加简单
运行效率更高 OozieHDFSMapReduce均支
持委托令牌
22 访问授权
授权户系统指定访问控制权限程
Hadoop中 访问控制遵循UNIX权限模型基
文件权限模型实现 具体
(1) HDFS NameNode基户户组文件权
限HDFS中文件进行访问控制
(2) YARN 作业队列提供ACL 定义户
组作业提交队列户组更
改队列属性
(3) HBase 提供表列族户授权 协处
理器实现户授权 协处理器HBase中数
库触发器 前拦截表请求 目前
HBase支撑单元级超细粒度访问控制
(4) Hive 赖HDFS文件权限进行控制
类似SQL方式实现数库数
表甚字段级超细粒度访问控制
(5) Pig ACL作业队列提供授权
(6) Oozie 提交务权限赖YARN定义
务队列提交权限控制
(7) Zookeeper 提供节点ACL授权
(8) Hue 通文件系统权限提供访问控制 提
供作业队列ACL
Hadoop设置通户组权限访
问控制列表(ACL)执行访问控制 足满
足企业需 组件均套
控体系导致控入口分散 组件控具体操作
方式异 导致运维实施操作时复杂度高 般
会采集成解决方案 访问授权集中
视化方式封装起[20] 降低运维操作复杂
度 提升效率 解决方案包括 Apache Ranger
Cloudera Sentry等
23 数加密
加密确保户信息机密性隐私性 保护
Hadoop中敏感数[21] Hadoop机器
运行分布式系统 意味着数网络定期传输
避免 数挖掘需求会求
数持续断写入集群 数写入读出集群时
称运动数 数保存集群部时 称静
止数 全面数加密方案需时兼顾运动
数加密静止数加密[22] 常见数加密保护
策略包括两条
(1) 运动数加密保护策略 数传输
Hadoop系统Hadoop系统读出数时
简单认证安全层(SASL)认证框架Hadoop生
态系统中加密运动中数 SASL安全性保证客户端
服务器间交换数 确保数会中间
读取 SASL支持种身份验证机制 例DIGEST
MD5 CRAMMD5等
(2) 静止数加密保护策略 静止数通
两种方案加密 方案 数存储HDFS前
首先整数文件进行加密 然加密文
件写入HDFS中 种方法中 DataNode中
数块单独解密 全部DataNode中全部
数块读取出 进行解密 方案二
HDFS层面数块进行加密 操作文
件写入方感知 HDFS底层静默进行加密处
理
Hadoop组件数加密支持
(1) HDFS 支持种通道加密功 RPC
HTTP数传输协议等 支持运动数进行加
密保护 Hadoop支持静止数加密保护
通Hadoop加密编解码器框架加密编解码器
实现
(2) YARN 存储数 涉数加密
(3) HBase 支持基SASL框架RPC操作
提供运动数进行加密 目前暂提供静止数
加密解决方案 通定制加密技术第三
方工具实现
(4) Hive 目前官方暂提数加密解决方案数
通定制加密技术第三方工具实现
(5) Pig 支持SASL运动数进行加密
目前暂提供静止数加密解决方案 通
2018 年 第 27 卷 第 1 期 httpwwwcsaorgcn 计算机系统应
Special Issue 专·综述 5定制加密技术第三方工具实现
(6) Oozie 支持SSLTLS运动数进行
加密 目前暂提供静止数加密解决方案
通定制加密技术第三方工具实现
(7) Zookeeper 目前官方暂提数加密解决方
案数 通定制加密技术第三方工具
实现
(8) Hue 支持HTTPS运动数进行加
密 目前暂提供静止数加密解决方案
通定制加密技术第三方工具实现
24 操作审计
Hadoop集群托敏感信息 信息安全企
业具成功安全数关重[23] 便做
较完善安全控 然存未授权访问
特权户适访问发生安全漏洞性
满足安全合规性求 需定期审计整
Hadoop生态系统 部署实施执行日志监视
系统[24] 详细
(1) HDFS 提供户访问HDFS执行操作行
审计支持
(2) YARN 提供户务提交资源量资
源队列操作等行审计支持
(3) HBase 提供户访问HBase执行操作行
审计支持
(4) Hive 通Metastore提供户访问Hive执
行操作行审计支持
(5) Pig 目前官方暂提审计功 通
定制加开发第三方工具实现
(6) Oozie 通Oozie日志文件提供户执行
分布式务调度信息审计支持
(7) Zookeeper 目前官方暂提审计功
通定制开发第三方工具实现
(8) Hue 通Hue日志文件提供户
Hue执行操作行审计支持
官方提供置审计日志记录Hadoop组
件 行业般通定义开发日志记录结合日志
采集工具 例 FlumeScribeLogStash等开源工
具 实现审计日志数接入数台中 然托
需采集日志 搭建适合企业部日志理系
统 支持集中式日志记录审核[25]
综述 Hadoop安全问题目前身份验证访
问授权数加密操作审计四方均
解决方案实现解决思路 数台
户应该合理分析应场景明确安全保障等级
台组件应该存安全短板 具体
租户场景 户身份验证访问授权关
重 数敏感场景 数传输中动态加密
数存储时静态加密均需考虑 问题追责体系
量计量需求时 操作审计必需具备安全控
力 实际生产环境中实践显示操作审计性
定影响 审计日志体量较 需做评估
优化设计
3 Hadoop台安全技术方案
数台开源社区致力开发更高性
更稳定数组件时 致力解决台安全
重问题 着发行版Hadoop日趋成熟 目前
行业领先ClouderaHortonworks等Hadoop发行
厂商支持开源社区输出较成熟先进
组件产品技术方案
Hadoop台安全技术方案正致力覆盖更
全面Hadoop台组件 均数台安全控
身份验证访问授权数加密操作审计四方
应设计出安全控产品 具备安全力保障
安全力易两特性 具体 技术方案分
类
(1) Hadoop台安全技术控核心 集中化安
全控
(2) Hadoop台安全技术台应方更友
封装 集群边界安全控
(3) Hadoop台安全技术台运维方更友
封装 动化安全控
31 集中化安全控
早期没集中化安全控工具时 Hadoop数
台安全理问题运维团队相友
(1) 控入口零散 技术组件具备
控指令语法 控工作繁琐效率低
(2) 缺少视化界面 全部技术组件仅支持命令
行式配置查询操作方式 控工作复杂出错概
率高
计算机系统应 httpwwwcsaorgcn 2018 年 第 27 卷 第 1 期
6 专·综述 Special Issue
图3 传统数台安全控方式
通集中化安全控组件 幅度降低数
台安全控复杂度工作量
311 Apache Sentry
Apache SentryCloudera公司发布
Hadoop开源组件 提供细粒度级基角色授
权租户理模式 该项目2016年3月孵化
成果 目前属Apache顶级项目
Apache Sentry目前Cloudera发行版Hadoop
(CDH) 集中化安全控组件 定位集中
化提供Hadoop数台组件权限控 设计目
标
(1) 授权户数元数访问需求提
供细粒度基角色控制 (RBAC rolebased
access control)
(2) 企业级数安全控标准
(3) 提供统权限策略控方式
(4) 插件化高度模块化
截止版v170已支持组件包括 HDFS
Hive (SolrKafkaImpla)
Apache Sentry架构设计支持高 单点障
影响正常服务
目前Apache Sentry支持Hadoop相关组件
数量然 支持基属性标签权限控制方案
支持Hadoop相关组件操作行审计
312 Apache Ranger
Apache RangerHortonworks发布
Hadoop开源组件 解决Hadoop台服务安
全理政现状 造集中统理
界面 服务提供权限理日志审计等
Apache Ranger目前Hortonworks发行版
Hadoop (HDP) 集中化安全控组件 定位
集中化提供Hadoop数台组件权限控
相关组件提供审计力 设计目标
(1) 通Web UIREST APIs方式提供集中化
安全控力
(2) 集中式理工具提供细粒度操作
行控
(3) Hadoop相关技术组件提供标准化授权
理方案
(4) 增强支持权限控方案 基角色
控基属性标签 (Tag) 控
(5) 支持Hadoop相关技术组件户操作维护
行集中审计
截止版070已支持组件包括 YARN
HDFSHiveHBase (SolrKafkaKnox
StormNiFi)
Apache Ranger目前支持组件较丰富 提供
统审计力
目前Apache Ranger高力暂完善
单点障时然影响Hadoop相关组件权限判
断户 时法提供访问权限变更服
务
32 集群边界安全控
数台安全解决方案然显著提升集
群安全性 运维团队说面租户场景
运维存定复杂性工作量 开发团队说
基Kerberos身份验证存着编程开发门
槛 集群边界安全控方案提出 运维团队
仅须关注集群部 需部署细节外公布 开
发团队说 通边界网集中式访问种Hadoop相
关服务 幅度简化开发复杂性
321 Apache Knox
Apache Knox开源Hadoop Gateway
目简化标准化发布实现安全
Hadoop集群 Kerberos化集群
者屏蔽复杂Kerberos交互 需专注通集
中式REST APIs访问Hadoop相关服务
具体 Apache Knox支持户身份验证单点登
录服务级授权控制审计功 配合合理配置
网络安全策略Kerberos化Hadoop集群 Apache
Knox提供企业级REST API Gateway服务
(1) 企业现户身份理方案快速集成
(2) 保护集群部署细节 终端户需保留集
群机端口号等信息 减少安全隐患
(3) 简化开发团队需交互服务数量 需
众Hadoop相关组件直接交互 仅需Apach Knox
交互
截止版0120已支持组件包括
2018 年 第 27 卷 第 1 期 httpwwwcsaorgcn 计算机系统应
Special Issue 专·综述 7(1) 服务 AmbariHDFSHBaseHCatalog
OozieHiveYARNStorm
(2) Web UI NameNode UIJobHistory UIOozie
UIHBase UIYARN UISpark UIAmbari UI
Ranger Admin Console
Apache Knox处快速发展程中 Horton
works发行版Hadoop (HDP) 已提供较完善
支持 支持键安装 余Hadoop发行版
时需行做相关适配工作
33 动化安全控
331 Apache Ambari
Apache Ambari创建理监视
Hadoop集群开源工具 Hadoop相
关数软件更容易工具 Ambari
数台安全支持良 提供键式视化
Kerberos化Hadoop集群功
截止版250 安全控方面 Apache
Ambari提供功
(1) 视化动化Kerberos化Hadoop集群操
作
(2) Apache Ranger键安装配置
(3) Apache Knox键安装配置
Apache AmbariHortonworks IBM Pivotal
Infosys等公司支持开发 益开源社区力量
发展速度相快 目前相成熟Hadoop集群
控工具
目前存问题界面友性较弱 动
化部署配置时错误日志显示精确 (便定位问
题根原) 出现问题缺少动回滚力 (停留
配置中间状态需工修复)
332 Cloudera Manager
Cloudera Manager定位Apache Ambari
致产品 Cloudera公司开发支持
发行版Hadoop (CDH) 理工具 开发投产时间
早Apache Ambari约3年 产品完善程
度户界面友程度较领先
截止版5101 安全控方面 Cloudera
Manager提供功
(1) 视化动化Kerberos化Hadoop集群
操作
(2) Apache Sentry键安装配置
Cloudera ManagerCloudera公司闭源开发产
品 仅支持发行版Hadoop配套 没采
开源路线 缺陷新功修改意见等均法
Apache Ambari样快速响应 时需
License付费支持二次开发
目前存问题缺少集群边界安全控
支持
综述 目前工业界开源社区已具备基
Hadoop安全技术方案 实现基安全
控力 构建安全数台时 建议选择集中化
安全控工具动化安全控工具实现安全控
希降低数台户门槛运维理维
护工作量需求 考虑引入集群边界安全控工
具 总体言 目前安全技术方案开箱
力稳定性易性完善 般需投入定
定制化开发适配工作 台运营理流程
需针性做规范 避免台运维者者间
分工模糊流程紊乱产生突问题
4 结语
数时代 数台需处理海量数
承载租户应 集群安全数安全成需
重点关注问题 着Hadoop行业越越采
纳广泛生产环境 实战环境中安全
解决方案企业团队需综合考虑实践
文描述传统Hadoop数台安全隐患 基涵
盖解决隐患采技术方法 目前
成熟技术方案 认研究方侧重
4方面
(1) Hadoop台安全问题 持续进Hadoop生态
圈技术组件 关注生产实践中新发现安全问
题隐患
(2) Hadoop台安全问题解决方法 持续进安
全控四方新方 Hadoop
生态圈技术组件安全问题解决方法补充更
新 关注新安全问题解决方法
(3) Hadoop台安全问题技术方案 持续进工
业界开源社区 关注Hadoop台安全问题技
术方案力更新出现新技术方案
(4) Hadoop台安全控佳实践 根技术方
案成熟度行业应实战验 技术方案足
计算机系统应 httpwwwcsaorgcn 2018 年 第 27 卷 第 1 期
8 专·综述 Special Issue够解决基安全问题时 出Hadoop台安全控
佳实践 安全理等级需求 出针性
落方案指导佳实践建议
参考文献
Laney D 3D data management Controlling data volume
velocity and variety META Group Research Note 2001 (6)
70
1
Terzi DS Terzi R Sagiroglu S A survey on security and
privacy issues in big data 2015 10th International Confer
ence for Internet Technology and Secured Transactions
(ICITST) London UK 2015 14–16
2
Hashem IAT Yaqoob I Anuar NB et al The rise of big
data on cloud computing Review and open research issues
Information Systems 2015 (47) 98 –115 [doi 101016
jis201407006]
3
Verma A Pedrosa L Korupolu M et al Largescale cluster
management at Google with Borg Proceedings of the Tenth
European Conference on Computer Systems Bordeaux
France 2015 18
4
Ghemawat S Gobioff H Leung ST The Google file system
ACM SIGOPS Operating Systems Review 2003 37(5) 29–
43 [doi 1011451165389]
5
Dean J Ghemawat S MapReduce A flexible data processing
tool Communications of the ACM 2010 53(1) 72 –
77 [doi 1011451629175]
6
Burrows M The Chubby lock service for looselycoupled
distributed systems Proceedings of the 7th Symposium on
Operating Systems Design and Implementation Berkeley
CA USA 2006 335–350
7
Chang F Dean J Ghemawat S et al Bigtable A distributed
storage system for structured data ACM Transactions on
Computer Systems (TOCS) 2008 26(2) 4
8
Vavilapalli VK Murthy AC Douglas C et al Apache
Hadoop YARN Yet another resource negotiator
Proceedings of the 4th Annual Symposium on Cloud
Computing New York NY USA 2013 5
9
Big Data Working Group Expanded top ten big data security
and privacy challenges 2013
10
Adluru P Datla SS Zhang XW Hadoop eco system for big
data security and privacy 2015 IEEE Long Island Systems
Applications and Technology Conference (LISAT)
Farmingdale NY USA 2015 1–6
11
Somu N Gangaa A Sriram VSS Authentication service in12
Hadoop using one time pad Indian Journal of Science &
Technology 2014 7(S4) 56–62
Bardi M Zhou XW Li S et al Big Data security and
privacy A review China Communications 2014 11(14) 135–
145 [doi 101109CC20147085614]
13
Fernandez EB Security in data intensive computing systems
Furht B Escalante A Handbook of Data Intensive Comput
ing New York Springer 2011 447–466
14
O ’Malley O Zhang K Radia S et al Hadoop security
design Sunnyvale CA USA Yahoo Inc 2009
15
Hortonworks Securing your hadoop infrasturcture with
apach knox httphortonworkscomhadooptutorial securing
hadoopinfrastructureapacheknox 2014
16
Shukla V Hadoop security Today and tomorrow
httpshortonworkscombloghadoopsecuritytodayand
tomorrow [20131209]
17
Zhang XF Secure your Hadoop cluster with apache sentry
Cloudera [20140407]
18
Saraladevi B Pazhaniraja N Paul P V et al Big Data and
Hadoopa study in security perspective Procedia Computer
Science 2015 (50) 596 –601 [doi 101016jprocs2015
04091]
19
Hortonworks Comprehensive and coordinated security for
enterprise hadoop httphortonworkscomlabssecurity
[20140515]
20
Tene O Polonetsky J Big Data for all Privacy and user
control in the age of analytics Northwestern Journal of
Technology and Intellectual Property Volume 2013 11(5)
240–273
21
Cheng HB Rong CM Hwang K et al Secure Big Data
storage and sharing scheme for cloud tenants China Communic
ations 2015 12(6) 106–115 [doi 101109CC 20157122469]
22
Marchal S Jiang XY State R et al A Big Data architecture
for large scale security monitoring 2014 IEEE International
Congress on Big Data (BigData Congress) Anchorage AK
USA 2014 56–63
23
Lan L Jun L Some special issues of network security
monitoring on Big Data environments Proceedings of the
2013 IEEE 11th International Conference on Dependable
Autonomic and Secure Computing (DASC) Washington
DC USA 2013 10–15
24
Gupta A Verma A Kalra P et al Big Data A security
compliance model Proceedings of the 2014 Conference on
IT in Business Industry and Government (CSIBIG) Indore
India 2014 1–5
25
2018 年 第 27 卷 第 1 期 httpwwwcsaorgcn 计算机系统应
Special Issue 专·综述 9
《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档