Hadoop在文件系统层有很强的安全性,但对于保证用户数据访问和BI应用程序的充分安全方面,它缺乏细粒度的支持。因此,许多对安全系数要求较高的业内组织被迫做出选择,要么将数据置于非保护状态,要么将所有的用户拒之门外,大多数企业选择后者,严格限制对Hadoop数据的访问。Apache Sentry的问世弥补了Hadoop的安全漏洞。Sentry是一个Hadoop的权限控制的开源组件。为了对正确的用户和应用程序提供精确的访问级别,Sentry提供了细粒度级、基于角色的授权以及多租户的管理模式。近日,Sentry 1.4版本发布,此版本不仅新增了许多重要的特性,还做了多方面的改进和修复了大量的bug,现已提供下载,更多内容请查看发行说明,此版本值得关注的改进包括:\

  • 新增了模式工具用来通过SQL脚本创建Sentry 存储模式 \
  • 将PRIVILEGE_NAME长度扩展到了4000个字符以满足长URI存储需要\
  • 能够对一个数据库所有表进行SELECT/INSERT操作的权限的授予或收回\
  • 为Sentry的发布新增了配置目录\
  • 为配置验证创建了一个新的配置验证工具\
  • 实现了一个新的数据库备份策略\
  • Hive绑定具有访问组映射的能力\
  • 使用过滤器减少数据从DB Store服务端到客户端的传递\
  • Hive绑定可以做到MR级别的访问控制列表\
  • 在SentryHiveAuthorizationTaskFactoryImpl类中实现了createShowRolesTask方法\
  • 新增了查询角色和权限的API\
  • 创建了策略文件保存到数据库工具\
  • 修复了JAAS登录选择不能兼容IBM JDK的问题\
  • 修复了不能打包Hadoop、Hive等一些jar包的问题

在这里不得不说下Sentry的由来, 由于Hadoop的安全短板,Cloudera、Intel等多个Hadoop发行版厂商都在实行或制定安全方面的计划。作为Hadoop厂商中的佼佼者,Cloudera发布了Sentry来弥补Hadoop的安全漏洞,并于2013年5月份贡献给了Apache开源社区。Sentry的出现推动了大数据技术在更多行业、组织和终端用户的使用,同时为管理员提供灵活、多租户的管理,以及统一的平台。通过引进Sentry,Hadoop可在安全授权、细粒度访问控制、基于角色的管理、多租户管理、统一平台等方面满足企业和政府用户的基于角色权限控制的需求。

\\