首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Hadoop SAN存储重用

Hadoop SAN存储重用
EN

Stack Overflow用户
提问于 2014-06-12 13:56:55
回答 2查看 1.2K关注 0票数 0

我们有600 We的EMC SAN存储。目前,Oracle RAC正在利用此存储。出于可伸缩性的原因,我们将Oracle RAC替换为Hadoop存储(Yarn、Spark - Hive、Shark) -尽管我们在性能上做了一些牺牲。

对于Hadoop,建议使用本地存储而不是SAN存储。但是我们的管理层不愿意浪费SAN存储空间。他们希望保护SAN存储上的投资。

如何才能最好地将SAN用于Hadoop?以太网升级会有帮助吗?最大限度地利用SAN存储(作为Hadoop存储)的选项有哪些。

EN

回答 2

Stack Overflow用户

发布于 2014-08-20 21:18:18

假设我们使用相同的术语-具体地说,SAN是通过光纤通道网络访问的块设备-那么“本地存储”和“san存储”之间没有太大区别。

您从中获得的性能受到相同因素的限制-控制器数量、磁盘轴数量、争用比率等。您首先购买存储阵列/SAN的原因是,这样您就可以整合工作负载并以相同(或更低)的平均值获得更高的突发性能。

然而,还有一个额外的因素- SAN通常会包括fabric,这是一个用于承载磁盘存储流量的网络。您使用的交换机通常具有高性能/低延迟-但它们也可能成为瓶颈和争用点。

Hadoop..。通过使用HDFS有效地做了同样的事情-使用它的多个本地磁盘来获得大的“突发”。这必然会在您的SAN上引起争用,因此您不会再获得更多的整合优势--而且很可能最终会变得更糟,因为争用意味着瓶颈和延迟。

您可能会发现,如果您的存储阵列具有良好的峰值吞吐量、良好的重复数据删除机制和大型缓存,您可能会过得更好。只需确保您有足够的端到端峰值吞吐量和IOP容量。你可能会发现你的情况比你想象的更糟糕--但是你是否应该以更低的成本重用一些东西,而不是支付额外的费用来做正确的事情,这更多地是一个it政策的决定,而不是一个技术决定。

票数 1
EN

Stack Overflow用户

发布于 2014-08-13 19:19:19

显然,您将SAN用于Hadoop,但这并不可取。SAN控制器中将存在争用,并会降低性能。

将SAN用于hadoop的最佳方法是:

1.使用RAID-0创建LUN。

2.不应共享one,它只需专用于一台DataNode服务器

3.如果DataNode需要10 of,则创建2个LUN(或偶数个),并在SAN的两个控制器之间对这些LUN进行负载平衡。

显然,您可以将SAN用于具有适当RAID级别(具有非零冗余)的NameNode。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24177360

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档