Hadoop Meetup分享--YARN关键定制@ByteDance

国内首次hadoop meetup于2019-08-10日在北京举行, 吸引了大量互联网公司参加, 一些业内同学专门从深圳/上海/杭州飞来, 线上观看直播的更是达到了2000多人, 盛况空前. 参加这次会议除了可以一睹junping, wangda真身之外, 还能从会上学到满满的干货. 通过这次会议, 真是亲身感受到了hadoop已经落地到了各大公司, 尤其是新生的较为年青的公司的基础设施中.

正好前几天在公司内也进行了一次关于YARN的全面的分享, 称着这次机会, 代表团队介绍了一下3年来对YARN进行的一系列关键定制, 由于时间比较有限, 只摘选了公司内分享的部分内容, 主要包括四大方向: 利用率优化,多工作负荷优化,稳定性优化,异地多活.

  • 在利用率优化方向,又分为quota利用率和物理利用率两个子方向。
    • 其中quota利用率优化主要是提升调度吞吐能力,降低资源碎片,提升单集群规模;
    • 物理利用率优化主要是对齐用户声明资源和实际使用资源的技术,还通过与流式/在线服务混部全面提升公司内机器的物理利用率。
  • 在三种工作负荷(Training/Streaming/Batch)场景下都有一些体验提升的定制。
    • 为Training/Streaming定制了一个新的调度器GangScheduler——支持All-or-nothing的语义、毫秒级别响应、带优先级和权重的多种强弱约束;
    • 为Training场景定制GPU卡和端口成为一种带ValueRange的调度资源及支持GPU&Ceph的Docker;
    • 在Batch场景下通过高物理负载的跳过机制大大降低了FetchFailed比率。
  • 稳定性提升方面主要包括摆脱对HDFS强依赖,根据Load或磁盘等非调度资源进行container分级与驱逐的机制,增加不受控container的清理机制。
  • 异地多活方面主要包括统一的YARN Client和UI等技术给用户更好的体验。

具体分享内容如下:


非常缺人是很认真的, 希望更多优秀的同学加入, 与我们一起做更加有挑战的事情.