MTDCGM

摩尔线程数据中心GPU管理器(MTDCGM)是一套用于在集群环境中管理和监控mthreads数据中心GPU的工具。它包括主动健康监控、全面的诊断、系统警报等功能。基础设施团队可以单独使用它,并且它能够轻松地与mthreads合作伙伴提供的集群管理工具、资源调度和监控产品集成。

关于MTDCGM

摩尔线程数据中心GPU管理器(MTDCGM)是一套用于在集群环境中管理和监控mthreads数据中心GPU的工具。它包括主动健康监控、全面的诊断、系统警报等功能。基础设施团队可以单独使用它,并且它能够轻松地与mthreads合作伙伴提供的集群管理工具、资源调度和监控产品集成。

关于MTDCGM

MTDCGM使用

MTDCGM简化了数据中心中的GPU管理,提高了资源的可靠性和正常运行时间,自动化了管理任务,并有助于提升整体基础设施的效率。DCGM支持在x86_64平台上的Linux操作系统。安装包中包含了库、二进制文件、验证套件(MTVS),以及使用API(C、Python和Go)的源代码示例。 摩尔线程数据中心数据中心GPU管理器(MTDCGM)包含了数据中心GPU管理接口(DCGMI)作为命令行工具,这是一款设计用于在数据中心环境中管理和监控GPU资源的软件。DCGMI为管理员提供了广泛的数据中心GPU状态信息,包括利用率、温度、功耗等,帮助他们有效地监控和管理GPU资源。

MTDCGM使用

MTDCGM核心功能

健康检查与监控
健康检查:非入侵式的检查,提供实时监控和健康数据: • General:Power、Thermal • Memory: ECC SBE、ECC DBE、Retired SEB、Retire DBE以及XID • PCIe:Replay Counter • Mtlink:Replay Counter、Recovery Counter、CRC General Counter等
设备诊断及验证
• Environment检查: Device数量检查、Mtml lib 检测、Musa lib检查 • PCIe诊断:检测D2H、H2D、BID带宽和时延、D2D(Read、Write以及BID)带宽和时延(PCIe only),StressD2D(Read、Write以及BID)带宽和时延(Mtlink only) • Memory Test诊断:借用业界memtest86算法检测memory • Targeted Power:检测能够达到目标功耗并维持一段时间 • Targeted Stress :检测GPU perf(GFlops)达到目标perf

MT DCGM

摩尔线程数据中心GPU管理套件(MT DCGM)包含了数据中心GPU管理接口(DCGMI)作为命令行工具,这是一款设计用于在数据中心环境中管理和监控GPU资源的软件。为管理员提供了广泛的数据中心GPU状态信息,包括利用率、温度、功耗等,帮助他们有效地监控和管理GPU资源。