25/11/18

修复Cn4节点启动只进BIOS设置无法进入系统的问题

25/11/19

进行测试,包括最大支持模型容量、GDS、GDR的性能等参数

25/11/24

安装beegfs分布式文件系统在cn1~cn6上

25/11/25

配置conda本地源

进行GDS对比测试

借走6块华为3.84T硬盘

25/11/26

完成gds6系统盘备份,复制gds6的系统盘到新的硬盘上

配置pip下载源

25/11/27

完成GDS/GDR对比测试

跑通mlperf storage测试

完成gpu集群汇报

25/11/28

完成GDS完整的对比测试

25/11/29 总结

配置pip、conda本地源,完成系统盘备份,使集群具有cuda 12.4和13.0两种开发环境

在集群上进行GDS和GDR对比测试以及mlperf storage测试

在gds5服务器上部署vscode remote-ssh,现在能远程调试集群上的程序

在gds5服务器上部署gitlab,现在可以将代码上传到集群进行协作开发及版本控制