科技媒体servethehome近日受邀参观了由xai公司打造的全球最大ai训练集群——colossus,这一壮举展示了ai技术的迅猛发展。据悉,xai在短短122天内便成功搭建了10万张英伟达h100 gpu,并计划未来再增加10万张,其中包括5万张更先进的h200。
colossus集群配备了英伟达hgx h100服务器,每台服务器内含8张h100 gpu,所有服务器均在supermicro的4u水冷系统中高效运行。每个机架可容纳8台服务器,组成1个含有512个gpu的阵列,整个集群则拥有超过1500个gpu机架。
为了确保高效的数据传输,每个gpu都配备了400gbe的网络接口控制器,使每台hgx h100服务器达到3.6 terabit每秒的以太网带宽。xai采用了supermicro的4u通用gpu系统,这些系统凭借先进的液冷技术,提升了散热效率,确保了高性能计算的稳定性。
此次展示活动得到了埃隆·马斯克及其团队的特别批准,由于构建全球最大ai集群的敏感性,部分内容在视频中进行了模糊处理。supermicro作为此次巡展的赞助商,进一步彰显了其在ai行业中的重要地位。