示做到这样的速度前提是用对了架构,他还以NVFP4精度做了例子对比,用这种精度做一次乘加运算需要消耗10飞焦的能量,但HBM4从外部读取数据大约消耗15皮焦能量,差距是1000倍以上。 改用SRAM缓存的话,读取数据的能耗也会变成10飞焦了,跟计算过程的消耗一个级别。 不过SRAM也不是没代价的,芯片成
当前文章:http://m8w4za2.kuailianvpnf.com.cn/kc3/4obh63.html
发布时间:02:40:24