最近几天都在优化代码,手工的优化loop unrolling,branch elimination; 加入__builtin_expect之类的编译指导语句等等。今天回家前4个SPE上的performance到了20Gflops。和以前simulator上的差不多,不过之前的simulator上memory system不是cycle accurate的,所以现在的code又优化了。
不过其实这也只有20%的peak performance...
先不管了,做完这部分,开完会再说吧。
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment