架构是这样的:
python-----[call]----->tensor flow for gpu----[call]---->CUDA SDK CUDA-----
[call]---> gpu binary to execute the job or something.我已经尝试了nvvp直接从python脚本进行分析。结果是耗费了我4.6G的内存。nvvp gui冻结了。所以基本上我不知道该怎么做。
有没有可能让我知道整个程序调用了哪个CUDA API?这个问题不仅仅是tensorflow的问题,我需要一个通用的方法来解决这个问题,这样我以后就可以测试所有相关的API来决定哪个GPU适合我们的程序。
https://stackoverflow.com/questions/41359014
复制相似问题