1. 程式人生 > >cublasSgemm實現矩陣的相乘

cublasSgemm實現矩陣的相乘

       今天想呼叫cuda的庫函式實現矩陣的相乘,但是發現在cublasSgemm中矩陣是按照列主元素進行儲存的,也就是一列列的儲存的。這和c中一般按照行儲存完全相反,後面看了一個帖子http://cudazone.nvidia.cn/forum/forum.php?mod=viewthread&tid=6001&extra=&page=2講了一個方法,後面理了一下,具體分析如下:

比如,我們想求C=A*B這個矩陣運算,其中A={{1,1},{2,2},{3,3}};B={{1},{1}};C={{4},{5},{6}},而對於A、B、C進行一維陣列表示有A={1,1,2,2,3,3},B={1,1},C={4,5,6};這個在c/c++是和前面表示一樣,但是在cublasSgemm中就完全不對了,那麼這個一維的A其實表示的是{{1,2,3},{1,2,3}};可以看到兩個矩陣其實剛好是轉置關係

。那麼我們要求C=A*B,按照一維資料輸入的話結果A表示的是AT,B表示的是BT,所以我們要輸入的是AT和BT,這樣在公式中得到的才是A*B.假設這是得到矩陣C=A*B,但是C也是按列儲存的,我們要的是CT,而CT=BT*AT,而這裡的BT其實就是原矩陣B,AT其實就是原矩陣A。可見,我們通過交換AB的順序就可以得到按行儲存的C。

這裡還有一點,就是cublasSgemm的引數,把自己繞的有點暈。這裡我們輸入的是B*A即(2*1)*(3*2),但是真正在函式中執行的是BT*AT=CT(1*2)*(2*3=(1*3)).因此主要不要把引數搞錯了。。

而程式碼如下:

#include <cublas_v2.h> //cuda自帶庫函式
#include <helper_cuda.h>
#include <stdio.h>
int main(void)
{
	float alpha=1.0;
	float beta=0.0;
	float h_A[6]={1,1,2,2,3,3};
	float h_B[2]={1,1};
	float h_C[3];
	float *d_a,*d_b,*d_c;
	checkCudaErrors(cudaMalloc((void**)&d_a,6*sizeof(float)));
	checkCudaErrors(cudaMalloc((void**)&d_b,2*sizeof(float)));
	checkCudaErrors(cudaMalloc((void**)&d_c,3*sizeof(float)));
	checkCudaErrors(cudaMemcpy(d_a,&h_A,6*sizeof(float),cudaMemcpyHostToDevice));
	checkCudaErrors(cudaMemcpy(d_b,&h_B,2*sizeof(float),cudaMemcpyHostToDevice));
	checkCudaErrors(cudaMemset(d_c,0,3*sizeof(float)));
	cublasHandle_t handle;
	cublasCreate(&handle);
	cublasSgemm(handle,CUBLAS_OP_N,CUBLAS_OP_N,1,3,2,&alpha,d_b,1,d_a,2,&beta,d_c,1);
	checkCudaErrors(cudaMemcpy(h_C,d_c,3*sizeof(float),cudaMemcpyDeviceToHost));
	for(int i=0;i<3;i++)
	{
		printf("%f\n",h_C[i]);
	}
	printf("\n");
	return 0;
}