fv/html/clm4rm_8h_source.html

 #ifndef CLM4RM_H
 #define CLM4RM_H

 // Includes the normal OpenCL C header
 #if defined(__APPLE__) || defined(__MACOSX)
 # include <OpenCL/opencl.h>
 #else
 # include <CL/opencl.h>
 #endif

 //  host data structures from M4RI
 //  row-major 64-bit unsigned integers
 #if defined(__cplusplus) && !defined(_MSC_VER)
 extern "C" {
 #endif
 #include <m4ri/mzd.h>
 #if defined(__cplusplus) && !defined(_MSC_VER)
 }
 #endif

 #define clm4rm_radix 32

 #define IMAGE2D 0

 #define BUFFERED 1

 #define MAX_TILE_M 6

 typedef uint32_t gpuword;
 typedef size_t size2_t[2];

 #define CEILDIV(x,y)    (((x)+(y)-1)/(y))

 #define FLOOR(x,y)      ((y)*((x)/(y)))

 #define CEILCOLS(i)     CEILDIV(i,clm4rm_radix)

 #define POW2(i)         (((gpuword)1)<<(i))

 struct clmatrix_t {
     rci_t nrows;
     rci_t padded_rows;
     rci_t ncols;
     rci_t padded_cols;
     rci_t width;
     /*
      * Offset in words between rows.
      *
      * rowstride = ((width & 1) == 0) ? width : width + 1;
      * where width is the width of the underlying non-windowed matrix.
      * @deprecated not used anymore
      */
     //wi_t rowstride;

     gpuword* local_data;
     cl_mem data;

     //  TODO indicators for Triangular matrices ?
 };
 typedef struct clmatrix_t clmatrix_t;
 #define DATA_BYTES(m)       ( (m)->padded_rows * (m)->width * sizeof(gpuword) )

 int padded_rows(int nrows, int padding);

 gpuword*    copy_matrix_data(gpuword* dest, const mzd_t* src, int padded_rows);

 void        copy_back_matrix_data(mzd_t* dest, const gpuword* src, int padded_rows);

 extern cl_int clm4rm_error;

 extern size_t max_group_size;
 extern size_t max_items[3];

 extern size_t shared_mem_bytes;
 extern size_t shared_mem_words;
 extern size_t heap_size, allocated_size;
 extern size_t max_object_size;

 cl_int clm4rm_setup(const char* cl_kernel_directory,
                     cl_context ctx, cl_device_id device);
 void clm4rm_tear_down(cl_context ctx, cl_device_id device);

 #define MAX_EVENTS 6

 struct clm4rm_event_list {
     cl_uint count;
     cl_event events[MAX_EVENTS];
 };
 typedef struct clm4rm_event_list clm4rm_event_list;
 void init_events(clm4rm_event_list* list);
 void release_events(clm4rm_event_list* list);
 void merge_events(clm4rm_event_list* a, clm4rm_event_list* b);

 struct clm4rm_conditions {
     clm4rm_event_list event_lists [2];
     clm4rm_event_list *pre;
     clm4rm_event_list *post;
 };
 typedef struct clm4rm_conditions clm4rm_conditions;
 void init_conditions(clm4rm_conditions* cond);
 void release_conditions(clm4rm_conditions* cond);
 void join_conditions(clm4rm_conditions* cond);
 void merge_conditions(clm4rm_conditions* a, clm4rm_conditions* b);

 cl_uint pre_count(clm4rm_conditions* cond);
 cl_event* pre_events(clm4rm_conditions* cond);
 cl_event* push_event(clm4rm_conditions* cond);
 cl_event* pushed_event(clm4rm_conditions* cond);

 clmatrix_t* clm4rm_create(rci_t rows, rci_t cols, int rowpadding,
                     int read_only, cl_context ctx);
 clmatrix_t* clm4rm_copy(const mzd_t* host_matrix, int rowpadding,
                     int read_only, cl_context ctx);

 //? clmatrix_t* clm4rm_copy(clmatrix_t* gpu_matrix);

 void clm4rm_zero_fill(clmatrix_t* gpu_matrix,
                     cl_command_queue  queue, clm4rm_conditions* cond);

 void clm4rm_write(clmatrix_t* gpu_matrix, const mzd_t* host_matrix,
                     cl_command_queue queue, clm4rm_conditions* cond);


 mzd_t* clm4rm_read(mzd_t* host_matrix, clmatrix_t* gpu_matrix,
                     cl_command_queue queue, clm4rm_conditions* cond);

 void clm4rm_free(clmatrix_t* gpu_matrix);

 void clm4rm_mul(clmatrix_t* C, clmatrix_t* A, clmatrix_t* B,
                         cl_command_queue queue, clm4rm_conditions* cond);
 void clcubic_mul(clmatrix_t* C, clmatrix_t* A, clmatrix_t* B,
                         size2_t max_tile,
                         cl_command_queue queue, clm4rm_conditions* cond);

 void clutri_mul(clmatrix_t* C, clmatrix_t* A, clmatrix_t* B,
                         size2_t max_tile,
                         cl_command_queue queue, clm4rm_conditions* cond);

 /*
  * @brief C := C + A*B
  * @deprecated not used anymore
  */
 /*cl_event clm4rm_addmul(clmatrix_t* C, clmatrix_t* A, clmatrix_t* B,
                        cl_command_queue queue);*/

 void clm4rm_stack(clmatrix_t* C, clmatrix_t* A, clmatrix_t* B,
                       cl_command_queue queue, clm4rm_conditions* cond);

 void clm4rm_concat(clmatrix_t* C, clmatrix_t* A, clmatrix_t* B,
                        cl_command_queue queue, clm4rm_conditions* cond);

 void clm4rm_or(clmatrix_t* C, clmatrix_t* A, clmatrix_t* B,
                    cl_command_queue queue, clm4rm_conditions* cond);

 void clm4rm_and(clmatrix_t* C, clmatrix_t* A, clmatrix_t* B,
                     cl_command_queue queue, clm4rm_conditions* cond);
 //  TODO
 //cl_event clutri_and(clmatrix_t* C, clmatrix_t* A, clmatrix_t* B,
 //                   cl_command_queue queue, int wait_for_it);


 //  @returns
 cl_mem clm4rm_query_diagonal(clmatrix_t* M,
                             cl_context ctx, cl_command_queue queue,
                             clm4rm_conditions* cond);
 int clm4rm_query_result(cl_mem result_buffer,
                         cl_command_queue queue,
                         clm4rm_conditions* cond);

 /* @} */


 #endif //CLM4RM_H
clmatrix_t
OpenCL boolean matrix data structure. Data is arranged in 32 bit words.
Definition: clm4rm.h:98

clm4rm_conditions::event_lists
clm4rm_event_list event_lists[2]
< pre-conditions and post-conditions
Definition: clm4rm.h:229

heap_size
size_t heap_size
size of allocated memory in bytes
Definition: clm4rm.cpp:78

clm4rm_stack
void clm4rm_stack(clmatrix_t *C, clmatrix_t *A, clmatrix_t *B, cl_command_queue queue, clm4rm_conditions *cond)
concatenate two matrices
Definition: clm4rm_bitwise.cpp:123

clmatrix_t::padded_rows
rci_t padded_rows
Number of rows padded to a multiple of 32.
Definition: clm4rm.h:100

size2_t
size_t size2_t[2]
tow-dimensional size; used for various OpenCL parameters
Definition: clm4rm.h:67

push_event
cl_event * push_event(clm4rm_conditions *cond)
reserve one post-condition event
Definition: clm4rm.cpp:348

join_conditions
void join_conditions(clm4rm_conditions *cond)
called when the pre-conditions are met. The post-conditions become new pre-conditioins.
Definition: clm4rm.cpp:319

gpuword
unsigned int gpuword
a GPU word has 32 bits
Definition: clcubic_mul.cl:74

clm4rm_conditions::post
clm4rm_event_list * post
post-conditions: conditions after an operation finishes. post-conditions may act as pre-conditioins f...
Definition: clm4rm.h:234

allocated_size
size_t allocated_size
Definition: clm4rm.cpp:78

clm4rm_conditions
Manages OpenCL event dependencies; necessary when the queue is out-of-order; dependencies must be est...
Definition: clm4rm.h:227

clm4rm_concat
void clm4rm_concat(clmatrix_t *C, clmatrix_t *A, clmatrix_t *B, cl_command_queue queue, clm4rm_conditions *cond)
concatenate two matrices
Definition: clm4rm_bitwise.cpp:160

shared_mem_words
size_t shared_mem_words
size of shared memory in (32bit) words
Definition: clm4rm.cpp:77

clmatrix_t::ncols
rci_t ncols
Number of columns.
Definition: clm4rm.h:101

clm4rm_tear_down
void clm4rm_tear_down(cl_context ctx, cl_device_id device)
release OpenCL resources
Definition: clm4rm.cpp:146

clcubic_mul
void clcubic_mul(clmatrix_t *C, clmatrix_t *A, clmatrix_t *B, size2_t max_tile, cl_command_queue queue, clm4rm_conditions *cond)
Boolean matrix multiplication on the GPU using nested loops. C := A*B.
Definition: clm4rm_multiplication.cpp:132

clm4rm_free
void clm4rm_free(clmatrix_t *gpu_matrix)
release memory (CPU and GPU)
Definition: clm4rm_bitwise.cpp:112

max_group_size
size_t max_group_size
max. size of a work group
Definition: clm4rm.cpp:74

MAX_EVENTS
#define MAX_EVENTS
Definition: clm4rm.h:194

clm4rm_setup
cl_int clm4rm_setup(const char *cl_kernel_directory, cl_context ctx, cl_device_id device)
load OpenCL kernels and set up parameters
Definition: clm4rm.cpp:84

clm4rm_copy
clmatrix_t * clm4rm_copy(const mzd_t *host_matrix, int rowpadding, int read_only, cl_context ctx)
ceate a copy from a matrix in M4RI format
Definition: clm4rm.cpp:254

init_conditions
void init_conditions(clm4rm_conditions *cond)
reset conditions list
Definition: clm4rm.cpp:284

pre_events
cl_event * pre_events(clm4rm_conditions *cond)
Definition: clm4rm.cpp:338

merge_events
void merge_events(clm4rm_event_list *a, clm4rm_event_list *b)
append tow lists
Definition: clm4rm.cpp:303

gpuword
uint32_t gpuword
word size of GPU data (32 bits)
Definition: clm4rm.h:65

shared_mem_bytes
size_t shared_mem_bytes
size of shared memory in bytes
Definition: clm4rm.cpp:77

release_conditions
void release_conditions(clm4rm_conditions *cond)
release conditions list
Definition: clm4rm.cpp:297

clm4rm_event_list
a list of cl_events; used by clm4rm_conditions to keep track of schedules jobs in the OpenCL queue.
Definition: clm4rm.h:200

clm4rm_error
cl_int clm4rm_error
latest OpenCL result code. CL_SUCCESS indicates no error.
Definition: clm4rm.cpp:9

clm4rm_zero_fill
void clm4rm_zero_fill(clmatrix_t *gpu_matrix, cl_command_queue queue, clm4rm_conditions *cond)
Fill a matrix with zero data. The operation is scheduled for asynchronous execution of the GPU....
Definition: clm4rm.cpp:364

pre_count
cl_uint pre_count(clm4rm_conditions *cond)
Definition: clm4rm.cpp:331

copy_back_matrix_data
void copy_back_matrix_data(mzd_t *dest, const gpuword *src, int padded_rows)
copy back a colum–major matrix
Definition: clm4rm.cpp:460

clmatrix_t::width
rci_t width
Number of words with valid bits: width = ceil(ncols / m4ri_radix) */.
Definition: clm4rm.h:103

max_items
size_t max_items[3]
max. number of items in each dimension
Definition: clm4rm.cpp:75

clm4rm_and
void clm4rm_and(clmatrix_t *C, clmatrix_t *A, clmatrix_t *B, cl_command_queue queue, clm4rm_conditions *cond)
perform element-wise logical conjunction (AND). For each entry, compute C_ij := A_ij & B_ij....
Definition: clm4rm_bitwise.cpp:45

clmatrix_t::data
cl_mem data
handle to GPU data (32-bit unsigned integers)
Definition: clm4rm.h:114

clm4rm_write
void clm4rm_write(clmatrix_t *gpu_matrix, const mzd_t *host_matrix, cl_command_queue queue, clm4rm_conditions *cond)
Copy matrix data from host memory to GPU. The operation is scheduled for asynchronous execution of th...
Definition: clm4rm.cpp:382

merge_conditions
void merge_conditions(clm4rm_conditions *a, clm4rm_conditions *b)
merge pre-conditions into one list
Definition: clm4rm.cpp:314

padded_rows
int padded_rows(int nrows, int padding)
calculate the number of padded rows
Definition: clm4rm.cpp:185

clm4rm_conditions::pre
clm4rm_event_list * pre
pre-conditions: an operation is scheduled when all pre-conditions are met
Definition: clm4rm.h:231

clm4rm_mul
void clm4rm_mul(clmatrix_t *C, clmatrix_t *A, clmatrix_t *B, cl_command_queue queue, clm4rm_conditions *cond)
Boolean matrix multiplication on the GPU using the method of the Four Russians. C := A * B.
Definition: clm4rm_multiplication.cpp:30

clm4rm_create
clmatrix_t * clm4rm_create(rci_t rows, rci_t cols, int rowpadding, int read_only, cl_context ctx)
create an empty matrix
Definition: clm4rm.cpp:233

clmatrix_t::nrows
rci_t nrows
Number of rows.
Definition: clm4rm.h:99

clm4rm_read
mzd_t * clm4rm_read(mzd_t *host_matrix, clmatrix_t *gpu_matrix, cl_command_queue queue, clm4rm_conditions *cond)
copy matrix from gpu memory to host
Definition: clm4rm.cpp:406

clm4rm_event_list::count
cl_uint count
current number of events
Definition: clm4rm.h:201

init_events
void init_events(clm4rm_event_list *list)
reset events list
Definition: clm4rm.cpp:277

clmatrix_t::local_data
gpuword * local_data
matrix data in CPU memory
Definition: clm4rm.h:113

pushed_event
cl_event * pushed_event(clm4rm_conditions *cond)
Definition: clm4rm.cpp:357

clmatrix_t::padded_cols
rci_t padded_cols
Number of columns padded to a multiple of 64.
Definition: clm4rm.h:102

release_events
void release_events(clm4rm_event_list *list)
release events
Definition: clm4rm.cpp:290

max_object_size
size_t max_object_size
max. object allocation size
Definition: clm4rm.cpp:79

clm4rm_query_diagonal
cl_mem clm4rm_query_diagonal(clmatrix_t *M, cl_context ctx, cl_command_queue queue, clm4rm_conditions *cond)
find a non-zero entry on the diagonal of a matrix. Return the column/row of the first non-zero entry,...
Definition: clm4rm_bitwise.cpp:67

clm4rm_or
void clm4rm_or(clmatrix_t *C, clmatrix_t *A, clmatrix_t *B, cl_command_queue queue, clm4rm_conditions *cond)
perform element-wise logical disjunction (OR)
Definition: clm4rm_bitwise.cpp:23

clutri_mul
void clutri_mul(clmatrix_t *C, clmatrix_t *A, clmatrix_t *B, size2_t max_tile, cl_command_queue queue, clm4rm_conditions *cond)
Boolean matrix multiplication on the GPU using nested loops. C := A*B Assumes matrixes to be upper tr...
Definition: clm4rm_multiplication.cpp:339

copy_matrix_data
gpuword * copy_matrix_data(gpuword *dest, const mzd_t *src, int padded_rows)
create a column-major copy from an mzd_t matrix
Definition: clm4rm.cpp:436

clm4rm_query_result
int clm4rm_query_result(cl_mem result_buffer, cl_command_queue queue, clm4rm_conditions *cond)
examine the result of a previous call to clm4rm_query_diagonal
Definition: clm4rm_bitwise.cpp:94

clm4rm_event_list::events
cl_event events[MAX_EVENTS]
array of OpenCL events
Definition: clm4rm.h:202