fv/html/concurrency_8cpp_source.html

 #include <frechet/app/concurrency.h>
 //#include <poly/parallel.h>
 #include <stack>
 #include <iostream>
 #include <iomanip>
 #include <algorithm>
 #include <assert.h>

 #ifndef UNIT_TEST
 #include <QCoreApplication>
 #include <QDir>
 #include <qdebug.h>
 #endif

 #include <atomic>
 #ifdef __GNUC__
 #include <cpuid.h>
 //#include <boost/thread.hpp>
 #endif

 using namespace frechet;
 using namespace app;

 ConcurrencyContext::ConcurrencyContext()
 : tbb_context(nullptr), num_threads(0),num_cores(0)
 {
     num_cores = tbb::task_scheduler_init::default_num_threads();
 }

 ConcurrencyContext::~ConcurrencyContext()
 {
     close();
 }


 ConcurrencyContext ConcurrencyContext::instance;

 void ConcurrencyContext::setup(int max_threads)
 {
     assert(tbb_context == nullptr);
     num_threads = (max_threads >= 1) ? max_threads : (num_cores/*/2?*/);
     //  TODO better num_cores / 2 ?
     tbb_context = new tbb::task_scheduler_init(num_threads);
 }

 int ConcurrencyContext::countThreads() {
     return instance.num_threads;
 }

 int ConcurrencyContext::countCores() {
     return instance.num_cores;
 }

 tbb::tbb_thread::id ConcurrencyContext::currentThread() {
     return tbb::this_tbb_thread::get_id();
 }

 bool ConcurrencyContext::hasGpuSupport() {
     return instance.queue != nullptr;
 }

 std::string ConcurrencyContext::gpuName() {
     return instance.device_name;
 }

 cl_uint ConcurrencyContext::countGpuUnits() {
     return instance.gpu_units;
 }

 cl_context ConcurrencyContext::clContext() {
     assert(instance.ctx != nullptr);
     return instance.ctx;
 }

 cl_command_queue ConcurrencyContext::clQueue() {
     assert(instance.queue != nullptr);
     return instance.queue;
 }

 void ConcurrencyContext::maxMaxtrixTile(size2_t& result) {
     result[0] = instance.max_tile[0];
     result[1] = instance.max_tile[1];
 }


 bool ConcurrencyContext::setupGpu(size2_t amax_tile)
 {
     /* Setup OpenCL environment. */
     platform = nullptr;

     cl_platform_id platforms[4];
     cl_uint num_platforms;
     clerr = clGetPlatformIDs(4, platforms, &num_platforms);
     for (int plf = 0; plf < num_platforms; ++plf)
     {
         clerr = clGetDeviceIDs(platforms[plf], CL_DEVICE_TYPE_GPU, 1, &device, NULL);
         if (clerr != CL_SUCCESS) continue;

         char name[1024];
         char version[1024];
         char profile[1024];
         char extensions[1024];
         clerr = clGetPlatformInfo(platforms[plf], CL_PLATFORM_NAME, 1024, name, NULL);
         clerr = clGetPlatformInfo(platforms[plf], CL_PLATFORM_VERSION, 1024, version, NULL);
         clerr = clGetPlatformInfo(platforms[plf], CL_PLATFORM_PROFILE, 1024, profile, NULL);
         clerr = clGetPlatformInfo(platforms[plf], CL_PLATFORM_EXTENSIONS, 1024, extensions, NULL);

 /*      std::cout << "Platform " << plf << std::endl
             << platforms[plf] << " = " << name << " " << version << ", "
             << profile << ","
             << extensions << std::endl << std::endl;
 */
         platform = platforms[plf];
         cl_context_properties props[3] = { CL_CONTEXT_PLATFORM, 0, 0 };
         props[1] = (cl_context_properties)platform;

         ctx = clCreateContext(props, 1, &device, NULL, NULL, &clerr);
         queue = clCreateCommandQueue(ctx, device, CL_QUEUE_OUT_OF_ORDER_EXEC_MODE_ENABLE, &clerr);
         //  Important: Out-of-Order queue
         //  to imposed a specific order on scheduled kernels, use cl_events and barriers
         clGetDeviceInfo(device, CL_DEVICE_NAME, 1024, &name, NULL);
         clGetDeviceInfo(device, CL_DEVICE_MAX_COMPUTE_UNITS, sizeof(cl_uint), &gpu_units, NULL);
         device_name = name;

         //  Load Kernels
 #ifndef UNIT_TEST
         const char* kernelDir = findKernelDirectory("clm4rm");
 #else
         //  Unit Test environment w/out QT
         const char* kernelDir = "src/clm4rm";
 #endif
         clerr = clm4rm_setup(kernelDir, ctx, device);
         assert(clerr == CL_SUCCESS);

         //  max. tile size fo cubic multiplication
         // tile_n = number of compute units; limited by max. units per group
         // tile_m = number of row/cols per compute unit; limited by available shared memory
         //      for best performance, we should allow >= 2 groups per shared memory area
         // may be overridden by command line
         // @see clcubic_mul()
         if (amax_tile[0]<=0)
             max_tile[0] = sqrt(max_group_size/32);
         else
             max_tile[0] = amax_tile[0];
         if (amax_tile[1]<=0)
             max_tile[1] = (sqrt(1 + 17*shared_mem_words)-1)/(68*max_tile[0]);
         else
             max_tile[1] = amax_tile[1];
         max_tile[1] = std::min((size_t)MAX_TILE_M,max_tile[1]);
     }
     return hasGpuSupport();
 }

 #ifndef UNIT_TEST
 QByteArray kernelDirectory;

 const char* ConcurrencyContext::findKernelDirectory(const char* dirname)
 {
     QStringList prefixes = { "Resources","src","rsrc" };
     QString dirstring(dirname);
     //  Look for folder "Resources/clm4rm" or "src/clm4rm" or "rsrc/clm4rm"
     QDir dir = QCoreApplication::applicationDirPath();
     for(;; dir.cdUp()) {
         for(QString prefix : prefixes)
         {
             QString subdir = prefix+"/"+dirstring;
             if (dir.exists(subdir)) {
                 kernelDirectory = dir.absoluteFilePath(subdir).toLocal8Bit();
                 return kernelDirectory.constData();
             }
         }
     }
 }
 #endif // QT

 void ConcurrencyContext::close()
 {
     delete tbb_context;
     tbb_context=nullptr;
     //  release OpenCL stuff
     if (queue)
         clReleaseCommandQueue(queue);
     if (hasGpuSupport())
         clm4rm_tear_down(ctx,device);
 }

 void ConcurrencyContext::cpuid(int leaf, int level, unsigned int regs[4])
 {
 #ifdef _MSC_VER
     __cpuidex((int*)regs, leaf, level);
 #endif
 #ifdef __GNUC__
     __cpuid_count(leaf, level, regs[0], regs[1], regs[2], regs[3]);
 #endif
 }

 void ConcurrencyContext::cpuid(int leaf, unsigned int regs[4])
 {
 #ifdef _MSC_VER
     __cpuid((int*)regs, leaf);
 #endif
 #ifdef __GNUC__
     __cpuid(leaf, regs[0], regs[1], regs[2], regs[3]);
 #endif
 }

 int ConcurrencyContext::cacheSize(int level)
 {
     unsigned int E[4];
     cpuid(4,level,E);

     // = (Ways + 1) * (Partitions + 1) * (Line_Size + 1) * (Sets + 1)
     // = (EBX[31:22] + 1) * (EBX[21:12] + 1) * (EBX[11:0] + 1) * (ECX + 1)

     unsigned int EBX = E[1];
     unsigned int ECX = E[2];
     unsigned int Ways = (EBX >> 22) & 0x3ff;
     unsigned int Partitions = (EBX >> 12) & 0x3ff;
     unsigned int Line_Size = EBX & 0x0fff;
     unsigned int Sets = ECX;
     return (Ways + 1) * (Partitions + 1) * (Line_Size + 1) * (Sets + 1);
 }

 std::stack<time_point> time_stack;


 void frechet::app::pushTimer()
 {
     time_stack.push(Clock::now());
 }

 time_point frechet::app::printTimer(std::string label, bool do_print)
 {
     long microsecs;
     time_point t1;
     time_point t2 = Clock::now();

     if (time_stack.empty()) {
         pushTimer();
     }
     else {
         t1 = time_stack.top();
     }

     microsecs = std::chrono::duration_cast<std::chrono::microseconds>(t2-t1).count();

     if (do_print) {
         std::string spaces(std::max<int>(0, 12 - label.length()), ' ');
         std::cout << std::fixed << std::setprecision(3)
             << "    " << label << ": "<< spaces
                                //<< microsecs << " µs" << " = "
             << (((double)microsecs) / 1e3) << " ms" << " = "
             << (((double)microsecs) / 1e6) << " s"
             << std::endl;
     }
     return t2;
 }

 #ifdef Q_DEBUG
 # define DO_DEBUG 1
 #else
 # define DO_DEBUG 0
 #endif

 time_point frechet::app::printDebugTimer(std::string label)
 {
     return printTimer(label, DO_DEBUG);
 }

 time_point frechet::app::popTimer(std::string label, bool do_print)
 {
     time_point t = printTimer(label,do_print);
     time_stack.pop();
     return t;
 }

 time_point frechet::app::popDebugTimer(std::string label)
 {
     return popTimer(label, DO_DEBUG);
 }
frechet::app::ConcurrencyContext
a singleton class managing concurrency settings for the application.
Definition: concurrency.h:22

frechet::app::ConcurrencyContext::gpu_units
cl_uint gpu_units
number of GPU units (if known)
Definition: concurrency.h:51

frechet::app::printTimer
time_point printTimer(std::string label, bool do_print=true)
clock benchmark
Definition: concurrency.cpp:233

size2_t
size_t size2_t[2]
tow-dimensional size; used for various OpenCL parameters
Definition: clm4rm.h:67

frechet::app::ConcurrencyContext::queue
cl_command_queue queue
OpenCL command queue.
Definition: concurrency.h:42

frechet::app::ConcurrencyContext::cpuid
static void cpuid(int leaf, unsigned int regs[4])
retrieve CPU factory info
Definition: concurrency.cpp:198

frechet::app::ConcurrencyContext::currentThread
static tbb::tbb_thread::id currentThread()
Definition: concurrency.cpp:55

frechet
global definitions for all algorithms.

frechet::app::ConcurrencyContext::num_threads
int num_threads
number of logical threads (always known)
Definition: concurrency.h:33

frechet::app::ConcurrencyContext::countThreads
static int countThreads()
Definition: concurrency.cpp:47

frechet::app::ConcurrencyContext::findKernelDirectory
static const char * findKernelDirectory(const char *subdir)
look up directory containing OpenCL source files ("kernels")
Definition: concurrency.cpp:158

frechet::app::ConcurrencyContext::maxMaxtrixTile
static void maxMaxtrixTile(size2_t &)
set tile size for cubic matrix multiplication. Tiles adapt to local memory and/or compute units....
Definition: concurrency.cpp:81

frechet::app::time_point
Clock::time_point time_point
timestamp with high resolution
Definition: concurrency.h:136

frechet::app::ConcurrencyContext::device_name
std::string device_name
name of OpenCL device
Definition: concurrency.h:49

frechet::app::ConcurrencyContext::num_cores
int num_cores
number of physical cores (if known)
Definition: concurrency.h:31

frechet::app::ConcurrencyContext::device
cl_device_id device
OpenCL device.
Definition: concurrency.h:40

frechet::app::ConcurrencyContext::tbb_context
tbb::task_scheduler_init * tbb_context
controls the number of parallel threads that are used by TBB functions.
Definition: concurrency.h:29

frechet::numeric::sqrt
Float sqrt(const Float &x)
square-root function template for floating point types

clm4rm_setup
cl_int clm4rm_setup(const char *cl_kernel_directory, cl_context ctx, cl_device_id device)
load OpenCL kernels and set up parameters
Definition: clm4rm.cpp:84

clm4rm_tear_down
void clm4rm_tear_down(cl_context ctx, cl_device_id device)
release OpenCL resources
Definition: clm4rm.cpp:146

frechet::app::ConcurrencyContext::platform
cl_platform_id platform
OpenCL platform identifier.
Definition: concurrency.h:36

shared_mem_words
size_t shared_mem_words
size of shared memory in (32bit) words
Definition: clm4rm.cpp:77

frechet::app::printDebugTimer
time_point printDebugTimer(std::string label)
clock benchmark and print elapsed time
Definition: concurrency.cpp:266

frechet::app::ConcurrencyContext::hasGpuSupport
static bool hasGpuSupport()
Definition: concurrency.cpp:59

frechet::app::ConcurrencyContext::instance
static ConcurrencyContext instance
singleton instance
Definition: concurrency.h:61

frechet::app::ConcurrencyContext::~ConcurrencyContext
~ConcurrencyContext()
destructor; releases all OpenCL resources
Definition: concurrency.cpp:31

DO_DEBUG
#define DO_DEBUG
Definition: concurrency.cpp:263

MAX_TILE_M
#define MAX_TILE_M
Definition: clm4rm.h:62

frechet::app::popTimer
time_point popTimer(std::string label, bool do_print=true)
clock benchmark and remove from stack
Definition: concurrency.cpp:271

frechet::app::ConcurrencyContext::setupGpu
bool setupGpu(size2_t max_tile)
set up OpenCL context
Definition: concurrency.cpp:87

frechet::app::ConcurrencyContext::gpuName
static std::string gpuName()
Definition: concurrency.cpp:63

frechet::app::popDebugTimer
time_point popDebugTimer(std::string label)
clock benchmark and remove from stack
Definition: concurrency.cpp:278

frechet::app::ConcurrencyContext::max_tile
size2_t max_tile
maximum tile size for Boolean matrix multiplication
Definition: concurrency.h:53

frechet::numeric::min
double min(double a, double b)
minimum function with checks for NAN
Definition: numeric.h:222

frechet::app::ConcurrencyContext::ConcurrencyContext
ConcurrencyContext()
default constructor; does no initialisation
Definition: concurrency.cpp:25

frechet::app::ConcurrencyContext::close
void close()
release all OpenCL resources.
Definition: concurrency.cpp:177

max_group_size
size_t max_group_size
max. size of a work group
Definition: clm4rm.cpp:74

frechet::app::ConcurrencyContext::ctx
cl_context ctx
OpenCL platform identifier.
Definition: concurrency.h:38

frechet::app::ConcurrencyContext::cacheSize
static int cacheSize(int level)
size of CPU cache memory
Definition: concurrency.cpp:208

frechet::app::ConcurrencyContext::clContext
static cl_context clContext()
Definition: concurrency.cpp:71

frechet::app::ConcurrencyContext::countGpuUnits
static cl_uint countGpuUnits()
Definition: concurrency.cpp:67

concurrency.h

frechet::app::ConcurrencyContext::countCores
static int countCores()
Definition: concurrency.cpp:51

frechet::app::ConcurrencyContext::clQueue
static cl_command_queue clQueue()
Definition: concurrency.cpp:76

kernelDirectory
QByteArray kernelDirectory
Definition: concurrency.cpp:156

frechet::app::pushTimer
void pushTimer()
start a new benchmark timer and push it to stack
Definition: concurrency.cpp:228

frechet::app::ConcurrencyContext::setup
void setup(int max_threads)
set up TBB thread count
Definition: concurrency.cpp:39

frechet::app::ConcurrencyContext::clerr
cl_int clerr
last OpenCL return code
Definition: concurrency.h:46

time_stack
std::stack< time_point > time_stack
Definition: concurrency.cpp:225