77280

THREAD EFFICENCY ON SHARED MEMORY SYSTEMS

Научная статья

Информатика, кибернетика и программирование

Bkhterev IMM UrB RS It is trdition to think tht computtion decomposition into tsks executed in prllel on the shred memory systems is more effective with threds but not with processes. Usully this point of view grounds on tht the switching cpu execution context between processes is more expensive thn the switching between threds. If it is specified then it is execution context ssocited wit TLB Trnsltion Lookside Buffer which should be reset nd filled with new vlues when the processor is being switched between execution of different...

Английский

2015-02-02

22.5 KB

0 чел.

THREAD EFFICENCY ON SHARED MEMORY SYSTEMS

M.O. Bakhterev

IMM UrB RAS

It is tradition to think that computation decomposition into tasks executed in parallel on the shared memory systems is more effective with threads, but not with processes. Usually this point of view grounds on that the switching cpu execution context between processes is more expensive than the switching between threads. But telling about such an expenses they rarely specify what exactly this execution context is. If it is specified, then it is execution context associated wit TLB (Translation Lookaside Buffer), which should be reset and filled with new values when the processor is being switched between execution of different processes, and which may be left unmodified when being switched between threads of the same process. However, such reasoning does not take following into account.

1. The majority of processor architectures with virtual memory support allows to store in TLB translations for different processes. It is achieved with support of segmentation or address space management logic. And so was SPARC processors, in operating system for which (SunOS 4.x) for the first time there was introduced support for modern version of threads. Most likely, SUN Microsystems suggested thread support indeed to solve the problem with excessively high overhead of switching execution context between processes. But that context was associated not with TLB, but with processor's caches, which was virtually addressed. Such a caches are rarely found in modern processors.

2. TLB capacity is limited. So the processing of large volumes of data, which usually emerge in supercomputations, demands intensive updates of TLB during calculation in the case of threads usage too.

3. A common address space, assumed by the threads execution semantic, costs «nothing» only when threads are executed on uniprocessor (one TLB). When threads are executed on the set of many processors, for every operation with address space: memory allocation and freeing, stack expansion -- the coordinated TLB management on all processors, involved in computation, is needed. And that management demands execution of critical sections and even threads interruption in some cases (for instance, memory deallocation). Besides, additional overhead may be connected with common address space structure complexity. Even the program does not assume shared access to some areas of that space, their allocation and release should be coordinated between threads. Each allocation herewith complicates the space structure and increases execution time of the subsequent operations with memory.

Thus, there are two overhead kinds associated with threads and processes. From processes' side: greater operations with TLB intensity. From threads': additional complexity of common address space support. It is not clear a priori, which mathematical model allows to decide, which kind of overhead is less expensive. So we compared this overheads experimentally. For that purpose there were written multithreaded and multiprocessed versions of programs for four different computational loads: the multiplication of row-stored and tile-stored matricies, memory management, calculation with intensive data exchange. Our results shows, that in many cases threads are not only less effective tool for computation decomposition into tasks, but are significantly lose this efficiency to processes.


 

А также другие работы, которые могут Вас заинтересовать

51525. ВИЗУАЛИЗАЦИЯ РЕШЕНИЙ МОДЕЛЕЙ ТЕРМИЧЕСКОЙ ДИФФУЗИИ 194 KB
  Для одномерного случая если глубина диффузии значительно меньше поперечных размеров площади на которой она происходит первый закон Фика имеет вид: где J x плотность потока примеси число атомов вещества переносимых в единицу времени через единичную площадь Nx концентрация примесей D=D0expE kT коэффициент диффузии; D0 постоянная диффузии E энергия активации. Согласно второму закону Фика скорость изменения числа примесных атомов в единичном объеме равна разности между потоками примеси входящих и выходящих из этого...
51526. Диференціальні рівняння у частинних похідних 52.85 KB
  Проведемо дискретизацію крайових умов отримаємо: Початкову матрицю обираємо як нульову. На кожній ітерації перераховуємо значення елементів матриці за попередніми формулами. Умова завершення
51528. Удельное сопротивление проводника 222 KB
  Цель работы: определение удельного сопротивления нихромовой проволоки изучение методов обработки результатов эксперимента. Приборы и принадлежности: прибор для измерения удельного сопротивления резистивного провода F PM01. Единица удельного сопротивления есть Омметр.
51530. Определить горизонтальную составляющую индукции магнитного поля Земли 532.5 KB
  В этом случае к генератору подсоединяются последовательно только амперметр и магазин сопротивлений Rдоб. Установили на магазине сопротивлений какоелибо значение Rдоб например Rдоб = 3000 Ом и получите на экране осциллографа устойчивую картину изображенную на рис. Измерили величину =0 и определили разность фаз колебаний входного напряжения и напряжения на активном сопротивлении Rдоб φ=0 А=04 В. Δа=0049 кОм Rдоб=34 кОм ΔR=003 кОм χ2=356.
51531. ИЗУЧЕНИЕ ЗАКОНОВ ПЕРЕМЕННОГО ТОКА 3.44 MB
  При этом в цепи возникает переменный электрический ток. С помощью переключателя К катушка индуктивности может быть отключена от цепи. Замыкание кнопочного переключателя К4 приводит к отключению емкости от цепи. Для определения действующего значения силы тока в цепи используется вольтметр универсальный цифровой на котором должен быть установлен режим измерения силы переменного тока m.
51532. ИЗУЧЕНИЕ СЛОЖЕНИЯ ГАРМОНИЧЕСКИХ КОЛЕБАНИЙ С ПОМОЩЬЮ ОСЦИЛЛОГРАФА 2.12 MB
  Устройство и принцип работы электронного осциллографа рассмотрены в Приложении 1. Электронный осциллограф С1137 может работать в двух основных режимах: а Исследуемый сигнал подается на вход канала вертикального отклонения осциллографа вход I или II а на вход канала горизонтального отклонения подается пилообразное напряжение с генератора развертки встроенного в осциллограф. При этом на экране осциллографа наблюдается график зависимости исследуемого сигнала от времени.
51533. Определение длины электромагнитной волны по методу Лехера 72 KB
  Электромагнитные волны можно пролучить и в двухпроводной линии если ее подключить к высокочастотному источнику тока рис. При малой частоте генератора тока смещения можно пренебречь по сравнению с токами проводимости и в этом случае электромагнитные явления существенно зависят от сопротивлений линии т. Пусть в точке О двухпроводной линии рис. Электрическое поле будет распространяться вдоль линии и в произвольной точке D1 отстоящей от О на ростоянии х также возникнут гармонические колебания вектора .