47601

Застосування Grid технологій в науці і освіті

Книга

Информатика, кибернетика и программирование

Застосування Grid технологіЙ В науЦі і освітІ Роздавальний матеріал до вивчення курсу для студентів спеціаності “Інформаційні технології проектування Київ 2009 ВСТУП В основі технології Grid лежить об'єднання ресурсів шляхом створення комп'ютерної інфраструктури нового типу що забезпечує глобальну інтеграцію інформаційних і обчислювальних ресурсів на основі мережних технологій і спеціального програмного забезпечення проміжного рівня між базовим і...

Украинкский

2013-12-01

2.57 MB

55 чел.

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

НАЦІОНАЛЬНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ УКРАЇНИ

«КИЇВСЬКИЙ ПОЛІТЕХНІЧНИЙ ІНСТИТУТ»

Інститут  прикладного системного аналізу

УДК 004.75

                                             Петренко А.І.

Застосування Grid технологіЙ

В науЦі і освітІ

Роздавальний матеріал до вивчення курсу для студентів спеціаності “Інформаційні технології проектування»

Київ

2009


                                            ВСТУП

   В основі технології Grid лежить об'єднання ресурсів шляхом створення комп'ютерної інфраструктури нового типу, що забезпечує глобальну інтеграцію інформаційних і обчислювальних ресурсів на основі мережних технологій і спеціального програмного забезпечення проміжного рівня (між базовим і прикладним ПО), а також набору стандартизованих служб для забезпечення надійного спільного доступу до географічно розподілених інформаційних і обчислювальних ресурсів: окремим комп'ютерам, кластерам, сховищам інформації і мережам. Застосування технології Grid в різних галузях  забезпечує новий якісний рівень, а іноді і реалізує принципово новий підхід в обробці величезних об'ємів експериментальних даних, забезпечує моделювання складних процесів, візуалізацію великих наборів даних, створення складних бізнес - додатків з великими об'ємами обчислень.

Цей роздавальний матеріал є логічним доповненням навчального посібника «Вступ до Grid- технологій в науці і освіті» (Київ: НТУУ «КПІ», 2008) і місмить  детальний аналіз застосувань технологій Grid при вирішенні прикладних наукових і технічних проблемв фундаментальних науках, промисловості та бізнесі, поміж іншого – інженерне застосування Grid. Усі ці проблеми є дуже важливими і актуальними у зв’язку з розгортанням в Україні широкомасштабної програми по розвитку національної інфраструктури Grid і впровадженні Grid , технологій.

Укладач:       А.І.Петренко, д-р техн.наук, проф.

Рецензент:    С.С. Забара, д-р техн.наук, проф.

Відповідальний редактор:  М.В. Синьков , д-р техн.наук, проф.

                                         ЗМІСТ

Вступ                                                                                                             2

Розділ 1   Grid – минуле, сьогодення і майбутнє                                   5

1.1. Концепція GRID                                                                             5        

1.2. Витоки GRID                                                                                10             

1.3. ЕВОЛЮЦІЯ GRID: ПЕРШЕ ПОКОЛІННЯ (1990-1996 роки)13        

1.3.1.FAFNER                                                                                  15       

1.3.2. I-WAY                                                                                    17            

1.4. ЕВОЛЮЦІЯ GRID: ДРУГЕ ПОКОЛІННЯ (1997- 2003 роки) 19  

1.4.1. Основні технології другого покоління                               21

1.4.1.1. Globus                                                                            22

1.4.1.2. Legion                                                                            24

1.4.1.3. Розподілені об'єктні системи                                      25

1.4.1.4. Java                                                                                25

1.4.1.5. Jini і протокол RMI                                                      26

1.4.1.6. The Common Component Architecture Forum             27

1.4.1.7. Посередники та планувальники ресурсів Grid          28

1.4.2. Однорангові обчислення                                                     32

1.5. ЕВОЛЮЦІЯ GRID: ТРЕТЄ ПОКОЛІННЯ для е-Науки          33

      (з 2004 року)                    

1.5.1. Сервісно-орієнтована архітектура                                      40

1.5.2. Архітектура OGSA                                                               42

1.5.3. Агенти                                                                                    44

1.5.4. Web як інформаційна інфраструктура Grid                       47

1.6. ЕВОЛЮЦІЯ GRID: ОБРІЇ НАСТУПНИХ ПОКОЛІНЬ           49

Розділ 2.  Прикладні застосування Grid                                               56

2.1. е-Наука і Grid проекти                                                                 56

2.2. Grid - технології в астрономії та астрофізиці                            62

2.2.1. Віртуальна обсерваторія                                                      63

2.2.2. Об'єднання та стандартизація астрономічних даних        65

2.2.3. Обробка зображень                                                              66

2.3. Grid в екології та метеорології                                                    69

2.3.1. Метеорологічні прогнози засобами Grid                           69

2.4. Grid в біоінформатиці                                                                  72

2.4.1.Сектор медичних зображень                                                74

2.4.2. Сектор біоінформатики                                                        77

2.4.3. Сектор розробки ліків                                                          78

2.4.4. Програма  IBM World Community Grid                              80

2.5. Додатки для наук про Землю                                                      83

2.6.  Grid в комбінаційній хімії                                                          84

2.6.1. Підхід «розділення/змішування» в комбінаційній хімії   84

2.6.2. Проект з комбінаційної хімії COMB-e-CHEM                  86

2.6.3. Chemistry Grid і його застосування для передбачення     89

              повітряного забруднення     

2.7.  Grid в фізиці високих енергій                                                    91

2.7.1. Основні Grid проекти з фізики високих енергій (ФВЕ)   95

2.7.2. Взаємодія між Grid проектами в галузі ФВЕ                    99

2.8. Grid в соціальних науках і бізнесі                                            102

2.9.Grid у інженерії                                                                           111

2.9.1. Проект NASA IPG                                                              111

2.9.2. Проект GEODISЕ                                                                113

2.9.3. Проект DAME                                                                     115

2.9.4. Проект  CAD-Grid                                                               116

2.9.4.1. Інформаційна система CAD-Grid: CGRIS                118

2.10. Міждисциплінарні Grid проекти                                             121

2.10.1. Проект CrossGrid                                                              121

2.10.2. Проект EGEE                                                                    122

2.10.3. Проект Grid2003                                                               125

2.10.4. Проект GridSolve                                                              126

2.10.5. Проект SURAgrid                                                             129

2.10.6. Проект LA Grid                                                                 131

2.10.7. Проект myGrid                                                                  133

2.10.8 Приклади деяких Віртуальних Організацій                   134

ВИСНОВКИ                                                                                     136

Література                                                                                        138

 

Розділ 1.  Grid – минуле, сьогодення і майбутнє

1.1.  Концепція GRID

 Останні десять  років є роками зародження та розвитку нового напрямку в інформаційних технологіях, назву якому (як традиційно вважається) дали у 1998 році Я. Фостер та К. Кессельман – «Грід» (англ. «Grid») [1]. Grid як засіб сумісного використання обчислювальних потужностей та сховищ даних дозволяє вийти за межі простого обміну даними між комп’ютерами і, зрештою, перетворити їх глобальну мережу на свого роду гігантський віртуальний комп’ютер, доступний у режимі віддаленого доступу з будь-якої точки, незалежно від місця розташування користувача.

Ідея використовувати мережу суперкомп‘ютерів для вирішення задач, мабуть, зародилася набагато раніше (спроби робилися з 60-х років ХХ століття), однак зараз вона набула завершеної форми «концепції Grid». Традиційно, причетними до розвитку Grid -обчислень вважають фізиків-ядерщиків - і дотепер їх потреба в обробці колосальних об‘ємів дослідних даних є рушійною силою для реалізації програм по впровадженню Grid, згадати хоча б діяльність Європейського центру ядерних досліджень (CERN). Однак Grid має потенційно велику кількість й інших областей застосування, оскільки пропонує універсальний підхід до розв‘язку проблеми нестачі обчислювальних ресурсів – адже очевидно, що в загальному випадку мережа суперкомп‘ютерів є спроможною вирішити складніші задачі, ніж кожен з її складових вузлів окремо.

Якщо перекладати дослівно, Grid означає «ґрати». Погодьтеся, асоціації, пов’язані в нашій мові з цим словом, зовсім не відповідають змісту вільної кооперації комп’ютерів для високопродуктивних обчислень, закладеному в технологіях Grid. Найближче за смислом, мабуть, поняття power grid – мережа електроживлення, розподілений ресурс загального користування, коли кожен може легко під’єднатися через розетку і використовувати стільки електроенергії, скільки йому потрібно. Аналогічно користувачі з допомогою Grid отримують можливість прямого підключення до віддаленої обчислювальної мережі, не цікавлячись, звідки беруться потрібні для роботи обчислювальні ресурси й дані, які для цього використовуються лінії передачі, паролі чи протоколи тощо. При цьому аналогом інфраструктури електричних мереж (ліній електропередачі, підстанцій, трансформаторів, диспетчерських пунктів та ін.) виступає Grid –інфраструктура з програмним Grid забезпеченням (ПГЗ), з допомогою якого виконується „віртуалізація” ресурсів. Розвиток ПГЗ починався від базових засобів, що підтримують дистанційний доступ до ресурсів, пройшов стадію окремих систем, їх пакетів і привів до створення платформ – взаємноузгоджених наборів засобів, здатних дати комплексне рішення завдання обслуговування Grid-інфраструктури виробничого призначення.

Проте слід зазначити, що хоча динаміка розвитку в цій галузі дозволяє сподіватися на успішне якнайширше впровадження Grid - технологій у найближчому майбутньому, багато питань все ще є предметом дискусій і досліджень.   Нижче коротко перераховуються та пояснюються основні властивості Grid, до яких відносять:

  •  Спільне використання розподілених ресурсів. Воно відкриває можливості з співробітництва, яких були б важко досягти іншими засобами. Водночас виникають питання «справедливості» розподілу ресурсів, створення та управління віртуальними організаціями (ВО).
  •  Об‘єднання потужностей. Таким чином будується система з сумарною потенційною обчислювальною потужністю, що перевершує потужності її складових, і при цьому досягається більш ефективне використання апаратних засобів (зменшується простоювання). Постають жорсткі вимоги до каналів зв‘язку.
  •  Віртуалізація. Включає в себе такі поняття, як: приховування (маскування) від користувача складності апаратної та програмної реалізації системи та її складових, географічних відстаней між вузлами, приналежності вузлів різним організаціям, створення ілюзії роботи з «віртуальним суперкомп‘ютером».
  •  Неоднорідність (гетерогенність). Типовий Grid складається з множини різнорідних апаратних засобів та різноманітного програмного забезпечення (і має успішно функціонувати в таких умовах).
  •  Децентралізоване управління. Немає одного єдиного «власника» всієї системи, що вимагає використання механізмів розподіленого управління.
  •  Інтероперабельність. Функціональна сумісність роботи різних компонентів Grid та навіть різних Grid -інфраструктур базується на стандартизації інтерфейсів. Підходи, що не враховують стандартів, є мало перспективними.
  •  Прозорість доступу. Grid має надавати доступ до ресурсів системи користувачам, не зважаючи на конкретну топологію мережі чи локальну реалізацію механізмів доступу до тих чи інших вузлів та їх ресурсів.
  •  Масштабованість. Grid має забезпечувати механізми включення нових джерел ресурсів, користувачів, сховищ даних тощо без впливу на існуючих учасників: Grid повинен мати здатність динамічно реконфігуруватись.
  •  Безпека. Одна з головних вимог до Grid - системи – безпека доступу до ресурсів, що зумовлює обмежений набір дозволених операцій у авторизованих користувачів та програм.

Розподілені обчислювальні технології, що існували до появи Grid -технологій, не забезпечують виконання представлених вище вимог. Наприклад, Iнтернет-технології спрямовані на комунікаційний і інформаційний обмін між комп'ютерами, але не надають інтегрованого підходу для координованого використання ресурсів на декількох обчислювальних системах. Бізнес-технології фокусуються лише на проблемах спільного використання інформації, найчастіше через централізовані сервери. Розподілені обчислювальні технології масштабу підприємства, такі як CORBA або Enterprise Java, дозволяють розділяти ресурси тільки в рамках однієї організації. Засоби Open Group's Distributed Computing Environment (DCE) підтримують захищене спільне використання ресурсів декількох сайтів, однак більшість віртуальних організацій знаходить ці інструменти обтяжними й негнучкими. Провайдери сервісів зберігання даних (storage service provider - SSP) і сервісів додатків (application service provider - ASP) допускають зберігання даних і виконання обчислень на третій стороні, але з деякими обмеженнями (наприклад, SSP ресурси доступні покупцям лише через приватні віртуальні мережі (virtual private network - VPN). Таким чином, нинішні технології або не дозволяють об'єднати різноманітні типи ресурсів, або не надають гнучкості в керуванні поділюваними зв'язками.

Важливо підкреслити, говорячи про використання Grid-технологій, що вони дозволяють не тільки вирішувати наукові й практичні завдання, раніше недоступні через занадто великий час, потрібний для одержання відповіді. Grid створює основу для нової організації науки, високотехнологічного виробництва, соціального життя, дозволяє більш ефективно та надійно управляти ресурсами суспільства.

Концепція Grid базується на наступних основоположних моментах:

  •  швидке та постійне збільшення продуктивності мікропроцесорів масового виробництва (сучасний персональний комп'ютер на базі процесора може зрівнятися за швидкістю обчислень із суперкомп'ютерами 10-літньої давнини);
  •  поява швидкісних оптоволоконних ліній зв'язку - сьогодні в розвинених країнах базові лінії зв'язку в мережі Інтернет мають пропускну здатність 10 Гб/с і вище, а підключення до мережі багатьох наукових організацій відбувається на швидкості в 1-2 Гб/с;
  •  феномен Інтернету, глобалізація процесу обміну інформацією й інтеграції світової економіки;
  •  безперервне вдосконалювання технологій і засобів інформаційної безпеки.

По суті, Grid є «надбудовою» над Інтернетом. Її основне призначення - організація розподілених обчислень для рішення серйозних задач науки й технології, які вимагають більших обчислювальних ресурсів, а саме, потужності комп'ютерів, ресурсів зберігання даних, часу обчислень. На відміну від безструктурної мережі Інтернет, Grid - чітко впорядкована система. Певною мірою Grid можна умовно назвати обчислювальним Інтернетом. Користувач, підключаючись до Grid, одержує доступ до потужності тисяч машин, на яких він може здійснювати обчислення й зберігати як величезні масиви даних, так і інформацію, отриману в результаті їхньої обробки. У цій мережі приділяється першорядна увага проблемам безпеки - адже анонімність, зручна при спілкуванні в Інтернеті, може стати надзвичайно небезпечної при роботі з науковими або практичними даними. Запитуючи яку-небудь інформацію в глобальній базі даних Grid, користувач одержить вичерпну відповідь на питання про її достовірність, повноту й доступність.

Відомо, що зараз у світі близько 500 млн. персональних комп'ютерів, однак, у середньому використовується всього лише 15% обчислювальних ресурсів! Система Grid-обчислень дозволить більш ефективно використати наявну базу обчислювальних ресурсів.

У комп'ютерних Grid-системах різні організації, що мають загальні наукові або практичні інтереси, на добровільній основі створюють об'єднання, що у Grid-технологіях називається віртуальною організацією(ВО). Учасники віртуальної організації зв'язані між собою за допомогою Інтернету таким чином, що їхні обчислювальні потужності поєднуються. Система містить у собі обчислювальні ресурси й ресурси зберігання даних, але при цьому кожна організація контролює використання своїх ресурсів. Користувачі можуть одержувати практично необмежені ресурси для обчислень і зберігання даних, не замислюючись про їхнє походження. Кожний з учасників надає свої обчислювальні ресурси (або їхню частину) для використання іншими учасниками, і в той же час отримує доступ до ресурсів інших учасників.

Розвиток Grid-технологій стає стратегічним національним завданням. Дуже незабаром країни, що не мають розвинутої Grid-інфраструктури, навіть не зможуть претендувати на статус розвинутої країни .

1.2. Витоки GRID

Напевно, краще почати з тих десятиліть інтенсивних досліджень, розробок і впровадження апаратного  і  програмного забезпечення та додатків для паралельного обчислення на багатьох комп'ютерах, що відбувалися в 1980-х роках Паралельне обчислення в 1980-х роках зосередило зусилля дослідників на розвитку алгоритмів, програм і архітектур, які підтримували одночасну роботу кількох процесорів. Оскільки розробники додатків почали створювати  широкомасштабні програми, що вимагали ресурсів набагато більше, ніж можуть забезпечити навіть найшвидші паралельні комп'ютери, деякі групи дослідників почали розглядати розподілення ресурсів за межами основного комп’ютера як спосіб рішення задач все більшого і більшого масштабу.

Впродовж 1980-х і 1990-х, програмне забезпечення для паралельних комп'ютерів зосередилося на тому, щоб забезпечити могутні механізми для управління зв'язками між процесорами, і розробці і створенні середовищ для паралельних машин. Паралельна віртуальна машина (Parallel Virtual Machine, PVM), інтерфейс передачі повідомлень (Message Passing Interface, MPI), високопродуктивний ФОРТРАН (High Performance Fortran, HPF) і OpenMP були розроблені з ціллю підтримки зв'язку для додатків, що масштабуються (scalable applications) [2]. Були розроблені успішні прикладні парадигми, щоб привести в дію величезний потенціал розділеної і розподіленої архітектури пам'яті. Спочатку вважали, що Grid буде найбільш корисною в розширенні парадигм паралельного обчислення від тісно зв'язаних груп до географічно розподілених систем. Проте на практиці Grid використовувалася більше як платформа для інтеграції вільно зв'язаних додатків (деякі компоненти яких могли б працювати на паралельній машині), і для зв'язку розподілених ресурсів (зберігання, обчислення, візуалізація, інструменти). Фундаментальна задача Grid управління цими різнорідними компонентами замінює собою задачу твердої синхронізації типово ідентичних компонентів (як в моделі SPMD, одна програма, численні дані – single program  multiple data).

Впродовж 1980-х дослідники з різних областей також почали об'єднуватися, щоб вирішити проблеми «Великого Виклику» («Grand Challenge») [66], тобто ключові проблеми в науці і інженерії, для яких великомасштабна обчислювальна інфраструктура забезпечила би фундаментальний інструмент, щоб досягти нових наукових відкриттів. Команди «Великого Виклику» та міждисциплінарні  команди розробили модель для співпраці, і ця модель дуже сильно вплинула на те, яким чином великомасштабна наука ведеться сьогодні. Нині міждисциплінарні дослідження не тільки забезпечили модель для співпраці, але також надихнули цілі дисципліни (наприклад, біоінформатику), на інтеграцію раніше розосереджених областей науки.

Проблеми, зв'язані з проведенням міждисциплінарних і, часто, географічно розрізнених співробітництв, дослідники вирішують як з координацією, так і з розподілом робіт – двома фундаментальними поняттями в Grid-обчисленні. У 1990-х роках  американська випробувальна програма Gigabit [5] звернула головну увагу на розподілені регіональні та глобальні додатки. Кожна з випробувальних моделей – Aurora, Blanca, Casa, Nectar і Vistanet – була розроблена з подвійними цілями: по-перше, досліджувати потенційну архітектуру мережі випробувальної моделі, а по-друге - вивчити їх корисність для кінцевих користувачів. У цій другій меті кожна випробувальна модель забезпечила площу для експериментування з розподіленими додатками.

Першим сучасним Grid зазвичай вважають проект I-WAY (Information Wide-Area Year), розроблений як експериментальний демонстраційний проект у 1995 році, який  об’єднав в національну розподілену експериментальну мережу 17 обчислювальних вузлів, зв'язаних за допомогою високошвидкісної магістралі на основі технології АТМ (1.5 Mб/с - 9.6 Mб/с) [6]. Було впроваджено розподілену файлову систему і брокер ресурсів, який містив центральний вузол, що керував мережею, та агентів на решті вузлів. Тоді було розроблено також  60 додатків і упроваджено в I-WAY, Розробка інфраструктури і додатків для I-WAY забезпечила конструктивний і могутній досвід для першого покоління сучасних дослідників і проектантів Grid.

У пізніх 1990-х розробники Grid зібралися на форумі Grid, який згодом розвинувся в Глобальний форум Grid (Global Grid Forum, GGF) [12] і  який став результати ранніх досліджень  використовувати для розроблення  стандартів для майбутніх Grid. З тої пори дослідження  в галузі Grid технологій стали глобальними: в них співпрацюють  багато дослідників із Сполучених Штатів, Європи і Азіатсько-тихоокеанського регіону. Фондові агентства, комерційні кредитори, академічні установи, національні центри і лабораторії об'єднали свої зусилля, щоб сформувати ерудоване співтовариство з високою зацікавленістю в побудові Grid. Більш того, дослідження в суміжних галузях, таких як обчислювальні мережі, однорангові обчислення тощо, генерують додаткові ідеї, що втілюються в  Grid.

Сьогодні виділяють три стадії еволюції Grid: системи першого покоління, які були попередниками того Grid, що ми маємо сьогодні; системи другого покоління, які розвивали програмне Grid забезпечення, щоб оперувати великомасштабними даними та обчисленнями; і системи третього покоління, де акцент переходить до глобального розподіленого співробітництва,  до сервісно-орієнтованого підходу і обробки величезних об’ємів даних (рис.1.1).

Рис.1.1. Покоління Grid: системи

Еволюція  Grid відображає стрімку еволюцію інформаційних технологій, коли потужність процесорів, що визначається кількістю транзисторів на чипі, згідно закону Мура подвоюється кожні 18 місяців; щільність зберігання даних подвоюється кожні 12 місяців, а пропускна спроможність мереж збільшується вдвічі всього за 9 місяців. Тому сьогодні в розпорядженні вчених і інженерів є більш ніж 100 млн. хостів Інтернету, високошвидкісні мережі з пропускною спроможністю більш ніж 10 Гб/с; засоби зберігання даних з ємністю петабайти і  обчислювальні потужності з продуктивністю більш ніж 100 Tф/с. Звичайно, еволюція – це безперервний процес, і не завжди чітко можна виділити точні межі, але такий еволюційний поділ достатньо описує проблеми, що виникали перед розвитком Grid на кожному етапі.

1.3.  ЕВОЛЮЦІЯ GRID: ПЕРШЕ ПОКОЛІННЯ (1990-1996 роки)

Перші проекти Grid були спробами зв'язати суперобчислювальні вузли (сайти); у той час цей підхід був відомий як метаобчислення. Метакомп’ютер -  це багатопроцесорна система, роль системної шини в якій виконує Iнтернет, що зв'язує  безліч вузлів, що мають власні процесори, оперативну і зовнішню пам'ять, пристрої введення/виведення (рис.1.2).

Рис.1.2. Структура метакомп’ютера

Початком цього періоду вважається старт проекту CASA в 1989 році одним з декількох американських іспитових стендів Gigabit [74].  На початку та середині дев'яностих років відзначають появу перших метаобчислень, або середовищ Grid. Як правило, мета цих ранніх метаобчислювальних проектів полягала в тому, щоб забезпечити ряд високопродуктивних додатків обчислювальними ресурсами. Поперед цієї технології йшли два представницьких проекти - FAFNER [68] та I-WAY [6]. Ці проекти відрізняються різними шляхами реалізації,  але для ефективної роботи  вони повинні були подолати багато подібних перешкод, такі як зв'язок, керування ресурсами та віддаленими даними. Ці два проекти також спробували вирішити проблеми метаобчислення, при цьому  FAFNER був здатний до виконання на будь-якій робочій станції, що мала більше ніж 4 мегабайти пам'яті, I-WAY був засобом об'єднання ресурсів величезних американських суперобчислювальних центрів.

FAFNER мав недоліки, які зараз у Grid системах відсутні. Наприклад, кожний клієнт повинен був компілювати, встановлювати і виконати демон FAFNER, щоб здійснювати факторизації. Індивідуальні обчислювальні завдання були нездатні об’єднуватися  один з одним, або з батьківським Web-сервером. Аналогічно, I-WAY мав багато таких властивостей, які сьогодні здаються недоречними, наприклад, сервіси I-WAY повинні були бути встановлені окремо на кожному вузлі. Незважаючи на вищезгадані особливості,  FAFNER і I-WAY були досить інноваційними та успішними проектами. Кожний проект був в авангарді метаобчислення та допоміг прокладати шлях багатьом проектам Grid з наступного другого покоління.

До здобутків першого покоління Grid систем слід віднести таке:

  •  перетворення комп'ютера на пристрій, розрахований на багато користувачів,  і створення систем розділення часу;
  •  організацію взаємодії на рівні процесів шляхом:

- організації загального адресного простору;

         - розподіленої загальної пам'яті (DSM);

         - передачі повідомлень (MPI, PVM) для підтримки гетерогенних

           систем і роботи в локальній/глобальній мережі;

  •  перенесення моделі доступу до програмних і апаратних ресурсів комп'ютера на розподілене обчислювальне середовище - користувач метакомп‘ютера може працювати з його ресурсами так само, як з ресурсами власного комп'ютера;

  •  відпрацювання наступної схеми роботи:

- агент на машині визначає факт простою і зв'язується з сервером,  

  що  управляє;

- сервер, що управляє, відправляє агентові нове завдання (дані

 для обробки, область в просторі пошуку);

- після закінчення обчислень результати відправляються назад на

 сервер;

  •  підтримку динамічної конфігурації середовища, коли метакомп'ютер не має постійного складу і динамічно організовується з географічно розподілених ресурсів, тимчасово делегованих їх фактичними власниками (віртуалізація метакомп'ютера);
  •  організацію однорідного доступу до обчислювальних ресурсів великої кількості  комп'ютерів в локальній або глобальній мережі;
  •  рішення задач, що допускають декомпозицію на велике число невеликих, незалежних під задач.

       Піонерські  проекти Grid заслуговують на те, щоб бути розглянутими більш детально.

1.3.1.FAFNER

Алгоритм шифрування відкритого ключа RSA був винайдений у лабораторії Масачусетського технологічного інституту інформатики в 1976-77 роках. Цей алгоритм широко використовується, наприклад, у протоколі захищених сокетів (Secure Sockets Layer , SSL). Безпека RSA заснована на твердженні, що дуже важко розкласти на множники надзвичайно великі числа, які складаються із сотень цифр. У березні 1991 року RSA Data Security Inc кинула виклик проблемі факторизації RSA (RSA Factoring Challenge). Факторизація в обчислювальному відношенні є дуже витратною. Через цю причину були розроблені паралельні алгоритми факторизації з метою широкого її використання. Використовувані алгоритми тривіально паралельні та не вимагають ніякого зв'язку після початкової установки, і багато машин можуть забезпечити невеликий внесок кожна у загальне рішення завдання по факторизації. Ранні зусилля ґрунтувалися на обміні інформацією та одержання коду факторизації по електронній пошті. В 1995 році консорціум на чолі з Bellcore Labs, Сіракузьким університетом і Co-Operating Systems запустили проект, відомий як FAFNER (Factoring via Network-Enabled Recursion - рекурсивна факторизація з підтримкою мережевої роботи), що розкладає на множники через Інтернет.

FAFNER був розроблений для факторизації RSA130, використовуючи нову числову методику факторизації, названу NFS (Number Field Sieve), що використовує обчислювальні web-сервери. Учасники проекту тоді використовували CGI (Common Gateway Interface - стандартний інтерфейс обміну даними) для доступу до сервісів підтримки. Ці сервіси включали: поширення програмного забезпечення NFS, проектну документацію, анонімну користувальницьку реєстрацію, поширення завдань і звіти про стан рішення в реальному часі. Скрипти CGI організували підтримку кластерного керування, направляючи індивідуальні робочі станції на рішення задачі під час їхнього простою, щоб мінімізувати завантаженість машин. Таким чином, вони були клієнтами мережі, які використовували протокол HTTP, щоб одержати значення від сервера та відправити результати назад до CGI скрипту сервера.

Щоб зробити цей підхід успішним, були поєднані три фактори:

  •  реалізація NFS, що дозволила навіть робочим станціям з 4 мегабайтами пам'яті виконувати корисну роботу;
  •  FAFNER, що підтримував анонімну реєстрацію. Користувачі могли запропонувати свої апаратні ресурси для рішення завдання, не розкриваючи свої дані нікому, крім локального адміністратора сервера;
  •  консорціум вузлів, який був задіяний, щоб виконати пакет скрипта CGI на локальних машинах, формуючи ієрархічну мережу Web-серверів RSA130, які зменшили потенційне слабке місце адміністрування та дозволили вирішувати завдання цілодобово та автоматично з мінімальним людським втручанням.

Проект FAFNER здобув винагороду в 1995 році на конференції з суперкомп’ютерів Supercomputing’95 у Сан-Дієго. Це проклало шлях до хвилі нових мережевих метаобчислювальних  проектів.

1.3.2. I-WAY

Проект I-WAY (The Information Wide Area Year) був експериментальною високоефективною мережею, що об’єднував багато потужних комп'ютерів, і працював над поліпшенням середовищ візуалізації. Проект I-WAY був задуманий на початку 1995 року з ідеєю не побудувати мережу, а інтегрувати існуючі мережі високої пропускної здатності. Використовувалися віртуальні середовища, набори даних і комп'ютери, які розташовувалися на сімнадцяти різних американських сайтах і були підключені за допомогою десятка мереж із  змінними смугами пропускання та протоколами, використовуючи різну маршрутизацію та перемикання технологій.  

Мережа була заснована на технології асинхронної передачі даних, що у той час тільки розвивалася, а пізніше стала стандартом.. Щоб допомогти стандартизувати інтерфейс програмного забезпечення та керування I-WAY, ключові сайти встановлювали місцеві сервери (I-POP), щоб задіяти  їх як шлюзи до I-WAY. Сервери I-POP були робочими станціями UNIX, однаково конфігурованими та мали стандартне програмне середовище за назвою I-Soft. I-Soft спробував перебороти проблеми різнорідності, масштабованості, продуктивності та безпеки. Кожний сайт, що брав участь в I-WAY, запускав сервер I-POP. Механізми сервера I-POP забезпечили однакову аутентифікацію I-WAY, резервування ресурсу, створення процесу та функції комунікації. Кожний сервер I-POP був доступний через Інтернет і працював у межах системи мережевого захисту свого сайту. У нього також був інтерфейс ATM, що дозволив контролювати потенційне керування ATM-перемикачем сайту.

Проектом I-WAY був розроблений планувальник ресурсів CRB (Computational Resource Broker). CRB складався із протоколів “користувач - CRB” та “CRB - локальний планувальник”. Фактична реалізація CRB була структурована в термінах окремого центрального планувальника та множинних локальних демонів планувальника - по одному на кожний  сервер I-POP. Центральний планувальник містив черги завдань і таблиць, які у свою чергу розподіляли завдання, містили стан локальних машин та інформацію про стан на розподіленій файловій системі AFS (Andrew File System), яка дозволяє хост-компьютерам, що співробітничають, спільно використати ресурси як через локальну область, так і через глобальні мережі.

В I-POP безпека забезпечувалася використанням telnet-клієнта, зміненого для використання аутентифікації та шифрування (Kerberos authentication and encryption). Крім того, планувальник CRB діяв як аутентифікаційний проксі-сервер, виконуючи наступну аутентифікацію до користувальницьких ресурсів I-WAY. Що стосується файлових систем, I-WAY використав AFS для забезпечення розділеного репозиторію для програмного забезпечення та планувальника інформації. Комірка AFS була встановлена доступною тільки з I-POP.

Для підтримки інструментальних засобів користувальницького рівня та бібліотеки зв'язку нижнього рівня для виконання в середовищі I-WAY був адаптований зв'язок Nexus [9]. Nexus підтримував автоматичні механізми конфігурації, які забезпечили його вибір відповідної конфігурації залежно від використовуваної технології, наприклад, зв'язок через TCP/IP або AAL5 (рівень ATM адаптації для створеного трафіку), використовуючи Інтернет або асинхронну передачу даних. Для використання Nexus також була розширена бібліотека MPICH (переносна реалізація стандарту передачі MPI повідомлень) і CAVEcomm (робота з мережами для системи віртуальної реальності CAVE).

Проект I-WAY визначив кілька типів додатків:

  •  суперобчислення;
  •  доступ до віддалених ресурсів;
  •  віртуальна реальність;
  •  відео, мережа, GII-Windows;

Проект I-WAY був також успішно продемонстрований на SC 95 у Сан-Дієго. Що є ще більш важливим, досвід роботи та програмне забезпечення, що розроблялося , були використані  в подальшому:  FAFNER став попередником SETI@home і Distributed.Net, а I-WAY - попередником Globus  і Legion.

1.4. ЕВОЛЮЦІЯ GRID: ДРУГЕ ПОКОЛІННЯ (1997- 2003 роки)

         Подальший розвиток і узагальнення ідей метакомп'ютинга на більш ширше коло обчислювальних ресурсів і завдань/додатків вимагав невідкладного рішення широкого кола проблем, пов'язаних з передачею даних, забезпеченням безпеки, управлінням завданнями, доступом до даним, пошуком ресурсів, доступом до них та інше. Підходи до побудови такої Grid-система були описані  в [13, 70], і її можна розглядати   як представника Grid-систем другого покоління, яким притаманні три основних властивості:

  •  Різнорідність: Grid використовує різноманітні ресурси, які є різнорідними за походженням, і могли б охопити численні адміністративні домени через потенційно глобальний простір;
  •  Масштабованість: Grid міг би зростати від декількох ресурсів до тисяч. Це підіймає проблему потенційного зниження рівня продуктивності по мірі росту та поширення Grid. Отже, повинні бути розроблені додатки, які спроможні використовувати наявні  ресурси, а також значно покращені засоби  аутентифікації  користувачів;
  •  Адаптивність: в Grid відмова ресурсу є скоріше правилом, ніж виключенням. Фактично, з дуже багатьма ресурсами в Grid ймовірність деякого збою ресурсу досить висока. Менеджери ресурсу або додатки повинні динамічно адаптуватися таким чином, щоб вони могли витягти максимальну продуктивність із доступних ресурсів і сервісів.

Як відмічалося, ПГЗ (або програмне забезпечення проміжного шару) використовується для того, щоб приховати  різнорідну природу Grid та створити користувачам і додаткам однорідне середовище, забезпечуючи ряд стандартизованих інтерфейсів і безліч сервісів. ПГЗ перебуває між операційною системою і додатками, забезпечуючи додатки безліч сервісами, необхідними для їх коректного функціонування у розподілених гетерогенних середовищах.

Grid - інфраструктура може складатися з будь-яких видів мережевих ресурсів, починаючи від комп'ютерів (обчислювальних ресурсів) до сховищ даних і спеціальних наукових приладів. Традиційно Grid-додатки потребують величезні за масштабом об’єми даних і обчислень. Виникла потреба в створенні нового типу програмного забезпечення Grid систем, яке на відміну від традиційних клієнт-серверних систем, де ресурси управляються і облік користувачів ведеться централізовано в одному довірчому домені, забезпечує:

-    динамічну безліч довірчих доменів, що використовують різні

    механізми безпеки;

  •  динамічну безліч ресурсів, керованих автономно в рамках

    одного з доменів;

  •  динамічну безліч користувачів, що мають облікові записи в  

    деяких доменах;

-   доступ в процесі обчислень  до відразу декільком ресурсам з   

    різних доменів;

    -   запуск процесів на декількох ресурсах;

    -    організацію в процесі обчислень взаємодії між ресурсами з

         різних доменів;

    -    взаємодію між запущеними процесами.

Друге покоління базового програмного забезпечення для Grіd у своєму розвитку перейшло від ранніх систем типу Globus-GT1[15]  і  Legіon [71], спеціалізованих для конкретних потреб великих і високопродуктивних додатків, до більш універсальних і відкритих середовищ, таких, як Globus-GT3 і Avaki. Разом з базовим програмним забезпеченням у другому поколінні також був розроблений ряд супровідних інструментальних засобів і утиліт для сервісів верхнього рівня, які охопили планувальників ресурсів і брокерів, а також предметно-орієнтовані інтерфейси користувачів і портали. Протягом  цього періоду з'явилася й техніка однорангових систем

До здобутків другого покоління Grid систем слід віднести таке:

  •  розпочато виконання проекту Globus, направленого на формалізацію і розробку набору (toolkit) базових сервісів для:

- управління ресурсами;

 - управління обчисленнями;

 - управління даним;

-  забезпечення безпеки;

  •  розроблення і впровадження загальної Grid інфраструктури у вигляді базових сервісів, не залежних  від ресурсів і додатків (аутентифікація, авторизація, пошук і розподіл ресурсів, повідомлення про події, облік використання ресурсів, видалений доступ до даним, виявлення відмов і т.д.)
  •  показ можливості об'єднання базових сервісів   в складніші, високорівневі сервіси;
  •  розроблення ряду програмних компонентів і утиліт, які здійснюють запуск завдань на видалених ресурсах (суперкомп'ютерах, кластерах) через вже існуючі системи управління ресурсами (зазвичай системи пакетної обробки), контроль стану виконання завдань і управління завданнями, збір і доступ до різноманітної інформації про систему і її компоненти тощо, і з допомогою яких можна надати високорівневі послуги користувачам, додаткам, планувальникам ресурсів, брокерам;
  •  початок  низки проектів типу Cactus, WebFlow, DataGrіd [72] зі створення великомасштабних обчислювальних та інформаційних мереж ресурсів Grіd для аналізу даних.

1.4.1. Основні технології другого покоління

Розглянемо деякі з найбільш значних  проектів .цього періоду, пов'язаних з розробкою Grid- інфраструктур, програмним забезпеченням проміжного шару, ключових сервісів, порталів  і специфічних додатків.

1.4.1.1. Globus

ПГЗ Globus створює програмну інфраструктуру, що дозволяє додаткам використовувати розподілені різнорідні обчислювальні ресурси як одиничний віртуальний комп’ютер. Проект Globus, розпочатий ще в1996 році,  пов’язаний з розробленням обчислювальних архітектур і виконується  в рамках Globus Alliance, куди увійшли Argonne National Laboratory, University of Chicago;EPCC, University of Edinburgh; National Center for Supercomputing Applications (NCSA);Northern Illinois University, High Performance Computing Laboratory; Royal Institute of Technology, Sweden;Univa Corporation; University of Southern California Information Sciences Institute. Згідно проекту, обчислювальний Grid є апаратною та програмною інфраструктурою, що забезпечує надійний, однозначний  доступ до високопродуктивних обчислювальних можливостей, незважаючи на географічний розподіл як ресурсів, так і користувачів. Центральний елемент системи Globus - Globus Toolkit (інструментарій), що визначає основні сервіси та можливості, необхідні для створення обчислювального Grid середовища. Інструментарій складається з ряду компонентів, які забезпечують  основні сервіси, такі як безпека, місце розташування ресурсів, керування ресурсами, зв'язок.

Для обчислювальних Grid є необхідною підтримка широкої різноманітності моделей  програмування та створення додатків. Отже, замість того, щоб забезпечити однорідну модель програмування, таку як, наприклад, об’єктно-орієнтована модель, Globus Toolkit забезпечує безліч сервісів зі специфічними властивостями, які можуть підтримувати різні засоби програмування додатків. Ця методологія можлива тільки тоді, коли сервіси є різними та мають чіткі інтерфейси (API), які можуть бути включені в додатки або інструментальні засоби програмування шляхом нарощування.

Globus створений як багаторівнева архітектура, у якій глобальні сервіси високого рівня побудовані поверх основних локальних сервісів нижнього рівня. Globus Toolkit є модульним, і додаток може експлуатувати особливості Globus, такі як керування ресурсами або інформаційною інфраструктурою, не використовуючи бібліотеки комунікації Globus. Globus Toolkit сьогодні складається з наступних елементів (точний набір залежить від версії Globus):

  •   GRAM («Globus Toolkit Resource Allocation Manager» - менеджер розподілу ресурсів Globus Toolkit), заснований на HTTP, який використовується для розподілу обчислювальних ресурсів і для контролю обчислення на цих ресурсах;
  •  розширена версія протоколу передачі файлів GridFTP (Grid File Transfer Protocol), шо використовується для доступу до даних. Розширення включають використання протоколів забезпечення безпеки з’єднання, доступу до файлу і керування паралелізмом для високошвидкісних передач;
  •  аутентифікація та зв'язані з нею функції захисту (GSI - Grid Security Infrastructure, інфраструктура безпеки Grid);
  •  розподілений доступ до структури та інформації про стан структури, що заснована на LDAP (Lightweight Directory Access Protocol - «протокол легкого доступу до директорій»). Цей сервіс використовується для визначення стандартного інформаційного протоколу ресурсу та пов'язаної з ним інформаційної моделі.
  •   доступ до даних через послідовні та паралельні інтерфейси (GASS - Global Access to Secondary Storage, «глобальний доступ до зовнішньої пам’яті»), включаючи інтерфейс, заснований на GridFTP.
  •  конструкція, кешування та місцерозташування виконуваних програм (GEM - Globus Executable Management, «керування виконуваною програмою Globus»).
  •  резервування ресурсів і розподіл ресурсів (GARA - Globus Advanced Reservation and Allocation).

Globus розвивався від свого прототипу в першому поколінні - проекту I-WAY, через версію 1 (GT1, 1998 рік) до версії 3 (GT3, 2003 рік). Протоколи та сервіси, які надав Globus, досить динамічно змінювалися  протягом свого розвитку. Акцент Globus перейшов від підтримки одних тільки високоефективних додатків до підтримки більше розповсюджених сервісів, які можуть підтримувати віртуальні організації. Еволюція Globus продовжується  введенням архітектури OGSA (Open Grid Service Architecture, відкрита архітектура сервісів Grid ) [18,73], і архітектури Grid, заснованої на Web-сервісах.

1.4.1.2.     Legion

ПГЗ Legion є «метасистемою», заснованою на об'єктах, і розробленою у Вірджинському університеті. Legion сформував  програмну інфраструктуру таким чином, щоб система різнорідних, географічно розповсюджених і високоефективних машин могла вільно взаємодіяти. Legion зробив спробу надати користувачам на їхніх робочих станціях  окрему інтегровану інфраструктуру незалежно від масштабу, фізичного місця розташування, мови програмування та основної операційної системи користувача.

Legion відрізнявся від Globus у своєму підході до забезпечення середовища Grid: він формував всі свої компоненти у вигляді об'єктів. У цієї методології є всі звичайні переваги об’єктно-орієнтованого підходу, такі як абстракція даних, інкапсуляція, спадкування та поліморфізм.

Legion визначив API до ряду основних об'єктів, які підтримують основні сервіси, необхідні цій метасистемі. У системи Legion був наступний набір основних типів об'єктів:

  •  класи та метакласи (класи можна вважати менеджерами та організаторами, метакласи - це класи класів);
  •  об'єкти Host (абстракції обробки ресурсів, вони можуть представити одиничний процесор або безліч хост-компьютерів і процесорів);
  •  об'єкти Vault (являють собою постійну пам'ять, але тільки з метою підтримки постійного стану об'єктного завдання);
  •  об'єкти реалізації (Implementation) і кеши (Caches). Об'єкти реалізації приховують подробиці реалізацій об'єктів пам'яті та можуть вважатися як еквівалентні виконуваним програмам в UNIX.
  •  агенти закріплення (Binding Agents) відображають об'єктні ідентифікатори фізичним адресатам.
  •  об'єкти Context і простори Context відображають контекстні імена ідентифікаторів об'єктів Legion, дозволяючи користувачам надавати об'єктам імена, що є рядками довільної довжини.

Legion був вперше випущений у листопаді 1997 року. З тих пір компоненти, які становлять Legion, продовжили розвиватися. У серпні 1998 року компанія Applied Metacomputing одержала дозвіл на комерційне використання Legion. У червні 2001 року естафета була перехоплена корпорацією Avaki (Avaki Corporation).

1.4.1.3. Розподілені об'єктні системи

CORBA (The Common Object Request Broker Architecture) є відкритою розподіленою об'єктно-обчислювальною інфраструктурою, стандартизованою OMG (Object Management Group, група по керуванню об'єктами) . CORBA автоматизує функціонування загальних мереж, програмуючи такі завдання, як об'єктна реєстрація, місце розташування та активація; демультиплексування запиту; синхронізація кадрів і обробка помилок; сортування та десортування параметра, диспетчеризація операції. Хоча CORBA забезпечує широкий набір сервісів, проте вона не містить сервіси розподілу та планування рівня Grid, які є в Globus, однак CORBA цілком здатна об’єднатися  з Grid. CORBA є середовищем, що не залежить від мови та близько асоціюється з UML (Unified Modeling Language). Однин із недоліків CORBA - це те, що вона більше підходить для внутрішніх мереж, а не для поширення через Інтернет, і тому існують труднощі в організації, наприклад, виконання операцій через системи мережевого захисту. Крім того, не забезпечується організація взаємодії в реальному часі та підтримка мультимедіа.

1.4.1.4. Java

Java створює окрему структуру для реалізації розподілених об'єктних систем. Певною мірою віртуальна машина Java (JVM, Java Virtual Machine) з Java-додатками та сервісами вирішує проблеми, пов'язані з різнорідними системами, організовуючи переносні програми та розподілену об'єктну модель через протокол RMI. Однак, використання Java саме по собі містить півні  недоліки, і головним з них є низька обчислювальна швидкість. Java Grande («Додаток Grande») є будь-яким додатком, науковим або індустріальним, котрий вимагає великої кількості обчислювальних ресурсів, у тому числі і віддалених, для  рішення однієї або більше задач. Мова Java була також обрана для створення альтернативного програмного забезпечення проміжного шару UNICORE (UNіform Іnterface to COmputer REsources) в 2003 році. Головні компоненти UNІCORE: агент підготовки завдань (JPA); контролер монітора завдань (JMC); сервер https UNІCORE, так званий шлюз (Gateway); супервізор мережних завдань (NJS); графічний інтерфейс користувача, заснований на Java-аплетах, з інтерактивною довідкою й засобами допомоги.

Втрати в обчислювальній швидкості виконання  Java додатків можуть бути  компенсовані значним  прискоренням строків їх розробки,  тим самим представляючи більше широкий погляд на підходи до розроблення додатків Grid.

1.4.1.5. Jini і протокол RMI

Технологія Jini була розроблена для того, щоб сформувати програмну інфраструктуру, яка надає можливість створити середовище розподілених обчислень. В Jini додатки можуть бути написані мовою Java і оброблятися з використанням механізму Java RMI (Java Remote Method Invocation). Навіть при тому, що Jini написана на чистому Java, ні від клієнтів Jini, ні від сервісів не вимагається  бути чистими Java. Вони можуть включати надбудови Java навколо коду на іншій мові, або навіть бути повністю написані на деякій іншій мові. Це дозволяє  Jini використовуватися поза стандартною структурою Java і зв'язувати сервіс і клієнтів від безлічі джерел.

Якщо копати глибше, технологія Jini, насамперед , зацікавлена у зв'язку між пристроями, а не у виконанні цими пристроями яких-небудь завдань. Фактична реалізація сервісу може бути здійснена апаратними засобами і/або програмним забезпеченням. Сервіси в  технології Jini- є взаємно обізнаними, і їх множину (родина)  взагалі вважають розміром робочої групи. Сервіс пошуку і  LUS (LookUp Service) може бути експортований в інші співтовариства, у такий спосіб забезпечуючи взаємодію між декількома ізольованими співтовариствами.

В Jini новий пристрій або програмний сервіс можуть бути підключені до мережі і там оголосити про свою присутність. Клієнти, які бажають використати такий сервіс, можуть тоді визначити його місцезнаходження та дати йому своє ім'я, що відразу дозволяє почати виконувати завдання. Jini заснований на протоколі RMI, що вводить деякі обмеження. Крім того, Jini не є розподіленою операційною системою, оскільки операційна система надає такі послуги, як доступ до файлу, планування процесора та користувальницькі входи в систему. Ось п'ять ключових концепцій Jini:

  •  Lookup (пошук) - пошук сервісу та завантаження коду, що необхідний для звертання до нього;
  •  Discovery (виявлення) - швидкий(миттєвий) пошук родини або об'єднання;
  •  Leasing (лізинг) - обмежений у часі доступ до сервісу;
  •  Remote Events (вилучені події) - сервіс A подає повідомлення сервісу B про зміну стану сервісу А. Lookup здатний зареєструвати всі сервіси нового сервісу;
  •  Transactions (трансакції) - використовуються для гарантії того, що розподілений стан системи залишається несуперечливим і однозначним.

1.4.1.6. The Common Component Architecture Forum

The Common Component Architecture Forum (форум архітектури загальних компонентів) [73] ставить за мету визначити мінімальний набір стандартних властивостей, які високопродуктивна структура компонентів повинна була б забезпечити. Як і CORBA, він підтримує програмування компонентів, але воно відрізняється від інших підходів програмування компонентів, наголошуючи на підтримку абстракцій, необхідних для високоефективного програмування. Для здійснення сервісів у межах складової структури можуть використовуватися основні технології, описані в попередній главі, - Globus або Legion.  Ідея використати структури компонентів для складної розробки міждисциплінарних додатків  стає все більш та більш популярною. Такі системи дозволяють програмістам прискорити проектну розробку, вводячи абстракції більш високого рівня та дозволяючи повторне використання коду. Вони також забезпечують певні складові інтерфейсів, які полегшують завдання взаємодії групи: такий стандарт поліпшить взаємну функціональну сумісність компонентів, розроблених різними групами на різних установах. Ці потенційні вигоди надихнули існуючі групи дослідників в багатьох лабораторіях і університетах на розвиток і проведення експериментів з  такими системами. Існує потреба в стандартах функціональної сумісності, щоб уникнути фрагментації.

1.4.1.7. Посередники та планувальники ресурсів Grid

Існує кілька доступних систем, які фокусуються на здійсненні групування та планування ресурсів. Потрібно відзначити, що всі пакети, що тут перераховані, виникли як системи  керування завданнями та локальними платформами розподілених обчислень:

  •  Condor [74] - пакет програм для виконання пакетних завдань на безлічі UNIX платформах, особливо на тих, які в конкретний час простоюють. Основні особливості Condor - автоматичне місцерозташування ресурсу та розподіл завдання, перевірка звернень, міграція процесів (рис.1.3). Ці особливості здійснені без модифікації основного ядра UNIX. Однак, для користувача необхідно зв'язати вихідний текст із бібліотеками Condor. Condor контролює діяльність  всіх розподілених обчислювальних ресурсів, і ті машини, які є доступними, поміщені в кластер. Потім машини розподіляються  для виконання завдань. Такий кластер є динамічним об'єктом, туди поміщуються робочі станції, коли вони починають простоювати, і видаляються звідти, як тільки починають виконувати роботу.

Рис.1.3. Процедура розполілу завдань в Condor

  •  PBS (The Portable Batch System, портативна система групування) є системою керування організації черги та робочого навантаження партії (спочатку розроблена для NASA). Вона працює на безлічі платформ UNIX, від кластерів до суперкомп'ютерів. Планувальник завдання PBS дозволяє вузлам установлювати свою власну політику планування для виконання завдання в часі та у просторі. PBS пристосована до широкої різноманітності адміністративної політики і забезпечує розширювану аутентифікацію та модель захисту. PBS забезпечує також графічний інтерфейс користувача для подання задачі, трекінга та адміністративних цілей.
  •  SGE (The Sun Grid Engine) заснований на програмному забезпеченні, розробленому Genias, відомим як Codine/GRM. Користувач представляє SGE завдання і повідомляє необхідні вимоги для цього завдання. Завдання надходить до  черзі, що розташована на серверах.  SGE оцінює  завдання  і потім знаходить для виконання серед завдань в черзі  завдання з найвищим пріоритетом або найдовшим часом очікування. У такий спосіб передаються  нові завдання до  найбільш необхідної або найменш навантаженої черзі.
  •  LSF (The Load Sharing Facility, розділений засіб завантаження) - комерційна система від корпорації Platform Computing Corp. Система LSF, що розвилася від системи Utopia, розробленої в університеті міста Торонто, і в наш час є найбільш широко використовуваною комерційною системою керування завданнями. LSF включає розподілені процедури   чергового завантаження та групування програмного забезпечення, яке управляє, контролює та аналізує ресурси в мережі різнорідних комп'ютерів, а також відзначається стійкістю до відмови системи.
  •  SRB (Storage Resource Broker, брокер ресурсу пам'яті) був розроблений у суперкомп'ютерному центрі Сан-Дієго (San Diego Supercomputer Centre, SDSC), щоб забезпечити «однорідний доступ до розподіленої пам'яті» через чіткий API. SRB підтримує дублювання файлу, і це може відбутися як у режимі автономної роботи, так і прямому режимі. Взаємодія з SRB здійснюється через графічний користувальницький інтерфейс. Сервери SRB можуть бути об'єднаними. SRB управляє адміністратор, з можливістю створювати групи користувачів. Головною особливістю SRB є те, що він підтримує метадані, що пов'язані з розподіленою файловою системою, такі як місцерозташування, розмір і інформація про дату створення. Він також підтримує таке поняття як метадані прикладного шару, певні для інформаційного наповнення, яке не може бути узагальнене через всі набори даних. На відміну від традиційних мережевих файлових систем, SRB привабливий для додатків Grid, у яких він має справу з більшими томами даних, що можуть переповнити індивідуальні запам'ятовувальні пристрої, тому що він має справу з метаданими та використовує дублювання файлів.
  •  Nimrod-G є брокером ресурсів Grid, що виконує керування ресурсами та планування  маршрутів і  додатків, що обробляють задачі . Він складається із чотирьох компонентів: механізм, що обробляє завдання; планувальник; диспетчер; агенти ресурсів. Механізм обробки завдань Nimrod-G дозволяє планувальникам, які визначаються користувачем, налаштованим додаткам або середовищам рішення завдань (наприклад, ActiveSheets) бути «включеними», замість заданих за замовчуванням компонентів. Диспетчер використає Globus для того, щоб розгорнути Nimrod-G агенти на віддалених ресурсах для управління виконанням призначених завдань. Планувальник Nimrod-G має здатність орендувати ресурси Grid і сервіси залежно від їхньої продуктивності, витрат і доцільності. Планувальник підтримує відкриття ресурсу, вибір, планування і виконання користувальницьких завдань на віддалених ресурсах. Користувачі можуть установити крайній термін, до якого необхідно одержати результати, і брокер Nimrod-G шукає найбільш підходящі ресурси, доступні в Grid, і використовує їх для того, щоб виконати роботу в строк і спробувати мінімізувати вартість виконання завдання. Nimrod-G підтримує визначення користувачем крайнього строку та обмеження його бюджету, для того, щоб оптимізувати і управляти попитом та пропозицією ресурсів в Grid, використовуючи безліч сервісів та ресурсів.
  •  Grid-Портали, які  дозволяють  вченим і дослідникам звертатися до ресурсів через Web-інтерфейс.На відміну від типових порталів Інтернет, Grid-портал може також забезпечити доступ до ресурсів Grid. Наприклад, Grid-портал може підтвердити дійсність користувачів, дозволити їм звертатися до віддалених ресурсів, допомагати їм ухвалювати рішення щодо планування завдань і дозволяти користувачам звертатися та управляти інформацією ресурсу, отриманої та збереженої на віддаленій базі даних. Доступ до Grid-порталу може також бути індивідуалізований за допомогою конфігурацій, які створені та збережені для кожного користувача порталу. Ці, а також інші атрибути, роблять Grid-портали відповідними засобами для користувачів додатка Grid для звертання до ресурсів Grid. Прикладом може служити портал HotPage  розроблений для одноразового входження в Grid – систему і спрощення доступу до її розподілених ресурсів.

Як тільки виникло друге покоління компонентів Grid, багато міжнародних груп запустили проекти, які інтегрували ці компоненти в свої  системи ПГЗ. Наприклад, таким чином в 2003 році було створено програмне забезпечення проміжного шару NorduGrid для обслуговування потреб країн  північної Європи і розпочата розробка програмного забезпечення проміжного шару  gLite для підтримки проектів CERN.

1.4.2. Однорангові обчислення 

Одним з підходів до рішення проблем масштабування є децентралізація. Традиційна клієнт-серверна модель може стати вузьким місцем у підвищенні продуктивності і єдиним джерелом відмов, хоча усе ще залишається основною, тому що децентралізація несе із собою власні проблеми. Проте однорангові (Peer-to-Peer - P2P) обчислення [2]  і Інтернет- обчислення ( SETІ@home і Entropіa [75]) є прикладами досить загальних обчислювальних структур, які користуються перевагою глобально розподілених ресурсів.

В обчисленнях P2P комп'ютери розділяють дані й ресурси, такі як процесорний час й ємність довгострокової пам'яті, через і Інтернет або приватні мережі. Комп'ютери можуть також обмінюватися даними безпосередньо й управляти обчислювальними завданнями без використання центральних серверів. Це дозволяє масштабувати обчислення P2P більш ефективно, ніж традиційні клієнт-серверні системи, які повинні розгорнути для цього серверну інфраструктуру для забезпечення можливостей розширення. Децентралізація клієнта й сервера одночасно є привабливою не тільки щодо масштабованості, але й відмовостійкості. Однак є деякі перешкоди на шляху масового прийняття систем P2P, які зводяться до наступного:

▪ від персональних комп'ютерів і робочих станцій, використовуваних у складних додатках P2P, будуть потрібні більші обчислювальні можливості для виконання додаткового навантаження по зв'язку й захисту інформації, які звичайно несуть сервери.

▪   захист є серйозною проблемою, оскільки комп'ютери для додатків P2P вимагають доступу до ресурсів інших комп'ютерів (пам'яті, жорстким дискам і т.д.). Завантаження файлів з інших комп'ютерів робить системи уразливими з боку вірусів.

▪  системи P2P повинні працювати з різнорідними ресурсами, що використовуютьють різні компоненти роботи з мережами й операційними системами.

▪  однією із найбільших проблем P2P-обчислень є можливість пристроїв знаходити один одного в обчислювальній структурі, у якій відсутнє центральне керування.

Ідеї Р2Р починають приваблювати все більше дослідників. В 2001 році Sun Mіcrosystems оповістила про початок проекту JXTA [76] з відкритим кодом для інфраструктури й додатків P2P.

1.5. ЕВОЛЮЦІЯ GRID: ТРЕТЄ ПОКОЛІННЯ для е-Науки (з 2004 року)

Однак друге покоління ПГЗ не забезпечило повну  функціональну сумісність створеного Grid програмного забезпечення , що є важливою умовою  реалізації великомасштабних обчислень. Оскільки подальші рішення Grid продовжували досліджуватися, стали очевидними інші аспекти розробки Grid. Щоб побудувати нові Grid - додатки, бажано багаторазово використати існуючі компоненти та інформаційні ресурси, і гнучко ними оперувати.

Дві ключових особливості Grid.систем третього покоління – наголос  на прийняття сервісно-оріентованої моделі та зростаюча увага до метаданих. Фактично сервісно-орієнтований підхід припускає, що гнучке застосування ресурсів Grid у додатках Grid вимагатиме інформацію про функціональні можливості, характеристики та інтерфейси різних компонентів, і ця інформація повинна бути погодженою, щоб можна було її обробляти комп’ютером.

Були введені нові  терміни «розподілене співробітництво» і «віртуальна організація» . В третьому поколінні сформувалося більш цілісне уявлення про виконання Grid обчислень, і можна сказати, що  справа йдеться  скоріше про інфраструктуру для е-Науки, ніж про поліпшення уже розробленої існуючої технології. Очікуване використання обчислювальних засобів з масовим паралелізмом - тільки частина картини, що намалювалася, існує також величезна кількість користувачів, отже розподілені обчислення не були прерогативою тільки комп’ютерів  з масовим паралелізмом .

 е-Наука (e-Science)  – порівняно новий термін, який придбав особливу  популярність після запуску головного британського проекту e-Science [46]. Він охоплює новий підхід до науки, що включає розподілену глобальну співпрацю, яка забезпечуються за допомогою Інтернету і використання величезних масивів даних, комп’ютерних ресурсів терамасштабу і високопродуктивної візуалізації. Сутність e-Science проілюстрована на рис.1.4. Останнє десятиліття  фокусується на  інтеграції науки і інженерії з обчислювальною технікою. За останні 50 років наукова практика продемонструвала зростаючу силу спілкування і важливість колективної співпраці в наукових відкриттях. Раніше вчені спілкувалися за допомогою кораблів і поштових голубів. Тепер вони спілкуються за допомогою авіапошти, телефону, електронної пошти та Інтернету. Співпраця може бути і «реальною» завдяки електронним засобам, тому можна сказати, що Grid – це інфраструктура, що забезпечує існування співробітницької науки.

   

  Рис.1.4. Використання  інформаційних технологій в e-Science

Grid може забезпечити  підтримку віддаленого спілкування вчених  в реальному часі. Особливо важливою є інфраструктура для підтримки розподілених ресурсів – тут є багато ключових сервісів: безпека, масштабування  і управління, реєстрація і пошук, та інтерфейси Web-сервісів, орієнтовані на повідомлення, для забезпечення могутніх механізмів співробітництва. Всі головні Grid-сервіси і інфраструктура забезпечують  співпрацю і є вкрай значущими для суспільства.

Існує безліч прикладів, які ілюструють  вражаюче зростання кількості наукових даних, що генеруються. Як приклад можна розглянути завдання контролю робочого стану промислового устаткування. Британська e-Science програма профінансувала проект DAME (Distributed Aircraft Maintenance Environment) – розподілене оточення технічного обслуговування авіації) [67], який присвячений  аналізу тих даних, що генеруються аеродвигунами компанії Rolls Royce. Вважається, що зараз використовується багато тисяч двигунів виробництва Rolls Royce. Для прикладу, кожен трансатлантичний переліт здійснений двигуном, генерує біля гігабайта даних – від датчиків тиску, температури і коливання. Мета проекту – передати невелику частинку цих первинних даних для аналізу і порівняння з даними, які зберігаються в трьох центрах в різних точках миру. Шляхом отримання  перших результатів Rolls Royce сподівається збільшити період між плановими техобслуговуваннями, таким чином збільшивши рентабельність двигунів. Датчики двигунів генеруватимуть безліч петабайт даних за рік але в реальному часі повинні будуть ухвалюватися рішення про те скільки даних аналізувати, скільки передавати для подальшого аналізу і скільки архівувати.

Подібні, а то і більші, об’єми даних генеруватимуться іншими експериментами з високопродуктивними сенсорами в таких сферах як спостереження за Землею і навколишнім середовищем, фізика високих енергій  і, звичайно, контроль людського здоров'я [14].

З цих прикладів очевидно, що e-Science дані, які генеруються сенсорами, супутниками, складними комп'ютерними моделюваннями, високопродуктивними пристроями, науковими фотографіями і інше скоро перевищать дані, зібрані за всю історію наукових досліджень. На сьогоднішній день, розмір найбільших комерційних баз даних варіюється від десятків до сотень терабайт. Очікується, що в найближчі роки ситуація різко зміниться, і об’єм наукових даних значно перевищить об‘єми комерційних систем. Цей переломний момент неминуче приведе як до нових труднощів, так і до нових можливостей. Саме з цієї причини, можливості наступного покоління Grid програмного забезпечення по доступу до даних, інтеграції даних і об’єднанню даних зіграють ключову роль як для e-Science так і для e-Business .

Об'єми даних настільки значні, що людині просто не під силу проаналізувати їх самостійно, хоча необхідність проведення такого аналізу цілком очевидна, адже в цих "сирих даних" укладені знання, які можуть бути використаний при ухваленні рішень. Для того, щоб провести автоматичний аналіз даних, використовується Data Mining (добування, «витягання» знань) [77]. Це нова технологія інтелектуального аналізу даних з метою виявлення прихованих закономірностей у вигляді значущих особливостей, кореляцій, тенденцій і шаблонів. Сучасні системи добування даних використовують засновані на методах штучного інтелекту засоби уявлення і інтерпретації, що і дозволяє знаходити розчинену в терабайтних сховищах не очевидну, але вельми цінну інформацію. Фактично, ми говоримо про те, що в процесі Data mining система не відштовхується від наперед висунутих гіпотез, а пропонує їх сама на основі аналізу.

В основу сучасної технології Data Mining встановлена концепція шаблонів (pattern), що відображають фрагменти багатоаспектних взаємозв‘язків в даних. Цими шаблонами є закономірності, властиві підвибіркам даних, які можуть бути компактно виражені у формі, зрозумілій людині. Пошук шаблонів проводиться методами, не обмеженими рамками апріорних припущень про структуру вибірки і вид розподілів значень аналізованих показників.

Висунута ІBM концепція системи автономних обчислень [23] містить наступні властивості Grid систем третього покоління:

  •  необхідність деталізованої інформації про компоненти та їх стан для автоматизації процесів обчислення шляхом  створення його сценарію,
  •  автоматична та динамічна конфігурація та реконфігурація;
  •  прагнення оптимізувати свою поведінку для досягнення поставлених цілей;
  •  здатність відновлення після збою;
  •  самозахист від вірусної атаки;
  •  знання про власне середовище;
  •   використання відкритих стандартів;
  •  забезпечення оптимального використання ресурсів.

Третє покоління Grid систем націлене, насамперед,  на створення  «загального дослідницького простору» («collaboratory»), визначеного в 1993 році американським Національним Науковим Фондом  як «центр без стін, у якому національні дослідники можуть виконувати дослідження незалежно від географічного місця розташування шляхом взаємодії з колегами, спільно використовуючи інструментарії, дані й обчислювальний ресурс і звертаючись за інформацією до цифрових бібліотек». Успішними прикладами таких зусиль можуть бути проекти Grіd2003 [47], що призначений поєднати могутні обчислювальні центри США; проект EGEE (Enablіng Grіds for E-scіence іn Europe) [14], метою якого є об'єднання національних, регіональних і тематичних Grid - систем в єдину цільну Grid -інфраструктуру для підтримки наукових досліджень; проект Access Grid [78], присвячений колекції ресурсів, які підтримують співробітництво людей через Grid, включаючи великомасштабні розподілені зустрічі та навчання.

До послуг користувачів, що співпрацюють в Grid системі, надаються наступні можливості:

  •  Оперативні дані від експериментального обладнання;
  •  передача відеоінформації в реальному часі (Web-камери) в індивідуальному режимі або у вигляді розсилання або групової передачі (наприклад, MBONE);
  •  відеоконференції;
  •  система групових Інтернет-дискусій;
  •  миттєві системи обміну повідомленнями;
  •  багатокористувацькі системи віртуальної реальності,
  •  Інтернет-чати;
  •  спільні віртуальні середовища.

Всіх ці елементи відіграють роль у підтримці е-Науки. Зокрема вони підтримують розширення Е-Науки на нові співтовариства, які перетинають поточні організаційні та географічні границі.

Grіd системи третього покоління впевнено крокують до Семантичних Grіd, заснованих на використанні метаданих і онтологій, у яких інформація розуміється як тільки як дані, що мають значення, але і  знання, які здобуваються [79], використаються, представляються, публікуються й підтримуються, щоб допомогти Е-вченим досягати їхніх специфічних цілей. Знання розуміються як інформація, застосована для досягнення мети, рішення проблеми або ухвалення рішення. Семантичний  Grіd охоплює всі три концептуальні шари Grіd: знання, інформація й обчислення/дані. Ці додаткові шари в остаточному підсумку забезпечать багатий, безшовний і розповсюджений доступ, що поширюється на глобально розподілені гетерогенні ресурси. Одна із стандартних методик, що використовуються в управлінні знаннями, – це розроблення порталу знань. Стандартне визначення для нього таке: портал – це працюючий на базі Web додаток, що забезпечує засоби для накопичення, пристосування та персоналізації даних.

Особлива роль належить інфраструктурі метаданих: дані від експериментального встаткування можуть бути виражені відповідно до онтології, тим самим ці дані можуть бути оброблені програмами в такий же спосіб, як статичні дані. На початку 21 століття ми бачимо величезний прорив у телекомунікаціях, коли зявляються глобальні мережі типу GЕANT [7]. Сьогоднішні всюдисущі мобільні телефони та кишенькові комп’ютери – це тільки початок глибшого прориву, націленого на зростаючу легкість надання нам вичерпної інформації про світ, що нас оточує. За наступне десятиліття для розробників додатків все важливіше буде інтегрувати нові пристрої і нові джерела інформації з Grid. Датчики та їх мережі, закладені в мостах, дорогах, одязі тощо, забезпечать величезне джерело даних. Аналіз інформації в реальному часі зіграє ще важливішу роль в охороні здоров'я, безпеці, економічній стабільності тощо. Інтеграція нових пристроїв забезпечить Grid-співтовариству розроблення програмного забезпечення та додатків, але ще й створить абсолютно новий рівень потенціалу для наукових досягнень.

До найбільш вагомих здобутків Grid систем третього покоління, отриманих до тепер, можна віднести:

  •  злиття Grid-технологій  і технологій Web-сервісів, формування Grid сервісу як спеціального розширення Web-сервісу шляхом підтримки екземплярів Grid-сервісу, що мають стан і, можливо, обмежений час життя; З кожним екземпляром Grid-сервісу пов'язані дані сервісу, тобто  інформація, структурована у вигляді набору іменованих XML-елементів, що типізуються (service data elements, SDE
  •  забезпечення інтероперабельності різних реалізацій сервісів, визначення стандартизованих інтерфейсів сервісів (OGSI), визначення протоколу(-ів) для виклику певного інтерфейсу, домовленість про стандартний набір підтримуваних протоколів, при чому для кожного із стандартних інтерфейсів визначений набір елементів даних сервісу, які повинні підтримуватися будь-яким екземпляром сервісу, що реалізовує даний інтерфейс;
  •  запропонування спільними зусиллями  GT, IBM та інших  компаній набору специфікацій під ім'ям WS-Resource Framework (WSRF), який спирається на ту ж архітектуру OGSA, на загальновизнані стандарти Web-сервісів, при чому зберігається багато елементів OGSI, але використовується  інша термінологія і розширюються можливості OGSI;
  •  створення програмному Grid забезпечення Globus Toolkit GT4 як відкритої реалізації  WSRF і засоби розробки клієнтських і серверних додатків на мовах Java, С++ і Python; при цьому GT4 не повністю сумісний з попереднім  GT3

Історія Globus Toolkit наочно демонструє еволюцію перспективної технології від суто академічного проекту з вузьким колом користувачів до загальноприйнятого стандарту, що користується широкою підтримкою ІТ-індустрії у цілому світі. Компанії HP, IBM, Інтел і Microsoft  оголосили у березні 2006 про свій  намір співпрацювати разом, щоб "розвивати загальний набір мережевих сервісів для ресурсів, подій і менеджменту, який може широко підтримуватися різними платформами". Вони також склали меморандум про співпрацю і визначили, якими  будуть ці специфікації. Цей меморандум  пропонує шляхи  до узгодження двох подібних, але конкуруючих підходів: Web Services Distributed Management (WSDM), шо включає   WSRF і WS-Notification (WS-N), який підтримується  IBM, HP, та іншими; з специфікаціями  WS-Management, що включвють WS-Transfer, WS-Eventing, WS-Enumeration і підтримуються  Microsoft, Інтел, та ін. Виданий меморандум свідчить, що нові специфікації, які повинні бути створені, міститимуть всі основні поняття, введені раніше в Open Grid Services Infrastructure (OGSI) і згодом включені в WSRF/WS-N. Отже ця ініціатива  є  сприятливою звісткою про те, що Grid організації і  Globus Alliance протягом найближчих 5-ти років будуть спільно працювати у напрямку розробки  промислових стандартів для системного менеджменту, заснованого на Web сервісах.

 Розглянемо детальніше найбільш видатні досягнення цього періоду.

1.5.1. Сервісно-орієнтована архітектура

До 2003 року з'явився ряд архітектур Grid, запропонованих у різних проектах. Наприклад, в роботі [13] запропонувала відома  багатошарова модель, а в  проекті IBM Information Power Grid [80] – модель з великим набором сервісів, знову ж таки упорядкованих пошарово. До цього часу модель Web-сервісів також придбала популярність, обіцяючи стандарти для підтримки сервісно-орієнтованого підходу. Ще одне з дослідницьких співтовариств розпочало  роботу в області обчислень, заснованих на застосуванні програмних агентів: програмні агенти можуть бути визначені як виробники, споживачі та брокери сервісів [81]. В цілому, стало очевидним те, що сервісно-орієнтована парадигма забезпечує гнучкість, необхідну для третього покоління Grid.

Велике  значення  мало створення консорціумом W3C стандартів Web-сервісів таких як:

  •  SOAP (протокол XML). SOAP забезпечує пакет, що формує дані XML для передачі через Web-інфраструктуру (наприклад через HTTP, через кеш та проксі-сервери), з викликом віддалених процедур (Remote Procedure Calls, RPCs) і механізмом послідовного впорядкування, заснованого на типах даних XML Schema. SOAP розробляється консорціумом W3C у співробітництві із Групою інженерної підтримки Internet (Internet Engineering Task Force, IETF).
  •  Мова опису Web-сервісів (WSDL). Описує сервіс в XML, використовуючи XML Schema; є також відображення на RDF (Resource Description Framework - структура опису ресурсу). Певною мірою WSDL подібний мові опису інтерфейсу IDL (interface definition language).
  •  UDDI (Universal Description Discovery and Integration, універсальний пошук, опис і інтеграція). Це - специфікація для розподілених регістрів Web-сервісів. UDDI підтримує процедури  «опублікувати, знайти та зв'язати»: сервісний провайдер описує та публікує подробиці сервісу в каталозі; запитувач сервісу ставить запити до системного реєстру для того, щоб знайти сервісних провайдерів; сервіси «зв'язуються», використовуючи технічні можливості, надані UDDI. UDDI ґрунтується на XML і SOAP.
  •  Мова WSFL (Web Services Flow Language, мова потоків даних Web-сервісів) є пропозицією IBM, що визначає робочий процес у вигляді комбінації Web-сервісів; XLANG від Microsoft підтримує складні транзакції та множинні Web-сервіси. Очікується об'єднана пропозиція цих двох стандартів.
  •  WSMF (Web Services Modelling Framework) забезпечує концептуальну модель для розробки та опису Web-сервісів, засновану на принципах максимального роз'єднання та масштабованому сервісі посередництва.

           Рис.1.5.  Процес об’єднання Web-   і Grid сервісів

Web-сервіси близько відповідають вимогам до систем Grid третього покоління: вони підтримують сервісно-орієнтований підхід і підтримають стандарти для полегшення інформаційних процесів, таких як опис сервісу (рис.1.5).

1.5.2. Архітектура OGSA 

Структура OGSA (Open Grid Services Architecture, відкрита архітектура Grid-сервісів) – спільне бачення Globus-IBM для об’єднання Web-сервісів і Grid-обчислення, була представлена на Глобальному Grid форумі (GGF) у Торонто ще в лютому 2002 року. OGSA описана в роботах [4,13]. GGF установив робочу групу відкритих Grid-сервісів для того, щоб створити огляд і вдосконалити архітектуру Grid-сервісів і документів, які формують технічну специфікацію.

OGSA підтримує створення, обслуговування та додаток ансамблів сервісів, які використовуються у віртуальних організаціях (ВО). Тут сервіс визначений як об'єкт із підтримкою мережевої роботи, що забезпечує деякі такі можливості, як обчислювальні ресурси, ресурси пам'яті, мережі, програми та бази даних. Це пристосовує створення Web-сервісів для виконання деяких вимог, специфічних для  Grid. Нижче наведені стандартні інтерфейси, наявні в OGSA:

  •  Виявлення (discovery): клієнти потребують механізми для того, щоб знайти  доступні сервіси та визначити особливості цих сервісів і мати можливість  їх конфігурувати  відповідно своїх запитів до цих сервісів.
  •  Динамічне створення сервісу (Dynamic service creation): стандартний інтерфейс і семантика, що повинні забезпечити  створення будь-якого сервісу.
  •  Довічне керування (Lifetime management): у системі повинні бути надані механізми для відновлення сервісів і його стану, пов'язані з невдалими операціями.
  •  Повідомлення (Notification): безліч динамічних, розподілених сервісів повинні бути здатними виявити один одного та одержати інформацію про зміну їхнього стану.
  •  Керованість (Manageability): надані операції, що відносяться до керування та контролю великої кількості екземплярів класів Grid-сервісів.
  •  Просте хост-середовище (Simple hosting environment): просте виконавче середовище – це ряд ресурсів, розташованих у межах окремого адміністративного домена, що підтримує рідні засоби для керування сервісом: наприклад, сервер додатків J2EE, система Microsoft.NET, або кластер Linux.

Компоненти  Globus, на які OGSA впливає найбільше:

  •  протокол GRAM (протокол розподілу та керування ресурсами Grid).
  •  інформаційна інфраструктура, Meta Directory Service (MDS-2), яка використовувана для виявлення інформації, реєстрації, моделювання даних і локального системного реєстру.
  •  GSI (The Grid Security Infrastructure, інфраструктура безпеки Grid).

Очікується, що наступні реалізації інструментарію Globus, починаючи з GT-4.0 (2005 рік) будуть засновані на архітектурі OGSA. Основні сервіси здійснять інтерфейси та визначають поведінку, описану в специфікації Grid-сервісу. Основні сервіси  здійснюють як існуючі можливості Globus, такі як керування ресурсами, передачу даних та інформаційні сервіси, так і нові можливості, такі як резервування ресурсів і їх контроль. Діапазон високорівневих сервісів буде використовувати основні сервіси, щоб забезпечити керування даними, робочим навантаженням і серверами діагностики. На використання архітектури OGSA націлені також нові покоління ПГЗ gLite.

1.5.3. Агенти

Web-сервіси забезпечують  функціональну сумісність, тобто  ключ до Grid обчислень, а  OGSA впроваджує  засоби  адаптації Web-сервіси до Grid. Однак, Web-сервіси не забезпечують нове рішення багатьох із проблем масштабних розподілених систем з надвеликою кількістю запитів, і при цьому вони також не забезпечують нові методики для розробки цих систем. Отже, для обслуговування широкого кола запитів використовуються інші моделі, наприклад, засновані на програмних агентах. При цьому агенти мають наступні особливості:  

  •  Превентивність - агенти демонструють поведінку, що спрямована на рішення поставленої мети
  •  Автономія - агенти діють без зовнішнього втручання та мають деякий контроль над своїми діями та внутрішнім станом;
  •  Соціальна здатність - агенти взаємодіють із іншими агентами, використовуючи мову комунікації агента;
  •  Реактивність - агенти зберігають і відповідають за своє середовище;

Обчислення, засноване на агентах, особливо добре підходить для динамічно змінного середовища, де автономія агентів дозволяє адаптувати обчислення до змінних обставин. Це є важливою властивістю для Grid-систем третього покоління. Однією з методик для досягнення вищевказаної властивості є оперативний обмін інформацією між агентами, і для реалізації цієї методики проведені відповідні дослідження. Ринкові підходи обумовлюють особливо важливі  вимоги  до економічності обчислювальних  систем, необхідних для Grid-додатків.

На сьогодні агенти використовуються в Grid по-різному. Хоча агенти завдяки здатності до переговорів можуть значно поліпшити планування в таких масштабних системах, як Grid, сьогодні ще небагато зроблено у сфері використання агентів для задач планування. Фактично, в стадії початкових розробок нині перебувають дві системи — AgentScape та А4.

Система A4 (The Agile Architecture and Autonomous Agent system) розв’язує проблему управління ресурсами, саме використовуючи програмні агенти, які в свою чергу «спілкуються» між собою, для того, щоб знайти нові ресурси. Кожен агент знає про існування сусіднього агента, за допомогою якого і виконує свої запити для відкриття нових ресурсів. У системі А4, агенти гомогенні і складаються із 3-х основних функціональних рівнів (рис. 1.6)

Рис.1.6.  Агенти системи A4

  •  Communication Layer (рівень комунікацій). Агенти використовують цей рівень, для того, щоб сповістити один одному про використання спільних моделей даних і протоколів зв’язку. Для цього може бути використана мова ACL (Agent Communication Language).
  •  Coordination Layer (рівень координації). На цьому рівні визначається, як повинен поводити себе агент з даними на рівні комунікацій.
  •  Local Management Layer (рівень локального управління). Цей рівень інкапсулює функції, необхідні для управління локальних сервісів. Він також забезпечує необхідною інформацією рівень координації.

Проект AgentScape забезпечує мультиагентну інфраструктуру, що може використовуватися для інтеграції та координування розподілених ресурсів у середовищі Grid. Мета системи - забезпечити мінімальне, але достатнє середовище для агентних застосувань. Модель AgentScape визначає агентів та об'єкти як  головні сутності. Крім агентів, об'єктів та розташування, модель AgentScape визначає також і сервіси, які забезпечують інформацію або дії від імені агентів чи проміжного програмного забезпечення AgentScape. AgentScape надає низку компонентів, а саме ядро, сервіси каталогів та пошуку ресурсів тощо. Ця широкомасштабна розподілена агентна система спроектована для підтримки гетерогенності та інтероперабельності, полегшує розширюваність: достатньо легко будувати агентні середовища над AgentScape. Також AgentScape порівняно просто адаптується до різних операційних систем та мережних інфраструктур. По суті, AgentScape може бути досить просто інтегрована з іншими середовищами та підтримувати підхід до керування Grid-ресурсами, базований на агентах. Робота в цій галузі є  незавершеною, і AgentScape лишається прототипом агентної платформи. На даний момент цей прототип реалізований на мові Java та Python, використовуючи XML-RPC для міжпроцесової комунікації. Планується, що наступний прототип реалізує захищену модель для мобільних агентних систем, Р2Р сервіси та іншу функціональність.

Зокрема, консорціум FIPA (Foundation for Intelligent Physical Agents) створює програмні стандарти для різнорідних і взаємодіючих агентів і систем, заснованих на агентах.  В абстрактній архітектурі FIPA:

  •  агенти спілкуються, обмінюючись повідомленнями, які відображають динаміку змін і закодовані мовою комунікації агента;
  •  сервіси надають підтримку агентам, включаючи сервіси каталогів і сервіси транспортування повідомлень;
  •  сервіси можуть бути здійснені у вигляді агентів або у вигляді програмного забезпечення, до якого можна звернутися через  мови програмування інтерфейсів (наприклад в Java, C++ або мові опису інтерфейсів).

1.5.4. Web як інформаційна інфраструктура Grid

Спочатку Інтернет у Європі просувався зусиллями CERN для розподіленого доступу до інформації в контексті е-Науки. Тоді постає питання,  чи задовольняє зараз ця архітектура розподілу інформації вимогам Grіd. При цьому виникають наступні питання до:

  •  можливості контролю версій, бо Інтернет може безупинно обновлювати сторінки без контролю версій;
  •  якості сервісу, оскільки  вбудовані посилання можуть змінювати сервер, місце його розташування, назву або інформаційне наповнення документа, але очікуваність несуперечності посилань низька, і е-Наука може вимагати більш високої якості обслуговування;
  •  походженню інформації, тому що  не має ніякого стандартного механізму, щоб забезпечити юридично істотний доказ, що даний документ був виданий в Інтернеті в конкретні дату та час;
  •  цифрового керування правами, бо е-Наука потребує специфічні функціональні можливості щодо керування цифровим інформаційним наповненням, включаючи, наприклад, керування інтелектуальною власністю та захист від копіювання;
  •  нагляду, тому що більша частина  інфраструктури Web зосереджена на техніці доставки інформації, а не на засобах створення й керування змістом, особливо в умовах оброблення метаданих.

Web усе більше стає інфраструктурою для розподілених додатків, де скоріше відбувається обмін інформацією між програмами, ніж читання її людиною. Такий інформаційний обмін забезпечується сімейством рекомендацій XML від W3C. XML призначений для розмітки документів і не має ніякого встановленого словника тегів; вони визначені для кожного додатка й використовують Document Type Defіnіtіon (DTD) або XML Schema. RDF - це стандартний спосіб вираження метаданих, особливо ресурсів на Web, хоча ним можна скористатися для опису структурованих даних взагалі. Використання XML й RDF робить можливим  стандартне вираження змісту й метазмісту. З'являються додаткові набори інструментів для роботи із цими форматами, і це збільшує підтримку з боку інших інструментів. Все разом це забезпечує інфраструктуру для інформаційних систем третього покоління Grіd. W3C опублікував документ [82], у якому розглянута перспективна технологія Семантичного Web, обумовлена як розширення нинішньої мережі Web, при якій інформація має чітко виражене значення, що надає кращі можливості для співробітництва людей і комп'ютерів. Головне, що несе ця технологія, - це ідея наявності даних на Web, певних і зв'язаних таким способом, що дозволяє використати їх для більше ефективного виявлення, автоматизації, інтеграції й повторного використання в різних додатках.

Таким чином, Web може досягти розкриття свого повного потенціалу, якщо стане місцем спільного використання та обробки автоматизованими інструментами і людьми, а Семантичний Web призначений зробити для надання знань те, що Web зробив для гіпертексту. DAML (DARPA Agent Markup Language ) – це мовна програма розмітки агентів керування, що стартувала в 2000 році, впроваджує технології Семантичного Web для того, щоб наголосити на комунікації агентів (як обговорювалося в попередній главі). DAML розширюється XML і RDF онтологіями, потужними засобами опису об'єктів та їх відносин. Мова OIL (Ontology Interchange Language) була об'єднана з DAML, щоб сформувати DAML+OIL. W3C створив робочу групу Web Ontology Working Group, що зосереджується на розробці мови, заснованої на DAML+OIL.

Комбінація технологій Семантичного Web з оперативними потоками інформації в значній мірі відноситься до Grid-обчислень і є новою областю. Потоки метаданих можуть бути згенеровані людьми, обладнанням або програмами – наприклад, анотація, параметри настроювання пристрою, дані, оброблені в реальному часі. Оперативні метадані в комбінації з потоками мультимедіа (такими як групове відео) піднімають вимоги до якості мережного сервісу (QoS) і тоді виникає питання, чи повинні метадані бути впроваджені. Сценарій, у якому застосовуються технології знання для розширення співробітництва, описаний в [77].

1.6. ЕВОЛЮЦІЯ GRID: ОБРІЇ НАСТУПНИХ ПОКОЛІНЬ 

У цілому, Grid можна представити у вигляді трьохрівневої системи, що складена з рівнів обчислення/даних, інформації та знання (рис.1.7).

               

       Рис.1.7. Трирівнева архітектура Grid-сервісів

  Семантичний Grid стане місцем, де дані будуть обладнані багатим контекстом і перетворені на інформацію. Тоді ця інформація буде розділена й оброблена віртуальними організаціями для досягнення певних цілей. Така оброблена інформація становить знання. Отже, рівень знання - ключ до наступної стадії в еволюції Grid, до повністю оснащеного Семантичного Grid.

Навіть при тому, що рівень сьогоднішніх  Grid  є досить високим і більшість програмного забезпечення є доступним і безпосередньо використовуваним, він усе ще має нестачу в багатьох істотних аспектах, які забезпечать ефективний доступ, поширення й використання системних ресурсів. Можна виділити наступні задачі, що вимагають подальшого розроблення:

  •  Інформаційні служби - механізми, які використовуються для того, щоб зберігати інформацію про ресурси, тому що Grid має потребу в наданні віддалених, швидких, надійних, безпечних і масштабованих послуг.
  •  Інформація про ресурси - для коректної роботи Grid будуть необхідні всі види інформації, починаючи від імені ресурсу та даних безпеки і закінчуючи прикладними вимогами та параметрами користувача. Важливо, щоб вся ця інформація була зрозумілою, легко інтерпретованою й могла бути використаною всіма службами, які її потребують.
  •  Виявлення ресурсу - повинні бути механізми для визначення місцезнаходження ресурсу в межах глобально розподіленої системи, якщо є унікальне ім'я ресурсу або його характеристики. Сервіси є ресурсами. Деякі ресурси можуть зберігатися, деякі можуть бути перехідними, і деякі можуть бути створені на вимогу.
  •  Синхронізація й координація - повинні бути механізми для керування складною послідовністю обчислень на безлічі ресурсів. Для цього може стати необхідним опис процесу й наявність подієво-орієнтованої інфраструктури, що має на увазі планування на різних рівнях, включаючи метапланування та інформаційні потоки.
  •  Стійкість до відмову системи - середовища повинні справлятися з відмовою компонентів програмного забезпечення та обладнання, так само як із проблемами доступу взагалі, і повинна бути продумана обробка виняткових ситуацій, що необхідна в такий динамічній багатокористувацькій мультисистемі.
  •  Безпека - аутентификація, авторизація, гарантія, і механізми ведення обліку повинні бути встановлені на місці, і вони повинні функціонувати в контексті автоматизації та масштабу, що збільшується.
  •  Паралельність і послідовність - потреба підтримати відповідний рівень послідовності даних у паралельному, різнорідному середовищі. Для деяких додатків достатньою може бути менш чітка послідовність.
  •  Продуктивність - потреба бути в змозі впоратися із глобальним доступом до ресурсів, через кешування та дублювання. Привабливим виглядає переміщення коду (або сервісу) до даних (можливо зі скриптами або мобільними агентами), але вносить ряд проблем.
  •  Різнорідність - потреба працювати з безліччю апаратних засобів, з різним програмним забезпеченням та інформаційними ресурсами, і зробити це через множинні організації з різними адміністративними структурами.
  •  Масштабованість - у системі повинна бути можливість розширити число й розмір сервісів та додатків, не вимагаючи при цьому людського втручання. Для цього потрібна автоматизація та ідеальна самоорганізація.
  •  Інтерфейси- потреба використовувати Grid, не дивлячись на специфічне програмне забезпечення проміжного шару( middleware) в різних інфраструктурах і  платформах, що дозволить  працювати в змішаному  Grid середовищі;

В роботі [83] накреслені риси Grid наступного покоління (NGG) , які повинні дозволяти вирішувати задачі простим чином, що не вимагає від кінцевих користувачів знання складної інфраструктури Grid, підтримувати  довготривалі  процеси і дані (що зберігаються протягом до 50 років і більш), забезпечувати можливість опису даних  і процесів в абстрактній формі, незалежній від змін апаратних засобів і інфраструктури Grid.

Передбачається ефективна інтеграція в Grid людей – постачальників даних, експертів, осіб, що ухвалюють рішення, операторів – що реалізують деякий процес в рамках сценарію досягнення деякої мети в Grid; ефективний пошук знань в Grid виявлення корисних знань у великих масивах даних (описах елементів самого Grid).

В галузі архітектури бажана підтримка необмеженої кількості ресурсів і різних типів пристроїв (NGG можуть складатися з мільйонів пов'язаних один з одним вузлів), при чому вузол Grid – атомарний компонент Grid, що абстрагує підтримувані ресурси і що представляє інтерфейси для доступу до їх функціональності. Вузли можуть взаємодіяти один з одним за допомогою стандартних протоколів, що масштабуються, можуть організовуватися “на льоту” в групи для надання функціональності, якою не володіє жоден з учасників групи. Отримані групи вузлів можуть використовуватися як єдине ціле клієнтами Grid. Самоорганізація вузлів дозволяє підвищити стійкості і понизити витрати на управління системою. Вузли зможуть надавати нові сервіси і використовувати поняття, незнайомі клієнтам. Семантика сервісів, функцій і понять повинна бути визначена у вигляді, доступному клієнтам. Передбачається також можливість узгодження умов постачальників ресурсів з вимогами кінцевих користувачів (Servce Level Agreements) з використанням зрозумілої обом сторонам термінології; подальший контроль за SLA  і представлення елементів Grid (вузлів, користувачів)  у вигляді інтелектуальних агентів, що взаємодіють один з одним за допомогою брокерів. Бажане зручне адміністрування і управління конфігурацією і підтримка декількох віртуальних організацій, що функціонують поверх загальної інфраструктури Grid

В галузі програмування в Grid наголос робиться на більш високий рівень абстракції, бо зараз Grid-інфраструктура повністю “видно” програмістові, вимагаючи ретельного планування використання різних видів ресурсів.

Підвищена складність NGG вимагатиме наявність механізмів абстракції, що роблять прозорими операції резервування і планування ресурсів, переміщення даних, синхронізації, обробки помилок, балансування навантаження і інше.; загальних і проблемно-орієнтованих абстракцій, підтримуваних сучасними середовищами програмування. Передбачено адаптацію існуючих моделей програмування, створення нових моделей, що поєднують в собі практики розподіленого і паралельного програмування;  забезпечення інтероперабельності на семантичному рівні, коли завдання користувача повинне бути переведене у вимоги до ресурсах в термінах, використовуваних в Grid, і коли використовуються  метадані для опису сервісів, ресурсів і користувачів, а також обмежень, політик доступу, схемам білінгу та інше.

Потрібна глобальна інформаційна модель для загальних понять, тому що існуючі стандарти опису Grid/Web-сервісів дозволяють описати сервіс тільки в термінах операцій, що надаються ним, не передаючи семантику цих операцій і їх параметрів. Потрібна семантична об'єктна модель (онтологія) для опису операцій і даних, що дозволяє зафіксувати загальну термінологію, і засоби (автоматичною) інтеграції локальних схем з різних наочних областей в одну глобальну інформаційну схему. Потрібно виробити невеликий набір високорівневих онтологій широкого застосування – для наук, бізнесу, і т.д.

Потрібна також інформаційна модель елементів Grid, яка би інтегрувала інформацію з різнорідних джерел, що використовують різні формати даних і схеми метаданих, забезпечувала засоби перекладу між форматами даних, засоби перекладу між схемами метаданих на основі стандартних базових моделей метаданих і онтологій, гарантії збереження якості і точності даних.

Семантичні технології (Semantic Web + Grid = Sematic Grid)  дозволять описувати  семантичні мережі з допомогою Resource Description Framework (RDF) і  онтології з допомогою Web Ontology Language (OWL), а також забезпечать автоматичне виведення логічних висновків

Очікуються істотні зміни в лояльності віртуальних організацій. Зараз це, як правило, коаліція невеликої кількості постачальників ресурсів, що пропонують зазвичай однотипні ресурси, при чому всі учасники ВО розділяють в тій чи іншій мірі цілі ВО. Відносини між ними не засновані на ринкових відносинах і попиті, а грошові розрахунки  не присутні або замінені віртуальними грошима (виділений бюджет). Такі ВО часто мають вигляд “внутрішніх” ВО з міркувань безпеки, а членство в них як правило статичне, особливо постачальників ресурсів.

Передбачаються  перехід до динамічно створюваних віртуальних організацій з спеціальною технологією   створення і управління життєвим циклом ВО (описи ролей і правил участі, управління членством, резервування ресурсів). Формування ВО може відбуватися в рамках заснованого на ринкових принципах середовища шляхом взаємного підбору партнерів відповідно до переслідуваних кожним з учасників цілями. Легкість створення ВО повинна наблизитися до легкості створення співтовариств в Web з  відповідною законодавчою базою і бізнес-практикою, електронною формою контрактів, з встановленням довіри. Прикладом може служити: створення сумісного проекту декількох організацій з базами даних, що розділяються, обчислювальними ресурсами, листами розсилки. Для досягнення якнайкращих результатів при виконанні завдань взаємодія користувача з Grid повинна бути заснована на знаннях користувача ппро Grid (настройки, переваги) і знань Grid про користувача  Тобто потрібні описи і зберігання персональної інформації, а також захист цієї персональної інформації

На рис. 1.8 показано загальний вигляд світової Grid інфраструктури, що складається з обчислювальних та ресурсів збереження даних в різних країнах, які сполучені мережами з великою швидкістю передачі даних. Товсті лінії відображають мережі з високою пропускною

Рис. 1.8. Загальний вигляд світового Grid

спроможністю, що зв'язують головні центри, тонші лінії - мережі з меншою пропускною здатністю, які з'єднують головні центри з допоміжними центрами. Дані, що генеруються від приборів, експериментів або мережі датчиків зберігаються в основному вузлі збереження даних і по запиту можуть бути переміщенні до інших вузлів у всьому світі за допомогою механізму реплікації даних. Для того щоб локалізувати необхідні дані, користувачу необхідно звернутись до свого локального каталогу реплікації. Якщо користувач має необхідні права доступу, і у випадку наявності запитуваних даних на локальному репозитарії, дані вивантажуються до робочої області користувача. Якщо дані не знайдено на локальному репозитарії, тоді дані вивантажуються з віддаленого репозитарію. Для обробки дані можна передати на обчислювальний вузол, в ролі якого може бути, наприклад, кластер або суперкомп'ютер. Після обробки, результати можуть бути відправлені до засобу візуалізації, розподіленого репозитарію або до робочих станцій користувачів.

Таким чином, Grid забезпечує платформу, за допомогою якої користувачі отримують доступ до об’єднаних обчислювальних, ресурсів зберігання даних і мережевих ресурсів, для того щоб вони могли виконували свої прикладні програми для обробки розподілених даних. Це забезпечує функціональне середовище, що надає користувачам можливість проаналізували дані, спільно використовувати результати з співробітниками і використовувати інформацію про стан даних через встановлені кордони і географічні межі.

Розділ 2.  Прикладні застосування Grid

2.1. е-Наука і Grid проекти

В розділі 1 був використаний термін е-Наука (e-Science), який характеризує сучасний підхід до науки, що включає підтримку розподіленої глобальної співпраці вчених за допомогою Інтернету і віртуалізації  величезних сховищ даних, комп’ютерних ресурсів ї наукового обладнання.. Всі головні Grid-сервіси і інфраструктура забезпечують  таку співпрацю і є вкрай потрібні суспільству.

У часи до появи Інтернету теоретичні і/або експериментальні дослідження проводили одиночки  і невеликі колективи, а засобом обміну результатами були публікації статей

Зараз  Інтернет і  Grid дозволяють вченим проводити  збір і обробку величезних масивів експериментальних даних або результатів моделювання, розроблення  засобів моделювання і аналізу даних, забезпечують віддалений доступ до складних приладів і

обмін інформацією в рамках розподілених, міждисциплінарних співтовариств дослідників

Спочатку Grid-технології призначалися для вирішення складних наукових, виробничих і інженерних завдань, які неможливо вирішити в розумні терміни на окремих обчислювальних установках. Проте тепер область застосування технологій Grid не обмежується тільки цими типами завдань. У міру свого розвитку Grid проникає в промисловість і бізнес, крупні підприємства створюють Grid для вирішення власних виробничих завдань. Таким чином, Grid претендує на роль універсальної інфраструктури для обробки даних, в якій функціонує безліч служб (Grid Services), які дозволяють вирішувати не тільки конкретні прикладні завдання, але і пропонують сервісні послуги: пошук необхідних ресурсів, збір інформації про стан ресурсів, зберігання і доставка даних[1]. Область застосування Grid зараз охоплює ядерну фізику, захист навколишнього середовища, прогноз погоди і моделювання кліматичних змін, чисельне моделювання в машино- і авіабудуванні, біологічне моделювання, фармацевтику[2,44,45].

 Існує безліч прикладів, які ілюструють  вражаюче зростання кількості наукових даних, що генеруються. Додатково до прикладу  проекту DAME (Distributed Aircraft Maintenance Environment [67], наведеному в розділі 1, зупинимося ще на кількох  проектах з величезними .  об’ємами даних , наприклад, з сфери біоінформатики. Вважається що людський геном містить близько 3.2 гігабазисів, що переводиться у всього біля гігабайта інформації. Проте, якщо ми додамо сюди дані про генні послідовності в 100 000 або біля того розпізнаних протеїнах і в 32000000 амінокислотах, відповідний об’єм даних зросте до 200 гігабайт. Якщо додатково включити сюди розміри рентгенівських структур цих протеїнів то розмір даних різко зростає до декількох петабайт, і це якщо враховувати тільки по одній структурі на протеїн. Об’єм ще збільшується якщо ми врахуємо дані про можливі лікарські цілі для кожного протеїну – до 1000 наборів  даних для кожного протеїну. Додатковий об’єм даних необхідний у разі дослідження генетичних варіацій людського генома. Щоб по-іншому проілюструвати проблему цих біоінформативних даних, слід звернути увагу тільки на одну з технологій, які використовуються при генерації таких даних. Розглянемо отримання рентгенівських даних за допомогою сучасного покоління електронних синхротронів. З швидкістю 1200 зображень в годину, кожна експериментальна станція генерує біля терабайта рентгенівських даних в день. Синхротрон наступного покоління - ‘DIAMOND’ – який зараз знаходиться у стадії розробки, генеруватиме безліч петабайт даних в рік, причому більшість з цих даних необхідно передавати і аналізувати.

З появою електронних карток пацієнтів і нововведень у сфері медичної обробки зображень, кількість медичної інформації, що зберігається в цифровому вигляді, істотно зросте. Розвиток сенсорних технологій і технологій моніторингу також внесуть істотний внесок в об’єми цифрової інформації, що зберігається.

Декілька прикладів для демонстрації суті проблеми. Компанія InSiteOne – американська компанія, що працює у сфері медичних зображень. Вони заявляють, що річна кількість рентгенівський зображень в США перевищує 420 мільйонів і має щорічний приріст в 12%. Типове зображення містить багато мегабайт цифрових даних і повинно зберігається як мінімум п'ять років. У Великобританії, програма e-Science  зараз розглядає можливість фінансування проекту по створенню маммографічного архіву. Кожна маммограма містить 100 мегабайт даних, і повинна зберігатися з відповідними метаданими. На даний момент у Великобританії щорічно створюється близько 3 мільйонів маммограм. У США, для порівняння, 26 мільйонів маммограм, що відповідає багатьом петабайтам даних.

Критичною проблемою для таких медичних зображень, - як і для всіх медичних цифрових даних, - є проблема точності і чистоти цих даних. Це означає, що в більшості випадків немає можливості використовувати різні методи стиснення, які могли б істотно зменшити розміри даних, що зберігалися. Іншим ключовим питанням для таких медичних даних є безпека – оскільки секретність і конфіденційність даних пацієнта є найголовнішим моментом для довіри таким технологіям.

У Великобританії, загальні вимоги до кількості даних, що зберігаються, для соціальних наук збільшилися з 400 гігабайт в 1995-му році до більш ніж терабайта в 2001. Хоча подальше зростання і прогнозується, загальний об’єм не повинен перевищити 10 терабайт до 2010 року. Архів ESRC в Ессексі, підрозділ MIMAS в Манчестері і підрозділ EDINA в Единбурзі мають досвід в управлінні архівами для соціальних наук. Підрозділи MIMAS і EDINA забезпечують доступ до статистики переписів Великобританії, постійних урядових опитів, банків макроекономічних даних, наборам цифрових карт, бібліографічним базам даних і електронним журналам. Також зараз створюються величезні історичні бази даних.  

Подібну картину можна спостерігати і в інших країнах[4,5].

З цих прикладів очевидно, що e-Science дані, які генеруються сенсорами, супутниками, складними комп'ютерними моделюваннями, високопродуктивними пристроями, науковими фотографіями і інше скоро перевищать дані, зібрані за всю історію наукових досліджень. До недавнього моменту, комерційні бази даних були найбільшими наборами даних, що зберігаються в електронному вигляді для архівації і аналізу. Такі комерційні дані зазвичай зберігаються в  Базах Даних, таких як Oracle, DB2 або SQLServer. На сьогоднішній день, розмір найбільших комерційних баз даних варіюється від десятків до сотень терабайт. Очікується, що в найближчі роки ситуація різко зміниться, і об’єм наукових даних значно перевищить об‘єми комерційних систем. Цей переломних момент неминуче приведе як до нових труднощів, так і до нових можливостей. Саме з цієї причини, можливості наступного покоління Grid програмне забезпечення по доступу до даних, інтеграції даних і обєднанню даних зіграють ключову роль як для e-Science так і для e-Business[6,7,8].

   Для оброблення приведених та подібних масивів даних сьогодні функціонують сотні галузевих і міждисциплінарних Grid проектів, деякі з котрих приведені в табл.5.1[45]. Вони  можуть  бути цікавими для  українських науковців, тому нижче  проведено стислий огляд  проектів, що активно користуються новими досягненнями у сфері обчислень,у контексті їх застосування до прикладних галузей

Таблиця 2.1.  Перелік  відомих в світі Grid проектів

Назва

проекту

Короткий опис

Контактна інформація

Проекти з фізики

Grid Physics Network

Grid інфраструктура для обробки великих масивів даних з фізики

www.griphyn.org

Particle Physics Data Grid

Обчислювальна Grid для потреб фізики елементарних частинок

http://www.ppdg.net/ 

LHC Com-puting Grid

Grid інфраструктура для обчислень та збереження даних результатів експериментів на LHC (Великому Адронному Коллайдері) CERN

http://lcg.web.cern.ch/LCG

Fusion Collabo-ratory

Grid інфраструктура для фізики синтезу

http://www.fusiongrid.org/

Inter-national Virtual Datagrid-lab

Grid даних для потреб фізики та астрономії

http://www.ivdgl.org/

Проекти з астрофізики

NEMO Project

Обчислення для підводного телескопа Черенкова, для виявлення високоенергетичних частинок

http://nemoweb.lns.infn.it/

ANTARES  

Обчислення для іншого підводного телескопа, для виявлення високоенергетичних частинок

http://antares.in2p3.fr/

MAGIC

Моделювання впливів на атмосферу космічних вітрів

http://wwwmagic.mppmu.mpg.de/introduction/

Проекти з астрономії

ESA Planck mission

Створення мікрохвильової карти неба

http://www.rssd.esa.int/index.php?project=Planck

ASTRO-GRID

Віртуальна обсерваторія (Великобританія)

http://www.astrogrid.org/

US Virtual Observa-tory

 Віртуальна обсерваторія (США)

http://www.us-vo.org/

Проекти з наук про Землю

Coopera-tion for Earth-quake Simu-lation

Співпраця з моделювання та передбачення землетрусів

http://www.quakes.uq.edu.au/ACES/

Geoscien-ces Grid

Grid для підтримки досліджень з наук про Землю

http://www.geongrid.org/

Earth-System Grid

Проект з аналізу впливів на клімат, та передбачення довгострокових кліматичних змін

http://www.earthsystemgrid.org/

Інженерія

Geodise: Aerospace Design Optimisa-tion

Grid система по розробці та оптимізації інженерних рішень

http://www.geodise.org/

Біохімія, медицина

Molecular Modelling for Drug Design

Розробка віртуальної лабораторії для досліджень з молекулярної біології

http://www.gridbus.org/vlab/

Neuro Science - Brain Activity Analysis

Grid система для обробки результатів зчитування активності головного мозку

http://www.gridbus.org/neurogrid/

Bioinfor-matics and e-science programme

Дослідження в області стволових клітин, активності головного мозку

http://www.bbsrc.ac.uk/funding/opportunities/index.htm

CHARON

Один із підпроектів EGEE з використання Grid для обчислювальної хімії

http://egee.cesnet.cz/en/voce/Charon.html

OpenMol-Grid

Відкритий проект обчислювальної Grid для молекулярної хімії та інженерії

http://www.openmolgrid.org/

Grid-Enabled Medical Simulation Services

Grid система для медичного моделювання

http://www.gemss.de/

Biomedical Informatics Research Network

Система з досліджень в галузі біоінформатики

http://www.nbirn.net/

Medical Data Manager

Система з доступу до Grid -розподілених баз медичних знань

http://rainbow.essi.fr/wiki/dokuwiki/doku.php?id=public_namespace:mdm

Міжгалузеві проекти

DataGrid

DataGrid

http://eu-datagrid.web.cern.ch/eu-datagrid/

Datacentric Grid Project

Datacentric Grid Project

http://research.cs.queensu.ca/home/skill/datacentric.html

GRid seArch& Categoriza-tion Engine (GRACE)

GRid seArch& Categorization Engine (GRACE)

http://www.grace-ist.org/

Оpen grid infrastruc-ture for science

Оpen grid infrastructure for science

http://www.opensciencegrid.org/

Enabling Grids for E-sciencE

Enabling Grids for E-sciencE

http://www.eu-egee.org/

Berkeley Open Infrastruc-ture for Network Computing (BOINC)

Berkeley Open Infrastructure for Network Computing (BOINC)

http://boinc.berkeley.edu/

EURO-GRID

EUROGRID

http://www.eurogrid.org/

Inter-national Grid (iGrid)

International Grid (iGrid)

http://www.isoc.org/inet99/proceedings/4a/4a_2.htm

2.2. Grid -технології в астрономії та астрофізиці

Найбільша база даних астрономії на даний момент складає близько 15 терабайт. Проте, нові телескопи шо незабаром почнуть функціонувати докорінним чином змінять цю картину. Нижче надано список трьох нових експериментів 'e-Астрономії', та два проекти з астрофізики [18]:

1. Віртуальні обсерваторії: експерименти e-Science по створенню створити віртуальних обсерваторій, які б містили астрономічні дані в багатьох piзних діапазонах довжин хвиль. Зараз розробляються засоби в Сполучених Штатах (NVO), в Європі (AVO) і в Об'єднаному Королівстві (Astro-Grid).Для прикладу потужність NVO складає більше 500 терабайт за piк, починаючи з 2004.

2. Гравітаційна Обсерваторія Лазерного Інтерферометра  (Laser Interferometer Gravitational Observatory, LIGO): є гравітаційно-хвильовою обсерваторією, що генерує 250 терабайт щорічно, починаючи з 2002.

3. VISTA(visible and infrared survey telescope): Видимий і інфрачервоний телескоп працює з 2004.Генерує 250 Гб необроблених даних за ніч і близько 10 терабайт збережених даних на piк. До 2014 в apхіві буде зберігатись петабайт даних[2,9]..

4. Проект MAGIC моделює поведінку повітряних злив в атмосфері, які викликані високоенергетичним первинним космічним вітром. Це моделювання потрібне для аналізу даних телескопа MAGIC, розміщеного на Канаркових Островах, для вивчення походження і властивостей гамма випромінювання високих енергій.

5. Завдання проекту ESA Planck  з створення мікрохвильової карти неба з безпрецедентною комбінацією покриття неба і частотного діапазону, точності, стабільності і чутливості.

6. Проект ANTARES обслуговує великий підводний детектор Черенкова в глибокому районі Середземного Моря, оптимізований для виявлення мюонів від високоенергетичних астрофізичних нейтрино.

2.2.1. Віртуальна обсерваторія

Астрономи завжди раніше за інших переймали новітні технології, і інформаційні технології не стали  виключенням. На сьогоднішній день накопичена величезна кількість астрономічних даних, доступних  через мережу Інтернет від ефектних і видовищних зображень планет до величезних обсягів необроблених даних. Велика кількість даних добре опрацьована і анотована. Взагалі, на астрономічні дані є небагато авторських прав, інших інтелектуальних майнових обмежень у порівнянні з іншими областями науки, хоча свіжі дані загалом приховуються протягом певного періоду, вони все одно стають загальнодоступними та загальновідомими.

Значні досягнення в розробці телескопів, детекторів і комп'ютерних технологій розширюють астрономічні горизонти, але при цьому потребують значних обсягів для збереження отриманих даних (Рис.2.1). Ці дані охоплюють небо в різних діапазонах частот, від гамма та рентгенівського випромінювання до інфрачервоних випромінювань та радіохвиль.

З появою недорогих технологій зберігання і швидкісних мереж передачі даних поняття мультитерабайтних он-лайн астрономічних баз даних  вже не звучить так дивно, як це могло бути років 20 тому. Постійно з`являються все нові й нові бази даних, які охоплюють все більші та глибші космічні простори. Число пікселів та даних подвоюється щороку.

                               

Рис. 2.1. Повний обсяг графічних даних телескопів у видимому, і радіочастотному спектрах(в гігапікселях)

На додаток до експоненціального збільшення кількості даних збільшується також і кількість та різноманітність інструментів – обсерваторій, локаторів. Вченим дуже просто викласти дані своїх досліджень у Всесвітню мережу для того, щоб співпрацювати з колегами по всьому світу. Необхідно стандартизувати всю різноманітність даних без знищення їх сутності. Важливо, щоб співтовариство визнавало значення цих стандартів і погоджувалося витрачати час на виконання їх.  

  Першим світовим проектом з астрономії стала Національна Віртуальна Обсерваторія (NVO) Національної Академії Астрономічних Наук і Комісії з Питань Астрофізики у США. Подібні програми пізніше започатковано в Європі і Великобританії, також як інші національні зусилля, зараз уніфіковані Міжнародним Альянсом Віртуальних Обсерваторій (International Virtual Observatory Alliance, IVOA). Планується створення Міжнародної Віртуальної Обсерваторії, яке принесе вигоду всьому астрономічному співтовариству, від студентів і любителів до професіоналів.

Архітектура middleware віртуальної обсерваторії заснована на ідеї послуг: Доступні інформаційні ресурси Інтернету з чіткими запитами і послідовними відповідями. Вже існує велика кількість астрономічних інформаційних послуг, але кожна створена без певних стандартів власними силами розробників, з довільними форматами запитів і відповідей, структурами каталогів. Самі послуги розроблені з ідеєю, що людина, а не комп'ютер, є клієнтом, таким чином, результат повертається як HTML або в текстовому форматі. До того ж, дані послуги не розроблені з перспективою масштабування, і не планувалось їх розростання до гігабайтів чи терабайтів.Щоб вирішити проблему розширюваності, були взяті принципи Grid , такі як: ідентифікація, використовування GSI, Брокери Ресурсів і GridFTP для переміщення великий масивів даних.

2.2.2.  Об'єднання та стандартизація астрономічних даних

В астрономії важливими є об'єкти, що знаходяться між великими планетами і малими зірками – так звані коричневі карликові зірки. Це дуже холодні зірки, які видно лише в інфрачервоному спектрі довжин хвиль, але не в видимому. Пошук може бути виконаний за допомогою об'єднання інфрачервоного і оптичного каталогів.

Задача Віртуальної Обсерваторії – об`єднати різнорідні цифрові астрономічні дані,  отримані з різних джерел, і звести їх  до однієї системи відліку Головним компонентом таких програми є ефективна обробка великих кількостей даних, і тут стають у пригоді Grid-технології.

Інше завдання Віртуальної Обсерваторії - стандартизація результатів роботи, отриманих  різними науковцями та обсерваторіями багатьма різними способами. Частина проекту має на меті побудувати достатню структуру метаданих таким чином, що нові отримані дані і ресурси обчислень можуть автоматично поєднуватися з уже існуючими базами даних. Головний виклик  цього підходу, як і будь-якого зусилля по стандартизації, - заохочення ухвалення стандарту науковим  співтовариством.

2.2.3. Обробка зображень

Зображення - це невід`ємна частина астрономії  від ескізів, зроблених  олівцем, до фотопластин 16-гігапіксельного  фотоапарата, встановленого на телескопі Hubble.

Проект Віртуальне Небо забезпечує цільні, з'єднані зображення нічного неба; не тільки його популярних місць, але і повного  неба в  різних діапазонах довжини хвиль (Рис.2.2). На сьогоднішній день Віртуальне Небо містить повний альбом DPOSS (Digital Palomar Observatory Sky Survey), підготовлений Обсерваторією Паломар (США)  з легким у використанні інтуїтивним інтерфейсом,  і який може бути використаний будь-ким. Споживачі можуть бачити повну картину усього неба на екрані, або піднятися вгору, до максимальної роздільної здатності зображень. Віртуальне Небо об'єднало багато різних джерел зображень в уніфікованому інтерфейсі (рис.2.2).

Деякі з можливостей віртуальної обсерваторії вказано нижче:

• Цифровий огляд Неба Обсерваторії Palomar;

• Цифровий огляд Неба Sloan;

• Зоряна карта великого масштабу;

• Знімки Hubble.

• ‘Uranometria’, набір офортів 1603 року, який був першим

  істинним зоряним атласом;

• ROSAT : весь огляд Неба в рентгенівському діапазоні;

• Огляд Неба NRAO VLA в довжинах радіохвиль (1.4 GHz) та ін.

Віртуальне Небо сполучене з іншими астрономічними послугами даних, такими як, наприклад, позагалактичний каталог Nasa(NED) і зоряний каталог Simbad в Стразбурському Університеті.

Заснований та фінансуванні  NASA проект MONTAGE [20] надбудовує Віртуальне Небо системою створення мозаїк, яка надає широкий вибір методів та засобів з створення неперервних зображень і реалізовується в архітектурі Grid. Обробка запитів користувачів здійснюється паралельно для багаторівневих зображень з різних джерел та в багатьох діапазонах довжин хвиль. Система працює з різними базами даних зображень: 10 терабайт 2MASS (інфрачервоний спектр), 3 терабайт DPOSS (оптичний), і ще більша база SDSS.

Рис. 2.2. Два зображення Віртуального Неба

 Архітектура заснована на парадигмі Grid, коли  дані будуть братися з найпридатніших джерел, а обчислення будуть робитися на будь-якій доступній платформі (рис.2.3). Якщо дані доступні в деякому сховищі вони надаються користувачеві, в іншому випадку система генерує потрібні дані на основі існуючих.

  Потужний цифровий фотоапарат, встановлений на  телескопі обсерваторії Palomar, використовується для систематичного моніторінгу неба з ціллю визначення можливих змін. Зображення однієї частини неба отримуються повторно і порівнюються між собою, щоб визначити швидкоплинні зміни.

За проектом  NEAT (Near Earth Asteroid Tracking) ведеться пошук  астероїдів, які можуть небезпечно наблизитись до Землі. Деякі інші явища, що відслідковуються:

  •  Швидкоплинне гравітаційне лінзування: проходження певних об`єктів з малою світністю між зірками та спостерігачем. Такі об’єкти мають занадто низьку світність, щоб бути зафіксованими іншими способами.
  •  Гравітаційне лінзування квазарів: пошуки нових квазарів.
  •  Нові суперзірки: Система Пошуку здатна знайти дуже віддалені  нові суперзірки, що покращить наше розуміння процесів, які відбувалися при зародженні Всесвіту.
  •  Рентгенове післясвічення: дослідження високоенергетичних процесів у космічних об’єктів.

                                   Рис. 2.3. Структура MONTAGE

2.3.Grid в екології та метеорології

Передбачається, що об'єм даних, що генеруються в екологічній науці, кардинально зросте за майбутні декілька років. Приклад з  прогнозу погоди може проілюструвати  це твердження.  Європейський Центр Передбачення Погоди (ECMWF) у Сполученому Королівстві зараз обслуговує 560 активних споживачів і опрацьовує  40 000 пошукових запитів щодня, залучаючи дані з понад 2 000 000 метеорологічних постачальників. Кожного дня додається ще інформація з близько 4 000 000 інших джерел, що становить приблизно 0.5 терабайт нових даних. Сховище таких даних зараз містить близько 330 терабайт. Зростання в об'ємі метеорологічних даних становить близько 80% за рік

Такі ж обсяги інформації спостерігаються і в Сполучених Штатах та інших країнах. Для прикладу, тільки в одному агентстві NASA спостерігається передбачене зростання об'ємів даних більш ніж десятиразово за п'ятирічний період з 2000 по 2005. Центр Даних Ерос (EDC) передбачає, що обсяги даних зростуть від 74 терабайт в 2000 до понад 10 петабайт до 2009. Цікаво, що зростання об'ємів даних в EDC і GSFC відповідає подвоєнню їх відповідних бюджетів протягом того ж періоду.

В NASA буде накопичено 25 петабайт даних до 2009. В Європі супутники Європейського Космічного Агентства (ESA) зараз генерують понад 100 гігабайт даних за день. З запуском Envisat і майбутніми запусками другого супутника  Meteosat і нових супутників MetOp  щоденні генеровані дані ESA ймовірно перевищать показники NASA.

2.3.1. Метеорологічні прогнози засобами Grid

Попит на надання надійних та точних короткотермінових метеорологічних прогнозів для урядів, промисловостей, транспорту та медіа постійно збільшується. Місцеві прогнози найбільш цінні у випадках зіткнення контрастних повітряних мас, коли є змога передбачити, наприклад, тайфуни або сильні тропічні бурі, які можуть призвести до руйнівних наслідків [42]. На даний момент створено багато національних послуг з передбачення погоди, таких як Німецький Синоптичний Центр DWD (Deutscher Wetterdienst) , які  прогнозують  погоду на ділянках  з розміром  10 км або менше, використовуючи моделі NWP, до чотирьох разів день, щоб забезпечити необхідні дані  для громадськості. Виконання  моделей NWP є складною обчислювальною задачею: 48-ми годинне передбачення утворює близько 20 Гбайт даних. Крім того, короткий прогноз погоди - це критичне завдання за часом, яке потрібно завершити менш ніж за дві години. Тому тільки обчислювальні центри високої продуктивності (HPC) здатні виконувати такі прогнози.

Європейський проект EUROGRID [10] має на меті забезпечити необхідну інфраструктуру для потужних обчислень, а саме Grid-мережу обчислювальних центрів та програмного забезпечення UNICORE. Така Grid мережа  складається з наступних HPC центрів: CSCS Manno в Швейцарії, FZ Julich в Німеччині, ICM в Університеті Варшави в Польщі, CNRS-IDRIS у Франції, в Університеті Bergen в Норвегії, і Університеті Манчестера в Об'єднаному Королівстві. MeteoGrid є одним з трьох проектів EUROGRID, решта двох є BioGrid (Grid для моделювання біомолекулярних структур) і CAE Grid (задачі моделювання в авіації.

Програма з прогнозування переміщення повітряних мас LM  встановлена в центрах CNRS-IDRIS HPC, Університеті Манчестера і Центрі Досліджень Juelich, і на системі DWD. LM написана на стандартному Fortran90 і використовує MPI для передачі повідомлень. Тому у принципі код надзвичайно мобільний. Але є звичайно цілий ряд залежних параметрів установки (подібних параметрам трансляції або бібліотечним версіям), які доводиться пристосовувати для оптимальної продуктивності згідно з умовами реального масштабу часу для системи надпотужних обчислень. Функціональність LM для визначення і початку прогнозів  була оцінена при тестуванні споживачами, які не мають ніякого досвіду в роботі з обчислювальними центрами. Їх досвід і пропозиції - це основа для подальшої розробки LM-GUI. Типовий прогноз на 48 годин для будь-якого регіону земної кулі  виконується менш ніж за дві години, що включають приготування топографічного файлу даних. Протягом прогнозування користувач інформується  про поточний стан  LM і очікуваний час  закінчення завдання.

Передбачення руху повітряних мас для конкретного регіону складається з наступних кроків:

  •  Завантажується топографічний набір даних з високою роздільною здатністю (1х1 км) для конкретного регіону. Шукаються середні значення параметрів топографії на певних ділянках (наприклад 7х7 км), котрі зберігаються для подальшого використання. Дані параметри включають: висоту місцевості, кількість водойм, тип ґрунту, розміри нерівностей, рослинність, тип листового покриву та глибину коріння рослинності.
  •  Зчитуються метеодані на певний момент часу з база даних GME. Ці дані є початковими для передбачення руху повітряних мас. Дані з GME надходять в центр обчислень, де програма передбачення обробляє їх.
  •   Програмний інтерфейс GME2LM інтерполює дані, отримані з GME, до решітки передбачення руху повітряних мас на потужному обчислювальному комплексі. Це становитиме початкові і граничні дані для процедури передбачення. Ці дані зберігаються на дисках в обчислювальному центрі, і становлять близько 12-20 Гб.
  •  Як тільки початкові дані та два додаткових граничних набори даних готові, проводяться обчислення і створюються файли результату (із щогодинним інтервалом). Типовий ряд детальних регіональних цифрових рухів прогнозу погоди, що передбачається, - це 48 години.
  •  Ці файли результату складаються з даних коду GRIB (Gridded Binary data, стандартний 8-розрядний байтовий код, розроблений WMO, Світовим Метеорологічним Співтовариством, Женева). Файли передаються кінцевим споживачам, їх розмір складає 2-4 Гбайт (для прогнозу на 48 годин). Дані знаходяться в 49 файлах (0 год, 1 год, ..., 48год), кожний містить один крок передбачення; кожний файл має розмір 40-80 Мбайт. Дані коду GRIB можуть бути легко візуалізовані стандартними графічними пакетами, такими як  GRADS або VIS5D на робочих станціях або PCs.

2.4.  Grid в біоінформатиці

У сфері біоінформатики є багато швидкозростаючих баз даних:

1. Протеїновий банк даних (PDB): Це база даних тривимірних протеїнових  структур. На даний момент в ній близько 20000 записів і близько 2000 нових структур додаються кожні 12 місяців. Загальний розмір бази порівняно невеликий, порядок - гігабайти.

2. SWISS-PROT: Це база даних протеїнових послідовностей, яка на даний момент містить близько 100000 різних послідовностей із знаннями, отриманими з близько 100000 різних наукових статей.  Поточний розмір має порядок десятків гігабайт з 18%-им приростом за останніх 8 місяців.

3. TREMBL: Це комп'ютерно-анотоване доповнення до SWISS-PROT. Була створена для подолання тимчасової затримки між подачею даних і їх появою в керованій вручну базі даних SWISS-PROT. Надалі записи з TREMBL переміщаються в SWISSPROT. На даний момент містить більше 600000 записів і оновлюється кожного тижня. Розмір порядку сотень гігабайт.

4. MEDLINE: Це база даних медичної літератури (Автор, Назва, Резюме, Ключові Слова, Класифікація). Вона створена Національною Бібліотекою Медицини Сполучених Штатів і містить 11.3 мільйонів записів. Розмір порядку сотень гігабайт.

5. EMBL база даних нуклеотідових послідовностей: Європейський Інститут Біоінформатики (EBI) у Великобританії є одним з основних місць для зберігання даних про нуклеотідових послідовності. Містить близько 14 мільйонів 15-байтних записів.   Новий запис надходить кожні 10 секунд, а дані в трьох центрах – в США, Великобританії і Японії, - синхронізуються кожні 24 години. База даних Європейської Лабораторії Молекулярної Біології (EMBL)  потроїлася в розмірі за останніх 11 місяців. Близько 50% даних відноситься до людського ДНК, 15% до ДНК мишей, а решта – ДНК різних організмів. Порядок повного розміру бази даних - терабайти.

6. База даних GeneExpression: Ця база має дуже високе навантаження даними, оскільки вона містить графічні дані, отримані з чипів і мікромасивів ДНК. У найближчі декілька років очікується проведення сотень експериментів в тисячах лабораторій по всьому світу. Прогнозовані вимоги до розміру даних, що зберігаються, варіюються в порядку петабайт в рік. Ця картина дає загальні контури розміру і різноманітності даних, які створюються у сфері біоінформатики. На відміну від деяких інших наукових дисциплін, в цьому випадку дані є складним комплексом цифрових, текстових і графічних даних. З цієї причини, механізми управління і доступу є виправдано дуже складними. Крім того, з'являються нові технології, які істотно прискорять зростання даних. Очікується, що з використанням таких технологій ланцюжок людського геному міг би бути розрахований за дні, а не за роки, які було потрібно насправді [11].

 Grid дає великі надії для багатьох прикладних застосувань у біоінформатиці, що потенційно приведуть до значних покращень у охороні здоров’я та загальному рівні життя. Зараз вирішуються задачі  «простої»  біологічної складності – прості і складні біологічні молекули. Більш складні біологічні системи – клітини, органи, цілі організми, що пов’язані з величезними наборами даних – ще довго будуть залишатись серйозними завданнями для архітекторів апаратної та програмної частин Grid. Співробітництво між технічною і біологічною спільнотою є основою  для серйозних зрушень у біології.  До 2050 очікується, що буде можливість і генерувати послідовність людського генома ДНК за приблизно $160 протягом години, і наш генетичний профіль буде звичною частиною нашої медичної картки з набором ліків, що розроблені спеціально для такого профілю. Будуть  розшифровані гени великої кількості видів, і завдяки порівнянню геномів побудовані  дерева життя. З них шляхом  інтерполювання будуть  визначені невідомі зараз ланки в розвитку людини. В подальшому, можна буде  прослідкувати походження , скажемо,  птахів назад до динозаврів, і побудувати припустимі геноми (креслення) і фенотипи (фізичні характеристики) видів, що уже не існують в нашому сучасному світі, а вимерли мільйони років тому[13,14].

Біомедицина є одним з основним застосувань  проекту EGEE. Через те, що розгорнуто більше 20 застосувань, біомедицину розділено на три ділянки: медична обробка зображень, біомедицина та знаходження ліків, для кожної з яких уже існує багато працюючих застосувань у інфраструктурі EGEE. Ці застосування накладають певні специфічні вимоги на ПГЗ , особливо пов’язані з безпекою (чутливість даних), керуванням даними (складні структури даних та розподіл даних), та запуском великої кількості невеликих задач, що вимагають інтенсивної роботи з даними. Біомедичні застосування уже стали постійними користувачами інфраструктури: в наслідок цього, віртуальна організація, що об’єднує користувачів з наук про життя та медичні дослідні спільноти, є найбільшими споживачами ресурсів інфраструктури після чотирьох проектів з фізики високих енергій, що пов‘язані з експериментами на  колайдері. Варто згадати дослідницьку мережу медичної інформатики (Biomedical Information Research Network, BIRN), яка  об’єднує сполучає обладнання і бази даних (рис. 2.4.). необхідних для біомедичних досліджень та нейродосліджень [43].

Рис.2.4.  BIRN  мережа біомедичної інформатики

2.4.1.Сектор медичних зображень

Він націлений на комп’ютерний аналіз цифрових медичних зображень і  включає об’єднання медичних даних, медичні процедури, що вимагають великої кількості розрахунків, обробку великих масивів даних і статистичні дослідження населення.

GATE – це моделюючий пристрій, що базується на методі Монте-Карло та зображеннях пацієнта, для планування радіотерапевтичного лікування. Він використовує Grid інфраструктуру EGEE для зменшення часу, необхідного для Монте-Карло моделювання, до значення, що є допустимим для медичного використання.

• Система підтримки прийняття медичних рішень (The Clinical Decision Support System (CDSS)) використовує класифікацію зображень, що базується на експертних знаннях, щоб допомогти кліничному діагностуванню. Grid експлуатується як для збору великих масивів даних так і для ефективної класифікації зображень у цих масивах даних.

• Програма Pharmacokinetics вивчає дифузії контрастних агентів в печінці по набору магнітних резонансних зображень. Через рух пацієнта з’являються артефакти, що не дають можливості порівнювати зображення. Але паралельні розрахунки, що виконуються на Grid, дають можливість за допустимий час проаналізувати набір цих зображень.

SiMRI3D – це моделювання магнітнорезонансних зображень (рис. 5.5) для створення штучних, але реалістичних трьохмірних магнітнорезонансних зображень (MR) для аналізу зображень з добре відомих джерел, вивчати похибки і в подальшому розвивати та оптимізувати технології магнітнорезонансних зображень.

В результаті використання Grid значно пришвидшується час моделювання і з’являється можливість дослідження складних та великих зображень[16].

• Програма gPTM3D уможливлює інтерактивну реконструкцію трьохмірних медичних зображень, наприклад об’ємне відтворення великих або комплексних органів. Якість виконання, що вимагає інтерактивність, означає що деякі сайти з Grid повинні встановити найвищий пріоритет для цього класу робіт.

Bronze Standard  - це програма для розрахунку алгоритмів реєстрації медичних зображень. Кількість оброблюваних даних і ціна розрахунків значно перевищує можливості стандартних комп’ютерів, але програму можна легко розпаралелити на Grid.

• Пакет програм SPM використовується дослідницькою спільнотою неврологів для раннього діагностування хвороби Альцгеймера. Він базується на порівнянні стану хворого з великим набором нормальних станів. Технології Grid уможливлюють простий доступ як до розподілених даних так і до розподілених ресурсів.

Рис 2.5. Алгоритм моделювання магнітнорезонансних зображень

SEE++ це програмне забезпечення для трьохмірного біомеханічного моделювання людського ока і його м’язів. Воно моделює техніки оперування м’язів звичайного ока в графічному інтерактивному вигляді, що дозволяє досвідченому хірургу точно поставити діагноз та лікувати страбізм.

ThIS є  терапевтичним симулятором опромінення, що базується на наборі інструментів GEANT4. Він моделює опромінення живих тканин потоками фотонів, протонів і легких іонів для лікування раку. Для ефективності моделювання Монте Карло розпаралелюється між Grid ресурсами.

• Медичний менеджер даних (MDM) є високорівневим middleware сервісом, тісно пов’язаним з gLite middleware, що використовується для безпечного керування даними. Він надає системний інтерфейс керування даними DICOM-to-grid, управління медичними метаданими та високий рівень безпеки [14].

2.4.2. Сектор біоінформатики

Він націлений на аналіз генів і протеїнів, включаючи геноміку, протеоміку і філогенію. Існують  21 біоінформатична програма на даний моментя, основною метою яких є створення біоінформатичної спільноти науковців-користувачів Grid і забезпечити їх загальними біологічними базами даних і інструментами на платформі EGEE. Проект EGEE співпрацює зі спорідненими проектами BIOINFOGRID , EELA , SwissBioGrid  для обміну  широким  різноманіттям існуючих  програм , а також з Європейською Мережею Досконалості (the European Network of Excellence) EMBRACE . Прикладом спільних робіт є перенос і запуск програми PyBioS на EGEE Grid (співробітництво MPI-MG & CNRS IBCP), або удосконалення усіх протеїнових структур бази даних PDB (співробітництво CNRS LCP та IBCP, CMBI, SIB, Uppsala Univ.).

Grid Аналіз Протеїнових Рядів (GPS@) є біоінформатичним web-порталом, що забезпечує біологів певним біоінформатичними ресурсами на Grid через перевірений і надійний NPS@ web-інтерфейс. Усю складність Grid повністю сховано для декількох відомих баз даних (SwissProt, TrEMBL, PROSITE) та інструментів (BLAST, FASTA, SSearch, ClustalW, …).

Systems Biology on the Grid. PyBioS – платформа для моделювання і симуляції, що автоматизує створення великих біологічних моделей через інтерфейс доступу до звичайних біологічних баз даних.

BioDCV – програма для молекулярної онкології. Аналіз мікромасивів даних і проте омічних даних відбувається за допомогою векторних машин підтримки (Support Vector Machine (SVM)), що виконують роль класифікаторів. На виході отримуємо очікувані моделі класифікації, впорядкований список біомаркерів та оцінку точності для нових даних.

SPLATCHE (SPatiaL And Temporal Coalescences in Heterogeneous Environment – Просторово-часові інтеграції в різнорідному оточуючому середовищі) – клітинний інструмент для моделювання еволюції генома. Він дозволяє відновити процес розселення людини по Землі в географічно правдивих ландшафтах, а також моделювати усе молекулярне різноманіття різних людських популяцій.

BiG – Grid сервіс для виконання широкомасштабних BLAST операцій через web-портал або інтерфейси web-сервісів. В якості машини для розрахунків використовується mpiBLAST. Уможливлюється одночасний запуск на різних базах даних BLAST операцій .

Superlink-online. Розробляється засіб для аналізу генетичних сполук, Superlink online. Він націлений на пошук генів, що викликають певні захворювання.

Mlalign2D та MLrefine3D – дві ключових програми для обробки зображень з електронних мікроскопів, що дозволяють проводити структурну характеристику макромолекулярних об’єднань, що знаходяться в різних функціональних станах.

MCell – загальний симулятор для клітинної мікрофізіології (вивчення фізіологічних феноменів, що відбуваються на мікроскопічному рівні в живих клітинах), який  моделює комплексні біохімічні взаємозв'язки молекул всередині і назовні клітин. Програма

MCell встановлена в лабораторіях по всьому світу, і її вже зараз використовують в декількох практичних додатках (наприклад, вивчення кальцієвої динаміки в гепатоцитах печінки). Grid-технології зробили можливим впровадження широкомасштабного MCell, що працює, зокрема, і на кластерах, і на суперкомп’ютерах . Комп'ютерні фахівці працювали з біологами спільноти MCell для розробки програмного забезпечення проміжного шару Grid під  назвою APST (AppLeS Parameter Sweep Template для ефективного впровадження та масштабування широкомасштабних застосувань в динамічних та розподілених середовищах.

2.4.3. Сектор розробки ліків

Він націлений на прискорення процесу пошуку нових ліків завдяки використанню комп’ютерного моделювання структури і динаміки протеїнів.

• Проект WISDOM вимагає значних комп’ютерних розрахунків для розробки ліків проти як нових так і уже раніше переможених хвороб. Розрахунки стикування молекул дозволяють визначити як добре певні ліки приєднуються до певних ділянок вірусу – тобто, визнаються ліки, що найкраще стикуються з вірусом і відповідно є найбільш ефективними. Ця технологія ефективно показала себе проти малярії та пташиного грипу, причому отримані результати було підтверджено лабораторними дослідами.

GridGRAMM – простий інтерфейс для розрахунку стикування молекул (докінга) через Web. Результати включають оцінку якості докінга та різноманітні методи доступу до трьохмірної структури комплексу. Молекулярний докінг можна використовувати для вивчення молекулярної взаємодії, для аналізу взаємодії між ензимами і субстратом, для розробки ліків та розуміння патологічних мутацій.

• Метою GROCK (Grid Dock) є забезпечення простого способу проведення масового відбору міжмолекулярних взаємодій через Web, що дозволяє користувачу дослідити одну молекулу відносно цілої бази даних відомих структур[14,15].

CEPAR і CEPort – програми порівняння 3D-структури протеїнів  На сьогодні обробляються і розшифровуються людський геном і менш обговорювані, проте не менш важливі 800 інших геномів. Гени - це креслення для протеїнів, що синтезуються в живому організмі. Самі ж протеїнами є будівельними блоками життя.

  Протеїни контролюють всі клітинні процеси і визначають нас як вид і як індивідууми. Крок по дорозі до розуміння функцій протеїну - це його структура – тривимірна форма, яка відрізняє його від інших протеїнів, ліки, і так далі. Приріст в кількості і складності структур протеїнів  можна  спостерігати в еволюції Банку Даних Протеїнів (PDB)[48], міжнародному сховище даних структур протеїнів.

 Структура конкретного протеїна визначається через геномні структури ДНК, тому однією з задач, що стоять перед біологами є визначення всіх структур, що можуть бути закодовані геномом організму. Типовий протеїн складається з 300 ланок, кожна з яких є однією з 20 різних амінокислот, тобто ми маємо 20_300 різних можливих комбінацій. Число унікальних складових ланцюжків протеїнів в людському організмі зараз оцінюється в межах 1000 до 10000. Ці ланцюжки, при додаванні в базу, повинні бути унікальними, і всі нові структури потрібно порівняти з уже занесеними в базу, щоб перевірити, чи вони узгоджуються з існуючими ланцюжками або зобразити новий ланцюжок. Кожен ланцюжок, що додається потрібно попарно зрівняти з усіма з приблизно 30000 ланцюжків, збережених у ДНК. Нескладно порахувати, що за потужностей одного персонального комп`ютера на таке порівняння піде приблизно 400 років. Використання надпотужних обчислювальних систем, оптимізація організації даних, фільтрування і ефективне планування зменшують цей час до декількох днів.

Результат - це база даних порівнянь, яка використовується глобальним співтовариством споживачів 5 до 10 тисяч разів за місяць, і вже призвела до цілого ряду цікавих відкриттів, цитовані у понад 80 дослідженнях. База даних підтримується Центром Суперкомп'ютерних Обчислень у Сан Дієго (SDSC)

 

2.4.4. Програма  IBM World Community Grid

Програма World Community Grid (WCG) створюється за участі Національного інституту охорони здоров'я США, Всесвітньої організації охорони здоров'я, ООН і інших організацій, пов'язаних з наукою і охороною здоров'я. Рада, що складається з представників цих організацій, обиратиме, які саме завдання належить вирішувати за допомогою WCG [23].

Human Proteome Folding Project - перший проект WCG для Інституту біології організму по створенню каталогу всіх білків, наявних в людському організмі, і вивченню їх функцій. Планується, що за допомогою WCG розраховуватиметься процес перетворення нових генів в білки, а потім образи, що вийшли, порівнюватимуться з тривимірними зображеннями вже відомих білків, що містяться в спеціалізованій базі даних.

FightAIDS@home - другий проект WCG , що займається розробкою нових ліків від СНІДу. Раніше цей проект працював самостійно, але так і не здобув особливої популярності, а також мав декілька помітних недоліків в клієнтському програмному забезпеченні і оформленні сайту. В рамках проекту величезні обчислювальні потужності World Community Grid направлені на створення хімічних сполук для ефективного лікування ВІЛ-інфікованих людей на тлі зростаючого опору вірусу існуючим лікарським препаратам. Головним завданням проекту є розробка нових, надійніших методів лікування з метою запобігання розвитку СНІДу у ВІЛ-інфікованих людей[1,2]. Спочатку, для створення World Communtity Grid IBM ліцензіювала у United Devices (авторів проекту grid.org) розроблену ними платформу для розподілених обчислень. Тому WCG можна було назвати клоном grid.org, що має власний сайт, статистику і форуми. Пізніше, проект було портовано на BOINC.

Help Conquer Cancer (Листопад, 2007 рік) – проект з  дослідження причин появи онкологічних захворювань, їх розвитку і методів терапії. В рамках проекту проводяться дослідження дефектних білків, які є причиною більшості онкологічних захворювань в організмі людини. Крім поліпшення розуміння специфічних функцій цих білків і їх взаємодії в організмі, проект направлений на пошук білків, які дадуть можливість завчасно діагностувати рак, до появи його симптомів, щоб збільшити шанси уповільнення розвитку захворювання, а можливо, і добитися його повного лікування.

AfricanClimate@Home (Вересень, 2007 рік) –проект з  дослідження моделей зміни клімату Африканського континенту. Проект покликаний створити точні моделі клімату для прогнозування кліматичних змін і їх впливу на здоров'ї населення і стан навколишнього середовища. Результати, отримані в процесі моделювання клімату в територіально невеликих областях Африки, потім порівнюватимуться з результатами реальних метеоспостережень.

Discovering Dengue Drugs – Together (Серпень, 2007 рік) – проект з пошуку нових лікарських засобів для боротьби з флавівірусами. Проект направлений на розробку вакцин, здатних запобігти розмноженню вірусів тропічної лихоманки, енцефаліту Західного Нілу, гепатиту C і жовтої лихоманки. Після уточнення складу вакцин за допомогою комп'ютерного аналізу, почнуться лабораторні і клінічні випробування цих ліків для визначення їх ефективності.

Human Proteome Folding, 2-й етап (Червень, 2006 рік) – проект з вивчення просторової структури білків людського організму. Проект продовжується і на сьогоднішній день має дві основні мети: ідентифікація білків, складових протеому людини і прогнозування подальшого розвитку білкової структури людини. Проект допоможе зрозуміти причини виникнення і, можливо, способи лікування захворювань типу малярії та туберкульозу. Знання про особливості невідомих людських білків дозволять вченим зробити наступний крок до розуміння розвитку невідомих функцій крові і інших складових людського організму.

Біоінформатика та обчислювальна біологія стають у фокусі академічних і промислових досліджень. Ядро цих досліджень - це аналіз і синтез величезних кількостей даних, що призвело до появи нового покоління програмних додатків. Біоінформатика  як наука виросла з проекту розшифрування людського генома ранніх 90х років. Народилося нове покоління науковців, чий попит до знань істотно переважує їх запас, і хто користується всіма перевагами нових технічних та інформаційних засобів, що їх може запропонувати сучасний світ.

Складність нових додатків біології характеризується експоненціальними законами  Поки біоінформатика зосереджується на молекулярному рівні, але це ще тільки початок. Форма молекулярних комплексів, які розташовані в різних частинах клітини, диференціація клітин різних типів, формування органів – це ті задачі, до яких обчислювальна біологія та біоінформатика лише наближаються. Постійно зростаючі комплексні біологічні системи генерують зростаючі великі і комплексні біологічні набори даних. Якщо проблема обробки даних не буде вирішена на рівні молекул, то вона тим більше буде не вирішуваною на рівнях більш високих, які мають ще більшу складність.

2.5. Додатки для наук про Землю

Додатки охоплюють широкий круг областей: атмосферну хімію, фізику твердої Землі, науки про Землю, гідрологію, клімат, космос і навіть марсіанську атмосферу [41,42]. Дослідження в цій галузі керуються  двома віртуальними організаціями:

  •   віртуальною організацією  досліджень в області наук про Землю ESR (Earth Science Research ), працюючої з науковими інститутами і їх партнерами,
  •  і організацією EGEODE, встановленою приватною французькою фірмою Compagnie Gйnйrale de Gйophysique.

Віртуальна організація ESR підтримує наступні  додатки:

Додатки для атмосферної хімії спеціалізуються на озоні і забрудненні атмосфери. Вимірюються озонові профілі, отримані входу спостережень в експерименті GOME супутником ERS-2. Це перші

додатки для атмосферної хімії, розгорнені в Grid-середовищі. Новий додаток призначений для вивчення еволюції озонових шарів в полярних областях; модель процесу забруднення атмосфери;

Додатки для фізики твердої землі зосереджені на механізмах землетрусів, чисельному моделюванні землетрусів в складних тривимірних геологічних моделях, і геоморфології. Дякуючи можливостям Грід-середовища проаналізовано 21 з 26 землетрусів 2006 роки.

Додатки для гідрології призначені для вивчення проникнення морської води в прибережні водоносні шари і прогнози повеней. На основі моделювання методом Монте-Карло складаються карти розподіли вірогідності вторгнення морської води в прибережні водоносні шари середземноморського басейну відповідно різним сценаріям стійкого використовування водних ресурсів. Додаток для прогнозами повеней є каскад метеорологічних гідрологічних і гідравлічних u1084 моделей; як початкові умови  узяті експериментальні дані із Словаччини. Цей додаток буде адаптовано до річок Франції і України.

Додатки, пов'язані з кліматом, аналізують результати обчислень  кліматичних моделей. Для цього була розроблена і розгорнена структура метаданих і управління даними – так, щоб існуючі дані були доступні для пошуку, використовування і обробки в EGEE.

Geocluster – промисловий додаток для обробки сейсмічних даних – стало першим промисловим додатком, успішно працюючим в EGEE. В інфраструктурі EGEE воно доступне через віртуальну організацію Expanding GEOsciences on DEmand (EGEODE), ведучу дослідження і розробки в області наук про Землю як для державних, так і для приватних організацій, а також що співробітничає з науковими лабораторіями. Додаток дозволяє вивчати склад шарів Землі.

EGEE з великим інтересом розгляне і інші додатки.

2.6.  Grid в комбінаційній хімії

Термін комбінаційна хімія включає не тільки синтез нових молекул і матеріалів, але і очищення матеріалів,  паралельні експерименти і високоточні вимірювання, oxоплюючи всі області хімічних досліджень. Цей розділ демонструє потенційне відношення всіх цих галузей до Grid. Одним із механізмів, наприклад, є генерація бібліотек сумішей, придатних для деяких специфічних застосувань при  конструюванні  найбільш багатообіцяючих ліків або матеріалів.

Комбінаційна хімія складається з методів паралельного синтезу, який дозволяє створювати одночасно велике число комбінацій молекулярних одиниць. Перші додатки були створені ще в 1970х, але дана галузь дуже сильно розвинулась за останніх 5-10 років.

2.6.1. Підхід «розділення/змішування» в комбінаційній хімії  

Процедура ілюструється  трьома різними хімічними одиницями (Рис. 2.6). Ці одиниці мають дві реaгуючі ділянки, якими  вони можуть зв'язуватися один з іншим,  формуючи ланцюг. Молекули при цьому  прикріплені до твердої полімерної основи.

В кожній стадії реакції виконуються паралельно. Після першої стадії маємо три різні види намистин ланцюжка, кожний з тільки однією з різних одиниць . Результати цих реакцій тоді з'єднуються разом. Мікстура намистин  розщеплюється в трьох контейнерах, повторюються ті ж реакції, як в першій стадії. Результатом є комбінація з двох одиниць конструкції. Після n синтетичних стадій, згенеровано 3n різних сумішей.

Такі підходи до генерації нових речовин разом із збереженням важливих характеристик цих речовин показують, що для збереження та аналізу великих бібліотек речовин знадобляться суттєві обчислювальні ресурси та засоби зберігання даних.

Поняття комбінаційної хімії повинне привести до повного переліку комбінацій, що формують бібліотеку. Проте, навіть з використанням  паралельних методів час, що вимагається для виконання,  буде неймовірно великим. Використання  сучасних статистичних підходів до розробки експериментів може зробити істотний внесок в цей процес.

Рис. 2.6. Підхід «розділення/змішування»

Наявність великої кількості зв'язаних даних, як наприклад отриманих від аналізу комбінаційної бібліотеки,  є причиною для побудови спрощених статистичних моделей для швидкого передбачення комплексних властивостей. Хімія взагалі і комбінаційна, зокрема, продовжуватиме пред'являти високі вимоги до обчислювальних і мережевих ресурсів як для обчислень ,так і для управління знаннями. Grid суттєво впливає  на обидві вимоги при розширенні ідеї обчислювальних Grid до рівня лабораторій. Здатність автоматизувати як експерименти, так і аналіз даних забезпечує нові можливості і вимоги для управління знанням. Величини даних, якими оперує комбінаційна хімія, зростають експоненційно, і тому вже зараз потребують нових підходів до обробки генерованої інформації. Бажаність ефективного використовування ресурсів (людських, обчислювальних, устаткування) в обробці даних відображається в необхідності привернути статистичні засоби як в аналізі великих масивів даних ,так і в проектуванні експериментів.  

2.6.2. Проект з комбінаційної хімії COMB-e-CHEM

Comb-e-Chem [19] є міжгалузевим пілотним проектом, що залучає дослідників в хімії, математиці і інформатиці, заснований Британською Інженерно-фізичною Науково-дослідною Спілкою (UK Engineering and Physical Science Research Council)[21]. Головним аспектом досліджень є вимірювання кристалічної структури і моделювання зв`язків, що має на меті поліпшити наше розуміння того, як молекулярна структура впливає на кристал і матеріальні властивості, рис.2.7. Одна і та ж молекула може кристалізуватися у ряд різних форм, кожна яких матиме різні фізико-хімічні властивості; одна суміш може часто формувати багато різних матеріалів. Даний приклад дуже добре описує ситуацію з розробкою ліків - неправильне формулювання може привести до того, що речовина не буде засвоюватись організмом, або буде шкідлива.

Проект   Chemport присвячений розробці квантово-механічної біомедичної оболонки. Визначними є успіхи в галузі розробки програмного забезпечення для розрахунків молекулярних структур. Динамічно збільшується загальна потужність та ефективність  обчислювальних інструментів хімічної інформатики для зберігання даних, їх аналізу, добування, управління, і представлення. Проте, ці інструменти хімічної інформатики першої генерації не відповідають потребам сьогоднішніх дослідників. Масивні об'єми даних, котрі зараз шаблонно створюються, і охоплюють молекулярний масштаб, як експериментальний ,так і обчислювальний, вимагають нових потужностей.  

Технології GridPort були застосовані для створення порталу для виконання обчислень з хімії та аналізу деталей структур і властивостей молекулярних систем – GAMESS (General Atomic Molecular Electronic Structure Systems - Загальні Атомно-Молекулярно-Електронні Структурні Системи [22]. Програмне забезпечення GAMESS розгорнене на різноманітності обчислювальних платформ, які об’єднують як розділені, так і загальні платформи пам'яті. Портал використовує Grid  технології, як наприклад, пакети розробника SDSC GridPort, SDSC SRB  і Globu,s щоб асемблювати і контролювати робочі місця, запам'ятовувати результати.

Рис.2.7.  Структура  проекту Comb-e-Chem

 Головною метою в створенні нової архітектури є поліпшення досвіду роботи користувача з системою за допомогою прискорення постановки задачі і спрощення управління.

Впроваджені генетична програма EULER Sequencing, і Адаптивний вирішувач Poisson-Boltzmann Solver (APBS)  для обчислення електростатичних потенційних поверхонь навколо біомолекул.

Розробка портальної інфраструктури (рис.2.8) прискорила важливий прогрес у напрямку до інтеграції через збільшення розмірності  від молекул до молекулярних структур.

Галузеві дослідники піклуються найбільш про результати, а не інфраструктуру, що використовується. Учені з комп`ютерних наук піклуються про оптимізацію їх кодів та алгоритмів. Технологи шукають засобів поліпшення потенційної місткості і продуктивності технологій. Всі ці підходи зосереджуються на різній меті, і можуть конфліктувати . Але подолавши конфлікти, та знайшовши оптимуми, науковці матимуть змогу створити дійсно вражаючі своєю продуктивністю обчислювальні системи.

Рис. 2.8. Структура QM-PDB.

        Система CHARON – є загальною системою  для запуску прикладних програм в Grid оточенні EGEE/VOCE. Charon було створено суспільством обчислювальної хімії в Чеській республіці для забезпечування легко керованого, зручного і модульного оточення, здатного задовольнити специфічні вимоги користувачів програм з  обчислювальній хімії. Сучасна реалізація системи Charon є цілком сумісною з корінними сценаріями Grid оточення EGEE, забезпечує комфортне управління обчислювальними завданнями шляхом інкапсуляції доступного оточення проміжного програмного забезпечення LCG/EGEE, забезпечує підтримку для спокійного адміністрування великої кількості обчислювальних робіт і уможливлює легке відновлення вже закінчених обчислювань. Порівняно з широко розповсюдженими графічними інтерфейсами (тобто порталами) Charon більш орієнтований на користувачів, які вимагають простий, але багатий можливостями інтерфейс, з потужною командною консоллю і можливостями з написання скриптів,  і такий, який би забезпечував підтримку десятків і сотень завдань в рамках єдиного дослідницького проекту.

 

2.6.3. Chemistry Grid і його застосування для передбачення повітряного забруднення

Обчислювальні системи Grid стають все більш і більш популярними в природничих науках. Головною метою національного дослідницького проекту Хімічний Grid, що фінансується Угорським Міністерством Освіти, Хімічний Grid (Chemistry Grid and its Applications for Air Pollution Forecasting)  було  його застосування в обчислювальній хімії з практичної точки зору; наприклад,  для запобігання небезпечним впливам високорівневих концентрацій озону.

У проекті консорціум (SZTAKI; Інститут Дослідження Хімії Угорської Академії Наук; Кафедра Матеріальної Хімії, Університет Eötvös; Угорська Метеослужба) застосував нові технології Grid для  забезпечення хіміків доступом до обох угорських обчислювальних Grid ресурсів, що мають назву HUNGRID, і до загальноєвропейських хімічних Grid інфраструктур. Останні з’явились в результаті фінансованих ЄС проектів SIMBEX і EGEE[14].

SZTAKI детально розробив усю виробничу лінію:

  •  інструмент Grid моніторингу, що носить назву Mercury,
  •  два інтегрованих оточення для розробки прикладних додатків: середовище паралельного програмування P-GRADE, і Grid портал P-GRADE

Ці інструменти уможливлюють ефективну і прозору паралелізацію послідовних додатків завдяки їх високорівневому графічному підходу і спеціальним засобам відладки і аналізу продуктивності роботи програми. У структурі проекту портал P-GRADE було в подальшому розвинуто для забезпечення ефективного виконання складних програм на різних Grid, наприклад, на HUNGRID. Сюди ж відноситься динамічне виконання додатків на Grid ресурсах згідно з інформацією про їх поточний стан і доступність, наданою новою інформаційною системою. Тому, HUNGRID – це не тільки віртуальна організація в межах EGEE: нові елементи HUNGRID роблять це легшим використання інфраструктури для вирішення складних завдань, як наприклад моделювання повітряного забруднення.

Про фітотоксичну природу озону стало відомо десятиліття тому. Завдяки високим емісіям субстанції передвісника озону, повітряні концентрації озону можуть покривати великі площі Європи протягом коротших або довших періодів, в залежності від певних метеорологічних умовами. Ці повітряні концентрації потенційно можуть наносити значну шкоду сільськогосподарській і природній рослинності. Рідкісні екстремальні концентрації можуть наносити видиму шкоду для рослинності, в той час як тривалий вплив, протягом всього сезону зростання, може призводити до зменшення продуктивності і прибутку від урожаю.

Для дослідження озонових потоків над Угорщиною були розроблені фотохімічна зв’язана реакційно-транспортна модель Ейлера та детальна модель озонового висихання/осаду. Реакційно-дифузійно-адвекційні рівняння, пов’язані з утворенням, перенесенням і осадом  повітряного забруднення, вирішуються на неструктурованих тригранних ґратах. Область дії моделі покриває центральну Європу, зокрема Угорщину, яка розміщується в центрі області і покривається вкладеними ґратами з високою розподільчою здатністю. Витончена модель висихання/осаду оцінює темпи висихання/осаду озону, обчислюючи аеродинаміку, квазіпластинчастий прикордонний пласт і опір повітряної завіси. Метеорологічні дані, що використовуються в моделі, генерувалися  моделлю мезомасштабного передбачення погоди на обмеженій території ALADIN, що використовується Угорською Метеослужбою. Ця робота наглядно демонструє, що просторове розповсюдження концентрацій озону - менш точний критерій ефективного виміру озонового насичення, ніж просторове розповсюдження озонових потоків. Отримані потоки демонструють моделі просторових характеристик, які залежать від вологості ґрунтів, метеорологічних умов, концентрацій озону і використання земель.

Цей проект продемонстрував, що Grid - ефективна обчислювальна система для підтримки складної спільної роботи. Були розвинуті і представлені додатки для передбачення повітряного забруднення (система вироблення реакції тривоги на збільшення концентрації смогу і моделювання спіралі Гауса). Партнери проекту спроектували спільний додаток для передбачення повітряного забруднення в Угорщині, що працює на Grid. Те ж застосування може бути використане для моделювання перших ознак смогу і проаналізувати ефективність системи вироблення реакції тривоги на збільшення концентрації смогу і тривалі ефекти різних заходів, направлених проти повітряного забруднення[26].

2.7.  Grid в фізиці високих енергій 

Додатки для фізичної науки – це ще один клас Grid-додатків, що швидко поширюється. На  рис. 2.9. відображений  комплексний аналіз процесів прискорення  частинок, що потребує застосування  Grid технологій.

Рис. 2.9. Процедури аналізу процесів прискорення  частинок.

   Експеримент BaBar створив найбільшу в світі на той момент базу даних: 350 терабайт наукових даних, які зберігаються в базі даних Objectivity. У найближчі декілька років ці цифри будуть значно перевищені, коли великий адронний колайдер (LHC) в Європейській Організації Ядерних Досліджень (CERN) в Женеві почне генерувати дані про зіткнення частинок у повному обсязі.

    У кожному з експериментів ALICE (A Large Ion Collider Experiment – експеримент "Великий іонний коллайдер"), ATLAS і CMS (the Compact Muon Solenoid experiment – експеримент "Компактний мюонний соленоїд"), що проводяться в LHC, бере участь близько 2000 фізиків з приблизно 200 інститутів Європи, Північної Америки і Азії. Для цих експериментів необхідно зберігати і опрацьовувати близько 10 петабайт даних на рік, що потребує потужності близько 200 терафлоп в секунду. До 2015 року, фізики використовуватимуть ексабайти даних, і їм будуть необхідні петабайти в секунду обчислювальної потужності (не-суперкомпьютери). Принаймні на початковому етапі більшість даних будуть зберігається в розподілених файлових системах в чомусь на зразок бази даних.

У кожного експерименту – свої фізичні цілі, але у всіх цих експериментах потрібне широкомасштабне, засноване на моделюванні дослідження подій, що відбуваються при зіткненні високоенергетичних пучків протонів або важких іонів. Прикладом такого застосування інфраструктури EGEE може служити експеримент по фізиці "зачарованих" частинок LHCb (the LHC beauty experiment), в якому генерувалося 300 млн. подій на 63 сайтах, географічно розподілених по світу. Робота по LHCb велася на 4500 ПК; об'єм результатів – понад 100 терабайт даних, розподілених по європейських наукових центрах.

У кожному експерименті LHC використовується своє середовище з багатьох Grid систем, що склалося на основі передісторії експерименту і його обмежень. У експерименті ATLAS використовується також NorduGrid, в інших -  gLite. Інфраструктура EGEE використовувалася і в інших міжнародних експериментах LHC, серед яких, – Babar (B and Bbar), CDF (Collider Detector at Fermilab – коллайдерний детектор у Фермілаб), серія експериментів D0 на коллайдерах в США, ZEUS –  експеримент на коллайдері в Германії.

У проекті ARDA (A Realization of Distributed Analysis for LHC – реалізація розподіленого аналізу для LHC) розроблені прототипи систем аналізу, у яких є інтерфейс з проміжним програмним забезпеченням gLite, завдяки чому у фізиці високих енергій можна буде перейти до обробки даних окремими користувачами.

Доказом складності даних LHC може бути Рис. 2.10. , який показує модельовані траєкторії частинок у внутрішніх детекторах CMS. Частинки отримані в зітканні  протона-протон як результат перетину двох потоків протонів. Рідкісна взаємодія (приблизно 1 на 1013) протон-протон, що приводить до продукції частинки Хіггса , що розпадається на чотири мюони, похована під 30 іншими фоновими взаємодіями , отриманими в тому ж перетині, як показано у верхній половині малюнка. Програмному забезпеченню CMS доводиться фільтрувати фонові взаємодії за допомогою ізоляції точки походження треків з високими  інерціями у взаємодії, що містить частинки Хіггса . Ця фільтрація видає незабруднену конфігурацію, показану в нижній половині малюнка. У цей момент, маса частинки Хіггса може вимірюватися  чотирма треками мюонів , які є продукцією розпаду.

Рис. 2.10. Розпад частинки Хіггса на чотири мюони. Зверху – траекторії усіх високоінерційних заряджених частинкок; Знизу – відфільтровані від фонових взаємодій траєкторії

Усвідомлення наукового значення цих експериментів , які потребують  значних ресурсів, привело до безпрецедентного  в історії науки обєднання  засобів доступу до даних, їх обробки  і розповсюдженні, а також  співпраці через національні і міжнародні мережі. Виклики інформаційних технологій включають наступне:

• Забезпечення швидкого доступу до підмножин даних, об’єм яких складає від петабайта в 2002 до ~100 петабайт у 2007, і ексабайт до 2012- 2015 років.

•Забезпечення ефективного,зрозумілого і керованого доступу до різнорідних розподілених обчислювальних та управляючих ресурсів, через сукупність мереж з різною потужністю та надійністю.

• Відстежування стану обчислень і ресурсів для можливості швидкої зміни задач і ефективного використання ресурсів.

• Перевірка відповідності ресурсу політиці, встановленої управлінням співпраці експериментів;

• Забезпечення партнерської інфраструктури, яка робитиме можливим для фізиків у всіх світових регіонах вносити свій вклад у аналіз та результати, поки вони знаходяться в своїх домашніх установах.

• Будівництво регіональних, національних, континентальних, і трансокеанських мереж  зі зростаючими пропускними здатностями.

2.7.1. Основні Grid проекти з фізики високих енергій (ФВЕ)

PPDG. Це один з перших сумісних проектів вчених з комп'ютерних наук та фізиків, розпочатий у 1999 році [17] , рис.2.11. Під час його виконання формувалися базові підходи до створення Grid систем.

 GriPhyN. Цей проект зосереджувався на створенні Віртуальних Grid даних , які відповідають інтенсивним обчислювальним потребам співтовариства тисяч учених з усього світу [16] . Поняття Віртуальних даних охоплює визначення і доставку до великого співтовариства даних, отриманих в експериментах. В цьому віртуальному просторі даних, запити можуть задовольнятися через прямий доступ та/або обчислення, з місцевим і всесвітнім управлінням ресурсами, політикою, і правилами безпеки.

Рис. 2.11. Зв'язки співпраці між PPDG і іншими експериментами.

Подолання цього виклику вимагає просування в трьох головних областях:

- технології віртуалізації даних: створення інформаційних моделей і  нових методів каталогізації, вирізнення, затвердження і  архівації , щоб виконувати

маніпулювання віртуальними даними;

- планування запитів: узгодження правил доступу до даних;

- управління операціями і виконання завдань через віртуаьні організації: потрібні нові механізми для відповідності призначення користувачам ресурсів згідно їх вимогам з продуктивності, надійності і вартості.

Проект GriPhyN перш за все зосереджувався на отриманні максимальних переваг від сучасних ІТ, але також працював над створенням систем програмного забезпечення

для загального використовування і для поширюваного, партнерського аналізу даних. Багатогранний, незалежний від області застосування Віртуальний Пакет для роботи з даними створюється для підтримки таких проектів як CMS, ATLAS,LIGO і SDSS.

 • iVDGL. Міжнародна Віртуальна Лабораторія Grid Даних(iVDG) була заснована, щоб забезпечити всесвітній ресурс обчислення для окремих лідируючих міжнародних експериментів у фізиці і астрономії [27]. Ці експерименти включають LIGO, експерименти ATLAS і CMS, SDSS, і Національну Віртуальну Обсерваторію (NVO). Для цих проектів, потужні всесвітні ресурси обчислення, доступні через iVDGL, повинні дозволити реалізувати нові класи інтенсивних алгоритмів даних, які приведуть до нових наукових результатів. Вузли в Європі і Сполучених Штатах пов'язані високошвидкісними каналами передачі даних . Управління iVDGL інтегровано з проектом GriPhyN. Дійсно, проекти GriPhyN і PPDG забезпечують основні пакети розробки програмного забезпечення, потрібні для iVDGL. IVDGL заснований на відкритій інфраструктурі Grid, яка базується на пакеті Globus, і надбудовує інші технології, як наприклад інструменти управління ресурсами Condor.

• DataGrid. Європейський проект DataGrid [28]  був   заснований Євросоюзом з метою створення обчислювальних Grid - ресурсів для аналізу даних, що отримуються в наукових дослідженнях. Наука нового покоління вимагатиме координованого сумісного використовування ресурсів, партнерської обробки і аналізу величезних кількостей даних, продукованих і збережуваних багатьма науковими лабораторіями, що належать окремим установам.

Головна мета ініціативи DataGrid - розвиток і тестування технологічної інфраструктури, яка дозволить створити наукові об’єднання, де науковці виконуватимуть свої дослідження, не дивлячись на географічне розташування. Це також дозволить взаємодію з колегами з всьому світлу, як і сумісне використовування даних і інструментів в масштабі, який охоплює всю планету. Проект передбачав   розроблення програмного забезпечення і системи відлагодження для того, щоб управляти величезними масивами поширюваних даних, інформацією про ресурси(процесори, диски, і т.п.), і обслуговування тисячі одночасних споживачів від різноманітних дослідницьких установ.

Проект  DataGrid проводився CERN разом з п'ятьма іншими головними партнерами і п'ятнадцятьма асоційованими. Проект охоплює наступні Європейські агентства з досліджень: Європейське Космічне Агентство (ESA), Французький Національний Центр з Наукових Досліджень(CNRS), Італійський Неапольський Інститут Ядерної Фізики (INFN), Голландський Національний Інститут Ядерної Фізики і Фізики високих Енергій і Елементарних Частин (NIKHEF), Британський Консиліум Дослідження Астрономії (PPARC). Асоційованими членами є Чеськ Республіка, Фінляндія, Франція, Німеччина, Угорщина, Італія, Нідерланди, Іспанія, Швеція і Великобританія.

Проект ділився на дванадцять Робочих Пакетів, за які відповідали чотири Робочі Групи: Система відладки і Інфраструктура, Додатки, Обчислювальний і DataGrid Middleware, Управління і Впровадження.

• LCG.Мета проекту Grid обчислень LCG  [8]   полягає в  підготовці інфраструктури обчислень для моделювання, обробки і аналізу даних  для чотирьох сумісних експериментів LHC (Large Hadron Collider – великий адронний коллайдер). Це включає як загальну інфраструктуру бібліотек, інструментів, програмне забезпечення для задач фізики, так і розроблення і впровадження послуг обчислення, потрібних для збереження і обробки даних для глобального співтовариства фізиків, залучених в LHC. Перша фаза проекту, (2002- 2005), являла собою розробку оточення підтримки додатку і загальних елементів додатку, розробки послуг обчислення, виконання серії обчислення експериментальних даних, збільшення розміру і складності, щоб продемонструвати ефективність програмного забезпечення і моделей обчислення, вибраних для експериментів. Розробники LHC прийняли модель (розроблену проектом MONARC) ієрархії Grid даних, показану схематично на Рис.2.12. Базовий Рівень-0, розміщений в CERN, накопичує необроблені експериментальні дані, що прибувають від систем збору даних, і поширює ці дані згідно політиці експерименту до кожного центру Рівня-1 . Кожний учасник Рівня-1 поставляє ряд послуг (бази даних, обчислення) і має доступ до обмеженого набору центрів Рівня-2. Останні виконують аналіз даних і реконструкцію, а також  забезпечують архівацію   необроблених, реконструйованих і даних після Монте-Карло процедур. Первинні завдання центрів Рівня-2 - це моделювання події і кінцевий її аналіз. Ніякий архівний сервіс не передбачено, але часткові копії специфічних зразків даних можуть за потреби зберігатися.

Ця п'ятирівнева модель показує потоки  даних в експерименті. Після початкової обробки і збереження на Рівні-0 в лабораторному вузлі CERN оброблені дані розповсюджується по швидкохідними мережам в 10-20 національних центрів Рівня-1Є розташованих  в Сполучених Штатах, найбільших Європейських країнах, Японії. Дані обробляються, аналізуються, а потім зберігаються приблизно в 60 регіональних центрах Рівня-2. Підмножини даних доступні групам фізиків, що використовують однин з сотень серверів робочої групи Рівня-3 та/або тисячі робочих станцій Рівня-4, на якому представлені учасники проектів GriPhyN, PPDG , iVDGL , EU Data-Grid , DataTAG , LHC (LCG) і національних Grid проектів країн Європи та Азії.

 

Рис. 2.12. Модель ієрархії Grid даних LHC.

2.7.2. Взаємодія між Grid проектами в галузі ФВЕ

Широке використання науковим співтовариством фізики високих енергій (ФВЕ) Grid-технологій привело до невідкладної потреби  координації дій між всіма організаціями, які пов`язані з розробкою інфраструктури Grid і додатків. Без такої координації виникала загроза того, що Grid, розроблений в одній країні або для одного експерименту, не може взаємодіяти з іншими. Ознаки цієї загрози були спочатку найбільш очевидними в області конфлікту ідентифікації користувачів і забезпечення безпеки, де з’явилися   методи і  окремі несумісні правила надання доступу. Щоб окреслити і розв'язати такі проблеми,  уникати їх в майбутньому, були створені окремі координуючі  організації, описані нижче.

 • HICB. Учасники проектів DataGrid, GriPhyN, iVDGL і PPDG, як і національних Європейських Grid проектів Великобританії, Італії, Нідерландах і Франції, погодилися координувати свої зусилля для розробки, розвитку і розширення всесвітньої відкритої Grid інфраструктури , заснованої на стандартах. Центром координації є HICB, який  опікується гарантуванням взаємозамінності і сумісності Grid -інструментів, інтерфейсів і протоколів, додатки в науках про Землю і біологію.

• GLUE (Grid Laboratory Uniform Environment). Це лабораторне загальноприйнятого оточення для  Grid взаємодії спонсорується HICB, і зосереджується на сумісності між Grid проектами з фізики США (iVDGL, GriPhyN і PPDG) і Європи  (EDG, DataTAG т.п.). GLUE Управління і зусилля GLUE забезпечуються проектами iVDGL і DataTAG  і направлені на наступні аспекти сумісності:

-  визначення, конструювання, перевірка і доставки сумісних

   middleware;

-  допомога експериментаторам з  розгортанням Grid , укладанням

   політик і процедур, пов'язаних з сумісністю.

Робота проекту GLUE включає процедури:

-  визначення, збірка і перевірка компонентів стандартного

  програмного забезпечення ядра middleware Grid отриманих від  

  EU DataGrid, GriPhyN, PPDG, і інших,

- гарантування, що Grid інфраструктура  EU DataGrid і

  GriPhyN/PPDG буде здатна функціонувати як єдина сумісна  

  Grid -система.

- залучення з часом нових Grid -інфраструктур.

 Можна  виділити, наприклад,  таке Grid-оточення широкого використання, яке були створено при виконанні проекту LHC :

Система  ROOT, яка надає набір об’єктно-орієнтованих структур зі всією функціональністю, необхідною для ефективного управління і аналізу великих наборів даних [29]. ROOT знайшов широке застосування в вирішенні задач фізики високих енергій. Проект подальшого розширення функціональності системи підтримується CERN. Власне, ROOT і було створено для аналізу результатів експериментів на LHC, але завдяки своїй гнучкості і універсальності система зараз широко використовується в багатьох наукових проектах по всій Європі.

До особливостей ROOT варто віднести наявність досить потужного математичного апарату, вбудований інтерпретатор CINT, завдяки чому програмування і написання скриптів виконується на мові програмування С++, наявність інтерфейсу між ROOT та gLite (Рис. 2.13), крім того, ROOT - відкрита система, яку можна динамічно розширяти підключенням зовнішніх бібліотек і  плагінів.

У проекту є власний портал - , де кожні декілька місяців з’являються нові версії цього пакету, в яких виправляються знайдені баги, та враховуються побажання користувачів. Крім того, на сайті для завантаження доступна велика кількість документації, як по встановленню системи, так і по подальшій експлуатації та модифікації. Також існує опис усіх наявних класів і інтерфейсів[29,30].

Пакет функціонує в наступних системах: Linux, Solaris, Mac OS X, Windows.

Рис. 2.13. Набір інтерфейсів між ROOT та Grid.

2.8. Grid в соціальних науках і бизнесі

Головна мета проекту BEinGRID (Business Expreiments in Grid, "Експерименти по застосуванню Grid -технологій в бізнесі")– сприяння розповсюдженню так званих Grid -технологій наступного покоління. Для цього будуть поставлені декілька бізнес-експериментів і буде створено інструментарій верхніх рівнів проміжного програмного забезпечення для Grid [35].

В рамках BEinGRID буде проведений ряд цільових пілотних бізнес-експериментів для впровадження і розповсюдження Grid -технологій в самих різних секторах європейського бізнесу (фінанси, економіка, текстильна промисловість, хімічна промисловість, роздрібна торгівля, розваги, ігри та ін.). У початковій стадії проекту планується провести 18 бізнес-експериментів; у подальших стадіях буде випущено 2-е відкрите сповіщення про прийом заявок. Для підтримки підприємств, які захочуть застосовувати грід-технології, буде створений інструментарій компонентів грід-сервісів і буде вироблена найкраща методика організації роботи. Щоб звести до мінімуму розробку нових компонентів, BEinGRID розгортатиме інноваційні рішення в області грід-технологій, використовуючи існуючі Grid - компоненти зі всього Європейського союзу і інших регіонів.

Grid - технології знаходяться в критичній фазі переходу від їх науково-дослідного застосування до ширшого їх розповсюдження в економічній діяльності.  

Немає широкої обізнаності про переваги використання грід-технологій. Навряд чи широко відомі приклади успішного застосування грід-технологій підприємствами, а такі приклади могли б прискорити розповсюдження грід-технологій серед потенційних користувачів.  

В результаті знижується конкурентоспроможність Європейського союзу і його статус лідера в області Grid -технологій. Пора приймати дієві заходи по розповсюдженню грід-технологій і заохоченню досліджень в області інноваційних моделей бізнесу.

Експерименти розбиті по секторах економіки і вживаної грід-технології (Globus, gLite, Unicore, Gria, WS). Деякі експерименти з різних секторів будуть використовувати загальну технологію, а сервіс-провайдери можуть працювати в різних секторах економіки.

Кожен експеримент складається з 3 – 5 елементів і включає мінімум одного кінцевого користувача і сервіс-провайдер. Вони зосередяться на конкретних завданнях розподіленого бізнесу і забезпечуватимуть задоволення поточних потреб/вимог замовників. Включення кінцевих користувачів і сервіс-провайдерів у вертикальну структуру пілотних проектів визнане критично важливим для організації вивчення конкретних прикладів, яке допоможе переконати піонерів економічного застосування Grid -технологій в перевагах цих технологій, і, таким чином, Grid -технології швидше вийдуть за межі науково-дослідної роботи і широко розповсюдяться в економіці.

Для гарантії узгодженості роботи і адекватного підходу до ринку, базові партнери забезпечать комплект загальних ресурсів – як в плані власне Grid -технологій, так і в тому, що відноситься до економічної діяльності [35].

    Інтелектуальна обробка даних використовується фінансовими організаціями для оптимізації маркетингових процесів і компаній, комерційних і пов'язаних з ризиками цілей. Вони повинні регулярно обновлювати свої очки, так що поточна інформація може бути використана для визначення комерційних рекомендацій відділу продажів. Використання інтелектуальної обробки даних у кредитному скорингу дає можливість фінансовим установам пропонувати більше кредитів і для більш широкої аудиторії (через Web, маркетингові пропозиції, прямо через свої відділення), тим самим збільшуючи прибутковість і зменшуючи ризик нездатності боржника погасити кредит. Вплив бізнесу на інтелектуальну обробку даних приводить до термінової необхідності ефективного використання поточної скорингової інформації для оптимізації щоденних рутинних операцій. Процес інтелектуальної обробки даних включає наступні ключові етапи:

  •  Сформулювати чітку бізнес/дослідницьку проблему, гарантуючи наявність характерних даних і міждисциплінарної команди бізнес менеджерів, менеджерів по даним й аналітиків даних для передачі проблеми
  •  Очистити й приготувати набір даних для розробки моделі
  •  Розробити конкурентні моделі видобутку даних
  •  Вибрати кращу модель яка добре узагальнює отримані дані, а також задовольняє бізнес вимогам
  •  Впровадити модель в операційну систему
  •  Спостерігати за ефективністю моделі

Впровадження моделі є кінцевим результатом інтелектуальної обробки даних – фінальною фазою, на якій відчувається повернення інвестицій. Впровадження звичайно складається із трьох різних дій. Перше, вихідні дані оцінюються, використовуючи статистичну або модель інтелектуальної обробки даних, проставляються очки. Скоринг є критичним кроком у накладанні інтелектуальності моделі на лежачі в основі цільові дані. Крок скоринга, незважаючи на те, що набагато менш ефектний ,чим розробка моделі, беззастережно є потрібним з погляду інтелектуальної обробки данихских рекомендац. Він обчислює результати моделі для наступного використання у виконанні стратегії компанії.

Друге, ці очки впроваджуються в операційну систему і також використовуються як основа для різних звітів. Скоринг звичайно проводиться на періодичній основі - щодня, щотижня, щомісяця або можливо в реальному часі, або на основі керованих подій.

Третє, на періодичній основі, нова модель повинна бути заново побудована у порівняння з існуючою моделлю. Якщо потрібно, стара модель може бути замінена новою моделлю, і далі процес розгортання починається спочатку.

Точність вимагає свіжих моделей побудованих на свіжих даних, що означає відновлення моделі настільки часто наскільки цього вимагають дані. Максимальне повернення інвестицій у модель вимагає ефективного, своєчасного застосування моделі, так що результати можуть бути використані для одержання оптимізованих бізнес результатів.

Процес використання моделі відрізняється від процесу створення моделі. Модель звичайно використовується кілька разів після того як вона створена для скоринга різних даних. Виходом моделі є значення очків (балів). Найпоширенішими очками є цифри які представляють імовірність певного результату (наприклад, імовірність того, що клієнт поміняє постачальника послуг у найближчі 90 днів). Процес скоринга є критичним для усвідомлення вигоди моделі. Наприклад, своєчасна інформація про ризикових клієнтів і можливість використати стратегії втручання (пропозиції по збільшенню лояльності й збереженню клієнтів поштою, сервісні телефонні опитування про задоволеність клієнтів, і т.д.), які можуть визначити залишаться або підуть сотні мільйонів доларів із прибутку. Успішне використання методів інтелектуальної обробки даних може залежить від IT відділу забезпечити свіжі, обновлені результати. Скорингові моделі у відмінності від операційного сховища даних можуть забирати багато часу на виконання, і критичною являється гарантія, що процес правильно управляється й виконується вчасно. Як тільки моделі стають стратегією інтегральної оптимізації для багатьох аспектів бізнесу, корисність використання моделей стає більш багатообіцяючою.

Компанія SAS Institute є світовим лідером в області рішень прогнозуючої банковської аналітики, аналітики взаємин із клієнтами, бізнес інтелекту. Більшість компаній, що входять в Fortune 500 (90% ),  є клієнтами SAS Institute. Завдяки величезній потужності аналітики SAS, додатки SAS використаються для аналізів, що вимагають дуже великі обсяги даних й обчислень. Такі потреби є у клієнтів SAS у кожному індустріальному сегменті. Існують кілька способів зробити можливим використання SAS в оточенні Grid [36]:

  •  Шляхом розподілу компонентів SAS-роботи й/або множинних SAS-робіт на Grid
  •  Шляхом планування робочих навантажень SAS, вироблених однією або більшою кількістю робіт у Grid
  •  Шляхом комбінації першого й другого способів.

Користувач SAS може вибрати між повністю автоматизованими можливостями Grid у вигляді легкого у використанні інтерфейсу «указав і клацнув» або використати синтаксис потужної 4GL мови програмування SAS для розподілу додатків SAS у середовище Grid. Наприклад, загальна послідовність виконуваних дій при обробці даних (їх отримання, перетворення й завантаження)потребує  виконання одного і того самого аналізу (багато ітерацій) на різних підмножинах даних, таких як, кожна область в Україні або кожна територія продаж в організації. Нові циклічні перетворення були введені в SAS Data Integration Studio 3.3, щоб дозволити виконання множинних ітераціям паралельно.  вик Загальна послідовність виконуваних дій потребує використання безлічі моделей (незалежних завдань) над тим самим вхідним джерелом даних. SAS Enterprise Miner 5.2 тепер може автоматично розподіляти паралельні ланки в послідовності виконуваних дій в оточення Grid. У результаті інфраструктура Grid залишається прозорою для користувача цих додатків, дозволяючи сфокусуватися на завданнях ETL і інтелектуальної обробки даних, а також отримати користь від кращої продуктивності додатків. Додатки, сгенеровані SAS Data Integration Studio і SAS Enterprise Miner,  також можуть бути збережені як SAS stored process і згодом використані компонентами SAS Business Intelligence (BI). У доповнення до автоматизованих можливостей Grid, інтеграції даних SAS, інтелектуальної обробки даних і компонентів бізнес-аналітики також існує гнучкість у розробці додатків, використовуючи мову програмування SAS  в оточенні Grid.   Процедура SAS/CONNECT забезпечує синтаксис, що дає можливість розподілу компонентів завдань SAS. Можливості паралельної обробки SAS/CONNECT були інтегровані з компонентами Platform Computing для забезпечення найбільш ефективного розподілу робочого навантаження на ресурси Grid, ефективного керування ресурсами Grid, і оперативного моніторингу середовища SAS.

На Рис.2.14  зображено механізм розподілу завдань SAS у середовище Grid.

          

Рис.2.14. Механізм розподілу компонентів завдань SAS у середовище Grid

В арсеналі SAS також є інтерфейс диспетчеризації, який може бути використаний для планування послідовності виконання дій SAS. Він прямо інтегрований у безліч продуктів і рішень SAS включаючи SAS Data Integration Studio, SAS Web Report Studio, SAS Marketing Automation та SAS Marketing Optimization. У доповненні будь-яка програма SAS,  SAS-програмістом, може запускатися,  використовуючи Schedule Manager plug-in усередині SAS Management Console. Використання інтеграції планування SAS з Platform Computing дає можливість планувати і робити диспетчеризацію потоку на основі ініціюючої події. Ініціюючою подією може бути певний час, або дата, або файлова подія. Запуском можуть також служити повторювані події. Потік звичайно складається з множини завдань, де два або більше завдання можуть виконуватися одночасно. У цьому випадку, коли завдання викликається на виконання, паралельні завдання розподіляються на ресурси середовища Grid. Навіть для потоків які містять тільки одне завдання або завдання, які повинні бути виконані послідовно, багато користувачів виграють від планування цих потоків таким чином, щоб вони виконувалися на найбільш підходящому ресурсі, і загальне багатокористувальницьке робоче навантаження було ефективно збалансоване в межах Grid. Process Manager  (раніше Platform Job Scheduler for SAS)  служить інтерфейсом до можливостей планування й диспетчеризації SAS.

Grid Management Services - з'єднується з Grid Manager plug-in для забезпечення можливостей оперативного моніторингу/керування в межах SAS Management Console.

LSF for SAS - забезпечує складання схеми і балансування робочого навантаження обробки SAS по всіх Grid ресурсах.

У  тесті код скоринга в SAS Enterprise Miner був розгорнутий у паралельній конфігурації, використовуючи SAS MP Connect (Мульти-процес) на сервері Unisys ES7000. MP (рис.2.15). CONNECT дозволяє розділяти процеси SAS  на численні незалежні блоки роботи, які виконуються паралельно так що, завдання можуть бути виконані за менший час аніж якби вони виконувалися послідовно.

Рис. 2.15.  Високопродуктивний паралельний скоринг, що працює в пакетному режимі

Метою тестування було досягти стійкого показника паралельного обновлення зі значенням між 4000 і 5000 рядків у секунду, що б означало більше 150 мільйонів рядків за 10 годин. Досягнення цього стійкого показника швидкості обробки дало б можливість всій базі даних бути обновленою по всім ста моделях клієнтів у фіксованому пакетному вікні нічного часу, доступного клієнтові. Тести на продуктивність були запущені на сервері Unisys ES7000 Aries 420 з 16-тьма процесорами Intel Itanium 2, 64GB ОЗП й двома дисковими підсистемами EMC CX600. Тести виконувалися використовуючи Microsoft Windows Server 2003 Datacenter Edition для систем на процесорі Intel Itanium.

Проект ArchaeoGRID націлений на продукування повної історії клімату, матеріальних та водних циклів, розміщення екосистеми, систем землекористування, моделі розселення людей, технологічних змін, характеру захворювань, мовних моделей і моделей інституцій, війн і альянсів, та інших змін на землі, з використанням багатьох нових та існуючих джерел даних у стійких просторових та часових рамках (рис.2.16). Шляхом сприяння появі нових міжнародних груп/застосувань і уможливлюючи нові методи світового співробітництва, ArchaeoGRID стає новим середовищем для дослідницьких процесів в археології  і для прогресу в уніфікації і інтеграції археологічних знань шляхом використання передових технологічних Grid платформ [37].

ArchaeoGRID не здатен повністю ні замінити польову роботу археолога, ні його ж роботу у лабораторіях і бібліотеках. Але він здатен значно покращити і посилити ці види наукової діяльності, а саме шляхом:

Реконструкції соціальних, екологічних та економічних ландшафтів ключових історичних періодів і для великих географічних регіонів, використовуючи археологічні, біологічні, екологічні та будь-які інші доступні та корисні дані.

Моделювання з використанням моделей соціальних, екологічних та економічних процесів динамік із теорії комплексних систем.

Перевірки змодельованих процесів на відтвореному ландшафті з використанням холістичного «від більшого до меншого» підходу.

Викладу  результатів шляхом створення результуючого цифрового документа з цифровою бібліотекою.

Рис. 2.16. Структура ArcheoGRID

 

Наприклад, процес урбанізації у Середземноморському регіоні був першим справжнім серйозним завданням для розробки і тестування ArchaeoGRID. Походження міст і держав є центральною і комплексною проблемою в поточному археологічному дослідженні.

Урбаністичний процес, що почався на побережжі Середземного моря, був викликаний розвитком економіки і торгівлі, новими технологіями і змінами в оточуючому середовищі. В рамках багатогалузевої структури має бути проаналізована велика кількість соціальних, екологічних та економічних аспектів. Глобальне розуміння походження міст вимагає врахування мережі зв’язків, що допомогла розвитку такої нової форми соціальної організації, що переросла у парадигму людського суспільства[37].

Термін “археокліматологія” означає певний підхід для оцінки минулого клімату в певні часові періоди згідно з просторовими шкалами, що використовуються археологами.

Оскільки культури змінюються не по тисячолітнім шкалам, а також тому що люди живуть на порівняно обмежених територіях, які б дані та моделі не використовувались, вони мають бути орієнтовані на певні території і певний часовий період. На цей “підрозділ палеокліматології” покладається задача об’єднання різних джерел оцінювання минулого клімату, моделей і даних з польових досліджень для отримання найбільш надійних оцінок колишнього кліматичного довкілля в певних місцях і в певний час.

2.9.Grid у інженерії

Grid технології є надзвичайно потужним інструментом, за допомогою якого можна вирішити практично будь-які прикладні задачі. Grid технології є новим етапом в розвитку обчислень, і в найближчому майбутньому призведуть до справжньої революції у всіх сферах інженерії. Ключовим моментом сучасних розробок додатків є дуже швидкий перехід від стадії дослідження до існуючих робочих прототипів, це дуже важливо, для оптимізації кінцевого результату і практичного використання. Grid забезпечила важливу платформу для того, щоб зробити ресурсно-інтенсивні інженерні додатки більш значущими.

2.9.1. Проект NASA IPG

Один з найповніших підходів до розвитку широкомасштабних додатків Grid ,орієнтованих на інженерію, є  NASA IPG [49] в США , в якому NASA вирішує широкомасштабні наукові і інженерні задачі за допомогою розробки:

1) стійкої Grid-інфраструктури, що підтримує «високоефективні» сервіси управління обчисленнями і даними, які на вимогу розмістять і складуть ресурси з багатьма центрами;

2) допоміжних сервісів, які потрібні для підтримки управління потоками операцій, що координують процеси розподілених завдань науки і інженерії.

Рис. 2.17 і 2.18  показують два застосування, цікавих для NASA. Перше - це опис ключових аспектів – корпус, крило, стабілізатор, мотор, шасі та людські фактори – цілого літального апарату. За кожну частину буде нести відповідальність окрема, можливо, географічно відособлена, команда інженерів; робота команд буде інтегрована за допомогою Grid-концепції конкуруючої інженерії. На рис. 6.18  показаний набір Web (OGSA) сервісів для контролю супутників, відбору, аналізу, візуалізації і зв'язку (асиміляція) даних з модуляціями. Ключові стандарти для такої Grid надаються новим міжнародним стандартом Space Link Extension, де частина завдання – об‘єднати попередню архітектуру з нинішнім Grid-підходом.

Рисунок 2.17. Grid для аерокосмічної інженерії, що показує зв'язок розділених підсистем, потрібних літальному апарату

2.9.2. Проект GEODISЕ

В Європі досліджуються інші цікаві застосування Grid-інженерії. Наприклад, британський проект Grid Enabled Optimization and Design Search for Engineering (GEODISE) має намір організувати сховище знань про конструкторські розрахунки для розробки в аерокосмічному просторі. Компанії «Роллс-ройс» і BAESystems беруть участь в проекті як промислові співпартнери. На рис.2.19. показаний  GEODISE Grid конструкторських розрахунків. Тут, зокрема, існує можливість побудови семантичного Grid  для використання знань досвідчених розробників. Це, звичайно, виклик для дослідників, і його успіх відкриє шлях декільком новим застосуванням.

Рисунок 2.18. Можливий Grid для супутникових операцій, що показує і управління літальним апаратом, і аналіз даних.

Система GEODISE забезпечує засновану на Grid загальну інтеграційну структуру для виконання обчислень і мультидисциплінарних задач оптимізації, зберігаючи при цьому індивідуальність кожної експертної області [31]. Geodise розповсюджується у вигляді наборів засобів, які розширюють можливості програмних оточень, що використовуються для вирішення інженерних та наукових задач, інтегруючи в них функціональність Grid клієнтів (рис. 2.20). Засоби сумісні тільки з проміжним програмним забезпеченням Globus та Condor.

На даний момент існують такі інструментальні засоби:

-  Geodise Compute Toolbox – набір функцій, що забезпечують програмний доступ до комп’ютерних ресурсів Grid.

- Geodise Database Toolbox – надає зручний інтерфейс, що дозволяє працювати зі змінними та функціями, замість роботи безпосередньо з базами даними. Розширює можливості роботи з базами даних, враховуючи специфіку Grid.

-  XML toolbox for Matlab – уможливлює конвертацію і зберігання змінних і структур з оточення Matlab в форматі XML і навпаки.

    Існує підтримка скриптових мов Matlab та Python. Портал проекту - http://www.geodise.org/. Там же доступні для завантаження останні версії пакету. Варто зазначити, що проект закінчено, тому версії продуктів не оновлюються уже кілька років[31].

Рис. 2.19. GEODISE Grid для розробки авіадвигунів

Рис 2.20. Вирішення інженерних задач з допомогою Geodise.

Отже, провівши порівняльний аналіз двох пакетів, ROOT та GEODISE(табл. 2.3), можна зробити певні висновки, щодо переваг використання одного з двох пакетів.

Таблиця 2.3. Порівняння пакетів GEODISE та ROOT.

GEODISE

ROOT

Відкритий код, вільне розповсюдження

Так, але сам Matlab потребує придбання ліцензії

Так

Middleware

Globus та Condor

gLite

Середовище розробки

Matlab або Jython

Вбудований інтерпретатор CINT

Мова програмування

Скриптова мова Matlab або  Python

C++

Підтримка з боку розробників

Відсутня - проект закрито

Періодичне оновлення версій, усування помилок, форуми

Документація

Так

Так

Платформи

Всі, на яких можна використовувати Matlab або Jython

Linux, Solaris,

Mac OS X,

Windows

2.9.3. Проект DAME

Орієнтовані на дані застосування представляють собою один з найважливіших класів застосування в Grid. Вони будуть ключем і для науки, і для суспільства.

Прикладом  орієнтованого на дані додатка є проект  DAME  (Distributed Aircraft Maintenance Environment) з створення  розподіленого середовища управління літальними апаратами, рис. 2.21. Додаток DAME  має промислове застосування і  розробляється в Британії. Тут технологія Grid використовується для того, щоб передавати гігабіти польотних даних, зібраних з працюючих  авіадвигунів,  для інтеграції центрів управління, виробництва та аналізу. Мета проекту – побудувати засновану на Grid розподілену систему діагностики літальних апаратів. Мотивацією є потреби компанії «Роллс-ройс» та її інформаційного партнера «Data Systems and Solutions».

Рис.2.21. DAME Grid для управління даними з датчиків на літальних апаратах

Проект займатиметься питаннями продуктивності та широкомасштабного управління в реальному часу. Головні очікування від проекту – характерна розподілена діагностика Grid-додатку, демонстратор застосування аерогазотурбіни для управління літальними апаратами і техніка для розподіленого аналізу, інтерпретації та діагностики даних. Розподілена діагностика – характерна проблема , фундаментальна в багатьох сферах: медицина, транспорт, виробництво. DAME зараз розробляється в рамках британської програми е-Науки.

2.9.4. Проект  CAD-Grid

На рис. 2.22. показана структура CAD-Grid системи [38]. Технічні засоби складаються із серверів з управління ресурсами та серверів з розподілення завдань, порталу CAD-Grid і мережі, яка сполучає різні комп'ютерні ресурси, що використовуються при виконанні обчислень. Група комп'ютерів для виконання роботи складається з серверів UNIX і Windows PCs, сполучених через внутрішню мережу CyberGRIP, розроблену Лабораторіями Fujitsu, і систему Condor, частково розроблену Університетом Вісконсіна, яка використовуються як  ядро ПГЗ для управління робочими місцями і комп'ютерними ресурсами. Для того, щоб об`єднувати подібні задачі, виконувати та керувати ними в ПГЗ  CyberGRIP спеціально було створено  диспетчер задач (organic job controller ,OJC).

Щоб розробити і отримати кінцевий продукт, користувачеві необхідно лише використовувати портал CAD-Grid, для вводу в систему задач та перевірки результатів; а статус комп'ютерних ресурсів може перевірятися з використанням лише Мережного навігатора.

 

В обчислювальному середовищі Grid  важким стає контроль виконання взаємозалежних завдань. Крім того, якщо виконання набору завдань потрібно відмінити та/або перезапустити, статус завершення кожного завдання повинен бути підтверджений в ручну, що вимагає багато роботи. З ціллю  вирішення цих задач , OJC розроблений таким чином, щоб полегшити кодування і контроль наборів завдань. Сценарії OJC складаються з простих семантичних правил для конкретизації параметрів і кодування потоків даних для асинхронного управління завданням-очікуванням. OJC також підтримує функцію пакетного виконання, яка може виконуватись тільки для вибраних завдань в наборі чи тих, виконання котрих повинно бути перервано чи змінено .

Як крок до збільшення комп'ютерних ресурсів, які можуть використовуватися для моделювання, досить вигідно використовувати звичайні Windows ПК, які зазвичай використовуються в повсякденному житті. В останні роки ПК стали настільки потужними, що на них можна запускати такі завдання, як моделювання чи аналіз.

До того ж, більша частина ресурсів ПК не повністю використовуються власником при виконанні його задач, як наприклад обробка документів і чи читання електронної пошти.

Рис. 2.22. Архітектура системи CAD-Grid

GRM/GMW є ПГЗ,  яке забезпечує функції по управлінню ПК і іншими комп'ютерними ресурсами і виконанням завдань, коли завантаженість процесорів низька. GRM встановлений на сервері CAD-Grid порталу, а GMW встановлюється на кожному ПК. GRM і GMW взаємодіють  однин з  одним, щоб посилати і отримувати завдання і контролювати виконання цих завдань. Коли задача  виконана,  пріоритет її виконання на ПК зменшується до найнижчого рівня таким чином, що поточні завдання власника ПК, такі як робота з документами або створення електронної таблиці, виконуються  ПК, не зазнають нестачі ресурсів. Condor – ПГЗ для управління ресурсами комп'ютерів UNIX і виконанням контролю завдань на системах UNIX.  Завдання, проте, можуть формуватися, використовуючи OJC для обох процесів (управління і контроль). Тип ОС (Solaris, Linux, або Windows) для виконання роботи задається в межах сценарію OJC. GRM визначає тип ОС і надає завдання Condor або GMW до виконання.

2.9.4.1. Інформаційна система CAD-Grid: CGRIS. Інформаційна система CAD-Grid  базується на використанні  Web- інтерфейсу  і порталу, щоб поліпшити працездатність та зменшити навантаження на користувача (рис. 2.23)

Статус черги завдань і машинний контроль статусу здійснюється ПГЗ Condor ( для UNIX) і GRM/GMW ( для Windows). Як результат -  споживач може легко отримати статус виконання завдання, статистичну інформацію виконання завдання, і операційний статус кожного комп'ютера без знання того, що використовуються різні ПГЗ. Протокол SNMP

(Simple Network Management Protocol) вживається для збору відомостей, щоб контролювати основний статус системи, як ,наприклад, статус використання дисків і навантаження на процесори.

  Через те що одночасно в обчислювальному оточенні Grid виконуються велике число завдань, важливим є ефективний збір і верифікація результатів завершених завдань. Навіть при швидкому завершенню кінцевих завдань без ефективних механізмів збору та обробки результатів не буде значного поліпшення у швидкодії всієї системи. З цією метою був розроблений механізм, який автоматично запам'ятовує результати роботи і статус виконання в базі даних, коли робота завершена, і надає доступ до них. За допомогою використання простих бібліотек для реєстрації даних в сценарії OJC споживач може автоматично зберегти результати роботи і умови виконання в базі даних без необхідності використання мов доступу до баз даних, як наприклад SQL.

           Рис. 2.23. Інформаційна система CAD-Grid (CGRIS).

  В результаті, навіть, коли обробляється велике число завдань., вони можуть бути перевірені, а результати обробки, швидко зібрані і керовані. Графічний модуль забезпечує побудову графіків, утворених від зібраних даних, і надання доступу до них на основі Web.  Використовуючи цей модуль, споживач може проглянути результати роботи  як тільки дані отримані і одразу ж проаналізувати їх. Крім того, так як дані можуть вивантажуватися, вони можуть бути об’єднані в документи для більш детального аналізу та побудови графіків.

   Оточення CAD-Grid тестувалося та перевірялося при моделюванні базових станцій та комунікаційних систем мобільних мереж. Моделювання тривало протягом шести місяців на кластері Linux ПК і Windows ПК. Таб. 2.4 показує деякі результати.

Таблиця 2.4. Результати моделювання

Розробка базової станції

Розробка мобільного устаткування

Загальна кількість задач

Понад 9000

Понад 10 000

Загальний час обробки

2900 днів

2200 днів

Середній час обробки

7.3 год/завд

5.3 год/завд

Кількість використаних ЦП

45 - 80 ЦП

Загальна частота ЦП

80 - 100 ГГц

Скорочення часу розробки

Понад 75%

Понад 50%

Скорочення людино-годин

Понад 75%

Понад 67%

Як свідчить приведена таблиця,  скорочення часу моделювання моделювання було зменшене на близько 75% для розробки базової станції і близько 67% для розробки мобільного устаткування. За допомогою використання CyberGRIP покращення в коефіцієнтах ефективності використання обладнання сягнули 1.5-2 разів. Зокрема, для Windows ПК, середній коефіцієнт витрати ЦП в регулярному діловодстві становить менше ніж 10%. Коефіцієнт використання процесорного часу може бути поліпшений більш ніж у 10 разів за допомогою ефективного використання часу простоювання.

Застосування обчислювальної системи CAD-Grid з CyberGRIP в ролі ядра істотно поліпшило повну швидкість і ефективність виконання великий кількостей завдань моделювання для систем мобільного зв'язку.  Зокрема, для розробки базової станції,  CAD-Grid надав можливість повністю оптимізувати параметри пристроїв короткостроковим моделюванням, яке зменшило період коректування пристроїв.

Зараз окремі комп'ютерні ресурси усередині Fujitsu віртуалізовані з допомогою  CAD-Grid. Додатково ій, що використовують моделі, написані в C++, виконуються горизонтальні симуляції системи, що використовують SystemC який здібний до надзвичайно абстрактного кодування технічних засобів і логічних симуляцій використовуючи Апаратну Мову Опису(HDL). Надалы планується розширити діапзон застосування CAD-Grid для аналізу застосувань з використанням інструментів аналізу шумів SIGAL і аналізу електромагнітних хвиль ACCUFIELD 2000, розроблених Fujitsu.

 

2.10. Міждисциплінарні Grid проекти

2.10.1. ПроектCrossGrid

Це  європейський проект з розробки і експлуатації нових компонентів Grid для взаємодіючих додатків з інтенсивними обчисленнями даних, як наприклад симуляція і візуалізація для хірургічних процедур, команди кризового затоплення, системи прийняття рішень, розподілений аналіз даних у фізиці високих енергій, і повітряне забруднення, поєднане з передбаченням погоди [40]  Детально розроблена методологія, загальна архітектура додатків, середовище програмування, і нові послуги Grid затверджуються і перевіряються на системі відладки CrossGrid, з наголосом на дружньому інтерфейсі (Рис. 2.24.). CrossGrid близько співробітничають зі Всесвітнім Форумом Grid (GGF) і проектом DataGrid для того, щоб отримаи вигоди від їх результатів і досвіду, і гарантувати повну сумісність . Головна мета CrossGrid - сприяння розширення оточення Grid до нової категорії додатків великої практичної важливості. Залучено одинадцять Європейських країн.

Вельми важлива новизна проекту CrossGrid полягає в розширенні Grid до цілком нової і соціально важливої категорії додатків. Вибрані інтерактивні системи є як обчислювально так і інформаційно-інтенсивними.

                         Рис. 2.24. Архітектура CrossGrid.

2.10.2. ПроектEGEE

Мета проекту EGEE (Enablіng Grіds for E-scіence іn Europe) - об'єднати національні, регіональні і тематичні Grid -розробки в єдину цільну Grid -інфраструктуру для підтримки наукових досліджень. Ця інфраструктура надає дослідникам, як в академічних колах, так і в різних областях економіки, цілодобовий доступ до високопродуктивних обчислювальних ресурсів незалежно від їхнього географічного положення. Користатися інфраструктурою зможуть географічно розподілені співтовариства дослідників, що мають потребу в загальних для них обчислювальних ресурсах, готові об'єднати свої власні обчислювальні інфраструктури і згодні з принципами загального доступу. Проект підтримують в основному  установи, що фінансують, ЄС, але призначений він для роботи в усьому світі. Значні засоби надходять від США, Росії й інших учасників проекту, що не входять у ЄС.

 Проект стартував у винятково сприятливих умовах: до його формального початку вже були розміщені основні сервіси і почата розробка проміжного програмного забезпечення і поширення інформації.  

Для відпрацьовування початкового рівня впровадження розвиваючої Grid - інфраструктури, офіційної оцінки її експлуатаційних якостей і функціональності були обрані дві практичні області. Одна - обробка даних від експериментів на прискорювачі LHC, де Grid - інфраструктура забезпечує збереження й аналіз петабайтів (1015 байтів) реальних і змодельованих даних експериментів по фізиці високих енергій, що ведуться в Європейському центрі ядерних досліджень (CERN , Швейцарія, www.cern.ch). Інша - біомедичні Grid, де декілька  коллаборацій вирішують однаково складні задачі, наприклад, пошук у геномних базах даних і індексування лікарняних баз даних, що складає декілька терабайтів у рік для однієї лікарні.

   До дійсного часу десятки додатків використовують цю  інфраструктуру, що розвивається, для різних областей науки: термоядерний синтез, науки про Землю, астрофізика, геофізика, археологія, обчислювальна фізика. Ця інфраструктура відкрита також для індустріальних і соціоекономічних співтовариств.

     У проекті EGEE беруть участь більш 90 організацій з більш 32 країн. Ці організації об'єднані в регіональні Grid (федерації). Сумарна обчислювальна потужність цієї самої великої міжнародної Grid -інфраструктури складає в даний момент понад 30 тисяч процесорів.

У задачі проекту EGEE входить:

  •  поширення інформації про технологію Grid;
  •  залучення нових користувачів, навчання;
  •  підтримка додатків;
  •  підтримка й обслуговування інфраструктури Grid і взаємодія з основними провайдерами;
  •  розробка й інтеграція програмного забезпечення проміжного рівня;
  •  забезпечення безпеки;
  •  розробка мережних сервісів.

       Робота EGEE для масового користувача заснована на проміжному програмному забезпеченні і сервісах проекту LCG (LHC Computіng Grіd) (http://lcg.web.cern.ch/LCG/).

       Для контролю за функціонуванням цієї інфраструктури розроблені й успішно функціонують різні засоби моніторингу (проходження функціональних тестів, монітори завдань, стану сайтов і інформаційної системи).

      Як  транспортне середовище для передачі даних і програми інфраструктури EGEE використовує дослідницьку мережу GEANT і підключені до неї регіональні мережі.

Сьогодні в EGEE  функціонують 240 вузлів в 45 країнах, в яких задіяні 41,000 процесорів і 5 Пб (PetaBytes) пам’яті. Мережа обслуговує більше  10,000 споживачів і 150 віртуальних організацій з продуктивністю більше 100,000 обчислювальних завдань за день. В мережі експлуатуються додатки з археології, астрономії, астрофізики, захисту навкіл ля, комп’ютерної хімії, науки про Землю, фінансів, фізики плазми, геофізики, фізики високих енергій, науки про життя, мультимедіа, матеріалознавства тощо.

       Для включення в Grid -інфраструктуру EGEE нових користувачів і наукових співтовариств діють Служби прийому заявок і підтримки (Applіcatіon Іdentіfіcatіon and Support Actіvіty), що ідентифікують і підтримують починаючих користувачів із широкого кола академічних дисциплін і областей економіки.

2.10.3. Проект Grid2003

У рамках проекту Grіd2003 розгорнуто один із самих великих грід у світі - "Grіd3", що поєднує могутні обчислювальні центри США і функціонуючий у безупинному режимі з листопада 2003 року. Створена інфраструктура використовується в інтересах декількох областей науки: підтримується 6 віртуальних організацій, більш 100 членів яких вирішують прикладні задачі по обробці даних фізичних експериментів, астрофізики, а також аналізу генома людини і молекулярних структур. Інфраструктура складається з 23 сайтів - грід-вузлів і включає 2800 процесорів. На Grіd3 виконується 10 різних додатків, середнє завантаження складає 1300 одночасно виконуються завдань, обсяг передачі даних між вузлами - більш 2 Тбайтів щодня.

Крім виробничого призначення Grіd3 служить полігоном для дослідницької діяльності по розвитку ПГЗ. Базове ПГЗ  Grіd3 - пакет Vіrtual Data Toolkіt (VDT) , що включає Globus Toolkіt, Condor, ряд служб проектів GrіPhy  і PPDG, а також деякі компоненти платформи EU DataGrіd. Цей комплект розширюємо декількома додатковими службами: Replіca Locatіon Servіce (RLS) , Storage Resource Manager (SRM)  і dCache .

Велика увага в Grіd3 приділяється питанням обслуговування і керування інфраструктурою: інсталяції вузлів, моніторингу й інформаційній службі, керуванню віртуальними організаціями.

  1. VDT істотно полегшує задачу адміністраторів ресурсних вузлів по установці і конфігуруванню інтерфейсів грід-служб, елементів пам'яті і постачальників інформації. Власне інсталяція підтримується конфігуратором Pacman . Стандартна конфігурація включає наступне ПО:

 * компоненти Globus Toolkіt GSІ, GRAM, і службу GrіdFTP;

 * інформаційну службу MDS, адаптовану для кожної віртуальної організації;

  * службу моніторингу ресурсів, що спирається на систему моніторингу кластерів Ganglіa і дає ієрархічне представлення всіх ресурсів Grіd ;

   *  серверне і клієнтське ПЗ, засноване на концепції агентів середовища моніторингу MonALіSA [53].

  2. Розподілена служба моніторингу Grіd3 в оперативному режимі відслідковує стан усіх компонентів Grid і    додатків, що виконуються в ньому. Застосовується кілька пакетів, що збирають дані моніторингу  і представляють їхній іншій службам і клієнтським програмам.

  3. Концепція Віртуальної організації дозволяє спростити доступ користувачів до ресурсів Grіd3 і зменшити навантаження на адміністратора ресурсного вузла. Така організація підтримується засобами Vіrtual Organіzatіon Management System (VOMS)  із проекту EU DataGrіd. Користувачі ресурсів мають доступ у вузлах до групових профілів і до файлів grіd-map, що відображають користувальницькі сертифікати стандарту X509 у ці профілі і можуть бути отримані із сервера VOMS.

2.10.4. Проект GridSolve

Grid-технології  дозволили об'єднати в єдине ціле розподілені обчислювальні ресурси. Проте скористатися цими ресурсами звичайному дослідникові складно, тому що потрібна спеціальна кваліфікація, глибоке знання Grid-технологій і програмування, тому що незручний інтерфейс командного рядка і відсутні зручні, звичні для звичайного дослідника засоби роботи з ресурсами Grid Це призводить до того, що круг користувачів Grid все ще досить вузький.

Необхідно надати дослідникам можливість використовувати ресурси Grid при проведенні обчислень в звичних робочих середовищах MATLAB / Mathematica / Octave Fortran / C/ і зробити це максимально зручним і прозорим чином, при цьому дослідник не повинен піклуватися про те, де знаходиться, як виявляється і викликається потрібний йому ресурс; він повинен тільки вказати ті критерії, по яких необхідно підібрати потрібний йому ресурс і  взаємодіяти з ресурсом так само, як і з локальними ресурсами (процедурами, класами, програмами) його робочого середовища

   Мета проекту GridSolve[63] - створити проміжне програмне забезпечення необхідне для забезпечення непомітного мосту між простими, стандартними інтерфейсами програмування та настільними системами, які превалюють у роботі учених з обчисленнями, і великою кількістю послуг, які надаються архітектурою Grid, таким чином, що користувачі перших могли легко звернутися та отримати переваги (спільні обробка, сховище даних, програмне забезпечення, ресурси даних тощо) від використання останніх. З цією метою, GridSolve використовує NetSolve, як одну зі своїх основних технологій [64,65]. NetSolve – це система клієнт-сервер-агент, яка забезпечує віддалений доступ до технічних засобів і ресурсів програмного забезпечення через різноманітні клієнтські інтерфейси. Система NetSolve складається з трьох частин, як показано на рис. 2.25:

Клієнт, якому потрібно виконувати деякий віддалений виклик процедури. На додаток до програм на C та Fortran, клієнтом NetSolve може бути інтерактивне середовище для вирішення задач, наприклад Matlab або Mathematica.

Сервер виконує функції від імені клієнтів. Серверні технічні засоби можуть різнитися по складності від однопроцесорної машини до системи MPP, а функції, що виконуються сервером, можуть бути довільно складні. Адміністратори серверів можуть прямо додавати свої власні служби функцій без впливу на решту системи NetSolve.

Агент – ключова точка системи NetSolve. Він підтримує список всіх доступних серверів і виконує виділення ресурсів для клієнтських запитів, гарантуючи при цьому баланс завантаження серверів. На практиці, механізми, які використовує NetSolve, роблять віддалений виклик процедури достатньо прозорим зі сторони користувача.

Проте, за кулісами типового запиту до NetSolve відбуваються наступні кроки:

  •  Клієнт робить запит до агента про відповідний сервер, який може виконувати бажану функцію.

Рис.2.25. Структура NetSolve

  •  Агент повертає список доступних серверів, ранжованих в порядку придатності
  •   Клієнт намагається контактувати з сервером зі списку, починаючи з першого і рухаючись донизу списку. Потім клієнт відправляє вхідні дані серверу.
  •   Нарешті, сервер виконує функцію від імені клієнта і повертає результати.

На додаток до надання проміжного програмного забезпечення необхідного, щоб виконувати керований віддалений виклик процедури, GridSolve прагне забезпечити механізми, щоб взаємодіяти з іншими існуючими службами Grid. Це можна зробити маючи клієнт, який знає, як зв'язатися з різними службами Grid, або маючи сервери, які виконують роль проксі до тих служб Grid. NetSolve забезпечує деяку підтримку підходу проксі-сервера, в той час як підхід зі сторони клієнта буде підтримуватися API нового стандарту GridRPC. Розглянемо ці два підходи детальніше.

Зазвичай, сервер GridSolve сам виконує послуги, на які був запит, але в деяких випадках він може служити проксі до інших служб, таких як Condor. Основною перевагою є те, що протокол комунікації клієнта з сервером ідентичний, тобто клієнтові не потрібно турбуватися про всі можливі кінцеві служби. Проксі-сервер також дозволяє об'єднання і планування ресурсів, таких як машини в кластері, на одному GridSolve сервері.

GridRPC API представляє роботу по стандартизації та реалізації переносимого та простого механізму віддаленого виклику процедури (RPC) для обчислень у Grid. Ці намагання по стандартизації проводяться при підтримці Дослідницької Групи з Моделей Програмування Глобального Форуму Grid (Global Grid Forum Research Group on Programming Models). Початкова робота над GridRPC показала, що клієнтський доступ до існуючих обчислювальних систем Grid, таких як NetSolve і Ninf, може бути уніфіковано через загальний API, що здавалося важким завданням в минулому. У його поточному стані, API для мови С, забезпечений GridRPC, дозволяє зробити вихідний код клієнтських програм сумісним з різними службами Grid, за умови, що служба реалізує підтримку GridRPC API. Поєднання цих технологій дозволить GridSolve забезпечити цілісний клієнтський доступ до різноманітного набору служб Grid.

2.10.5. Проект SURAgrid

Проект  SURAgrid (Southeastern Universities Research Association)  об'єднує ресурси 27 учбових закладів з 15 штатів на південному сході США і  активно підтримує колективну роботу в області Grid-обчислень з метою розширення можливостей дослідницьких організацій [50]. IBM надає учасникам проекту SURAgrid устаткування і програмне забезпечення та тісно співпрацює з університетськими дослідниками в питаннях ефективного використання величезних обчислювальних можливостей середовища SURAgrid. Unix-системи IBM дозволяють удвічі збільшити потужність цієї високорозвинутої Grid -структури, тим самим радикально розширивши її дослідницькі можливості в самих різних областях — від моделювання проходження штормів в прибережних зонах до детальної розшифровки генетичного коду.

Варто відзначити, що дослідницька асоціація університетів південного сходу SURA була заснована в 1980 р. як неакціонерна некомерційна організація. Сьогодні асоціація SURA об'єднує більше 60 провідних дослідницьких установ південно-східних регіонів США і округу Колумбія. Співтовариство допомагає коледжам, університетам і іншим учбовим закладам співпрацювати один з одним і з державними і галузевими організаціями по питаннях придбання, створення і застосування лабораторного і іншого дослідницького устаткування, а також з метою поглиблення теоретичних і прикладних знань у фізиці, біології, інших природних науках і в техніці. Проект SURAgrid є подальшим розвиток програми NMI Testbed Grid, ініційованої Національним науковим фондом (NSF) у вересні 2003 р. в рамках ініціативи NSF Middleware Initiative (NMI). У співпраці з консорціумом Internet2 і асоціацією EDUCAUSE  асоціація SURA розробила програму NMI Integration Testbed і керувала нею впродовж перших трьох років існування ініціативи NMI.

Розширення SURAgrid за рахунок високопродуктивних комп'ютерів IBM підвищує її обчислювальні можливості до рівня приблизно 10 TFLOPS. Середовище SURAgrid об'єднує обчислювальні ресурси різнорідних систем, розміщених в декількох коледжах і університетах, в єдине віртуальне середовище, яке дозволяє проводити поглиблені наукові дослідження. У ній використовується проміжне програмне забезпечення для Grid-систем компанії Globus.org, що дозволяє різнорідним системам працювати разом, і високошвидкісні мережеві канали південно-східного регіону, зокрема нова мережа National LambdaRail.

Хоча дана Grid-система призначена для досліджень в самих різних областях, особлива увага приділятиметься вивченню штормового нагону в рамках програми SURA Coastal Ocean Observing and Prediction (SCOOP), фінансованого Національною адміністрацією США по океану і атмосфері (National Oceanic and Atmospheric Administration), і Управлінням дослідницьких робіт ВМФ США (U.S. Office of Naval Research). Як пояснюють фахівці Національного центру США з дослідження ураганів (National Hurricane Center), штормовий нагін — це, спрощено кажучи, вода, яку під час шторму вітер виштовхує у напрямі берега. При збігу цього процесу із звичайним приливом утворюється так званий штормовий прилив, який здатний підвищити рівень води щодо нормального на 5 м і більш. Крім того, на штормовий прилив іноді накладаються хвилі, що викликаються вітром. Такий підйом рівня води може привести до катастрофічного затоплення прибережних областей, особливо якщо штормовий прилив співпав із звичайним високим приливом. Оскільки значна частина густонаселених областей на побережжі Атлантичного океану і Мексиканської затоки лежить на висоті всього 3 м вище за рівень моря, потенційна небезпека штормових приливів надзвичайно висока.

Розгортання Unix-систем IBM не тільки радикально підвищило обчислювальну потужність, але і розширило для учених центру можливості проведення спільних робіт в масштабі декількох університетів з різних міст. Адже спільна робота — це основа діяльності SURAgrid, як і будь-якої іншої наукової діяльності. Середовище SURAgrid реалізоване на серверах IBM System p575, кожен з яких має 16 процесорів Power5+ з тактовою частотою 1,9 Ггц і 32 Гбайт оперативної пам'яті.

2.10.6. Проект LA Grid

Ще одна проект — LA Grid (Latin American Grid), що об'єднує обчислювальні ресурси учасників з Північної Америки, Латинської Америки і Іспанії в один могутній суперкомп'ютер, стала однією з найбільших в світі ініціатив по використанню Grid-технологій в світовій університетській спільноті [51].. В рамках цієї програми університети декількох країн і Центр суперкомп'ютерних обчислень в Барселоні надають дослідникам і студентам університетів обчислювальні потужності для реалізації дослідницьких ініціатив з метою розширення співпраці в ході соціальних значущих досліджень. Так, Атлантичний університет штату Флоріда FAU (Florida Atlantic University) став десятим учасником програми LA Grid, направленої на підготовку кваліфікованих ІТ-спеціалістів для країн Латинської Америки і дослідження в таких областях, як медико-біологічні науки, метеорологічне моделювання і прогнозування. Цей університет було обрано за успіхи в області досліджень, наявність висококваліфікованих технічних фахівців з Латинської Америки і прагнення керівництва підтримати концепцію LA Grid. Крім того, FAU відомий по всій країні етнічним різноманіттям складу студентів, серед яких 17% афроамериканців, 16% латиноамериканців, 5% вихідців з країн Азії і 4% представників інших національностей зі всього світу.

Взагалі кажучи, підготовка висококваліфікованих кадрів — головна мета учасників LA Grid. За даними досліджень (наприклад, Taulbee Survey, проведеного виданням Computer Research News), латиноамериканські студенти складають незначну частку від загальної кількості випускників коледжів, що одержують ступені в області ІТ. В рамках ініціативи по використанню Grid-технологій університети надають студентам доступ до дослідницьких проектів і програм стажувань і наставництва, що фінансуються корпорацією.

У IBM вважають, що технології і ресурси дозволять ініціативі LA Grid стати каталізатором процесу формування нового покоління технологічних фахівців в США і Латинській Америці. Міцні партнерські відносини між FAU і іншими академічними організаціями гратимуть важливу роль в створенні робочих місць, виводу на ринок інноваційних технологій і стимулюванні розвитку економіки штату Флоріда. У IBM сподіваються, що окрім розширення досліджень в значущих для США, Латинської Америки і всього світу областях, проект стимулюватиме латиноамериканських студентів до вибору кар'єри у сфері ІТ і прикладних наук. Нагадаємо, що програма LA Grid була запущена в грудні 2005, і з тих пір корпорація провела вже більше 30 стажувань для студентів з університетів, що брали участь в програмі. У міру розширення рівня участі студентів в цьому проекті, IBM пропонуватиме додаткові програми розвитку професійних навиків, такі, як індивідуальне наставництво, а в деяких випадках і приймати студентів на роботу на повну ставку.

Варто особливо відзначити, що найбільший пріоритет для LA Grid мають сумісні дослідницькі програми в таких областях, як послаблення наслідків ураганів, медико-біологічні науки і охорона здоров'я, проте співробітники університетів можуть отримувати доступ до об'єднаних суперкомп'ютерних ресурсів і для проведення незалежних досліджень. Університет FAU, наприклад, планує дослідження в таких областях, як структура генома людини, біоінформаційне картування, обчислювальна фізика, інтегровані обчислення і комунікації, обробка відеоматеріалів, комп'ютерне моделювання і інформаційна безпека.

Ставши учасником LA Grid, університет FAU зможе робити внесок у вигляді знань своїх дослідників і ресурсів свого суперкомп'ютера на базі IBM BladeCenter, встановленого в Коледжі інформаційних технологій і прикладних наук. У число учасників програми також входять Міжнародний університет штату Флоріда, Університет Майамі, Університет Північної Флоріди, Університет Пуерто-ріко, Технологічний університет в Монтерєє (Мексика), Університет де ла Плата (Аргентина) і Університет аеронавтики (Мексика). Крім того, в програмі беруть участь Суперкомп'ютерний центр Барселони (Іспанія) і підрозділ IBM South Florida, що надають обчислювальні потужності і ресурси. В результаті приєднання до програми університету FAU, до інфраструктури LA Grid додалося 150 серверів і 1500 додаткових процесорів для сумісного використання. IBM ставить перед собою мету розширити інфраструктуру LA Grid до 30 університетів і 10 тис. процесорів до 2010 р.

2.10.7. Проект myGrid

У Британії проект myGrid – це великий консорціум, що об’єднує університети Манчестера, Саутгемптона, Ньюкасла і Шеффілда з Європейським Інститутом біоінформатики в Хінкстоні, що поблизу Кембриджа [52]. Додатково, GSK AstraZeneca, IBM і SUN – ‘ промисловими партнерами. Мета проекту myGrid – розробка і демонстрація високорівневих виконуваних функцій в Grid для підтримки учених, що використовують комплексні розподілені ресурси. Проект розробляє систему  е-Науки, забезпечуючи підтримку процесу експериментального розслідування, накопичення свідоцтв і результуючого засвоєння. Новою властивістю системи розробок буде забезпечення функцій персоналізації, пов'язаних з вибором ресурсів, управлінням даних і виконанням процесу експериментального дослідування, накопичення результатів  і результуючого засвоєння.. Проект myGrid планує передавати сервіси проміжного шару Grid для автоматичної анотації даних, підтримки інформаційного потоку, доступу до даних і їх інтеграції. Для підтримки останньої мети, проект myGrid буде ключовим тестовим додатком для проміжного шару, що виробляється британським проектом UK Core Programme на OGSA – DAI .

2.10.8 Приклади деяких Віртуальних Організацій

ВО eEarth проекту eEarth Project ,  менеджер  - М.Н.Жижин (jjn@wdcb.ru)

Віртуальна організація "e-Earth" створена для спільної роботи за допомогою технології Grid  в галузі геофізики. Технологічна підтримка Grid - проекту здійснюється RDІG (Russian Data Intensive Grid, http://www.egee-rdig.ru/). Метою Grid - проекту є:

- Забезпечення доступу до розподілених віддалених даних учасників проекту надання розрахункових ресурсів для віддалених розподілених розрахунків

-  Моніторинг завантаження об'єднаних рахункових ресурсів з метою оптимізації

-  Геофізичні задачі, у рішенні яких може допомогти Grid -технологія:

-     Об'єднання картографічних ресурсів

-  Забезпечення доступу до рахункових моделей і геофізичних даних

E-Earth існує на базі обчислювального центра ГЦ РАН, де знаходиться кластер обчислювальних машин на базі операційної системи "scіentіfіc lіnux" з інструментарієм "tool kіt globus 2".

.ВО Photon проекту   Photon, менеджер Г.В.Давиденко (davidenk@itep.ru)

Віртуальна організація Photon була створена для членів наукового проекту Photon, що працює в Аликхановому інституті теоретичної і експериментальної фізики. Головною метою цього проекту є дослідження природи будівлі і походження часток кванту, створеного при взаємодії високої енергії пучків гіперонів з ядром.

. ВО AMS проекту  AMS, менеджер В.І.Галкін (glk@dec1.sinp.msu.ru)

Експеримент по дослідженню в космосі темних матерій, загублених і антиматерій на міжнародних космічних станціях.

. ВО Fusion_rdig проекту ITER (Іnternatіonal Thermo-nuclear Experіmental Reactor), менеджер  В.А.Вознесенский (vovic@nfi.kiae.ru). ІТЕР  - перший у світі експериментальний термоядерний реактор.

Міжнародний проект ІТЕР здійснюється на базі ведучих світових термоядерних програм. Його мета - продемонструвати наукову і технічну можливість одержання термоядерної енергії для мирних цілей. ІТЕР стане першою термоядерною установкою, що виробляє теплову енергію в промислових  масштабах.

ІТЕР - це наступний логічний крок розвитку програм досліджень в області УТС, необхідна ступінь у справі демонстрації можливості одержання електроенергії на основі термоядерного синтезу.

Співробітництво в рамках проекту ІТЕР дає можливість істотної економії витрат для кожного учасника, і що більш важливо, дозволяє узагальнити досвід, накопичений протягом  останніх десятиліть у досягненнях ведучих термоядерних установок і програм.

. ВО RGStest проекту Russian Data Intensive Grid, менеджер А.П.Демичев (demichev@ theory.sinp.msu.ru). RGStest  створено для тестування сумісності прикладного ПЗ з грід-інфраструктурою.

. ВО RDTEAM проекту Russian Data Intensive Grid, менеджер А.П.Демичев (demichev@ theory.sinp.msu.ru). RDTEAM створено для тестування власне грід-ПЗ інфраструктури РДІГ.

ВО ZEUS - це організоване співробітництво близько 450 фізиків, які управляють великою частиною детектора в електронно-протонному прискорювачі зустрічних пучків HERA в лабораторії DESY, що знаходиться в Гамбургу. Детектор ZEUS – це складний інструмент для вивчення реакції частинок на дію високоенергетичних променів, спричинених акселератором HERA. Таким чином, вчені цієї організації покращують і удосконалюють наше уявлення про фундаментальні частинки и природні сили, набуваючи досвіду в організації «мікросвіту». Вступити до організації можна за адресою - http://www-zeus.desy.de/

ВО Babar – метою цієї віртуальної організації є вивчення порушення заряду і парності симетрії в затухаючих В-мезонах. Ці зміни в зарядах виявляють себе завдяки різному поводженню частин і античастинок, що дає можливість пояснити відсутність античастинок в повсякденному житті. Вступити до організації можна тут - http://www-public.slac.stanford.edu/babar/

ВО ILC – Організація, яка розробляє лінійний коллайдер  позитронів, який буде функціонувати при енергії від 90 до 500 ГЕВ. Ця машина дозволить вченим досліджувати межу високої енергії в зіткненнях позитронів. Цей пристрій буде доповнювати ті, які розробляються в LHC і CERN. Головна мета розробки цього пристрою – детальне вивчення механізму, завдяки якому електрослабке порушення симетрії виявляється в природі. Вступити до організації можна за адресою http://lcg.web.cern.ch/LCG/ Users/registration/VO.html

ВО DO – віртуальна організація, яка складається з учених зі всього світу. Вони проводять досліди над основною природою матерії. Ці досліди відбуваються у макроенергетичному акселераторі (Коллайдері Теватрона) в національній лабораторії (Fermilab), яка знаходиться в штаті Іллінойс, США. Досліди зосередженні на вивченні взаємодії фотонів і антифотонів при максимально допустимих енергіях. Вступити до організації можна тут - http://www-d0.fnal.gov/

ВО EGEODE – віртуальна організація, яка займається дослідженням з геофізики як для суспільної так і для приватної індустрії. Лабораторія знаходиться в Барселоні. Вступити до організації можна тут - http://www.egeode.org

ВИСНОВКИ

    Grid-підхід дозволяє об’єднати обчислювальні та інші ресурси окремих суперкомп’ютерів Grid-мережі в єдиний величезний суперкомп’ютер, який стає доступним для будь-якого учасника цієї високошвидкісної мережі, а це, в свою чергу, дає величезний економічний ефект для кожного споживача зокрема, оскільки відпадає необхідність в побудові свого надпотужного суперкомп’ютера. Стає вигідніше інвестувати кошти у високошвидкісну оптичну інфраструктуру зв’язку, що поєднуватиме усіх учасників Grid-проекту.

   При використанні Grid інфраструктури можна:

  •  організувати ефективне використання ресурсів для невеликих завдань, з утилізацією тимчасово простоюючих комп'ютерних ресурсів;
    •  здійснювати розподілені суперобчислення, для вирішення дуже великих завдань, що вимагають величезних процесорних ресурсів, пам'яті тощо;
    •  здійснювати обчислення із залученням великих об'ємів географічно розподілених даних, наприклад, в метеорології, астрономії, фізиці високих енергій;
    •  виконувати колективні обчислення, в яких одночасно беруть участь користувачі з різних організацій.

Україна  розпочала  „на рівних” співпрацювати з країнами Європейського Союзу по створенню і провадженню технології 21-го століття – Grid, яка забезпечує сумісний доступ до комп’ютерних ресурсів (які змінюються від файлів і даних до комп'ютерів, сенсорів і мереж), реалізує різноманітні режими їх використання, забезпечує суворий контроль, управління і організацію системи безпеки; підтримує гетерогенність мережі, баланс навантаження на обчислювальних вузлах та інше.

Наведемо основні співтовариства, які мають потребу сьогодні в застосуванні Grid –технологій:

• Урядові організації, (службовці, експерти і науковці), що традиційно займаються питаннями національної безпеки, довгостроковими дослідженнями і плануванням.

• Організації охорони здоров'я, Grid сегмент яких відрізняють відносно невеликі розміри, централізоване управління і складність корпоративної інфраструктури.

• Співтовариства вчених, яким необхідна віртуальна Grid мережа, що характеризується універсальним доступом, відносно вузькою спрямованістю, динамічно змінним складом користувачів, децентралізованістю управління, а також частим сумісним зверненням до існуючих ресурсів. Схожа модель може бути використана для міжгалузевих, міжвідомчих і міждисциплінарних дослідницьких груп і т.п. Прикладом такого співтовариства вчених може бути участь фахівців Інституту теоретичної фізики НАНУ в виконанні завдань проектів ALICE, CMS, що проводяться ЦЕРНом в галузі фізики високих енергій.

• Співтовариство, що охоплює весь існуючий ринок обчислень. Цьому співтовариству властиві велике число учасників, відсутність постійних схем і варіантів взаємодій.

Підготовка і публікація цього матеріалу з Grid стали можливими завдяки ґранту МОН Україна з проекту за договором № ІТ/ 506-2007 від 22 серпня 2007 р. «Створення національної Grid-інфраструктури для забезпечення наукових досліджень».

Література

  1.  I. Foster, C. Kesselman. The Grid: Blueprint for a New Computing Infrastructure. – San Francisco, Morgan Kaufmann Publishers, 1998. - pp. 259-278.
  2.  D. Clark. Face-to-Face with Peer-to-Peer Networking.-//Computer, Vol. 34, No. 1, 2001.- pp. 18-21.
  3.  I. Foster, C. Kesselman, S. Tuecke. The Anatomy of the Grid: Enabling Scalable Virtual Organizations. // International J. Supercomputer Applications. - 2001, 15(3), pp.12-15.
  4.  J. Treadwell, M. Behrens, D. Berry et al. Open Grid Services Architecture Glossary of Terms. – Global Grid Forum, 2005. – p.4-8
  5.  http://www1.cnri.reston.va.us /gigafr/- CNRI, Corporation for National Research Initiatives, Gigabit Testbed Initiative Final Report,December, 1996.
  6.  I. Foster. Software Infrastructure  for the I-WAY High Performance Distributed Computing Experiment / I. Foster, J. Geisler, W. Nickless, W. Smith, S. Tuecke.- // John Wiley and Sons, 2003.- pp 99-111.
  7.   http://www.geant.net – офіційний сайт проекту GEANT.
  8.   http://lcg.web.cern.ch/LCG - офіційний сайт проекту LCG
  9.  I. Foster. The Nexus Approach to Integrating      Multithreading and Communication / I. Foster, C. Kesselman, S. Tuecke..- // J. Parallel and Distributed Computing,  37:70-82, 1996.-105p.
  10.   http://www.eurogrid.org-  офіційний сайт Європейського проекту EUROGRID
  11.  http://www.ebi.ac.uk – сайт Європейського Інституту Біоінформатики
  12.   http://www.ogf.org/ - сайт спільноти Open Grid Forum.
  13.   I. Foster. The Physiology of the Grid: An Open Grid Services Architecture for Distributed Systems Integration /I. Foster, C. Kesselman, S. Tuecke, J. M. Nick. . – San Francisco, Morgan Kaufmann Publishers, 2002. – pp.54–62.
  14.  http://www.eu-egee.org/ - офіційний портал проекту Enabling Grids for E-sciencE (EGEE).
  15.  http://www.globus.org - офіційний сайт проекту Globus .
  16.  http://www.griphyn.org- cайт проекту GriPhyN.
  17.  http://www.ppdg.net- сайт проекту PPDataGrid.
  18.  http://www.astrogrid.ac.uk- сайт проекту AstroGrid.
  19.  http://www.combechem.org –сайт проекту  Comb-e-Chem.
  20.  http://montage.ipac.caltech.edu/ -сайт проекту Montage, An Astronomical Image Mosaic Service for the National Virtual Observatory,
  21.  www.epsrc.ac.uk – сайт Британської Інженерно-фізичної Науково-дослідної Спілки.
  22.  http://gridport.npaci.edu/gamess - сайт проекту  GAMESS
  23.   http://www.ibm.com – офіційний сайт компанії IBM.
  24.  http://www.bytemag.ru/ - сайт російського відділення журналу BYTE.
  25.  http://www.eumedgrid.org/ - офіційний портал проекту EUMed-Grid.
  26.  http://www.gridcomputing.com/  -сайт Grid Computing Info Centre.
  27.  http://www.ivdgl.org – сайт Міжнародної Віртуальної Лабораторії Grid Даних
  28.  http://eu-datagrid.web.cern.ch- сайт  Європейського проекту DataGrid
  29.  http://root.cern.ch/ - сайт системи ROOT.
  30.   http://www.d-grid.de – офіційний сайт проекту Die Deutsche Grid-Initiative.
  31.   http://www.geodise.org/ - портал системи GEODISE.
  32.  http://grid.ntu-kpi.kiev.ua/ - сайт проекту „Створення Національної GRID інфраструктури України для наукових досліджень”, Інститут прикладного системного аналізу НТУУ "КПІ".
  33.  http://lhcgrid.web.cern.ch/LHCgrid - сайт проекту LHC Computing .
  34.  http://www.teragrid.org/index.php - офіційний сайт проекту TeraGRID.
  35.  http://www.beingrid.eu/ - офіційний сайт проекту BEinGRID (Business Experiments in GRID).
  36.  IBM and SAS Working Together to Promote Business Innovations with Grid Cimputing. SAS White Papers, 2006.
  37.  http://www.garr.it/conf07/slide/pelfer.pdf - сайт проекту EUМЕDGrid з проектом ArchaeoGRID
  38.  http://vdt.cs.wisc.edu/. - T.Yamashita, Grid environment “CAD-Grid” for mobile communication system simulation. PSE Workshop in Sapporo, July 2004.- pp/31-36
  39.  http://vdt.cs.wisc.edu/- Virtual Data Toolkit,
  40.  http://www.crossgrid.org/ – сайт проекту CrossGrid
  41.  http://www.servogrid.org -  сайт Solid Earth Research Virtual Observatory.
  42.   http://www.earthsystemgrid.org – сайт проекту DoE Earth Systems (Climate) Grid.
  43.   http://www.ncbiogrid.org –  сайт Biomedical Informatics Research Network BIRN Grid.
  44.   http://www.gria.org - European Grid Resources for Industrial Applications.
  45.  http://www.escience-grid.org.uk/docs/briefing/nigridp.htm - List of Grid  Projects.
  46.   http://www.research-councils.ac.uk/ escience/documents/gridteam.htm - UK e-Science Network.
  47.  http://gridcomputsng.org./grid 2003 - cайт з описом проекту grid 2003.
  48.  http://www.pdb.org  - cайт Банку Даних Протеїнів (PDB)
  49.   http://www.ipg.nasa.gov/. – сайт NASA Information Power Grid,
  50.  http://www.sura.org   - сайт проекту  SURAgrid
  51.  http://www.lagrid.fiu.edu   – сайт проекту LA Grid
  52.  http://www.mygrid.info/   - сайт MyGrid – Directly Supporting the e-Science
  53.  http://pcalimonitor.cern.ch/map.jsp   - caйт MonALISA Repository for ALICE
  54.  http://www.climateprediction.com  - Ensemble Climate Prediction
  55.  http://www.us-vo.org/.- National Virtual (Astronomical) Observatory,
  56.  http://www.eso.org/avo/.- European Astrophysical Virtual Observatory,
  57.   http://www.mssl.ucl.ac.uk/grid/egso/egso top.html.- European Grid of Solar Observations EGSO,
  58.   http://www.neesgrid.org/ - NEES Grid, National Virtual Collaboratory for Earthquake Engineering Research,
  59.  http://www.servogrid.org. - Solid Earth Research Virtual Observatory,
  60.    http://www.earthsystemgrid.org/ - DoE Earth Systems (Climate) Grid,
  61.   http://www.crossgrid.org/ - European Cross Grid Infrastructure Project.
  62.  http://nws.cs.ucsb.edu/. - The Network Weather Service,
  63.  http://icl.cs.utk.edu/netsolve/ – NetSolve/GridSolve overview.
  64.  J. Dongarra, K. Seymour. GridSolve: The Evolution of A Network Enabled Solver. – University of Tennessee, 2006. – 25 p.
  65.   http://icl.cs.utk.edu/netsolvedev/documents/ug/html/UG.html – Users’ Guide to NetSolve V2.0.
  66.  http://www.itrd.gov/pubs/blue02/national-grand.html - офіційний сайт проекту National Grand Challenge Applications,
  67.  http://www.cs.york.ac.uk/DAME - офіційний сайт проекту DAME.
  68.  http://www.npac.syr.edu/factoring.html - офіційний сайт проекту FAFNER
  69.  https://gilda.ct.infn.it - офіційний сайт проекту GILDA.
  70.  www.globus.org/research/ papers/ogsa.pdf - Foster, I., Kesselman, C., Nick, J. M., & Tuecke, S. The Physiology of the Grid—An Open Grid Service Architecture for Distributed Systems Integration.
  71.  http://legion. virginia.edu/index.html -Legion Worldwide Virtual Computer Home Page
  72.  http://eu-dataGrid.web.cern.ch/ - офіційний сайт проекту DataGrid
  73.   http://www.platform.com/grid/index.asp- Platform Grid Computing
  74.   http://www.cs.wisc.edu/condor/.- офіційний сайт проекту Condor 
  75.   http://entropia.com/ -- офіційний сайт проекту Entropia.
  76.  http://www.jxta.org. - JXTA Peer-to-Peer Technology
  77.  Петренко А.І. Інтелектуальна обробка інформації.- // Системний аналіз і інформаційні технології.-Київ, №4, 2008.
  78.  http://www.accessGrid.org - офіційний сайт проекту Access Grid.
  79.  Berners-Lee,T. The Semantic Web / Berners-Lee,T., Hendler,J. and Lassila.- // Scientific  American, May, 2001.-  pp.598-604.
  80.  http://www.ipg.nasa.gov  - NASA Information Power Grid
  81.  http://www.fipa.org/ - The Foundation for Physical Agents.
  82.  Housley, R.. RFC 3280: Internet X.509 Public Key Infrastructure Certificate and Certificate Revocation List Profile / Housley, R., Polk, W., Ford, W., and Solo, D. -Standart.-2002.
  83.  Next Generation Grids 2.Requirements and Options for European Grids. Research 2005-2010 and Beyond Expert Group Report, July 2004


Віртуальний об’єкт

Радіочастотні сигнали

MR зображення

Ядро виконання розрахунків

Паралельне моделювання електромагнітних рівнянь Блоха:

Перетворення Фур’є

інструменти

сенсори

колеги

рограмне

забезпечення

сховища даних

компютери


 

А также другие работы, которые могут Вас заинтересовать

29013. Поверхностное уплотнение грунтов укаткой, вибрацией и тяжёлыми трамбовками. Понятие об оптимальной влажности уплотняемого грунта 36 KB
  Понятие об оптимальной влажности уплотняемого грунта. Уплотняемость грунтов особенно пылеватоглинистых в значительной степени зависит от их влажности и определяется максимальной плотностью скелета уплотнённого грунта ρdmax и оптимальной влажностью w0. Эти параметры находятся по методике стандартного уплотнения грунта при различной влажности 40 ударами груза весом 215 Н сбрасываемого с высоты 30 см. По результатам испытания строится график зависимости плотности скелета уплотнённого грунта ρd от влажности грунта w рис.
29014. Глубинное уплотнение грунтов с помощью песчаных и грунтовых свай. Область применения указанных методов 51.5 KB
  Песчаные сваи применяют для уплотнения сильно сжимаемых пылеватоглинистых грунтов рыхлых песков и заторфованных грунтов на глубину до 18. Песчаные сваи изготовляют следующим образом. Вокруг песчаной сваи грунт также находится в уплотнённом состоянии рис. Уплотнение грунта песчаными сваями обычно производится под всем сооружением Сваи располагаются в шахматном порядке как это показано на рис.
29015. Уплотнение грунтов основания водопонижением. Ускорение процесса уплотнения с помощью электроосмоса 33.5 KB
  Площадь основания где намечено уплотнение грунтов окружается иглофильтрами или колодцами из которых производится откачка воды водопонизительными установками рис. Понижение уровня подземных вод приводит к тому что в пределах зоны водопонижения снимается взвешивающее действие воды на скелет грунта. При пропускании через грунт постоянного электрического тока происходит передвижение воды к иглофильтрукатоду и эффективный коэффициент фильтрации увеличивается в 10.
29016. Закрепление грунтов инъекциями цементных или силикатных растворов, битума, синтетических смол. Область применения указанных методов 34 KB
  Закрепление грунтов инъекциями цементных или силикатных растворов битума синтетических смол. Закрепление грунтов заключается в искусственном преобразовании строительных свойств грунтов в условиях их естественного залегания разнообразными физикохимическими методами. Это обеспечивает увеличение прочности грунтов снижение их сжимаемости уменьшение водопроницаемости и чувствительности к изменению внешней среды особенно влажности. Цементация грунтов.
29017. Термическое закрепление грунтов. Область применения и методы контроля качества работ 33.5 KB
  В результате этого образуются прочные водостойкие структурные связи между частицами и агрегатами грунта. Отметим что температура газов которыми производится обработка грунта не должна превышать 750.12 суток в результате чего получается упрочнённый конусообразный массив грунта диаметром поверху 15. Образуется как бы коническая свая из обожжённого непросадочного грунта с прочностью до 10 МПа.
29018. Что называется грунтом, его составные элементы 25 KB
  Структурные связи между частицами грунта. Грунтами называют любые горные породы коры выветривания земли сыпучие или связные прочность связей у которых между частицами во много раз меньше чем прочность самих минеральных частиц или эти связи между частицами отсутствуют вовсе. Вода и газы находятся в порах между твердыми частицами минеральными и органическими. Газообразные включения пары газы всегда в том или ином количестве содержатся в грунтах и могут находиться в следующих состояниях: замкнутом или защемленном располагаясь в...
29019. Назовите виды давления грунта на подпорную стенку в зависимости от ее поступательного движения. Какой вид имеет диаграмма давления грунта на стенку в зависимости от ее перемещения 31.5 KB
  Какой вид имеет диаграмма давления грунта на стенку в зависимости от ее перемещения В зависимости от поступательного движения подпорной стенки на нее могут действовать следующие виды давления грунта: активное давление; пассивное давление; давление покоя. Активным называется минимальное из всех возможных для данной стенки давление на нее грунта проявляющееся в том случае если стенка имеет возможность переместиться в сторону от засыпки рис. Активное давление иногда называют распором. Пассивным называется максимальное из всех возможных...
29020. Напряжения, возникающие в массиве грунта от действия сооружения, накладываются на поле начальных напряжений, к которым относятся напряжения от собственного веса грунта 28 KB
  Напряжения возникающие в массиве грунта от действия сооружения накладываются на поле начальных напряжений к которым относятся напряжения от собственного веса грунта. Как вычислить вертикальные напряжения в массиве грунта от его собственного веса в следующих случаях: однородное основание; многослойное основание; при наличии в толще грунта уровня подземных вод; при наличии ниже уровня подземных вод водоупорного слоя. Вертикальное напряжение от собственного веса грунта σz представляют собой вес столба грунта над рассматриваемой точкой...
29021. От чего зависит глубина заложения фундамента 31.5 KB
  Глубина заложения фундаментов является одним из основных факторов обеспечивающих необходимую несущую способность и деформации основания не превышающие предельных по условиям нормальной эксплуатации здания или сооружения. От чего зависит глубина заложения фундамента Допускается ли закладывать подошвы соседних фундаментов на разных отметках Глубина заложения фундамента определяется: инженерногеологическими условиями площадки строительства физикомеханические свойства грунтов характер напластования и пр.; гидрогеологическими условиями...