1. pololetí 2009

Statistiky provozu MetaCentra za období 1.1.-30.5. 2009

Obsah

Terminologie

procesory/CPU
počítána jsou skutečná jádra procesorů. Tj. čtyřjádrový čip je počítán jako čtyři CPU, jeden procesor s dvěma HyperThreadingovými jádry je počítán jako jeden procesor, dvoujádrový čip kde každé jádro má dvě HyperThreadingová jádra je počítán jako 2 procesory.
čas úloh
počítán je čas úlohy během sledovaného období. Tj. u úloh započatých před začátkem sledovaného období je počítána jen část od začátku sledovaného období, a naopak u úloh běžících v okamžiku konce sledovaného období je započítána jen část před koncem sledovaného období

Přehledy

K 30.5.2009 mělo MetaCentrum 342 fyzických strojů s celkem 1320 CPU.

Za uvedené období bylo spočítáno celkem 125 432 úloh od celkem 164 uživatelů, kteří propočítali více než jeden a půl milionu hodin strojového času.

Celkem MetaCentrum eviduje 309 uživatelů s platnými účty, z toho 233 bylo uživateli již v předchozích letech a 76 podalo přihlášku v roce 2009. Rozdíl mezi počtem uživatelů počítajících úlohy a počtem uživatelů s platným účtem je dán více faktory. Jeden z nich je, že uživatelé nepočítají rovnoměrně po celou dobu kalendářního roku. Další je zvyk některých uživatelských skupin nechávat zadání úloh jen na některých svých členech. A dalším faktorem je to, že někteří uživatelé potřebují účet v MetaCentru jen kvůli zavedení jména a hesla v systému Kerberos, například kvůli přístupu k úložným prostorům, nebo k interním webovým stránkám MetaCentra.

Uživatel s největším počtem úloh spustil v období od 1. 1. do 30. 5. 2009 více než 23 tisíc úloh, nejvíce ale propočítal jiný uživatel, celkem 116 407 CPU hodin. Úlohy čekají v průměru 8 hodin na spuštění, přitom průměrná délka úlohy je 6,2 hodiny -- je zřejmé, že zájem přesahuje možnosti MetaCentra. Průměrné využití se pohybuje od cca 30% (staré nebo naopak úplně nové stroje) do 88% (stroj ajax). V posledních letech pořizované 16 jaderné stroje mají průměrné využití 75%, což jasně ukazuje správnost zvolené strategie nákupu těchto počítačů. Zdánlivý paradox -- úlohy čekají déle než se počítají a přitom máme průměrné využití strojů menší než 100%, je způsoben kombinací faktorů jako je nárazová práce uživatelů, obliba určitých systémů (uživatelé mohou explicitně uvést, který systém chtějí a vytváří tak lokální přetížení) a také paralelními úlohami, které musí čekat, až budou volné všechny požadované uzly.

top clustery podle propočítané doby top clustery podle počtu úloh top fronty podle počtu úloh top aplikace podle propočítaného času top instituce podle propočítaného času top uživatelé podle počtu hodin top uživatelé podle počtu úloh doba trvání úloh doba čekání úloh na spuštění

Vytížení

Vytížení je počítáno po jednotlivých clusterech, protože MetaCentrum je tvořeno různorodými stroji patřícími různým organizacím, a některé stroje a clustery jsou plně vyhrazeny jejich vlastníkům, takže souhrny za celé MetaCentrum nemají smysl. Například cluster quark je plně vyhrazen na zpracování video záznamů z přednášek na Masarykově univerzitě, které musí být zpracovány co nejrychleji, nízké vytížení je tedy daní za real-timeovost zpracování. Podobně clustery perian, orca, loslab, wood jsou plně vyhrazeny jejich vlastníkům, kteří akceptují nižší vytížení výměnnou za kratší čekací doby na spuštění úlohy.

metodika výpočtu - vytížení je počítáno jako podíl času zabraného uživateli a času dostupného uživatelům. Čas zabraný uživateli je součtem času úloh a času, kdy byly stroje umístěny ve frontě reserved (fronta označující stroje vyhrazené k nějakému účelu, obvykle testům vyžadujícím změny nekompatibilní s běžným provozem). Čas úloh je součet časů, kdy byly procesory zabrány pro nějakou úlohu, tj. pokud např. jedna úloha měla dvě hodiny zabrané tři procesory, měla tato úloha čas šest hodin. Čas dostupný uživatelům je součet časů, kdy byly procesory dostupné uživatelům. Byl spočítán pro každý den období zvlášť tak, že pro každý stroj, který ten den existoval, byl počet jeho procesorů vynásoben 24 hodinami a pak byl odečten čas, kdy stroj byl ve frontě maintenance (fronta označující stroje v údržbě, kvůli hardwarovým poruchám, upgradu software a podobně). Vytížení je tedy podíl CPU hodin, které uživatelé využili, k CPU hodinám, které mohli využít.

Clustery s volným přístupem

Cluster manwe a aule

[graf manwe+aule]

Stroje manwe a aule byly v daném období nejsilnějšími stroji v MetaCentru - každý s 16 CPU a podle data nákupu s 32GB až 128GB paměti. Proto byl o ně mezi uživateli velký zájem. Stroje patří MU a CESNETu, jsou volně dostupné všem uživatelům.

Cluster nympha

[graf nympha]

Nympha je nový cluster patřící ZČU, uživatelům byl zpřístupněn 15.1.2009, novinka byla rozeslána 28.1.2009. Jedná se o nové stroje s momentálně nejvýkonnějšími procesory na jedno vlákno. Každý stroj v clusteru má 8 procesorů (dva čtyřjádrové čipy). Cluster je přístupný všem uživatelům.

Cluster hermes

[graf hermes]

Hermes je cluster PřF Jihočeské Univerzity v Českých Budějovicích, zprovozněn byl na konci roku 2008, novinka o zprovoznění clusteru byla uživatelům rozeslána 7.1.2009

Cluster alela

[graf alela]

Alela je nový cluster patřící UBI FEKT VUT Brno, zpřístupněn uživatelům byl od 5.5.2009, novinka o zprovoznění clusteru byla rozeslána 19.5.2009. Cluster je volně dostupný všem uživatelům.

Cluster skirit

[graf skirit 17-48] [graf skirit 49-83]

Cluster skirit má vlivem postupného přikupování různorodé části. První část skirit 17 až 48 patří MU a výkonově se jedná už o slabší stroje. Druhá část skirit 49 až 84 patří CESNETu a výkonově se jedná o silné stroje, navíc s rychlou sítí Infiniband. Cluster je přístupný všem uživatelům.

Stroj ajax

[graf ajax]

Stroj ajax je samostatný stroj, nikoliv cluster, s osmi procesory Itanium 2, tudíž je nutné mít pro něj jiné verze aplikací než pro ostatní stroje. Je volně dostupný všem uživatelům, patří ZČU. V daném období byl používán převážně jedním konkrétním uživatelem, který na něm spouštěl sekvenčně mnoho osmiprocesorových úloh. Jeho vytížení na 100% je tedy dáno tím, že je to samostatný stroj s málo procesory a speciálními vlastnostmi.

Cluster hydra

[graf hydra]

Cluster Hydra je cluster patřící KIV ZČU, je volně dostupný všem uživatelům. Je sestaven z poměrně starých a slabých strojů.

Cluster konos

[graf konos]

Cluster konos patří KIV a KMA na ZČU a je volně dostupný všem uživatelům, jeho vlastníci na něm mají prioritu pomocí fronty iti. Je hardwarově poměrně heterogenní, jeho části byly přikupovány postupně. Jeho hlavní části jsou konos 1 až 10, konos 11 až 14 a konos 15 až 37.Výkonově se jedná o slabší stroje.

Cluster skurut

[graf skurut]

Cluster skurut patří CESNETu, je přístupný všech uživatelům. Výkonově se jedná spíš o slabší stroje.

Clustery s vyhrazeným přístupem

Cluster orca

[graf orca]

Cluster orca patří NCBR, je plně vyhrazen skupině prof. Šponera a jiní uživatelé na něj nemají přístup. Jeho vytížení je tedy dáno jeho vlastníky a MetaCentrum na něj nemá vliv.

Cluster perian

[graf perian69-76] [graf perian69-76] [graf perian77-96]

Cluster perian patří NCBR a je plně vyhrazen jeho členům. Jeho části jsou dále vyhrazeny určitým podskupinám uživatelů z NCBR. Vlivem postupného přikupování má cluster různorodé části, a to perian 17 až 68, perian 69 až 76 a perian 77 až 96.

Cluster loslab

[graf loslab]

Loslab je blade server patřící Loschmidt Laboratories a je vyhrazen pouze jejich členům.

Cluster quark

Cluster quark je vyhrazen pro zpracování videa z přednášek na MU. Graf jeho vytížení není uveden, protože z hlediska spotřeby času CPU je blízko 0%. Většinu času spotřebuje na kopírování velkých objemů dat z digitálních kamer v učebnách, samotné zpracování videa tvoří jen krátký čas, ale musí být provedeno ihned, jak jsou data k dispozici, protože se musí uvolnit místo na další data.

wood, dali, mat

Tyto stroje nejsou zapojeny v systému PBS. Wood je cluster MZLU a používá vlastní plánovací systém. Dali a mat jsou SMP stroje s procesory MIPS a nepoužívají žádný plánovací systém. Statistiku tedy není možné spočítat stejným způsobem jako u ostatních systémů.

Využití volně přístupných clusterů a strojů institucemi

Cluster quark je vyhrazen pro zpracování videa z přednášek na MU. Graf jeho vytížení není uveden, protože z hlediska spotřeby času CPU je blízko 0%. Většinu času spotřebuje na kopírování velkých objemů dat z digitálních kamer v učebnách, samotné zpracování videa tvoří jen krátký čas, ale musí být provedeno ihned, jak jsou data k dispozici, protože se musí uvolnit místo na další data.

Manwe + aule - rozlozeni instituci podle propocitaneho casu Nympha - rozlozeni instituci podle propocitaneho casu Hermes - rozlozeni instituci podle propocitaneho casu Alela - rozlozeni instituci podle propocitaneho casu Skirit 17-48 - rozlozeni instituci podle propocitaneho casu Skirit 49-83 - rozlozeni instituci podle propocitaneho casu Ajax - rozlozeni instituci podle propocitaneho casu Hydra - rozlozeni instituci podle propocitaneho casu Konos - rozlozeni instituci podle propocitaneho casu Skurut - rozlozeni instituci podle propocitaneho casu
Poslední změna: 2009-06-17 10:19:46