Will Cloud Computing Genomica Aiuto gestire carichi di dati post-la legge di Moore?

Inviato il: 25 Maggio, 2010 10:10, da Microfono

Genome Biology recentemente pubblicato una revisione “,The Case for Cloud Computing in Informatica Genome. “Qual è il cloud computing? Bene:

Questo è un termine generico per il calcolo-as-a-service. Ci sono diversi tipi di cloud computing, ma quella che più si avvicina al modo in cui i biologi computazionali attualmente lavoro dipende dal concetto di ‘macchina virtuale’. Nel modello economico tradizionale di calcolo, i clienti acquistino server, storage e di rete, si configura il modo in cui hanno bisogno, ed eseguire il software su di esso. Nel calcolo-as-a-service, i clienti essenzialmente affittare l’hardware e il deposito per il tempo o come breve tempo di cui hanno bisogno per raggiungere i loro obiettivi. I clienti pagano solo per il tempo i sistemi di affitto sono in esecuzione, e solo per la conservazione a quello realmente utilizzato.

Questo modello sarebbe pazzo se le macchine in affitto sono stati quelli fisici. Tuttavia, nel cloud computing, gli affitti sono virtuali: senza mai toccare un cavo di alimentazione, i clienti possono potenza di un server completamente funzionale di 10 computer fattoria con un terabyte di storage condivisi, aggiornare il cluster in pochi minuti a 100 server, se necessario, per alcune pesanti i calcoli del dazio, e poi tornare al sistema di riferimento 10-server quando le macchine virtuali in più non sono più necessari.Il modo in cui funziona è che un fornitore di servizi mette in su la spesa in conto capitale di creare un calcolo estremamente grande e depositi in azienda (decine di migliaia di nodi e petabyte di storage) con tutti i fronzoli necessario per mantenere una operazione di queste dimensioni, tra cui una dedicata sistema di amministrazione del personale, la ridondanza di stoccaggio, centri di dati distribuiti a parti in posizione strategica del mondo, e la connettività di rete a banda larga. Il fornitore del servizio implementa poi l’infrastruttura per offrire agli utenti la possibilità di creare, caricare e avviare le macchine virtuali su questo calcolare fattoria. A causa delle economie di scala, il prestatore di servizi può ottenere tariffe scontatissime su hardware, elettricità e connettività di rete, e può passare questi risparmi agli utilizzatori finali di fare noleggio della macchina virtuale economicamente competitiva con l’acquisto la cosa reale.

Allora, perché avrebbe bisogno di genomica del cloud computing? La risposta è semplice: la nostra capacità di generare dati già superato la legge di Moore. In altre parole, la quantità di dati che deve essere manipolato, così come il trasferimento da server a server, è talmente grande che abbiamo bisogno di un nuovo modello. E ‘solo non efficiente di duplicare core di calcolo enormi, a diversi centri accademici. Dopo aver parlato con un informaticist NIH, posso dirvi che NIH vuole sicuramente per passare a questo modello – che non vogliono continuare a costruire nuovi centri ogni volta che finanziare un progetto di dimensioni modeste genomica.

Ma prima di perdersi tra le nuvole (per così dire), ci sono un paio di problemi. Il primo è che molti progetti del genoma hanno metadati che non può essere rilasciato al pubblico. Qualsiasi sistema di cloud computing, sia di proprietà privata o pubblica, dovranno cimentarsi con questo. Ma il problema in realtà è una sfida molto semplice tecnico –caricamento e lo scaricamento dei dati da e verso il cloud:

Per la genomica, il più grande ostacolo al passaggio alla nube potrebbe essere la larghezza di banda della rete. Un istituto di ricerca tipico avranno larghezza di banda di circa un gigabit al secondo (circa 125 megabyte / secondo). In una giornata buona questa sosterrà sostenuta velocità di trasferimento da 5 a 10 megabyte / secondo attraverso Internet. Trasferimento a 100 gigabyte di dati di sequenziamento di nuova generazione file attraverso tale collegamento richiede circa una settimana nel migliore dei casi. A 10 gigabit / secondo collegamento (1,25 gigabyte / secondo), che è tipico per importanti università e alcuni dei più grandi istituti di ricerca, riduce il tempo di trasferimento a meno un giorno, ma solo a costo di monopolizzavano much di larghezza di banda dell’istituzione. Chiaramente servizi cloud non viene utilizzato per la produzione di sequenziamento in qualunque momento presto.

Mentre stavo leggendo questo, mi sono ricordato che, quando diversi centri sono state collaborando per testare nuove tecnologie di sequenziamento, i dati sono stati così grandi, che effettivamente spedito dischi rigidi gli uni agli altri per confrontare i risultati. Beh, questo è ciò che avrebbe potuto accadere a caricare i dati:

Se il cloud computing è quello di lavorare nel campo della genomica, i prestatori di servizi dovranno offrire una certa flessibilità nel modo in cui grandi insiemi di dati entrare nel sistema. Per esempio, hanno potuto accettare dischi esterni spediti per posta il modo che il database di proteine, una volta accettato osservazioni struttura atomica su nastro e su disco floppy. In effetti, una iniziativa ormai defunta Google chiamato Google set di dati di ricerca una volta programmato per raccogliere grandi set di dati scientifici da parte di navigazione intorno array di dischi a 3 terabyte.

L’altra possibilità è che i dati grezzi, o anche ‘primo passo’ i dati trattati potrebbero non essere resi disponibili al pubblico più – pensare a questo come il modello della fisica:

Ad un certo punto in futuro diventerà semplicemente irrealizzabile per memorizzare tutti sequenziamento crudo legge in un archivio centrale o addirittura in storage locale. biologi genoma dovrà cominciare ad agire come i fisici delle alte energie, che filtrare il set di dati enorme che esce il loro collezionisti per un piccolo numero di eventi informativi e quindi scartare il resto.

La genomica e di altre discipline data-intensive di spostare biologia verso il cloud computing (e penso che sarà sicuramente accadrà), sarà interessante vedere come si sposta il finanziamento NIH. Speriamo che questo significa più risorse da trasferire alla persone che sanno come utilizzare i dati.

Sì, lo so: Magic Pony tempo ….

articolo citato: Stein, L.D. 2010. Il caso per il cloud computing in informatica genoma. Genome Biology 11:207 DOI: 10.1186/gb-2010-11-5-207.


Lascia un commento