Red Hat OpenShift Data Science: Servizi cloud per AI/ML
Accelera l'adozione di applicazioni intelligenti
In moltissimi settori e aziende, la modernizzazione delle applicazioni è profondamente influenzata dall'intelligenza artificiale (IA), dall'apprendimento automatico (machine learning, ML) e dal deep learning (DL). Le imprese devono poter ricavare dai propri dati un valore strategico e nuove informazioni, e per farlo promuovono l'utilizzo di applicazioni intelligenti cloud native e dei metodi DevOps. Queste novità possono rivelarsi complesse e hanno un impatto significativo per chiunque, dagli sviluppatori ai dati scientist, fino allo staff delegato alla gestione delle operazioni. Non è raro che gli approcci tradizionali presentino alcuni problemi:
- All'inizio ogni attività può sembrare complicata: ad esempio, bisogna aggiornare costantemente strumenti e servizi applicativi in continua evoluzione, effettuare il provisioning delle risorse hardware come le GPU e configurare la scalabilità delle applicazioni intelligenti.
- Le piattaforme cloud comuni offrono scalabilità e strumenti e ambienti integrati e interessanti, ma spesso hanno poche opzioni di deployment e toolchain restrittive che limitano le attività degli utenti.
- L'utilizzo di piattaforme diverse da parte dei data scientist e degli sviluppatori di applicazioni può ostacolare la collaborazione e la velocità di sviluppo.
- Il deployment su larga scala delle applicazioni intelligenti può rivelarsi difficile, soprattutto se vengono utilizzate piattaforme diverse per lo sviluppo e la produzione.
Red Hat® OpenShift® Data Science è un servizio cloud gestito che offre ai data scientist e agli sviluppatori un'efficace piattaforma AI/ML per la creazione e il deployment di applicazioni intelligenti. Le imprese possono utilizzare un'unica piattaforma per sperimentare nuovi strumenti, collaborare su una piattaforma condivisa e accelerare la velocità di rilascio. OpenShift Data Science offre la sicurezza necessaria all'IT enterprise e un ambiente self service adatto alle esigenze di data scientist e sviluppatori.
Una base affidabile consente di ridurre gli attriti durante il ciclo di vita. OpenShift Data Science offre una piattaforma solida, un ampio ecosistema di strumenti certificati e popolari e workflow familiari per distribuire i modelli in produzione. Questi vantaggi consentono ai team di collaborare con più facilità e rendere più efficiente la distribuzione sul mercato delle applicazioni intelligenti, con un conseguente aumento del valore creato per l'impresa.
Accelera sviluppo, formazione, test e deployment
OpenShift Data Science è basato sul progetto della community Open Data Hub e su Operate First. Open Data Hub dimostra una piattaforma AI/ML su Red Hat OpenShift con caratteristiche del progetto upstream come Apache Kafka e Kubeflow. Operate First introduce concetti open source, che consentono agli operatori e agli sviluppatori di collaborare per ottimizzare le attività senza lock in proprietario. OpenShift Data Science offre un sottoinsieme degli strumenti di Open Data Hub in un servizio cloud completamente supportato e gestito su Amazon Web Services (AWS) con offerte ISV opzionali.
Sperimenta con gli strumenti che preferisci
Con OpenShift Data Science, i data scientist possono sperimentare e scoprire nuovi metodi da implementare per acquisire nuove informazioni per l'azienda. Grazie a un servizio cloud completamente gestito, i data scientist possono sviluppare, formare e testare i modelli di apprendimento automatico prima del deployment. I team possono accedere a strumenti avanzati tramite un'esperienza integrata. I data scientist possono utilizzare gli strumenti che già conoscono o accedere a un ecosistema di partner tecnologici in continua espansione per approfondire le proprie competenze in materia di AI/ML senza i limiti di una toolchain prescrittiva. Non è necessario aspettare che il team IT effettui il provisioning delle risorse: i data scientist ottengono un'infrastruttura on demand con un click piuttosto con un ticket IT.
Collabora su una piattaforma condivisa
OpenShift Data Science opera su un'architettura open source progettata per i carichi di lavoro di apprendimento automatico e i workflow di sviluppo. Questa soluzione avvicina data science e DevOps e semplifica i passaggi che conducono alla fase di produzione. I data scientist collaborano in tempo reale sui notebook Jupyter. Gli sviluppatori integrano con più facilità i modelli pronti per i container in applicazioni intelligenti. Il team IT ha meno preoccupazioni in materia di governance e non deve ricercare account malevoli sulla piattaforma cloud.
Accelera la velocità di immissione sul mercato per le applicazioni intelligenti
OpenShift Data Science applica più rapidamente i modelli di apprendimento automatico dei progetti piloti alle applicazioni intelligenti su una piattaforma uniforme condivisa. I data scientist possono subito cominciare a usare i loro strumenti preferiti e accedere all'infrastruttura self service. Tramite il suo ecosistema di partner software, il servizio connette ogni fase del ciclo di vita dell'apprendimento automatico a funzionalità AI più complesse e offre così un'ampia gamma di strumenti certificati e progettati per l'AI/ML. È possibile eseguire il deployment dei modelli sugli ambienti di cloud ibrido. In questo modo si ottiene la flessibilità di eseguire i carichi di lavoro ovunque sia necessario, senza lock in cloud commerciali.
OpenShift Data Science
La Figura 1 mostra l'integrazione del ciclo di vita delle operazioni del modello con l'offerta iniziale di OpenShift Data Science come piattaforma comune. Questo servizio cloud è disponibile su Red Hat OpenShift Dedicated (su AWS) e Red Hat OpenShift Service on AWS. In quanto servizio gestito di Red Hat, fornisce un flusso di lavoro data science centrale, oltre all'opportunità di funzionalità e collaborazione avanzate tramite software certificati dagli ISV. I modelli possono essere in hosting sul servizio cloud OpenShift oppure esportati per l'integrazione in un'applicazione intelligente.
Punti chiave
- Sviluppa le applicazioni con i tuoi strumenti preferiti senza preoccuparti dell'infrastruttura.
- Riduci gli intoppi e utilizza una piattaforma condivisa per favorire la collaborazione tra data scientist, sviluppatori e operatori IT.
- Accelera la distribuzione di applicazioni intelligenti e i tempi di rilascio.
- Aumenta l'autonomia dei tuoi data scientist consentendo loro di scegliere le applicazioni e i servizi che preferiscono all'interno di un ampio ecosistema di partner.
OpenShift Data Science offre una base solida grazie a strumenti e funzionalità chiave:
- notebooks Jupyter. I data scientist possono condurre analisi esplorative dei dati in JupyterLab con accesso ai framework e alle librerie principali per l'AI/ML, compresi TensorFlow e PyTorch.
- Source-to-Image (S2I). I modelli possono essere pubblicati come endpoint tramite S2I per l'integrazione nelle applicazioni intelligenti e possono essere creati e installati di nuovo in base alle modifiche al notebook di origine.
- Inferenza ottimizzata. I modelli di deep learning possono essere convertiti in motori inferenziali ottimizzati per accelerare gli esperimenti.
Red Hat include nel suo servizio le immagini dei notebook Jupyter per TensorFlow e PyTorch, consentendo ai team di adottare queste potenti tecnologie in modo più semplice, senza dover ricominciare da zero. Per favorire la coerenza e la flessibilità, lo spawner Jupyter può eseguire il deployment delle immagini personalizzate di un'azienda ai data scientist, incorporando le librerie, gli strumenti e i linguaggi preferiti. Il servizio include anche il plug in Git di JupyterLab, il che significa che Git può essere integrato direttamente dall'interfaccia di JupyterLab più rapidamente. Sono anche compresi altri pacchetti analitici comuni, tra cui Pandas, scikit-learn e NumPy, che semplificano le operazioni e l'avvio dei progetti con gli strumenti giusti.
In quanto servizio cloud gestito, Red Hat fornisce assistenza in materia di site reliability engineering (SRE) per la piattaforma applicativa OpenShift alla base e il servizio OpenShift Data Science. Questa assistenza ti consente di dedicarti alle attività di business analytics invece che alla piattaforma alla base. Red Hat mantiene un'alta disponibilità per il servizio Red Hat OpenShift Data Science, incluso l'ambiente di servizi cloud gestiti Red Hat OpenShift alla base. Tutti gli aggiornamenti, gli update e la compatibilità sono gestiti come parte del servizio. Non è quindi necessario il monitoraggio di matrici di compatibilità potenzialmente complesse tra gli strumenti di analisi.
Strumenti per l'intero ciclo di vita del modello
OpenShift Data Science fornisce i servizi e il software che consentono alle aziende di gestire correttamente il deployment dei modelli e il loro trasferimento alla fase di produzione (Figura 2). Oltre che con OpenShift Data Science, questo processo è integrato anche con Red Hat OpenShift API Management.
La dashboard di Red Hat OpenShift Data Sciences facilita l'implementazione e consente di scoprire tutte le applicazioni e la documentazione e di accedervi da un'unica posizione. I tutorial Smart Start offrono una guida sulle procedure consigliate per i componenti comuni e i partner software integrati. È possibile accedervi direttamente dalla dashboard per aiutare i data scientist ad apprendere più rapidamente e accelerare le attività durante le fasi iniziali. Le sezioni di seguito descrivono i principali strumenti di analisi inclusi con Red Hat OpenShift Data Science.
Starburst
Starburst accelera le attività di analisi perché consente ai team di utilizzare i dati in modo rapido e veloce per migliorare le operazioni aziendali. Starburst viene fornito come prodotto completamente gestito o gestito in modo autonomo. È una soluzione che democratizza l'accesso ai dati, fornendo dati più completi. Starburst è progettato a partire dall'open source Trino (noto in precedenza come PrestoSQL), il motore SQL per l'elaborazione a elevato parallelismo (massively parallel processing, MPP). Realizzato dagli esperti Trino e dai creatori di Presto, Starburst ti consente di interrogare diversi set di dati a prescindere dalla loro posizione, senza doverli spostare.
Starburst si integra con lo storage su cloud scalabile e i servizi di computing forniti da Red Hat OpenShift e consente di interrogare tutti i dati enterprise in modo più stabile, sicuro, efficiente e conveniente. I vantaggi includono:
- Automazione. Gli operatori Starburst e Red Hat OpenShift consentono di automatizzare la configurazione, l'ottimizzazione e la gestione dei cluster.
- Alta disponibilità e ridimensionamento semplice. Il bilanciamento del carico di Red Hat OpenShift consente di mantenere sempre disponibili servizi come il coordinatore Trino.
- Scalabilità flessibile. Red Hat OpenShift può ridimensionare automaticamente i cluster di lavoro Trino in base al carico di query.
Anaconda Commercial Edition
Anaconda Commercial Edition fornisce un accesso curato a un'ampia gamma di pacchetti data science da utilizzare nei progetti Jupyter, con immagini Jupyter predefinite disponibili direttamente sulla dashboard di Red Hat OpenShift Data Sciences. Anaconda Commercial Edition consente alle imprese di accedere all'esperienza di gestione e distribuzione dei pacchetti open source più popolare a livello mondiale, in una versione ottimizzata per l'uso commerciale che include:
- Innovazione open source, con oltre 7.500 pacchetti data science e ML curati da Anaconda nel repository premium di Anaconda.
- Funzionalità per la sicurezza dei contenuti, come la verifica della firma Conda, che ti consentono di proteggere le pipeline ML e data science dalle vulnerabilità e dai software inaffidabili.
- Assistenza affidabile per i workflow di produzione e sicurezza grazie agli accordi sul livello del servizio (SLA) in materia di operatività.
- Totale conformità per l'uso commerciale in linea con i termini di servizio di Anaconda.
IBM Watson Studio
IBM Watson Studio1 ti consente di creare, eseguire e gestire i modelli IA su larga scala con Watson Machine Learning e Watson OpenScale. La piattaforma unisce framework open source come PyTorch, TensorFlow e scikit-learn a IBM e agli strumenti del suo ecosistema per la data science basata su codici e su strumenti di visualizzazione. La piattaforma è compatibile con i notebook Jupyter, JupyterLab, le interfacce a riga di comando (CLI) e i linguaggi Python.
IBM Watson contribuisce a rendere operativa l'intelligenza artificiale e promuove la sicurezza. La trasparenza offerta consente di essere informati sui processi decisionali guidati dall'IA. IBM Watson permette di ottenere sicurezza, conformità e privacy dei dati in settori altamente regolamentati e supporta un variegato ecosistema open source che promuove l'uso responsabile dell'IA. IBM Watson Studio offre:
- AutoAI e AutoML per automatizzare la creazione, generazione e organizzazione delle pipeline dei modelli, preparare i dati e selezionare le tipologie di modelli.
- Data refining avanzato per filtrare e modellare i dati con un editor grafico.
- Strumenti visivi integrati tramite IBM SPSS Modeler per preparare i dati rapidamente e sviluppare graficamente i modelli.
- Addestramento e sviluppo dei modelli per creare rapidamente esperimenti con pipeline ottimizzate.
- Ottimizzazione integrata delle decisioni per combinare modelli predittivi e prescrittivi.
- Gestione e monitoraggio dei modelli in relazione alle metriche di qualità, correttezza ed errore.
- Export dei modelli come Python Jupyter Notebook.
Pachyderm
Le imprese hanno bisogno di soluzioni di gestione dei dati che semplifichino tutte le attività, dagli esperimenti per laptop ai deployment aziendali strategici. Pachyderm consente ai team data science di creare e ridimensionare pipeline per l'apprendimento automatico containerizzate e basate sui dati, con un data lineage garantito e fornito dal versioning automatico dei dati. Pachyderm è progettato per risolvere i problemi reali relativa alla data science e fornisce le risorse necessarie ai team per automatizzare il ciclo di vita del machine learning e renderlo scalabile, garantendo al contempo la riproducibilità. Gli scenari di utilizzo includono dati non strutturati, data warehouse, elaborazione del linguaggio naturale, estrazione, trasformazione e caricamento di video e immagini, servizi finanziari e bioscienze. Pachyderm offre:
- Versioning automatico che consente ai team un monitoraggio ad alte prestazioni di tutte le modifiche dei dati.
- Pipeline containerizzate basate sui dati che consentono un'elaborazione più rapida a costi ridotti.
- Data lineage immutabile che fornisce un registro fisso di tutte le attività e le risorse del ciclo di vita del machine learning.
- La Pachyderm Console che offre una visualizzazione intuitiva del tuo grafo aciclico orientato (directed acyclic graph, DAG) e un supporto per il debug e la riproducibilità.
- Supporto per i notebook Jupyter con JupyterLab Mount Extension di Pachyderm per un'interfaccia intuitiva che consente l'accesso ai dati di cui Pachyderm ha effettuato il versioning.
- Amministrazione enterprise con strumenti solidi per i deployment e la gestione di Pachyderm su larga scala da parte di team aziendali diversi.
Data science più rapida con NVIDIA
Le attività computazionali a elevato utilizzo di risorse includono l'inferenza, l'addestramento dell'apprendimento automatico, l'analisi dei dati e la loro elaborazione scalabile. Il software NVIDIA consente di accelerare tutti gli aspetti della data science end to end sfruttando le funzionalità di elaborazione in parallelo delle GPU. Per i data scientist la priorità è lavorare sui dati, piuttosto che occuparsi della scalabilità delle GPU on premise o della configurazione del provisioning Kubernetes.
Diversi tipi di organizzazioni utilizzano già le soluzioni NVIDIA per l'apprendimento automatico e altri servizi. OpenShift Data Science semplifica la predisposizione dell'hardware abilitato per le GPU in modo da accelerare gli esperimenti di data science a elevato utilizzo di risorse. Grazie a OpenShift Data Science, le imprese possono utilizzare le istanze di Amazon Elastic Computing (EC2) basate su GPU NVIDIA su richiesta, aumentando o riducendo le risorse computazionali in base alle necessità.
Kit di strumenti Intel OpenVINO
Il kit di strumenti OpenVINO di Intel Distribution accelera lo sviluppo e il deployment delle applicazioni di inferenza deep learning ad alte prestazioni sulle piattaforme Intel. Il kit consente di creare, ottimizzare, perfezionare ed eseguire in modo completo le attività di inferenza IA tramite l'ottimizzatore di modelli integrato e gli strumenti per sviluppo e runtime.
- Consolidamento. Gli sviluppatori possono utilizzare Open Model Zoo per trovare modelli open source già addestrati e ottimizzati, pronti per l'inferenza, oppure possono servirsi dei propri modelli DL.
- Ottimizzazione. L'ottimizzatore di modelli può convertire un modello in una rappresentazione intermedia (Intermediate Representation, IR). Si ottiene così una coppia di file che descrivono la topologia della rete e contengono le varianti e i bias del modello.
- Deployment. Il motore inferenziale può fornire risultati su più processori, acceleratori e ambienti con un modello efficiente che consente di eseguire il deployment con una sola scrittura.
Strumenti di analisi IA Intel®
Il kit per l'analisi IA Intel fornisce a data scientists, sviluppatori IA e ricercatori gli strumenti e i framework Python già noti per accelerare le attività di data science end to end e le pipeline per l'analisi sulle architetture Intel. I componenti utilizzano le librerie oneAPI per le ottimizzazioni delle computazioni di livello base. Questo kit di strumenti massimizza le prestazioni dalla pre-elaborazione all'apprendimento automatico e fornisce l'interoperabilità per uno sviluppo efficiente dei modelli.
Tramite il kit di strumenti per l'analisi IA Intel, puoi:
- Fornire una formazione DL ad alte prestazioni su Intel XPUS e integrare l'inferenza rapida nel workflow di sviluppo dell'IA con framework DL ottimizzati da Intel per TensorFlow e PyTorch, modelli già addestrati e strumenti a bassa precisione.
- Ottenere un'accelerazione drop-in per la pre-elaborazione dei dati e i workflow di machine learning con pacchetti Python a elevato utilizzo di calcolo, Modin, scikit-learn e XGBoost ottimizzati per Intel.
- Ottenere accesso diretto alle analisi e alle ottimizzazioni IA di Intel per garantire il funzionamento dei software in contemporanea e senza interruzioni.
Conclusioni
Con OpenShift Data Science, le imprese possono sperimentare, collaborare e accelerare il percorso verso le applicazioni intelligenti. Il servizio aggiuntivo basato su cloud gestito da Red Hat semplifica e accelera la sperimentazione per i data scientist, offre una moderna piattaforma AI/ML e containerizzata e la convenienza e la scalabilità di AWS. Il self service per sviluppatori e data scientist accelera l'innovazione su una piattaforma applicativa già familiare e considerata affidabile dal settore IT enterprise. A differenza di quanto avviene con altri approcci, i data scientist possono scegliere i propri strumenti senza alcuna toolchain restrittiva e ricavare nuove informazioni dai dati senza l'applicazione di limiti arbitrari.
IBM Watson Studio e Watson Machine Learning sono inclusi nell'offerta Cloud Pak for Data di IBM.