Cos'è l'inferenza IA?

Copia URL

L'inferenza IA è il momento in cui un modello di IA fornisce una risposta basata sui dati. Quella che genericamente chiamiamo IA è in realtà la riuscita dell'inferenza, il momento risolutivo con il quale si conclude un processo più lungo e complesso di machine learning.

L'addestramento dei modelli di IA con dati sufficienti aiuta a migliorare la velocità e la precisione dell'inferenza IA.

Scopri le soluzioni per l'IA di Red Hat

Affinché ad esempio un modello di IA, addestrato con dati relativi agli animali, come le differenze e le somiglianze, i comportamenti o le condizioni di salute, riesca a creare connessioni e a identificare schemi, è necessario un set di dati di grandi dimensioni.

Se l'addestramento è efficace, il modello può generare le inferenze, ad esempio identificare una razza canina, riconoscere il miagolio di un gatto o perfino segnalare la possibilità che un cavallo imbizzarrisca. Benché non abbia mai interagito con questi animali se non all'interno di un set di dati astratti, la quantità dei dati utilizzati per addestrare il modello consente di generare inferenze in un nuovo ambiente e in tempo reale.

Funzionano così anche le connessioni elaborate dal cervello umano. Libri, film e risorse online possono fornirci informazioni sui diversi animali. Possiamo guardare immagini e video e ascoltare i suoni emessi dagli animali. Quando poi visitiamo uno zoo, siamo capaci di inferire e di riconoscere un tipo di animale specifico. Anche se non siamo mai stati prima in un giardino zoologico, riusciremo a identificare l'animale grazie alle ricerche che abbiamo svolto. È lo stesso processo che mettono in atto i modelli di IA durante un'inferenza.

Scopri le novità e i prossimi sviluppi di Red Hat AI durante il prossimo evento dal vivo. Segui la prossima sessione live. 

L'inferenza IA è la fase operativa dell'intelligenza artificiale, ovvero il momento in cui il modello è in grado di applicare alle situazioni concrete ciò che ha appreso dall'addestramento. È questa abilità nell'identificare schemi e giungere a conclusioni che differenzia l'intelligenza artificiale dalle altre tecnologie. Questa capacità di dedurre può rivelarsi utile tanto nelle attività pratiche quotidiane quando nella programmazione informatica più complessa.

IA predittiva e IA generativa a confronto

Red Hat AI

A livello aziendale, l'inferenza IA può rivelarsi utile in numerose situazioni. Di seguito alcuni esempi.

Settore sanitario: l'inferenza IA può aiutare i professionisti sanitari a confrontare l'anamnesi dei pazienti e i dati attuali, per individuare tempestivamente schemi e anomalie, come ad esempio un valore anomalo in un esame cerebrale o un battito cardiaco lievemente aritmico. L'inferenza IA può riconoscere i segnali che minacciano la salute del paziente con largo anticipo e in tempi più brevi. 

Settore finanziario: se addestrata con set di dati di grandi dimensioni in ambito bancario e creditizio, l'inferenza IA sarà in grado di identificare errori o dati insoliti in tempo reale, identificando in anticipo le frodi. Ciò permette di ottimizzare le risorse destinate al servizio clienti, di proteggere la privacy dei clienti e di migliorare la reputazione degli operatori del settore.

Settore automotive: l'avvento dell'IA con i veicoli a guida autonoma sta cambiando il modo di guidare. L'inferenza IA è in grado di individuare i percorsi più efficienti per arrivare a una destinazione da un punto di partenza specifico, o di frenare all'approssimarsi di un segnale di stop, migliorando tanto il comfort quanto la sicurezza dei passeggeri del veicolo.

Molti altri settori utilizzano l'inferenza IA in modi anche creativi. Può essere applicata in un fast food dove ordinare cibo senza scendere dall'auto, in una clinica veterinaria o all'accoglienza in un albergo. Molte aziende trovano nuove modalità per sfruttare questa tecnologia a proprio favore, per migliorare la precisione, risparmiare tempo e denaro e mantenere il proprio vantaggio rispetto ai competitor.

 Gli scenari di utilizzo dell'AI e ML 

Il processo con il quale i dati vengono utilizzati per insegnare al modello come creare connessioni e identificare schemi è l'addestramento dell'IA. Se l'addestramento è il processo di insegnamento, l'inferenza è il modello IA in azione.

Cosa sono i modelli fondativi per l'IA? 

La maggior parte dell'addestramento dell'IA avviene nelle fasi iniziali della creazione del modello. Completato l'addestramento il modello potrà creare connessioni anche con dati mai utilizzati prima. Se il set di dati impiegato per l'addestramento è di grandi dimensioni, il modello potrà generare un numero di connessioni maggiore e quindi inferenze più accurate. Qualora il modello incontrasse difficoltà a produrre inferenze accurate dopo l'addestramento, il fine tuning potrà migliorarne la precisione e aggiungere ulteriori conoscenze.

L'addestramento e l'inferenza IA sono le modalità con le quali l'intelligenza artificiale emula le capacità del cervello umano, come quella di dedurre in base a prove e ragionamenti. 

Fattori come le dimensioni del modello possono modificare la quantità di risorse necessarie per manipolare il modello. 

Scopri in che modo i modelli più piccoli possono semplificare l'inferenza della GPU.

Le diverse tipologie di inferenza IA offrono vantaggi in svariati contesti.

  • Inferenza in batch: questo tipo di inferenza deriva il proprio nome dalla modalità con cui riceve ed elabora i dati, ovvero in grandi gruppi, o batch. Questo approccio non produce inferenze in tempo reale, ma elabora i dati in base a una data frequenza, a volte ogni ora o anche giornalmente, secondo la loro quantità e l'efficienza del modello di IA. Possiamo definire queste inferenze anche "inferenze offline" o "inferenze statiche".
  • Inferenza online: l'inferenza online, o dinamica, è in grado di produrre risposte in tempo reale, ma richiede hardware e software capaci di ridurre i limiti della latenza e di supportare previsioni ad alta velocità. L'utilità dell'inferenza online è tangibile soprattutto all'edge, perché l'intelligenza artificiale lavora in prossimità dei dati, come nel caso di uno smartphone, di un'automobile o di un ufficio remoto con connessione limitata.

    ChatGPT di OpenAI è un valido esempio di inferenza online che richiede un notevole supporto operativo iniziale per poter poi fornire risposte rapide e accurate.

  • Inferenza streaming: il termine descrive un sistema di IA non necessariamente utilizzato per comunicare con gli esseri umani. Invece di prompt e richieste, il modello riceve un flusso costante di dati con i quali può fare previsioni e aggiornare il proprio database interno. Questo tipo di inferenza è in grado di monitorare le modifiche, mantenere la regolarità o anticipare eventuali problemi prima che si verifichino. 

Scopri come l'inferenza distribuita con vLLM può ridurre gli ostacoli

Un server di inferenza IA è il software che permette a un modello di IA di passare dalla fase di addestramento a quella operativa. Si avvale del machine learning per aiutare il modello ad applicare ciò che ha appreso e a utilizzarlo per generare inferenze.

Per ottenere risultati efficienti, è necessario che il server di inferenza IA e il modello di IA siano compatibili. Di seguito alcuni esempi di server di inferenza e i modelli con cui si integrano meglio:

  • Server di inferenza multimodale: questo tipo di server di inferenza è in grado di supportare più modelli alla volta, e quindi di ricevere dati in forma di codice, immagini o testo e di elaborare le diverse inferenze su un unico server. Utilizzando la GPU e la memoria CPU in modo più efficiente, un server di inferenza multimodale può supportare più di un modello, riuscendo così a rendere più scalabile l'hardware e a ottimizzare i costi.
  • Server di inferenza per un singolo modello: un server in grado di supportare un solo modello. Il processo di inferenza IA è specializzato nella comunicazione con un modello addestrato per uno scenario di utilizzo esclusivo. Può essere in grado di elaborare i dati in forma di testo o solo in forma di codice. La sua specificità lo rende particolarmente efficiente e in grado di facilitare le decisioni o l'elaborazione di vincoli delle risorse in tempo reale. 

Scalabilità, risorse e costi sono i principali ostacoli all'esecuzione dell'inferenza IA.

  • Complessità: è più facile addestrare un modello all'esecuzione di attività semplici, come la creazione di un'immagine o l'invio a un cliente di una policy sui resi. Per permettere ai modelli di apprendere dati più complessi, per poi individuare frodi finanziarie o identificare anomalie mediche, durante l'addestramento è necessario fornire più dati e successivamente più risorse che li supportino. 
     
  • Risorse: più il modello è complesso e più specializzati devono essere l'hardware e il software a supporto dell'imponente lavoro di elaborazione compiuto dal modello durante le inferenze. Un componente essenziale di queste risorse è la memoria della CPU, che viene spesso considerata come il centro di controllo del computer. Quando un modello si prepara a utilizzare i dati di addestramento di cui dispone per produrre una risposta, deve poter fare riferimento a questi dati, che si trovano nello spazio di memoria della CPU. 
     
  • Costi: i tanti elementi che rendono possibile l'inferenza IA possono avere un costo elevato. Se l'obiettivo è la scalabilità o il passaggio al più recente hardware in grado di supportare l'IA, le risorse necessarie a realizzarlo possono rivelarsi consistenti. Restare al passo con l'innovazione dell'IA può quindi risultare difficile per le aziende, perché i costi aumentano in proporzione alla maggiore complessità dei modelli e all'evoluzione dell'hardware.  

 

L'inferenza IA di fatto diventa più complessa quando si ricorre alla scalabilità a livello enterprise. Inoltre, quando gli utenti non possono sfruttare facilmente l'inferenza in modo scalabile, i tempi di rilascio aumentano e gli scenari di utilizzo dell'IA generativa sono più difficili da applicare nell'intera organizzazione.

llm-d è un framework di IA open source che accelera l'inferenza distribuita su larga scala. Ciò significa che llm-d è in grado di supportare le esigenze complesse e non uniformi dell'inferenza applicata agli LLM. L'utilizzo di strumenti come llm-d o LLM Compressor può velocizzare l'inferenza, alleggerendo il carico di lavoro del team e delle risorse.

Che cos'è vLLM? 

Red Hat AI è una piattaforma di prodotti e servizi che facilitano ogni fase del percorso con l'IA, che tu sia alle fasi iniziali o già in ottica di scalabilità. Inoltre, è in grado di sostenere le iniziative di IA generativa e predittiva negli scenari di utilizzo esclusivi della tua azienda.

Con Red Hat AI, hai accesso a Red Hat® AI Inference Server, così potrai ottimizzare l'inferenza dei modelli nel cloud ibrido per deployment più rapidi ed economici. Basato su vLLM, il server di inferenza massimizza l'utilizzo della GPU e accelera i tempi di risposta.

Scopri di più su Red Hat AI Inference Server 

Red Hat AI Inference Server include il repository Red Hat AI, una raccolta di modelli di terze parti convalidati e ottimizzati che consente la flessibilità dei modelli e promuove la coerenza tra i team. Con l'accesso al repository dei modelli di terze parti, le aziende possono accelerare i tempi di rilascio e ridurre gli ostacoli finanziari al successo dell'IA.  

Esplora il repository su Hugging Face

Scopri di più sui modelli convalidati da Red Hat AI

Red Hat AI si basa su tecnologie open source e su un ecosistema di partner caratterizzato da prestazioni, stabilità e capacità di supportare GPU su più infrastrutture.

Scopri il nostro ecosistema di partner

Risorsa

Definizione della strategia aziendale per l'IA: una guida introduttiva

Leggi questa guida introduttiva per scoprire come Red Hat OpenShift AI e Red Hat Enterprise Linux AI possono accelerare il percorso di adozione dell'IA.

Red Hat AI

Red Hat AI offre prodotti flessibili e convenienti che accelerano lo sviluppo e la distribuzione di soluzioni basate sull'IA negli ambienti di cloud ibrido.

Continua a leggere

Cos'è l'inferenza distribuita?

Con l'inferenza distribuita i modelli di IA elaborano i carichi di lavoro in modo più efficiente, suddividendo le attività di inferenza su un gruppo di dispositivi interconnessi.

Cos'è il Model Context Protocol (MCP)?

Scopri in che modo il Model Context Protocol (MCP) connette le applicazioni di IA a sorgenti di dati esterne, aiutandoti a creare flussi di lavoro più intelligenti.

Cos'è la sicurezza dell'IA?

La sicurezza dell'IA difende le applicazioni basate sull'intelligenza artificiale dagli attacchi dannosi che mirano a indebolirne i carichi di lavoro, manipolare i dati o sottrarre informazioni sensibili.

AI/ML: risorse consigliate

Articoli correlati