Come una DeepTech addestra i propri modelli di IA in OVHcloud
OVHcloud & Customs Bridge
24.000 categorie di prodotti
Fino a 2,5 TB di dati di addestramento e modelli di Machine Learning
Database da 250.000 righe
Executive Summary
Creata nell'ottobre 2020, Customs Bridge è una "DeepTech", una startup che utilizza una tecnologia basata su algoritmi di Intelligenza Artificiale per creare un motore di classificazione automatica dei prodotti. La startup è destinata agli importatori europei, perché ogni prodotto importato nell'Unione Europea deve essere classificato in modo preciso, secondo una nomenclatura che conta più di 24.000 voci. La difficoltà per gli importatori consiste nello scegliere la categoria corretta sulla base della descrizione fornita dal produttore, che può essere molto breve o addirittura incompleta. Qualsiasi prodotto importato nell'Unione europea deve essere dichiarato con un codice in base al quale vengono calcolati i dazi doganali. Il codice definisce anche la regolamentazione applicabile al prodotto. Eventuali errori di assegnazione possono comportare sanzioni, il ritiro dal mercato e adeguamenti fiscali.
"Abbiamo potuto usufruire dello Startup Program di OVHcloud, che ci ha permesso di iniziare ad utilizzare i loro servizi Cloud dedicati all'IA molto rapidamente. Il servizio OVHcloud AI Training ci ha permesso di realizzare l'apprendimento dei nostri modelli di Machine Learning che non era possibile eseguire sulle nostre macchine on-premise."
Dr. Hamza Saouli, direttore dell'innovazione di Customs Bridge
Questa classificazione può rivelarsi problematica perché il codice deve essere uniforme in tutti i Paesi dell'Unione Europea, ma a livello internazionale le categorie possono variare da un Paese all'altro, a seconda che il produttore esporti i suoi prodotti in Europa, negli Stati Uniti o in Cina. Esistono sottigliezze nella descrizione di un prodotto che possono farlo oscillare da una categoria all’altra. Ad esempio, un cinturino di un orologio viene classificato in modo diverso da una catena per orologio.
La Sfida
L'obiettivo di Customs Bridge è quello di creare un motore di classificazione dei prodotti il più affidabile possibile, in modo da attribuire il codice doganale corretto a un prodotto la cui descrizione non è completamente formalizzata. Può trattarsi di una descrizione relativamente precisa nel caso dei prodotti elettronici, o di poche parole chiave per un prodotto alimentare, con volumi di dati molto diversi a seconda che si tratti di un prodotto importato frequentemente nell’Unione europea o meno.
"Per l’apprendimento dei nostri modelli di Intelligenza Artificiale, abbiamo iniziato utilizzando dati accessibili in Open Data, in particolare il database dell’UE, EBTI (European Binding Tariff Information)" spiega Hamza Saouli, direttore dell'innovazione di Customs Bridge. "Questo database include 250.000 righe, ma copre solo il 10-15% della nomenclatura completa. Abbiamo avviato l'addestramento di diversi modelli di apprendimento su questa fonte di dati con dei primi risultati positivi per un codice, un capitolo. Per quanto riguarda i prodotti elettronici importati dalla Cina, generalmente ben descritti, l’apprendimento ha dato buoni risultati. Invece, per i prodotti importati meno frequentemente, non abbiamo ottenuto risultati soddisfacenti a causa della scarsa quantità di dati di buona qualità.” I modelli spesso non hanno abbastanza dati a disposizione per i prodotti importati raramente dato che i dati europei sono molto meno accessibili, ad esempio, di quelli delle dogane americane.
Nelle fasi iniziali del progetto, il direttore dell'innovazione di Customs Bridge ha utilizzato principalmente gli algoritmi IA più noti per la loro efficacia e rapidità, come l'SVM e gli alberi decisionali. Tuttavia, quando sono aumentati i set di dati di addestramento, l'utilizzo di questi ultimi non si è dimostrato la soluzione ideale. Per questo motivo il team IA di Customs Bridge ha scelto di adottare modelli più avanzati come le reti neuronali (tramite l'API di Deep Learning Keras) e i Transformers, degli algoritmi all’avanguardia nella classificazione semantica. L’esperto si è poi basato su articoli scientifici di ricercatori nel campo IA per migliorare le prestazioni dei modelli in materia di classificazione. In seguito, la startup ha dovuto affrontare un problema notevole: la capacità di elaborazione disponibile per addestrare i propri modelli di IA. I 3 PC dotati di GPU erano sufficienti per addestrare i modelli più semplici, ma l’infrastruttura ha raggiunto rapidamente il proprio limite. Per questo motivo, il team di Customs Bridge ha scelto una soluzione Cloud, ideale per far fronte a esigenze elevate di potenza di calcolo e memoria RAM in modo intermittente. Customs Bridge si è quindi interessata alle offerte IA & Machine Learning di OVHcloud.
"Inizialmente, avevamo pensato di poter effettuare l'addestramento dei modelli sulle nostre macchine dotate di GPU. Questo approccio si è però rivelato inefficace quando abbiamo voluto crescere. Eravamo ostacolati dalla mancanza di RAM e dallo spazio di storage disponibile, che limitavano fortemente l'apprendimento dei nostri modelli. Il Cloud era la migliore soluzione possibile, sia da un punto di vista tecnico che economico.”
Dr. Hamza Saouli, direttore dell'innovazione di Customs Bridge
La Soluzione
Tra le diverse componenti funzionali dell’offerta IA di OVHcloud, Customs Bridge ha scelto la soluzione dedicata all'addestramento dei modelli, AI Training. Inoltre la startup utilizza istanze OVHcloud per implementare i propri modelli in produzione e supportare le pipeline di alimentazione dei dati. "Abbiamo ideato una pipeline a partire dalla richiesta di un cliente, l’abbiamo sottoposta al modello e in seguito analizzato la risposta ricevuta" spiega Hamza Saouli. "Questa risposta deve essere preparata prima di essere mostrata al cliente. In entrata, dobbiamo elaborare le descrizioni dei prodotti da importare, che sono brevi (solo 3-5 parole) e non descrivono in modo abbastanza dettagliato il prodotto. In uscita, queste descrizioni vengono caricate sul Cloud e poi sottoposte al modello utilizzato che propone un insieme di codici doganali per l'importatore."
A breve, questa pipeline diventerà più complessa. Il team sta lavorando a un "aumentatore di testo", un algoritmo che parte da un insieme di dati esistente e lo arricchisce per ottimizzare l'apprendimento dei modelli. Grazie all’algoritmo, il database iniziale passerà da 200.000/300.000 righe a 3-4 milioni tramite tecniche di generazione di testo automatico. Anche in questo caso, il Cloud è insostituibile per questo tipo di operazioni, perché l'addestramento di modelli per questi volumi di dati non è più possibile sui PC tradizionali.
"Passare da un approccio on-premise alla soluzione OVHcloud AI Training per l'apprendimento dei modelli IA ci ha conferito una flessibilità e una potenza che non avremmo potuto avere in-house. La soluzione è molto semplice da utilizzare: stabiliamo in anticipo il numero di GPU e la dimensione della RAM di cui avremo bisogno in un momento t per effettuare un apprendimento. È molto utile se si conosce in anticipo il numero di risorse necessarie."
Dr. Hamza Saouli, direttore dell'innovazione di Customs Bridge
Come spiega Hamza Saouli, il passaggio del calcolo dell'apprendimento dalla modalità on-premise al Cloud OVHcloud non ha creato alcun problema di adattamento. OVHcloud fornisce container pronti all'uso per i principali framework di IA. È sufficiente avviare il job corrispondente per poterli implementare su una GPU nel Cloud. Inoltre, da giugno 2021 è possibile farlo anche per i container eseguiti su CPU. Questa possibilità di scelta permette di usufruire di risorse di calcolo a tariffe ancora più basse per gli apprendimenti che non richiedono la potenza di una GPU dedicata. Questa evoluzione dell'offerta "IA" di OVHcloud è nata da una richiesta di Customs Bridge.
Per istruire i primi modelli di Transformers, il direttore dell'innovazione ha utilizzato circa 2,5 TB di dati. Per i modelli di Machine Learning, i volumi di dati sono inferiori, circa 30-40 GB di dati di addestramento. "Con le GPU NVidia V100 messe a disposizione da OVHcloud, l'apprendimento di un Transformers su 250.000 righe corrisponde a soli trenta minuti di calcolo. È molto veloce e il costo è ridotto, dato che un'ora di calcolo viene fatturata circa 1,75 €. Per questo motivo non intendiamo acquistare macchine per eseguire questi calcoli in-house", aggiunge l’esperto.
Parallelamente al lavoro sui modelli di IA, Hamza Saouli sta lavorando a un chatbot che interagirà con i clienti per ottenere informazioni sul prodotto ricercato. Questo ha già portato a un modello RASA, una piattaforma open source dedicata ai chatbot sulle istanze CPU di OVHcloud. I primi risultati sono stati molto incoraggianti e l'esperto spera che OVHcloud metterà rapidamente a disposizione un container RASA nella sua infrastruttura IA per rendere l’implementazione ancora più semplice.
I Risultati
"Durante i mesi in cui abbiamo utilizzato OVHcloud AI Training e l'addestramento di diversi tipi di modelli di IA, non ho mai avuto problemi di installazione o configurazione", racconta Hamza Saouli. "OVHcloud ci offre la possibilità di scegliere l'immagine Docker su cui verrà avviato l'apprendimento: si tratta di un approccio estremamente semplice ed efficace. Ho utilizzato questi container per modelli di Transformers e Tensorflow per un chatbot con le immagini disponibili e ha funzionato alla perfezione.”
Oltre all'apprendimento dei modelli, fase che di norma richiede spazio di memoria e potenza di calcolo elevati, Customs Bridge oggi si sta preparando alla scalabilità del modello a livello di produzione quando la startup otterrà i primi clienti. "Per il momento, il modello che offre le migliori prestazioni è un modello tradizionale, che non richiede GPU per essere implementato in produzione" spiega Hamza Saouli. "Prossimamente, quando utilizzeremo un set di dati più grande, aumenteremo i volumi di dati da un fattore x100 a x1000. Questo fattore non è fondamentale per noi: tutto dipenderà dalla pertinenza del modello. Questo è il vantaggio di una strategia Cloud: OVHcloud ci permette di aumentare i volumi di dati senza vincoli legati all’infrastruttura. In questo modo non dobbiamo limitare i nostri modelli: possiamo sperimentare fino a decidere il volume necessario per raggiungere il livello di precisione che desideriamo. È grazie al modello Cloud che possiamo avere questa libertà.
Customs Bridge utilizzerà istanze GPU in produzione in caso di necessità. La startup avrà la possibilità di eseguire i modelli IA sul servizio OVHcloud ML Serving. "Allo stesso modo, il servizio Data Processing di OVHcloud sarà utile quando dovremo elaborare maggiori volumi di dati prima dei nostri modelli. L'assegnazione flessibile delle risorse ci permette di pagare solo quello che consumiamo, ed è un vantaggio per Customs Bridge.” conclude l'esperto di Intelligenza Artificiale.