Como uma DeepTech treina os seus modelos de IA na OVHcloud
OVHcloud & Customs Bridge
24 000 categorias de produtos
Até 2,5 TB de dados de treino e de modelos de machine learning
Base de dados de 250 000 linhas
O contexto
Customs Bridge, criada em outubro de 2020, é uma startup considerada DeepTech, cujo núcleo tecnológico se baseia em algoritmos de inteligência artificial para criar um motor de classificação de produtos automático. A startup oferece este serviço aos importadores europeus, pois cada produto importado para a União Europeia deve ser especificamente classificado segundo uma nomenclatura com mais de 24 000 entradas. A complexidade para os importadores consiste em escolher a categoria correta com base na descrição fornecida pelo fabricante, uma descrição que pode ser muito sucinta ou mesmo incompleta. Todos os produtos importados para a União Europeia devem ser declarados segundo um código em função do qual são calculados os direitos aduaneiros. Este código define também a regulamentação que vai ser aplicada ao produto. Qualquer erro de afetação pode dar origem a sanções, a uma retirada do mercado e a correções fiscais.
"Pudemos beneficiar do programa "Start-Up" da OVHcloud, o que nos permitiu começar a utilizar os seus serviços cloud dedicados à IA muito rapidamente. Assim, o serviço OVHcloud AI Training permitiu-nos realizar a aprendizagem dos nossos modelos de Machine Learning que nos era impossível conduzir nas nossas próprias máquinas on-premise."
Dr. Hamza Saouli, diretor de inovação da Customs Bridge
Esta classificação pode ser problemática, pois este código deve ser uniforme em todos os países da União Europeia, mas a nível internacional as categorias podem variar de país para país, em função de se o fabricante exporta os seus produtos na Europa, Estados Unidos ou China. Os detalhes na descrição de um produto podem também fazê-lo passar de uma categoria para outra, uma pulseira de relógio, por exemplo, não é classificada da mesma forma que uma cadeia de relógio.
O desafio
O objetivo da Customs Bridge é criar um motor de classificação de produtos o mais fiável possível para atribuir o código aduaneiro correto a um produto cuja descrição não é de modo algum formalizada: pode tratar-se de uma descrição relativamente precisa no caso dos produtos eletrónicos, por exemplo, ou de algumas palavras-chave para um produto alimentar, com volumes de dados muito diferentes consoante se se trata de um produto frequentemente importado para a União Europeia ou não.
"Para realizar a aprendizagem dos nossos modelos de inteligência artificial, começámos por utilizar dados acessíveis em Open Data, nomeadamente a base de dados comunitária EBTI (European Binding Tariff Information)", conta Hamza Saouli, diretor da inovação da Customs Bridge. "Esta base de dados conta com 250 000 linhas, mas cobre apenas 10 a 15% da nomenclatura completa. Conseguimos treinar vários modelos de aprendizagem nesta fonte de dados com primeiros resultados conclusivos sobre um código, um capítulo. Nos produtos eletrónicos importados da China, geralmente bem descritos, esta aprendizagem obteve bons resultados, mas, em produtos importados com menos frequência, não obtivemos resultados conclusivos devido à falta de dados disponíveis em grande quantidade e de boa qualidade." Muitas vezes, os modelos não dispõem de dados suficientes sobre os produtos raramente importados, uma vez que os dados europeus são muito menos acessíveis do que os das alfândegas americanas, por exemplo.
Nas fases iniciais do projeto, o diretor de inovação da Customs Bridge utilizou principalmente os algoritmos IA mais conhecidos pela sua eficácia e rapidez, como o SVM e os fluxogramas de decisão, mas, com o aumento do tamanho do conjunto de dados de treino, a utilização destes últimos já não foi uma boa solução, o que levou a equipa IA da Customs Bridge a adotar modelos mais avançados como as redes de neurónios (através da API de Deep Learning Keras) e os Transformers, algoritmos pioneiros em termos de classificação semântica. Posteriormente, empresa recorreu a artigos científicos de investigadores em IA para melhorar o desempenho dos seus modelos de classificação. A partir daí, a startup deparou-se rapidamente com um sério problema: a capacidade de tratamento disponível para treinar os seus modelos de IA. Se os 3 PC equipados com GPU fossem suficientes para treinar os modelos mais simples, esta infraestrutura chegará rapidamente aos seus limites e levará a equipa da Customs Bridge a optar por uma solução cloud, ideal para fazer face a uma necessidade de uma forte potência de cálculo e de memória RAM de forma intermitente. Foi por esta razão que a Customs Bridge se interessou pelas ofertas IA & Machine Learning da OVHcloud.
"Inicialmente, pensámos que podíamos realizar o treino dos nossos modelos nas nossas próprias máquinas dotadas de GPU. Esta abordagem chegou rapidamente a um impasse quando quisemos ganhar força. Ficámos bloqueados pela falta de RAM, pelo espaço de armazenamento disponível, o que limitava fortemente a aprendizagem dos nossos modelos. Para nós, a cloud era a melhor solução técnica e economicamente possível."
Dr. Hamza Saouli, diretor de inovação da Customs Bridge
A solução
Entre os componentes funcionais propostos pela OVHcloud na sua oferta AI, a Customs Bridge implementou a solução OVHcloud dedicada ao treino dos modelos, AI Training. Paralelamente, a startup explora instâncias da OVHcloud para implementar os seus modelos em produção e suportar o pipeline de alimentação em dados. "Implementámos um pipeline que parte do pedido de um cliente, submete o pedido ao modelo e trata a resposta recebida do modelo", explica Hamza Saouli. "Esta deve ser preparada antes de ser apresentada ao cliente. Por isso, nos pedidos de entrada, tratam-se as descrições textuais dos produtos a importar, sabendo que estes são de pequena dimensão (apenas 3 a 5 palavras) e não descrevem suficientemente o produto. Na saída, estas descrições são carregadas na cloud para serem submetidas ao modelo implementado que propõe um conjunto de códigos aduaneiros para o importador."
Num futuro próximo, este pipeline tornar-se-á mais complexo. A equipa está a trabalhar num "aumentador de texto", um algoritmo que parte de um conjunto de dados existente e que o vai enriquecer para otimizar a aprendizagem dos modelos. Assim, o algoritmo fará passar a base de dados inicial de 200 000/300 000 linhas para 3 a 4 milhões de linhas através de técnicas de geração de texto automático. Mais uma vez, a cloud é insubstituível para este tipo de tarefa, pois o treino de modelos nestes volumes de dados já não é simplesmente possível em PC clássicos.
“Utilizar a solução AI Training da OVHcloud para a aprendizagem dos nossos modelos de IA oferece-nos uma flexibilidade e uma potência que não poderíamos ter com uma abordagem on-premises. A solução é muito simples de utilizar: é possível fixar antecipadamente o número de GPU e o tamanho da RAM de que vamos precisar num determinado momento para realizar uma aprendizagem. Isto é muito útil, uma vez que sabemos antecipadamente o número de recursos de que vamos precisar."
Dr. Hamza Saouli, diretor de inovação da Customs Bridge
Como explica Hamza Saouli, a passagem de cálculo de aprendizagem em modo on-premise na cloud da OVHcloud não representou nenhum problema de adaptação. A OVHcloud fornece containers prontos a utilizar para os principais frameworks de IA e basta lançar o job correspondente para os poder implementar num GPU na cloud. Além disso, desde junho de 2021, já é possível fazer o mesmo para os containers executados em CPU. Esta possibilidade de escolha permite beneficiar de recursos de cálculo a um preço ainda mais baixo para aprendizagens que não requerem a potência de um GPU dedicado. Esta evolução da solução "AI" da OVHcloud resulta de um pedido da Customs Bridge.
Para treinar os seus primeiros modelos de Transformers, o diretor da inovação baseou-se em cerca de 2,5 TB de dados. Para os modelos de Machine Learning, os volumes de dados são mais baixos, na ordem dos 30 a 40 GB de dados de treino. "Com os GPU NVidia V100 disponibilizados pela OVHcloud, a aprendizagem de um Transformer em 250 000 linhas representa apenas cerca de trinta minutos de cálculo. Trata-se de um processo muito rápido e a um preço realmente modesto, pois uma hora de cálculo é faturada a cerca de 1,75€. É por esta razão que não estamos de modo algum a pensar em adquirir máquinas para realizar estes cálculos internamente", acrescenta o especialista.
Paralelamente a este trabalho realizado nos modelos de IA, Hamza Saouli trabalha atualmente num chatbot que interagirá com os clientes para obter informações sobre o produto pretendido. Este já criou um modelo RASA, uma plataforma Open Source dedicada aos chatbots em instâncias CPU da OVHcloud. Os primeiros resultados foram considerados muito encorajadores e o especialista espera que a OVHcloud ponha rapidamente à disposição um container RASA na sua infraestrutura AI para simplificar ainda mais a sua aplicação.
O resultado
"Após vários meses de utilização do AI Training OVHcloud e o treino de vários tipos de modelos de IA, nunca tive problemas de instalação ou de configuração", conta Hamza Saouli. "A OVHcloud dá-nos a possibilidade de escolher a imagem Docker sobre a qual vai ser lançada a aprendizagem. Esta é uma abordagem extremamente simples e eficaz. No nosso caso, utilizei estes containers para modelos de Transformers e Tensorflow para um ChatBot com as imagens disponíveis, e funcionou perfeitamente."
Para além da aprendizagem dos seus modelos, que é uma fase geralmente muito onerosa em termos de espaço de memória e potência de cálculo, a Customs Bridge considera atualmente a escalabilidade do seu modelo ao nível da produção quando a startup conseguir os seus primeiros clientes. "Neste momento, o nosso modelo mais eficiente é um modelo clássico que não necessita de GPU para ser implementado em produção", explica Hamza Saouli. "Quando utilizarmos conjuntos de dados maiores, iremos aumentar os volumes de dados de um fator x100 para x1000 num futuro próximo. Para nós, este fator não é muito relevante e tudo dependerá da pertinência do modelo. É esse o interesse de uma abordagem cloud: a OVHcloud permitir-nos-á aumentar os volumes de dados sem restrições de infraestrutura. Não teremos de limitar os nossos modelos e iremos apenas testar até avaliar o volume necessário para atingir a precisão que procuramos. O modelo cloud oferece-nos liberdade."
A Customs Bridge utilizará instâncias GPU em produção, se necessário. A startup terá então a possibilidade de executar os seus modelos de IA no serviço OVHcloud ML Serving. "Do mesmo modo, o serviço Data Preparation da OVHcloud poderá ser interessante quando tivermos de processar mais volumes de dados a tratar antes dos nossos modelos. “A afetação dinâmica de recursos permite-nos pagar apenas aquilo que realmente consumimos e é uma vantagem para a Customs Bridge”, conclui o especialista em inteligência artificial.