Alexey Naumov sobre a revolucionária compressão de modelos de IA: insights de um importante visionário de IA

Alexey Naumov sobre a revolucionária compressão de modelos de IA: insights de um importante visionário de IA

Alexey Naumov sobre a revolucionária compressão de modelos de IA: insights de um importante visionário de IA

No mundo acelerado da inteligência artificial, Alexei Naumov conquistou um nicho como pioneiro na compressão de redes neurais. Como Engenheiro Líder de Pesquisa em IA na Terra Quantum, o trabalho inovador de Naumov está tornando a IA mais acessível, eficiente e segura. Seu artigo recente, “TQCompressor: Melhorando os métodos de decomposição de tensores em redes neurais por meio de permutações,” Apresentado no conceituado IEEE MIPR 2024, já está sendo aclamado como uma importante contribuição para a pesquisa em IA.

Os métodos pioneiros de Naumov abordam um dos maiores desafios da área: como reduzir grandes LLMs para caberem nos limites dos dispositivos móveis sem comprometer seu desempenho. Nesta entrevista, ele partilha a sua visão sobre os obstáculos tecnológicos, o potencial transformador da IA ​​no dispositivo e o futuro das aplicações de IA nos cuidados de saúde, segurança e muito mais.

O que você acha do lançamento dos modelos Llama 3.2 compactados da Meta para smartphones? Isso significa que outros desenvolvedores de IA podem agora usar o método proposto pela Meta para criar modelos abstratos para dispositivos móveis?

Alexis: Este é um sinal muito positivo que indica uma mudança na indústria no sentido do desenvolvimento de soluções baseadas em modelos on-device. Até agora, grandes empresas e laboratórios especializados em modelos fundamentais concentraram-se principalmente na construção de grandes modelos projetados para estimar clusters de GPU. A Meta, como importante líder na área, pode dar o exemplo para que outros desenvolvedores prestem atenção nessa direção.

A estimativa no dispositivo oferece várias vantagens importantes:

• Segurança de dados aprimorada: o processamento de dados localmente no dispositivo minimiza os riscos de vazamento de dados.

• Redução de custos: Isso reduz a dependência de recursos computacionais caros baseados em nuvem.

• Novos casos de uso: desbloqueia aplicativos que antes eram inacessíveis.

Por exemplo, um assistente pessoal para envio de mensagens — semelhante a um T9 avançado — era anteriormente inviável devido a restrições de privacidade e custos elevados. Agora, tais soluções tornaram-se possíveis. A gama de novas possibilidades é infinita e difícil de avaliar completamente.

Do ponto de vista técnico, o Meta não introduziu inovações espetaculares neste lançamento. Eles aplicaram técnicas consagradas como poda e destilação de conhecimento. Essencialmente, eles pegaram versões maiores de seus modelos, removeram alguns parâmetros, reduziram o consumo de memória (quantização) e ajustaram o modelo compactado para replicar o comportamento do original.

No entanto, o método proposto pela Meta infelizmente está fora do alcance da maioria dos desenvolvedores. A compactação de modelos como eles fizeram requer um extenso treinamento após a compactação, o que pode custar centenas de milhares ou milhões de dólares. Isto torna essas tecnologias disponíveis apenas para grandes empresas e laboratórios bem financiados.

Apesar do lançamento do Meta, a criação de modelos compactados continua acessível apenas para grandes empresas. Em seu trabalho no TQCompressor, você descreve um método que reduz o tempo e o custo do ajuste fino após a compactação em mais de 30x, o que é um resultado incrível, democratizando a criação de modelos de IA compactados! Você pode explicar quais desafios os engenheiros podem enfrentar ao compactar modelos em grande escala e como superá-los?

Alexei: O principal desafio na compactação de modelos de grande escala reside nos recursos computacionais significativos necessários – não apenas para uso regular, mas especialmente para restaurar sua qualidade após a compactação. Depois de compactados, os modelos exigem ajustes finos para recuperar o desempenho original.

Por exemplo, a correção completa de um modelo de linguagem grande (LLM) com meia precisão (16 bits) normalmente requer cerca de 16 GB de memória GPU por 1 bilhão de parâmetros. Isso é muito mais do que os 2 GB por 1 bilhão de parâmetros necessários para estimativa, já que o otimizador de ajuste fino exige memória adicional para posições, gradientes e outros dados de treinamento. Com otimizadores de 8 bits, um modelo de parâmetros de 7B ainda pode exigir até 70 GB de GPU VRAM. Para colocar isso em perspectiva, a GPU H100 de nível superior da NVIDIA tem apenas 80 GB de VRAM e custa US$ 30.000. Isso significa que os desenvolvedores precisarão investir em várias GPUs para um processamento mais rápido ou gastar milhares de dólares para alugar GPUs em nuvem por semanas ou meses para realizar experimentos de compactação.

Embora alguns métodos, como a quantização, consumam menos recursos, outros, como a poda ou a decomposição de matrizes, exigem amplo ajuste fino e experimentação. Para modelos maiores, este processo pode facilmente custar dezenas ou milhões de dólares, tornando-o viável apenas para empresas bem financiadas e laboratórios especializados.

Na Terra Quantum, minha equipe está enfrentando ativamente esse desafio. Em nosso artigo de pesquisa, Compressor TQIntroduzimos um novo método que reduz mais de 33 vezes para modelos compactos, resultando em drásticas economias de custos.

Conseguimos isso desenvolvendo uma nova abordagem que garante que o modelo compacto inicial se assemelhe muito à versão original em escala real. Como resultado, o ajuste fino para restaurar o desempenho requer muito poucos recursos.

Estamos comprometidos com mais inovação nesta área e pretendemos tornar estes métodos mais acessíveis a uma gama mais ampla de desenvolvedores.

Como um dos principais especialistas em compressão e otimização de modelos de IA e LLMs em particular, que conselho você daria às empresas que desejam desenvolver soluções de IA adaptadas especificamente para hardware móvel?

Alexis: Eu aconselharia prestar mais atenção aos métodos de compressão de composição de tensores e matrizes. Minha equipe na Terra Quantum está profundamente engajada nesta área.

Atualmente, a maioria dos desenvolvedores confia em métodos como poda e destilação, onde os parâmetros do modelo são removidos manualmente, fazendo ajustes para restaurar a qualidade. No entanto, essas abordagens têm desvantagens significativas:

•Eles não garantem que o modelo compactado irá imitar de perto o comportamento do original, muitas vezes levando a altos custos de ajuste fino.

• Em alguns casos, a qualidade do modelo pode degradar-se a ponto de se tornar irrepetível, desperdiçando tempo e recursos consideráveis.

Os métodos de decomposição matricial, por outro lado, oferecem uma garantia matemática de que o modelo compactado se aproxima do original. Além disso, esses métodos fornecem uma abordagem automatizada para determinar arquiteturas compactas, reduzindo tempo e custos tanto para experimentação quanto para ajuste fino. Isso resulta em um processo mais eficiente e confiável.

Parece que a utilização de modelos localizados e comprimidos é a chave para desbloquear a inovação da IA ​​nos cuidados de saúde, ultrapassando barreiras críticas como a privacidade e a segurança. Você concorda e pode explicar como essa abordagem poderia mudar o setor?

Alexis: absolutamente Na área da saúde, onde os riscos são excepcionalmente elevados, a privacidade não é apenas uma prioridade – é um requisito básico. Os dados confidenciais dos pacientes são protegidos por estruturas legais rigorosas, como a HIPAA nos EUA ou o GDPR na Europa. Estas regulamentações tornam o processamento centralizado de dados perigoso e muitas vezes impossível para soluções de IA.

Os modelos de IA no dispositivo ou implantados em hardware de instituições médicas apresentam uma oportunidade transformadora. Ao processar dados localmente, esses modelos garantem que as informações médicas pessoais nunca saiam do smartphone do usuário ou do ambiente seguro da organização. Isto reduz enormemente o risco de violações de dados, ao mesmo tempo que permite que a IA melhore o atendimento ao paciente.

Estas abordagens espaciais são fundamentais para permitir a medicina personalizada, onde a IA analisa dados de saúde individuais para fornecer diagnósticos personalizados ou planos de tratamento em tempo real. Por exemplo, uma IA baseada em smartphone pode monitorar condições crônicas, prever emergências ou otimizar a adesão a medicamentos – tudo isso preservando os dados no dispositivo.

Além disso, os modelos comprimidos tornam estas inovações práticas, reduzindo os recursos computacionais necessários para a implantação. Isto permite que instalações médicas mais pequenas ou áreas mal servidas beneficiem da IA ​​de ponta sem a necessidade de infraestruturas dispendiosas.

Em suma, o futuro da inovação nos cuidados de saúde depende da superação das barreiras de privacidade e segurança que atualmente limitam a adoção da IA. Modelos compactos locais, seguros e eficientes podem ser a pedra angular desta transformação.









Esperimente o nossa automação do Whatsapp