
Compartilhe
twittar
Compartilhe
Compartilhe
Alexei Naumov, engenheiro-chefe de IA da Terra Quantum – um líder europeu de deeptech com mais de US$ 100 milhões em financiamento – compartilha sua jornada desde as raízes acadêmicas até a liderança na indústria. Formado em física pela Lomonosov Moscow State University, Alexei passou dos projetos de IA da universidade para um papel fundamental no avanço da tecnologia de IA.
Alexi explica por que o consumo de energia de grandes modelos de linguagem (LLMs) pode atingir um nível equivalente ao tamanho meta de 160 empresas e como a otimização do modelo pode ajudar a evitar esse resultado.
A entrevista explora a experiência de pesquisa de Alexi, que vai desde a otimização de modelos de visão computacional até a apresentação de um importante projeto de compressão para LLMs em uma conferência do IEEE na Califórnia. Ele oferece uma perspectiva profissional sobre as tendências emergentes da IA e o futuro da adoção da IA na indústria.
Alexi Você pode compartilhar sua jornada na IA e o que inicialmente o atraiu para o aprendizado profundo?
Minha jornada para o aprendizado profundo começou durante meus anos de universidade. Sou bacharel em Física pela Lomonosov Moscow State University (classificada em 37º lugar no QS World University Rankings por Física e Astronomia) com especialização em Robótica e Matemática Aplicada. Essa formação acadêmica fez com que eu trabalhasse frequentemente com análise de dados e aprendizado de máquina durante meus estudos.
Meu primeiro projeto de aprendizado profundo foi minha tese de bacharelado, onde desenvolvi um algoritmo para pouso automático de quadricópteros usando visão computacional.
Depois de me formar, ingressei na empresa suíça Terra Quantum em uma equipe de pesquisa em IA. Eventualmente, liderei a equipe e publicamos vários projetos de pesquisa em otimização de modelos de IA (incluindo LLM e visão computacional) usando decomposição de tensores e métodos de rede de tensores. Nosso último artigo foi publicado recentemente na 7ª Conferência Internacional sobre Processamento e Recuperação de Informações Multimídia (MIPR) do IEEE de 2024, cuja leitura recomendo fortemente.
Atualmente, também lidero uma equipe de desenvolvimento de produtos especializada em grandes modelos de linguagem. No ano passado, falei sobre minha jornada em uma entrevista com Michael Perelstein (PhD no Diretor de Física e Tecnologia Quântica) e Artem Melnikov (Chefe de Pesquisa Aplicada): Link da entrevista (em russo).
Como alguém especializado em aprendizagem profunda eficiente, como você vê a evolução deste campo?
Deixe-me compartilhar minhas idéias sobre Large Language Models (LLMs) em particular. Atualmente, empresas e laboratórios de pesquisa que desenvolvem LLM (como OpenAI, Meta e Google) estão correndo para construir um modelo abrangente e em grande escala que inclua o máximo de conhecimento e capacidade possível. Certamente impulsiona a inovação, mas não creio que esta abordagem permaneça eficaz indefinidamente.
Imagine um futuro onde as pessoas dependam de modelos de linguagem verdadeiramente grandes (LLMs) nas suas rotinas diárias — utilizando-os através de interfaces de chat, sistemas de recomendação e muito mais — gastando, digamos, 5% do tempo interagindo com estas tecnologias. Isto não é exagero. Essa demanda exigiria aproximadamente 100 milhões de GPUs H100 para usar o GPT-4. Comparada com a capacidade global de cerca de 160 empresas como a Meta, a sua procura computacional é enorme.
Depender apenas de modelos grandes para cada solicitação não é eficiente em termos energéticos. Quer peçamos a um LLM para resolver um cálculo simples como 2×2 ou realizar uma pesquisa complexa, usamos a mesma quantidade de recursos para ambas as tarefas (estou simplificando demais, mas essa é a ideia geral). Por que consumir tanta energia para tarefas simples quando modelos menores podem lidar com elas?
Prevejo que, com o tempo, mais casos de uso de LLM mudarão para modelos menores e especializados. Acredito que esta mudança ocorrerá através da destilação do conhecimento – a transferência de conhecimento de modelos grandes para modelos mais pequenos, que podem então ser utilizados para tarefas específicas, como redação, programação ou matemática.
De quais inovações você mais se orgulha em sua carreira até agora e que impacto elas tiveram na área ou nos projetos em que trabalhou?
Tenho orgulho de liderar uma equipe forte especializada em IA e Redes Tensor, colaborando com algumas das mentes mais brilhantes da área. Há dois projetos dos quais estou particularmente orgulhoso:
- Compressor TQ: Desenvolvemos um método inovador para compactar LLMs, reduzindo o tamanho do GPT-2 em cerca de 35% com perda mínima de dados. Além disso, devido a melhorias no nosso método de treinamento, utilizamos apenas 3% do conjunto de dados original, economizando cerca de 33 vezes em tempo, dinheiro e recursos. Para contribuir com a pesquisa em IA, disponibilizamos publicamente o algoritmo e o modelo TQCompressedGPT-2 resultante.
Alexey apresentando o projeto “TQCompressor: Melhorando métodos de decomposição de tensores através de permutações em redes neurais” na conferência IEEE MIPR 2024, San Jose, CA, EUA.
- Tetrayml: Criamos uma estrutura abrangente para otimizar modelos de visão computacional, abordando tudo, desde o desenvolvimento de modelos até a compactação para implantação eficiente em dispositivos com recursos limitados. Nosso algoritmo comprimiu o modelo ResNet-18 em 14,5 vezes com perda mínima de qualidade.
Quais tendências emergentes de IA mais entusiasmam você e que papel você gostaria de desempenhar na formação desses campos?
Em primeiro lugar, estou entusiasmado com o fato de os desenvolvedores do Foundational LLM estarem se concentrando cada vez mais em casos de uso de implantação no dispositivo. Por exemplo, em um de seus lançamentos recentes, a Meta apresentou o Llama 3.2-1B e o Llama 3.2-3B, projetados especificamente para implantação em smartphones, com exemplos de aplicativos como um assistente de escrita móvel: no Llama 3.2 The Meta Blog.
Em segundo lugar, espero um progresso significativo na criação de imagens e vídeos. O modelo FLUX lançado recentemente para geração de imagens demonstrou resultados promissores e gerou um enorme entusiasmo na comunidade de IA. O lançamento da API Video Generation Model por fornecedores como Runway e Kling finalmente permitirá que desenvolvedores de IA em todo o mundo integrem recursos de geração de vídeo em seus produtos. Espero muito crescimento nesta área, com o surgimento de novos modelos e produtos para aplicações em áreas que vão desde o cinema até aplicações de consumo e design gráfico.
Se você pudesse imaginar a IA daqui a cinco ou dez anos, que avanços ou mudanças você acha que definirão o campo?
Como minha experiência é em IA eficiente e implantação em dispositivos, focarei minha visão para o futuro nesta área.
Prevejo a adoção em massa de LLMs no dispositivo e uma mudança nos casos de uso de LLM de GPUs em nuvem para dispositivos de consumo. Para os usuários, isso significa maior proteção de dados e uma experiência totalmente integrada com seus dispositivos, tornando os recursos LLM tão familiares quanto a correção automática hoje. No entanto, ainda haverá casos que exigirão processamento baseado em nuvem, seja para aplicações familiares ou para cenários novos, ainda a serem descobertos.
Também espero o surgimento de hardware especializado em IA. Isso incluirá hardware dedicado para clusters de treinamento, arquiteturas semelhantes a GPU para inferência de IA em nuvem e chips móveis especializados para IA no dispositivo. Além disso, espero ver hardware otimizado para redes neurais generativas projetadas para aplicações de geração de imagens e vídeos.

(Tradução de tags) Alexey Nomov