.

Publicado em 22 de Março de 2023

Compartilhar:

O que está por trás do ChatGPT, e por que ele é tão impressionante

O futuro continua promissor para as tecnologias relacionadas à inteligência artificial, e sem sombra de dúvida, vivemos tempos muito interessantes


ChatGPT é a nova hype tecnológica do momento. Lançado em 30 novembro de 2022, já no primeiro mês de 2023 atingiu a marca de mais de 100 milhões de usuários ativos. E não é por menos, os resultados que ele pode apresentar realmente impressionam, especialmente para aqueles que não têm no tema inteligência artificial o seu campo de leitura de cabeceira.


A sigla se refere a um dos últimos algoritmos de inteligência artificial lançados pela empresa OpenAI, uma startup que rapidamente tem se tornado uma das empresas mais importantes e influentes do setor. O nome é uma mistura de chatbot, dos robôs conversacionais, e dos algoritmos do tipo generativos que a OpenAi vem lançando chamados de GPT (Generative Pre-Trained Models).


Modelos generativos são aqueles que conseguem gerar conteúdo. Os GPTs da OpenAI são algoritmos que permitem processar a linguagem humana. E modelos pré-treinados, como a tradução do nome GPT remete, são modelos que precisam de um conjunto enorme de dados de treinamento para poder aprender, usando o melhor dos conceitos de aprendizagem de máquina (machine learning) e redes neurais artificiais. 


Para quem acompanha a OpenAI, sabe que o ChatGPT é uma evolução dos algoritmos anteriores, já muito poderosos. Agora, quais foram os elementos que fizeram o ChatGPT se transformar num campeão de popularidade? Vou dar aqui os meus palpites:




(1) UMA ENORME BASE DE CONHECIMENTO: O GPT 4 E SEUS ANTECESSORES


Na terça-feira (14), a OpenAI anunciou o lançamento do seu mais novo modelo de linguagem, o GPT-4. Em comparação com o seu antecessor, lançado em março de 2022, o GPT 3.5, temos algumas novidades. A empresa desta vez não abriu mais detalhes sobre o número de parâmetros do GPT-4, alegando motivos estratégicos, de toda forma a base de conhecimento do GPT 3.5 já era impressionante. 


O modelo anterior foi treinado com os mesmos 175 bilhões de parâmetros que seu antecessor, o GPT-3. Parâmetros, grosso modo, podem ser comparados com sinapses de neurônios biológicos. Um cérebro biológico de um humano, estima-se, tem algo entre 100 trilhões e 1 quatrilhão de sinapses. O GPT 3.5 foi alimentado com o que há de melhor na internet em termos de conteúdos, como toda a Wikipedia, um corpus enorme de jornais e artigos científicos, livros de diversos autores, informações de jornais e blogs, patentes, entre outras coisas. O conteúdo foi curado cuidadosamente por humanos, já considerando as aprendizagens relacionadas às versões anteriores.


Já para o GPT-4, como não há informação oficial disponível, podemos especular. A OpenAI afirma que o GPT-4 “pode resolver problemas difíceis com maior precisão, graças ao seu conhecimento geral mais amplo e habilidades de resolução de problemas”. Ela passou seis meses tornando o GPT-4 mais seguro e alinhado. “O GPT-4 tem 82% menos probabilidade de responder a solicitações de conteúdo proibido e 40% mais chances de produzir respostas factuais do que o GPT-3.5 em nossas avaliações internas”, diz a companhia. Algumas das especulações são que o GPT-4 tenha sido alimentado por bases de conhecimento sobre temas específicos por meio das abordagens de ajuste fino do modelo (fine-tuning), o que explica a melhora em relação a seu índice de resposta factuais. O que pode ser ótimo para várias áreas de atuação e foi demonstrado ao vivo, na live de lançamento da empresa, em relação ao conhecimento tributário americano. 


Além disso, os algoritmos do tipo GPT usam uma arquitetura tecnológica de redes neurais artificiais conhecida como “Transformers”, que conseguem manipular conteúdo linguístico com quase a mesma facilidade que manipulamos números em operações matemáticas. Ao ler um texto que fala sobre mangas, sapatos e a nova moda em Paris, ele acaba facilmente inferindo, por probabilidade, que as mangas em questão devem ser de camisas, e não frutas. Mais do que isso, consegue atribuir relações de causalidade, inferir qual é o termo correto, mesmo com problemas de ortografia ou gramática, comparar conceitos, traduzir idiomas, entre muitas outras coisas.


(2) UMA INTERFACE CONVERSACIONAL


Sim, usar uma estrutura de chatbot para uma conversa mais fluida com os seus usuários, especialmente os leigos, permitiu um salto de popularidade e uma quebra das barreiras de utilização do algoritmo.


Os chatbots já são muito populares no Brasil, e, para muitos de nós, conversar com o algoritmo por meio de uma interface familiar, faz com que a utilização deles se torne mais intuitiva e acessível. 


Além disso, o uso de uma interface conversacional melhora o “relacionamento” entre o usuário e o algoritmo, aprimorando a experiência de usuário, e também organizando informações e dados, tornando mais fácil para os usuários encontrarem informações relevantes.  


(3) UMA “PERSONALIDADE” MAIS AMIGÁVEL, ADERENTE E DILIGENTE (COMPLIANT): A CAMADA DE RLHF


Essa outra sigla, a RLHF, do inglês Reinforcement Learning from Human Feedback, que é um tipo de aprendizagem de máquina (na tradução literal seria Aprendizagem por Reforço através de Retroalimentação Humana), é uma das novidades nesta nova versão. Ela está encapsulada em um algoritmo chamado InstructGPT, parte integrante do ChatGPT.


Do ponto de vista conceitual, a camada não é uma novidade, porém a sua implementação no ChatGPT promoveu um salto qualitativo na capacidade de entregar resultados aderentes. Alguns dos benefícios incorporados:


Redução das alucinações: e não, você não está entendendo tudo errado. Os algoritmos de linguagem do tipo do ChatGPT também podem “viajar na maionese” e escrever coisas que, embora sejam gramaticalmente coerentes, e até probabilisticamente plausíveis, não são amparadas por fatos. A camada de RLHF penaliza construções probabilísticas menos plausíveis da linguagem humana. Nenhuma mágica nisso. Os humanos usados no feedback que moldaram a camada de “personalidade” do ChatGPT não gostam de “histórias de pescadores”

Menor agressividade: utilizar um tom de linguagem menos agressivo é algo que precisou ser incorporado como uma política organizacional da OpenAI, e os humanos que participaram do feedback ao algoritmo penalizam mensagens de caráter mais agressivo. 

Atenção a temas sensíveis: também incorporado ao modelo por meio dos feedbacks humanos, o algoritmo foi direcionado para evitar responder sobre temas como religião, política, preferencias sexuais, suicídio, e instruções para atividades ilegais entre outros assuntos sensíveis. 


(4) E NA MINHA OPINIÃO, A CEREJA DO BOLO: UMA “MEMÓRIA” SOBRE OS TEMAS SENDO CONVERSADOS


Pouca gente tem falado sobre isso. De toda forma, um dos aspectos mais interessantes de se utilizar o ChatGPT é a sua capacidade de manter muitas informações do histórico da conversa em sua “memória” para referência contextual posterior. 


Tudo indica avanços significativos na sua arquitetura cognitiva trazendo a inserção de dados externos ao modelo de linguagem para serem processados juntos ao Prompt de conversação.


Modelos que permitem armazenar “memórias” de forma externa e estruturada foram explorados algumas vezes no passado. O conceito de “memória externa” as redes neurais, como a “Memory Networks”, é uma das alternativas aos conceitos de Redes Neurais de Memória de Curto e Longo Prazo (LSTM), onde a informação é passada camada a camada em uma rede neural. Outra alternativa foi a de se utilizar múltiplos focos de atenção, usada na arquitetura “transformer” responsável pelo sucesso dos Grandes Modelos de Linguagem (LLM) tendo os GPTs como um dos seus mais conhecidos representantes.


Com camadas que organizam dados externos ao modelo de linguagem, você pode ao longo de uma conversa refinar o seu conhecimento, pedir comparações, solicitar revisões, entre outras coisas, num ganho de eficiência incrível. Um dos principais ganhos de se utilizar um volume maior de Tokens para uma única entrada, lançados na atualização do GPT-4, é a capacidade de “lembrar” e usar o contexto do passado para ajudar a responder perguntas no presente. Isso pode permitir que o ChatGPT desenvolva uma compreensão mais profunda do que foi dito anteriormente, melhorando assim suas respostas.


Além disso, o o conceito de “Memória Externa” como o uso de informações disponíveis na internet, “Embeddings”, “Plugins” também permite que o ChatGPT aprenda de maneira mais rápida, pois não é preciso processar/treinar todo o modelo de linguagem novamente. Em vez disso, ele pode utilizar informações já armazenadas em sua memória para responder às perguntas. Isso significa que o ChatGPT pode se tornar mais flexível e rápido ao lidar com informações complexas, além de ser capaz de se lembrar de toda a conversa.


A capacidade de armazenamento de conteúdo na memória de “curto prazo” do GPT-4 aumentou significativamente em relação a sua versão anterior, o que gerará impactos neste atributo do ChatGPT no futuro próximo. O novo modelo tem uma contagem máxima de tokens de 32.768, o que significa que você pode alimentar em uma única entrada textos com até 25.000 palavras. 





O QUE VEM POR AÍ?


Embora eu ainda acredite que há um longo caminho para construirmos inteligências artificiais de aplicação geral, o ChatGPT já performa melhor que humanos, em média, no que diz respeito há muitas atividades que envolvem linguagem. Algoritmos que entendam bem o que queremos dizer, e também consigam produzir conteúdos escritos com qualidade (entre estes conteúdos, códigos de programação, música e piadas), podem ser grandes aliados a nós humanos na busca de maior eficiência e de nos livrarmos de tarefas operacionais. 


Muitas novidades estão por vir: a combinação de arquiteturas que busquem informação em tempo real na internet tanto quanto utilizem uma base de conhecimento pré-adquirido em treinamento anterior, como também a construção de arquiteturas de software cada vez mais sofisticadas. Chamadas de IA Generativa multimodal, pode interpretar imagens, texto, som como também produzir conteúdo nestas diversas modalidades. A nova versão do modelo de linguagem, GPT-4, incorpora algumas destas novidades.


O futuro continua promissor para as tecnologias relacionadas à inteligência artificial, e, sem sombra de dúvida, vivemos tempos muito interessantes. Quem viver, verá.


ERRATA: O termo Memory Networks foi usado como sinônimo de arquitetura de armazenamento externo ao modelo original GPT utilizado. Embora o nome Memory Networks se refira a um desses modelos que usa essa abordagem, muitas outras arquiteturas diferentes tem sido usadas para conseguir combinar informações do prompt, com informações factuais disponíveis na internet, ou de novos corpos de conhecimento. Arquiteturas de dialogo como a LaMDA https://arxiv.org/pdf/2201.08239.pdf, e estruturas vetoriais como Embeddings (OpenAI) são alguns exemplos. Tecnicamente, o nome "Memory Networks", cuja origem vem do artigo de 2014 (https://arxiv.org/abs/1410.3916), trás uma proposta de mudança de paradigma de estruturas de memórias interna as Redes Neurais ao do LSTM (Long Short Term Memory), e não é mencionado explicitamente nos Papers da OpenAI. Este artigo, neste sentido, sugere que há benefícios de se combinar referências informacionais externas as LLM. O texto foi corrigido



841 leituras 192 Curtidas

Sobre o Autor

Alexandre Del Rey
Sempre aprendendo

Alexandre Del Rey

Conselheiro & Founder I2AI

Conselheiro fundador da I2AI – Associação Internacional de Inteligência Artificial. Também é sócio-fundador da Engrama, sócio da Startup Egronn, e na consultoria Advance e investidor na startup Agrointeli . Tem mais de 20 anos de experiência em multinacionais como Siemens, Eaton e Voith, com vivência em países e culturas tão diversas como Estados Unidos, Alemanha e China.
Palestrante internacional, professor, pesquisador, autor, empreendedor serial, e amante de tecnologia. É apaixonado pelo os temas de Estratégia, Inteligência Competitiva e Inovação.
É Doutor em Gestão da Inovação e Mestre em Redes Bayesianas (abordagem de IA) pela FEA-USP. É pós-graduado em Administração pela FGV e graduado em Engenharia Mecânica pela Unicamp.

Leia Também

O Efeito Baunilha

O Efeito Baunilha

O desafio do uso em larga escala de Inteligência Artificial Generativa

841 leituras 192 Curtidas
Compartilhar:
Café com o Presidente
Próximo Evento
25 de Abril de 2024

Café com o Presidente

Uma conversa com o Presidente da I2AI - Onédio S. Seabra Júnior - para falarmos sobre os temas mais quentes de Transformação Digital e Inteligência Artificial, num bate-papo informal com