Uma atualização para os ChatGPT 3.5 e 4 vai colocar os modelos a serem capazes de analisar melhor imagens e esboçar reações como parte das conversas que estiver a ter com o utilizador. Além disto, a OpenAI anuncia ainda que as versões mobile do ChatGPT vão receber opções de sintetização de voz, o que, combinado com as funcionalidades de reconhecimento de voz existentes, vai permitir conversas completas com os assistentes virtuais. Para já, os utilizadores de versões Plus e Enterprise podem contar com as novidades dentro de duas semanas.
Num vídeo promocional destas novas funcionalidades, é possível vermos o utilizador a carregar uma imagem de uma bicicleta e pedir ao ChatGPT ajuda para ajustar a altura do selim. O sistema interpreta a imagem e responde com fotografias, bem como com um manual de instruções e uma imagem de uma caixa de ferramentas, dando as instruções completas sobre como o fazer.
Embora os detalhes técnicos da solução não tenham sido revelados, a OpenAI deve estar a empregar os mesmos princípios de codificação de texto e imagens e depois submeter estes vários tipos de dados a uma rede neuronal. A utilização de modelos como o CLIP permite colmatar eventuais falhas e depois realizar deduções contextuais, estima o ArsTechnica.
No que toca ao áudio, a capacidade de sintetização de voz tem sido uma aposta, com a OpenAI a criar cinco vozes, com ajuda de atores profissionais do ramo, e a desenvolver cada vez mais o Whisper, um sistema de reconhecimento de voz que já faz parte das versões iOS e Android do ChatGPT.
Apesar dos avanços rápidos e significativos, a OpenAI continua a salientar que o ChatGPT tem algumas limitações e que nem sempre produz representações realistas e fiáveis.