Odaily Planet News OpenAI lançou seu mais recente modelo carro-chefe, GPT-4o, que pode fazer inferência em tempo real de áudio, visual e texto, com foco principal em assistentes de interação pessoal com conceitos de humanização, sobrenaturalidade e latência extremamente baixa. De acordo com informações do site oficial da OpenAI e da conta oficial da plataforma X, o "o" em GPT-4o significa Omni (abrangente), representando um passo em direção a uma interação mais natural entre humanos e máquinas - ele aceita qualquer combinação de texto, áudio e imagem como entrada e suporta a geração de qualquer combinação de texto, áudio e imagem como saída. Ele pode responder a entradas de áudio em 232 milissegundos, em média 320 milissegundos, semelhante ao tempo de reação humano em uma conversa. Em termos de inglês e código, ele tem desempenho semelhante ao GPT-4 Turbo e apresenta melhorias significativas em texto não inglês, além de ser 50% mais rápido e mais barato em termos de custo na API. Comparado aos modelos existentes, o GPT-4o se destaca especialmente em compreensão visual e auditiva. A entrada de texto e imagem será lançada hoje na API e no ChatGPT, enquanto a entrada de voz e vídeo será lançada nas próximas semanas.