
É o mais recente sistema de Inteligência Artificial da Google para geração de vídeo e está integrado no Gemini, para quem usa. O VEO 3 é um salto significativo e recente na geração de vídeo por inteligência artificial, a imagem melhorou e muito mas sobretudo a coerência.
Escrevemos e “ele” faz, e quanto mais explícitos formos no que queremos melhor. O novo modelo “entende” muito melhor o que queremos e o mundo físico e não tende a transformar objetos em plasticina como acontece frequentemente com a IA.
O salto mais impressionante talvez seja a geração de som em simultâneo. Com as nossas instruções escritas o VEO 3 cria vozes e música síncronas com a imagem. É possível fazer gritar, sussurrar, declamar com o tipo de voz que se queira, e gerar ao mesmo tempo música que inspira a emoção que pretendemos.
Este foi o segundo teste que fiz com o Google assim que a minha conta de teste o permitiu, vale a pena ligar o som.
Como se vê, ou antes como se ouve, não consegui que o brilhante jornalista falasse em português de Portugal, mas como é suposto ser uma cena de 2050 talvez seja mesmo assim. Já houve outras experiências feitas em que os personagens falam de facto em português europeu, oficialmente não está mesmo preparado para tal. Os vídeos têm apenas 8 segundos.
Há outras limitações, estou a usar uma conta Google AI pro que custa 22€ por mês, mesmo assim com tantas limitações que apenas consegui gerar três vídeos (variações deste) antes de ver uma mensagem a informar que só posso fazer mais amanhã.
Para conseguir um limite mais razoável é preciso ter uma conta Google AI Ultra, que neste momento está em promoção, mas tem um preço de 275 € por mês.
Bem-vindos à nova era da inteligência artificial paga. É uma constatação de facto, a IA é cara, e alguém terá de a pagar, o que implica obviamente que podemos aumentar a distância, outra vez, dos que têm em relação aos que não podem pagar.
Há obviamente filtros políticamnete corretos para evitar pornografia, uso indevido de pessoas e por aí fora.
Esta é a página, agora em português, do Gemini dedicada ao VEO 3
Se tiver curiosidade isto foi o que escrevi para gerar o vídeo, com todos os erros de português:
Um jornalista com cerca de 60 anos de cabelo e barbicha grisalha com óculos muito simples apresenta a rubrica "Futuro Hoje" de 2050. Envia uma imagem telepática para uma projeção na parede sobre a nova estação marciana de abastecimento. Em estúdio de tv faz a promoção de uma reportagem televisiva que diz com voz segura de apresentação de notícias: “Neste Jornal estamos em direto do novo supermercado marciano, e isto é Futuro Hoje". O som ambiente é música promocional no estilo de uma notícia de última hora. Movimento de câmara discreto passa do geral da cena para um plano médio do jornalista que olha diretamente para a câmara ”.
Em breve deverá ser possível também gerar vídeo a partir de imagens.