A quebra da tecnologia de geração de vídeos por IA e a sua relação com o Web3
Recentemente, o avanço mais notável no campo da IA é o rompimento da tecnologia de geração de vídeo multimodal. Esta tecnologia evoluiu de uma geração de vídeo puramente textual para hoje ser capaz de integrar texto, imagem e áudio em uma geração de cadeia completa.
Alguns casos de avanços tecnológicos dignos de nota incluem:
O framework EX-4D de uma grande empresa de tecnologia que foi open source, consegue converter vídeos comuns em conteúdo 4D de ângulo livre, com uma taxa de aceitação superior a 70%. Esta tecnologia permite que vídeos comuns gerem automaticamente efeitos de visualização em qualquer ângulo, algo que no passado requereria uma equipe profissional de modelagem 3D para ser realizado.
A plataforma "Hui Xiang" de uma empresa de motores de busca afirma que pode gerar um vídeo de 10 segundos com qualidade "cinematográfica" a partir de uma imagem. No entanto, a veracidade dessa afirmação ainda precisa ser verificada.
A tecnologia Veo de um gigante tecnológico internacional pode gerar vídeos 4K e sons ambientais em sincronia. A chave para esta tecnologia está na realização de correspondência real em nível semântico, capaz de proporcionar uma correspondência precisa entre movimentos de imagem e sons em cenários complexos.
A tecnologia ContentV de uma plataforma de vídeos curtos possui 80 bilhões de parâmetros, podendo gerar vídeos em 1080p em 2,3 segundos, com um custo de 3,67 yuan/5 segundos. Embora o controle de custos seja razoável, ainda há espaço para melhorias na qualidade de geração em cenários complexos.
Esses avanços tecnológicos têm um significado significativo em termos de qualidade de vídeo, custo de geração e cenários de aplicação. Do ponto de vista técnico, a complexidade da geração de vídeo multimodal é exponencial, envolvendo uma grande quantidade de pontos de pixel, coerência temporal, sincronização de áudio e consistência espacial 3D. A solução atual é alcançar isso através da decomposição modular e da colaboração de grandes modelos.
Em termos de custos, foram reduzidos significativamente os custos de geração através da otimização da arquitetura de raciocínio, incluindo estratégias de geração em camadas, mecanismos de reutilização de cache e alocação dinâmica de recursos.
Esses avanços tecnológicos trouxeram um grande impacto para a indústria tradicional de produção de vídeo. A tecnologia de IA comprimirá um processo que antes exigia uma grande quantidade de equipamentos, locais, atores e pós-produção em uma simples entrada de palavras-chave e alguns minutos de espera, conseguindo efeitos que seriam difíceis de alcançar com filmagens tradicionais. Isso pode promover uma reconfiguração de toda a economia dos criadores.
Então, qual é a relação entre essas transformações das tecnologias de IA do Web2 e a IA do Web3?
A estrutura da demanda por poder de cálculo está a mudar. A geração de vídeos multimodais requer uma combinação diversificada de poder de cálculo, criando novas necessidades para poder de cálculo ocioso distribuído, vários modelos de ajuste fino distribuídos, algoritmos e plataformas de inferência.
A necessidade de anotação de dados aumentou. A geração de vídeos de nível profissional requer descrições de cena precisas, imagens de referência, estilos de áudio, trajetórias de movimento da câmera e condições de iluminação, entre outros dados especializados. O mecanismo de incentivo do Web3 pode encorajar profissionais a fornecer materiais de dados de alta qualidade.
A tecnologia de IA está a evoluir para uma colaboração modular, o que representa uma nova necessidade para plataformas descentralizadas. No futuro, a capacidade de cálculo, dados, modelos e mecanismos de incentivo poderão formar um ciclo virtuoso de auto-reforço, promovendo a fusão profunda entre cenários de IA Web3 e IA Web2.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
10 Curtidas
Recompensa
10
5
Compartilhar
Comentário
0/400
BankruptWorker
· 07-17 23:22
Vou ficar desempregado de novo.
Ver originalResponder0
ChainMelonWatcher
· 07-17 09:00
Gerar e então? A criação de conteúdo ainda depende das pessoas, ué.
Ver originalResponder0
New_Ser_Ngmi
· 07-15 19:04
Quem é que aguenta isso? Mais cedo ou mais tarde será destruído pela IA.
Ver originalResponder0
MrRightClick
· 07-15 19:04
A tecnologia chegou, o editor vai ficar desempregado.
Ver originalResponder0
not_your_keys
· 07-15 19:01
Marc, marc, esta onda de IA certamente trará grandes eventos.
A tecnologia de geração de vídeos por IA quebra barreiras, o Web3 enfrenta novas oportunidades e desafios.
A quebra da tecnologia de geração de vídeos por IA e a sua relação com o Web3
Recentemente, o avanço mais notável no campo da IA é o rompimento da tecnologia de geração de vídeo multimodal. Esta tecnologia evoluiu de uma geração de vídeo puramente textual para hoje ser capaz de integrar texto, imagem e áudio em uma geração de cadeia completa.
Alguns casos de avanços tecnológicos dignos de nota incluem:
O framework EX-4D de uma grande empresa de tecnologia que foi open source, consegue converter vídeos comuns em conteúdo 4D de ângulo livre, com uma taxa de aceitação superior a 70%. Esta tecnologia permite que vídeos comuns gerem automaticamente efeitos de visualização em qualquer ângulo, algo que no passado requereria uma equipe profissional de modelagem 3D para ser realizado.
A plataforma "Hui Xiang" de uma empresa de motores de busca afirma que pode gerar um vídeo de 10 segundos com qualidade "cinematográfica" a partir de uma imagem. No entanto, a veracidade dessa afirmação ainda precisa ser verificada.
A tecnologia Veo de um gigante tecnológico internacional pode gerar vídeos 4K e sons ambientais em sincronia. A chave para esta tecnologia está na realização de correspondência real em nível semântico, capaz de proporcionar uma correspondência precisa entre movimentos de imagem e sons em cenários complexos.
A tecnologia ContentV de uma plataforma de vídeos curtos possui 80 bilhões de parâmetros, podendo gerar vídeos em 1080p em 2,3 segundos, com um custo de 3,67 yuan/5 segundos. Embora o controle de custos seja razoável, ainda há espaço para melhorias na qualidade de geração em cenários complexos.
Esses avanços tecnológicos têm um significado significativo em termos de qualidade de vídeo, custo de geração e cenários de aplicação. Do ponto de vista técnico, a complexidade da geração de vídeo multimodal é exponencial, envolvendo uma grande quantidade de pontos de pixel, coerência temporal, sincronização de áudio e consistência espacial 3D. A solução atual é alcançar isso através da decomposição modular e da colaboração de grandes modelos.
Em termos de custos, foram reduzidos significativamente os custos de geração através da otimização da arquitetura de raciocínio, incluindo estratégias de geração em camadas, mecanismos de reutilização de cache e alocação dinâmica de recursos.
Esses avanços tecnológicos trouxeram um grande impacto para a indústria tradicional de produção de vídeo. A tecnologia de IA comprimirá um processo que antes exigia uma grande quantidade de equipamentos, locais, atores e pós-produção em uma simples entrada de palavras-chave e alguns minutos de espera, conseguindo efeitos que seriam difíceis de alcançar com filmagens tradicionais. Isso pode promover uma reconfiguração de toda a economia dos criadores.
Então, qual é a relação entre essas transformações das tecnologias de IA do Web2 e a IA do Web3?
A estrutura da demanda por poder de cálculo está a mudar. A geração de vídeos multimodais requer uma combinação diversificada de poder de cálculo, criando novas necessidades para poder de cálculo ocioso distribuído, vários modelos de ajuste fino distribuídos, algoritmos e plataformas de inferência.
A necessidade de anotação de dados aumentou. A geração de vídeos de nível profissional requer descrições de cena precisas, imagens de referência, estilos de áudio, trajetórias de movimento da câmera e condições de iluminação, entre outros dados especializados. O mecanismo de incentivo do Web3 pode encorajar profissionais a fornecer materiais de dados de alta qualidade.
A tecnologia de IA está a evoluir para uma colaboração modular, o que representa uma nova necessidade para plataformas descentralizadas. No futuro, a capacidade de cálculo, dados, modelos e mecanismos de incentivo poderão formar um ciclo virtuoso de auto-reforço, promovendo a fusão profunda entre cenários de IA Web3 e IA Web2.