包含"视频"标签的文章
-
H.264高度压缩的数字视频编解码器标准
H.264是一种高度压缩的数字视频编解码器标准,是MPEG,4标准的第10部分,即MPEG,4Part10或MPEG,4AVC,,由国际电信联盟,ITU,T,的视频编码专家组,VCEG,和国际标准化组织,国际电工委员会,ISO,IEC,的动态图像专家组,MPEG,联合组成的联合视频组,JVT,共同开...
-
如何在Android中加载本地视频封面
FFmpeg是一个强大的开源多媒体处理库,它可以用来处理视频、音频等多种媒体格式,你可以使用FFmpeg来提取视频的封面,不过,这通常需要你编写一些JNI代码来调用FFmpeg的本地库,或者使用一些封装了FFmpeg功能的Android库,...。...
-
架构反转 通过移动计算而不是数据来扩展
大型玩家的扩展技巧正变得越来越重要,这导致了架构反转的激增,你是否曾经想过,世界上最大的互联网和社交媒体公司是如何如此快速地向如此多的用户提供算法内容的,想想像TikTok这样的公司需要做些什么才能为人们提供源源不断的个性化视频片段,他们拥有某个模型来代表用户,他们需要使用这个模型从数十亿个备选视频...
-
详解Latte 应用于文生视频的DiT模型
随着Sora的成功发布,视频DiT模型得到了大量的关注和讨论,设计稳定的超大规模神经网络一直是视觉生成领域的研究重点,DiT[1]的成功为图像生成的规模化提供了可能性,然而,由于视频数据的高度结构化与复杂性,如何将DiT扩展到视频生成领域却是一个挑战,来自上海人工智能实验室的研究团队联合其他机构通过...
-
生成式视频的下一步是什么
上个月,当OpenAI公布其新的生成式视频模型Sora时,邀请了一些电影制作人来试用,本周,该公司发布了结果,七部超现实的短片,毫无疑问地表明了生成式视频的未来即将迅速到来,首批能将文本转化为视频的模型出现在2022年末,来自Meta、谷歌和视频技术初创公司Runway等公司,这是一个很棒的技巧,但...
-
OpenAI上新sCM!生成速度提升50倍 Law 两步采样就出图 再创奇迹 Scaling 实时视频时代或将开启!
传统扩散模型要过时了,OpenAI找到一种新方法,直接把生成速度提高50倍!扩散模型在生成式AI领域的重要性不言而喻,把生成逼真的图像、3D模型、音频和视频变为了现实,但是,扩散模型依然有个致命bug——采样速度太慢,OpenAI研究的新方法,被称为sCM,连续时间一致性模型,sCM在仅使用两个采样...
-
硬盘里的珍藏电影可以更清晰了 清华大学提出视频去模糊领域适应方案
引言,视频动态场景中的模糊问题及其挑战这篇论文主要研究了动态场景视频去模糊技术,旨在消除拍摄过程中产生的不想要的模糊瑕疵,然而,尽管之前的视频去模糊方法取得了显著的成果,但由于训练和测试视频之间的域差距,导致在真实世界场景中的表现大幅下降,为了解决这个问题,作者提出了一种基于模糊模型的域自适应方案,...
-
视频生成模型 新的 Meta Movie SOTA Gen
一、背景前段时间Meta发布了对标OpenAISORA和快手可灵的视频生成模型MovieGen,这里我们进行相关的技术解读,本文主要聚焦在其图像和视频生成模型部分,进行详细介绍;然后对视频个性化、编辑和音频生成进行简单概述,对应的论文,MovieGen,ACastofMediaFoundationM...
-
视频生成和具身智能强强联合!谷歌& 卡内基梅隆& 斯坦福发布Gen2Act 泛化超棒!
文章链接,https,arxiv.org,pdf,2409.16283项目链接,https,homangab.github.io,gen2act,亮点直击总结速览解决的问题机器人操作策略在面对新任务时,往往难以处理未见过的物体类型和新动作,由于机器人数据采集成本高,如何实现操作策略的泛化是一个关键挑...
-
斯坦福& 即插即用!CVD 第一个生成具有相机控制的多视图一致视频方案! 港中文
论文链接,https,arxiv.org,abs,2405.17414项目链接,https,collaborativevideodiffusion.github.io,最近对视频生成的研究取得了巨大进展,使得可以从文本提示或图像生成高质量的视频,在视频生成过程中添加控制是未来的重要目标,而最近一些将...
-
摄影级画面秒生成 V6.1再进化!人像逼真细节拉满 Midjourney
Midjourney几个月前画的饼终于端上来了!他们今天刚刚发布了最新版本v6.1!此次更新总结四个大字,细节狂魔,网友纷纷发推测试最新版本的Midjourney,摄影级画面先睹为快!这张图被取名为,天窗,,构图、色彩、光影、明暗,各方面都极度舒适,湖面波光粼粼细节生动,简直可以直接用来做屏保,继续...
-
科学数据子刊 EEG 自然 Nature 用于对话情境中情绪识别的
情感识别技术在现代人机交互中扮演着越来越重要的角色,随着人工智能和机器学习技术的快速发展,理解和识别人类情感已成为实现更自然、更人性化互动的关键,情感识别不仅能够提升用户体验,还能在心理健康监测、智能客服、教育和娱乐等多个领域发挥重要作用,在对话情境中,准确识别情感尤为重要,因为情感状态直接影响交流...
-
谷歌新作让人难绷 2D头像生成3D虚拟人开视频会
开视频远程会议的时候,很多人都不喜欢打开摄像头,即使开了,在界面上大家也都被框在不同的窗口里,虽然这种形式操作起来很方便,但总是缺乏点临场感,最近,谷歌提出了一项研究旨在解决这个问题,这个名叫ChatDirector的技术可以使用静态的2D头像生成3D虚拟人,让大家一同,坐在会议室里,开会,只是看起...
-
开源视频模型SV4D 一键创建8角度动态3D视频
Stability.ai开源了创新视频模型StableVideo4D,简称,SV4D,,可将一个视频轻松创建8个角度的动态3D视频,使用方法也非常简单,用户只需要上传视频然后选择3D相机姿势,经过大约40秒左右的推理就能完成视频创建,相比SV3D、STAG4D等同类模型,SV4D的推理效率和生成质量...
-
就晚了 Sora 再不发布 OpenAI
出品,技术栈,微信号,blog51cto,变天了!还记得OpenAI刚推出Sora时给人的惊艳感,但在文生视频领域,Sora想一家独大也没有那么简单,如今,越来越多表现不俗的替代方案已经出现,继LumaAI的DreamMachine首次亮相之后,RunwayML最近推出的Gen,3Alpha也令人印...