包含"OpenAI"标签的文章
-
Qwen2.5 新一代开源大模型的卓越力量 探索阿里通义千问
在人工智能领域的快速发展进程中,阿里通义千问的Qwen2.5模型以其强大的性能和广泛的应用潜力,成为了备受关注的焦点,2024云栖大会上的发布,更是让Qwen2.5走进了更多开发者和研究者的视野,本文将深入探讨Qwen2.5的各项技术特点和优势,一、总体概述Qwen2.5全系列涵盖了多个尺寸的大语言...
-
如何用ai生成宠物图片 一键实现ai宠物图片创作自由!
如何用ai生成宠物图片,科技创新时代,ai技术的发展,可以说是大大便利了我们的日常生活,现在市面上的很多ai软件,我们在使用的时候,会发现其中的一些功能,甚至可以帮助我们生成图片、视频,那么如何用ai生成宠物图片呢,下面教大家一招,一、如何用ai生成宠物图片1.打开AI小聚,https,www.ii...
-
精确运动控制!复旦& 定制化视频生成新模范!零样本主体驱动 阿里等发布DreamVideo
文章链接,https,arxiv.org,pdf,2410.13830项目链接,https,dreamvideo2.github.io,亮点直击总结速览解决的问题现有的视频定制生成方法需要在测试时进行复杂的微调,且难以平衡主体学习与运动控制,限制了其在实际应用中的效果,提出的方案提出了DreamVi...
-
Mistral 谷歌& AI发布TIPS 具有空间意识的文本
文章链接,https,arxiv.org,pdf,2410.16512亮点直击具有空间意识的文本图像预训练,TIPS是一种通用的图像,文本编码器模型,可有效用于密集和全局理解,用于纯视觉或视觉语言任务,整体应用流程见下图,总结速览解决的问题现有的图像,文本表示学习模型通常缺乏空间意识,难以直接用于密...
-
编辑 着色 条件生成和理解 统一多模态大模型!PUMA 修复 多粒度策略笑傲生成
文章链接,https,arxiv.org,pdf,2410.13861项目链接,https,github.com,rongyaofang,PUMA总结速览解决的问题,现有的多模态大模型,MLLMs,在视觉内容生成方面没有充分解决不同图像生成任务对粒度的需求差异,尤其是从文本到图像生成的多样性需求以及...
-
让移动成像技术飞跃 颜水成团队新作 AI手机迎来重大技术进展!Meissonic
文章链接,https,arxiv.org,pdf,2410.08261模型链接,https,huggingface.co,MeissonFlow,Meissonic在线Demo链接,https,huggingface.co,spaces,MeissonFlow,meissonic亮点直击,惊艳的效果...
-
OPPO& AI联合发布一致且高效的3D场景编辑方法 港理工& Stability
文章链接,https,arxiv.org,pdf,2406.17396项目链接,https,lslrh.github.io,syncnoise.github.io,今天和大家一起学习港理工、OPPO和StabilityAI联合发的一篇关于3D场景编辑的工作,主打一个一致且高效,视频demo非常赞,可...
-
突破个性化图像生成局限!MagicTailor 组件可控个性化图像生成创新框架!
文章链接,https,arxiv.org,pdf,2410.13370项目链接,https,correr,zhou.github.io,MagicTailor亮点直击总结速览解决的问题传统的文本到图像,T2I,扩散模型在生成高质量图像方面有了显著进展,但仍难以精细控制特定的视觉概念,现有方法虽然可以...
-
你的LoRA需要更新了!科大讯飞等提出MiLoRA 新颖且高效的LoRA变体
论文链接,https,arxiv.org,pdf,2410.18035低秩适应,LoRA,及其专家混合,MOE,变体是非常有效的参数高效微调,PEFT,方法,然而,由于在Transformer层中添加了LoRA模块和MOErouters,这些方法在多租户环境中引入了显著的延迟,为了解决这个问题,本文...
-
罗切斯特大学& 图像编辑多任务一网打尽!PromptFix 微软 大规模视觉指令数据集 新型扩散模型&
文章链接,https,arxiv.org,pdf,2405.16785项目链接,https,www.yongshengyu.com,PromptFix,Page总结速览解决的问题,现有扩散模型在处理自定义用户指令时缺乏多样化数据,尤其是在低级任务中表现不足,此外,扩散过程的随机性导致难以保留生成图像...
-
自回归生成最新SOTA! 首次超越扩散模型和非自回归Transformer模型!字节开源RAR
文章链接,https,arxiv.org,pdf,2411.00776项目链接,https,yucornetto.github.io,projects,rar.html代码&,模型链接,https,github.com,bytedance,1d,tokenizer亮点直击总结速览解决的...
-
灵活精确可控编辑!Dice 首个离散扩散模型精确反演方法!
文章链接,https,arxiv.org,pdf,2410.08207项目链接,https,hexiaoxiao,cs.github.io,DICE,总结速览解决的问题,离散扩散模型虽然在图像生成和mask语言建模等任务中取得了成功,但在精确控制内容编辑方面存在局限性,当前方法无法实现对离散数据的灵...
-
2024年大模型LLM还有哪些可研究的方向 听听大佬怎么说
2024年大模型LLM还有哪些可研究的方向,前言纯属brainstorm,欢迎大家一起探讨,想到哪里说到哪里,有遗漏的点欢迎大家在评论区中指出,个人认为现在LLM能做的点还很多,这个行业距离饱和还有一段距离,这里通过,输入、模型,范式、输出、其他,几个方面来展开,个人觉得比较看好的方向加粗标出,输入...
-
无需昂贵标注!大幅提升SDXL和SD3
文章链接,https,arxiv.org,pdf,2410.18013亮点直击总结速览解决的问题传统的直接偏好优化,DPO,方法依赖大量人工标注的数据集来对文本生成图像,T2I,模型进行对齐,但这种方法成本高昂,且数据容易过时,难以适应T2I模型快速提升的需求,提出的方案本研究提出一种完全合成的数据...
-
评估RAG系统组件的终极指南
RAG系统包含两个核心组件,检索器和生成器,本文将介绍如何评估这两个组件,检索增强型生成,RAG,系统被设计用来提升大型语言模型,LLM,的响应质量,当用户提交查询时,RAG系统从向量数据库中提取相关信息,并将其作为场景传递给LLM,然后,LLM使用这个场景为用户生成响应,这一过程显著提高了LLM反...