包含"模型"标签的文章
-
提示是对程序的搜索 大模型的提示工程
Google研究员FrançoisChollet是一位在机器学习和深度学习领域具有重要影响力的一线工程师,他以创建流行的开源机器学习库Keras而闻名,同时也是流行的机器学习实战书籍,DeepLearningwithPython,使用Python来深度学习,的作者,不久前他发表博文,HowIthin...
-
视觉语言模型能够 看见 吗
来自奥本大学和阿尔伯塔大学的研究人员发现,最先进的具有视觉能力的大型语言模型,VLMs,在理解涉及基本几何形状的空间信息方面表现得非常糟糕,例如判断两个圆是否重叠,他们提出了一个名为BlindTest的新基准测试,包括7项简单任务,这些任务在互联网上自然语言中不太可能有现成答案,以测试VLM像人类一...
-
OpenAI 大模型史 AGI 2027 OpenAI联合创始人John RLHF Schulman ...
的离职,OpenAI首席架构师和著名强化学习,ReinforcementLearning,或RL,专家JohnSchulman博士成为OpenAI现存最主要具有技术背景的创始人,最近,Schulman博士接受了著名的科技播客主持人DwarkeshPatel的专访,他解密了OpenAI大模型发展史,介...
-
Sora的狂欢 世界模型和AGI
Sora是OpenAI发布的一款视频生成模型,采用了DiffusionTransformer架构,旨在实现高保真度和视频图像的前后一致性,其突出之处在于能够生成逼真流畅的视频内容,令人惊叹不已,Sora一经推出便在极短的时间内迅速引起了科技界和社会各界的关注,同时也引发了关于AI技术发展和产业变革的...
-
使用 评估大型语言模型 反事实任务
LLMs的智能本质是什么,在之前的文章中,我谈到了评估大型语言模型能力的困难,这些模型在许多基准测试中表现出色,但我们通常不知道基准测试中的测试项目,或足够相似的项目,是否出现在训练数据中,这些模型是在进行一般性的理解和推理,还是在进行AI研究员SubbaraoKambhampati所说的,近似检...
-
你不会还没玩过吧~ 模型 不会吧!不会吧!不会吧!阿里已经火到国外的 Emo
啊,刷爆外网的EMO模型它终于来了!!!上传一张照片,就能让照片里的人开口唱歌、说话、甚至讲段子,试了一下,效果还是相当不错,嘴型对得也很好,不愧是阿里出品的,它能够根据单一的参考图像和音频输入,直接生成具有丰富表情和多样头部姿势的虚拟角色视频,实在太好玩了,那在哪玩呢,由于内测太过火爆了,目前已经...
-
混元大模型 国内大模型文心一言 通义千问 豆包 Kimichat 讯飞星火 到底该用哪个 智谱清言
有朋友问我,现在这么多大语言模型,哪一款最好用,这并没有标准答案,每个模型都有自己独特优势,需要根据具体的使用场景来区分,带大家一起盘点下国内比较常用的几款大模型及其特性,看看哪款适合你,百度——,文心一言,大模型产品介绍文心一言是百度基于文心大模型打造的生成式AI产品,具备跨模态、跨语言的深度语义...
-
全球首个270万菜品组合AI餐厅 用类ChatGPT辅助服务员
11月5日,大模型平台BrownBaconAI与著名意大利餐厅CiboVino合作,推出了全球首个使用生成式AI辅助服务员的餐厅,据悉,该产品的功能、使用方法与ChatGPT基本一样,但提供的知识主要聚焦在餐饮上,CiboVino通过将自己的菜品、酒水、活动等数据与AI模型相结合,可以根据顾客的心情...
-
进化2.0!一键跟踪运动物体 代码权重数据全开源 分割一切
又是发布即开源!Meta,分割一切AI,二代在SIGGRAPH上刚刚亮相,相较于上一代,它的能力从图像分割拓展到视频分割,可实时处理任意长视频,视频中没见过的对象也能轻松分割追踪,更关键的是,模型代码、权重以及数据集通通开源!它和Llama系列一样遵循Apache2.0许可协议,并根据BSD,3许可...
-
Mistral 谷歌& AI发布TIPS 具有空间意识的文本
文章链接,https,arxiv.org,pdf,2410.16512亮点直击具有空间意识的文本图像预训练,TIPS是一种通用的图像,文本编码器模型,可有效用于密集和全局理解,用于纯视觉或视觉语言任务,整体应用流程见下图,总结速览解决的问题现有的图像,文本表示学习模型通常缺乏空间意识,难以直接用于密...
-
OPPO& AI联合发布一致且高效的3D场景编辑方法 港理工& Stability
文章链接,https,arxiv.org,pdf,2406.17396项目链接,https,lslrh.github.io,syncnoise.github.io,今天和大家一起学习港理工、OPPO和StabilityAI联合发的一篇关于3D场景编辑的工作,主打一个一致且高效,视频demo非常赞,可...
-
突破个性化图像生成局限!MagicTailor 组件可控个性化图像生成创新框架!
文章链接,https,arxiv.org,pdf,2410.13370项目链接,https,correr,zhou.github.io,MagicTailor亮点直击总结速览解决的问题传统的文本到图像,T2I,扩散模型在生成高质量图像方面有了显著进展,但仍难以精细控制特定的视觉概念,现有方法虽然可以...
-
你的LoRA需要更新了!科大讯飞等提出MiLoRA 新颖且高效的LoRA变体
论文链接,https,arxiv.org,pdf,2410.18035低秩适应,LoRA,及其专家混合,MOE,变体是非常有效的参数高效微调,PEFT,方法,然而,由于在Transformer层中添加了LoRA模块和MOErouters,这些方法在多租户环境中引入了显著的延迟,为了解决这个问题,本文...
-
灵活精确可控编辑!Dice 首个离散扩散模型精确反演方法!
文章链接,https,arxiv.org,pdf,2410.08207项目链接,https,hexiaoxiao,cs.github.io,DICE,总结速览解决的问题,离散扩散模型虽然在图像生成和mask语言建模等任务中取得了成功,但在精确控制内容编辑方面存在局限性,当前方法无法实现对离散数据的灵...
-
无需昂贵标注!大幅提升SDXL和SD3
文章链接,https,arxiv.org,pdf,2410.18013亮点直击总结速览解决的问题传统的直接偏好优化,DPO,方法依赖大量人工标注的数据集来对文本生成图像,T2I,模型进行对齐,但这种方法成本高昂,且数据容易过时,难以适应T2I模型快速提升的需求,提出的方案本研究提出一种完全合成的数据...