包含"模型"标签的文章
-
预训练与微调的区别是什么 你真的了解预训练吗
预训练是按部就班的学习,微调就是强化训练,在学习大模型的过程中,预训练与微调是其中非常重要的两个阶段,一个模型效果好不好并不是由神经网络模型的好坏决定的,而是由预训练和微调来决定的,大家都知道openAI的GPT模型采用的是Transformer技术架构,但市面上其它采用transformer架构的...
-
详解Latte 应用于文生视频的DiT模型
随着Sora的成功发布,视频DiT模型得到了大量的关注和讨论,设计稳定的超大规模神经网络一直是视觉生成领域的研究重点,DiT[1]的成功为图像生成的规模化提供了可能性,然而,由于视频数据的高度结构化与复杂性,如何将DiT扩展到视频生成领域却是一个挑战,来自上海人工智能实验室的研究团队联合其他机构通过...
-
答案竟是ta! LLM最喜欢的随机数是什么
计算机程序中,,随机,是一个常见的概念,由于生成真正的随机数过于昂贵,所以Python、Java等语言都内置了,伪随机数生成算法,虽然生成的数字序列是完全可预测的,但它看起来就像是真正的随机数,一个好的随机数生成器会以相等的概率选择给定范围内的所有数字,这和人类选择随机数的思维过程完全不同,比如,我...
-
没有指数级数据就没有Zero
生成式人工智能已经触及峰顶了吗,在大模型正火的时候提这个问题,似乎不合时宜,毕竟,随着数据和模型规模的增大、计算能力的增加,我们似乎不再怀疑拥有超强人工智能的未来,——但是!来自UniversityofTübingen、剑桥和牛津大学的最新研究,用实验告诉我们,没有指数级数据,就没有Zero,sho...
-
一大堆Llama3.1
写在前面Llama3.1模型已经开源,在这短短几天之内,也是出现了一些Llama3.1汉化的repo,开源社区也是相当的卷,主要是Llama3.1没有关注中文,虽然是多语言,但主要针对英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语,虽然让Llama3.1系列模型用中文回答时,也可以正常...
-
大模型与生成式大模型的区别 什么是生成式大模型
,生成式AI或者说AIGC的本质是一种基于概率分布的数据表征技术,最近一段时间一直在做AIGC,人工智能生成内容,方面的应用,而AIGC属于生成式AI的范畴;刚开始只是把这些生成式AI拿过来用一下,但随着对大模型了解的加深,突然发现生成式AI好像也没有那么简单,比如说,生成式AI是怎么实现的,可能...
-
击败GPT
全球AI领导者英伟达,Nvidia,开源了超强大模型——Llama,3.1,Nemotron,70B,Instruct,根据测试数据显示,这个模型已经击败GPT,4o、GPT,4turbo、Gemma,2、Gemini,1.5、Claude,3.5sonnet等140多个开闭源模型,仅次于OpenA...
-
代码自动完成和生成技术再升级 Google推出开源代码大模型CodeGemma AI编程新纪元
CodeGemma模型概述CodeGemma是基于GoogleDeepMind的Gemma模型系列,GemmaTeametal.,2024,开发的一系列开放代码模型,这些模型继承了Gemma预训练模型的基础,并在此基础上进一步训练,使用的数据主要是代码,训练数据量在5000亿到1000亿token之...
-
AI编程辅助
一、编程辅助例子GitHubCopilot[1]基于OpenAI的Codex[2]模型,GPT,3[3]的后代,实现,可以在代码编写的时候实时地提供代码补全建议和注释,并且在多个编辑器的插件市场都可以下载使用,不管是从Copilot官网上的例子,还是在互联网上搜索关于Copilot的使用案例,你都可...
-
2.0 AutoGen 微软发布代码优先的Agent框架TaskWeaver
进入大模型时代,微软在推动大模型应用落地动作频频,先后发布了SemanticKernel,PromptFlow,AutoGen等框架,最近又发布了一款Agent框架,TaskWeaver,它被作为一个代码优先框架,用于构建LLMAgent,它将用户需求转换为可执行代码,并将用户定义的插件视为可调用函...
-
刚刚 OpenAI开源SimpleQA!轻松检测 校准大模型能力
今天凌晨,OpenAI开源了最新基准测试集SimpleQA,可以帮助开发者轻松检测、校准大模型的真实性能力,目前,很多大模型会出现一本正经胡说八道的问题,例如,你提问NBA历史上得分最多的是谁,它回答是迈克尔乔丹,实际上是勒布朗詹姆斯,包括OpenAI自己发布的GPT,4o、o1,preview、o...
-
使用LangFlow轻松创建LangChain大模型应用 无需代码
人工智能领域因大型语言模型如ChatGPT的出现而焕然一新,这些模型能模拟人类语言,迅速被广泛采纳,ChatGPT在发布后仅两个月便吸引了1亿用户,彰显了巨大的影响力,要将这些模型的潜力转化为实际应用,需要特定的工具,LangChain和LangFlow正是为此而生,1LangChain,构建智能应...
-
首超GPT4 V2开源发布 DeepSeek Coder
去年11月,最强开源代码模型DeepSeek,Coder亮相,大力推动开源代码模型发展,今年5月,最强开源MoE模型DeepSeek,V2发布,悄然引领模型结构创新潮流,今天,全球首个在代码、数学能力上与GPT,4,Turbo争锋的模型,DeepSeek,Coder,V2,正式上线和开源,全球顶尖的...
-
腾讯放大招 开源专家混合模型 超Meta!史上参数最大
开源大模型领域迎又来一位重磅玩家——腾讯,腾讯一出手就是个超大模型,开源的Hunyuan,Large是目前市面上最大基于Transformer架构的专家混合,MoE,模型,一共有3890亿参数,其中激活参数为520亿,具备处理长达256K上下文能力,根据腾讯公开测试数据显示,Hunyuan,Larg...
-
30秒生成建模师级Mesh!最大可生成面数提升至1600 GitHub揽星1.9k项目发布V2版本
只需30秒,AI就能像3D建模师一样,在各种指示下生成高质量人造Mesh,NeRF、3DGaussianSplatting生成的三维重建图像Mesh效果如下,点云造出精细Mesh,DenseMesh基础上生成也可以,一张图,甚至文本描述就足够了,GitHub已揽星1.9k的MeshAnything项...