“学习技术之前,我们首先要搞明白的是我们想要什么,想做什么,而不是稀里糊涂的去学习技术”
大模型技术作为目前比较火的技术之一,有很多技术人员想从事大模型方面的开发,但又不知道该怎么入手,应该学点什么。今天我们就根据作者个人的感受来提供一些建议或者说看法。
对想从事大模型领域开发者的建议
首先,作为一个技术人员来说我们首先要明白一件事,大模型领域的开发主要分为两个部分;一个是基于大模型的应用开发,二是大模型技术本身的开发,这两者是完全不同的开发路线,也是完全不同的技术路线。
下面我们就从这两点展开来说一下其中的异同点和所需要的技术基础。
大模型应用开发
严格来说大模型应用开发和传统的业务开发没什么区别,技术栈也基本相同,都是通过调用接口的方式来实现功能;唯一不同的地方就是,传统的开发是调用的一些其它的功能接口,而大模型应用调用的是大模型开放的接口;而从技术的角度来说这个没什么区别,基本上都是通过http/s或socket等网络协议实现的接口调用。
所以传统的技术开发者转大模型应用开发,基本上没有什么门槛,哪怕你对大模型技术一窍不通,也可以直接转;只不过如果你有人工智能或机器学习的基础,会让你更容易理解大模型的运作机制,但从应用的角度来说这个并没有特别大的作用。
因此,对从事大模型应用开发的技术人员来说,需要的是和传统开发几乎一样的能力,那就是你的架构能力,代码开发能力,设计能力,中间件的使用和解决问题的能力。
总之一句话,大模型应用开发就是在功能模块中多增加了一个大模型功能的接口,其它的和传统的开发模式一模一样,没有任何区别。
哪怕是基于你们自己公司的大模型做上层应用的开发,你们公司也会选择组建两个团队,一个是开发业务功能,另一个开发和维护大模型的功能,而这也是第二种大模型领域开发人员需要做的事情,那就是大模型技术的开发。
对于大模型应用开发者来说,所需要的技术基本上还是属于之前的那一套,比如java , 微服务,接口开发,数据加解密,数据库,缓存,消息队列等。
大模型技术开发
如果说上一种基于大模型的应用开发是考虑怎么把大模型的功能应用的更好,那么大模型技术开发就是怎么把大模型做的更好。
为什么这么说?首先虽然我们觉得大模型的功能已经很强大,但从技术的角度来说大模型技术还处于初级阶段,其作用范围有限,其能力也有限,更重要的是其不稳定,直接应用到工作中会有很大的安全性问题。
因此,这也是为什么大模型技术目前主要的应用场景都是以一些边缘化的业务为主,还无法把大模型技术应用到企业的核心生产体系中;这也是之前马斯克在一次采访中说目前还没有把人工智能技术应用到自动驾驶中,原因就在于此。
而对大模型技术开发者来说,需要的主要能力包括,编程语言主要以python为主,原因就在于python是大模型开发的主流语言;其次,包括大数据处理,算法,神经网络,自然语言处理,计算机视觉等。
因为大模型主要特点就是规模巨大,涉及到大量的算法和计算问题,而python 在大数据处理方面具有天然的优势;因为对于之前从事大数据开发的技术人员来说,转战大模型技术开发具有一定的技术优势,但也不是绝对的;毕竟数据处理只是大模型技术开发中的一个环节。
其次,大模型由于需要模仿人类大脑的神经网络模型,并且需要根据不同的场景完成不同的复杂任务,而这就需要很多强大的算法来完成;因此算法工程师是大模型技术中不可或缺的一环。
之后,由于大模型庞大的参数和神经网络体系;因此传统的系统架构很难满足大模型训练和运行的需求,因此分布式计算技术,比如并行计算就成了大模型运行的基础,所以分布式计算也是其不可或缺的一环。
最后就是,大模型技术与不同应用场景的结合部分;比如基于大模型的自然语言处理,就需要你对自然语言处理有一定的理解;而对于图像和视频的处理就需要你具备基本的计算机视觉技术的基础。
当然,大模型技术栈远不仅这一点,其中还涉及到很多其它的技术,比如说向量计算,大批量数据的存储与加载,基于链式结构等实现的逻辑推理能力等。
总之,对大部分开发者来说,大模型应用开发相对比较简单,当然竞争也更加激烈;其次就是大模型技术本身的开发,对技术要求相对较高;对于后者来说,单纯的计算机技术可能已经无法满足这种需求,更多需要的是数学,物理,生物等其它学科的佼佼者参与进来。就拿算法来说,在算法领域成就较高的人基本上都是数学出身的,而不是计算机出身的。
最后,每个人可以根据自己的喜好以及能力去选择适合自己的发展方向;而不是稀里糊涂的不知道自己在干什么。
原文链接:
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://www.jmbhsh.com/shenghuozixun/33067.html