“世界就是一个巨大的草台班子,而很多看起来高大上的场景,背后就是一个low的不能再low的处理方式”
对大模型有过了解的人应该都知道,整体来说国外的大模型要比国内的强;但由于封禁的原因导致国内无法直接使用国外的大模型,因此对一些做大模型应用的人和企业来说,要想使用国外的大模型只有一个办法,那就是找一些中间商,通过他们的转发服务来调用国外大模型。
如果是那种正常的国外大模型服务商还比较好对接,但其中有这么一种服务商,那就是他们自己是做大模型产品的,自己做产品,自己做模型;因此这类的服务商有一个问题就是由于他们是完全封闭式的产品,因此他们不会对外提供API接口,但由于他们产品做的还不错,因此有些人就想使用他们的服务。但前面说了,他们又不对外提供API接口,这个该怎么办?
中间商是怎么调用国外大模型的
可能这里有人已经有疑问了,既然他们不提供API接口,哪些中间服务商为什么可以提供这种服务?
想到这里,你就已经发现了问题的所在;俗话说,有需求就有市场,为了解决这个问题有一些中间商就想到了一些“鬼点子”也就是骚操作。
那他们是怎么做的呢?
既然你们不提供API,但你们提供产品啊;所以,这些中间商就通过模仿正常用户的操作,比如登陆那些模型服务商的系统,然后模拟用户设置条件,模拟点击,最后把获取的结果返回给调用方。
说到这里有些人应该就已经明白了,这就是典型的爬虫技术,只不过使用的是比较简单的,也是最麻烦的无头浏览器+自动化爬虫工具去模拟用户的操作。
说到这里可能有些对爬虫不了解的人还是一脸懵逼;所以这里就简单解释一下。
比如说我们想使用chatGPT的功能,但我们又不想花钱,这时该怎么办呢?
既然你chatGPT的接口都要收费,但是他们的网页版功能部分是免费的;因此,我就可以通过使用浏览器进行操作,比如打开chatGPT的官网地址,点击创建会话,输入提示词,获取结果等等一系列流程。
这种方式完全就是普通用户的正常操作行为,因此chatGPT也不会对这种操作进行监管。
但是人的时间和精力都是有限的,总不能中间商在自己的系统中接收调用方的提示词,然后人工输入到chatGPT的聊天框中,这是不可能的,而且也忙不过来。
因此,这时自动化爬虫工具的作用就体现出来了,这种工具可以通过设置参数来模拟用户的行为。
技术原理就是,浏览器的背后是一段html和js, css代码,不论是输入框还是提交按钮等都有其节点id;因此自动化爬虫工具就可以通过解析网页代码,去获取这些重要的节点数据,然后再模拟鼠标和键盘的操作,使得其像一个正常人进行操作。
而且,由于是程序自动执行,也就解决了人工处理的速度和效率问题。因此正常情况下,类似于这种网页不会有大的变动,比如不可能今天输入框在这里,明天在哪里。
这样,等这些大模型服务商的服务进行响应时,中间商再通过节点获取到响应结果返回给调用方。
这也是网页爬虫比较主流的操作方式之一,这种方式相对比较简单,因为不需要对接口进行逆向破解等操作。只需要模拟正常的用户操作就可以了。
而为了加快速度,因为这些自动化工具不会配合正常的浏览器进行使用,因为这种方式太麻烦,而且资源占用率高,效率低;因此,他们会使用另一种无头浏览器进行操作,所谓的无头浏览器就是没有页面的浏览器,用户看不到操作过程,但它又确实可以像浏览器一样去访问网站。
这也是为什么这些中间商的服务特别不稳定的原因,因为哪些模型服务商他们也会采取一些反爬措施,比如中间商不能进行高频访问,比如一个人不可能再一秒中操作几十个任务,但自动化工具却可以。
其次,中间商使用的账号也需要经常更换,毕竟正常用户也不可能一天二十四小时,每天大半夜的还在操作。
当然,除了爬虫之外还有一些类似于RPA(机器人流程自动化)的系统来模拟这些流程化的操作;但本质上都是通过爬虫技术来实现这种方式。
所以说,世界是个草台班子,我们以为的高大上的东西,事实上背后是一些想象不到的骚操作。
原文链接:
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://www.jmbhsh.com/baihuo725/33167.html