大模型的终局是「通用」还是「专用」?

大模型的终局是「通用」还是「专用」?

· json · rss
Subscribe:

About

通用模型。

这是由于知识的本质要求的。

最近我一直在思考图片语义识别的问题。

其实图片分类的相关研究已经做了10年了,现在做语义识别也正在开始,但是很容易发现多模态的效果比单纯的语义识别好很多。

我们可以举一个例子,一个90岁老人拿着樱桃味的可口可乐,吃着麦当劳。我们可以用这些要素中得知他是巴菲特。

但是单纯的图片识别算法肯定不能获取这部分知识,或者换句话来说如果对任意一张图都可以充分的理解,那么它已经拥有了全面的逻辑能力。

再说回来图片识别,例如GPT4V就不能识别两把叠起来的椅子,这是因为图片库里面不存在情况,它不能识别8支腿的是啥?

但是GPT4.5就不一样了,具有了3D模型的相应知识,那么一把倒着的椅子和一把侧着的椅子对于AI的识别难度将会是相等的,它们将会同样映射到一个3D模型,从而3D的模型知识将会反应给语义识别中。

多模态的知识能力将会远远超过单一模态能力的上限,从而实现真正意义上的降维打击。