大模型的终局是「通用」还是「专用」？

Sun, 24 Dec 2023 15:16:58 GMT

通用模型。

这是由于知识的本质要求的。

最近我一直在思考图片语义识别的问题。

其实图片分类的相关研究已经做了10年了，现在做语义识别也正在开始，但是很容易发现多模态的效果比单纯的语义识别好很多。

我们可以举一个例子，一个90岁老人拿着樱桃味的可口可乐，吃着麦当劳。我们可以用这些要素中得知他是巴菲特。

但是单纯的图片识别算法肯定不能获取这部分知识，或者换句话来说如果对任意一张图都可以充分的理解，那么它已经拥有了全面的逻辑能力。

再说回来图片识别，例如GPT4V就不能识别两把叠起来的椅子，这是因为图片库里面不存在情况，它不能识别8支腿的是啥？

但是GPT4.5就不一样了，具有了3D模型的相应知识，那么一把倒着的椅子和一把侧着的椅子对于AI的识别难度将会是相等的，它们将会同样映射到一个3D模型，从而3D的模型知识将会反应给语义识别中。

多模态的知识能力将会远远超过单一模态能力的上限，从而实现真正意义上的降维打击。

苏迟但到的主页