TSXDEY64D2K微软推出多模态大语言模型 KOSMOS-1,印证大语言模型能力可延伸至 NLP 外领域。该模型采用多模态数据训练,可感知图片、文字等不同模态输入,并学习上下文,根据给出的指令生成回答的能力。经过测试比较,KOSMOS 在语言理解、语言生成、无 OCR 文本分类、常识推理、IQ 测试、图像描述、零样本图像分类等任务上都取得了相比之前其他单模态模型效果。
专家测试了 KOSMOS-1 的不同能力,并分别与其他 AI 模型进行了对比,包括:
l语言任务:语言理解、语言生成、无 OCR 文本分类(不依赖光学字符识别直接理解图中文本)
l跨模态迁移:常识推理(如提问物体的颜色,问两个物体比大小,将 KOSMOS-1 和单模态的大语言模型比较,发现 KOSMOS-1 受益于视觉知识能完成更准确推理)
l非语言推理:IQ 测试(如图中的图形推理)
l感知-语言任务:图像描述生成、图像问答、网页问答
l视觉任务:零样本图像分类、带描述的零样本图像分类(如图中的鸟类识别问题)
机器人视觉与多模态GPT之间的交互关系
1.机器人视觉为多模态GPT提供大量训练样本
TSXDEY64D2K
TSXDEY64D2K
Zoom
44C-742174-008#R02
Probably in stock | Modify | Price list
GE CABLE
Zoom
44C-742174-020#R03
Probably in stock | Modify | Price list
GE CABLE
Zoom
44C-742199-002#R01
Probably in stock | Modify | Price list
GE CABLE
Zoom
44C-742241-004#R01
Probably in stock | Modify | Price list
GE CABLE
Zoom
44C-742241-004#R02
Probably in stock | Modify | Price list
GE CABLE
Zoom
44C-742355-001#R02
Probably in stock | Modify | Price list
GE CABLE
44C-742355-101#R02
Probably in stock | Modify | Price list
GE CABLE
Zoom
44C-742430-102#R01
Probably in stock | Modify | Price list
GE CABLE
Zoom
44C-745809-001#R01
Probably in stock | Modify | Price list
GE CABLE
181-18-0412-0
Probably in stock | Modify | Price list
GE DC SERVO MOTOR
Zoom
183-18-0390
Probably in stock | Modify | Price list
GE DC SERVO MOTOR
Zoom
183-18-0867-0
Probably in stock | Modify | Price list
GE MOTOR
Zoom
44A724572-A100
Probably in stock | Modify | Price list
GE AC MOTOR