上回我们聊了如何用文本描述“凭空”生成检测能力,算是把YOLO-World的零样本潜力挖到了底。但有个问题一直卡在我心里:用户说“把左边那个红色瓶子标出来”,我们的模型能听懂吗?传统的做法是预设类别列表,比如“可乐瓶、矿泉水瓶、红酒杯”——但用户的自然语言是动态的、模糊的、带有空间关系的。你总不能把全世界所有可能的描述都写进配置文件吧?上周我在做一个智能零售项目,客户要求摄像头实时识别货架上的商品,并且允许店员用语音指令临时增加检测目标:“帮我看一下第三排那个蓝色包装的薯片还有几袋”。当时我第一反应是:把“蓝色包装的薯片”转成文本特征,注入YOLO-World?但问题来了——“第三排”这个空间位置怎么处理?模型只认“是什么”,不认“在哪里”。痛点拆解:自然语言到检测指令的三大断崖误区1:以为文本描述能直接编码空间关系很多初学者会这么写:# 反例:试图用文本描述空间位置text_queries=["左边红色瓶子",