多模态商品搜索:用图找货、用语音找货的体验现状
发布于 2026/6/5263 阅读
传统电商搜索只能输文字,对用户而言并不友好——很多东西你说不上准确的名字、规格、品类。多模态搜索就是来解决这个问题的:用图、用语音、用一段描述场景的文字,都能找到对应的商品。
一、用图找货已经基本成熟
你随手拍一张街上的鞋、室内的家具、收到的礼物,电商 App 都能在 1 秒内给出「同款」或「相似款」。这背后是图像 embedding 模型——把每张商品图压缩成一个高维向量,存进向量数据库;用户的图也实时转向量,再做近似最近邻搜索。开源的 CLIP 模型让中小开发者也能搭一套基础版本,效果对 80% 的日常品类已经够用。
剩下 20% 的难点在哪?高度同质化商品(如纯色 T 恤、白瓷盘)、强光照变化(夜拍 vs 棚拍)、剪裁差异(侧拍 vs 平铺)会显著降低匹配准确率。这些场景目前主要靠「图像 + 文字辅助」混合搜索补救。
二、用语音找货还在早期
语音搜索本身(语音转文字)已经很成熟,但接到电商场景上效果一般。原因是用户说的话往往不结构化——「我要那个昨天看到我朋友手上拿的小袋子,浅色的,皮质」。这种长口语,传统关键词检索匹配很差。
大语言模型的出现改变了这件事。LLM 能把口语翻译成结构化意图(品类=单肩包,颜色=浅色,材质=皮质,参考=朋友的款式),再喂给商品搜索引擎。今年开始头部电商已经试点这种「语音 + LLM 意图理解」的搜索入口。
三、用「场景描述」找货:最有想象力的方向
用户输入:「适合在咖啡馆办公时穿、不显胖、能搭运动鞋的女装」。这类自然语言描述,需要模型理解「场景=咖啡馆办公」「身材诉求=显瘦」「搭配约束=运动鞋」三个维度,再去命中商品。这是目前学术界和工业界都在突破的方向,年内可能就会看到主流平台的可用产品。
四、商家应该做什么
多模态搜索对商家的要求很朴素:把商品的图、文字、规格、使用场景描述都写丰满。AI 召回的逻辑越复杂,对「内容完整度」的依赖就越强。一件商品的图越多角度、描述越具体(场景、材质、人群),被多模态搜索召回的概率就越高。
这是个内容向的迁移——商家做电商的核心能力,正在从「拍漂亮主图」变成「把商品的每一面都讲清楚」。