Multimodal Recommendation System
多模态推荐系统:近期进展与未来方向
参考论文: 《A Survey on Multimodal Recommender Systems: Recent Advances and Future Directions》
特征提取
大多数数据集通常至少包括三种主要模态:交互、视觉和文本。
特征提取是一个关键过程,旨在通过嵌入技术表示低维、可解释的通道特征。对于不同的模态,采用不同的预提取方法。
对于视觉模态,使用如 ResNet 和 ViT 这样的模型来提取特征;对于文本模态,使用 BERT 和 Sentence-Transformer 等模型来推导特征; 音频特征通常使用如 LSTM 和 GRU 这样的模型提取。
编码器
编码器利用从多模态信息和历史交互数据中提取的特征来推断用户偏好表示,并随后用于预测用户-项目交互,从而进行推荐。
多模态推荐的编码器可以大致分为基于矩阵分解(MF)和基于图卷积网络(Graph)的方法。基于 MF 的方法以简单有效著称,而基于图的方法利用用户-项目交互中的二分图结构来学习更高阶的邻居特征。
多模态融合
模态融合的时机可能显著影响推荐效果。多模态融合涉及在不同阶段整合来自不同模态的信息,这一时机对实现最佳性能至关重要。
- 早期融合:早期融合是指在编码器处理之前将不同模态的特征进行组合。这种方法能够有效地揭示模型之间隐藏的关系,因为整合后的多模态特征使编码器能够学习更丰富和更高质量的表示。早期融合能够捕捉文本、图像和音频等不同数据类型之间复杂的相互作用,从而更全面地理解用户偏好。早期融合的技术通常包括连接、注意力机制和基于神经网络的整合方法,旨在创建统一的多模态数据表示。
- 后期融合:后期融合是在各个模态特定的编码器处理完数据后,将每种模态的分数或预测结果进行合并。这种方法侧重于利用每个模态特定模型的优势,然后结合它们的输出进行最终推荐。后期融合在某些模态比其他模态更具信息性或可靠的情况下尤为有效。通过推迟融合过程,后期融合允许在预测阶段之后更有针对性地提取特定模态信息,从而提高整体推荐准确性。
损失函数
多模态推荐系统利用的损失函数大致可以分为两大部分:主任务和辅助任务。主任务是监督学习,通常涉及明确定义地标签来指导模型的学习过程。这些任务确保模型基于标签数据学习做出准确的预测。辅助任务则是自监督学习,自监督学习通过利用数据自身地内在结构或模式生成监督信号,而不是仅仅依赖外部标签数据。这一方法使得推荐系统能够有效地利用未标注数据,在数据稀疏地情况下能提取有意义地表示并做出准确预测。
监督学习可以进一步细分为:
- 逐点损失:逐点损失通过比较每个单独项目的预测得分与其实际标签来计算。常见的逐点损失函数包括均方误差(MSE)和交叉熵损失(CE),用于直接评估单项预测的准确性。
- 对比损失:对比损失侧重于项目之间的相对排序。常见的对比损失函数包括贝叶斯个性化排序(BPR)和铰链损失(Hinge Loss),旨在优化项目的排名顺序而非其绝对得分。
自监督学习可以分为基于特征和基于结构的两种方法:
- 基于特征的SSL:该方法通过创建辅助任务来预测或重建数据的某些特征。例如,模型可能被训练预测项目或用户的缺失特征,从而学习到更强大的表示。
- 基于结构的SSL:该方法利用数据的结构特性,用户与项目之间的关系和交互。例如,基于图的方法可能会利用节点相似度或子图模式来生成监督信号,从而增强模型捕捉复杂依赖关系和交互的能力。
Multimodal Recommendation System
https://www.renkelin.vip/2025/04/06/MMRS/