March 12, 2024d0evi1 Reading time ~2 minutes

Netflix关于cosine相似度的讨论

Netflix团队发了篇paper《Is Cosine-Similarity of Embeddings Really About Similarity?》，对cosine相似度做了相应的研究。

摘要

余弦相似度（cosine similarity）是指两个向量间夹角的余弦值，或者等价于：归一化后的点积。一种常见的应用是：通过将余弦相似度应用于学习到的低维特征embedding，来量化高维对象之间的语义相似性。这种方法在实践中可能比未归一化的嵌入向量之间的点积效果更好，但也可能更差。为了深入了解这一经验观察，我们研究了从正则化线性模型派生的embedding，其中闭式解有助于分析洞察。我们从理论上推导了余弦相似度如何产生任意且因此无意义的“相似性”。对于某些线性模型，相似性甚至不是唯一的，而对于其他模型，它们则由正则化隐式控制。我们讨论了超出线性模型的含义：在学习深度模型时采用了不同正则化的组合；当对结果embedding取余弦相似度时，这些正则化具有隐式和非预期的影响，使结果变得不透明且可能是任意的。基于这些见解，我们警告：不要盲目使用cosine相似度，并概述了替代方案。

1.引言

离散实体通常通过学习的映射嵌入到各种领域的稠密实值向量(dense real-valued vector)中。例如，在大语言模型（LLM）中，单词基于其周围上下文进行嵌入，而推荐系统通常根据用户消费的方式学习item（和user）的embedding。这样的embedding有多方面的优点。特别是，它们可以直接作为（冻结或微调的）输入用于其它模型，它们提供了一种数据驱动的（语义）相似性概念，用来表示之前是原子和离散的实体。

虽然“余弦相似度（cosine similarity）”中的相似性指的是：与距离度量中的较大值表示更接近（较小值则相反），但它也已成为衡量感兴趣实体之间语义相似性的非常流行的度量方法。其动机在于，学习到的embedding vector的范数并不如embedding vector间的方向对齐那么重要。尽管有无数的论文报告了余弦相似度在实际应用中的成功使用，但也有人发现它在某些情况下不如其它方法，例如学习embedding间的（未归一化的）点积，参见[3, 4, 8]。

在本文中，我们尝试阐明这些不一致的经验观察。我们发现，学习到的embedding余弦相似度实际上可以产生任意结果。我们发现，根本原因不在于余弦相似度本身，而在于学习到的embedding具有一定程度自由度，即使它们的（未归一化的）点积是明确定义且唯一，也可以产生任意的余弦相似度。为了获得更具一般性的见解，我们推导出解析解，这对于线性矩阵分解（MF）模型是可能的——这将在下一节详细概述。在第3节中，我们提出了可能的解决方案。第4节中的实验说明了我们在本文中得出的发现。

2.矩阵分解模型

在本文中，我们关注线性模型，因为它们允许闭式解（closed-form solutions），从而可以从理论上理解应用于学习embedding的余弦相似度度量的局限性。给定：

一个矩阵$X \in R^{n × p}$
包含n个数据点和p个特征（例如，在推荐系统中分别是user和item）

矩阵分解（MF）模型（或等效地在线性自编码器中）的目标是：估计一个低秩矩阵$AB^T \in R^{p×p}$

其中：

$A, B \in R^{p×k}, k \leq p$

使得乘积$XAB^⊤$是${X:}^1 X \approx XAB^⊤$的好的近似。

给定：

X是一个user-item矩阵
B的行：$\overset{\rightarrow}{b_i}$，通常被称为k维的item embedding
XA的行：$\overset{\rightarrow}{x_u} \cdot A$，可以解释为user embeddings，其中用户u的embedding是该用户消费的item embeddings $\overset{\rightarrow}{a_j}$的总和。

请注意，该模型是根据user和item embeddings之间的（未归一化的）点积定义的：

\[(XAB^T)_{u,i} = < \overset{\rightarrow}{x_u} \cdot A, \overset{\rightarrow}{b_i} >\]

然而，一旦学习了embedd，常见的做法是：考虑它们之间的余弦相似度，例如：

两个item间：$cosSim(\overset{\rightarrow}{b_i}, \overset{\rightarrow}{b’_i})$
两个user间：$cosSim(\overset{\rightarrow}{x_u} \cdot A, \overset{\rightarrow}{x_u’} \cdot A)$
user与item间：$cosSim(\overset{\rightarrow}{x_u} \cdot A, \overset{\rightarrow}{b_i})$

在下文中，我们将展示这可能导致任意结果，并且它们甚至可能不是唯一的。

2.1 训练

影响余弦相似度metric的实效（utility）的一个关键因素是：当在学习A、B的embedding时使用的正则化方法，如下所述。

考虑以下两种常用的正则化方案（它们都有封闭形式的解，见第2.2节和第2.3节）：

\[\underset{A,B}{min} ||X − XAB^⊤||^2_F + λ||AB^⊤||^2_F \\ \underset{A,B}{min} ||X − XAB^⊤||^2_F + λ(||XA||^2_F + ||B||^2_F )\]

… (1) (2)

这两个训练目标在L2范数正则化方面显然有所不同：

在第一个目标中，$|AB^⊤|^2_F$ 应用于它们的乘积。在线性模型中，这种L2范数正则化可以证明等同于：使用去噪学习，即在输入层进行dropout，例如，见[6]。此外，实验发现，在保留的测试数据上得到的预测准确率优于第二个目标的准确率[2]。不仅在MF模型中，而且在深度学习中，通常观察到去噪或dropout（这个目标）比权重衰减（第二个目标）在保留的测试数据上带来更好的结果。

第二个目标等价于：常规的矩阵分解目标:

\[{min}_W \| X − P Q^T \|^2_F + λ(\|P\|^2_F + \|Q\|^2_F)\]

其中：

X被分解为$P Q^⊤$，且P = XA和Q = B。

这种等价性在 [2]中有所概述。这里的关键是，每个矩阵P和Q分别进行正则化，类似于深度学习中的权重衰减。

$\widehat{A}$和$\widehat{B}$：是任一目标的解（solution）
$R \in R^{k×k}$：任意旋转矩阵

那么众所周知，具有任意旋转矩阵$R \in R^{k×k}$ 的$\widehat{A}R$和$\widehat{B}R$也是解（solution），因为余弦相似度在这种旋转R下是不变的，本文的一个关键见解是：

第一个（但不是第二个）目标对于A和B的列（即嵌入的不同潜在维度）的重缩放也是不变的：如果$\widehat{A} \widehat{B}^⊤$是第一目标的解，那么$\widehat{A}DD^−1 \widehat{B}^⊤$也是，其中D ∈ R k×k 是任意对角矩阵。

因此，我们可以定义一个新的解决方案（作为D的函数）如下：

\[\widehat{A}^{(D)} := \widehat{A}D \\ \widehat{B}^{(D)} := \widehat{B}D^{−1}\]

…(3)

反过来，这个对角矩阵D会影响学习到的user和item embedding（即：行）的归一化：

\[(X\widehat{A}^{(D)})_{(normalized)} = Ω_AX\widehat{A}^{(D)} = Ω_AX\widehat{A}D \\ \widehat{B}^{(D)}_{(normalized)} = Ω_BBˆ(D) = ΩBBDˆ −1，(4)\]

其中$Ω_A$和$Ω_B$是适当的对角矩阵，用于将每个学习到的嵌入（行）归一化为单位欧几里得范数。注意，一般来说这些矩阵不可交换，因此不同的D选择不能（精确地）通过归一化矩阵$Ω_A$和$Ω_B$来补偿。由于它们依赖于D，我们通过$Ω_A(D)$和$Ω_B(D)$明确表示这一点。因此，嵌入的余弦相似性也取决于这个任意矩阵D。

当人们考虑两个项目之间、两个用户之间或用户和项目之间的余弦相似性时，这三种组合分别为：

item-item：

\[cosSim(\widehat{B}^(D), \widehat{B}^(D)) = Ω_B(D) \cdot \widehat{B} \cdot D^{−2} \cdot \widehat{B}^T \cdot Ω_B(D)\]

user-user：

\[cosSim(X\widehat{A}^(D), X\widehat{A}^(D)) = Ω_A(D) \cdot X\widehat{A}^ \cdot D^2 \cdot (X\widehat{A})^T \cdot Ω_A(D)\]

user-item：

\[cosSim(X\widehat{A}^(D), \widehat{B}^(D)) = Ω_A(D) \cdot X\widehat{A} \cdot \widehat{B}^T \cdot Ω_B(D)\]

显然，所有三种组合的余弦相似性都取决于任意对角矩阵D：虽然它们都间接依赖于D，因为它影响了归一化矩阵$Ω_A(D)$和$Ω_B(D)$，但请注意，（特别受欢迎的）item-item余弦相似性（第一行）还直接依赖于D（user-user余弦相似性也是如此，见第二项）。

2.2 First Objective (Eq. 1)详述

当我们考虑全秩MF模型的特殊情况，即k = p时，余弦相似性的任意性在这里变得尤为明显。这可以通过以下两种情况来说明：

第一种：

如果我们选择： $D = dMat(..., 1/(1+λ/σ^2)^i, ...)^(1/2)$

那么我们有: $\widehat{A}_{(1)}^{(D)} = \widehat{A}_{(1)} \cdot D \\ = V · dMat(\cdots, \frac{1}{(1+λ/\sigma_i^2)}, \cdots)$

和

\[\widehat{B}_{(1)}^{(D)} = \widehat{B}_{(1)} \cdot D^{-1} = V\]

由于奇异向量矩阵V已经是标准化的（关于列和行），归一化$Ω_B = I$因此等于单位矩阵I。因此，关于item-item余弦相似性，我们得到：

\[cosSim(\widehat{B}_{(1)}^{(D)}, \widehat{B}_{(1)}^{(D)}) = V V^T = I\]

这是一个相当奇怪的结果，因为这意味着任何一对（不同的）项目嵌入之间的余弦相似性为零，即一个item只与自己相似，而不与任何其他item相似！

另一个显著的结果是关于user-item余弦相似性：

\[cosSim(X \widehat{A}_{(1)}^{(D)}, \widehat{B}_{(1)}^{(D)}) = Ω_A \cdot X \cdot V \cdot dMat(\cdots, \frac{1}{1 + λ/\sigma_i^2}, \cdots) · V^T \\ = Ω_A · X · \widehat{A}_{(1)}\widehat{B}_{(1)}^T\]

因为与（未归一化的）点积相比，唯一的区别在于矩阵$Ω_A$，它归一化了行——因此，当我们考虑基于预测分数为给定用户对项目进行排序时，余弦相似性和（未归一化的）点积会导致完全相同的项目的排序，因为在这种情况下行归一化只是一个无关紧要的常数。

第2种：

如果我们选择：

\[D = dMat(\cdots, \frac{1}{(1+λ/σ_i^2)}, \cdots)^{-\frac{1}{2}}\]

那么我们类似于前一种情况有：

\[\widehat{B}_{(1)}^{(D)} = V \cdot dMat(\cdots, \frac{1}{1+λ/σ_i^2}, \cdots)\]

并且$\widehat{A}_{(1)}^{(D)} = V$是正交的。我们现在得到关于user-user余弦相似性：

\[cosSim(X \widehat{A}_{(1)}^{(D)}, X\widehat{A}_{(1)}^{(D)}) = Ω_A · X · X^T · Ω_A\]

即，现在用户相似性仅仅基于原始数据矩阵X，即没有任何由于学习到的嵌入而产生的平滑。关于user-item余弦相似性，我们现在得到：

\[cosSim(X\widehat{A}_{(1)}^{(D)}, \widehat{B}_{(1)}^{(D)}) = Ω_A \cdot X \cdot \widehat{A}_{(1)} \cdot \widehat{B}_{(1)}^T \cdot Ω_B\]

即，现在$Ω_B$归一化了B的行，这是我们在之前选择D时所没有的。同样，item-item余弦相似性

\[cosSim(\widehat{B}_{(1)}^{(D)}, B_{(1)}^{(D)}) = Ω_B · V · dMat(\cdots, \frac{1}{1 + λ/σ_i^2}, \cdots)^2 \cdot V^T \cdot Ω_B\]

与我们之前在D的选择中得到的奇怪结果大不相同。

总的来说，这两种情况表明，对于D的不同选择会导致不同的余弦相似性，即使学习到的模型

\[\widehat{A}_{(1)}^{(D)} \widehat{B}_{(1)}^{(D)T} = \widehat{A}_{(1)} \widehat{B}_{(1)}^T\]

对于D是不变的。换句话说，余弦相似性的结果是任意的，对这个模型来说并不是唯一的。

2.3 关于第二个目标

（公式2）的细节

公式2中的训练目标的解决方案在[7]中推导出来，读作

\[\widehat{A}_{(2)} = V_k \cdot dMat(\cdots, \sqrt{\frac{1}{σ_i} \cdot (1 - λ/σ_i)+}, \cdots)_k \\ \widehat{B}_{(2)} = V_k \cdot dMat(\cdots, \sqrt{σ_i \cdot (1 - λ/σ_i)+}, \cdots)_k\]

… (6)

其中：

$(y)+ = max(0, y)$
$X =: U \Sigma V^T$: 是训练数据X的SVD
$\Sigma = dMat(\cdots, σ_i, \cdots)$

注意，如果我们使用MF中常用的符号，其中：$P = XA$和$Q = B$，我们得到：

\[\widehat{P} = X\widehat{A}_{(2)} = U_k \cdot dMat(\cdots, \sqrt{σ_i \cdot (1 - \frac{λ}{σ_i})+}, \cdots)_k\]

在这里我们可以看到，在公式6中，对角矩阵：

\[dMat(..., \sqrt{σ_i \cdot (1 - \frac{λ}{σ_i})+}, \cdots)_k\]

对于user embedding和item embedding是相同的，这是由于在公式2的训练目标中的L2范数正则化 $|P|_F + |Q|_F$的对称性所预期的。

与第一个训练目标（见公式1）的关键区别在于，这里的L2范数正则化$|P|_F + |Q|_F$是分别应用于每个矩阵的，因此这个解决方案是唯一的（如上所述，直到不相关的旋转），即在这种情况没有办法将任意的对角矩阵D引入到第二个目标的解决方案中。因此，应用于这个MF变体的学习嵌入的余弦相似性产生唯一的结果。

虽然这个解决方案是唯一的，但它仍然是一个悬而未决的问题，这个关于用户和项目嵌入的唯一对角矩阵 $dMat(\cdots, \sqrt{σ_i \cdot (1 - λ/σ_i)+}, \cdots)_k$是否在实践中产生最佳可能的语义相似性。然而，如果我们相信这种正则化使得余弦相似性在语义相似性方面有用，我们可以比较两个变体中对角矩阵的形式，即比较公式6和公式5，这表明在第一个变体中任意的对角矩阵D（见上面的部分）类似地可以选择为： $D = dMat(…, p1/σi, …)k$

3.针对余弦相似性的补救措施和替代方法

正如我们上面分析的那样，当一个模型针对点积进行训练时，其对余弦相似性的影响可能是模糊的，有时甚至不是唯一的。一个显而易见的解决方案是针对余弦相似性训练模型，层归一化[1]可能会有所帮助。另一种方法是避免使用导致上述问题的嵌入空间，并将其投影回原始空间，然后在那里应用余弦相似性。例如，使用上述模型，并给定原始数据X，可以将$X\widehat{A}\widehat{B}^T$视为其平滑版本，将$X\widehat{A}\widehat{B}^T$的行视为原始空间中的user embedding，然后可以应用余弦相似性。

除此之外，同样重要的是要注意，在余弦相似性中，只有在学习了嵌入之后才应用归一化。与在学习之前或期间应用某种归一化或减少流行度偏差相比，这可能会显著降低结果的（语义）相似性。这可以通过几种方式完成。例如，统计学中的一种默认方法是标准化数据X（使每列均值为零且方差为单位）。深度学习中的常见方法包括使用负采样或逆倾向缩放（IPS）来考虑不同项目的流行度（和用户活动水平）。例如，在word2vec [5]中，通过按照它们在训练数据中的频率（流行度）的β = 3/4次幂的概率采样负样本，训练了一个矩阵分解模型，这在当时产生了令人印象深刻的词相似性。

https://arxiv.org/pdf/2403.05440v1.pdf

January 02, 2024d0evi1 Reading time ~1 minute

Meta AdaTT介绍

meta在《AdaTT: Adaptive Task-to-Task Fusion Network for Multitask Learning in Recommendations》提出了AdaTT的多任务建模方法。

摘要

多任务学习（MTL）旨在通过同时在多个任务上训练机器学习模型来提高它们的性能和效率。然而，MTL研究面临两个挑战：

1）有效地建模任务之间的关系以便实现知识共享，
2）共同学习任务特定（task-specific）知识和共享知识

本文提出了一种名为自适应任务融合网络（AdaTT：Adaptive Task-to-Task Fusion Network）的新模型，以解决这两个挑战。AdaTT是一个深度融合网络，具有多个levels上的专有任务单元（task-specific unit）和可选共享融合单元。通过利用一个残差机制（residual）和一个门控机制（gating）来进行任务间融合（task-to-task fusion），这些单元可以自适应地同时学习共享知识和专有任务知识。为了评估AdaTT的性能，我们使用各种任务组在公共基准和工业推荐数据集上进行实验。结果表明，AdaTT明显优于现有的最先进基线。此外，我们的端到端实验表明，与替代方案相比，该模型表现更好。

1.引言

在线推荐系统旨在为用户生成个性化的高质量推荐。这些系统的有效性通常取决于它们准确学习用户偏好的能力，这通常需要同时优化多个目标。例如，一个短视频推荐系统应该考虑用户观看视频（watch）的可能性（likelihood）和他们喜欢视频（like）的可能性（likelihood）。多任务学习（MTL）是这些用例的典型解决方案。通过在单个框架内联合训练多个任务，MTL提供了几个好处：

首先，它增加了计算效率，这对于大规模在线推荐系统非常重要
此外，它通过跨任务正则化（cross-task regularization）和知识共享（knowledge sharing），增强了模型表现

然而，MTL也面临着独特的挑战。其中一个主要挑战是建模任务之间的关系。由于每个任务可能与其他任务具有不同程度的相关性，仅仅建模所有任务的一般共性是不够的。这个问题的复杂性随着任务数量的增加而增加。有效的任务关系建模是实现任务自适应知识共享（task-adaptive knowledge sharing）的关键。例如，“分享视频（share）”任务共享的知识可以在类似于“喜欢视频（like）”的任务中得到很大的权重，同时也可以从具有丰富示例的其它任务中吸取不同方面的知识，例如“观看视频（watch）”。另一方面，它会最小化与高度不相关的任务的共享学习(shared learning)。

先前的工作[2、19]通常采用静态共享表示(static shared representations)。
其他工作，如cross-stitch network[24]（如图2（c）所示），学习矩阵来建模多个子网络之间的关系。然而，权重对于所有样本保持不变，子网络只是松散的特定任务。
最近的方法，如MMoE[22]（如图2（b）所示）和PLE[29]（如图2（e）所示），使用专门的门控网络（gating networks）来动态组合共享的子模块以实现灵活的共享，但是这些方法建模的任务之间的关系是模糊和间接的。

图片名称

图2 我们实验中使用的MTL模型。在多级MTL模型中，使用两个融合level来说明它们的设计。模块用不同的颜色表示：共享模块为蓝色，任务A特定模块为黄色，任务B特定模块为紫色

除了共享学习，专有任务学习（task-specific learning）也是多任务学习的一个重要组成部分。在两者之间取得适当的平衡对于解决任务冲突（task conflicts）和实现跨任务正则化（cross-task regularization）非常重要。

一方面，MTL可能会遇到，负迁移（negative transfer）的问题：其中对一个任务的优化会对另一个任务的性能产生负面影响，特别是当任务具有冲突的目标时。在这种情况下，MTL模型应该自适应地强调专有任务学习。
另一方面，专有任务学习过度和共享不足可能会导致过拟合，降低跨任务正则化的效益。每个任务的训练数据的数量和分布也会影响学习的重点：具有更多数据的任务可以更多地依赖于它们的专有学习，而那些具有较少数据或高度倾斜数据的任务可以更多地集中于共享学习。

考虑到样本之间的差异可以使两者之间的权衡更加动态。因此，自动学习平衡这两种类型的学习非常重要。许多软参数共享模型（soft parameter sharing）可以在不需要繁琐的手动调整[2]或学习所有样本的静态结构。然而，进一步的研究是需要理解：如何建模在共享任务学习与专有任务学习间的交互，以便提升效果。

3.模型结构

为了共同学习自适应共享表示并增强专有任务学习，我们提出了一个新模型：自适应任务融合网络（AdaTT）。AdaTT利用门控和残差机制来自适应地融合多个融合层中的专家（experts）。考虑一个具有两个预测任务的多任务学习场景。我们使用两个融合层在图1中说明了AdaTT的架构。AdaTT由多层融合网络（multi-level fusion network）和任务塔（task towers）组成。融合网络（fusion networks）由任务特定和可选共享融合单元构成，而任务塔建立在融合网络之上，并与最终融合层中的任务特定单元相连。我们的框架是通用的，支持灵活选择专家模块、任务塔网络、门控模块和可配置数量的专家和融合层。在接下来的章节中，我们首先介绍AdaTT的一个特殊case：称为AdaTT-sp，它仅使用任务特定融合单元（如图1（a）所示）。然后，我们将描述通用的AdaTT设计，如图1（b）所示。

图片名称

图1 AdaTT-sp和具有2个fusion levels的通用AdaTT。任务A和B的特定和共享模块通过颜色区分：A为黄色，B为紫色，共享为蓝色。为了说明，我们为每个任务特定单元使用了2个专家。在通用AdaTT中，我们添加了一个共享融合单元，其中只有一个专家作为示例。请注意，通用AdaTT中的共享模块并不是必需的，因此使用虚线表示。当不存在共享模块时，通用AdaTT会回退到AdaTT-sp。

3.1 AdaTT-sp

AdaTT-sp的详细设计如下所示。给定输入𝑥用于𝑇个任务，任务𝑡（𝑡=1,2,…,𝑇）的预测被公式化为：

\[y_t=h_t(𝑓_𝑡^L(𝑥))\]

…(1)

其中：

L：是融合层数量
$h_t$：表示任务𝑡的任务塔
$𝑓_t^L$：表示在第𝐿个融合层产生任务𝑡的融合单元的函数

这里，$𝑓_𝑡^L(𝑥)$通过使用等式(2)和(3)，从底部到顶部应用融合层来计算：

\[𝑓_1^0(𝑥)=𝑓_2^0(𝑥)=\cdots=𝑓_T^0(𝑥)=𝑥\]

…(2)

\[𝑓_𝑡^l(𝑥)=𝐹𝑈_𝑡^l(𝑓_1^{(𝑙−1)}(𝑥), 𝑓_2^{𝑙−1}(𝑥), \cdots, 𝑓_𝑇^{l-1}(𝑥)), 𝑙=1 \cdots L\]

…(3)

这里，FU表示融合单元。

3.1.1 融合单元(fusion unit)

下面我们详细介绍引入等式(3)中的$𝐹𝑈_𝑡^l$的构造。对于任务𝑡，在接收到前一个融合层（fusion level）的所有输出后，我们首先会使用函数$e_{𝑡,𝑖}^l$，和输入$𝑓_t^{l-1}(𝑥)$，来为该任务构造$𝑚_𝑡$个本地专家(naive experts)，表示为$𝐸_{𝑡,𝑖}^l$，即:

\[𝐸_{𝑡,𝑖}^l=e_{𝑡,𝑖}^l(f_𝑡^{l-1}(𝑥))\]

…(4)

其中：

$i=1,2,\cdots,𝑚_t$
$𝐸_{𝑡,𝑖}^l \in R^{1×𝑑^𝑙}$

在第𝑙层，每个专家网络(expert network)会产生长度为$𝑑^𝑙$的向量。为了简化表示，在第𝑙层，我们使用：

$𝐸_𝑡^l$：表示属于任务𝑡的experts的所有垂直拼接（vertical concatenation）
$𝐸^𝑙$：表示跨任务的所有experts的所有垂直拼接

具体而言，$𝐸_𝑡^l$ 和$𝐸^𝑙$表示为：

\[𝐸_𝑡^l=[𝐸_{𝑡,1}^l, 𝐸_{𝑡,2}^l,\cdots,𝐸_{𝑡,𝑚_t}^l]\]

…（5）

\[𝐸^𝑙=[𝐸_1^l,𝐸_2^l, \cdots, 𝐸_𝑇^l]\]

…（6）

其中：

$𝐸_𝑡^l \in R^{𝑚_t \times 𝑑^𝑙}$
$𝐸^𝑙 \in R^{(𝑚_1+𝑚_2+…+𝑚_𝑇)×𝑑^𝑙}$

在上述等式中：

$[,]$：表示将向量或子矩阵垂直堆叠成较大矩阵的操作。

由于任务可能与其他任务具有不同的相关性，$𝐹𝑈_𝑡^l$直接使用门控模块$𝐴𝑙𝑙𝐸𝑥𝑝𝑒𝑟𝑡𝐺𝐹_𝑡^l$来结合所有任务的专家$𝐸^𝑙$来模拟任务间的知识融合。此外，我们利用轻量级线性组合$𝑁𝑎𝑡𝑖𝑣𝑒𝐸𝑥𝑝𝑒𝑟𝑡𝐿𝐹_𝑡^l$来融合任务𝑡的本地专家，即$𝐸_𝑡^l$。概念上，门控模块模拟共享学习，本地专家的线性组合模拟专有任务学习。具体而言，任务𝑡在第𝑙层的特定单元的输出被公式化为：

\[𝑓_𝑡^l(𝑥) = AllExpertGF_𝑡^l(𝐸^𝑙, 𝐺_𝑡^l) + NativeExpertLF_t^l(𝐸_𝑡^l)\]

…(7)

在公式7中，专家被融合如下：

\[𝑁𝑎𝑡𝑖𝑣𝑒𝐸𝑥𝑝𝑒𝑟𝑡𝐿𝐹_t^l(𝐸_𝑡^l)=(𝑣_𝑡^l)^T 𝐸^{𝑡^l}\]

…（8）

其中：

在𝐴𝑙𝑙𝐸𝑥𝑝𝑒𝑟𝑡𝐺𝐹中，$𝐸^𝑙$ 乘以由一个函数$𝑔_𝑡^l$生成的门控权重$𝐺_𝑡^l \in R^{(𝑚_1+𝑚_2+\cdots+𝑚_𝑇)\times 1}$
在𝑁𝑎𝑡𝑖𝑣𝑒𝐸𝑥𝑝𝑒𝑟𝑡𝐿𝐹中，相似的，$𝐸_𝑡^l$仅由一个可学习的向量$v_𝑡^l \in R^{𝑚_𝑡 \times 1}$组合在一起

当$𝑚_1=𝑚_2=\cdots=𝑚_𝑇=1$时，即所有融合单元仅有一个专家时，为了简化起见，$𝑁𝑎𝑡𝑖𝑣𝑒𝐸𝑥𝑝𝑒𝑟𝑡 𝐿𝐹_𝑡^l(𝐸_t^l)$回退到$𝐸_𝑡^l$，将一个单位权重分配给本地专家。有许多设计选项可用于$𝑔_𝑡^l$。常见的一种是使用由softmax激活的单层MLP：

\[𝑔_𝑡^l(𝑓_𝑡^{𝑙−1}(𝑥))=𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑊_𝑡^l 𝑓_𝑡^{𝑙−1}(𝑥)^T)\]

…（10）

这里：

$𝑊_𝑡^l \in R^{(𝑚_1+𝑚_2+\cdots+𝑚_𝑇)} × 𝑑^{𝑙−1}$是一个学习的矩阵。

3.1.2 简化

为了实现效率，考虑到公式8和公式9，我们实际上可以用零填充$(𝑣_𝑡^l)^T$以匹配$(𝐺_t^l)^T$的大小，加权并执行单个乘法来组合所有专家。因此，公式7可以简化为：

\[𝑓_𝑡^l(𝑥)=(𝑝𝑎𝑑(𝑣_𝑡^{lT} )+𝐺_𝑡^{lT}) 𝐸^𝑙\]

… （11）

正如我们所看到的，包含线性融合模块会导致计算量的最小增加。

3.2 常规版本的AdaTT

在其一般形式中，如图1(b)所示，AdaTT采用可选的共享融合单元（shared fusion units）。从概念上讲，专有任务模块pairs间的融合模拟了细粒度共享(fine-grained sharing)，而专有任务模块和共享模块间的融合则传递了适用于所有任务的广泛知识。这导致了高效灵活的任务间知识共享。通用AdaTT的计算方式与AdaTT-sp类似，除了最后一个fusion level，共享融合单元不执行任何融合操作，只为专有任务融合单元产生专家输出进行处理。

总之，AdaTT明确地学习任务特定知识并自适应地与共享知识融合。融合是任务自适应的，因为：

1.门控模块学习与任务本地专家相关的残差。
2.每个任务特定单元使用特定的门控模块融合专家，该门控模块以输入为条件（从第二个融合级别开始是唯一的）。

通过允许每个任务直接而灵活地从其他任务中学习共享知识，AdaTT相比于仅依赖于共享专家作为媒介的PLE具有更大的灵活性。此外，AdaTT可以选择仅使用任务特定专家。与PLE不同，它在每个融合单元内的不同线性融合模块中单独融合本地专家，而不是在单个门控模块中处理所有选定的专家。这种设计增强了每个融合级别后任务特定学习的鲁棒性。尽管它很简单，但我们的实验表明，它胜过了PLE，后者将选择应用于不同的融合单元中的专家，并使用不同的路由路径来区分这些专家。

4.实验

略

https://arxiv.org/pdf/2304.04959.pdf

December 02, 2023d0evi1 Reading time ~2 minutes

SATrans介绍

weixin在《Scenario-Adaptive Feature Interaction for Click-Through Rate Prediction》提出了一种在特征交叉建模中考虑场景信息的方法：SATrans。

一、摘要

传统的点击率（CTR）预测模型通常在单一场景下进行训练和部署。然而，大规模的商业平台通常包含多个推荐场景，其流量特征可能非常不同。最近的研究证明，学习一个统一的模型来服务于多个场景可以有效地提高整体性能。然而，大多数现有方法都各自存在各种限制，例如：区分度建模不足、随着场景增加效率低下、以及缺乏可解释性。更重要的是，据我们所知，现有的多场景建模方法在建模场景差异时没有考虑显式的特征交互（explicit feature interaction），这限制了网络的表现力，从而影响效果。在本文中，我们提出了一个名为SATrans的新型场景自适应特征交互框架（Scenario-Adaptive Feature Interaction framework），将场景差异（scenario discrepancy）建模成特征相关性（feature correlations）模式的差异。具体而言，SATrans建立在Transformer架构上，以学习高阶特征交互，并在自注意力建模中涉及场景信息，以捕捉场景之间的分布变化。我们提供了各种实现我们的框架来提高性能，并在公共和工业数据集上进行实验，结果表明SATrans:

1）显著优于现有的最先进方法进行预测
2）参数效率高，随着场景增加而空间复杂度略微增加
3）在实例级别和场景级别都具有良好的可解释性

我们已经将该模型部署在微信公众号平台上，在三个主要场景中平均在线CTR增加了2.84％。

一、介绍

近年来，多场景点击率（MS-CTR：Multi-Scenario Click-Through Rate）预测[8, 19, 20, 28, 29]已成为在线推荐领域广泛研究的热点，它主要关注于预测在多个场景中的用户-物品对的CTR。在像腾讯和阿里巴巴这样的大型商业公司中，通常存在许多业务场景（例如主页信息流、横幅信息流）[30]。此外，从服务平台收集的日志数据可以根据一些代表性特征（例如性别、国家）分成多个子集。这些子集具有不同的CTR分布，可以被视为场景[29]。不同的场景间可以共享共性（例如重叠的用户或物品、一般性偏好），可以使所有场景的预测受益。同时，用户行为和曝光分布在不同场景下可能会有很大的差异[32]。因此，在估计CTR时建模场景之间的共性和差异非常重要。此外，特征交叉(feature interaction)学习在CTR预测任务中起着至关重要的作用。有效地模拟特征的高阶组合可以提高网络的表达能力，从而有助于提高预测性能[4, 10, 21]。

通常有三种典型的MS-CTR预测方法：

(1)利用传统的CTR预测模型[4, 5, 10, 13, 24, 27]和启发式训练策略，例如：为每个场景训练单独的模型、或使用所有场景实例训练共享模型，然后进行微调。这类方法可以自然地继承传统CTR预测模型的所有优点（例如显式特征交互），但它们在知识转移和场景建模方面的能力有限。
(2)基于多任务学习（MTL）构建统一框架，将每个场景视为一个任务[2, 8, 20]。这种策略需要为每个场景建立单独的网络模块（例如门控网络、专家或输出塔），随着场景的增加，会消耗过多的参数。更糟糕的是，MTL模型通常将骨干网络或专家网络视为广义深度神经网络（DNN）[11, 17, 22]，以位逻辑和隐式方式学习高阶特征交互，受到离散特征交互的梯度不敏感问题的困扰，无法适应POLY函数[14]或简单的点积[16]。尽管可以用因子分解机（FM）[15]或DCN [24]等显式交互模型替换DNN，但特征交互和场景建模的过程是分离的，这限制了模型的可解释性，并可能导致次优的性能。
(3)利用辅助编码器（auxiliary encoder）使用场景相关特征作为输入，生成场景自适应单元（SAU），以影响网络[28-30]。这些方法比MTL方法更灵活、参数更有效，可以处理大量场景和多个场景特征字段。然而，这一类现有方法并没有直接、明确地考虑场景特性对特征交互的影响，因此跨场景的特征相关性和组合的差异仍不清楚。

从特征交互的角度来看，来自不同场景的样本可能具有不同的模式。以电子商务推荐为例，性别、位置和品牌可能是三个重要的特征，它们的组合可能会显著影响CTR得分。然而，同一特征组合的重要性在不同场景中是不同的。考虑二阶特征组合，<品牌，位置> 可能对食品推荐场景更有意义，因为用户的食品偏好受地理因素的影响很大，而 <品牌，性别> 在服装推荐中可能更相关，因为这个场景中有特定的性别区分。据我们所知，现有的MS-CTR方法都不能明确地捕捉到这种特征交互的差异，这限制了网络的表达能力，并导致模型的可解释性不足。

为了解决这些限制，本文提出了一种名为Scenario-Adaptive Transformer（SATrans）的MS-CTR预测的显式特征交叉模型，将场景信息纳入特征的相关建模中，以学习每个场景的独特和自适应的高阶特征交互。具体而言，我们利用Transformer [23]作为骨干架构，对输入特征进行高阶交叉和组合建模，该方法已被AutoInt [21]和InterHAt [9]证明是有效的。Transformer中的多头自注意机制允许每个特征字段与所有其他特征交叉，并自动识别相关特征以形成有意义的高阶特征。为了将场景特性纳入特征交叉中，我们：

首先设计了一个场景编码器，将场景相关特征转换为固定长度的场景embedding。
然后利用场景自适应交叉层来测量相关性，使用特征对的embedding和场景embedding作为输入，其中注意力分数通过一个精心设计的场景自适应相关函数计算。

提出的场景自适应自注意机制赋予SATrans许多优点：

（1）共性建模：每个交叉层中的共享特征转换矩阵和嵌入层自然地捕捉到共同知识；
（2）差异建模：自适应注意力分数编码了场景之间的分布偏移；
（3）高可扩展性：网络参数的规模几乎不依赖于场景的数量，使SATrans能够高效地处理数千甚至数百万个场景；
（4）良好的可解释性：注意力分数可以衡量特征之间的相关性，提供实例级和场景级的可解释性。

总之，在本文中，我们做出了以下贡献：

我们是第一个从特征交互的角度对MS-CTR预测问题进行建模，并提出了一种新颖的SATrans，它在输入特征上明确地进行场景自适应高阶交叉
我们分别为SATrans设计了三种场景编码器和场景自适应交互模块的实现，相比于基本的自注意力机制，显著提高了特征交互的质量
我们在公共和工业数据集上进行了广泛的实验。在多场景CTR预测任务上的实验结果表明，我们提出的方法不仅在预测方面显著优于现有的最先进方法，而且具有良好的可扩展性和模型可解释性
考虑到MS-CTR预测中开源代码的稀缺性，我们发布了我们模型的实现以及比较基准3，以促进未来的研究

三、问题公式化

点击率（CTR）预测数据集可以表示为：

\[D = \lbrace (𝑥_𝑗，𝑦_𝑗) \rbrace_{j=1}^{|D|}\]

其中：

$𝑥_𝑗$和$𝑦_𝑗 \in \lbrace 0,1 \rbrace$：表示第j个样本的特征集和点击label

在现实世界的推荐中，通常存在多个业务场景，这意味着数据集D可以分为多个特定场景的子集 $D^s$（例如：$D = U_s D^s$），其中场景𝑠的子集$D^s= \lbrace（𝑥_𝑖^s，𝑥_i^a，𝑦_𝑖）\rbrace_{𝑖=1}^{\mid D^s \mid}$根据$𝑥_i^s$获得。这里将整个特征集$𝑥_𝑖$分为：

场景相关（scenario-specific）的特征集：$𝑥_𝑖^s$
场景无关（scenario-agnosti）的特征集：$𝑥_𝑖^a$

$𝑥_𝑖^s$中的场景相关特征可以是：业务ID或展示位置ID等上下文特征，也可以扩展为用户配置文件特征（例如，性别，年龄组）或item特征（例如，类别，品牌），这可能会导致不同的行为或曝光分布。将每个场景子集$D^𝑠$拆分为：训练集$D_{train}^s$和测试集 $D_{test}^s$，我们有：$D_{train} = U_s D_{train}^s$和$D_{test} = U_s D_{test}^s$。MS-CTR预测的目标是：基于$D_{train}$构建一个统一的CTR模型，可以为$D_{test}$中的所有场景子集提供准确的CTR预测。

4.方法

4.1 架构总览

为了建模多个场景下特征交互的特殊性，对于MS-CTR预测问题，我们提出了SATrans。

图片名称

图1 SATrans的总体框架。左侧是场景编码器，使用场景相关特征作为输入生成固定大小的嵌入。右侧是由多个SAI层组成的骨干网络。场景编码器和SAI层的实现细节分别在第4.2节和第4.3节中详细说明。

如图1所示，SATrans将基于自注意力的交叉层堆叠作为backbone，并由两个场景相关组件（scenario-specific components）：

(1) 场景编码器（Scenario Encoder）：将特定场景特征转换为固定长度的embedding向量
(2) 场景自适应交叉层（Scenario-Adaptive Interaction: SAI layers）：通过场景自适应自注意机制进行高阶特征交叉。

给定输入特征集${𝑥_𝑖^s，𝑥_𝑖^a}$，我们首先将其转换为稀疏特征向量：

\[x = [x^s; x^𝑎] = [x_1^s; \cdots; x_𝑀^s; x_1^a; \cdots; x_{𝑁-𝑀}^a]\]

… (1)

其中：

𝑀是场景相关特征（scenario-specific features）的数量
𝑁是所有特征的数量

之后，我们首先将场景相关特征$x^s$输入到场景编码器（scenario encoder）中以获取场景embedding s，然后使用embedding layer将所有特征x投影到相同的低维空间，并获得dense embedding $e = [e_1; \cdots; e_𝑁]$，接着进行多个场景自适应交叉层（scenario-adaptive interacting layers），其中在场景embedding的指导下，通过自注意机制将高阶特征组合在一起。通过堆叠𝑙个交叉层，可以建模多达（𝑙+1）阶的场景自适应特征交叉。最终交叉层的输出被连接，然后经过线性层和sigmoid函数来估计CTR。SATrans的关键在于如何设计有效的场景编码器和场景自适应交互模块。在接下来的部分中，我们将介绍我们提出的方法的详细信息。

图片名称

图2 三种类型的Scenario Encoder

4.2 Scenario Feature Encoder

给定场景相关特征$x^s=[x_1^s;\cdots;x_𝑀^s]$，我们使用一个场景自适应编码器（scenarioadaptive encoder）将场景特征编码为固定长度的场景embedding $s \in R^L$，以指导在每个SAI层中的特征交互，其中维度𝐿取决于SAI层的具体实现。为了提高场景embedding的质量，我们考虑三个信息来源：

1）场景专有信息，区分不同的场景；
2）共享知识，编码场景之间的共性；
3）结构位置，表示场景嵌入在自注意网络中涉及的位置（position）（例如，当前层的深度，查询或键嵌入）。

我们针对不同的信息来源提出了三种实现方式。

独立嵌入（IE: Independent Embedding）：该方法首先将场景特征拼接一起稀疏向量$x^𝑠$转换为一个one-hot稀疏特征$x^𝑜$，然后使用嵌入矩阵将其投影到低维向量s中。这种做法将所有场景特征字段的每种可能组合视为一个场景，并使用独立embedding来表示每个场景，这意味着场景之间没有共享知识。更糟糕的是，当特征组合数增加时，嵌入矩阵可能会很大，这将导致参数效率低下和不灵活。
编码网络（EN: Encoding Network）：为了更灵活地编码场景特征并涉及共享知识，我们考虑利用共享编码网络来转换场景特征。对于每个场景特征字段，首先使用嵌入矩阵$E_𝑖^s$将稀疏特征向量$x_𝑖^s$投影为低维向量$e_𝑖^s$。我们将每个字段的embedding向量连接起来，得到：$e^𝑠=[e_1^s; e_2^s; \cdots; e_𝑀^s]$，然后通过非线性激活层（例如ReLU [1]）将其feed到一个共享的编码网络$𝑓_𝑒(·)$中，以获取最终的场景embedding s。在我们的实验中，我们发现一个简单的矩阵变换已经足够，即：$s=W_𝑠 ReLU(e^𝑠)$。
带有结构位置ID的编码网络（ENP）：由于场景embedding在不同的交叉层和backbone自注意力网络中的不同位置（例如，查询或键）上操作，因此生成位置感知的场景嵌入(position-aware scenario embeddings)以提高网络的表达能力是合理的。为此，除了场景特征外，我们还将位置ID作为额外特征馈送到网络中，以为SAI层中的每个结构位置生成唯一的场景embedding。具体而言，我们有：

\[s_{𝑙,ℎ} = W_𝑠 ReLU(Concat(e^𝑠, p_{𝑙,ℎ}))\]

…(2)

其中：

$p_{𝑙,ℎ}$是position embedding
𝑙是层深度(layer depth) ID
$ℎ \in \lbrace 𝑄,𝐾 \rbrace$

在EN和ENP方案中，每个场景（或场景特征）的单独网络参数只是低维度（在我们的实验中为32）的embedding向量，与每个场景具有独立门控网络、特定专家网络或输出塔的MTL方法相比，这是非常参数有效的，使得SATrans可用于大量场景。我们在实验中比较参数复杂度。在接下来的部分中，我们省略下标𝑙，并使用$s_Q$和$s_K$分别表示查询和键表示的场景嵌入，以简化表示。请注意，对于IE和EN策略，$s_Q=s_K$。

4.3 Scenario-Adaptive Interacting Layer

一旦我们在相同的低维空间中拥有特征embedding: $e=[e1;…;e𝑁]$，和每个交互层中每个位置的场景embedding: $s_{𝑖,𝑗}$，我们就开始建模场景自适应高阶组合特征。假设第𝑖个特征的输入表示为$h_𝑖$，并且在第一个交互层中$h_𝑖=e_𝑖$。

我们首先引入多头自注意机制来确定每个特征组合的重要性。以第𝑖个特征为例，首先，在特定的注意力头ℎ下，第𝑖个特征与第𝑗个特征（$𝑖,𝑗 \in \lbrace 1,…,𝑁 \rbrace$）之间的相关性定义为：

\[𝛼_{𝑖,𝑗}^{(ℎ)}=\frac{exp(𝜙(ℎ)(h_𝑖,h_𝑗))}{\sum_𝑘^N exp(𝜙(ℎ)(h_𝑖,h_𝑘))}\]

…(3)

\[𝜙(ℎ)(h_𝑖,h_𝑗)=⟨W_Q^{(ℎ)} h_𝑖, W_K^{(ℎ)} h_𝑗⟩\]

…(4)

其中：

$𝜙(ℎ)(·,·)$：是一个attention函数，它定义了在head h下第𝑖个特征和第𝑗个特征之间的未归一化相关性。它可以是一个神经网络或者简单的内积，即⟨·,·⟩。
$W_Q^{(h)}, W_K^{(h)} \in R^{𝑑′\times 𝑑}$：是变换矩阵，将原始的embedding空间$R^𝑑$投影到一个新的空间$R^{𝑑′}$。其中$𝑑′=𝑑/𝐻$，𝐻是注意力头的数量。

然后，通过系数$𝛼_{𝑖,𝑗}$聚合其他特征，第𝑖个特征在子空间ℎ中的representation被更新为：

\[\widehat{h}_𝑖^{(ℎ)} = \sum\limits_l^M 𝛼_{𝑖,𝑗}^{(ℎ)} (W_V^{(ℎ)} h_𝑙)\]

…(5)

其中：

$W_V^{(ℎ)} \in R^{𝑑′×𝑑}$
$\widehat{h}_𝑖^{(ℎ)}$：是在head h下第𝑖个特征及其相关特征的组合。

等式（4）中的相关函数将所有场景的实例视为相同，忽略了不同场景之间的分布差异。为了建模场景之间的分布转移，我们在特征之间的相关系数计算中引入了场景embedding。我们首先将$s_Q、s_K$的场景embedding分成𝐻个部分，即：

\[s_Q=[s_Q^{(1)}, \cdots, s_Q^{(𝐻)}]，\\ s_K=[s_K^{(1)}, \cdots, s_K^{(𝐻)}]\]

其中：

$s_K^{(h)}，s_Q^{(h)} \in R^{𝐿/𝐻}$

然后在head h下改进场景自适应注意力函数，如下所示：

\[𝜙_{𝑠𝑎}^{(ℎ)}(h_𝑖,h_𝑗,s_Q^{(ℎ)},s_K^{(ℎ)})\]

… (6)

现在的问题是：如何设计场景自适应注意力函数$𝜙_{𝑠𝑎}^{(ℎ)}(·,·,·,·)$，它会明显影响交叉质量。基于计算复杂度从低到高的顺序，我们考虑了三种方法，如图3所示。

图片名称

图3 计算scenario-adaptive self-attention的三种策略

SA-Gate（Bit-wise）：

SA-Gate是一种直接使用按位转换(bitwise transform)来引入场景embedding的策略是门控机制。具体而言，我们基于场景嵌入生成门控模块，以过滤特征嵌入：

\[𝜙_{𝑠𝑎}^{(ℎ)}(h_𝑖,h_𝑗,s_Q^{(ℎ)}, s_K^{(h)})=⟨\sigma(s_Q^{(h)}) \circ (W_Q^{(h)} h_𝑖), \sigma(s_K^{(h)}) \circ (W_K^{(h)} h_𝑗)⟩\]

…(7)

其中:

$\sigma(𝑥)=1/(1+e^{(−𝑥)})$：表示Sigmoid函数
$\circ$：表示element-wise乘积

SA-Bilinear（双线性: Bilinear）：

这种方法对特征embedding进行双线性变换，由场景感知矩阵S参数化。注意力分数计算为：

\[𝜙_{𝑠𝑎}^{(ℎ)}(h_𝑖,h_𝑗,s_Q^{(ℎ)},s_K^{(ℎ)})=(W_Q^{(ℎ)} h_𝑗)^⊤ S(W_K^{(ℎ)} h_𝑖)\]

…(8)

其中：

$S=Reshape(s_Q^{(ℎ)}) \in R^{𝑑×𝑑}$：场景感知矩阵

…(9)

注意：在这种策略中，每层中的$s_Q^{(ℎ)}$和$s_K^{(ℎ)}$是相同的。

SA-MetaNet（非线性）：

前两种策略采用按位和双线性变换来引入场景特征，其表达能力有限，可能无法建模场景信息与交互特征之间的复杂关系。为此，我们考虑通过MetaNet机制进行非线性变换，类似于动态权重单元[30]。

以$s_Q^{(ℎ)}$为例，首先将其分成𝑃个slots：$[s_{Q,1}^{(ℎ)};\cdots;s_{Q,𝑃}^{(ℎ)}]$，

生成一个𝑃层Meta Network $𝑓_{s_Q^{(ℎ)}}^m(·)$的投影参数：

\[𝑓_{s_Q^{(ℎ)}}^m=W_1 \sigma(W_2 \sigma(\cdots \sigma(W_𝑃 x)\cdots))\]

其中：

$W_𝑝=Reshape(s_{Q,p}^{(ℎ)})，W_𝑝 \in R^{𝑑_{𝑝−1}×𝑑_𝑝}$
$𝑑_𝑝$：是第𝑝+1层的输入维度
$\sigma$：是非线性激活函数（例如ReLU）

我们使用相同的过程构建$𝑓_{s_K^{(ℎ)}}^m(·)$来处理场景嵌入$s_K^{(ℎ)}$。生成的MetaNet用于在pair-wise交叉前对input特征embedding进行转换。直观地说，$s_Q$和$s_K$的不同slots以及激活函数，可以被视为从低层到高层的场景感知滤波器，对特征嵌入进行处理，赋予网络捕捉场景之间隐含差异的能力。现在，场景自适应注意力得分（scenario-adaptive attention score）计算如下：

\[𝜙_𝑠𝑎^{(ℎ)}(h_𝑖,h_𝑗,s_Q^{(ℎ)},s_K^{(ℎ)})=⟨LN_Q^{(ℎ)}(𝑓_{s_Q^{(ℎ)}}^m (W_Q^{(ℎ)} h_𝑖)), LN_K^{(ℎ)} (𝑓_{s_K^{(ℎ)}}^m (W_K^{(ℎ)} h_𝑗))⟩\]

…(10)

其中：

$LN_Q^{(ℎ)}(·)$和$LN_K^{(ℎ)}(·)$：是层归一化层，用于归一化嵌入分布，具有独立的层参数。

我们发现归一化层是必不可少的，因为经过多层非线性变换后，embedding的方差会显著放大，这会严重影响收敛。在实践中，我们将MetaNet与LN层一起移动到多头分区之前，这允许跨不同头部进行信息交互，并在经验上实现了更好的性能。因此，注意力头ℎ下的注意力得分表示为：

\[𝜙_{𝑠𝑎}^{(h)}(h_𝑖,h_𝑗,s_Q,s_K)=⟨[LN_Q(𝑓_{s_Q}^{m}(W_Q h_𝑖))]^h, [LN_K(𝑓_{s_K}^m (W_K h_𝑗))]^ℎ⟩\]

…(11)

其中：

$W_Q$和$W_K \in R^{𝑑×𝑑}$：是变换矩阵
$[\cdot]^h$：表示分区操作和选择第ℎ个子空间

根据公式5，我们会更新在attention head h下的第𝑖个特征的representation为$\widehat{h}_𝑖^h$，然后将不同子空间的特征聚合如下：

\[\widehat{h}_𝑖 = \widehat{h}_i^1 \oplus \widehat{h}_2^h \cdots \oplus \widehat{h}_𝐻^h\]

… (12)

其中：

$\oplus$是concatenation运算符。

接下来，我们使用投影矩阵$W_Agg$将学习到的特征进行转换，并添加标准的残差连接(residual connections)以保留以前学习到的组合特征(combinatorial features)，包括原始的个体特征（即一阶特征），接着是一个层归一化层。形式上，第𝑖个特征的输出表示为：

\[h_𝑖^O=LN(W_A \widehat{h}_𝑖 + h_𝑖)\]

…(13)

通过这样一个interacting layer，每个特征表示会被更新到一个新的特征空间中，具有在场景信息的指导下来自其他字段的信息聚合。我们可以堆叠多个这样的层来模拟任意阶的组合特征。我们将最后一层的输出embedding串联起来以获得$h^{Out}=h_1^{Out} \oplus h_2^{Out} … \oplus h_𝑁^{Out}$，并使用带有Sigmoid函数𝜎的线性层来获得最终预测：

\[pCTR=\sigma(W_O h^{Out} +b_O)\]

…(14)

其中：

$W_O \in R^{1×𝑁_𝑑}$ 和 $b_O \in R$。

整个网络通过交叉熵损失进行优化。空间和时间复杂度的分析详见附录A。

略

https://dl.acm.org/doi/pdf/10.1145/3580305.3599936

November 13, 2023d0evi1 Reading time ~1 minute

Cross Attention介绍

Vaclav Kosar在《Cross-Attention in Transformer Architecture》这篇文章里提出了一种cross attention方法。其实在很多地方有在用。

介绍

交叉注意力（Cross attention）是：

一种在Transformer架构中的attention机制，可以将两种不同embedding序列进行混合
这两个序列必须具有相同的维度
这两个序列可以是不同的模态（例如文本、图像、声音）
其中一个序列作为Query输入，定义了输出长度。另一个序列则产生Key和Value输入，用于attention计算

交叉注意力机制使得模型能够关注来自两个序列的相关信息，这在图像字幕或多模式机器翻译等任务中非常有用。

Cross-attention应用

Cross-attention vs Self-attention

除了输入之外，cross attention的计算方式与self-attention相同。cross attention以不对称的方式组合了两个相同维度的独立embedding序列，而self-attention的输入是单个embedding序列。其中一个序列作为query输入，而另一个序列作为key和value输入。在SelfDoc中的一种cross attention可选方式是：使用来自一个序列的query和value，而key则来自另一个序列。

前馈层（feed forward layer）与cross-attention相关，不同之处是：前馈层会使用softmax，并且其中一个输入序列是静态的。《[Augmenting Self-attention with Persistent Memory paper]{https://vaclavkosar.com/ml/Feed-Forward-Self-Attendion-Key-Value-Memory}》一文表明，前馈层的计算方式与self-attention相同。

图片名称

图1

Cross-attention算法

假设我们有两个embeddings（token）序列S1和S2
从序列S1中计算键（Key）和值（Value）
从序列S2中计算查询（Queries）
使用Key和Query来计算注意力矩阵（Attention Matrix）
将queries应用于注意力矩阵
输出序列具有与序列S2相同的维度和长度

在一个等式中：

\[softmax((W_Q S_2)(W_K S_1)^T)W_V S_1\]

Cross-attention可选方式

Feature-wise Linear Modulation Layer是一个更简单的可选方式，它不要求：输入必须是个序列，并且是线性计算复杂度的。这可以使用稳定扩散（Stable Diffusion）生成图像。在这种情况下，交叉注意力用于使用文本提示为图像生成器中的UNet层中的变压器进行条件编码。构造函数显示了我们如何使用不同的维度，并且如果您使用调试器逐步执行代码，还可以看到两种模态之间的不同序列长度。

Cross-attention实现

在Diffusers library中的cross attention实现可以使用Stable Diffusion生成图像。在这个case中，cross-attention被用于【使用文本prompt为图像生成器中的UNet层中的condition transformers】。构造函数显示了我们如何使用不同的维度，并且如果您使用调试器逐步执行代码，还可以看到两种模态之间的不同序列长度。

class CrossAttention(nn.Module):
    r"""
    A cross attention layer.

    Parameters:
        query_dim (`int`): The number of channels in the query.
        cross_attention_dim (`int`, *optional*):
            The number of channels in the encoder_hidden_states. If not given, defaults to `query_dim`.
        heads (`int`,  *optional*, defaults to 8): The number of heads to use for multi-head attention.
        dim_head (`int`,  *optional*, defaults to 64): The number of channels in each head.
        dropout (`float`, *optional*, defaults to 0.0): The dropout probability to use.
        bias (`bool`, *optional*, defaults to False):
            Set to `True` for the query, key, and value linear layers to contain a bias parameter.
    """

特别是在这部分中，您可以看到查询（query）、键（key）和值（value）是如何相互作用的。这是编码器-解码器架构，因此query是从encoder的hidden states中创建得到的。

        query = attn.to_q(hidden_states)
        query = attn.head_to_batch_dim(query)

        encoder_hidden_states = encoder_hidden_states if encoder_hidden_states is not None else hidden_states
        key = attn.to_k(encoder_hidden_states)
        value = attn.to_v(encoder_hidden_states)
        key = attn.head_to_batch_dim(key)
        value = attn.head_to_batch_dim(value)

        attention_probs = attn.get_attention_scores(query, key, attention_mask)
        hidden_states = torch.bmm(attention_probs, value)

流行结构中的cross-attention

Transformer Decoder中的cross-attention

图片名称

Stable Diffusion中的cross-attenion

图片名称

Perceiver IO中的Cross-Attention

图片名称

SelfDoc中的Cross-Attention

图片名称

https://vaclavkosar.com/ml/cross-attention-in-transformer-architecture

November 07, 2023d0evi1 Reading time ~2 minutes

长序列建模TWIN介绍

kuaishou在《TWIN: TWo-stage Interest Network for Lifelong User Behavior Modeling in CTR Prediction at Kuaishou》中提出了TWIN的长序列建模方法。

摘要

终身用户行为建模（Life-long user behavior modeling），即从数月甚至数年的丰富历史行为中提取用户的隐藏兴趣，在现代CTR预测系统中起着核心作用。传统算法大多遵循两个级联阶段：一个简单的通用搜索单元（GSU），用于快速和粗略地搜索数万个长期行为，以及一个精确搜索单元（ESU），用于对GSU的少数最终选手进行有效的目标关注（TA）。尽管高效，现有算法大多存在一个关键限制：GSU和ESU之间的目标-行为相关度度量不一致。因此，它们的GSU通常会错过高度相关的行为，但会检索被ESU认为不相关的行为。在这种情况下，ESU中的TA，无论如何分配注意力，都会偏离真实的用户兴趣，从而降低整体CTR预测精度。为解决这种不一致性，我们提出了TWo-stage Interest Network（TWIN），其中我们的Consistency-Preserved GSU（CP-GSU）采用与ESU中TA相同的目标-行为相关度量，使两个阶段成为孪生。具体而言，为了打破TA的计算瓶颈并将其从ESU扩展到GSU，即从行为长度102扩展到长度104-105，我们通过行为特征分割构建了一种新的注意机制。对于行为的视频固有特征，我们通过高效的预计算和缓存策略计算它们的线性投影。对于用户-物品交叉特征，我们将每个特征压缩为注意力分数计算中的一维偏置项，以节省计算成本。两个阶段之间的一致性，加上CP-GSU中有效的TA-based相关度量，为CTR预测的显著性能提升做出了贡献。在快手的460亿规模的真实生产数据集上进行的离线实验和在线A / B测试表明，TWIN优于所有比较的SOTA算法。通过优化在线基础设施，我们将计算瓶颈降低了99.3％，这有助于TWIN在快手上的成功部署，每天为数亿活跃用户提供主要流量服务。

1.介绍

作为中国最受欢迎的短视频分享应用之一，快手强烈依赖于其强大的推荐系统（RS）。每天，RS帮助数亿活跃用户过滤掉数百万个不感兴趣的视频，找到他们感兴趣的内容，留下数十亿的点击日志。这些巨大的数据不仅为RS的训练提供了数据支持，而且推动了技术革命，不断提升了这个平台的用户体验和业务效果。

在现代RS中，一个基本任务是点击率（CTR）预测，旨在预测用户点击一个项目/视频的概率[2,10,32]。准确的CTR预测可以指导RS为每个用户提供其喜欢的内容，并将每个视频传递给其感兴趣的受众。为了实现这一目标，CTR模型应该高度个性化，并充分利用稀缺的用户信息。因此，终身用户行为建模，即从丰富的长期历史行为中提取用户的隐藏兴趣，通常作为CTR模型的关键组成部分[7,16,34-36]。

工业终身行为建模算法大多遵循两个级联阶段[19]：（1）通用搜索单元（GSU），对数万个长期行为进行快速粗略搜索，并输出最相关的少数目标行为；（2）精确搜索单元（ESU），对来自GSU的最终候选进行有效的目标关注（TA：Target Attention）。这种两阶段设计的原因有两个原因：

一方面，为了准确捕捉用户的兴趣，TA是强调目标相关行为和抑制目标不相关行为的合适选择
另一方面，TA的高昂计算成本限制了其适用的序列长度最多只有几百个。为此，一个简单快速的GSU作为预过滤器对于截断在短短几个月内就可以轻松达到$10^4-10^5$的工业规模行为序列至关重要。

近年来，出现了许多关于两阶段终身行为建模的新兴研究，它们的主要区别在于GSU策略，即如何粗略选择目标相关行为。例如：

SIM Hard [19]：仅从与target item相同的类别中选择行为
SIM Soft [19]：通过内积计算预训练item embedding的目标-行为相关度分数，并选择相关度最高的行为
ETA：使用局部敏感哈希（LSH）和汉明距离来近似计算相关度分数[3]
SDIM：通过多轮哈希碰撞从具有相同哈希签名的行为中采样目标行为，等等。

尽管已经广泛研究，现有的两阶段终身行为建模算法仍然存在一个关键限制：GSU和ESU之间的不一致性（如图11所示）。具体而言，GSU使用的目标-行为相关度量既粗略又与ESU中的TA不一致。因此，GSU可能会错过相关的行为，但会检索被ESU认为不相关的行为，浪费ESU宝贵的计算资源。在这种情况下，ESU中的TA，无论如何分配注意力，都会偏离真实的用户兴趣，从而降低整体CTR预测精度。

为了解决这种不一致性，我们提出了TWIN：TWo-stage Interest Network，用于终身用户行为建模，其中Consistency-Preserved GSU（CP-GSU）采用与ESU中TA相同的目标-行为相关度量，使两个阶段成为孪生。为了将昂贵的TA扩展到CP-GSU中，TWIN通过有效的行为特征分割、简化的TA架构和高度优化的在线基础设施打破了TA的关键计算瓶颈，即所有行为的线性投影。具体而言，对于行为的视频固有特征（例如视频ID、作者、持续时间、主题），这些特征在用户/行为序列之间共享，我们通过高效的预计算和缓存策略加速它们的投影。对于行为的用户-视频交叉特征（例如用户的点击时间戳、播放时间、评分），其中缓存不适用，我们通过将它们的投影压缩为偏置项来简化TA架构。通过优化在线基础设施，我们成功将TA的适用序列长度从ESU中的$10^2$扩展到CP-GSU中的$10^4 ~ 10^5$。两个阶段之间的一致性，加上CP-GSU中有效的基于TA的相关度量，为CTR预测的显著性能提升做出了贡献。

主要贡献：

在我们提出的TWIN中，CP-GSU精确而一致地检索不仅与目标相关，而且ESU认为重要的行为，最大化行为建模的检索效果。据我们所知，我们是第一个成功解决两阶段终身行为建模问题不一致性的团队。
我们通过在快手的460亿规模的工业数据集上进行大量离线实验和在线A/B测试来验证TWIN的有效性。我们通过消融研究验证了我们的有效性，并展示了TWIN带来的显著在线收益。
我们构建了高效的工业基础设施，将TWIN应用于实际在线RS。我们提出了有效的预计算和缓存策略，将TWIN的计算瓶颈，即CP-GSU中行为的线性投影，降低了99.3％，并满足了在线服务系统的低延迟要求。TWIN现已部署在快手的RS上，每天为3.46亿活跃用户的主要流量提供服务。

2.相关工作

我们的工作与两个活跃的研究领域密切相关：CTR预测和长期用户行为建模。

2.1 点击率预测

CTR预测旨在预测用户的个性化兴趣，对于现代RS至关重要。早期的CTR模型是浅层的，主要关注于利用特征交互，例如因子分解机（FM）[22]和场感知因子分解机（FFM）[12]。随着深度学习的成功，深度CTR模型得到广泛研究并成为主流选择。例如，陈等人[2]和张等人[33]首次将深度模型应用于CTR任务。Wide&Deep [5]结合了宽线性模型和深度模型，充分利用特征交互的记忆和深度架构的泛化优势。DeepFM [10]和DCN [26,27]改进了Wide&Deep的宽部分，以增加特征交互能力。xDeepFM [15]和AFM [29]进一步利用类卷积层和注意机制来改进深度部分并提高模型性能。

随着CTR模型变得越来越个性化，用户行为建模，即从历史行为的总结中捕捉用户的隐藏兴趣，成为一个关键模块。由于计算资源的限制，早期的算法大多采用目标无关的方式，因此可以在离线情况下高效地预计算[8,23,31]。为了更好地提取用户对特定项目的兴趣，采用了各种TA机制。DIN [36]通过历史行为上的TA表示用户兴趣，强调目标相关行为。DIEN [35]进一步使用ARGRU（经典GRU的基于注意力的变体）引入行为之间的时间关系。DSIN [9]将行为分为多个会话，并在每个会话内进行自注意力计算，以强调会话内关系。MIND [14]和DMIN [30]通过多个向量表示用户兴趣。BST [4]、SASRec [13]和BERT4Rec [24]也使用变压器来提高模型的性能和并行性。

2.2 Long-Term User Behavior Modeling

随着TA和兴趣建模在现代工业RS中的有效性得到确认，研究人员开始对越来越长的行为进行建模。Liu和Zamanian [16]将长期和短期兴趣结合在CTR预测中。MIMN [18]将用户行为存储为用户兴趣中心（UIC）的记忆矩阵，并在新的用户行为到来时更新记忆。然而，MIMN难以扩展到长度超过$10^3$的序列，并为不同的候选项生成相同的记忆矩阵，携带无用的噪声并损害TA。

最近，SIM [19]和UBR4CTR [20,21]引入了两阶段级联框架来解决这些挑战，并在CTR预测中实现了SOTA性能。传统的两阶段算法通常由以下两部分组成：

1）一个简单快速的GSU，从数千个用户行为中检索与目标项最“相关”的item
2）一个注意力ESU，对GSU的最终候选item执行TA

UBR4CTR在其第一阶段中使用BM25作为相关度量。而在原始的SIM中，有两个具有不同GSU设计的实例。SIM Hard的GSU从与目标项相同的类别中选择相关项，而SIM Soft的GSU使用预训练item embedding的内积作为相关度量。尽管两阶段设计迈出了重要一步，但原始的GSU仍面临着高计算负担，并且与ESU具有不同的检索度量，导致两个阶段之间的不一致性。

最近，ETA [3]使用局部敏感哈希（LSH）对由ESU训练的item embedding进行编码，并通过汉明距离（HD）从长期行为中检索相关项。SDIM [1]通过多轮哈希碰撞从具有相同哈希签名的行为项中采样target item，并通过线性聚合这些采样的行为项来获取用户兴趣。ETA和SDIM采用End2End训练是积极的。换句话说，它们的两个阶段共享相同的embedding。然而，在检索策略方面仍存在不一致性，具体而言是网络结构和参数。

在本文中，我们提出将TA结构扩展到GSU，并将embedding和attention参数从ESU同步到GSU，保持端到端训练。结果，在网络结构和模型参数方面实现了一致性，相比于ETA和SDIM，获得了显著的性能提升。我们在表1中详细说明了我们的模型与其他模型的差异。请注意，我们的工作与旨在加速变压器（例如LISA [28]）的索引算法不同。它们通过将行为映射到码本并查找距离来近似相关度量计算。而我们的工作以及许多其他两阶段算法使用精确的距离计算，但使用GSU作为预过滤器来减少行为数量。

3 TWIN在快手CTR预测中的应用

首先，在第3.1节中，我们回顾了CTR预测问题的一般基础知识。然后，在第3.2节中，我们描述了快手CTR预测系统的模型架构。接着，在第3.3节中，我们进一步深入探讨了我们提出的保持一致性的终身用户行为建模模块——两阶段兴趣网络（TWIN）。最后，在第3.4节中，我们介绍了必要的加速策略，以确保TWIN成功部署在快手的主流量上。

所使用的符号总结在表2中。

3.1 基础知识

CTR预测的目的是：在给定特定上下文的情况下预测用户点击一个item的概率。准确的CTR预测不仅通过提供首选内容提升用户体验，而且通过吸引感兴趣的受众，有益于内容生产者和平台的业务效益。因此，CTR预测已成为各种工业RS的核心组成部分，特别是像快手这样的短视频推荐平台。

CTR预测通常被公式化为一个二元分类问题，目标是学习一个预测函数 $𝑓: R_d \rightarrow R$，给定：

$D=\lbrace (x_1,𝑦_1), \cdots,(x_{\mid D\mid}, 𝑦_{\mid D \mid})\rbrace$: 一个训练数据集。
$x_i \in R_d$：是第i个训练样本的特征向量（即用户、项目和上下文特征的串联）
$𝑦_i \in \lbrace 0,1 \rbrace$：是表示用户是否点击（1）该项或未点击（0）的label

预测的CTR计算公式如下：

\[𝑦ˆi =\sigma(𝑓(x_𝑖))\]

…(1)

其中：

𝜎(·)是将𝑓的预测缩放到(0,1)的sigmoid函数

模型的训练通过最小化负对数似然来完成：

$l(D)=-\frac{1}{|D|} \sum_{𝑖=1}^{|D|} 𝑦_𝑖 log(\hat{𝑦}_𝑖)+(1−𝑦_𝑖)log(1−\hat{𝑦}_𝑖)$ … (2)

为简洁起见，当不会引起混淆时，在以下各节中省略训练样本索引𝑖。

3.2 CTR预测的架构

我们现在介绍快手CTR预测系统的架构，详细信息如图2所示。

3.2.1 embedding layer

在底部，我们的模型从一个feature embedding layer开始，它会将训练样本的原始特征转换为embedding向量。

不失一般性，我们假设所有特征在必要的预处理后都是类别型。对于具有词汇表大小为$𝑣_𝐴$的特征𝐴，我们首先将分类信息编码为一个one-hot/multi-hot编码$xA,hot \in {0,1}^{𝑣_𝐴}$。例如：

\[WeekDay=Mon => x_{WeekDay,hot} = [1, 0, 0, 0, 0, 0, 0]^T， \\ Topic={Funny, Pet} => x_{Topic, hot} = [\cdots, 0, 1, 0, \cdots, 0, 1, 0...]^T\]

请注意，在大多数工业系统中，词汇表大小（特别是用户/作者/视频ID的大小）可以轻松扩展到数亿。因此，一种常见的策略是将极高维度的one-hot编码转换为低维度的嵌入向量，

$x_{A,emb} = 𝐸_𝐴 x_{A,hot}$ …(3)

其中：

$𝐸_𝐴 \in R^{𝑑𝐴 \times 𝑣_𝐴}$是特征𝐴的embedding字典
$𝑑_𝐴$是embedding维度

在我们的系统中:

对于具有大词汇表的id特征，我们将embedding维度设置为64，
对于其他特征，如视频主题、视频播放时间戳，我们将embedding维度设置为8。

在所有上层中，我们将embedding向量作为输入，因此为简洁起见省略了“emb”下标。

3.2.2 深度网络

我们的CTR预测的总体架构如图2所示。

图2

上层模块由堆叠的神经网络和ReLU组成，作为一个混合器，学习三个中间模块的输出之间的交互作用：

TWIN，提出的保持一致性的终身用户行为建模模块，通过两个级联的行为建模子模块提取用户兴趣：1）保持一致性的一般搜索单元（CP-GSU），从成千上万的长期历史行为中进行粗略搜索，找到100个最相关的行为；2）精确搜索单元（ESU），对CP-GSU的100个最终选手采用注意机制，捕捉精确的用户兴趣。与通常由“轻量级”GSU和“重量级”ESU组成的传统算法不同，我们提出的CP-GSU采用与ESU相同的相关性评估指标，使得这两个级联阶段成为TWIN。因此，CP-GSU始终检索ESU认为重要的项目，最大化了行为建模的效果。
短期行为建模（Short-term behavior modeling）：从最近的50个行为中提取用户兴趣。该模块关注用户对最近几天的短期兴趣，是TWIN的强有力补充。
其他任务建模。除了行为建模，我们还将各种其他任务建模的输出连接起来，包括用户的性别、年龄、职业、位置，视频的持续时间、主题、受欢迎程度、质量，以及播放日期、时间戳、页面位置等上下文特征。

3.3 TWIN: 两阶段兴趣网络

我们将提出的算法命名为TWIN，以突出CP-GSU遵循与ESU相同的相关性评估指标。请注意，这种一致性并不是微不足道的，因为：

有效的行为建模算法通常基于多头目标注意力（MHTA）[25]，通过强调目标相关行为来精确捕捉用户兴趣。不幸的是，由于计算复杂度高，MHTA适用的行为序列长度大多限制在几百个之内。
为了全面捕捉用户的长期兴趣，CP-GSU应该涵盖最近几个月的用户行为，这可能很容易达到数万个。考虑到在线系统的严格低延迟要求，这个序列长度远远超出了传统MHTA的能力范围。

本节的目的是回答这个关键问题：如何提高MHTA的效率，以便将其从ESU扩展到CP-GSU，或者说从数百个序列长度扩展到至少数万个序列长度？

3.3.1 行为特征分割和线性投影

遵循MHTA [25]的标准符号，我们将长度为𝐿的行为序列$[𝑠_1，𝑠_2，\cdots，𝑠_𝐿]$的特征定义为矩阵𝐾，其中每一行表示一个行为的特征。在实践中，MHTA中注意力得分计算中𝐾的线性投影是阻碍其在极长的用户行为序列上应用的关键计算瓶颈。因此，我们提出以下措施以降低其复杂度。

我们首先将行为特征矩阵𝐾分成两部分：

$𝐾 ≜ [𝐾_ℎ 𝐾_𝑐] \in R^{𝐿 × (𝐻+𝐶)}$ …(4)

我们将：

$𝐾_ℎ \in R^{𝐿×𝐻}$：定义为行为items的固有特征（例如视频id、作者、主题、持续时间），它们独立于特定的用户/行为序列
$𝐾_𝑐 \in R^{𝐿×𝐶}$：定义为user-item交叉特征（例如用户点击时间戳、用户播放时间、点击页面位置、用户-视频交互）。这种分割允许高效计算以下线性投影$𝐾_ℎ 𝑊^ℎ$ $和$𝐾_𝑐 𝑊^𝑐$ 。

对于固有特征$𝐾_ℎ$，虽然维度𝐻很大（每个id特征为64），但线性投影实际上并不昂贵。特定项的固有特征在用户/行为序列之间是共享的。通过必要的缓存策略，𝐾ℎ𝑊 ℎ 可以通过查找和聚集过程高效地“计算”。在线部署的详细信息将在第3.4节介绍。对于用户-项交叉特征𝐾𝑐，缓存策略不适用，因为：1）交叉特征描述了用户和视频之间的交互细节，因此不在用户行为序列之间共享；2）每个用户最多只观看一次视频。也就是说，在投影交叉特征时没有重复计算。因此，我们通过简化线性投影权重来降低计算成本。

对于用户-项交叉特征$𝐾_𝑐$，缓存策略不适用，因为：

1）交叉特征描述了用户和视频之间的交互细节，因此不在用户行为序列之间共享；
2）每个用户最多只观看一次视频。也就是说，在投影交叉特征时没有重复计算。

因此，我们通过简化线性投影权重来降低计算成本。

给定𝐽个交叉特征，每个特征的嵌入维度为8（因为没有具有巨大词汇表大小的id特征）。我们将线性投影简化如下:

$𝐾_𝑐 𝑊^𝑐 ≜ [𝐾_{𝑐,1} w_1^c, \cdots, 𝐾_{𝑐,𝐽} w_𝐽^c]$ … (5)

其中:

$𝐾_{𝑐,𝑗} \in R^{𝐿×8}$：是𝐾𝑐的第𝑗个交叉特征的按列切片
$w_𝑗^c \in R^8$：是其线性投影权重

使用这个简化的投影，我们将每个交叉特征压缩到一个维度，即$𝐾_𝑐 𝑊^𝑐 \in R^{𝐿×𝐽} $ 。请注意，这个简化的投影等价于将$𝑊 _𝑐$ 限制为一个对角块矩阵。

3.3.2 复杂度分析

在传统的MHTA中，线性投影的时间复杂度，即从维度$𝐿×(𝐻+𝐶)$到$𝐿×{d_out}$输出维度的复杂度为𝑂(𝐿×(𝐻+𝐶)×输出维度)。

而在我们的TWIN中的MHTA中，item的固有特征$𝐾_ℎ 𝑊^ℎ$已经预先计算并以𝑂(𝐿)的效率聚合，与维度𝐻无关。而user-item交叉特征$𝐾_𝑐𝑊^𝑐$则被降低为$𝑂(𝐿×𝐶)$的低维计算。由于𝐶 ≪ 𝐻，且𝐶 ≪ 输出维度，正是这种理论上的加速，使得MHTA在CPGSU和ESU中都能一致地实现。

3.3.3 TWIN中的目标注意力

基于行为的线性投影𝐾ℎ𝑊 ℎ和𝐾𝑐𝑊 𝑐，我们现在定义了目标-行为相关度度量，该度量在CP-GSU和ESU中均匀使用。不失一般性，我们假设用户和目标项之间没有交互，并将目标项的固有特征表示为q ∈ R 𝐻。通过适当的线性投影𝑊 𝑞，计算目标项与历史行为之间的相关度分数𝜶 ∈ R 𝐿： 𝜶 = (𝐾ℎ𝑊 ℎ ) (q ⊤𝑊 𝑞 ) ⊤ √ 𝑑𝑘

(𝐾𝑐𝑊 𝑐 )𝜷, (6)

其中𝑑𝑘是查询和键的投影维度。这个相关度分数是通过查询（即目标的固有特征）和键（即行为的固有特征）之间的内积计算的。此外，由于交叉特征被压缩为1维，因此作为偏置项。我们使用𝜷 ∈ R 𝐽作为交叉特征的相对重要性的可学习参数。在CP-GSU中，这个相关度分数𝜶用于将𝐿 = 104的长期历史行为截断为100个最相关的行为。而在ESU中，我们对最终的100个候选项执行加权平均池化： Attention(q ⊤𝑊 𝑞 , 𝐾ℎ𝑊 ℎ , 𝐾𝑐𝑊 𝑐 , 𝐾𝑊 𝑣 ) = Softmax(𝜶) ⊤𝐾𝑊 𝑣 , (7) 其中𝑊 𝑣是一个投影矩阵。我们稍微滥用了符号，将𝐿 = 100。这个投影𝐾𝑊 𝑣仅在100个行为上执行，因此可以在线高效地进行。我们不需要像计算104个行为的𝜶时那样分割𝐾。为了共同关注来自不同表示子空间的信息，我们在MHTA中采用了4个头。因此，TWIN的最终输出定义为 TWIN = Concat(head1, …, head4)𝑊 𝑜 , head𝑎 = Attention(q ⊤𝑊 𝑞 𝑎 , 𝐾ℎ𝑊 ℎ 𝑎 , 𝐾𝑐𝑊 𝑐 𝑎 , 𝐾𝑊 𝑣 𝑎 ), 𝑎 ∈ {1, …, 4}, (8) 𝑊 𝑜是一个投影，学习头之间的相对重要性。

略

https://arxiv.org/pdf/2302.02352.pdf

d0evi1的博客

d0evi1's blog

摘要

1.引言

2.矩阵分解模型

2.1 训练

2.2 First Objective (Eq. 1)详述

2.3 关于第二个目标

3.针对余弦相似性的补救措施和替代方法

摘要

1.引言

3.模型结构

3.1 AdaTT-sp

3.1.1 融合单元(fusion unit)

3.1.2 简化

3.2 常规版本的AdaTT

4.实验

一、摘要

一、介绍

三、问题公式化

4.方法

4.1 架构总览

4.2 Scenario Feature Encoder

4.3 Scenario-Adaptive Interacting Layer

介绍

Cross-attention应用

Cross-attention vs Self-attention

Cross-attention算法

Cross-attention可选方式

Cross-attention实现

流行结构中的cross-attention

Transformer Decoder中的cross-attention

Stable Diffusion中的cross-attenion

Perceiver IO中的Cross-Attention

SelfDoc中的Cross-Attention

摘要

1.介绍

2.相关工作

2.1 点击率预测

2.2 Long-Term User Behavior Modeling

3 TWIN在快手CTR预测中的应用

3.1 基础知识

3.2 CTR预测的架构

3.2.1 embedding layer

3.2.2 深度网络

3.3 TWIN: 两阶段兴趣网络

3.3.1 行为特征分割和线性投影

3.3.2 复杂度分析

3.3.3 TWIN中的目标注意力