Slopo：使用嵌入模型检测非精确代码重复

Slopo 使用嵌入模型识别非精确代码重复

Slopo 是一个轻量级的 CLI 工具，旨在检测并非精确复制粘贴的代码重复。通过利用嵌入模型，它能够识别在代码库中相似编写但可能相距甚远、跨不同模块或在大型文件中分散的代码片段。这种方法针对的是“最难检测”的重复——语义相似但并非完全相同的代码，这类重复往往对可维护性危害最大。

Slopo 与传统的重复检测不同，它为每个代码单元计算一个嵌入向量。随后识别出嵌入在数学上相近（使用余弦相似度）的代码单元对，并将其标记为潜在重复。

相似的代码单元会通过两遍过滤过程以降低噪声：

相似度阈值：工具首先过滤掉嵌入相似度未达到最低余弦相似度（范围 -1 到 1）的配对。
重新排序与加权：相似配对被分组成簇，然后对这些簇重新排序。根据代码库中的距离会应用“加权”：
- 跨文件：根据到达另一个文件所需的目录跳数加权（最高 15%）。
- 同文件：根据行数距离加权（最高 10%）。

该排序系统确保位于代码库中相距较远的相似代码被优先处理，因为这些是对人类开发者最不明显的重复。

虽然 Slopo 侧重于非精确重复，但它同样会检测到精确复制。为保持报告简洁，完全相同的代码只会显示一次，并附带出现该代码的所有路径列表，而不是多次重复相同片段。

Slopo 支持多种流行编程语言，包括：

嵌入通过兼容 LiteLLM 的外部提供商生成。为获得最佳效果，作者推荐专门用于代码的模型，例如 Voyage AI 的模型。工具允许灵活配置嵌入维度和批量大小，以优化性能。

Slopo 设计为可作为更大重构工作流的一部分使用，常与 AI 编码代理配合使用。

用户可以通过以下参数调节工具的灵敏度：

similarity_threshold：调整第一遍过滤的最低余弦相似度。
rerank_threshold：在应用代码库距离加权后调整的最低相似度。
body_node_count_threshold：设置代码单元主体中 AST 节点的最小数量。此阈值确保仅分析一定复杂度的代码单元，防止报告被琐碎、小片段淹没。

开发者的讨论表明 Slopo 方法有多种高价值的应用场景：

"我创建 Slopo 是为了解决一个特定问题：寻找其他工具、编码 AI 代理和人类最难检测的相似代码……有时检测到的大多数重复是误报，但剩下的往往是值得重构甚至是 bug 的强候选。"

— rkochanowski，Slopo 创作者