文本比较示例

OpenAI API 的嵌入终结点可用于衡量文本片段之间的相关性或相似性。本文介绍了如何使用嵌入进行语义搜索、问答、建议和自定义嵌入等操作，以及如何将嵌入作为更大系统中的一个功能使用。

正文

OpenAI API 嵌入终结点可用于衡量文本片段之间的相关性或相似性。

通过利用 GPT-3 对文本的理解，这些嵌入在无监督学习和迁移学习设置中的基准测试上取得了最先进的结果。

嵌入可用于语义搜索、建议、聚类分析、近似重复检测等。

有关更多信息，请阅读OpenAI的博客文章公告：

嵌入可以单独用于搜索，也可以作为更大系统中的一个功能使用。

使用嵌入进行搜索的最简单方法如下：

搜索之前（预计算）：
- 将文本语料库拆分为小于令牌限制的块（8，191 个令牌text-embedding-ada-002)
- 嵌入每个文本块
- 将这些嵌入存储在您自己的数据库或矢量搜索提供程序（如Pinecone或Weaviate）中
在搜索（实时计算）时：
- 嵌入搜索查询
- 查找数据库中最近的嵌入
- 返回顶部结果

在更高级的搜索系统中，嵌入的余弦相似性可以用作排名搜索结果中众多特征中的一个。

从 GPT-3 获得可靠诚实答案的最佳方法是为其提供可以找到正确答案的源文档。使用上面的语义搜索过程，您可以廉价地搜索文档语料库以获取相关信息，然后通过提示将该信息提供给 GPT-3 以回答问题。我们在 openAI｜使用嵌入进行问答中演示。

建议与搜索非常相似，不同之处在于输入不是自由格式的文本查询，而是集合中的项。

openAI｜使用嵌入的建议中显示了如何使用嵌入进行推荐的示例。

与搜索类似，这些余弦相似性分数既可以单独用于对项目进行排名，也可以作为较大排名算法中的特征使用。

尽管 OpenAI 的嵌入模型权重无法微调，但您仍然可以使用训练数据为您的应用程序自定义嵌入。

我们提供了一种使用训练数据自定义嵌入的示例方法。该方法的想法是训练一个自定义矩阵以将嵌入向量乘以以获得新的自定义嵌入。借助良好的训练数据，此自定义矩阵将有助于强调与训练标签相关的功能。您可以等效地将矩阵乘法视为（a）嵌入的修改或（b）用于测量嵌入之间距离的距离函数的修改。