优化 LLM 性能的难点

优化路径

LLM 的优化路径

一般的演化方向

拿考试举例子，Fine-tuning 是闭卷考，你需要记住所有知识才能参加考试；RAG 是开卷考，你带着各种参考资料进考场。

先用简单的提示词工程尝试解决问题，找到评估基准，判断性能瓶颈是上下文还是模型的行为模式。

当确定基准后，可以在 prompt 里添加 few-shot 示例，看是否可以带来性能提升。

先根据问题找到相关的上下文，再要求 LLM 回答。

RAG 实质上给 LLM 引入了一个新的环节：检索，这也可能成为一个瓶颈。检索结果的质量很重要，如果一些无关、或者低质量的上下文被检索到，LLM 会给出和幻觉无差别的低质量回答。

这里介绍了 Ragas 用来评测 RAG 的表现，评测分为两大类四个维度

生成，LLM 回答的质量。
- Faithfulness，生成回答的真实准确性。
- Answer relevancy，生成回答和问题的相关性。
检索，被检索文本和问题的相关性。
- Context precision，被检索内容的信噪比。
- Context recall，能否检索出所有和问题相关的内容。

继续在更小、特定领域的数据集上训练，优化特定任务的表现和效率。

提高模型在特定任务上的表现。
- 不需要用 prompt 来规范模型的表现；和 few-shot learning 相比，你可以让模型充分学习相关的数据。
提高模型的效率。
- 节省更多的上下文窗口，LLM 处理更快也更节省 token。
- 可以让小模型在特定任务上达到更多参数模型的表现，而小模型的费用和延时更优。

Canva 使用 fine-tuning 来规范 LLM 的输出格式。

一个博客作者使用 Slack 聊天记录来 fine-tuning LLM，期望 LLM 学会他的语气，但 LLM 实际上学会了他消极怠工的态度，因此高质量的 fine-tuning 数据很重要。

准备数据：收集、验证、格式化数据。
训练：选择超参数、损失函数，注意 LLM 的损失函数是 next token prediction 任务的代理，但这和 LLM 负责的下游任务不一定有相关性，比如在代码生成中，你有很多方式来解决一个代码问题，而不需要生成的代码和标准答案完全匹配。
评估：人工评估、LLM 评估。
推理