Benchmark Platform
LLM Needle 测试评分台
评估大语言模型的长上下文检索能力。通过生成复杂的测试数据,验证其对细节的感知和序列提取的准确性。
1
生成测试 Prompt
选择难度,复制下方提示词发送给大模型获取解答。
2
粘贴回答并评分
支持粘贴完整的 JSON 或包含代码块的模型回复。
评估大语言模型的长上下文检索能力。通过生成复杂的测试数据,验证其对细节的感知和序列提取的准确性。
选择难度,复制下方提示词发送给大模型获取解答。
支持粘贴完整的 JSON 或包含代码块的模型回复。