Benchmark Platform

LLM Needle 测试评分台

评估大语言模型的长上下文检索能力。通过生成复杂的测试数据,验证其对细节的感知和序列提取的准确性。

1

生成测试 Prompt

选择难度,复制下方提示词发送给大模型获取解答。

2

粘贴回答并评分

支持粘贴完整的 JSON 或包含代码块的模型回复。