Benchmark Platform

LLM Needle 测试评分台

评估大语言模型的长上下文检索能力。通过生成复杂的测试数据，验证其对细节的感知和序列提取的准确性。

生成测试 Prompt

选择难度，复制下方提示词发送给大模型获取解答。

支持粘贴完整的 JSON 或包含代码块的模型回复。