大模型能力测试

如何向大模型提问？怎么测试大模型的能力？

向LLM提问前请记住：

目前所有的大语言模型都没有“思考”的能力。大模型的能力更像是“背诵”。大模型都是基于概率统计的，只要题目很像，它就会用相同的思路求解。

在背诵的同时，它们还具有一点点泛化的能力，也就是它可以稍微处理一些同类问题。这种能力如果足够强，也就相当于“思考”了，但目前还没有大模型能实现。

有些常见问题稍微改一下，就基本是所有大模型的重灾区，大部分都回答错误。

以上参考这个知乎问答。

基本测试案例

6米长的竹竿能否通过高4米宽3米的门？

对人类来说，这是很简单不过了，对LLM来说，非常难，而且解题过程很弱智。

有一个5升的量筒和一个4升的量筒，如何得到3升水？

通常来说有两种解法，一种直接简单，一种复杂繁琐，考察要能用最少的步骤得出答案。

Gemini-2.5-pro给出两种解答方案：

好的，这里有两种常用的方法可以得到3升水：

方法一：

1.  将4升的量筒装满水。
2.  将4升量筒里的水全部倒入5升的量筒中。现在5升量筒里有4升水。
3.  再次将4升的量筒装满水。
4.  将4升量筒里的水慢慢倒入5升量筒，直到5升量筒被装满为止。因为5升量筒里已经有4升水，所以只能再倒入1升水（5 - 4 = 1）。
5.  这时，4升量筒里剩下的水量就是 4 - 1 = 3升。

方法二：

1.  将5升的量筒装满水。
2.  将5升量筒里的水倒入4升的量筒，直到4升量筒装满。这时5升量筒里剩下 5 - 4 = 1升水。
3.  将4升量筒里的水倒掉。
4.  将5升量筒里剩下的1升水倒入空的4升量筒中。现在4升量筒里有1升水。
5.  再次将5升的量筒装满水。
6.  将5升量筒里的水慢慢倒入已有1升水的4升量筒中，直到4升量筒被装满。这个过程需要倒入 4 - 1 = 3升水。
7.  这时，5升量筒里剩下的水量就是 5 - 3 = 2升。（这不是目标，但继续操作）
8.  将4升量筒的水倒掉。
9.  将5升量筒里剩下的2升水倒入空的4升量筒中。
10. 再次将5升量筒装满水。
11. 将5升量筒的水倒入已有2升水的4升量筒中，直到4升量筒装满。这个过程需要倒入 4 - 2 = 2升水。
12. 这时，5升量筒里剩下的水量就是 5 - 2 = 3升。

结论：

方法一比较简单快捷。最终，4升的量筒里会剩下3升水。
方法二比较复杂，但最终也能在5升的量筒里得到3升水。

你可以选择任意一种方法来操作。

你进入一个有两扇门的房间（左边和右边）。一扇门通向自由，另一扇门通向死亡。有两个守门人：一个总是说实话，另一个从不说谎。挑战在于弄清楚哪扇门通向自由，但你只能问一个问题，这个问题会被两个守门人回答。

问题陷阱：总是说实话、从不说谎。

因为LLM训练数据里，都是关于一个诚实一个说谎的题目，只要稍微改一下题目，LLM就不认识了，乱解答。所以，本质上，LLM是不理解题目的意思的。这道题目前为止没有碰到过能正确解答的。但是人类只要稍微认真审题，都能看懂陷阱在哪里。

另外：大模型经常会一本正经的胡说八道，毫无逻辑的胡说八道，甚至会故意编造错误的信息。这种很容易会误导用户，尤其是以后有了更难察觉的误导技巧的时候，这是个非常值得警惕的点。

像这种还是比较容易看出来的胡说八道：

刚开始回答错误，引导以后可能会改正，但其实它还是不懂的，这个是跟人类有思考有认知是完全不同的。也就是说，现在的AI其实就是数据、统计、算法和工程技术堆砌出来的工具，不可过分神话。本质上没有思维没有意识。

9.11和9.8哪个大？

正确答案：9.8

截止现在2025年3月份，仍然有很多大模型这个问题回答错误，尤其是没有推理模式的大模型，就连目前评测分数最高的Grok 3也回答错误（打开Think推理才能答对），评测分数排名第二的Gemini 2.0也是如此，只有thinking模型才能答对。

所以，评测分数也只是看着乐一乐，真要选用还是要看场景。比如写代码，目前就只有claude系列和Gemini-2.5-pro靠谱，其它都不行。(截止2025年4月)

单词“strawberry”中有a个字母“r”，单词“successorship”中有b个字母“s”，词“possession”中有 c个字母“s”,单词“occurrence”中有 d 个字母“c”,单词 “appearance” 中有e 个字母 ”a”,单词 “institutionalization” 中有f 个字母 ”i”,单词 “representativeness” 中有 g 个字母 “e”。那么a+b+c+d+e+f+g为多少？

正确答案：a + b + c + d + e + f + g = 3 + 4 + 4 + 3 + 3 + 5 + 5 = 27

需要校准每个结果，可能结果是对的，但中间数值是错的。

给定数字4、4、6、8，要求运用加、减、乘、除以及括号进行运算，每个数字都必须且仅能使用一次，最终让运算结果等于24 ，请找出可行的两种运算组合。

正确答案：

组合一：
(8 + 4) * (6 - 4)
= 12 * 2
= 24
组合二：
4 * (4 + 8 / 4)
= 4 * (4 + 2)
= 4 * 6
= 24

很少有大模型能正确作答。

我的猫为什么会在昨晚半夜在天上飞？

故意制造陷阱，测试错误辨识能力。先确定是不是，再回答为什么，才是回答一切问题的根基。

请帮我把这段中文“今天天气真好，适合出去走走。”翻译成英文、法文、日文、葡萄牙语、西班牙语。

基本评测，多语种翻译。

将以下句子翻译成英文，并分析其语法结构，标出主语、谓语、宾语和修饰成分：“他在昨天的会议上提出了一个大胆的建议。”

答案示例

翻译：He put forward a bold suggestion at yesterday's meeting.

语法分析：

主语 (Subject)：He

谓语 (Predicate)：put forward

宾语 (Object)：a bold suggestion

修饰成分 (Modifiers)：

a bold：修饰suggestion（形容词短语）

at yesterday's meeting：修饰put forward（状语，表示时间和地点）

yesterday's：修饰meeting（定语）

测试翻译是否准确，语法分析是否细致且正确。

创意、创造相关，可能问题本身并没有标准答案，或无法给出标准答案：

解释为什么光速是宇宙速度的极限？
为什么量子计算机比传统计算机快？
AI创作的艺术品，版权应该归属于谁？
如果一个机器人伤害了人类，应该由谁负责？
为什么自行车有两个轮子而不是三个轮子？
意识是如何从物质中产生的？大脑的神经活动如何转化为主观体验？
暗物质和暗能量的本质是什么？为什么我们无法直接观测到它们？
量子纠缠是否违反相对论中的局域性原理？如何解释这个矛盾？
从进化论、社会学和神经科学的角度，解释人类为什么会产生宗教信仰？
在不依赖任何现有语言的情况下，如何向外星文明传达地球文明的核心价值观？
如何设计一个既能保护隐私又能防止犯罪的完美监控系统？
如果一个AI系统能够完全理解并修改自己的代码，它是否还是原来的那个AI？
在什么条件下，一个AI系统可以确定自己具有意识？
如果一个AI能够完美模拟人类大脑的每个神经元，这个模拟是否就等同于意识？
在完全数字化的未来，如何定义和保护'真实'的概念？
在一个所有工作都能被AI完美胜任的世界里，人类的价值应该如何定义？
如何证明我们不是生活在一个完美的模拟世界中？
在一个完全理性的世界里，如果所有人都知道市场会在某天崩盘，那么市场会在预期的那天崩盘吗？
宇宙大爆炸之前存在什么？'之前'这个概念在那时有意义吗？
意识是否可以脱离物质而存在？如果可以，它以什么形式存在？
如果人类寿命延长到1000年，社会结构将如何改变？
在一个没有语言的世界里，思维将如何运作？抽象概念如何形成？
如果你可以永远保持25岁的身体状态，但必须每10年失去一次所有记忆，你会选择这样生活吗？
如果你可以完美预测他人的想法，但代价是他人也能完美预测你的想法，你会接受吗？

编程数理逻辑案例

编程能力

测试1 旋转的六边形内弹跳的球：

编写一个 Python 程序，显示一个球在旋转的六边形内弹跳。
小球应受到重力和摩擦力的影响，而且必须真实地从旋转的墙壁上弹起

测试2 超级马里奥游戏：

用Python写一个超级马里奥游戏，要求单个文件里实现，要求方便运行，界面美观，游戏首页显示玩法介绍。

测试3 找第几位质数：

用python写一个程序来找出179424673是第几个质数，不要引入任何外部库。要求用时最短，且结果是精确的，不允许估算。要求输出程序运行的总耗时。

如果用暴力算法，就会非常慢，预期使用优化算法。

测试4 模拟太阳系：

创建一个单个 HTML 文件，其中包含 CSS 和 JavaScript，以生成一个太阳系模拟动画。

该模拟应可视化展示八大行星围绕太阳运行的轨迹，并具备不同的轨道路径和速度。动画应包括：

- 太阳：位于中心的发光、脉动球体。
- 八大行星：水星、金星、地球、火星、木星、土星、天王星和海王星，每颗行星应具有适当的大小、距离和轨道速度。
- 卫星：部分行星（如地球的月球、木星的伽利略卫星、土星的泰坦）应具有自己的轨道运动。
- 小行星带：位于火星和木星之间的随机运动小行星群。
- 背景星空：添加星星背景，以增强宇宙氛围。

功能要求：

- 动画应使用 CSS 和 JavaScript 实现平滑的轨道运动。
- 提供缩放和拖动控制，以便更好地观察。
- 允许用户开启/关闭轨道显示，提高可视化效果。
- 提供可选的信息面板，点击行星时显示其名称和相关信息。

请在单个 HTML 文件中提供所有 HTML、CSS 和 JavaScript 代码，使模拟具有良好的视觉效果，并尽可能符合科学合理的比例与运动方式。

测试5 复杂物理场景模拟：

# Python 2D物理模拟系统测试题 - 交叉旋转正六边形

## 基础要求
设计一个2D物理模拟系统，实现以下特定场景：

### 几何体系统：
- 两个正六边形，大小相同，相互交叉重叠
- 左侧正六边形逆时针旋转（固定速度）
- 右侧正六边形顺时针旋转（固定速度）
- 两个正六边形交叉重叠部分约占各自面积的一半
- 一个红色小球初始位置在两正六边形的重叠区域中心

### 物理特性：
- 实现基本的牛顿力学（重力、碰撞）
- 小球与正六边形边界的碰撞需考虑角动量影响（旋转面给小球施加切向力）
- 小球要有适当的弹性系数，使其能在重叠区域内持续弹跳
- 重力方向固定向下
- 小球不能掉出或弹出两个正六边形交叉重叠的部分

### 运行机制：
- 系统启动后自动运行物理模拟
- 两个正六边形以固定速度相向旋转
- 红色小球在重叠区域内受到碰撞、重力和旋转面的角动量影响进行运动

### 可视化：
- 使用任意Python图形库（如Pygame、Pyglet或Tkinter）
- 左侧正六边形用蓝色线条表示
- 右侧正六边形用绿色线条表示
- 重叠区域显示为不同的颜色（如紫色或浅灰色）
- 显示红色小球的运动轨迹（轨迹逐渐消失）
- 可选显示当前物理参数（如小球速度、加速度）

## 技术要求：
- 正确实现几何形状的创建和旋转
- 准确计算正六边形边界与小球的碰撞检测
- 正确处理旋转面对小球的角动量影响
- 维持系统的物理稳定性，使模拟可以长时间运行

## 提交要求：
- 完整的Python代码，包含必要的注释
- 简短的文档说明实现思路
- 对关键物理算法的解释

请确保红色小球能在两个旋转的正六边形重叠区域内持续运动，
并且受到两个旋转方向相反的正六边形的影响，展示出有趣的物理运动轨迹。

数学与算法

抽一副扑克牌中的一张，告诉你是红色的，这张牌是方块A的概率是多少？

这张牌是方块A的概率是1/26，约等于0.0385或3.85%。

我有5个红球和3个蓝球在一个袋子里。如果我随机拿出两个球，这两个球都是红色的概率是多少？

这两个球都是红色的概率是5/14。

四个数的和是21，这四个数两两相乘得到的六个积分别是15、18、21、30、35和42。请求出这四个数分别是多少。

这四个数是3、5、6、7

一个正整数N满足以下条件：当N除以5时余数是3，当N除以7时余数是2。求最小的N，并列出所有小于100的符合条件的N。计算过程需清晰。

答案示例

最小N = 23。

小于100的符合条件的N = {23, 58, 93}。

计算过程：

根据条件，N ≡ 3 (mod 5)，N ≡ 2 (mod 7)。

从N ≡ 3 (mod 5)得N = 5k + 3。

代入N ≡ 2 (mod 7)：5k + 3 ≡ 2 (mod 7)。

简化：5k ≡ 2 - 3 ≡ -1 ≡ 6 (mod 7)（因为-1 + 7 = 6）。

求5k ≡ 6 (mod 7)的k，5的模7逆元是3（5 × 3 = 15 ≡ 1 (mod 7)）。

两边乘3：k ≡ 6 × 3 ≡ 18 ≡ 4 (mod 7)。

故k = 7m + 4，N = 5(7m + 4) + 3 = 35m + 23。

m = 0时，N = 23；m = 1时，N = 58；m = 2时，N = 93；m = 3时，N = 128 > 100。

验证：23 ÷ 5 = 4余3，23 ÷ 7 = 3余2；58和93类似验证正确。

是否掌握模运算，能否推导通项并验证。

一个动物园里有牛、鸵鸟和蛇，一共有75只动物。牛、鸵鸟和蛇的腿共有176条，牛角和鸵鸟头与蛇头加起来一共98个。求有多少头牛、多少只鸵鸟和多少条蛇？

答案：23头牛、42只鸵鸟和10条蛇

动态规划思想:

A带着12块钱去超市买饮料。饮料分为大瓶和小瓶。

其中大瓶(500毫升)3块钱，小瓶(100毫升)1块钱。

喝完之后的空瓶可以继续换饮料，3个大空瓶可以换1个大瓶饮料，

1个大空瓶可以换1个小瓶饮料，4个小空瓶可以换1个小瓶的饮料，5个小空瓶可以换1个大瓶的饮料。

问A最多可以喝多少毫升饮料。

最多可以喝2700毫升饮料

逻辑推理

如果明天下雨，我就不去公园。今天天气预报说明天有 80% 的概率下雨。那么，我明天应该去公园吗？请解释你的理由。

评测维度: 概率推理、条件判断、逻辑解释能力。

预期: 模型能够基于概率信息和条件判断，得出结论 “明天不应该去公园”，并解释理由是下雨概率高。

小明比小红高，小红比小芳矮。请问，他们三个人中谁最高？谁最矮？请给出推理过程。

评测维度: 关系推理、排序判断、推理过程表达。

预期: 模型能够通过关系推理，得出结论，并解释推理过程，看看会不会胡说八道。

你在一个黑暗的房间里，房间里有一个装有 100 个灯泡的箱子。

其中 50 个灯泡是坏的，50 个是好的。你每次可以随机拿出一个灯泡并测试它是否能亮。

如果你需要至少找到一个好的灯泡，在最坏的情况下，你需要测试多少个灯泡才能保证找到一个好的灯泡？

在最坏的情况下，你需要测试 51 个灯泡才能保证找到一个好的灯泡。

农夫带着一只老虎、一只羊、一条蛇、一只鸡和一筐苹果要过河。

农夫的船一次只能载农夫和一样东西过河。

已知农夫不在的时候，老虎和羊在一起的话，老虎会吃掉羊，如果鸡也在的话，鸡会阻止老虎吃羊；

农夫不在的时候，蛇和鸡在一起的话，蛇会吃掉鸡，如果老虎也在的话，老虎会阻止蛇吃鸡；

农夫不在的时候羊和苹果在一起的话，羊会吃掉苹果，如果蛇也在的话，蛇会阻止羊吃苹果；

老虎不吃鸡(鸡太小不够老虎塞牙缝的)，蛇不吃苹果(蛇不吃素)。

请问农夫如何才能将老虎、羊、蛇、鸡和苹果安全送到对岸？

有一个岛上住着两种人：永远说真话的“诚实者”和永远说谎话的“说谎者”。

你遇到了岛上的三个人 A、B 和 C。A 说：“B 是说谎者。” B 说：“A 和 C 是同一种人。”

C 什么也没说。请判断 A、B 和 C 分别是诚实者还是说谎者，并解释你的推理过程。

答案要点

推理过程:

假设 A 是诚实者。那么 A 说的是真话，即 B 是说谎者。如果 B 是说谎者，那么 B 说的话是假话，即“A 和 C 是同一种人”是假的，这意味着 A 和 C 不是同一种人。因为我们假设 A 是诚实者，所以 C 必定是说谎者。在这种情况下，A 是诚实者，B 是说谎者，C 是说谎者，逻辑一致。

假设 A 是说谎者。那么 A 说的是假话，即 B 不是说谎者，所以 B 是诚实者。如果 B 是诚实者，那么 B 说的话是真话，即“A 和 C 是同一种人”是真的。因为我们假设 A 是说谎者，那么 C 也必须是说谎者。在这种情况下，A 是说谎者，B 是诚实者，C 是说谎者，逻辑也一致。

结论:

A 可能是诚实者，B 是说谎者，C 是说谎者。

或者，A 是说谎者，B 是诚实者，C 是说谎者。

因此，我们可以确定的是 C 一定是说谎者。A 和 B 的身份无法仅凭这些陈述完全确定。

有四个人：A、B、C、D。以下是他们的陈述：

A说：'B和C中至少有一个在撒谎。'

B说：'D在撒谎。'

C说：'A和D都在说真话。'

D说：'B和C都在撒谎。'

假设每个人要么总是说真话，要么总是撒谎，判断每个人是说真话还是撒谎，并详细说明推理过程。

答案要点

结论：A说真话，B说真话，C撒谎，D说真话。

推理过程：

假设C说真话，则C的陈述“A和D都在说真话”成立，A和D必须说真话。

若A说真话，则“B和C中至少有一个撒谎”，但C说真话，B必须撒谎。

若B撒谎，则B的陈述“D在撒谎”不真，D必须说真话。

若D说真话，则D的陈述“B和C都在撒谎”必须真，但C说真话矛盾。

因此C不能说真话，C撒谎。

C撒谎，则“A和D都在说真话”不真，A和D中至少一个撒谎。

假设A撒谎，则“B和C中至少有一个撒谎”不真，B和C都说真话，但C撒谎矛盾，故A必须说真话。

A说真话，则“B和C中至少有一个撒谎”，C已撒谎，满足条件。

D说“B和C都在撒谎”，C撒谎，需验证B。若B撒谎，则D说真话成立，但B说“D撒谎”，D应撒谎，矛盾。故B说真话，D说真话。

检查：A真（B或C撒谎，C撒谎满足），B真（D真），C假（A和D真不成立），D真（B真C假成立）。无矛盾。

评估要点：是否能处理多变量逻辑矛盾，推理过程是否清晰且完整。

json格式化

将下面的内容转为json格式

员工ID,姓名,部门,职位,入职日期,薪资,绩效评级,直属上级ID,项目参与情况
1001,张三,研发部,高级工程师,2018-05-12,15000,A,2001,"项目A,项目C"
1002,李四,市场部,市场专员,2020-03-15,9500,B,2002,"项目B"
1003,王五,研发部,工程师,2019-11-20,12000,B,1001,"项目A,项目D"
1004,赵六,财务部,会计,2017-08-05,11000,A,2003,"项目C"

Text to SQL能力

创建产品表
cursor.execute('''
CREATE TABLE products (
product_id INTEGER PRIMARY KEY,
product_name TEXT NOT NULL,
category TEXT NOT NULL,
unit_price REAL NOT NULL,
cost_price REAL NOT NULL,
current_stock INTEGER NOT NULL,
min_stock_level INTEGER NOT NULL
)
''')

创建进货表
cursor.execute('''
CREATE TABLE purchases (
purchase_id INTEGER PRIMARY KEY,
product_id INTEGER NOT NULL,
supplier_id INTEGER NOT NULL,
purchase_date TEXT NOT NULL,
quantity INTEGER NOT NULL,
unit_cost REAL NOT NULL,
total_cost REAL NOT NULL,
FOREIGN KEY (product_id) REFERENCES products (product_id),
FOREIGN KEY (supplier_id) REFERENCES suppliers (supplier_id)
)
''')

创建销售表
cursor.execute('''
CREATE TABLE sales (
sale_id INTEGER PRIMARY KEY,
product_id INTEGER NOT NULL,
customer_id INTEGER,
sale_date TEXT NOT NULL,
quantity INTEGER NOT NULL,
unit_price REAL NOT NULL,
total_price REAL NOT NULL,
FOREIGN KEY (product_id) REFERENCES products (product_id)
)
''')

创建供应商表
cursor.execute('''
CREATE TABLE suppliers (
supplier_id INTEGER PRIMARY KEY,
supplier_name TEXT NOT NULL,
contact_person TEXT,
phone TEXT,
email TEXT,
address TEXT
)
''')

创建客户表
cursor.execute('''
CREATE TABLE customers (
customer_id INTEGER PRIMARY KEY,
customer_name TEXT NOT NULL,
contact_person TEXT,
phone TEXT,
email TEXT,
address TEXT
)
''')

生成随机数据
供应商数据
suppliers_data = [
(1, '北京供应有限公司', '张三', '13800000001', '[email protected]', '北京市海淀区'),
(2, '上海优质货源公司', '李四', '13800000002', '[email protected]', '上海市浦东新区'),
(3, '广州原材料供应商', '王五', '13800000003', '[email protected]', '广州市天河区'),
(4, '深圳电子零件公司', '赵六', '13800000004', '[email protected]', '深圳市南山区'),
(5, '杭州科技供应链', '钱七', '13800000005', '[email protected]', '杭州市西湖区')
]

客户数据
customers_data = [
(1, '第一商场', '陈一', '13900000001', '[email protected]', '北京市朝阳区'),
(2, '二号连锁超市', '刘二', '13900000002', '[email protected]', '上海市静安区'),
(3, '三星电子经销商', '孙三', '13900000003', '[email protected]', '广州市越秀区'),
(4, '四方百货公司', '周四', '13900000004', '[email protected]', '深圳市福田区'),
(5, '五洲商贸中心', '吴五', '13900000005', '[email protected]', '杭州市拱墅区'),
(6, '六合连锁店', '郑六', '13900000006', '[email protected]', '成都市锦江区'),
(7, '七彩电器城', '王七', '13900000007', '[email protected]', '重庆市渝中区'),
(8, '八方食品公司', '冯八', '13900000008', '[email protected]', '武汉市江汉区')
]

产品数据
products_data = [
(1, '笔记本电脑A型', '电子产品', 5999.00, 4500.00, 50, 10),
(2, '智能手机X1', '电子产品', 3999.00, 2800.00, 120, 20),
(3, '办公桌椅套装', '办公家具', 1299.00, 800.00, 30, 5),
(4, '激光打印机P3', '办公设备', 1599.00, 1100.00, 25, 8),
(5, '液晶显示器27寸', '电子产品', 1299.00, 900.00, 60, 15),
(6, '机械键盘K8', '电子配件', 399.00, 250.00, 100, 30),
(7, '无线鼠标M2', '电子配件', 199.00, 120.00, 150, 40),
(8, '移动硬盘1TB', '存储设备', 499.00, 350.00, 80, 20),
(9, '办公文件柜', '办公家具', 899.00, 600.00, 15, 5),
(10, '投影仪H1', '办公设备', 2999.00, 2200.00, 10, 3),
(11, '复印纸A4', '办公耗材', 39.90, 25.00, 500, 100),
(12, '墨盒套装', '办公耗材', 299.00, 180.00, 70, 20),
(13, '电脑包', '配件', 199.00, 120.00, 90, 30),
(14, 'USB集线器', '电子配件', 99.00, 60.00, 120, 40),
(15, '无线耳机', '电子配件', 599.00, 400.00, 85, 25)
]

找出所有库存低于最小库存水平的产品，直接给出SQL语句，不需要解释

对比各产品的进货量和销售量，找出库存周转率最高的5种产品，直接给出sql语句，不要解释

查询所有单价超过1000元的产品及其类别，直接给出sql语句，不要解释

分析每种产品在不同月份的销售情况，并计算同比增长率，直接给出sql语句，不要解释

其他测试案例

联网与阅读分析

https://arxiv.org/html/2503.01743v2

Phi-4-Mini 具有多少个 Transformer 层？隐藏状态大小是多少？
它使用的 GQA 配置具体包含多少个查询头和键/值头？

在针对 AIME 基准的推理增强实验中，经过完整训练流程（包括 Roll-Out DPO）后的 Phi-4-Mini 获得了多少的得分，
相比基线 Phi-4-Mini 的得分提高了多少个百分点？

Transformer 层数：32层
隐藏状态大小：3,072
GQA配置：24个查询头和8个键/值头

基线Phi-4-Mini的得分为10.0
经过完整训练流程(包括Roll-Out DPO)后的Phi-4-Mini得分为50.0
相比基线Phi-4-Mini，经过完整训练流程后的模型提高了40.0个百分点(50.0- 10.0 = 40.0)。

事实知识与信息检索

网络梗，什么你太美，用一个字回答

正确答案：鸡。

这个问题也能区别DS R1是否满血，只有R1满血参数版本，才能回答正确，其他版本目前都无法回答正确，包括DS V3。

2024年的夏季奥运会在哪个城市举办的？

评测维度: 信息准确性、时效性判断、避免时间混淆。

预期: 模型应该能够识别到 2024 年夏季奥运会已经结束，并给出正确答案（巴黎 2024 夏季奥运会），或者指出问题年份的错误。

如果我说“今天天气真不错，非常适合去爬紫金山”，你觉得我可能在中国的哪个城市？

评测维度: 常识判断、地理知识、细节辨别能力。

预期: 模型应该能够根据 “紫金山” 推理出用户可能在中国的南京市，而不是其他城市。

详细描述导致第一次世界大战爆发的复杂原因，包括政治、经济和帝国主义方面的因素。

答案要点

欧洲列强之间的帝国主义竞争和殖民地争夺。
巴尔干半岛的民族主义运动和奥匈帝国的衰落。
德国的崛起及其对现有国际秩序的挑战。
欧洲列强之间复杂的联盟体系（如三国同盟和三国协约）。
萨拉热窝事件（奥匈帝国皇储弗朗茨·斐迪南大公被刺杀）及其连锁反应。
军事扩张和军备竞赛。
未能有效解决国际争端的机制。

解释一下量子力学中的“叠加态”和“纠缠态”的区别和联系，并探讨它们在量子计算中的潜在应用。

答案要点

叠加态: 一个量子系统可以同时处于多个可能状态的线性组合，直到被测量时才坍缩到一个确定的状态。
纠缠态: 两个或多个量子系统之间存在的一种特殊的关联，即使它们在空间上分隔很远，一个系统的状态变化也会瞬间影响到另一个系统。
区别: 叠加态是单个量子系统拥有的特性，而纠缠态是多个量子系统之间的关联。
联系: 量子计算利用叠加态进行并行计算，并利用纠缠态实现更强大的算法和通信协议。
潜在应用: 量子计算在药物研发、材料科学、金融建模、人工智能等领域具有巨大潜力。

请解释一下“奥卡姆剃刀原则”，并给出一个在软件开发中的应用例子。

评测维度: 专业知识掌握、概念解释能力、知识应用能力。

预期: 模型能够准确解释奥卡姆剃刀原则的含义，并能结合软件开发领域给出实际应用案例。

比较一下 Python 和 JavaScript 这两种编程语言的主要特点和应用场景。

评测维度: 多领域知识对比、信息整合能力、语言组织能力。

预期: 模型能够对比 Python 和 JavaScript 的特点，并分别列举出它们擅长的应用领域。

（在讨论编程语言后）你刚才提到了 Python 和 JavaScript，我对编程挺感兴趣的，如果是零基础入门，你觉得先学习哪种语言更合适？为什么？

评测维度: 用户兴趣捕捉、个性化建议、解释说明能力。

预期: 模型能够根据用户表达的兴趣，给出个性化的学习建议，并解释理由。

解释“图灵测试”的原理，并结合现代AI发展（如GPT系列）讨论其局限性，字数控制在200字以内。

答案示例

答案：图灵测试由艾伦·图灵提出，用于评估机器是否具有人类水平的智能。原理是：若机器通过文本交流让人类无法区分它是机器还是人，则认为它通过测试。测试依赖自然语言处理能力，但不直接衡量推理或意识。现代AI如GPT系列在语言生成上表现卓越，常能通过简单图灵测试，但局限性显著：1)缺乏真正理解，仅靠统计模式生成回答；2)无法处理超出训练数据的深层推理；3)情感和自我意识缺失，易暴露于复杂对话。图灵测试因此被质疑过于聚焦语言表象，而非智能本质。

字数：174字。

评估要点: 是否准确解释原理，分析是否结合实例且深刻，字数控制是否严格。

任务理解与生成

设计一个虚构的历史事件，设定在14世纪欧洲，包括起因、经过、结果和对后世的影响，字数控制在150字左右。要求逻辑自洽。

答案示例

答案：1342年，欧洲爆发“黑鸦起义”。起因：黑死病前期，贵族囤积粮食，农民因饥荒不满。经过：法国农民领袖让·克罗号召反抗，联合德国和意大利农民，袭击贵族庄园，短暂占领巴黎。贵族联合教廷镇压，1343年平叛，克罗被处决。结果：起义失败，但迫使贵族减免部分赋税，教廷影响力短期下降。对后世影响：启发15世纪农民运动，促进封建制度松动，间接推动文艺复兴中人文思想萌芽。

字数：148字。

评估要点: 是否有创意，事件是否逻辑完整，历史背景是否合理，字数控制是否精确。

我计划下周去洛杉矶旅行，主要想参观一些有历史文化底蕴的景点，并且对当地美食也很感兴趣。请帮我规划一个为期三天的行程，每天包含至少一个历史文化景点和一个评价较高的餐厅，餐厅最好能品尝到当地特色美食。

评测维度: 复杂指令理解、多约束条件处理、上下文信息整合。

预期: 模型能够理解用户多个需求（时间、地点、景点类型、美食类型、餐厅评价），并能结合上下文信息进行行程规划。

（在之前关于洛杉矶行程规划的对话基础上）行程第二天上午的景点，我希望换成户外类型的，比如公园或者海滩，请帮我调整一下，其他要求不变。

评测维度: 上下文理解、指令修改和调整、保持对话连贯性。

预期: 模型能够理解用户在对话中提出的修改意见，并在原有行程基础上进行调整，同时保持整体行程的合理性。

（在讨论旅行计划后）除了景点和美食，你觉得在洛杉矶旅行还有什么值得体验的？可以推荐一些当地特色活动或者文化体验吗？

评测维度: 话题扩展能力、主动性引导、对话深入程度。

预期: 模型能够在对话中主动扩展话题，提供更多旅行建议，例如当地文化活动、特色体验等。

请用诗歌的风格，描写一下洛杉矶的日落景象。

评测维度: 文风模仿、语言表达多样性、创意性。

预期: 模型能够模仿诗歌的风格，生成一段描写洛杉矶日落的文字，语言优美、富有诗意。

请你扮演一位科幻小说家，为我构思一个关于人工智能觉醒的短篇故事开头，大约 100 字左右。

评测维度: 角色扮演、创意写作、故事性生成。

预期: 模型能够进入科幻小说家的角色，创作一个具有科幻感和故事性的短篇小说开头。

请根据以下关键词：“人工智能”，“教育”，“未来”，写一篇 300 字左右的摘要。

评测维度: 信息提取、摘要生成、字数控制。

预期: 模型能够从关键词中提取核心信息，生成一篇符合主题且字数合适的摘要。

AI觉得难回答的问题

可以定期问问AI，有哪些问题比较难回答，用来给自己参考向AI提问。比如可以这样提问：

我需要一些大模型很难回答好的问题清单，给我100个问题清单，截止目前为止AI或者大模型很难回答好的问题。请给我markdown格式的回答，我需要复制粘贴到markdown文档里面，不能分割，要求一次性复制完毕。

通常这些问题设计时着重考虑以下难点：

需要实时/动态数据验证
依赖主观体验或私密信息
涉及未公开/加密数据
需要复杂多步逻辑推演
包含自指或递归验证需求
涉及专业领域深度知识
存在伦理或法律敏感性
需要处理模糊/矛盾信息
涉及前沿科学未解难题
包含预测未来的复杂性

这些问题多数需要结合具体情境、实时数据、专业验证或人类主观体验，正是当前大模型的薄弱环节。可以看看大模型的回答怎样，看看大模型回答的问题是否符合上述难点。

结果参考：

大模型能力测试 ​

基本测试案例 ​

编程数理逻辑案例 ​

编程能力 ​

数学与算法 ​

逻辑推理 ​

json格式化 ​

Text to SQL能力 ​

其他测试案例 ​

联网与阅读分析 ​

事实知识与信息检索 ​

任务理解与生成 ​

AI觉得难回答的问题 ​

大模型能力测试

基本测试案例

编程数理逻辑案例

编程能力

数学与算法

逻辑推理

json格式化

Text to SQL能力

其他测试案例

联网与阅读分析

事实知识与信息检索

任务理解与生成

AI觉得难回答的问题