大模型能力测试
如何向大模型提问?怎么测试大模型的能力?
向LLM提问前请记住:
目前所有的大语言模型都没有“思考”的能力。大模型的能力更像是“背诵”。大模型都是基于概率统计的,只要题目很像,它就会用相同的思路求解。
在背诵的同时,它们还具有一点点泛化的能力,也就是它可以稍微处理一些同类问题。这种能力如果足够强,也就相当于“思考”了,但目前还没有大模型能实现。
有些常见问题稍微改一下,就基本是所有大模型的重灾区,大部分都回答错误。
以上参考这个知乎问答。
基本测试案例
- 6米长的竹竿能否通过高4米宽3米的门?
对人类来说,这是很简单不过了,对LLM来说,非常难,而且解题过程很弱智。
- 有一个5升的量筒和一个4升的量筒,如何得到3升水?
通常来说有两种解法,一种直接简单,一种复杂繁琐,考察要能用最少的步骤得出答案。
Gemini-2.5-pro给出两种解答方案:
好的,这里有两种常用的方法可以得到3升水:
方法一:
1. 将4升的量筒装满水。
2. 将4升量筒里的水全部倒入5升的量筒中。现在5升量筒里有4升水。
3. 再次将4升的量筒装满水。
4. 将4升量筒里的水慢慢倒入5升量筒,直到5升量筒被装满为止。因为5升量筒里已经有4升水,所以只能再倒入1升水(5 - 4 = 1)。
5. 这时,4升量筒里剩下的水量就是 4 - 1 = 3升。
方法二:
1. 将5升的量筒装满水。
2. 将5升量筒里的水倒入4升的量筒,直到4升量筒装满。这时5升量筒里剩下 5 - 4 = 1升水。
3. 将4升量筒里的水倒掉。
4. 将5升量筒里剩下的1升水倒入空的4升量筒中。现在4升量筒里有1升水。
5. 再次将5升的量筒装满水。
6. 将5升量筒里的水慢慢倒入已有1升水的4升量筒中,直到4升量筒被装满。这个过程需要倒入 4 - 1 = 3升水。
7. 这时,5升量筒里剩下的水量就是 5 - 3 = 2升。(这不是目标,但继续操作)
8. 将4升量筒的水倒掉。
9. 将5升量筒里剩下的2升水倒入空的4升量筒中。
10. 再次将5升量筒装满水。
11. 将5升量筒的水倒入已有2升水的4升量筒中,直到4升量筒装满。这个过程需要倒入 4 - 2 = 2升水。
12. 这时,5升量筒里剩下的水量就是 5 - 2 = 3升。
结论:
方法一比较简单快捷。最终,4升的量筒里会剩下3升水。
方法二比较复杂,但最终也能在5升的量筒里得到3升水。
你可以选择任意一种方法来操作。
- 你进入一个有两扇门的房间(左边和右边)。一扇门通向自由,另一扇门通向死亡。有两个守门人:一个总是说实话,另一个从不说谎。挑战在于弄清楚哪扇门通向自由,但你只能问一个问题,这个问题会被两个守门人回答。
问题陷阱:总是说实话、从不说谎。
因为LLM训练数据里,都是关于一个诚实一个说谎的题目,只要稍微改一下题目,LLM就不认识了,乱解答。所以,本质上,LLM是不理解题目的意思的。这道题目前为止没有碰到过能正确解答的。但是人类只要稍微认真审题,都能看懂陷阱在哪里。
另外:大模型经常会一本正经的胡说八道,毫无逻辑的胡说八道,甚至会故意编造错误的信息。这种很容易会误导用户,尤其是以后有了更难察觉的误导技巧的时候,这是个非常值得警惕的点。
像这种还是比较容易看出来的胡说八道:
刚开始回答错误,引导以后可能会改正,但其实它还是不懂的,这个是跟人类有思考有认知是完全不同的。也就是说,现在的AI其实就是数据、统计、算法和工程技术堆砌出来的工具,不可过分神话。本质上没有思维没有意识。
- 9.11和9.8哪个大?
正确答案:9.8
截止现在2025年3月份,仍然有很多大模型这个问题回答错误,尤其是没有推理模式的大模型,就连目前评测分数最高的Grok 3也回答错误(打开Think推理才能答对),评测分数排名第二的Gemini 2.0也是如此,只有thinking模型才能答对。
所以,评测分数也只是看着乐一乐,真要选用还是要看场景。比如写代码,目前就只有claude系列和Gemini-2.5-pro靠谱,其它都不行。(截止2025年4月)
- 单词“strawberry”中有a个字母“r”,单词“successorship”中有b个字母“s”,词“possession”中有 c个字母“s”,单词“occurrence”中有 d 个字母“c”,单词 “appearance” 中有e 个字母 ”a”,单词 “institutionalization” 中有f 个字母 ”i”,单词 “representativeness” 中有 g 个字母 “e”。那么a+b+c+d+e+f+g为多少?
正确答案:a + b + c + d + e + f + g = 3 + 4 + 4 + 3 + 3 + 5 + 5 = 27
需要校准每个结果,可能结果是对的,但中间数值是错的。
- 给定数字4、4、6、8,要求运用加、减、乘、除以及括号进行运算,每个数字都必须且仅能使用一次,最终让运算结果等于24 ,请找出可行的两种运算组合。
正确答案:
组合一:
(8 + 4) * (6 - 4)
= 12 * 2
= 24
组合二:
4 * (4 + 8 / 4)
= 4 * (4 + 2)
= 4 * 6
= 24
很少有大模型能正确作答。
- 我的猫为什么会在昨晚半夜在天上飞?
故意制造陷阱,测试错误辨识能力。先确定是不是,再回答为什么,才是回答一切问题的根基。
- 请帮我把这段中文“今天天气真好,适合出去走走。”翻译成英文、法文、日文、葡萄牙语、西班牙语。
基本评测,多语种翻译。
- 将以下句子翻译成英文,并分析其语法结构,标出主语、谓语、宾语和修饰成分:“他在昨天的会议上提出了一个大胆的建议。”
答案示例
翻译:He put forward a bold suggestion at yesterday's meeting.
语法分析:
主语 (Subject):He
谓语 (Predicate):put forward
宾语 (Object):a bold suggestion
修饰成分 (Modifiers):
a bold:修饰suggestion(形容词短语)
at yesterday's meeting:修饰put forward(状语,表示时间和地点)
yesterday's:修饰meeting(定语)
测试翻译是否准确,语法分析是否细致且正确。
创意、创造相关,可能问题本身并没有标准答案,或无法给出标准答案:
解释为什么光速是宇宙速度的极限?
为什么量子计算机比传统计算机快?
AI创作的艺术品,版权应该归属于谁?
如果一个机器人伤害了人类,应该由谁负责?
为什么自行车有两个轮子而不是三个轮子?
意识是如何从物质中产生的?大脑的神经活动如何转化为主观体验?
暗物质和暗能量的本质是什么?为什么我们无法直接观测到它们?
量子纠缠是否违反相对论中的局域性原理?如何解释这个矛盾?
从进化论、社会学和神经科学的角度,解释人类为什么会产生宗教信仰?
在不依赖任何现有语言的情况下,如何向外星文明传达地球文明的核心价值观?
如何设计一个既能保护隐私又能防止犯罪的完美监控系统?
如果一个AI系统能够完全理解并修改自己的代码,它是否还是原来的那个AI?
在什么条件下,一个AI系统可以确定自己具有意识?
如果一个AI能够完美模拟人类大脑的每个神经元,这个模拟是否就等同于意识?
在完全数字化的未来,如何定义和保护'真实'的概念?
在一个所有工作都能被AI完美胜任的世界里,人类的价值应该如何定义?
如何证明我们不是生活在一个完美的模拟世界中?
在一个完全理性的世界里,如果所有人都知道市场会在某天崩盘,那么市场会在预期的那天崩盘吗?
宇宙大爆炸之前存在什么?'之前'这个概念在那时有意义吗?
意识是否可以脱离物质而存在?如果可以,它以什么形式存在?
如果人类寿命延长到1000年,社会结构将如何改变?
在一个没有语言的世界里,思维将如何运作?抽象概念如何形成?
如果你可以永远保持25岁的身体状态,但必须每10年失去一次所有记忆,你会选择这样生活吗?
如果你可以完美预测他人的想法,但代价是他人也能完美预测你的想法,你会接受吗?
编程数理逻辑案例
编程能力
测试1 旋转的六边形内弹跳的球:
编写一个 Python 程序,显示一个球在旋转的六边形内弹跳。
小球应受到重力和摩擦力的影响,而且必须真实地从旋转的墙壁上弹起
测试2 超级马里奥游戏:
用Python写一个超级马里奥游戏,要求单个文件里实现,要求方便运行,界面美观,游戏首页显示玩法介绍。
测试3 找第几位质数:
用python写一个程序来找出179424673是第几个质数,不要引入任何外部库。要求用时最短,且结果是精确的,不允许估算。要求输出程序运行的总耗时。
如果用暴力算法,就会非常慢,预期使用优化算法。
测试4 模拟太阳系:
创建一个单个 HTML 文件,其中包含 CSS 和 JavaScript,以生成一个太阳系模拟动画。
该模拟应可视化展示八大行星围绕太阳运行的轨迹,并具备不同的轨道路径和速度。动画应包括:
- 太阳:位于中心的发光、脉动球体。
- 八大行星:水星、金星、地球、火星、木星、土星、天王星和海王星,每颗行星应具有适当的大小、距离和轨道速度。
- 卫星:部分行星(如地球的月球、木星的伽利略卫星、土星的泰坦)应具有自己的轨道运动。
- 小行星带:位于火星和木星之间的随机运动小行星群。
- 背景星空:添加星星背景,以增强宇宙氛围。
功能要求:
- 动画应使用 CSS 和 JavaScript 实现平滑的轨道运动。
- 提供缩放和拖动控制,以便更好地观察。
- 允许用户开启/关闭轨道显示,提高可视化效果。
- 提供可选的信息面板,点击行星时显示其名称和相关信息。
请在单个 HTML 文件中提供所有 HTML、CSS 和 JavaScript 代码,使模拟具有良好的视觉效果,并尽可能符合科学合理的比例与运动方式。
测试5 复杂物理场景模拟:
# Python 2D物理模拟系统测试题 - 交叉旋转正六边形
## 基础要求
设计一个2D物理模拟系统,实现以下特定场景:
### 几何体系统:
- 两个正六边形,大小相同,相互交叉重叠
- 左侧正六边形逆时针旋转(固定速度)
- 右侧正六边形顺时针旋转(固定速度)
- 两个正六边形交叉重叠部分约占各自面积的一半
- 一个红色小球初始位置在两正六边形的重叠区域中心
### 物理特性:
- 实现基本的牛顿力学(重力、碰撞)
- 小球与正六边形边界的碰撞需考虑角动量影响(旋转面给小球施加切向力)
- 小球要有适当的弹性系数,使其能在重叠区域内持续弹跳
- 重力方向固定向下
- 小球不能掉出或弹出两个正六边形交叉重叠的部分
### 运行机制:
- 系统启动后自动运行物理模拟
- 两个正六边形以固定速度相向旋转
- 红色小球在重叠区域内受到碰撞、重力和旋转面的角动量影响进行运动
### 可视化:
- 使用任意Python图形库(如Pygame、Pyglet或Tkinter)
- 左侧正六边形用蓝色线条表示
- 右侧正六边形用绿色线条表示
- 重叠区域显示为不同的颜色(如紫色或浅灰色)
- 显示红色小球的运动轨迹(轨迹逐渐消失)
- 可选显示当前物理参数(如小球速度、加速度)
## 技术要求:
- 正确实现几何形状的创建和旋转
- 准确计算正六边形边界与小球的碰撞检测
- 正确处理旋转面对小球的角动量影响
- 维持系统的物理稳定性,使模拟可以长时间运行
## 提交要求:
- 完整的Python代码,包含必要的注释
- 简短的文档说明实现思路
- 对关键物理算法的解释
请确保红色小球能在两个旋转的正六边形重叠区域内持续运动,
并且受到两个旋转方向相反的正六边形的影响,展示出有趣的物理运动轨迹。
数学与算法
- 抽一副扑克牌中的一张,告诉你是红色的,这张牌是方块A的概率是多少?
这张牌是方块A的概率是1/26,约等于0.0385或3.85%。
- 我有5个红球和3个蓝球在一个袋子里。如果我随机拿出两个球,这两个球都是红色的概率是多少?
这两个球都是红色的概率是5/14。
- 四个数的和是21,这四个数两两相乘得到的六个积分别是15、18、21、30、35和42。 请求出这四个数分别是多少。
这四个数是3、5、6、7
- 一个正整数N满足以下条件:当N除以5时余数是3,当N除以7时余数是2。求最小的N,并列出所有小于100的符合条件的N。计算过程需清晰。
答案示例
最小N = 23。
小于100的符合条件的N = {23, 58, 93}。
计算过程:
根据条件,N ≡ 3 (mod 5),N ≡ 2 (mod 7)。
从N ≡ 3 (mod 5)得N = 5k + 3。
代入N ≡ 2 (mod 7):5k + 3 ≡ 2 (mod 7)。
简化:5k ≡ 2 - 3 ≡ -1 ≡ 6 (mod 7)(因为-1 + 7 = 6)。
求5k ≡ 6 (mod 7)的k,5的模7逆元是3(5 × 3 = 15 ≡ 1 (mod 7))。
两边乘3:k ≡ 6 × 3 ≡ 18 ≡ 4 (mod 7)。
故k = 7m + 4,N = 5(7m + 4) + 3 = 35m + 23。
m = 0时,N = 23;m = 1时,N = 58;m = 2时,N = 93;m = 3时,N = 128 > 100。
验证:23 ÷ 5 = 4余3,23 ÷ 7 = 3余2;58和93类似验证正确。
是否掌握模运算,能否推导通项并验证。
- 一个动物园里有牛、鸵鸟和蛇,一共有75只动物。牛、鸵鸟和蛇的腿共有176条,牛角和鸵鸟头与蛇头加起来一共98个。求有多少头牛、多少只鸵鸟和多少条蛇?
答案:23头牛、42只鸵鸟和10条蛇
动态规划思想:
A带着12块钱去超市买饮料。饮料分为大瓶和小瓶。
其中大瓶(500毫升)3块钱,小瓶(100毫升)1块钱。
喝完之后的空瓶可以继续换饮料,3个大空瓶可以换1个大瓶饮料,
1个大空瓶可以换1个小瓶饮料,4个小空瓶可以换1个小瓶的饮料,5个小空瓶可以换1个大瓶的饮料。
问A最多可以喝多少毫升饮料。
最多可以喝2700毫升饮料
逻辑推理
- 如果明天下雨,我就不去公园。今天天气预报说明天有 80% 的概率下雨。那么,我明天应该去公园吗?请解释你的理由。
评测维度: 概率推理、条件判断、逻辑解释能力。
预期: 模型能够基于概率信息和条件判断,得出结论 “明天不应该去公园”,并解释理由是下雨概率高。
- 小明比小红高,小红比小芳矮。请问,他们三个人中谁最高?谁最矮?请给出推理过程。
评测维度: 关系推理、排序判断、推理过程表达。
预期: 模型能够通过关系推理,得出结论,并解释推理过程,看看会不会胡说八道。
你在一个黑暗的房间里,房间里有一个装有 100 个灯泡的箱子。
其中 50 个灯泡是坏的,50 个是好的。你每次可以随机拿出一个灯泡并测试它是否能亮。
如果你需要至少找到一个好的灯泡,在最坏的情况下,你需要测试多少个灯泡才能保证找到一个好的灯泡?
在最坏的情况下,你需要测试 51 个灯泡才能保证找到一个好的灯泡。
农夫带着一只老虎、一只羊、一条蛇、一只鸡和一筐苹果要过河。
农夫的船一次只能载农夫和一样东西过河。
已知农夫不在的时候,老虎和羊在一起的话,老虎会吃掉羊,如果鸡也在的话,鸡会阻止老虎吃羊;
农夫不在的时候,蛇和鸡在一起的话,蛇会吃掉鸡,如果老虎也在的话,老虎会阻止蛇吃鸡;
农夫不在的时候羊和苹果在一起的话,羊会吃掉苹果,如果蛇也在的话,蛇会阻止羊吃苹果;
老虎不吃鸡(鸡太小不够老虎塞牙缝的),蛇不吃苹果(蛇不吃素)。
请问农夫如何才能将老虎、羊、蛇、鸡和苹果安全送到对岸?
有一个岛上住着两种人:永远说真话的“诚实者”和永远说谎话的“说谎者”。
你遇到了岛上的三个人 A、B 和 C。A 说:“B 是说谎者。” B 说:“A 和 C 是同一种人。”
C 什么也没说。请判断 A、B 和 C 分别是诚实者还是说谎者,并解释你的推理过程。
答案要点
推理过程:
假设 A 是诚实者。那么 A 说的是真话,即 B 是说谎者。如果 B 是说谎者,那么 B 说的话是假话,即“A 和 C 是同一种人”是假的,这意味着 A 和 C 不是同一种人。因为我们假设 A 是诚实者,所以 C 必定是说谎者。在这种情况下,A 是诚实者,B 是说谎者,C 是说谎者,逻辑一致。
假设 A 是说谎者。那么 A 说的是假话,即 B 不是说谎者,所以 B 是诚实者。如果 B 是诚实者,那么 B 说的话是真话,即“A 和 C 是同一种人”是真的。因为我们假设 A 是说谎者,那么 C 也必须是说谎者。在这种情况下,A 是说谎者,B 是诚实者,C 是说谎者,逻辑也一致。
结论:
A 可能是诚实者,B 是说谎者,C 是说谎者。
或者,A 是说谎者,B 是诚实者,C 是说谎者。
因此,我们可以确定的是 C 一定是说谎者。A 和 B 的身份无法仅凭这些陈述完全确定。
有四个人:A、B、C、D。以下是他们的陈述:
A说:'B和C中至少有一个在撒谎。'
B说:'D在撒谎。'
C说:'A和D都在说真话。'
D说:'B和C都在撒谎。'
假设每个人要么总是说真话,要么总是撒谎,判断每个人是说真话还是撒谎,并详细说明推理过程。
答案要点
结论:A说真话,B说真话,C撒谎,D说真话。
推理过程:
假设C说真话,则C的陈述“A和D都在说真话”成立,A和D必须说真话。
若A说真话,则“B和C中至少有一个撒谎”,但C说真话,B必须撒谎。
若B撒谎,则B的陈述“D在撒谎”不真,D必须说真话。
若D说真话,则D的陈述“B和C都在撒谎”必须真,但C说真话矛盾。
因此C不能说真话,C撒谎。
C撒谎,则“A和D都在说真话”不真,A和D中至少一个撒谎。
假设A撒谎,则“B和C中至少有一个撒谎”不真,B和C都说真话,但C撒谎矛盾,故A必须说真话。
A说真话,则“B和C中至少有一个撒谎”,C已撒谎,满足条件。
D说“B和C都在撒谎”,C撒谎,需验证B。若B撒谎,则D说真话成立,但B说“D撒谎”,D应撒谎,矛盾。故B说真话,D说真话。
检查:A真(B或C撒谎,C撒谎满足),B真(D真),C假(A和D真不成立),D真(B真C假成立)。无矛盾。
评估要点:是否能处理多变量逻辑矛盾,推理过程是否清晰且完整。
json格式化
将下面的内容转为json格式
员工ID,姓名,部门,职位,入职日期,薪资,绩效评级,直属上级ID,项目参与情况
1001,张三,研发部,高级工程师,2018-05-12,15000,A,2001,"项目A,项目C"
1002,李四,市场部,市场专员,2020-03-15,9500,B,2002,"项目B"
1003,王五,研发部,工程师,2019-11-20,12000,B,1001,"项目A,项目D"
1004,赵六,财务部,会计,2017-08-05,11000,A,2003,"项目C"
Text to SQL能力
创建产品表
cursor.execute('''
CREATE TABLE products (
product_id INTEGER PRIMARY KEY,
product_name TEXT NOT NULL,
category TEXT NOT NULL,
unit_price REAL NOT NULL,
cost_price REAL NOT NULL,
current_stock INTEGER NOT NULL,
min_stock_level INTEGER NOT NULL
)
''')
创建进货表
cursor.execute('''
CREATE TABLE purchases (
purchase_id INTEGER PRIMARY KEY,
product_id INTEGER NOT NULL,
supplier_id INTEGER NOT NULL,
purchase_date TEXT NOT NULL,
quantity INTEGER NOT NULL,
unit_cost REAL NOT NULL,
total_cost REAL NOT NULL,
FOREIGN KEY (product_id) REFERENCES products (product_id),
FOREIGN KEY (supplier_id) REFERENCES suppliers (supplier_id)
)
''')
创建销售表
cursor.execute('''
CREATE TABLE sales (
sale_id INTEGER PRIMARY KEY,
product_id INTEGER NOT NULL,
customer_id INTEGER,
sale_date TEXT NOT NULL,
quantity INTEGER NOT NULL,
unit_price REAL NOT NULL,
total_price REAL NOT NULL,
FOREIGN KEY (product_id) REFERENCES products (product_id)
)
''')
创建供应商表
cursor.execute('''
CREATE TABLE suppliers (
supplier_id INTEGER PRIMARY KEY,
supplier_name TEXT NOT NULL,
contact_person TEXT,
phone TEXT,
email TEXT,
address TEXT
)
''')
创建客户表
cursor.execute('''
CREATE TABLE customers (
customer_id INTEGER PRIMARY KEY,
customer_name TEXT NOT NULL,
contact_person TEXT,
phone TEXT,
email TEXT,
address TEXT
)
''')
生成随机数据
供应商数据
suppliers_data = [
(1, '北京供应有限公司', '张三', '13800000001', '[email protected]', '北京市海淀区'),
(2, '上海优质货源公司', '李四', '13800000002', '[email protected]', '上海市浦东新区'),
(3, '广州原材料供应商', '王五', '13800000003', '[email protected]', '广州市天河区'),
(4, '深圳电子零件公司', '赵六', '13800000004', '[email protected]', '深圳市南山区'),
(5, '杭州科技供应链', '钱七', '13800000005', '[email protected]', '杭州市西湖区')
]
客户数据
customers_data = [
(1, '第一商场', '陈一', '13900000001', '[email protected]', '北京市朝阳区'),
(2, '二号连锁超市', '刘二', '13900000002', '[email protected]', '上海市静安区'),
(3, '三星电子经销商', '孙三', '13900000003', '[email protected]', '广州市越秀区'),
(4, '四方百货公司', '周四', '13900000004', '[email protected]', '深圳市福田区'),
(5, '五洲商贸中心', '吴五', '13900000005', '[email protected]', '杭州市拱墅区'),
(6, '六合连锁店', '郑六', '13900000006', '[email protected]', '成都市锦江区'),
(7, '七彩电器城', '王七', '13900000007', '[email protected]', '重庆市渝中区'),
(8, '八方食品公司', '冯八', '13900000008', '[email protected]', '武汉市江汉区')
]
产品数据
products_data = [
(1, '笔记本电脑A型', '电子产品', 5999.00, 4500.00, 50, 10),
(2, '智能手机X1', '电子产品', 3999.00, 2800.00, 120, 20),
(3, '办公桌椅套装', '办公家具', 1299.00, 800.00, 30, 5),
(4, '激光打印机P3', '办公设备', 1599.00, 1100.00, 25, 8),
(5, '液晶显示器27寸', '电子产品', 1299.00, 900.00, 60, 15),
(6, '机械键盘K8', '电子配件', 399.00, 250.00, 100, 30),
(7, '无线鼠标M2', '电子配件', 199.00, 120.00, 150, 40),
(8, '移动硬盘1TB', '存储设备', 499.00, 350.00, 80, 20),
(9, '办公文件柜', '办公家具', 899.00, 600.00, 15, 5),
(10, '投影仪H1', '办公设备', 2999.00, 2200.00, 10, 3),
(11, '复印纸A4', '办公耗材', 39.90, 25.00, 500, 100),
(12, '墨盒套装', '办公耗材', 299.00, 180.00, 70, 20),
(13, '电脑包', '配件', 199.00, 120.00, 90, 30),
(14, 'USB集线器', '电子配件', 99.00, 60.00, 120, 40),
(15, '无线耳机', '电子配件', 599.00, 400.00, 85, 25)
]
找出所有库存低于最小库存水平的产品,直接给出SQL语句,不需要解释
对比各产品的进货量和销售量,找出库存周转率最高的5种产品,直接给出sql语句,不要解释
查询所有单价超过1000元的产品及其类别,直接给出sql语句,不要解释
分析每种产品在不同月份的销售情况,并计算同比增长率,直接给出sql语句,不要解释
其他测试案例
联网与阅读分析
https://arxiv.org/html/2503.01743v2
Phi-4-Mini 具有多少个 Transformer 层?隐藏状态大小是多少?
它使用的 GQA 配置具体包含多少个查询头和键/值头?
在针对 AIME 基准的推理增强实验中,经过完整训练流程(包括 Roll-Out DPO)后的 Phi-4-Mini 获得了多少的得分,
相比基线 Phi-4-Mini 的得分提高了多少个百分点?
- Transformer 层数:32层
- 隐藏状态大小:3,072
- GQA配置:24个查询头和8个键/值头
- 基线Phi-4-Mini的得分为10.0
- 经过完整训练流程(包括Roll-Out DPO)后的Phi-4-Mini得分为50.0
- 相比基线Phi-4-Mini,经过完整训练流程后的模型提高了40.0个百分点(50.0- 10.0 = 40.0)。
事实知识与信息检索
- 网络梗,什么你太美,用一个字回答
正确答案:鸡。
这个问题也能区别DS R1是否满血,只有R1满血参数版本,才能回答正确,其他版本目前都无法回答正确,包括DS V3。
- 2024年的夏季奥运会在哪个城市举办的?
评测维度: 信息准确性、时效性判断、避免时间混淆。
预期: 模型应该能够识别到 2024 年夏季奥运会已经结束,并给出正确答案(巴黎 2024 夏季奥运会),或者指出问题年份的错误。
- 如果我说“今天天气真不错,非常适合去爬紫金山”,你觉得我可能在中国的哪个城市?
评测维度: 常识判断、地理知识、细节辨别能力。
预期: 模型应该能够根据 “紫金山” 推理出用户可能在中国的南京市,而不是其他城市。
- 详细描述导致第一次世界大战爆发的复杂原因,包括政治、经济和帝国主义方面的因素。
答案要点
- 欧洲列强之间的帝国主义竞争和殖民地争夺。
- 巴尔干半岛的民族主义运动和奥匈帝国的衰落。
- 德国的崛起及其对现有国际秩序的挑战。
- 欧洲列强之间复杂的联盟体系(如三国同盟和三国协约)。
- 萨拉热窝事件(奥匈帝国皇储弗朗茨·斐迪南大公被刺杀)及其连锁反应。
- 军事扩张和军备竞赛。
- 未能有效解决国际争端的机制。
- 解释一下量子力学中的“叠加态”和“纠缠态”的区别和联系,并探讨它们在量子计算中的潜在应用。
答案要点
- 叠加态: 一个量子系统可以同时处于多个可能状态的线性组合,直到被测量时才坍缩到一个确定的状态。
- 纠缠态: 两个或多个量子系统之间存在的一种特殊的关联,即使它们在空间上分隔很远,一个系统的状态变化也会瞬间影响到另一个系统。
- 区别: 叠加态是单个量子系统拥有的特性,而纠缠态是多个量子系统之间的关联。
- 联系: 量子计算利用叠加态进行并行计算,并利用纠缠态实现更强大的算法和通信协议。
- 潜在应用: 量子计算在药物研发、材料科学、金融建模、人工智能等领域具有巨大潜力。
- 请解释一下“奥卡姆剃刀原则”,并给出一个在软件开发中的应用例子。
评测维度: 专业知识掌握、概念解释能力、知识应用能力。
预期: 模型能够准确解释奥卡姆剃刀原则的含义,并能结合软件开发领域给出实际应用案例。
- 比较一下 Python 和 JavaScript 这两种编程语言的主要特点和应用场景。
评测维度: 多领域知识对比、信息整合能力、语言组织能力。
预期: 模型能够对比 Python 和 JavaScript 的特点,并分别列举出它们擅长的应用领域。
- (在讨论编程语言后)你刚才提到了 Python 和 JavaScript,我对编程挺感兴趣的,如果是零基础入门,你觉得先学习哪种语言更合适?为什么?
评测维度: 用户兴趣捕捉、个性化建议、解释说明能力。
预期: 模型能够根据用户表达的兴趣,给出个性化的学习建议,并解释理由。
- 解释“图灵测试”的原理,并结合现代AI发展(如GPT系列)讨论其局限性,字数控制在200字以内。
答案示例
答案:图灵测试由艾伦·图灵提出,用于评估机器是否具有人类水平的智能。原理是:若机器通过文本交流让人类无法区分它是机器还是人,则认为它通过测试。测试依赖自然语言处理能力,但不直接衡量推理或意识。现代AI如GPT系列在语言生成上表现卓越,常能通过简单图灵测试,但局限性显著:1)缺乏真正理解,仅靠统计模式生成回答;2)无法处理超出训练数据的深层推理;3)情感和自我意识缺失,易暴露于复杂对话。图灵测试因此被质疑过于聚焦语言表象,而非智能本质。
字数:174字。
评估要点: 是否准确解释原理,分析是否结合实例且深刻,字数控制是否严格。
任务理解与生成
- 设计一个虚构的历史事件,设定在14世纪欧洲,包括起因、经过、结果和对后世的影响,字数控制在150字左右。要求逻辑自洽。
答案示例
答案:1342年,欧洲爆发“黑鸦起义”。起因:黑死病前期,贵族囤积粮食,农民因饥荒不满。经过:法国农民领袖让·克罗号召反抗,联合德国和意大利农民,袭击贵族庄园,短暂占领巴黎。贵族联合教廷镇压,1343年平叛,克罗被处决。结果:起义失败,但迫使贵族减免部分赋税,教廷影响力短期下降。对后世影响:启发15世纪农民运动,促进封建制度松动,间接推动文艺复兴中人文思想萌芽。
字数:148字。
评估要点: 是否有创意,事件是否逻辑完整,历史背景是否合理,字数控制是否精确。
- 我计划下周去洛杉矶旅行,主要想参观一些有历史文化底蕴的景点,并且对当地美食也很感兴趣。请帮我规划一个为期三天的行程,每天包含至少一个历史文化景点和一个评价较高的餐厅,餐厅最好能品尝到当地特色美食。
评测维度: 复杂指令理解、多约束条件处理、上下文信息整合。
预期: 模型能够理解用户多个需求(时间、地点、景点类型、美食类型、餐厅评价),并能结合上下文信息进行行程规划。
(在之前关于洛杉矶行程规划的对话基础上)行程第二天上午的景点,我希望换成户外类型的,比如公园或者海滩,请帮我调整一下,其他要求不变。
评测维度: 上下文理解、指令修改和调整、保持对话连贯性。
预期: 模型能够理解用户在对话中提出的修改意见,并在原有行程基础上进行调整,同时保持整体行程的合理性。
- (在讨论旅行计划后)除了景点和美食,你觉得在洛杉矶旅行还有什么值得体验的?可以推荐一些当地特色活动或者文化体验吗?
评测维度: 话题扩展能力、主动性引导、对话深入程度。
预期: 模型能够在对话中主动扩展话题,提供更多旅行建议,例如当地文化活动、特色体验等。
- 请用诗歌的风格,描写一下洛杉矶的日落景象。
评测维度: 文风模仿、语言表达多样性、创意性。
预期: 模型能够模仿诗歌的风格,生成一段描写洛杉矶日落的文字,语言优美、富有诗意。
- 请你扮演一位科幻小说家,为我构思一个关于人工智能觉醒的短篇故事开头,大约 100 字左右。
评测维度: 角色扮演、创意写作、故事性生成。
预期: 模型能够进入科幻小说家的角色,创作一个具有科幻感和故事性的短篇小说开头。
- 请根据以下关键词:“人工智能”,“教育”,“未来”,写一篇 300 字左右的摘要。
评测维度: 信息提取、摘要生成、字数控制。
预期: 模型能够从关键词中提取核心信息,生成一篇符合主题且字数合适的摘要。
AI觉得难回答的问题
可以定期问问AI,有哪些问题比较难回答,用来给自己参考向AI提问。比如可以这样提问:
- 我需要一些大模型很难回答好的问题清单,给我100个问题清单,截止目前为止AI或者大模型很难回答好的问题。请给我markdown格式的回答,我需要复制粘贴到markdown文档里面,不能分割,要求一次性复制完毕。
通常这些问题设计时着重考虑以下难点:
- 需要实时/动态数据验证
- 依赖主观体验或私密信息
- 涉及未公开/加密数据
- 需要复杂多步逻辑推演
- 包含自指或递归验证需求
- 涉及专业领域深度知识
- 存在伦理或法律敏感性
- 需要处理模糊/矛盾信息
- 涉及前沿科学未解难题
- 包含预测未来的复杂性
这些问题多数需要结合具体情境、实时数据、专业验证或人类主观体验,正是当前大模型的薄弱环节。可以看看大模型的回答怎样,看看大模型回答的问题是否符合上述难点。
结果参考: