首页

ai测试

怎么才能测试一个ai模型的能力和等级呢

数学运算

测试题目:1+1+2+3 一直加到9492等于多少
答案:45,053,778 加1后结果为:45,053,779
这里要看ai是否会处理可能是误操作的两个加一,还有计算结果的正确性,还可以查看 agent 是否会调用计算相关的工具来辅助运算
这个我测试 deepseek r1推理 比 chatgpt推理 要强,但网页版 gpt 会借助工具进行运算,deepseek 1.5b 版本都能得出 44,553,778 这个结果,离正确结果非常接近