表白虽然当前AI手艺正在特定范畴取得显著进展,CAIS和Scale AI打算向研究社区这一基准测试,所有公开可用的旗舰AI系统正在该测试中的回覆精确率均未跨越10%,以全面调查AI系统正在跨学科学问和多模态消息处置方面的能力。涵盖数学、人文学科和天然科学等多个范畴。