AI能否解答历史难题?最新研究测试了GPT-4、Llama和Gemini,结果发现…

约 4 小时前
201 次浏览
时事新闻
 

虽然AI在很多方面表现都不错(比如编程),但根据一项研究,它还是很难准确回答出高级的历史问题。研究人员使用一种名为Hist-LLM的基准测试了OpenAI的GPT-4、Meta的Llama和谷歌的Gemini。

该基准依赖于Seshat全球历史数据库,这是一个非常全面的历史知识数据库。结果显示,GPT-4 Turbo表现最好,但准确率仅为46%,跟随机猜测的结果差不多。

“虽然大规模语言模型令人印象深刻,但它们仍然缺乏高级历史研究所需的深度。对于一些基本的事实,它们确实很好用,但在解答细致的高级历史问题时就不太行了”。

就比如,GPT-4错误地表示古埃及在某一特定时期有鳞甲,而实际上这一技术直到1500年后才出现。同样的,GPT-4声称古埃及在某个时期有常备军,这可能是由于其他古代帝国(比如波斯)关于常备军的数据较为普遍。此外,GPT-4和Llama模型在回答撒哈拉以南非洲等地区的问题时表现也都较差。

对此,专家们表示,虽然随着人工智能在不断发展,但在解释复杂的历史问题上,人类历史学家仍然是无法替代的。

责任编辑:  
来源:  NY Post
点赞 (0)
脸书分享
微信分享
0条评论