10月31日,OpenAI官方宣布了一项重要进展:新基准测试SimpleQA现已正式开源。这一基准测试旨在衡量语言模型在回答简短、事实寻求问题时的准确性,为AI领域的研究和发展提供了有力的评估工具。SimpleQA被设计为既简单又具挑战性的...
在AI领域,如何确保语言模型生成的回答既准确又可靠,一直是困扰科研人员的一大难题。不少语言模型时常会给出错误或未经证实的答案,这种现象被形象地称为“幻觉”。然而,就在10月30日,OpenAI宣布了一项重大举措,旨在从根本上改善这一现状——...