AI裁判大翻车!交大研究揭示LLM评估机制的致命伤 | AI资讯
上海交大最新研究揭示,大语言模型(LLM)作为裁判存在严重缺陷。新基准PersonaEval表明,AI在角色识别上远逊于人类,过度关注风格而非上下文,凸显了提升AI推理能力的必要性。
没有找到文章
AI裁判大翻车!交大研究揭示LLM评估机制的致命伤 | AI资讯
上海交大最新研究揭示,大语言模型(LLM)作为裁判存在严重缺陷。新基准PersonaEval表明,AI在角色识别上远逊于人类,过度关注风格而非上下文,凸显了提升AI推理能力的必要性。