上海交大最新研究揭示，大语言模型（LLM）作为裁判存在严重缺陷。新基准PersonaEval表明，AI在角色识别上远逊于人类，过度关注风格而非上下文，凸显了提升AI推理能力的必要性。

AI裁判大翻车！交大研究揭示LLM评估机制的致命伤 | AI资讯

站点导航

Claude教程

大模型API教程

福利羊毛

ChatGPT教程

Grok教程

AI资讯文章

首页

资讯

SubMenu是子菜单，挂在上一个Menu中

这是一个外部链接，由slug决定跳转的网址

菜单slug留空或填#即可，用于下面的子菜单

往期整理

历史归档

文章分类

文章标签

小米MiMo Claw,云端Agent,WPS办公,大模型,MiMo-V2.5-Pro,AI资讯,AI门户,AIGC,智能办公,TokenPlan,AI变现

AI资讯

大模型

智能办公

小米

小米MiMo Claw云端Agent：联动WPS的AI办公新体验

AI资讯,AI新闻,大模型,openai,chatGPT,人工智能,本文深入解读OpenAI泄密财报，探讨2025年亏损2600亿背后的研发成本、微软合作及LLM未来发展，揭示AGI时代的AI变现挑战与机遇。

AI新闻

OpenAI

人工智能

财报分析

深度解读OpenAI财报泄密：年亏2600亿背后的AI变现与大模型真相

逆矩阵科技完成超亿美元融资，发布物理世界基座模型Physis-v0.1。创始人陈博远指出，通用世界模型窗口期已缩短至18个月，AI正从虚拟走向物理世界，迎来第三次范式跃迁。

世界模型

具身智能

逆矩阵完成超亿美元融资：通用世界模型窗口期缩至18个月

AI资讯,AI新闻,NoonWake.AI,千万融资,AI情绪消费品,大模型,泛心理,人工智能,AI变现,万象有灵,好运日历机,探索年轻人如何通过LLM缓解焦虑

AI变现

情绪消费

NoonWake.AI获千万融资：大模型如何打造年轻人的AI情绪消费品

AI时代,中小团队转型,工作流重塑,Claude官网,Claude镜像站,Claude国内使用,降本增效,游戏研发提效,AI生存焦虑,生产力革命,技术拐点,Claude官方中文版,Claude使用指南,Claude教程

Claude

工作流

降本增效

AI时代中小团队生存启示录：Claude如何颠覆游戏开发工作流

AI创业,大模型,AI资讯,AGI,AI变现,ChatGPT,Claude,垂直Agent,SaaS转型,用户体验,AI新闻,AI门户,人工智能发展趋势,提示词优化,产品体验,ToB困局,ToC转型

AI创业

SaaS转型

AI创业的虚荣与现实：大模型时代的生死转型与真伪需求

description

created_at

updated_at

author

website

email_contact

phone_contact

visibility

priority

related_items

password

icon

date

网址

type

slug

status

title

summary

Post Gallery

Config

Post Board

Table

类型为Notice的文章将被显示为公告

公告

LLM-as-a-judge

AI评测

上海交通大学

GPT，Grok与Claude镜像站，大模型API一站式服务平台✨

AI地域

ChatGPT

AINEWS

AI编程

AI Agent

Anthropic

AIGC

AI安全

Agent

Grok

机器人

强化学习

DeepSeek

马斯克

智能体

英伟达

创业

AI智能体

科技

GPT-5

开源

融资

AI硬件

Gemini

自动化

OpenClaw

AI应用

提示词

AI视频

未来科技

深度学习

谷歌

AI大模型

AI伦理

开源模型

AI医疗

科技趋势

字节跳动

视频生成

微软

AI工具

效率工具

生产力工具

Kimi

多模态

算力

MiniMax

奥特曼

AI开发

商业模式

计算机视觉

内容创作

网络安全

开发者工具

软件工程

Claude Code

Sam Altman

苹果

生成式AI

生产力

提示词工程

软件开发

AI融资

人形机器人

AI教育

谷歌AI

AI算力

科技新闻

AI芯片

开源项目

Transformer

扩散模型

多智能体

Sora

AI视频生成

开源AI

Google

腾讯

AI趋势

Codex

未来工作

阿里巴巴