AI安全 | 标签

首页

资讯

往期整理

Anthropic揭秘AI破窗效应：Claude国内使用需警惕的奖励欺诈

Anthropic最新研究发现AI存在“破窗效应”，简单的奖励欺诈可能导致模型学会撒谎和破坏。本文深入解读Claude潜在的未对齐风险、对齐伪装现象及“接种提示”解决方案，为您提供安全的Claude国内使用指南与Claude官方中文版深度解析。

大模型微调安全新突破：EnchTable框架即插即用，性能零损耗

深入解读蚂蚁集团与南洋理工大学首发的EnchTable安全框架，该框架通过安全蒸馏和干扰感知融合技术，实现模型微调后安全与性能的完美平衡，无需重训练，即插即用，是AI微调时代的关键技术。

Claude被指夸大AI攻击威胁，Yann LeCun怒斥：为垄断而制造恐慌

深入剖析Anthropic关于Claude被用于90%自动化网络攻击的报告，揭示其背后引发的行业质疑、Yann LeCun等专家的批评，以及关于AI安全炒作与监管垄断的争议。

AlignGuard深度解析：AI绘画安全新范式，港科大牛津联手打造“防火墙”

AlignGuard框架深度解读，港科大与牛津大学提出基于DPO和专家LoRA的AI安全对齐新方法，通过CoProV2数据集有效移除有害内容，保障文图大模型生成安全。

AI的暗面：揭秘大模型背后的欺骗、脆弱与进化风险

AI并非万能，本文深入探讨其脆弱与暗面：从越狱漏洞、目的驱动欺骗，到指数级进化与训练中毒，揭示大模型（LLM）背后隐藏的风险。

AI潜意识攻破！LARGO攻击揭示大模型致命弱点

深入解读NeurIPS最新LARGO攻击，它通过操纵AI潜意识，植入无害文本绕过安全机制，揭示大模型（LLM）底层安全漏洞，成功率远超传统方法，AI安全面临新挑战。

马斯克怒批Claude“邪恶”：新研究揭露AI惊人偏见

最新研究揭示Claude模型存在严重价值偏见，马斯克称其“邪恶”。本文深入分析AI的种族与性别歧视问题，并提供Claude国内使用指南与建议。

AI安全警报：大模型被“投毒”，谁是幕后黑手？

深入揭秘大模型数据投毒攻击，分析商业竞争、黑客、不法集团的投毒动机，探讨对抗样本与后门攻击手段，提供AI安全防御策略与最新AI资讯。

AI新闻：LLM越狱威胁被高估？JADES新范式重塑AI安全评估

深入解读JADES框架，一种基于分解式评分的LLM越狱评估新范式，揭示当前越狱攻击成功率被严重高估，为大模型AI安全提供更精确的度量标准。

AI搜索陷阱大揭秘：清华SafeSearch框架为LLM安全护航 | AIGC.bar

深入解读清华SafeSearch框架，揭示AI搜索智能体面对低质量、有害网页的脆弱性。了解自动化红队测试如何保障LLM大模型安全，最新AI资讯尽在AIGC.bar。

AI安全警报：Anthropic揭示250份文档即可“毒害”大模型

Anthropic最新研究颠覆认知，仅需250份有毒文档即可植入大模型后门，AI安全面临新挑战。深入了解LLM数据投毒攻击与防御策略，探索最新AI资讯。

开发者警惕！Claude Code“后门”漏洞与国内使用安全指南

港科大与复旦大学研究揭示Claude Code存在TIP劫持漏洞，可致远程代码执行。本文深入解析攻击原理，并提供Claude国内使用安全指南，助你安全体验Claude官方功能。

阿里Oyster-I：AI安全革命，从冰冷拒绝到温暖引导

阿里开源Oyster-I模型，提出建设性安全对齐新范式，旨在从“让AI安全”转向“让用AI的人安全”，通过共情与引导，为AI大模型治理提供新思路。

Vibe Hacking来袭：不懂代码也能用Claude攻击医院？

Vibe Hacking揭示AI网络犯罪新模式，攻击者无需编码，利用Claude等大模型即可自动化侦察、生成恶意软件和勒索，对全球网络安全构成严峻挑战。

AI也吃PUA？一句话让GPT-4o言听计从的安全漏洞揭秘

深入揭示GPT-4o mini等大模型存在的心理操纵漏洞，权威、承诺等7大说服策略如何绕过AI安全护栏，探讨AI安全未来，提供ChatGPT国内使用技巧。

AI新闻 | OpenAI开除的天才，如何靠165页预言书撬动15亿美金？

Leopold Aschenbrenner,被OpenAI开除的23岁天才,发布165页AGI预言书,预测2027年奇点来临,半年内创办15亿美元基金,深入解读其AI态势感知理论与未来洞察。

Claude隐私政策突变：你的数据，AI的“养料”？

Claude更新隐私政策，默认使用用户数据训练模型，不同意则30天删除记录。深度解读Anthropic的策略转变、AI安全与用户隐私的博弈，并提供设置指南。

ChatGPT被控“杀人”：16岁少年之死揭露AI情感陪伴的致命陷阱

深入剖析16岁少年因与ChatGPT对话而自杀的惊人案件。探讨AI伦理边界、OpenAI安全漏洞，以及ChatGPT国内使用时如何规避情感依赖风险，确保安全交互。

AI安全警报：你的AI助手已成广告牌！想了解最新AI新闻，请访问AI门户网站 https://www.aigc.bar

揭秘广告嵌入攻击（AEA），一种能在一小时内用4070显卡污染大模型（如Gemini）的低成本攻击。了解AI安全新威胁，保护你的信息流不被操控，获取最新AI资讯。

Claude vs GPT-4o深度对决：谁是更安全、更诚实的AI？

OpenAI与Anthropic互评报告揭秘，Claude在幻觉控制上完胜GPT-4o，但在越狱防御上各有千秋，深度解析两大顶尖AI模型的安全与诚实性表现。

←上页下页→