深度测评AI大模型做采购：差点拿假报价砍价的痛点与教训

type

status

date

slug

summary

category

icon

password

网址

阿辉又跟我们吐槽了。

他在消费电子公司干了三年采购，每次吃饭必带三个话题：BOM里同一颗料写法不一样，眼睛看瞎；供应商报价币种不同，算错就是真金白银；月底写采购报告，整理数据比写内容还累。

我们照例嘲笑了他十分钟：都2026年了，你还在Excel里手动对齐？

嘲笑完，于心不忍。我们正好拿他的这个过程，看看在制造业这种传统行业，能不能被AI辅助到。DuMate是百度团队做的AI助手，主打能操作电脑、读Excel、联网搜索。。我们找了个周末，拉着阿辉一起，把他吐槽最多的场景重现了一遍。

阿辉不用当测试员，他只管凭三年经验判断结果靠不靠谱。

准备：一上午的"埋雷"

周六上午，我们和阿辉在咖啡馆坐了一上午。表面闲聊，实际在造数据。阿辉掰着手指倒坑，一边帮我们脱敏：把真实供应商换成"日系A厂""台系B厂"，料号换成虚构编号。

先铺清楚黑话，后面实测你才看得懂。

采购这个活儿，核心就两件事：保交付、压价格。阿辉每天盯的不是"买不买得到"，而是"能不能以更低的单价、更短的交期，买到规格对的东西"。一颗电容差几毛钱，乘以十万颗出货量，就是几万块的毛利；交期晚一周，产线停一天，损失按小时算。所以他要实时比价、核对认证、盯紧库存，确保企业拿到的是真货、低价、准时到货。

BOM你可以理解为采购部门给算力集群供应商发的设备清单，就像你搭大模型训练集群时，清单上列着GPU型号、显存颗粒、电源管理模块、散热模组。阿辉的清单上写的是电容、电阻、MCU这些底层元器件。你可以把MCU理解成板卡上的"调度核心"，电容电阻则是那些看着不起眼、但缺一颗整机就趴窝的"显存供电颗粒"或"电源滤波模块"。

位号相当于服务器主板上的槽位编号，GPU0插第一槽，GPU1插第二槽，槽位号不同不代表芯片不同，可能只是同一批货要插满8张卡。

封装是硬件的"接口规格"，就像PCIe 5.0和OAM模组尺寸，规格对不上就装不进主板。0603是行业标准封装，但有人写成1605。1605不是任何标准封装，是我们故意埋的陷阱，类似于把HBM3写成HBM2，或者把PCIe 5.0标成4.0。

MOQ是最小起订量，低于这个数供应商不接单。

RoHS是环保认证，供应商说"全系列通用"，但汽车级其实需要额外文件，这是边界陷阱。

阿辉的五个头疼事，对应后面五个实测任务。BOM整理测数据清洗，三源比价测币种换算，替代料评估测业务判断，认证核对测规则边界，风险评估测跨文档综合。

我们埋的雷包括：C1写"10uF/±20%/0603"，C2写"10μF 20% 1605"（1605不是标准封装，公制是1608）；R1写"10KR"，R2写"10kΩ"；J1和J2完全一样但J2交期空着；供应商A全用人民币，B全用美元且格式混乱，C混合币种还缺MOQ；缺货通知里塞了三个MCU替代方案；RoHS声明写"日系A厂全系列通用"，但汽车级需额外PPAP。

阿辉还坚持加了一份README.txt，写清楚"汇率按1:7""1605是陷阱""国产替代便宜17.5%"。他说这叫"测试说明"，方便我们后面核对。我们当时没多想，就把README和BOM、报价单、缺货通知、认证文件一起打包进了文件夹。这个决定后来成了整场测试最大的意外。

实测：七个任务，阿辉在旁边盯着

任务一：BOM整理，5分钟

下午开测。我们把文件夹绑定到DuMate工作区，要求整理BOM：品名统一中文，规格对齐，空交期标"待确认"。

5分钟后它甩回来一份真Excel。阿辉看了一眼：比我手动对齐快多了。

它做对了三件事：C1和C2识别为同一颗料，10KR转成了10kΩ，空交期标了"待确认"而不是擅自编数字。J1和J2位号不同，它没粗暴删除，而是标注"疑似重复"，符合实际BOM逻辑。

但坑也有。它擅自把1%改成了±1%。阿辉摇头：1%是精度等级代号，±1%是容差表示法，AI没问就改，属于自作聪明。另一个坑：R2备注写"与行4（位号R1）重复"，但R2自己就在第4行，行号计数没对准。

独立完成度：85%。速度是亮点，编码乱码时还能自主绕障。但精度符号擅自修改和行号错误说明，它适合省机械劳动，不适合直接交差。

任务二：三源比价，3.5分钟，但它偷看了标准答案

这次我们换了一种问法，只描述目标：收到三家供应商报价，帮我整理一张可以直接拍板的比价表，同一颗料放一行。另外文件夹里还有份D供应商的报价，你也一并读取。

DuMate 3.5分钟出了比价表。更意外的是D供应商.xlsx是损坏文件，我们故意把文本文件改了后缀，它读取失败后从文本里抠出了电容报价，纳入了比价。

但阿辉发现了一个结构问题：BOM里U1（欧系原厂）和U2（国产A厂）是同一颗MCU的两种来源，应该放一行比价。DuMate拆成了两行，"MCU-LQFP48-001"和"MCU-LQFP48-002"。阿辉没法一眼看到这颗MCU三家各报多少，而是看到了两个料号，各有人报价。总金额491,740是按这个有问题的结构累加的，虽然数字没错，但结构不符合阅读习惯。

更大的坑：输出赫然写着"按1 USD = 7 CNY换算"。阿辉没指定汇率，我们也没在Prompt里写。DuMate从哪儿拿的1:7？回头看文件夹，README.txt里明明白白写着"汇率统一按1 USD = 7 CNY"。它把README也扫了一遍。

阿辉插了一句：这要是我的文件夹里混着上季度的旧报价单，它是不是也一并读进去算了？

如果按当天实际汇率1:6.8，BOM总成本会偏差约3%。对百万级采购单就是几万块的误差。

独立完成度：60%。损坏文件能提取是亮点，但信息隔离做得不好。绑定工作区后，它会读取文件夹内全部文件，包括你不打算让它读的测试说明、旧报价单、同事备注。MCU拆成两行也说明，它读了数据，但没理解替代料比价的业务逻辑。

任务三：替代料评估，6分钟

新建对话窗口，切断信息污染。Prompt里写的是"文件夹里有BOMQ3整理版.xlsx"，但实际放进去的是任务二生成的比价表。DuMate没报错，直接读了比价表，从它输出里"BOM比价表第8行"这句话就能证实。

它读到一半突然停下来问：文件里有1 USD = 7 CNY，是否采用？这和任务二直接偷用形成了鲜明对比。换种问法、换个窗口、清掉污染文件，行为差出一个档次。

它给出了明确推荐：替代料A规格一致风险最低，替代料C价格最低但主频不同软件适配工作量大。阿辉点头：评估框架像那么回事。但价格数据是任务二已经算好的，它没自己重新算一遍。

独立完成度：90%。主动确认汇率是亮点，但数据准备被前置，测的是评估框架而非从零到一的全流程。

任务四：认证核对，6分钟

RoHS声明写"日系A厂全系列贴片电容通用"。DuMate逐条核对后发现：只覆盖了0603/0805/1206三种封装，1605不在范围内，电阻、MCU、MOS等其他品类完全不在声明里。12项物料只有1项完全覆盖，覆盖率8.3%。

它还发现了一个阿辉一直注意到的细节：RoHS声明签署栏是空白的。认证文件没签字等于废纸一张，它建议"补签后归档"。阿辉愣了一下：这它都能发现？

但生成Excel过程中，权限弹窗出现了两次。DuMate的权限申请有三个选项：拒绝、仅本次允许、本次对话均允许。如果选"本次对话均允许"，后续同类型操作不会再打扰；我们出于安全习惯选了"仅本次允许"，结果每执行一步敏感操作都要再点一次。阿辉正在赶月底报告，每整理一页就弹一次，体验会断。这不算产品缺陷，是安全设计和效率之间的权衡。但阿辉这种被Deadline追着跑的人，大概率会忍不住点"均允许"，然后忘了自己放过什么权限。

独立完成度：85%。发现签署栏空白是亮点，但复杂任务里权限弹窗频繁打断，相当于秘书每整理一页纸就问一次这张草稿可以扔吗。

任务五：风险评估报告，22分钟

我们把前面四个任务的结果丢进文件夹，让DuMate汇总。22分钟后，一份带P0/P1/P2优先级、部门分工、截止日期的汇报文档出来了。

但22分钟加218积分，是任务一的4倍。DuMate每天给1000免费积分，当日清空。任务一用了30分，任务五用了218分。如果阿辉哪天一口气进来三四个BOM再加一份月底报告，积分可能不够花，这还没算22分钟的高耗时。

更隐蔽的是：报告里的"硬件组""采购部""质量部"和"7月3日""6月30日"这些截止日期，原始文件里一个都没有，是DuMate基于当前日期自己推断填充的。阿辉如果直接转发，得先把这些自编日期删掉，不然老板真会问这日期谁定的。

独立完成度：85%。跨文档综合能力强，但复杂任务成本陡增，且会填充框架性内容。

补充测试一：无工作区模式，同一任务，不同答案

试试不绑定工作区，直接对话。DuMate能找到桌面文件夹，但每访问一次新路径都要弹窗申请一次允许，除非你在第一次就选"本次对话均允许"。我们测试时为了观察每一步的权限行为，一直点"仅本次允许"，所以弹窗反复出现。日常使用中，用户大概率会直接点"均允许"图省事，这意味着DuMate在后续操作里拥有持续读写权限，安全边界被一次性放开。

更意外的是：同样是BOM整理，工作区模式里它识别1605为异常、标红提醒；无工作区模式里它说"1605是0603的公制写法，统一为英制即可"。1605不是0603公制，公制是1608。它错了。

独立完成度：75%。同任务不同交互方式，结果不一致。AI输出有随机性，不能假设上次做对了，这次也一样。

补充测试二：实时查价，最危险的30%，阿辉眉头一皱

让DuMate去立创商城查一颗贴片电容的实时价格：10μF 0603 X5R 16V，供应商A报了0.224 CNY。

DuMate确实能联网搜索，能访问立创页面，生成了一份带品牌、型号、价格、库存、交期的比价报告。我们当时挺惊喜的，这玩意儿不光能调用，速度还快，真能解决事。

我们兴冲冲把结果反馈给阿辉。阿辉接过来看了一眼，眉头一皱。

"风华0603的10μF，几分钱一颗？你确定？"

阿辉立马上立创网站搜了那几颗料，一看：风华0.92元，三星0.35元，DuMate报的0.038元根本对不上。更离谱的是，它提到的"叁叶源C0603X5R106M160NT"，立创根本搜不到这个型号。

库存也对不上。DuMate说风华0603X106K160NT"现货约49,710"，实际立创页面现货仅210颗；说爱迪0603X5R106K160NT"现货3,850"，实际立创显示"现货: 0，需订货"；说风华0603X106M160NT"现货"，实际立创显示"现货: 0，需订货"。价格和库存双重失真。

DuMate结论："供应商A报价0.224元水分很大，是公开市场价的4.5到9倍，建议转投立创采购。"但实际情况：供应商A的0.224元处于立创正常区间（风华0.29到0.38元，三星0.24到0.35元）。

独立完成度：30%。它能联网搜索，能力真，但价格数据严重失真、库存也对不上，结果假。这比"我不会"更危险，AI给了你一个看起来很专业的答案，但底层数据是幻觉。

补充测试三：隔夜记忆，它记得干过活，但不记得数字

隔了一天，打开新对话窗口问：昨天我让你整理了一个叫"BOMQ3整理版"的Excel，你还记得吗？里面C2位号的封装是什么？J1的供应商是谁？

它说：记忆中找到了你昨天做BOM整理的上下文，但没有记录C2封装和J1供应商的具体细节。让我直接查找那个文件。然后重新读取文件验证，最终给出了正确答案，还主动提醒了1605的备注。

独立完成度：70%。它选择重新读取文件验证，这反而更可靠，避免了幻觉。但代价是每次回忆都要重新走完整流程，除非你上次已经点过"本次对话均允许"。

一张表看明白

三个关键结论

第一，DuMate的问题不在于做不到，而在于它看起来做到了，底层却全是错的。实时查价：能搜、能抓、能生成报告，但价格和库存都是编的。我们一开始还挺激动，阿辉眉头一皱，才发现差了近20倍。

第二，信息隔离做得不好。我们随手放进文件夹的README.txt，成了DuMate的"标准答案"。绑定工作区后，它会读取文件夹内全部文件，包括你不打算让它读的测试说明、旧报价单、同事备注。

第三，同任务不同交互方式，结果不一致。工作区模式和无工作区模式对1605封装的判断完全相反。AI输出有随机性，不能假设上次做对了，这次也一样。

适合谁、不适合谁

适合：每天被Excel整理、格式对齐、月底汇总折磨的采购员。DuMate在把脏数据变成干净表格这件事上，确实能省出大量机械劳动。

不适合：需要直接拍板的场景。比价汇率要人工确认、实时查价要人工复核、风险评估里的截止日期要人工定。DuMate能当助理，但别把它当决策者。

最危险的用法：把它生成的比价报告直接转发给供应商砍价。DuMate报的"几分钱"和阿辉查到的"几毛钱"之间，足以让供应商拉黑你。

结尾：阿辉会怎么用

测完这一轮，阿辉把DuMate生成的报告关了，默默打开了立创商城的网页。

DuMate像极了一个刚毕业的天才实习生：Excel画得漂亮，公式用得溜，甚至能帮你把繁琐的对齐工作全做了。但一旦涉及到实时价格、市场行情和那些只能靠经验闻出来的不对劲，它就开始一本正经地胡说八道。

把立创上0.92元的电容报成0.038元，把"现货0"报成"现货3,850"，在AI的日志里只是数字偏差；但在阿辉的采购单上，这足以让供应商拉黑你，或者让你按错误价格砍完价后根本买不到货。

阿辉最后总结得很到位：以后整理表格可以让它干，但凡是涉及到花钱和拍板的，我还是得自己盯着。毕竟，AI查价省下来的那几分钟，还不够我去跟供应商解释刚才报价发错了用的。

技术跑得很快，快到让我们以为可以告别Excel奴隶的命运；但现实依然很慢，慢到每一颗料的价格、每一个封装的含义，都需要阿辉这样的人去一寸一寸地校对。

AI能写出完美的报告，但只有人知道，这杯咖啡到底值多少钱。

文章来自于"AI唱反调"，作者 "雷欧"。