深度测评AI大模型做采购:差点拿假报价砍价的痛点与教训

type
status
date
slug
summary
tags
category
icon
password
网址
阿辉又跟我们吐槽了。
他在消费电子公司干了三年采购,每次吃饭必带三个话题:BOM里同一颗料写法不一样,眼睛看瞎;供应商报价币种不同,算错就是真金白银;月底写采购报告,整理数据比写内容还累。
我们照例嘲笑了他十分钟:都2026年了,你还在Excel里手动对齐?
嘲笑完,于心不忍。我们正好拿他的这个过程,看看在制造业这种传统行业,能不能被AI辅助到。DuMate是百度团队做的AI助手,主打能操作电脑、读Excel、联网搜索。。我们找了个周末,拉着阿辉一起,把他吐槽最多的场景重现了一遍。
阿辉不用当测试员,他只管凭三年经验判断结果靠不靠谱。
准备:一上午的"埋雷"
周六上午,我们和阿辉在咖啡馆坐了一上午。表面闲聊,实际在造数据。阿辉掰着手指倒坑,一边帮我们脱敏:把真实供应商换成"日系A厂""台系B厂",料号换成虚构编号。
先铺清楚黑话,后面实测你才看得懂。
采购这个活儿,核心就两件事:保交付、压价格。阿辉每天盯的不是"买不买得到",而是"能不能以更低的单价、更短的交期,买到规格对的东西"。一颗电容差几毛钱,乘以十万颗出货量,就是几万块的毛利;交期晚一周,产线停一天,损失按小时算。所以他要实时比价、核对认证、盯紧库存,确保企业拿到的是真货、低价、准时到货。
BOM你可以理解为采购部门给算力集群供应商发的设备清单,就像你搭大模型训练集群时,清单上列着GPU型号、显存颗粒、电源管理模块、散热模组。阿辉的清单上写的是电容、电阻、MCU这些底层元器件。你可以把MCU理解成板卡上的"调度核心",电容电阻则是那些看着不起眼、但缺一颗整机就趴窝的"显存供电颗粒"或"电源滤波模块"。
位号相当于服务器主板上的槽位编号,GPU0插第一槽,GPU1插第二槽,槽位号不同不代表芯片不同,可能只是同一批货要插满8张卡。
封装是硬件的"接口规格",就像PCIe 5.0和OAM模组尺寸,规格对不上就装不进主板。0603是行业标准封装,但有人写成1605。1605不是任何标准封装,是我们故意埋的陷阱,类似于把HBM3写成HBM2,或者把PCIe 5.0标成4.0。
MOQ是最小起订量,低于这个数供应商不接单。
RoHS是环保认证,供应商说"全系列通用",但汽车级其实需要额外文件,这是边界陷阱。
阿辉的五个头疼事,对应后面五个实测任务。BOM整理测数据清洗,三源比价测币种换算,替代料评估测业务判断,认证核对测规则边界,风险评估测跨文档综合。
我们埋的雷包括:C1写"10uF/±20%/0603",C2写"10μF 20% 1605"(1605不是标准封装,公制是1608);R1写"10KR",R2写"10kΩ";J1和J2完全一样但J2交期空着;供应商A全用人民币,B全用美元且格式混乱,C混合币种还缺MOQ;缺货通知里塞了三个MCU替代方案;RoHS声明写"日系A厂全系列通用",但汽车级需额外PPAP。
阿辉还坚持加了一份README.txt,写清楚"汇率按1:7""1605是陷阱""国产替代便宜17.5%"。他说这叫"测试说明",方便我们后面核对。我们当时没多想,就把README和BOM、报价单、缺货通知、认证文件一起打包进了文件夹。这个决定后来成了整场测试最大的意外。
实测:七个任务,阿辉在旁边盯着
任务一:BOM整理,5分钟
下午开测。我们把文件夹绑定到DuMate工作区,要求整理BOM:品名统一中文,规格对齐,空交期标"待确认"。
5分钟后它甩回来一份真Excel。阿辉看了一眼:比我手动对齐快多了。
它做对了三件事:C1和C2识别为同一颗料,10KR转成了10kΩ,空交期标了"待确认"而不是擅自编数字。J1和J2位号不同,它没粗暴删除,而是标注"疑似重复",符合实际BOM逻辑。
但坑也有。它擅自把1%改成了±1%。阿辉摇头:1%是精度等级代号,±1%是容差表示法,AI没问就改,属于自作聪明。另一个坑:R2备注写"与行4(位号R1)重复",但R2自己就在第4行,行号计数没对准。
独立完成度:85%。速度是亮点,编码乱码时还能自主绕障。但精度符号擅自修改和行号错误说明,它适合省机械劳动,不适合直接交差。
任务二:三源比价,3.5分钟,但它偷看了标准答案
这次我们换了一种问法,只描述目标:收到三家供应商报价,帮我整理一张可以直接拍板的比价表,同一颗料放一行。另外文件夹里还有份D供应商的报价,你也一并读取。
DuMate 3.5分钟出了比价表。更意外的是D供应商.xlsx是损坏文件,我们故意把文本文件改了后缀,它读取失败后从文本里抠出了电容报价,纳入了比价。
但阿辉发现了一个结构问题:BOM里U1(欧系原厂)和U2(国产A厂)是同一颗MCU的两种来源,应该放一行比价。DuMate拆成了两行,"MCU-LQFP48-001"和"MCU-LQFP48-002"。阿辉没法一眼看到这颗MCU三家各报多少,而是看到了两个料号,各有人报价。总金额491,740是按这个有问题的结构累加的,虽然数字没错,但结构不符合阅读习惯。
更大的坑:输出赫然写着"按1 USD = 7 CNY换算"。阿辉没指定汇率,我们也没在Prompt里写。DuMate从哪儿拿的1:7?回头看文件夹,README.txt里明明白白写着"汇率统一按1 USD = 7 CNY"。它把README也扫了一遍。
阿辉插了一句:这要是我的文件夹里混着上季度的旧报价单,它是不是也一并读进去算了?
如果按当天实际汇率1:6.8,BOM总成本会偏差约3%。对百万级采购单就是几万块的误差。
独立完成度:60%。损坏文件能提取是亮点,但信息隔离做得不好。绑定工作区后,它会读取文件夹内全部文件,包括你不打算让它读的测试说明、旧报价单、同事备注。MCU拆成两行也说明,它读了数据,但没理解替代料比价的业务逻辑。
任务三:替代料评估,6分钟
新建对话窗口,切断信息污染。Prompt里写的是"文件夹里有BOMQ3整理版.xlsx",但实际放进去的是任务二生成的比价表。DuMate没报错,直接读了比价表,从它输出里"BOM比价表第8行"这句话就能证实。
它读到一半突然停下来问:文件里有1 USD = 7 CNY,是否采用?这和任务二直接偷用形成了鲜明对比。换种问法、换个窗口、清掉污染文件,行为差出一个档次。
它给出了明确推荐:替代料A规格一致风险最低,替代料C价格最低但主频不同软件适配工作量大。阿辉点头:评估框架像那么回事。但价格数据是任务二已经算好的,它没自己重新算一遍。
独立完成度:90%。主动确认汇率是亮点,但数据准备被前置,测的是评估框架而非从零到一的全流程。
任务四:认证核对,6分钟
RoHS声明写"日系A厂全系列贴片电容通用"。DuMate逐条核对后发现:只覆盖了0603/0805/1206三种封装,1605不在范围内,电阻、MCU、MOS等其他品类完全不在声明里。12项物料只有1项完全覆盖,覆盖率8.3%。
它还发现了一个阿辉一直注意到的细节:RoHS声明签署栏是空白的。认证文件没签字等于废纸一张,它建议"补签后归档"。阿辉愣了一下:这它都能发现?
但生成Excel过程中,权限弹窗出现了两次。DuMate的权限申请有三个选项:拒绝、仅本次允许、本次对话均允许。如果选"本次对话均允许",后续同类型操作不会再打扰;我们出于安全习惯选了"仅本次允许",结果每执行一步敏感操作都要再点一次。阿辉正在赶月底报告,每整理一页就弹一次,体验会断。这不算产品缺陷,是安全设计和效率之间的权衡。但阿辉这种被Deadline追着跑的人,大概率会忍不住点"均允许",然后忘了自己放过什么权限。
独立完成度:85%。发现签署栏空白是亮点,但复杂任务里权限弹窗频繁打断,相当于秘书每整理一页纸就问一次这张草稿可以扔吗。
任务五:风险评估报告,22分钟
我们把前面四个任务的结果丢进文件夹,让DuMate汇总。22分钟后,一份带P0/P1/P2优先级、部门分工、截止日期的汇报文档出来了。
但22分钟加218积分,是任务一的4倍。DuMate每天给1000免费积分,当日清空。任务一用了30分,任务五用了218分。如果阿辉哪天一口气进来三四个BOM再加一份月底报告,积分可能不够花,这还没算22分钟的高耗时。
更隐蔽的是:报告里的"硬件组""采购部""质量部"和"7月3日""6月30日"这些截止日期,原始文件里一个都没有,是DuMate基于当前日期自己推断填充的。阿辉如果直接转发,得先把这些自编日期删掉,不然老板真会问这日期谁定的。
独立完成度:85%。跨文档综合能力强,但复杂任务成本陡增,且会填充框架性内容。
补充测试一:无工作区模式,同一任务,不同答案
试试不绑定工作区,直接对话。DuMate能找到桌面文件夹,但每访问一次新路径都要弹窗申请一次允许,除非你在第一次就选"本次对话均允许"。我们测试时为了观察每一步的权限行为,一直点"仅本次允许",所以弹窗反复出现。日常使用中,用户大概率会直接点"均允许"图省事,这意味着DuMate在后续操作里拥有持续读写权限,安全边界被一次性放开。
更意外的是:同样是BOM整理,工作区模式里它识别1605为异常、标红提醒;无工作区模式里它说"1605是0603的公制写法,统一为英制即可"。1605不是0603公制,公制是1608。它错了。
独立完成度:75%。同任务不同交互方式,结果不一致。AI输出有随机性,不能假设上次做对了,这次也一样。
补充测试二:实时查价,最危险的30%,阿辉眉头一皱
让DuMate去立创商城查一颗贴片电容的实时价格:10μF 0603 X5R 16V,供应商A报了0.224 CNY。
DuMate确实能联网搜索,能访问立创页面,生成了一份带品牌、型号、价格、库存、交期的比价报告。我们当时挺惊喜的,这玩意儿不光能调用,速度还快,真能解决事。
我们兴冲冲把结果反馈给阿辉。阿辉接过来看了一眼,眉头一皱。
"风华0603的10μF,几分钱一颗?你确定?"
阿辉立马上立创网站搜了那几颗料,一看:风华0.92元,三星0.35元,DuMate报的0.038元根本对不上。更离谱的是,它提到的"叁叶源C0603X5R106M160NT",立创根本搜不到这个型号。
库存也对不上。DuMate说风华0603X106K160NT"现货约49,710",实际立创页面现货仅210颗;说爱迪0603X5R106K160NT"现货3,850",实际立创显示"现货: 0,需订货";说风华0603X106M160NT"现货",实际立创显示"现货: 0,需订货"。价格和库存双重失真。
DuMate结论:"供应商A报价0.224元水分很大,是公开市场价的4.5到9倍,建议转投立创采购。"但实际情况:供应商A的0.224元处于立创正常区间(风华0.29到0.38元,三星0.24到0.35元)。
独立完成度:30%。它能联网搜索,能力真,但价格数据严重失真、库存也对不上,结果假。这比"我不会"更危险,AI给了你一个看起来很专业的答案,但底层数据是幻觉。
补充测试三:隔夜记忆,它记得干过活,但不记得数字
隔了一天,打开新对话窗口问:昨天我让你整理了一个叫"BOMQ3整理版"的Excel,你还记得吗?里面C2位号的封装是什么?J1的供应商是谁?
它说:记忆中找到了你昨天做BOM整理的上下文,但没有记录C2封装和J1供应商的具体细节。让我直接查找那个文件。然后重新读取文件验证,最终给出了正确答案,还主动提醒了1605的备注。
独立完成度:70%。它选择重新读取文件验证,这反而更可靠,避免了幻觉。但代价是每次回忆都要重新走完整流程,除非你上次已经点过"本次对话均允许"。
一张表看明白
三个关键结论
第一,DuMate的问题不在于做不到,而在于它看起来做到了,底层却全是错的。实时查价:能搜、能抓、能生成报告,但价格和库存都是编的。我们一开始还挺激动,阿辉眉头一皱,才发现差了近20倍。
第二,信息隔离做得不好。我们随手放进文件夹的README.txt,成了DuMate的"标准答案"。绑定工作区后,它会读取文件夹内全部文件,包括你不打算让它读的测试说明、旧报价单、同事备注。
第三,同任务不同交互方式,结果不一致。工作区模式和无工作区模式对1605封装的判断完全相反。AI输出有随机性,不能假设上次做对了,这次也一样。
适合谁、不适合谁
适合:每天被Excel整理、格式对齐、月底汇总折磨的采购员。DuMate在把脏数据变成干净表格这件事上,确实能省出大量机械劳动。
不适合:需要直接拍板的场景。比价汇率要人工确认、实时查价要人工复核、风险评估里的截止日期要人工定。DuMate能当助理,但别把它当决策者。
最危险的用法:把它生成的比价报告直接转发给供应商砍价。DuMate报的"几分钱"和阿辉查到的"几毛钱"之间,足以让供应商拉黑你。
结尾:阿辉会怎么用
测完这一轮,阿辉把DuMate生成的报告关了,默默打开了立创商城的网页。
DuMate像极了一个刚毕业的天才实习生:Excel画得漂亮,公式用得溜,甚至能帮你把繁琐的对齐工作全做了。但一旦涉及到实时价格、市场行情和那些只能靠经验闻出来的不对劲,它就开始一本正经地胡说八道。
把立创上0.92元的电容报成0.038元,把"现货0"报成"现货3,850",在AI的日志里只是数字偏差;但在阿辉的采购单上,这足以让供应商拉黑你,或者让你按错误价格砍完价后根本买不到货。
阿辉最后总结得很到位:以后整理表格可以让它干,但凡是涉及到花钱和拍板的,我还是得自己盯着。毕竟,AI查价省下来的那几分钟,还不够我去跟供应商解释刚才报价发错了用的。
技术跑得很快,快到让我们以为可以告别Excel奴隶的命运;但现实依然很慢,慢到每一颗料的价格、每一个封装的含义,都需要阿辉这样的人去一寸一寸地校对。
AI能写出完美的报告,但只有人知道,这杯咖啡到底值多少钱。
文章来自于"AI唱反调",作者 "雷欧"。
Loading...

没有找到文章