豆包输入法Mac版正式上线,所有人都该试试AI语音输入了...
type
status
date
slug
summary
tags
category
icon
password
网址

豆包输入法的Mac版,终于正式上线了。
我自己已经内测使用了快1个月了,但是我等这一天,也真的等了好久好久。
因为这篇文章我想写很久了,但是一直没写就是因为,对于大众用户来说,之前还一直没有一个比较好的产品能让大家去随便的体验语音输入法,所以一直在等豆包输入法上线,然后再发,这样其实所有人就都可以开始把这种方式用起来了。
所以,我今天也终于可以推荐大家,都使用豆包输入法的语音输入,来在电脑上,跟你的AI进行对话了。
不只是在手机上。
在电脑上也是。
我给大家看看,我现在每天在Mac上vibe coding的装备。
一台Mac Mini,一个触屏的屏幕,一个麦,一个自定义的6键宏键盘,配合Mac上的豆包输入法,直接搞定一切。
我之前写过一篇文章,叫AI时代,为什么我极力推荐你开始写日记?,那篇文章里我就提到了,记日记最好的方法是口述,不要写,打开备忘录,用豆包输入法,按住语音键,想到什么说什么,两三分钟说完,语音自动转成文字。
那篇文章发出去之后,很多读者留言说,试了,真好用,回不去了。
但那篇聊的是日记场景,但今天我想把这个观点往前再推一步,我想说,不光是记日记,其实你跟AI的很多对话,你日常工作中的大量文字输入,都可以尝试使用语音输入来完成。
因为如今,语音输入法开始逐渐变得成熟,在AI加持之下,识别准确度还有纠错能力、去口水词之类的能力,都还有蛮大的提升的,我觉得已经到了一个从极客圈开始向外普及的过程。
我不知道大家,但是很多老读者可能都知道,我是一个非常典型的I人,I的浓度占比高达96%的INTJ。
过去这么多年,我一直是能打字就绝对不张嘴,跟朋友聊天打字,跟同事沟通打字,跟AI对话还是打字。
所以在很长一段时间里,语音输入这四个字对我来说,约等于社恐禁区。。。
但是,大概从去年下半年开始,我开始大量的进行vibe coding还有一些高强度任务之后,发现了一个让我很难受的问题。
就是我跟Claude对话的时候,我打字的速度,严重拖慢了我跟AI进行交互的速度,甚至可能还会影响输出的质量。
正常人说话的速度,中文大概是每分钟200到300字,快的时候能到350。而打字呢,普通人大概是每分钟40到60字,熟练的能到80或者90。
也就是说,语音输入的速度,是打字的3到5倍。
而很多时候,我们如果都想给AI更多的的信息,纯靠打字的话,让你写500字,可能真的是种折磨,很多人其实就是,提笔忘字,一篇空白。
但是如果你让他说500字,那可能瞬间就滔滔不绝了,这其实是大脑推理机制的问题。
我之前几乎不会给AI一个上百字的输入,我当然知道给的上下文越多输出越精准,但,我是真的懒啊,你让我敲一个上百字的小作文,我是真的累啊。
我第一次真正意识到这个差距,是去年12月份,有一次晚上躺在床上,用语音给Claude描述一个我正在做的项目的需求,我当时真的懒得打字了,于是那是我第一次,克服了我的社恐障碍,反正我家里就我一个人。
那时候豆包输入法手机版应该上线没多久,我第一次打开了它,然后说了大概三分钟,这一说就一发不可收拾,说了项目背景、目前遇到的问题、我试过的几种方案、每种方案分别卡在哪里、我理想中的解决思路是什么样的。
我一边说豆包输入法一遍流式出文字,最后差不多将800字左右。
我当时都懵了,我我居然心流式的输出了3分钟,居然输出了800字,这是我可能打字给AI,永远都写不出来的长度。
Claude那一轮给的回复,质量比我平时打字对话好太多了,因为它拿到了足够多的输入,给了我几乎最准确最棒的回答。
那一刻我就明白了一件事,在如今大模型智力程度已经飞跃到今天这个是简单,你跟AI对话,你输入的信息量,远比精准度和结构化程度重要。
因为AI的强项就是从一堆杂乱的信息里提取关键信息、梳理逻辑、找到你真正要的东西。
这就好像你去看医生,你跟医生说我肚子疼,医生能做的很有限。
但你跟医生说“我昨天吃了顿火锅,晚上12点开始肚子疼,一开始是左边疼后来变成整个肚子都疼,今天早上拉了两次还有点发烧,之前也偶尔会这样但没这次严重”,医生就能判断个八九不离十了。
跟AI对话其实是一个道理。
而语音输入,天然就能帮你做到这一点,因为你来不及编辑。
我之前那篇日记的文章里就说过这个观点。
就是打字的时候,你的大脑里有一个编辑在实时工作,它会帮你润色、修剪、美化、克制,这个编辑在你写公众号文章的时候很有用,但在你跟AI对话的时候,它就是你最大的敌人。
回到今天的主角,豆包输入法。
我先说一下前情提要,我从去年就开始在手机上用豆包输入法的语音功能了,当时就觉得很惊艳。但手机端的语音输入其实大家选择还挺多的,坦率的讲,微信输入法、讯飞、搜狗,都还行。
但电脑端,那真的就难受的飞起了。
电脑端的比较好用的语音输入,坦率地讲,长期以来就是一片荒漠。
我当然知道有些付费的语音输入法产品,但说实话虽然我已经在AI上花了很多很多钱了,但是在AI时代要付费的东西实在太多了,我真的不太想为了一个输入法再多一笔订阅。
然后之前我常用的微信输入法,也上了AI语音识别,但坦率的讲,识别率不太稳定。我试过好几次,尤其是你离Mac的麦克风稍微远一点,或者白天办公室有点环境音,错别字就开始冒出来了。
所以在豆包输入法Mac版出来之前,我在电脑上其实一直还是比较割裂的状态,毕竟我的大部分工作场景,还是电脑啊。
然后今年3月底的时候,豆包输入法Mac版的内测版悄悄出来了,我当时也第一时间申请了内测,装上了安装包。
在用了一个月之后,我想说,它不仅免费,而且,跟很多付费的产品相比,体验更是一样好。
而现在,大家也终于,全都可以用上了,而且,不止语音输入,拼音双拼啥的全都有,非常的完整。
网址在此:https://shurufa.doubao.com/pc
你下载打开以后,直接安装。
然后就会提示你,安装完成了。
你就可以在你的顶部输入法那个栏目这,点开,就可以看到豆包输入法了。
我们先点进去上面的豆包输入法的设置界面。
所有的东西基本都不太需要动。
唯独有一个东西,就是快捷键那,你可以随便预设一个你喜欢的键。
我个人习惯问题,我直接设成了右边的Option键。
我那个宏键盘,其中一个按键也是映射的这个键,这就是标准的豆包输入法说话键。
使用起来也究极简单,就两种输入方式。
第一种就是长按你的快捷键,比如我是右Option键。
你就按住就行了,这时候,你的屏幕下方就会出现一个小条,代表正在输入中了。
按住就是语音输入,松开就是输入完毕,这个逻辑很好理解对吧。
然后还有另一种模式,就是有些朋友,可能嫌一直按着太累,那也有办法。
你直接双击快捷键,就会变成这样。
这个时候,你就不需要按着了,你就可以直接开始口喷输出,当你觉得说完了的时候,直接再次双击结束。
然后豆包的流式输出做的非常的好,就是你按住快捷键开始说话,文字是实时往外吐的,你一边说一边就能感觉到,文字好像在输入框里哗哗地流淌出来。
我直接给你做个示例,看看这个延时,你就懂了。
丝滑,无敌丝滑。
而且识别精准度极高,几乎不需要我改任何字和词,完全可以直接用。
我开始使用的时候,其实还有点不放心,在想着要不要确认一遍再发,后面发现中文场景下,几乎都是对的,所以后来就再也没确认过了。
Codex其实前段时间也上线了自己的语音输入,类似于一个输入法,你直接设好快捷键,按住一样可以用语音输入。
但是Codex它的输入体验,就真的不是特别好了,我给大家录个屏实际看看,这个输入的条其实跟豆包输入法的有点像。
讲真的,当你习惯丝滑无比源远流淌、说完即输入完的体验之后,你肯定再接受不了这种录音然后转文字的感觉慢慢的输入法了。
然后还有一个细节是,你在输入的时候,它也会自动的去优化一些你的输入,比如你说"这个项目的预算大概是...不对,应该是三十万",他会实时识别到你的在纠正自己,他也会帮你直接改成正确的,这个很牛逼,你脑子里的想法和屏幕上的文字之间的延迟几乎消失了。
然后还有一个对我很重要的能力,就是中英混说。
因为AI行业没有办法,就是有很多很多的你很难用中文表达的英文,比如ChatGPT、Claude、Skill、OpenAI、Harness、Promtp之类的。
但是我的英文又极烂,但是在我如此之烂的口语情况下,绝大多数的英文,居然还是可以识别对。
里面所有的英文单词都没有错误,甚至seedance还自动缩写成了SD。
对于我这种英文苦手来说,真的非常非常友好。
而且有的时候,skill这个发音,我确实就发不准,但是你也可以通过都自动纠正功能给它改了,就是你错一次以后,你手动改一下,你后面再动,就不会错了。
比如这是我的母公司名,叫虚实空际,你如果是第一次输入,或者其他的输入法正常去打,是百分百会错的。
但是因为我之前纠正过,所以我现在去说这个单词,豆包输入法就会自动的帮我改成虚实空际。
这是AI自己帮我改的,可不是我人改的,正是因为我以前纠正过,所以就不会再错了。
还有skill这个单词也是,我一生之敌,经常念不对,但是你纠正过一次以后,也就不会有问题了。
真的很强,你会发现,当你用的越久,这个输入法,就会越用越准越用越懂你,你的语音输入,也会越来越准,越来越不需要修改。
因为每个人的高频词汇表其实是不一样的,AI输入法如果不能学习你的用词习惯,用久了依然会有一堆需要手动改的地方的话,那体验就真的差太多了。
而且豆包输入法有个点做的很好,在手机上体验就不错,就是轻声抗噪。
这个其实解决了I人很重要的顾虑,就是我在办公室不好意思出声怎么办。
豆包输入法有轻声模式,你就小声嘟囔,它也能识别,我在办公室试过,压着嗓子说话,离电脑大概半米远,识别率也基本没怎么掉。
同事在旁边根本听不清我在说啥,但屏幕上的字还是哗哗出来,另外就是抗噪,咖啡馆的背景音乐、键盘敲击声、偶尔路过的同事聊天声,这些杂音它都能过滤掉,专注识别你的声音,这个还是蛮香的。
以上这些点叠在一起,我也觉得可以给你推荐,转向使用语音跟AI交互的时机了,而豆包输入法,确实就是现在最合适大家更适合如你我一般的普通用户的。
我上一篇日记的那篇文章的结尾说,从今天开始,记日记吧。
那今天这篇文章的结尾,我想说。
从今天开始,张嘴说话吧。
相信我,别再跟你的键盘,较劲了。
文章来自于微信公众号 "数字生命卡兹克",作者 "数字生命卡兹克"
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)