用一颗摄像头打破AI录音笔固有形态,搜狗AI录音笔E2创新出发

韩璐 3周前 (11-13)

论一颗摄像头带给AI录音笔的变化。

时隔7个月左右,搜狗新一代AI录音笔E2也正式上市。

相较于上一代的E1,E2可以说是从内到外发生了变化,而相较于S1,两者的差别进一步被缩小,E2更是带来了创新性的功能。

最近一段时间,镁客网也拿到了一部“E2”,并进行了数天的深度测评:

用一颗摄像头打破AI录音笔固有形态,搜狗AI录音笔E2创新出发

体积缩小、屏幕变大……改头换面的E2

在拿到E2包装盒的一瞬间,如果忽略外壳产品图下面大大的“E2”两字,我或许会认为这是S1的升级版“S2”,之所以有这样的感觉,实在是因为E2在外观上与S1可以说是近乎一样。

当然,在打开包装盒后,两者之间的差别也是一眼就可看出,同时,E2与上一代E1的差别也可谓天差地别。

用一颗摄像头打破AI录音笔固有形态,搜狗AI录音笔E2创新出发

这一次,搜狗为E2配备的全面屏分辨率为340*800,足有3.46英寸,比之原先的1.54英寸大了一倍多,比之S1 3.5英寸的大屏不遑多让。需要注意的是,虽然屏幕大了,但是E2整体机身的大小比E1只小不大。

犹记得在E1的设计上,诸如录音键、多功能M键和电源键是排布在机身正面,并排于屏幕下方,而这一次,E2全面屏的设计,也使得这些功能件被安排分散在了机身左右侧。

用一颗摄像头打破AI录音笔固有形态,搜狗AI录音笔E2创新出发

图 | 搜狗AI录音笔E2机身右侧

具体来看,机身左侧为音量加减键以及电源键,右侧排列的是录音键、多功能M兼以及SIM卡槽,至于机身底部,则是充电口与3.5mm耳机孔。这其中,SIM卡槽的存在,意味着E2可以独立联网使用。

E2机身顶部与E1一样,依旧是采用镂空样式,除了扬声器,还配备2颗10mm心型哈曼指向麦,机身正面左右两侧对称分布了6个小细孔,内置6颗全向数字麦,从而形成8麦阵列,实现15m超远拾音和360°拾音。

就在屏幕的顶部中间,我们还能看到一个麦克风指示灯,它能够显示三种颜色,绿色闪烁代表录音正常,黄色亮起表示噪声太大,红色亮起则意味着讲话声太大。

值得说道的是,E2的背面带了点新花样——一颗800万像素摄像头,以及一个闪光灯,这也是E2此次在功能上最大的升级,具体如何,我们留到后面细说。

E2整体包装以白色为主,除了机身主体,另外还有Type-C接口充电(数据)线、取卡针以及一份说明书。

用一颗摄像头打破AI录音笔固有形态,搜狗AI录音笔E2创新出发

图 | 搜狗AI录音笔E2配件展示

E2机身则以黑色为主,配以红色、金色细节设计。因为整体材料以塑料为主,因此E2在重量上并没有什么负担,小巧便携到足以一手掌控,随踹随走、随用随拿。与此同时,后壳大面积采用TPU材料,这也使得E2具备了减震和防滑的能力,于日常使用十分友好。

此外,E2机身内存为32G,实际内存为29G左右,电池容量为2000mAh,能够持续录音10小时以上,对于学生、记者等用户群体闻言,这一存储空间和续航能力已经是绰绰有余。当然,若实在文件过多,用户也可以选择将部分文件上传至云端,如此也可在手机端、PC端和网页端做到多屏共享,实现多人、异地的内容同步。

依旧强悍的智能降噪能力,满足多样化场景需求

AI录音笔最为基础的功能就是“录音”,但是在某些时候,“录音”这一简单的事情却不会那么简单能够做到,比如遭遇周边环境音干扰,又或者对话者音量过低等等,这些都能够成为致使录音文件失效的因素。

在这一点上,E2很好的延续了E1、S1的强大基因。首先在面向的特定场景方面,E2与两位前辈一样,皆基于clairVoice8麦克风阵列算法提供四种录音模式,分别是会议、采访、听课和音乐:

会议和采访模式中,用户只需将E2平放在桌面,即可实现360°拾音;

听课模式中,将E2的顶端指向声源,可做到定向拾音;

音乐模式中,同样是将E2的顶端指向声源,可做到高保真拾音,与此同时,搜狗也贴心的为用户提供了MP3等5种录音格式选择。

另外,利用pureVoice AI降噪算法,E2也提供三种降噪模式(音乐模式不支持该功能),分别是真实音质(保留真实人声和环境音)、人声增强(过滤环境音,显著增强人声)、纯净人声(深度删除环境音,仅保留人声),让用户在使用过程中能够依据自身需求进行选择。

用一颗摄像头打破AI录音笔固有形态,搜狗AI录音笔E2创新出发

图 | 搜狗AI录音笔E2录音模式与降噪方式

选定录音模式和降噪方式之后,用户短按录音键即可一键开始录音,过程中可随时更换语种,以及暂定或继续录音。当录音结束并保存本地之后,用户可点击机身屏幕主页面的“录音文件”查看录音情况,若先前忘记选择降噪方式,用户也可点击录音详情页下方的“降噪方式”,打开“纯净人声降噪”以听取降噪处理之后的录音。

针对这一功能,镁客网也以一段会场采访录音做了实验,在“纯净人声降噪”功能关闭的情况下,录音中周边稀稀落落的交谈声和偶尔的碗碟碰撞声能够清晰听到,但当打开降噪功能后,我们能够听到的只剩下纯净的人声,对于之后录音转换文字的整理还是能够提供一些帮助的。

除了听声识字,E2还学会了“看图说话”

相比于传统录音笔,AI录音笔最大的特色在于语音识别与转写、中外文互译。

实时转写方面,E2当前共支持包括中文在内的11种语言和11种方言,覆盖基础的英文、韩语、日语、德语,以及粤语、四川话、南京话、贵州话等等。

过程中,用户也可以根据实际情境任意切换语言或语种,从而保证录音的完整性和准确度。

值得一提的是,因为前面提到的摄像头,实时转写也多了一个功能——图片实时拍摄与插入。基于这一功能,用户将能够同步记录声音与画面。而在实时转写结束后,用户也可以将该录音文件中的图片进行“文字提取”处理,不过该功能的启用需要一个前提,即录音文件已经作转写处理。

用一颗摄像头打破AI录音笔固有形态,搜狗AI录音笔E2创新出发

图 | 图文提取gif

官方介绍称,OCR技术共可识别13种图片语言。而在实时转写之外,用户也可以打开E2的摄像机拍摄文档、路标等,做到“拍照秒变文字”。基于这一功能,即使以后走出过门语言不通,只要E2在手,也不怕因为不会读、看不懂文字而抓耳挠腮了。

至于转写的速度,镁客网以一段时长39分钟的录音进行测试,原始录音文件以中文为主,间杂少许英文词汇,转换过程总共不超过3分钟。为了进一步提高转换文字的精准度和可读性,减少不必要的口语化词汇等等,用户也可以点击左下角的“智能整理”,选择区分讲话人(机主可提前录入自己的声纹信息以加强区分精准度)、智能辅助校正、隐藏空录音等功能。

依据E2的官方介绍,它一共可精准识别8种专业领域数据,覆盖财经贸易、医疗、IT科技、政府、文化体育、工业制造、建筑、教育,在“转写确认”界面,用户可依据实际情境进行选择。

当然,与E1和S1一样,M键在实时转写过程中也承担着“划重点”的作用,若是有遗漏,也可在录音文件转写之后回听录音,并利用M键一键标记重点。

用一颗摄像头打破AI录音笔固有形态,搜狗AI录音笔E2创新出发

图 | 搜狗AI录音笔E2重点标志

除了用户自行标记重点,系统在转写录音的过程中也会智能提取重点,并排列成摘要,供用户后期查阅和快速定点回听。只不过相较于用户自己所标注的,系统的重点提炼在精准性上还存在那么一点欠缺。

整体来看,录音文件转写在识别精准度上较之实时转写有所提升,虽然还存在些许误差,不过尚在接受范围内。当然,如果强迫症患者实在看不下去,也是可以边回听边进行编辑调整的。出于对观感、编辑便利性以及效率的考虑,用户在编辑的过程中也可以点击“智能控制”调整字体大小以及录音播放倍速。

此外,若用户急需在众多保存的录音中找到某一段,也可长按M键唤醒智能语音助手,经由语音交互找出自己想要的录音记录。

用一颗摄像头打破AI录音笔固有形态,搜狗AI录音笔E2创新出发

图 | 搜狗AI录音笔E2智能助手

翻译方面,E2提供四种模式,分别是对话翻译、自由对话翻译、同声传译和拍照翻译,前三者可以提供63种语言互译服务,最后一个涉及到OCR识别,因此只能提供13种语言的互译,覆盖全球200多个国家和地区。

离线状态下,E2支持8种语言的中外互译,只需提前下载离线包即可。

用一颗摄像头打破AI录音笔固有形态,搜狗AI录音笔E2创新出发

图 | 搜狗AI录音笔E2离线翻译包

对话翻译模式中,录音键和M键将各自承担一种语言的录入工作,在具体的应用过程中,需要用户长按按键以采集对应语种,继而由系统识别并翻译成另一种语种。对于两个语言不通的交流者而言,利用录音笔进行逐个转写或许会耗费些时间,但能有效避免交谈过程中因语音来回交叉而带来的错乱问题,保证内容的准确性。

在上一代,对话翻译模式仅支持中文与其他语言的翻译,升级到现在,63种语言之间的互译已经不成问题。

用一颗摄像头打破AI录音笔固有形态,搜狗AI录音笔E2创新出发

图 | 搜狗AI录音笔E2可翻译语种(部分)

自由对话翻译模式中,将录音笔两段分别指向双方讲话人,系统即可自动识别双方讲话状态并录音、中英互译,无须手动操作即可满足跨语言采访、交流等长时间交流的需要。当然,保持更为严谨一点的态度,用户也可以在对话界面右上角的设置中打开“手动打断”按钮,届时哪方说话就点击哪方的对话框,一段结束之后,再由另一方点击自己这边的录入框以录入语音。

或许会有人觉得,这样一来的翻译方式不就与对话翻译模式类似吗?其实不然,不管是录入方式的便利程度,以及双方对于交流内容的理解程度都是不一样的。换一种说法,前者更适合应用于与陌生人的对话,譬如问路等场景,后者更适用于合作伙伴、朋友之间的交流互动。

视频 | 自由对话翻译

相比于对话翻译,同声传译不需要用户在过程中长按某个键,点击屏幕顶端即可调换翻译方向。若中途需要暂停/继续,只需短按一下录音键即可,适用于单方面的发言录入,譬如演讲、上课等等。

从测试结果来看,在发音正常的情况下,E2的识别和翻译准确度接近完美,些微差错也在可接受范围内。

至于拍照翻译,正如字面意思,只需要打开摄像头对着文档拍一张照片,上传成功之后即可实时翻译成另外一种语言。如若需要的话,用户也可以点击界面的“纯文本”按钮,从而直接查看文本信息,而不是对着照片查看比蚂蚁还小的译文。

用一颗摄像头打破AI录音笔固有形态,搜狗AI录音笔E2创新出发

图 | 拍照翻译gif

总结

众所周知,录音笔市场一直都是相对小众的,主要受众群体集中在新闻媒体、政府、事业单位等。

依据中国报告网数据,国内录音笔市场呈现行业发展缓慢、替代风险大等特点,一句话概括,因为手机等数码产品的冲击等因素,国内录音笔市场长时间处于“供过于求”的境遇。

对于这一点,搜狗CEO王小川也予以承认,他此前曾提到,以前录音笔是专业小众市场,记者用的多一些,注入AI后,重新焕发活力,会有更大的想象空间。

而从目前的情势来看,显然,在AI能力的加持下,录音笔领域的竞争正在从刚性需求转向消费分级。此时,搜狗创新性的为AI录音笔增加一颗摄像头,在颠覆过往录音笔传统形态的同时,也为录音笔未来的升级增添了更多的可能性。

最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!

镁客网


科技 | 人文 | 行业

微信ID:im2maker
长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

分享到