今天在咖啡店刷手机,看到一个小程序只要拍张菜单照,立马就出现了对应的英文、日文甚至手语字幕。说白了,这类多模态翻译模型已经从“只能看文字”变成“能看图、能听声、还能动手”。大家不禁想,接下来它们会怎么进化?
先说模型本身,巨量数据和更深的Transformer已经把“语言”这块玩得飞起,但要把图像、音频、甚至视频的特征塞进同一个向量空间,还得靠跨模态对齐技术。最近几家大厂都在搞“统一模型”,把视觉编码器和语言解码器合并成一套网络,省去中间的格式转换,延迟自然降下来。
想象一下,你在东京街头,手机直接把路牌、店铺招牌和店员的口音翻成中文,甚至还能帮你把点的菜名转换成日文菜单上的图片。再比如跨境电商,卖家上传产品视频,系统自动生成多语言字幕和文字说明,买家点开就能看到本地化的完整信息,省掉人工翻译的费用和时间。
不过,好事儿总有副作用。多模态模型需要海量标注数据,数据来源若是未经授权的图片或音频,可能会踩到隐私红线。再加上模型越大,算力成本越高,普通用户的使用费用可能会被抬高。还有一点,实时检索虽然方便,却容易把错误信息直接写进翻译里,导致“翻得好像把原文改了”。
总的来说,多模态翻译正从实验室走向生活,技术的每一步突破都像是给日常加了把“翻译钥匙”。不过,谁也看不准下一步会是啥。
参与讨论
这玩意真能实时翻手语?有点怀疑准确性🤔
低功耗芯片要是做不好,眼镜翻译就是个笑话
之前试过类似功能,路牌是翻了,但店员说话还是听不懂,延迟太高
数据隐私这块确实是个雷,用着有点不踏实
统一模型能降延迟这点挺关键的
跨国旅游时这功能就太实用了
我也超期待这个功能
拍菜单翻译那功能我试过,有时候把菜名翻得莫名其妙
实时检索虽好,翻译也可能跟着变乱码
检索越快,翻车可能越猛