站长之家 - 业界 2023-12-05 11:33

Google 升级 Gmail 人工智能垃圾邮件过滤器:RETVec 现能有效识别并处理「对抗性文本操纵」

站长之家(ChinaZ.com) 12 月 5 日消息:Google 在其安全博客上宣布,Gmail 的垃圾邮件过滤功能经历了近年来最大规模的升级。这一升级主要体现在一种名为 RETVec(Resilient & Efficient Text Vectorizer,弹性高效文本向量化器)的新文本分类系统上。

谷歌,google

Google 表示,RETVec 能有效识别并处理「对抗性文本操纵」,这类邮件通常包含特殊字符、表情符号、拼写错误和其他杂乱字符,过去这些内容对人类而言易于理解,但机器难以辨识。

此前,包含大量特殊字符的垃圾邮件往往能轻易绕过 Gmail 的防御。但随着 RETVec 技术的升级,用户反映表示近几个月这类邮件不再是问题。

RETVec 的独特之处在于,它不仅能够处理像「恭喜!您的彩票账户中有 1000 美元余额」这样的直接的垃圾邮件,还能识别出更为复杂的「对抗性文本操纵」。例如,邮件主题「𝐂𝐡𝐞𝐜𝐤_𝐘𝐨𝐮𝐫_𝐀𝐜𝐜𝐨𝐮𝐧𝐭」之所以看起来加粗,是因为它使用了类似「数学粗体大写 C」这样的 Unicode 字符。这些字符虽然看似普通拉丁字母,但实际上并非如此,使得传统垃圾邮件过滤器难以识别。

Google 表示,RETVec 的高效性体现在其对字符级操纵的弹性,包括字符插入、删除、拼写错误、同形异义字、LEET 替代等。RETVec 模型基于一种能够高效编码所有 UTF-8 字符和单词的新型字符编码器。因此,RETVec 能够立即适用于 100 多种语言,无需查找表或固定的词汇量

Google 强调,与使用固定词汇量或同形异义字查找表的传统方法相比,RETVec 的资源利用率大大降低。此外,RETVec 的开源特性使其有望广泛应用于世界各地,消除同形异义字攻击的威胁。

RETVec 采用类似于人类阅读的方式,通过机器学习 TensorFlow 模型识别单词的视觉「相似性」,而非其实际字符内容。Google 的测试表明,使用 RETVec 替换 Gmail 垃圾邮件分类器原有的文本向量化器,使得垃圾邮件检测率提高了 38%,误报率降低了 19.4%。同时,RETVec 的部署使模型的 TPU 使用率降低了 83%,使其成为近年来最大规模的防御升级之一

据 Google 透露,RETVec 已在内部测试了一年时间,并已经部署到用户的 Gmail 账户中。

推荐关键词

24小时热搜

查看更多内容

大家正在看