澳门太阳娱乐-澳门太阳娱乐手机登录
做最好的网站

分辨表情包里的失当内容,却难解内涵

日期:2019-11-28编辑作者:互联网科技

原标题:Facebook 利用 AI 识别表情包里的不当内容

9月15日消息,《连线》网站撰文指出,Facebook名为Rosetta的人工智能技术平常可分析数十亿张包含文本的图像,能够分析表情包,但它能像人类那样理解表情包的内涵吗?

图片 1

以下是文章主要内容:

Facebook 的审查人员无法审核人们在平台上发布的每一张图片,因此 Facebook 希望通过人工智能来帮助他们。在一篇博客文章中,Facebook 介绍了一个名为 Rosetta 的系统,它可以利用机器学习来识别图像和视频中的文本,然后将其转录为机器可读的内容。特别地,Facebook 发现这个工具有助于在表情包上转录文本。

每天都有数十亿的文本帖子、照片和视频被上传到社交媒体上,这是人类审核员无法全面筛选的一个信息量级。因此,Facebook和YouTube等公司长期以来一直依赖人工智能来帮助解决垃圾邮件和色情内容等问题。

文本转录工具并不是什么新鲜事,但 Facebook 却面临着不同的挑战,因为其平台量级巨大,以及其上的图像种类繁多。根据官方说法,Rosetta 现在已经上线,每天会从 Facebook 和 Instagram 上抓取 10 亿个图像和视频帧文本进行转录。

不过,对于机器来说,审核像白人至上主义的表情包这样的东西可能更具挑战性,因为这项任务需要同时处理几种不同的视觉元素。自动化系统需要检测和“读取”叠加在照片上的文字,并分析图像本身。表情包也是一种复杂的文化产物,很难脱离语境去理解。尽管它们带来了挑战,但一些社交平台已经在使用人工智能来分析表情包,其中包括社交网络巨头Facebook。Facebook本周分享了它如何使用一种名为Rosetta的工具来分析包含文本的照片和视频的细节。

目前还不清楚 Facebook 正在对这些数据进行怎样的处理。文章指出,这对于照片搜索和屏幕阅读器等基本功能非常有用。但看起来 Facebook 也开始把它放在更大的目标上,比如弄清楚什么样的内容更吸引人,更重要的是,可以找出哪些表情包、图片或视频中存在仇恨、侮辱等不当言论。

Facebook表示,它已经在使用Rosetta来自动检测违反其仇恨言论政策等规定的内容。该公司本周还宣布,在该工具的帮助下,它正在扩大其第三方事实核查的努力,纳入照片和视频,而不仅仅是基于文本的文章。Rosetta将自动检查包含文本的图像和视频是否曾被标记为错误,从而帮助完成审查。

Facebook表示,文本提取和机器学习正在被用于“自动识别违反我们的仇恨言论政策的内容”,而且该系统还支持多语言。鉴于 Facebook 众所周知的内容审核问题,一个能够自动标记可能有问题的图像的功能,对于 Facebook 来说应该会很有用。

Rosetta通过将光学字符识别技术与其他机器学习技术相结合来处理照片和视频中的文本。首先,它使用OCR来识别文本在表情包或视频中的位置。你可能以前用过类似OCR的东西;它可以让你快速浏览纸质表单,并将其转换为可编辑的文档。该自动化程序知道文本块的位置,并能将它们与你应该签名的地方区分开来。

Facebook 利用 AI 识别表情包里的不当内容动点科技。返回搜狐,查看更多

一旦Rosetta知道文本在哪里,Facebook就会使用一个神经网络来转录文本并理解其含义。然后,它可以将文本传输到其它的系统,比如一个检查表情包是否与已经被揭穿的病毒骗局有关的系统。

责任编辑:

Rosetta的研究人员表示,该工具现在可以实时从公开上传到Facebook的每张图片中提取文本,并且可以“阅读”多种语言的文本,包括英语、西班牙语、德语和阿拉伯语。(Facebook表示,Rosetta不会用于扫描用户在时间轴上私密分享的图像或私信。)

Rosetta可以分析包含多种文本形式的图像,比如抗议标识、餐厅菜单、店面等的照片。在Facebook工作的软件工程师维斯瓦纳斯·西瓦库马尔在一封电子邮件中说,这个工具既能识别景观中的文本,也能识别表情包——但后者更具挑战性。他写道,“在主动检测仇恨言论和其他违反政策内容的情况下,分析表情包式的图像是一项更加复杂的人工智能挑战。”

西瓦库马尔指出,与人类不同,人工智能通常需要看到成千上万个例子才能学会完成复杂的任务。但是,即便是对于Facebook而言,表情包方面的例子也不是无穷无尽的,而且在不同的语言上收集足够多的例子也很困难。寻找高质量的训练数据是人工智能研究的一个持续性挑战。数据通常需要花费大量的功夫来进行手工标记,而且许多数据库都受到版权法的保护。

为了训练Rosetta,Facebook的研究人员使用了在网站上公开发布的含有某种文本形式的图片,以及它们的标注和发布地点信息。他们还创建了一个程序来生成额外的示例,这种做法的灵感来自于牛津大学的一个研究团队在2016年设计的一种方法。这意味着整个过程在某种程度上是自动化的:一个程序自动地产生表情包,然后另一个程序试图分析它们。

不同的语言还给Facebook的人工智能团队带来了其它的挑战。例如,研究人员必须找到一种变通方法来使得Rosetta能够用于阿拉伯语等语言。阿拉伯语从右到左阅读,与英语等其他语言相反。Rosetta倒着“阅读”阿拉伯语,经过处理后,Facebook将那些字符颠倒过来。研究人员在他们的博客中写道:“这个技巧的效果出奇的好,让我们有了一个统一的模型,它既适用于从左到右的语言,也适用于从右到左的语言。”

虽然自动化系统在内容审核方面非常有用,但它们并不总是万无一失的。例如,腾讯的微信络使用两个不同的算法来过滤图像,多伦多大学公民实验室的一个研究团队成功地骗过了它们。第一个算法是基于OCR的程序,会过滤含有特定话题文本的照片,而另一个算法则会审查那些看起来与中国政府可能创建的黑名单相似的照片。

研究人员能够通过改变图像的属性,比如颜色或方向,轻易地避开微信的过滤器。虽然Facebook的Rosetta更加先进,但可能也不是完美无缺;该系统可能会受困于难以阅读的文本或扭曲的字体。所有的图像识别算法也仍然可能会受到对抗性的例子的影响,那些经过轻微改动的图像在人类看来是一样的,但会导致人工智能陷入混乱。

在对特定种类的内容的审核方面,Facebook和Twitter、YouTube和Reddit等其他的平台在多个国家都面临着巨大的压力。周三,欧盟提出了一项新的法规,要求社交媒体公司在接到通知后一小时内删除恐怖分子的帖子,否则将面临罚款。Rosetta和其他类似的自动化工具已经在帮助Facebook和其他平台在德国等地遵守类似的法律。

它们在那方面也做得更好了:两年前,Facebook首席执行官马克·扎克伯格曾说,Facebook的人工智能系统只能主动捕捉到该公司所删除内容的一半左右;人们必须先要标记其余要删除的内容。现在,Facebook表示,它的人工智能工具可以检测到几乎100%的垃圾邮件、99.5%的恐怖内容和86%的暴力图片。YouTube等其他平台在利用自动内容检测系统上也取得了同等程度的成功。

然而,这些喜人的数字并不意味着像Rosetta这样的人工智能系统是完美的解决方案,尤其是当涉及到更微妙的表达形式的时候。与餐馆菜单不同的是,如果不知道表情包的发布背景,就很难理解它的含义。这就是为什么有很多网站在致力于解释它们。表情包通常描述的是圈内笑话,或者是针对特定的网络亚文化。人工智能仍然不能像人类那样理解表情包或视频。就目前而言,Facebook仍需要依靠人工审核员来决定是否应该删除某个表情包。

本文由澳门太阳娱乐发布于互联网科技,转载请注明出处:分辨表情包里的失当内容,却难解内涵

关键词:

疯狂的比特币,火币与SBI达成合作

12月8日消息,据国际比特币交易平台火币Pro数据显示,12月7日晚,比特币价格达15555美元,折合人民币约10.27万元,全...

详细>>

德邦崔维星放话誓将红海变蓝海,不存在不可战

原标题:双十世界首次大战役要怎么打? 德邦崔维星放话誓将孟加拉湾变蓝海 旺时之战悄然打响。二月6日,在德邦...

详细>>

真伪一比就知,阿里健康布局超级药房

原标题:Ali正规布局一流药房 追溯码成“杀手锏”扩充国内外 原标题:“码上放心”:购药追溯码绑定订单 真伪意...

详细>>

宣布4大应用付加物,百度云智高峰会议盘点

原标题:2018 百度云智峰会盘点 技术产品生态三线布局ABC战略落地 原标题:推出百度云ABC 3.0,发布4大应用产品,百...

详细>>