揭秘腾讯云鸮:AI鉴黄背后的秘密

[摘要]转载自《锌财经》,作者 杨洁 昏暗的房间里,一个个年轻人面色凝重的对着电脑,他们一遍遍的看着网站上的内容、文字、图片等,每八秒就要对
转载自《锌财经》,作者 杨洁

昏暗的房间里,一个个年轻人面色凝重的对着电脑,他们一遍遍的看着网站上的内容、文字、图片等,每八秒就要对问题帖子做出“生杀决断”。

电脑屏幕里,不时出现血腥自残、性虐待、恐怖暴乱等内容,这是纪录片《The Cleaners》中出现的一幕。

在这部记录片里,“数字清洁者”——鉴黄师的真实生活被推到了众人的面前。

揭秘“鉴黄师”职业的纪录片

鉴黄师,一份“最幸福”也“最痛苦”的工作,他们手握互联网各类内容的“生杀大权”,藏匿在数字浪潮的海底,与网络中的恶意内容为伴。

这些恶意内容包含文字、图片、声音、视频等各种形式,“鉴黄”只是其中极小的一部分,除此之外,还有诸如血腥、暴力、变态等挑战道德底线的内容。

随着互联网平台各类直播、短视频、图文信息的增多,网络安全治理问题亟待解决。如何快速鉴定出劣质信息并进行处理,成了摆在各大平台面前的一道考题。

网络恶意,“鉴黄”出击

“为什么给我推荐的,全是霸道总裁文?”在公开的社交网站上,不时能看到这样的用户反馈。

然而这样的套路并不稀奇,在微博的信息流,以及部分网站的跳转链接中,经常夹杂着“霸道总裁文”或者“情感漫画”等低俗网文,利用爽文的套路,诱导大众付费阅读。

如此利用“色情+社交”来进行流量的转化,有着成熟的信息生产链条。据公开报道,此类色情信息从业者月入甚至能高达数万。

多年以来,无论政府,还是企业,对互联网中涉及淫秽、暴力、血腥等劣质内容的整顿从未停歇,但内容乱象却依然屡打不止。

于是,“内容鉴定员”这一工种应运而生。以Facebook为例,单在2018年就设有15,000名鉴定员来负责筛选和删除攻击性内容,并于18年底再增加了5,000人。

至于国内的企业,早在2014年,百度、腾讯等10多家互联网公司组成的“安全联盟”就曾对外宣布,公开招聘“首席鉴定官”,大幅增加人工鉴定的规模。

纵观看来,“内容鉴定员”的出现能及时却短暂地填补了劣质信息鉴定和查漏的需求空缺。在日趋复杂的网络环境中,面对亿级的信息量,且隐蔽性不断升级的不良信息,人工作业精准度有限等弊端日渐凸显。此外,企业在内容鉴定方面的成本、效果、技术上,遇到的挑战维度也在不断升级。

此时,AI技术的出现,为内容鉴定带来了新的动能。

AI助力,“鉴黄”升级

AI鉴黄的逻辑看起来并不复杂:AI通过深度学习技术,再经过大规模的样本训练,便能基本形成监测识别夹杂的不规范信息的能力。但实际上,内容鉴定对算法精度、样本量都有很高要求,需要大量的技术投入和持续的机器学习,在内容鉴定的专业度上也有较高门槛。

在市场的需求和技术的驱力下,利用AI来进行内容鉴定服务的产业链正逐渐成型。作为国内互联网的领军企业,腾讯也看到了趋势,并推出其自研的智能鉴黄产品——腾讯云鸮。

“很多企业会以AI能力为基础,做相关产品的开发,首先它可以改变过去更多依靠人工鉴定的工作模式,对企业来说,也意味更少的成本,更高的效率去发现和处理劣质信息。”腾讯云鸮产品团队告诉锌财经。

AI可以辅助内容鉴定

2017年,腾讯提出“AI in all”战略,即让AI无处不在。在消费互联网领域,腾讯AI已在内容、社交、游戏等过百种产品中落地。同时,在产业互联网领域,腾讯AI也已落地医疗、零售、金融、安防、教育、工业、出行等多个产业。

由于有着多领域、长时间的AI技术沉淀,腾讯自17年起,便开始尝试利用自身强大的AI技术打造腾讯云鸮产品,来解决鉴黄等内容安全问题。

据云鸮团队介绍,产品在19年年初已经趋向成熟。云鸮凭借先进的深度学习模型算法,沉淀了腾讯多年的内容安全对抗经验,现已具备全场景AI识别能力,可以瞬间解析音视图文等各类媒介内容,识别其中的色情、低俗、谩骂、垃圾广告等不良信息,全面保障产品内容的安全。

在内容安全的鉴黄领域,云鸮独创了许多新的技术。同时还能克服唱歌、哭泣声甚至正常ASMR的干扰。图片鉴黄能够区分性感和色情的分界,并从多个维度进行判断以及给出相应标签,对于大尺度图片还能够判断是否来自艺术名画、动漫亦或是恶搞。即使面对正常图像和文字结合的拼图招嫖图片,云鸮也有一套成熟的算法和流程机制能够快速判断,同时也会结合OCR技术,识别图文中的黑灰产行业黑话。

腾讯云鸮产品

目前,云鸮的AI技术已在多种业务场景中得以广泛应用。云鸮也通过腾讯安全天御和微信开放平台面向客户全面开放,致力于为游戏、社交、直播、短视频等行业提供一站式内容安全解决方案。客户可以通过腾讯安全天御,小程序开发者通过微信开放平台,进行简单的部署对接即可使用从而帮助企业升级自身防范规避内容风险,提高产品内容安全性。

随着云鸮内容安全产品的普及应用,能极大地提升企业整体内容鉴定的效率,可以做到24小时不限量识别,从而帮助企业大幅优化人力资源成本;同时能以极高的精确率和召回率,为客户平台产品全面提升健康度。目前已经有超过5万的客户接入云鸮使用。

黑色福利,云鸮进击

“劣质信息的内容,最终是以文字,图片、音频、视频的等各种形态做传播,在内容上也有很多的变种,这些内容背后是一些跨平台的黑色产业链在支撑。”云鸮团队说。

在不断的实战中,腾讯云鸮已经建立起了一套应对劣质信息明确的鉴定体系和应急响应机制。并通过采用深度学习技术的智能识别技术,可以对文字、图片、语音,直播视频内容中的敏感成分实现精准覆盖。

如对于二次元色情产业链“福利姬”的打击,腾讯云鸮便助力警方立下了赫赫战功。

二次元色情产业链“福利姬”

“福利姬”曾是网络上一种非常普遍的现象,最先从一些直播UP主开始,直播引流,卖图创收。在线上,“福利姬”常通过售卖软色情图包、音视频、好友位费用和会员费来牟利;在线下,则主要通过援交。

此类信息的存在,对未成年人的身心健康造成了极为恶劣的影响。但由于“福利姬”灰产链上的人群庞大且分散,难以圈定,加之隐秘性高,方式复杂。例如,“福利姬”常会把带色情暗示的照片附着在一组正常的COS图后面,再加上社交ID水印,就能逃过基础的内容安全鉴定。这为平台方的监管带来了巨大的难度。

此时,腾讯云鸮的出现,其毫秒级的识别能力及鉴定体系,便能适用于应对解决“福利姬”传播中的关键环节和难点。其结合用户端举报和反馈的案例,经过系统和人工数重核实,最终联动公安机关发力打击,成功端掉其线下团伙以及背后的黑色产业链。

然而,随着互联网的高度普及,低龄网民群体日增,加之不良信息传播手法层出不穷,网络安全监管再升级刻不容缓。云鸮团队也表示,通过持续的识别打击,可以不断增强云鸮的能力,从而加速产品迭代。

看到这里,用户难免会产生一个新的疑问:既然AI鉴黄效率这么高,那会砸了人工鉴定员的饭碗吗?

在采访中,腾讯云鸮团队多次提到“配合”二字,来表达自己对AI和人工的态度。在他们看来,虽然在成本、时间、准确度等各个维度进上,AI有着人工不可比拟的优势。但这并不代表能否认鉴黄师存在的必要性,对于某些特殊场景的判定,仍需要人工复核来弥补当前AI技术的短板。另一方面,现今的鉴黄师也跟随着时代潮流,加入了人工智能团队,协助AI进行陌生数据的标注,帮助机器学习,优化AI的性能 。

在2017年颁发的《网络安全法》中,将借助网络传播、扩散淫秽色情等违法信息归属为严重危害国家安全和社会公共利益的违法行为,其要求企业需采用技术手段控制。可以说,劣质内容已经破坏了互联网正常的环境,遏制恶劣内容已经成为产品应用的重要生命线。

随着5G时代的到来,监管标准、违规内容也在发生着变化,对内容安全提出了新的要求,在激烈的市场角逐下,各个平台也在更新迭代,借助AI内容鉴定实力,守住内容安全这条红线。




免责声明:

本站系本网编辑转载,会尽可能注明出处,但不排除无法注明来源的情况,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系, 来信: liujun@soft6.com 我们将在收到邮件后第一时间删除内容!

[声明]本站文章版权归原作者所有,内容为作者个人观点,不代表本网站的观点和对其真实性负责,本站拥有对此声明的最终解释权。