深度解读《互联网信息服务算法推荐管理规定(征求意见稿)》

与数据同行    发布于:2021-09-06 浏览 202

2018年的时候,自己写过一篇文章《谈谈大数据时代的《别被算法困在“信息茧房”》》,提到了推荐算法“投其所好”可能导致的社会问题。

3年后的今天,国家互联网信息办公室发布《互联网信息服务算法推荐管理规定(征求意见稿)》(以下简称《意见稿》)并公开征求意见,目的是规范互联网信息服务算法推荐活动,维护国家安全和社会公共利益,保护公民、法人和其他组织的合法权益,促进互联网信息服务健康发展。

《意见稿》共30条,自己读完后,有五点思考:

第一、《意见稿》是继《网络安全法》、《数据安全法》及《个人信息保护法》颁布后又一个具有里程碑意义的跟数据相关的法律法规,算法推荐服务被从互联网应用中单独剥离出来,为其单独制定管理规范,这在业界是第一次,国际上也没见过。

第二、《意见稿》是官方针对算法推荐造成的“信息茧房”、“大数据杀熟”、“饭圈文化”、“网络沉溺”、“舆情控制”等诸多不良网络现象的一种正式回应,表明了治理的决心。

第三、《意见稿》中对于算法推荐服务的规定事无巨细,将会对以算法驱动的公司产生很大影响,短视频、新闻、微博、网约车等信息服务领域将被重点监管。

第四、算法推荐服务相对于其他服务,具有标准规范缺失、技术门槛高等特点,监管难度之大可想而知,管理规定之下的操作细则更是重中之重。

第五、《意见稿》将进一步推进实名认证在更多的信息服务领域落地。

下面针对《意见稿》30条规定中的重点条目做一解读,理解了这个规定,用户就可以拿起这个武器,更好的维护自己的权益。

第二条 在中华人民共和国境内应用算法推荐技术提供互联网信息服务(以下简称算法推荐服务),适用本规定。法律、行政法规另有规定的,依照其规定。前款所称应用算法推荐技术,是指应用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息内容。

本规定适用的算法推荐技术主要包括五类,简单解释如下:

1、生成合成类:指利用合成技术生成推荐内容,比如AI换脸。

2、个性化推送类:指千人前面的推荐,比如我登录天猫看到的推荐商品跟你看到的不一样。

3、排序精选类:典型的如排行榜。

4、检索过滤类:典型的如你输入一个关键词,检索出的内容会有优先级排序。

5、调度决策类:典型的如滴滴派单。

第四条 算法推荐服务提供者提供算法推荐服务,应当遵守法律法规,尊重社会公德和伦理,遵守商业道德和职业道德,遵循公正公平、公开透明、科学合理和诚实信用的原则。

该规定描述了算法推荐服务要遵循的系列原则,包括:

1、遵守法律法规:比如传播色情淫秽的内容肯定受法律制约。

2、尊重社会公德和伦理:举个例子,“困在算法里”的外卖平台骑手们,面对不断压缩的订单送达时间,他们没有选择,只能遵循算法的设计逻辑,看着手机上一条直线的数字地图,在现实的道路上“与死神赛跑,和交警较劲,和红灯做朋友”,这种算法推荐就有违社会公德和伦理。

3、遵循公正公平:大数据杀熟就是反面典型,消费软件很懂你,时间一长却发现老用户比新用户花的钱更多。

4、遵循公开透明:通过公开算法原理是实现公正公平的一种手段,比如IT领域为了确保应用安全,往往会有代码审核一说。

5、遵循科学合理:算法训练有一套科学方法,比如对样本的合理性要做评估,对算法训练过程中产生的过拟合或欠拟合现象要做纠正,否则算法推荐就不科学,举一个例子,粉丝集中刷榜产生的异常数据对于算法的推荐就有很大影响,因此要对原始数据做清洗过滤。

第五条 鼓励相关行业组织加强行业自律,建立健全自律制度和行业准则,组织制定行业标准,督促指导算法推荐服务提供者建立健全服务规范、依法提供服务并接受社会监督。

国家在制定法规的同时也认识到自身的局限性,因此鼓励各个行业遵循大原则的前提下,制定出符合本行业实际的算法标准和操作细则,同个行业大家知根知底,行业标准的建立也有利行业的健康发展,防止劣币驱逐良币现象的发生。

第六条 算法推荐服务提供者应当坚持主流价值导向,优化算法推荐服务机制,积极传播正能量,促进算法应用向上向善。算法推荐服务提供者不得利用算法推荐服务从事危害国家安全、扰乱经济秩序和社会秩序、侵犯他人合法权益等法律、行政法规禁止的活动,不得利用算法推荐服务传播法律、行政法规禁止的信息。

算法推荐本身不区分善恶,但在法律法规和伦理道德要求向善的约束下,未来算法不能独善其身,也没有中立一说,只要有可能推荐恶的内容,算法推荐服务提供者就有责任去调整算法逻辑,从而抑制恶的内容的产生。

比如一般算法会基于相关关系去做推荐,看了动漫就会推荐动漫,但如果看了色情暴力的,也会推荐偏色情暴力的其他内容,以前这叫算法中立,现在不行了。

第八条 算法推荐服务提供者应当定期审核、评估、验证算法机制机理、模型、数据和应用结果等,不得设置诱导用户沉迷或者高额消费等违背公序良俗的算法模型。

“不得设置诱导用户沉迷或者高额消费等违背公序良俗的算法模型”这句话的力量很大,界定的难度也很大,举个例子大家会有个感性认识:

“7月13日,国家网信办发布通知,宣布为期2个月的“清朗”未成年人暑期网络环境专项整治启动。本次整治行动将在诱导未成年人无底线追星、饭圈互撕等价值导向不良的信息和行为等方面进行重点整治,严厉打击诱导未成年人在社交平台、音视频平台的热搜榜、排行榜、推荐位等重点区域应援打榜、刷量控评、大额消费等行为”

以前整治靠专项行动,有了此规定就属于非法,谁都可以投诉。

第九条 算法推荐服务提供者应当加强信息内容管理,建立健全用于识别违法和不良信息的特征库,完善入库标准、规则和程序。发现未作显著标识的算法生成合成信息的,应当作出显著标识后,方可继续传输。发现违法信息的,应当立即停止传输,采取消除等处置措施,防止信息扩散,保存有关记录,并向网信部门报告。发现不良信息的,应当按照网络信息内容生态治理有关规定予以处置。 

算法推荐的基础是数据(信息内容),基于这些数据可以构建出特征库,而用什么样的特征库就会训练出什么样的算法推荐模型,比如用一堆暴力特征的视频数据去训练视频推荐算法,训练出来的算法更可能推荐暴力的视频。

原来的算法推荐服务提供者采用什么样的数据来构建特征库是不受监管的,现在对于算法训练的原始信息内容提出了管理要求,这样就堵住了信息源头,没有恶的信息内容的输入,算法就不大可能产生恶的内容输出,这叫治本。

面对海量的信息内容,现在基于AI鉴别信息内容合规性的手段渐趋成熟,使得非法信息的智能化识别和拦截有了可能。

但这还不够,因为现在很多信息内容可以用机器生成,不需要现实中真实存在,因此这里对基于算法(比如对抗算法)合成信息内容(比如AI换脸)也做了规范,即合成内容的这个算法也要接受监管,杜绝不合规的算法自己创造垃圾内容。

第十条 算法推荐服务提供者应当加强用户模型和用户标签管理,完善记入用户模型的兴趣点规则,不得将违法和不良信息关键词记入用户兴趣点或者作为用户标签并据以推送信息内容,不得设置歧视性或者偏见性用户标签。

第十条是第九条的加强,一般在做推荐算法的时候,首先需要针对原始内容信息进行处理、建模,建模的结果往往是客户标签,比如年龄、性别、是否有车、是否高收入等等,然后基于这些标签提供推荐服务,这里对客户标签做了规范,要求标签不能带有违法、不良信息关键词,不得设置歧视性标签等等。

比如常见的电商、外卖等场景的“大数据杀熟”,属于算法歧视,对新老用户打不同标签,并进行价格上的区别对待,这种就可以算是歧视性或者偏见性用户标签了,但如果这些标签只是用于客户特征分析目的,则不能算作歧视性标签,实际还是要结合标签应用场景来判断的,这对于未来的监管挑战很大。

第十一条 算法推荐服务提供者应当加强算法推荐服务版面页面生态管理,建立完善人工干预和用户自主选择机制,在首页首屏、热搜、精选、榜单类、弹窗等重点环节积极呈现符合主流价值导向的信息内容。

该条规定用于加强推荐页面内容的配置能力,使得推荐内容的管理更加快捷方便,比如一旦发现重大推荐信息内容问题,可以一键关闭,而不要去做修改、下线等耗时的操作;

同时给予了用户关闭推荐服务的权利,这对于用户是巨大的利好,现在很多网站会推荐不良信息,但用户不得不忍受。

第十二条 算法推荐服务提供者应当综合运用内容去重、打散干预等策略,并优化检索、排序、选择、推送、展示等规则的透明度和可解释性,避免对用户产生不良影响、引发争议纠纷。

该条规定是从推荐服务体验的角度来讲的:

一是不要重复推荐和集中推荐,比如有时候打开一个网页,会发现广告推荐的内容比正式内容都多,喧宾夺主,体验极差,所谓的信息流广告有时成了信息流内容了。

二是对于推荐的规则要有透明性和可解释性,比如我观看了某网站后转到另一网站就有原网站的推荐内容,显然两个网站达成了某种默契,但这种信息交换是否符合法律法规,是否要经过个人授权,也要经得起检验。

第十三条 算法推荐服务提供者不得利用算法虚假注册账号、非法交易账号、操纵用户账号,或者虚假点赞、评论、转发、网页导航等,实施流量造假、流量劫持;不得利用算法屏蔽信息、过度推荐、操纵榜单或者检索结果排序、控制热搜或者精选等干预信息呈现,实施自我优待、不正当竞争、影响网络舆论或者规避监管。

算法推荐服务提供者往往是作为第三方为广告客户提供精准投放服务,但有些算法推荐服务者为了获取收益,会通过各种流量造假的手段虚构流量,严重损坏客户利益,扰乱流量市场,劣币驱逐良币的事情很多了。

如果说前面几条规定都侧重于对于算法推荐服务进行一定程度的“干预”,从而确保推荐服务合法合规,那么这条规定就反过来了,要求算法推荐服务者不能为了自身利益对于算法进行人为干预,控制算法推荐的结果,从而导致不正当竞争、影响网络舆论或者规避监管。

第十四条 算法推荐服务提供者应当以显著方式告知用户其提供算法推荐服务的情况,并以适当方式公示算法推荐服务的基本原理、目的意图、运行机制等。

为了监督必须要让算法推荐具备透明性,但算法跟其他的服务还有所不同,因为算法大多时候是个黑盒,很多不具备可解释性,对于非专业背景的用户要理解算法更是挑战,这样就失去了公示算法的意义,同时公示算法也涉及到知识产权问题。

第十五条 算法推荐服务提供者应当向用户提供不针对其个人特征的选项,或者向用户提供便捷的关闭算法推荐服务的选项。用户选择关闭算法推荐服务的,算法推荐服务提供者应当立即停止提供相关服务。(1)算法推荐服务提供者应当向用户提供选择、修改或者删除用于算法推荐服务的用户标签的功能。(2)用户认为算法推荐服务提供者应用算法对其权益造成重大影响的,有权要求算法推荐服务提供者予以说明并采取相应改进或者补救措施。

这一条在第十四条的基础上更进一步,不仅算法推荐要透明化,还要允许客户能干预算法推荐服务,就拿允许用户关闭算法推荐服务来说,这的确是个巨大的进步,但也会对算法推荐服务者的商业模式造成冲击,当然算法服务提供者可以规避这条规定,比如将关闭选项藏的很深,因此实操层面远不是那么简单。

算法推荐服务者允许用户选择、修改或者删除用户标签,看似简单,实际操作也是非常困难,因为推荐服务采用的标签跟最终的推荐结果之间没有直接关系,用户以为把某个标签关闭就可以提升推荐服务体验,实际情况可能更糟;一个推荐服务涉及的标签变量可能成百上千,业务解释非常复杂,放给用户选择不一定合适。

用户有权要求算法推荐服务提供者改进算法,想法挺好,但算法推荐服务相对于其他的服务,存在算法评判规则缺失、算法服务数量巨大、算法服务好坏判定复杂及服务提供者水平参差不齐等系列问题,用户投诉电话打不通可以描述清楚,但算法怎么个不好法用户可能说不清楚,算法服务提供者也可能理解不了,改进算法更是成本巨大,远不是投诉一就能解决一那么简单。

第十六条 算法推荐服务提供者向未成年人提供服务的,应当依法履行未成年人网络保护义务,并通过开发适合未成年人使用的模式、提供适合未成年人特点的服务等方式,便利未成年人获取有益身心健康的信息内容。算法推荐服务提供者不得向未成年人用户推送可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好等可能影响未成年人身心健康的信息内容,不得利用算法推荐服务诱导未成年人沉迷网络。

2019年14岁女孩模仿“办公室小野”用易拉罐做爆米花的短视频导致意外身亡,当初关于此事件的责任归属存在争议,本条规定就是用来保护未成年人的。

“不得向未成年推送不良信息内容”意味着算法推荐服务提供者要对推荐的内容进行分层分级;“不得利用算法推荐服务诱导未成年人沉迷网络”则直指短视频等信息服务,自己以前为了防止沉迷短视频直接卸载了事,更不用说对未成年人的诱惑了。

为了实现该条,估计后续对于主流推荐服务应用会提出实名注册要求,就好比对未成年人限制游戏一样,力度可能非常大。

第十七条 算法推荐服务提供者向劳动者提供工作调度服务的,应当建立完善平台订单分配、报酬构成及支付、工作时间、奖惩等相关算法,履行劳动者权益保障义务。

本条显然是为了规范网约车平台的算法推荐服务的,自己多次听到网约车司机对平台调度不合理,分成不合理等的抱怨,不管描述是否属实,但司机在面对平台算法时还是处于弱势地位,这一条可以让网约车司机的投诉有据可循。

第十八条 算法推荐服务提供者向消费者销售商品或者提供服务的,应当保护消费者合法权益,不得根据消费者的偏好、交易习惯等特征,利用算法在交易价格等交易条件上实行不合理的差别待遇等违法行为。

这条规定明确不允许大数据杀熟,如果前面众多关于算法透明化、可解释性的要求能够落地,那判定算法是否属于大数据杀熟也多了些依据。

从第十九条至第二十六条,《意见稿》主要针对具有舆论属性或者社会动员能力的算法推荐服务提供者给出了管理要求,包括报备、公示、安全评估、整改配合等等。第二十七条至第二十九条则给出了违反规定的惩罚措施。

在解读《意见稿》的时候,自己还是发现了一些偏理想化的管理规定,究其根本,还是因为算法推荐服务相对其他一般服务有些差别,比如不可解释性,这样就不能完全套用统一的服务管理办法,希望《意见稿》能更多的吸收各方意见和建议,早日完成修订,从而为互联网信息服务健康发展保驾护航。

本文内容转载自“与数据同行”(ID:ysjtx_fyp),作者傅一平。

收藏此文章 点赞此文章

评论 (0)

暂无用户回复

评论此篇文章

登录后可回复
/1000