周悦/文近日,一种另类的“留言帖”走红社交媒体,上万条评论整齐划一“喊话”大数据。
最常见的三种留言格式分别是“某某太贵了,买不起”“告诉大数据,我爱看某内容”以及“某软件,不发红包我要卸载你”。
许多年轻人试图用这种做法反向驯化算法,减少“大数据杀熟”“信息茧房”的问题。
12月13日,有媒体报道,一位网友反复留言“机票太贵了,买不起,不去了”后,同一个航班的机票价格直线下降近3000元。
12月18日,多位大厂的算法工程师和产品经理告诉经济观察网,“留言喊话”很难直接影响算法推荐。
原因是,平台训练算法通常更依赖用户的行为数据,比如“转、赞、评”“购买”和“点击”等。将评论区文本纳入算法训练的成本高,并且效果难以评估。此外,这些文本属于涉及用户隐私信息的高度敏感数据,难以确定平台是否会纳入算法训练中。
“留言喊话”是社交媒体上点赞量较高的“反向驯化算法”攻略之一。其他常见的方式还有修改个人信息为统一的昵称momo和粉色恐龙头像,以及频繁卸载、重装App等。
经济观察网向多位算法工程师求证以上方式是否有效,得到的答案是,绝大部分方式很难有直接效果。用户只要使用App就会为算法持续提供基础的数据,能够有效影响算法的方式有两种:要么遵循平台的机制给予反馈,要么限制App从手机获取数据的权限。
平台、手机系统设置的机制最关键
多个内容平台都出现了“momo大军”,用户集体改为相同的昵称momo与粉色恐龙头像,这种做法的确会逃过真实用户的眼睛,却很难模糊momo们的身份标签,平台算法仍会精准识别他们的底层标签。
某电商平台的算法工程师陈明告诉经济观察网,他已经是比较了解算法的人,但也只能按照平台机制调整App上推荐的内容,没有办法通过写代码等技术方式干涉算法。比如,想让系统推荐更便宜的机票,会在搜索框输入文字或者多点击“打折机票”“便宜机票”相关内容。
曾在手机厂商与内容平台都担任算法工程师的刘飞告诉经济观察网,对“信息茧房”问题,最有效果的反馈机制是平台设置的“不喜欢”“不感兴趣”“减少推荐”等按钮,这些反馈能够很快让算法停止推荐无关内容。
刘飞表示,这些负样本的价值很高,能训练算法理解一类群体不喜欢的内容,互联网公司一般都会有专门的团队负责处理这些用户反馈案例。
刘飞介绍,应对“信息茧房”与“大数据杀熟”问题,一个共通的办法是直接关闭“个性化推荐”。关闭这一功能一定程度上会减少“越刷越重复”“越刷越贵”的情况。不过,很多平台会将这一功能藏得很深,一般要翻找3—4个菜单页面才能找到。因为开启“个性化推荐”更容易猜中用户喜欢的东西,会带来广告转化,这是平台收入的重要来源。
他进一步解释原理,“个性化推荐”基于用户的历史行为、兴趣和需求等数据构建用户画像,以便更精准地推荐商品或服务。“大数据杀熟”“信息茧房”同样依赖用户画像,但目的分别是识别不同用户群体的价格敏感度以及信息偏好。
关闭“个性化推荐”这一选项,可以追溯到2022年《互联网信息服务算法推荐管理规定》出台,文件明确了算法推荐服务提供者应当以显著方式告知用户其提供算法推荐服务的情况;向用户提供不针对其个人特征的选项,或者向用户提供便捷的关闭算法推荐服务的选项。
当年“3·15”前后,微博、微信、淘宝、哔哩哔哩、抖音、百度、大众点评、小红书等App陆续上线“个性化推荐”开关。
用户使用App时,产生的数据会被算法捕捉。同样,使用手机时,手机里的相关设置也会影响算法,最典型的有三种情况:
一是像“大数据杀熟”这类涉及价格的情况,手机型号是影响较大的因素。刘飞表示,有些平台会在算法训练中学习不同型号手机用户的接受价格。用价格更便宜的手机搜索、下单,看到的产品价格可能会比较低,
二是开启“数据共享”权限的影响。一位手机厂商的算法工程师向经济观察网表示,在内容平台上多次点击“打折机票”的推荐,然后在订票平台发现了低价商品,有可能是开启了App“跟踪你的使用情况”功能。用户选择同意后,能够通过设备ID共享数据,具体的使用方式也受到不同系统隐私政策的限制。
此外,还有一种更加隐蔽的情况。许多用户认为手机在“监听”他们的谈话——白天提到某个商品,晚上就收到推送。上述手机厂商的算法工程师称,“手机监听”可能是一个误区,更可能的原因是开放了手机应用权限中的“访问剪切板”或“使用剪切板”,让算法获取了剪切板复制的内容,从而影响了算法推荐。不过目前主流操作系统已经对剪切板访问进行了严格限制,以保护用户隐私。
算法乱象还需治本
潘大星是一个资深的社交媒体用户,她向经济观察网分享了多篇“反向驯化算法”攻略,是众多“苦算法乱象久矣”的人之一。她曾因使用万元的手机预订酒店价格更高而多花了不少钱,也因为社交媒体总推荐相似内容,让她误以为某些观点是主流共识。
今年,为了改善体验,潘大星关闭了多个平台的“个性化推荐”功能。她发现,关闭“个性化推荐”对微博等平台的日常体验影响不大;但短视频平台推荐的内容质量会大幅下降,要么大量推荐点赞超过千万的视频,要么推荐点赞数为10—100不等的内容,两极化明显。她玩短视频5年多了,5年里刷到300万点赞以上的视频不超过10次,两极化的推荐方式更像面对一个新号的策略,试探用户更喜欢哪些类别的内容,这种推荐方式很难让一个老用户满意,她不得不再次打开“个性化推荐”。
像潘大星这样无法离开短视频“个性化推荐”的用户不在少数。2023年1月,清华大学社会科学学院积极心理学研究中心发布的《用户使用、算法推荐与信息茧房研究报告》显示,超过90%的短视频用户选择开启个性化推荐算法,并且使用年限越长的用户开启算法推荐的比例更高。
清华大学人工智能国际治理研究院战略与宏观研究项目主任刘典告诉经济观察网,公众对算法的认知在深化、数字素养在提高,这是识别算法乱象与防范算法滥用的重要一步。然而,仅靠个人行为很难撼动算法的根基,要解决“算法乱象”,最重要的是建立一个多方参与、共同治理的生态,政府与平台应共同努力,构建公平透明的算法治理体系。
今年11月24日,中央网信办等四部门就算法问题发布清朗行动,矛头直指同质化推送营造“信息茧房”、大数据“杀熟”、侵害新就业形态劳动者利益等现实问题,要求平台企业自即日起至2025年2月14日,给出自查整改方案。
刘典认为,算法乱象其实已经存在一段时间了,但最近几年随着社交媒体和电商平台的快速发展,算法滥用的情况越来越严重,带来的侵犯隐私、误导舆论等问题,已经严重影响了用户体验和社会信任。
他表示,一方面,需要完善法律法规,明确算法使用的边界和底线,确保算法设计和应用的公平性、透明性和安全性;另一方面,要加强行业自律,鼓励企业主动承担社会责任,建立健全内部审查机制,确保算法应用符合伦理道德标准。算法监管确实会给平台带来一些成本,比如技术升级和合规成本,但长远来看,这有利于营造健康的网络环境,促进平台的可持续发展。具体来说,可以通过引入多样化的数据源、采用公平性评估指标、建立透明度报告等方式,提升算法的公平性和透明度。
(应受访者要求,陈明、刘飞、潘大星为化名)
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有