日期:2017年12月26日
来源:亿欧网
作者:chrisiptw
[ 亿欧导读 ] 从荒谬到令人不寒而栗,算法偏见在社会中产生越来越大的影响,而且这一问题已经暴露多年。但直到2017年,人们对AI算法偏见的公众意识似乎才达到了一个临界点。
佛罗里达州的一项犯罪预测算法错误地将黑人罪犯重新定义为白人的两倍。谷歌翻译将中性的土耳其语翻译成“他是医生”和“她是护士”。一台尼康相机在对亚洲人进行人像识别时,显示照片中的人是否在眨眼,然而并不是,而是因为亚洲人眼睛小。
从荒谬到令人不寒而栗,算法偏见在社会中产生越来越大的影响,而且这一问题已经暴露多年。但直到2017年,人们对AI算法偏见的公众意识似乎才达到了一个临界点。
或许机器学习通过其自身的算法设定了我们每天上下班途中收听的歌单,甚至在有漏洞的社交媒体算法中通过假新闻影响总统选举。与此同时,越来越多对AI偏见的关注在除技术领域和学术界之外得到了证实和重新传播。
可喜的是,现在我们看到了针对AI算法偏见的具体措施。纽约市议会最近通过了一项法案,该法案似乎是美国第一个人工智能透明度法案,旨在要求政府机构公开其决策背后的算法。研究人员组建新的研究机构来研究人工智能偏见,此外,《数学杀伤性武器》的作者Cathy O'neil也成立了一家名为ORCAA的算法审计咨询公司。威斯康辛州和德克萨斯州的法院已经开始限制算法,强制要求对犯罪预测的准确性标明“警告标签”。
普林斯顿大学计算机科学助理教授、数据隐私专家Arvind Narayanan表示:“2017年或许是一个分水岭,我预计,在未来一两年,这个问题只会继续变得越来越重要。而且,人们会意识到这些并不是种族和性别偏见的特例。几乎可以肯定的是,机器学习将会加速并放大现有的人类偏见。这些问题是不可避免的。”
Narayanan作为合著作者于今年4月份发表了一篇关于分析人工智能含义的论文。除了字典的定义之外,人工智能还有许多社会构建的含义。对人类的研究表明,人们更倾向于把男性的名字与“高管”联系在一起,把女性的名字与“婚姻”联系在一起,而对人工智能的研究也同样如此。而且,软件认为欧洲裔美国人的名字,如Paul和Ellen,比非裔美国人的名字,如Malik和Shereen,更受欢迎。
人工智能通过研究人类的文本——在线写作所用的“常见爬虫”抓取的语料库——以及谷歌新闻,从而得出研究结果。人工智能的基本问题是:其算法不是中立的,之所以有偏见是因为社会本身就存在偏见。“偏见”只是文化层面的含义,机器不能将不能被接受的社会意义(如男人和科学,女人和艺术)从被人广泛接受的含义(如鲜花令人愉悦,武器令人难过)中分离出来。一个带有偏见的人工智能可谓是一个正在准确地复制世界的人工智能。
伦敦图灵研究所和牛津大学的数据伦理学研究员Sandra Wachter表示:“算法迫使我们不得不照一照社会这面镜子,”
为了让人工智能公平,它不需要去映射世界,而是创造一个乌托邦,一个完美的公平模型。而这需要建立一种价值判断,并摒弃人工智能是“客观”的这种常见但有缺陷的修辞。Narayanan称这是一种“准确的恋物癖”——大数据让所有的东西都被分解成看似值得信赖却掩盖了歧视的数字。
社会的数据化和摩尔定律驱动的人工智能爆炸,实质上降低了测试任何相关性的标准,无论这种相关性多么荒谬。例如,最近AI试图从一个人的头部检查这个人是同性恋还是罪犯。
人工智能还试图衡量美。去年,Beauty.AI公司举办了一场由算法评判的在线选美盛会。在大约6000名参赛者中,人工智能选出了44个获胜者,其中大多数是白人,只有一个肤色明显是黑的。人类之美是从古希腊就开始争论的一个问题。而AI选美可以在六种算法中进行计算,如粉刺和皱纹,以及将参赛者与模特和演员进行比较。什么是美?每个种族都是一样美丽吗?事实上,只有科学家不能为其定义。因此,他们可能无意中复制了已经存在的以西方为中心的美和肤色标准。
未来主要的问题是如何消除这些偏见
首先,人工智能的好坏取决于它所输入的训练数据。那些存在偏见的数据——如将女性与护士、男性与医生联系在一起的文本——将会在软件中产生偏见。可用性通常决定了数据的使用情况,比如当局公布的20万封安然公司的电子邮件,由此,该公司因涉嫌欺诈而被起诉。据报道,该公司邮件曾被用于欺诈检测软件和对工作场所行为的研究。
其次,程序员在编写算法时必须更清楚地意识到偏见。与律师和医生一样,编码员也越来越多地承担起道德责任,但他们却很少受到监督。“AI正在对人们的病情进行诊断,也在准备治疗方案,甚至决定是否应该让人进监狱,”Wachter说,“因此,开发这些系统的人应该遵循与人类一样的道德标准。”
Wachter补充道,这一指导涉及技术专家和伦理学家之间的对话。例如,法官依赖犯罪预测来判断准确率是一个道德问题,而不是技术问题。
“所有的算法都在研究相关性——他们发现了规律,并计算出发生事情的可能性,”Wachter说,“如果系统告诉我这个人可能再次犯罪率达到60%,那就可以让他们继续呆在监狱里了,或者再次犯罪倾向是70%还是80%,才能让他们呆在里面呢?或许你应该找社会学家,或几个世纪以来一直处理这些复杂问题的人文专家来找出答案。”
关键的问题是,许多算法都是一个“黑匣子”,公众不知道它们是如何做决定的。科技公司纷纷反对提高透明度,称这将泄露商业秘密,并使他们易受到黑客攻击。当Netflix决定用户接下来看什么内容时,内部运作并不是一个巨大的公共问题。但在处理刑事司法、医疗或教育的公共机构中,非营利组织人工智能组织则认为,如果一个机构不能解释其算法,它就不应该使用,因为赌注太高了。
2018年5月,欧盟将开始实施《全面数据保护条例》,旨在赋予公民任何自动决策的“解释权”,并有权对这些决定提出质疑。对违规行为的罚款将增加到年收入的4%,这意味着像谷歌这样的巨头将会支付数十亿美元。包括Wachter在内的批评人士表示,该法案在某些地方是模糊的——目前还不清楚有多少算法需要必须解释,以及哪些算法的应用需要地方法院来批准,不过该法案仍然开创了一个重要的先例。
光有透明度,没有好的算法流程也是不够的。首先,对普通消费者来说,算法解释可能是难以理解的。“我不太赞成对算法的研究,因为它非常复杂,而且大多数人都无法用这些算法来做其他事情,”总部位于柏林的非营利组织“AlgorithmWatch”的创始人Matthias Spielkamp解释道,“不妨看看条款和服务——这里面显示很多透明度。它们会告诉用户其在100页上做了哪些?然后还有什么别的选择?”透明度也许不能解决人工智能的深入偏见,但在短期内,它开创了问责制,让公民知道它们什么时候会收到算法的歧视。
不久的将来,任何形式的监管也将迎来新的挑战。简单的人工智能基本上是一个数学公式,里面全是类似于“如果这是一个”的决策树构成的。人类设定了软件“知道”的标准。事实上,人工智能将越来越依赖于深度神经网络。在这些网络中,软件可以提供大量数据,并创建其自身的相关性。在这种情况下,人工智能就是在自我教育。我们希望它可以超越人类的理解,发现我们看不到的模式,但我们害怕的是,我们不知道它是如何做出决定的。
威斯康辛大学的助理教授Loris D'Antoni致力于开发用于测量和修正偏见的工具。他表示:“现在,在机器学习中,我们使用大量的数据,如果发现有问题,我们可以通过调整参数来进行修正,其运行结果还是非常出色的。但如果现在有一种神奇的方法发现这些程序是有偏见的,你会怎么解决这个问题呢?”
一项名为“可解释的人工智能”的研究领域旨在教导机器如何表达他们所知道的东西。但一个悬而未决的问题是,人工智能的不确定性是否会超过我们跟上它的能力,并让其承担责任。
Narayanan表示:“我们研究的重点是人们愿意花更多的时间在先进的人工智能模型上,还是花大量的时间来开发技术,让人工智能变得更有意义?”
这就是为什么整个社会在2017年面对越来越多的机器学习的缺陷。公共话语中存在的AI偏见越多,那么其研究就越具有优先权。当像欧盟这样的机构在算法透明度方面采取统一的法案时,28个欧盟成员国和世界各地都对AI偏见进行回应,甚至包括大学、非营利组织、艺术家、记者、立法者和公民。这些人与技术专家一起,将教人工智能如何合乎道德。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有