来源:企业网D1Net
数据和机器学习算法带来的洞察力可能是无价的,但错误也可能是不可挽回的。以下这些最近备受瞩目的AI失误,展示了AI技术可能出错的后果。
2017年,《经济学人》宣称,数据已经取代石油,成为世界上最宝贵的资源,这一说法自此广泛流传。各行各业的组织都在不断加大对数据和分析的投资,然而,正如石油有其阴暗面,数据和分析也同样存在风险。
根据CIO发布的2023年CIO状况报告,26%的IT领导者表示,机器学习(ML)和AI将推动最重要的IT投资。尽管基于ML算法的决策可以为组织带来竞争优势,但如果出现错误,可能会对声誉、收入,甚至生命安全造成高昂代价。
理解数据及其传递的信息固然重要,但同样重要的是了解你的工具、熟悉数据,并始终将组织的价值观放在首位。
以下是过去十年中几起引人注目的AI失误,展示了可能出错的地方。
麦当劳因AI点餐失误终止实验
在与IBM合作三年,利用AI进行得来速点餐后,麦当劳在2024年6月宣布终止这一项目。原因是社交媒体上出现了一系列视频,显示顾客因AI误解他们的订单而感到困惑和沮丧。
其中一段TikTok视频尤为引人注目,视频中两名顾客不断恳求AI停止操作,因AI持续往他们的订单中添加更多的麦乐鸡,最终数量竟达到260份。在2024年6月13日,麦当劳在一份被行业刊物《餐饮业》获取的内部备忘录中宣布,将结束与IBM的合作并停止测试。
麦当劳曾在超过100家美国得来速餐厅试点这一AI技术,但表示仍然看好语音点餐解决方案的未来。
Grok AI错误指控NBA明星进行破坏活动
2024年4月,Elon Musk的xAI推出的聊天机器人Grok在X平台上错误地指控NBA明星克莱·汤普森(Klay Thompson)在加州萨克拉门托市砸碎了多户住宅的窗户。
一些评论员推测,Grok可能是在吸收了关于汤普森“投篮打铁”(“throwing bricks”是篮球术语,指投篮失误)的帖子后“产生了幻觉”,错误地构建了这起破坏事件。汤普森在他为金州勇士队效力的最后一场比赛中表现不佳,勇士队也遭遇了惨败,这是他职业生涯中最糟糕的季后赛表现之一。之后,汤普森被交易至达拉斯小牛队。
尽管Grok显示了免责声明,表示“Grok是一个早期功能,可能会出错。请核实其输出内容。”,但此事件仍引发了关于当AI聊天机器人发布虚假诽谤性言论时,责任应由谁承担的质疑。
纽约市AI聊天机器人鼓励企业主违法
2024年3月,《Markup》报道,微软支持的聊天机器人MyCity在向创业者提供错误信息,导致他们可能违法。
MyCity于2024年10月推出,旨在为纽约市民提供有关创业、经营企业、住房政策和工人权利的信息,然而,《Markup》发现MyCity存在严重问题,它错误地声称企业主可以从员工的小费中抽取分成,解雇投诉性骚扰的员工,甚至可以提供被啮齿动物咬过的食物,它还错误地宣称房东可以根据收入来源进行歧视。
在报道曝光后,面对指控的纽约市市长Eric Adams为这一项目进行辩护。目前,这款聊天机器人仍然在线运营。
加拿大航空因聊天机器人误导信息赔偿乘客
2024年2月,加拿大航空被裁定向一名乘客赔偿,原因是其虚拟助手在关键时刻提供了错误信息。
Jake Moffatt在2023年11月咨询了加拿大航空的虚拟助手,询问有关丧亲票价的事项,因当时他的祖母去世。聊天机器人告诉他,可以先购买温哥华到多伦多的全价票,然后在90天内申请丧亲折扣。根据这一建议,Moffatt购买了价值794.98加元的单程票和845.38加元的返程票。
然而,当Moffatt提交退款申请时,加拿大航空拒绝了他的请求,称丧亲票价折扣不能在购票后申请。
Moffatt将加拿大航空告上了加拿大的仲裁庭,指控该航空公司通过其虚拟助手提供了误导性信息并存在过失。仲裁庭成员Christopher Rivers表示,加拿大航空辩称它不应对聊天机器人提供的信息承担责任。
Rivers否决了这一论点,指出加拿大航空未能“合理地确保其聊天机器人提供准确的信息”。因此,他命令加拿大航空赔偿Moffatt 812.02加元,其中包括650.88加元的损害赔偿金。
《体育画报》可能发表了AI生成的作者文章
2023年11月,在线杂志Futurism报道称,《体育画报》可能刊登了由AI生成的作者撰写的文章。
Futurism援引匿名消息来源称,这家历史悠久的体育杂志发布了大量由AI生成的作者撰写的文章。该杂志发现,相关作者的头像出现在一个出售AI生成肖像的网站上。Futurism随后联系了《体育画报》的出版商The Arena Group,后者在声明中表示,这些文章是由第三方AdVon Commerce提供的授权内容。
声明中指出:“我们会持续监控合作伙伴,并在这些指控提出时正在进行审查。AdVon向我们保证,所有相关文章均由人类撰写和编辑。”
声明还表示,AdVon的作者在某些文章中使用了笔名或假名,Arena Group并不认可这种行为。随后,Arena Group将相关文章从《体育画报》网站上撤下。
在Futurism文章发布后,《体育画报》工会发表声明,称对此指控感到震惊,并要求Arena Group管理层提供透明的答案和解释。
“如果这是真的,那么这些做法违反了我们对新闻业的所有信念,”《体育画报》工会在声明中表示。“我们强烈反对与这种对读者不尊重的行为扯上关系。”
iTutor Group的招聘AI因年龄歧视拒绝应聘者
2023年8月,辅导公司iTutor Group同意支付36.5万美元,以解决美国平等就业机会委员会(EEOC)提起的诉讼,该联邦机构表示,iTutor Group为中国学生提供远程辅导服务,使用了AI驱动的招聘软件,自动拒绝了年龄55岁及以上的女性申请者和年龄60岁及以上的男性申请者。
EEOC表示,超过200名合格的申请者被该软件自动拒绝。
“年龄歧视既不公正也不合法,”EEOC主席Charlotte Burrows在一份声明中表示,“即使技术在自动化歧视,雇主仍需承担责任。”
尽管iTutor Group否认有任何不当行为,但最终还是决定与对方达成和解。作为和解和同意令的一部分,iTutor Group同意采用新的反歧视政策。
ChatGPT编造法院案例
2023年,大型语言模型(LLM)技术的进展引发了各行业对GenAI(Gen AI)变革潜力的广泛兴趣。OpenAI的ChatGPT成为这一浪潮的焦点,但该技术在可靠接管大多数流程之前还有很长的路要走。纽约律师Steven Schwartz在2023年就深陷困境,这件事也突显了这一点。当时,他在针对哥伦比亚航空公司Avianca的诉讼中使用ChatGPT进行法律研究,结果被美国地方法院法官Kevin Castel发现其引用了虚构的案例。
Schwartz是Levidow, Levidow & Oberman律师事务所的律师,他使用OpenAI的GenAI聊天机器人来查找支持Avianca员工Roberto Mata案件的先例,后者因2019年的一次受伤而提起诉讼,但提交的简报中至少六个案例并不存在。在去年5月提交的文件中,Castel法官指出,Schwartz提交的案例包括虚假的名字、案件号、内部引述和引文。
Schwartz的合伙人Peter LoDuca是Mata案件的代理律师,并在简报上签字,自己也因此卷入了这一风波。
在一份宣誓书中,Schwartz告诉法庭,这是他首次使用ChatGPT作为法律研究工具,他“并不知道其内容可能是虚假的”。他承认没有核实AI聊天机器人提供的来源,并表示后悔使用GenAI来补充法律研究,今后在未验证信息真实性的情况下不会再使用。
2023年6月,Castel法官对Schwartz和LoDuca处以5000美元罚款,并在同月的另一项裁决中驳回了Mata对Avianca的诉讼。
AI算法识别一切,唯独不适合新冠疫情
自2020年新冠疫情开始以来,许多组织试图应用机器学习(ML)算法帮助医院更快地诊断或分流患者,然而,根据英国数据科学与AI国家中心——图灵研究所的报告,这些预测工具几乎没有带来任何显著效果。
《麻省理工科技评论》记录了许多AI失败案例,其中大部分源自工具在训练或测试过程中的错误。使用错误标记的数据或来源不明的数据是常见的罪魁祸首。
剑桥大学的机器学习研究员Derek Driggs及其同事在《自然机器智能》上发表了一篇论文,探讨了使用深度学习模型诊断COVID-19病毒的情况。该论文得出结论:这种技术不适合临床使用。例如,Driggs的研究团队发现,他们自己的模型存在缺陷,因为其训练数据集包含了躺着扫描和站立扫描的患者。躺着扫描的患者往往病情更严重,因此算法学会了根据患者的姿势来识别COVID-19风险。
另一个类似的例子是,一个算法通过含有健康儿童胸部扫描图的数据集进行训练。结果该算法学会了识别儿童,而不是高风险患者。
Zillow因算法购房失败减记数百万资产并大幅裁员
2021年11月,在线房地产市场平台Zillow告知股东,将逐步关闭其Zillow Offers业务,并在接下来的几个季度内裁减公司25%的员工,即大约2000名员工。该公司“房屋翻转”部门的困境源于其用于预测房价的机器学习算法的错误率。
Zillow Offers是一个通过公司基于机器学习算法生成的房产估值“Zestimate”来提供现金购买房产的项目。该计划的目的是翻新房产后迅速出售,然而,Zillow的发言人告诉CNN,该算法的中位数错误率为1.9%,而对于非市场上的房屋,该错误率可高达6.9%。
CNN报道,自2018年4月Zillow Offers推出以来,Zillow购买了27,000套房屋,但截至2021年9月底,仅售出了17000套。新冠疫情以及房屋翻新工人的短缺等“黑天鹅事件”也导致了算法准确性的问题。
Zillow表示,该算法导致公司以高于其后续预估销售价格的价格购买了房产,结果在2021年第三季度进行了3.04亿美元的库存减记。
在宣布后的投资者电话会议上,Zillow的联合创始人兼CEO Rich Barton表示,尽管可以调整算法,但最终风险太大。
医疗算法未能标记黑人患者
2019年,《科学》杂志发表了一项研究,揭示了美国各大医院和保险公司使用的一种医疗预测算法对黑人患者的识别能力较低,无法有效标记出需要高风险护理管理计划的黑人患者。
高风险护理管理计划为慢性病患者提供专业护理人员和初级护理监控,旨在预防严重并发症,然而,研究发现该算法更倾向于推荐白人患者参加这些计划,而不是黑人患者。
研究发现,该算法使用医疗费用作为衡量个人医疗需求的代理变量,然而,根据《科学美国人》的报道,病情较重的黑人患者的医疗费用与健康白人的费用相当,这导致他们获得了较低的风险评分,即使他们的需求更高。
该研究的研究人员指出,可能有几个因素导致了这一现象。首先,有色人种更可能收入较低,即使有保险,他们也可能较少获得医疗服务。隐性偏见也可能导致有色人种获得的医疗服务质量较低。
尽管该研究未点明具体的算法或开发者,但研究人员告诉《科学美国人》,他们正在与开发者合作以解决这一问题。
微软聊天机器人因数据集训练发布种族主义推文
2016年3月,微软学到了一个沉痛的教训:使用Twitter上的互动作为机器学习算法的训练数据可能会产生令人不安的结果。
微软推出了一款名为Tay的AI聊天机器人,并将其描述为“对话理解”实验。其设计初衷是让这个聊天机器人扮演一位少女,通过ML和自然语言处理与Twitter用户进行互动。微软为其提供了匿名的公共数据和由喜剧演员预先编写的部分内容,然后让它在社交网络上进行学习和自我演化。
然而在短短16小时内,该机器人发布了超过95000条推文,其中迅速充斥了公然的种族主义、厌女症和反犹主义言论。微软迅速暂停了该服务进行调整,并最终彻底关闭了这一项目。
“我们对Tay发布的无意中冒犯和伤害性的推文深感抱歉,这些推文并不代表我们的立场,也不是我们设计Tay的初衷,”微软研究与孵化部门的副总裁Peter Lee(当时是微软医疗部门的副总裁)在事后发布于微软官方博客的帖子中写道。
Lee指出,Tay的前身Xiaoice于2014年由微软在中国发布,在Tay发布前的两年里,Xiaoice与超过4000万人进行了成功的对话。但微软没有预料到,一些Twitter用户会立即开始向Tay发送种族主义和厌女症评论,Tay很快就从这些内容中学习并将其融入自己的推文中。
亚马逊AI招聘工具仅推荐男性
像许多大型公司一样,亚马逊渴望使用能够帮助其人力资源部门筛选最佳候选人的工具,2014年,亚马逊开始开发一款AI驱动的招聘软件,然而,这款系统存在一个重大问题:它严重偏向男性候选人。2018年,路透社曝光了亚马逊已经放弃该项目的消息。
亚马逊的系统会为候选人打分,分数从1星到5星不等,但系统核心的机器学习模型是基于亚马逊过去十年收到的简历进行训练的,而其中大多数简历来自男性候选人。由于这些训练数据的影响,系统开始对包含“女性”字样的简历短语进行惩罚,甚至降低了来自全女性学院的候选人的评分。
亚马逊当时表示,这个工具从未被亚马逊招聘人员用来评估候选人。公司尝试修改该工具以使其中立,但最终决定无法保证它不会以其他歧视性的方式对候选人进行排序,因此终止了该项目。
本文转自:企业网D1Net,转载此文目的在于传递更多信息,版权归原作者所有。
版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。