·人工智能背后的数据工作者报酬微薄,常常被中介公司盘剥,甚至遭受身心伤害。 印度初创公司 Karya 希望解决这个问题:提高工资并给工人带来数据版权的“红利”。
·尽管Karya在扩大规模和维持愿景方面仍面临挑战,但这一实践为数据行业提供了新的可能性和参考。
数据工作者在构建人工智能大型语言模型的语料库中发挥着关键作用,但他们的劳动往往得不到公平对待,这种不公平现象在全球数据行业中并不少见。 面对这种情况,印度初创公司Karya正在试图寻找一种切实可行的新模式——提高工资,让工人获得数据版权带来的“红利”。
Karya首席执行官马努·乔普拉(Manu)表示,Karya的愿景是通过数据工作帮助印度农民摆脱贫困。 他认为,合理的报酬不仅能提高数据质量,还能帮助社会边缘群体,让更多人从人工智能技术的发展中受益。 美国《时代》杂志7月27日发表封面文章《The ’s AI for the 》报道了Karya的故事,并表示虽然Karya在扩大规模和维持愿景方面仍面临挑战,但这一实践提供了新的机会。为数据行业提供可能性和参考。
最新一期《时代》杂志封面文章《人民的AI为人民服务》聚焦印度初创企业探索如何让数据工作者享受AI红利。
人工智能背后的工作者
在印度南部卡纳塔克邦的 村,在椰子树的树荫下, () 滑动屏幕并点击几个音频进行编辑。 每次她点击时,她都会用母语说话。 声音从电话里传来。
在使用该应用程序之前,30 岁的钱德里卡 () 的银行账户里只有 184 卢比(2.25 美元)。 但在 4 月下旬的连续几天里,她工作约 6 小时的工资为 2,570 卢比(31.30 美元)。 扣除三趟公交车上下班的费用后,这笔钱大致相当于她在离家较远的学校当老师一个月的收入。
与 的日常工作不同,该应用程序不会让她等到月底,钱才会在几个小时后到达她的银行账户。 仅仅通过用她的母语卡纳达语(主要分布在印度中部和南部地区的 6000 万人使用这种语言)大声朗读文本,她使用这款应用程序就能每小时赚取约 5 美元,几乎是印度最低工资的 20 倍。 而且,几天后,只要音频片段被验证准确,她就会收到更多的钱——50% 的奖金。
正是因为AI的蓬勃发展,钱德里卡的声音才能换来如此高的利润。 目前,此类先进的人工智能工具在英语等语言中效果最好,网络上有大量此类语言的文本和音频数据。 然而,像卡纳达语这样的语言情况就糟糕得多,尽管有数千万人口使用这种语言,但在互联网上却很少见到,例如维基百科有 600 万篇英文文章,但只有 3 万篇卡纳达语文章。 在这些“资源较少”的语言中,人工智能即使可以运行,也可能存在偏见——例如经常将医生识别为男性,将护士识别为女性,并且可能很难理解当地方言。 要创建有效的英语人工智能,从已经积累的数据中收集就足够了。 但对于像卡纳达语这样的语言,还需要寻找更多的数据。
这导致了对基于世界上一些最贫困人口所使用语言的数据集的巨大需求。 部分需求来自寻求构建人工智能工具的科技公司,其余部分来自学术界和政府,尤其是在拥有 14 亿人口、22 种官方语言和至少 780 种土著语言的印度,其中英语而印地语长期以来一直占有重要地位。 需求的增长意味着数亿印度人突然掌握了一种稀缺而宝贵的资产:他们的母语。
数据工作在印度并不新鲜。 20 世纪末,印度在将呼叫中心和服装工厂转变为生产力引擎方面做得非常出色,并且正在悄悄地将同样的事情应用于 21 世纪的数据工作。 和以前一样,该行业再次由中介公司主导,这些公司支付接近法定最低工资的工资,同时向外国客户出售数据以获取高额利润。 全球人工智能数据产业价值超过 20 亿美元,预计到 2030 年将增长到 170 亿美元。然而,这些钱很少流向印度、肯尼亚和菲律宾的数据工作者。
创建一个更公平的模型
在邻近的 村和 村,Karya 正在测试一种新模式。 为 Karya 工作,这是一家总部位于班加罗尔的公司,成立于 2021 年,自称是“世界上第一家道德数据公司”。 与竞争对手一样,它以市场价格向大型科技公司和其他客户出售数据。 但卡莉亚并没有将大部分收入作为利润,而是用它们来支付成本,其余的则帮助印度农村的穷人。 Karya 与当地非政府组织合作,确保最贫困和历史上边缘化的社区首先获得就业机会。 除了每小时 5 美元的最低工资外,Karya 还为工人提供了他们在工作中创建的数据的实际所有权,因此每当数据被转售时,工人除了过去的工资之外还将获得收入。 这是业内其他任何地方都没有的模式。
“现有的工资制度是市场的失败,”27 岁的 Karya 首席执行官乔普拉告诉《时代》杂志。 失败。”
Karya 告诉工人们:这不是一份永久性工作,而是一种增加收入的快速方法,这样你就可以转向其他事情。 工人通过该应用程序最多可以获得 1,500 美元的收入,大致相当于印度的平均年收入。 卡里亚表示,已经向全国约 30,000 名农村印度人支付了 6500 万卢比(近 80 万美元)。 到 2030 年,乔普拉希望覆盖 1 亿人。 “如果做得好,我真的认为这是数百万人快速摆脱贫困的最快方法,”他说。 乔普拉出生于一个贫困家庭,因获得斯坦福大学奖学金而改变了他的人生。 “这绝对是一个社会项目。财富就是力量。我们希望将财富重新分配给落后的社区。”
乔普拉并不是第一个看到人工智能数据有潜力帮助世界上最贫困人口的科技创始人。 Sama 是一家负责与 meta 签订数据处理合同的外包公司,该公司也将自己定位为科技公司帮助世界各地的人们摆脱贫困的“道德”方式。 但根据之前的报道,为 工作的肯尼亚工人(其中一些人时薪不到 2 美元)表示,他们所接触的培训数据给他们带来了创伤。 萨马也从事类似的内容审核工作,参与该项目的一名工作人员表示,他在争取更好工作条件的活动中被解雇。 2018年,在被BBC(英国广播公司)问及低工资问题时,Sama的创始人认为,支付更高的工资可能会损害当地经济,弊大于利。 许多数据工作者不同意萨玛的说法,认为这是为依赖数据工作者赚取巨额利润的公司提供的一个方便的借口。
当《时代》杂志记者第一次听说 Karya 时,他们立即表示怀疑。 Sama 最初也是一家专注于消除贫困的非营利组织,但后来转型为营利性企业。 Karya 真的能成为更具包容性和道德的人工智能行业的典范吗? 即使可以,它可以扩展吗? 有一点是明确的:印度可能是这些问题的最佳试验场。 在移动数据价格最便宜的印度,即使是贫困农民也往往拥有智能手机和银行账户。 也有潜在的好处:根据世界银行的数据,即使在疫情爆发之前,印度就有约 1.4 亿人每天的生活费不足 2.15 美元。 对于这些人来说,乔普拉所说的巨额现金注入可能会改变他们的生活。
数据质量与生活收入的“双赢”
距离繁华的科技大都市班加罗尔 70 英里的奇鲁卡瓦迪村的一栋低矮混凝土建筑里,当地一家农业合作社的总部聚集了十几名男男女女,他们都在过去一周开始为 Karya 工作。 雇员。
卡纳卡拉吉 () 是一位瘦弱的 21 岁年轻人,在附近的一所大学读书,偶尔在周边田地里打零工,以支付书本费和交通费。 一天的工作可以挣350卢比(约合4美元),但由于气候变化,当地的夏季比平时更热,让这种体力劳动更加难以忍受。 在附近城市的工厂工作,工资稍高一些,但意味着每天都要乘坐不可靠且昂贵的公交车上下班,离开习惯的生活环境,住在城市宿舍里。
在卡里亚,卡纳卡拉吉一小时的收入比他在田里一天的收入还多。 “这是一份好工作,”他说,“而且很容易,”乔普拉说,这是典型的村民。 “他们很高兴我们付给他们很多钱,”他说,但更重要的是,“这不是艰苦的工作。这不是体力劳动。” 当卡纳卡拉吉看到第一笔工资存入他的银行账户时,他感到很惊讶。 “我们被骗了很多钱,”他向记者解释道。 村民经常收到短信,利用他们的绝望,承诺将他们的储蓄增加十倍。 当有人第一次告诉他有关 Karya 的事情时,他认为这是某种骗局。
由于积蓄很少,当地人常常不得不贷款来支付紧急费用。 这些掠夺性机构往往对这些贷款收取高额利息,导致一些村民陷入债务循环。 例如, 用她在 Karya 的工资帮助家人偿还了她 25 岁的姐姐接受治疗期间产生的大笔医疗贷款。 其他 Karya 工人也面临着类似的情况。 25 岁的阿贾伊·库马尔 (Ajay Kumar) 因治疗背部严重受伤的母亲而陷入医疗债务。 38岁的西瓦纳(,北卡罗来纳州)小时候因放鞭炮而失去了右手。 尽管他没有债务,但他的残疾意味着他很难谋生。
Karya的工人N,38岁,8岁时在一次事故中失去了右手。
村民们正在参与 Karya 在卡纳塔克邦为一家印度医疗非政府组织启动的一个新项目,该项目正在寻找有关结核病的语音数据,结核病每年导致约 20 万印度人死亡。 这些录音收集自卡纳达语 10 种不同方言,将有助于训练人工智能语音模型,以了解当地人的结核病问题并回答旨在减少疾病传播的信息。 该应用程序完成后,它希望让文盲更容易获得可靠的信息,而不会因为向结核病患者寻求帮助而感到耻辱。 这些录音还将作为卡纳达语数据集的一部分在 Karya 的平台上转售给许多人工智能公司。 这些公司不太关心训练数据的内容,而更关心它如何编码语言的整体结构。 对于每次转售,100% 的收入将分配给参与数据集的 Karya 工作人员,与他们投入的时间成正比。
这位 19 岁的女孩说,她在 Karya 的工作帮助她了解了结核病的症状以及如何预防。
尽管规模较小,Karya 已经拥有一系列知名客户,包括微软公司、麻省理工学院和斯坦福大学。 今年2月,该公司为比尔及梅琳达·盖茨基金会启动了一个新项目,旨在为印度10亿人口使用的五种语言(马拉地语、泰卢固语、印地语、孟加拉语和马拉雅拉姆语)构建语音数据集的最终目标是构建一个聊天机器人,可以用印度农民的母语和方言回答有关医疗保健、农业、卫生、银行和职业发展的问题。 这项技术可以被视为消除贫困和帮助传播知识以提高印度人生活质量的承诺。
“我认为应该有一个世界,语言不再成为使用技术的障碍,这样每个人都可以使用技术,无论他们说什么语言。” 微软研究院语言学家兼首席研究员 Bali 解释道。 她与盖茨基金会合作开展该项目,并担任 Karya 监督委员会的无薪成员。 巴利说,卡里亚相对较高的薪水“会影响数据的质量,这将立即提高系统输出的准确性。” 她说,她从 Karya 获取数据的错误率通常低于 1%,而在构建人工智能模型时几乎不会发生这种情况。
特殊的企业结构
表示,最初,他和他的团队向所有人开放了该应用程序,却发现前 100 名注册用户主要都是上层种姓男性。 这段经历让他认识到“知识是通过权力渠道传递的”。 为了覆盖最贫困的社区以及边缘化的种姓、性别和宗教,他很早就意识到他必须与在农村地区拥有基层影响力的非营利组织合作。 这些组织可以根据收入和多样性要求代表 Karya 分发访问代码。 “他们知道这笔钱对谁来说是锦上添花,对谁来说这笔钱可以改变生活。” 他说,这个过程还确保了最终生成的数据具有更大的多样性,这有助于减少人工智能偏见。
“我们需要的是更多地认识到大多数数据公司都是不道德的,”他说,“而且是以道德的方式。” 为了使该应用程序产生他认为可以的影响,他需要赢得更多客户 - 说服更多科技公司、政府和学术机构从 Karya 获取人工智能训练数据。
但即使是自称“有道德”的企业最终也可能在追求新客户方面做出妥协。 那么,怎样才能阻止 Karya 陷入与 Sama 公司同样的境地呢? 乔普拉说,部分答案在于 Karya 的公司结构。 Karya 在美国注册为非营利组织,在印度控制着两个实体:一个非营利组织和一个营利组织。 营利性组织有法律义务将其赚取的任何利润(在支付工人工资后)捐赠给非营利组织,然后非营利组织将其再投资。 他说,这种安排的美妙之处在于,它消除了他或联合创始人为了一份利润丰厚的合同而牺牲工人工资或福利的任何动机。 目前,这是一种有效的模式,但如果慈善资金枯竭,这种模式可能会崩溃。
和 村庄的村民对人工智能的了解有限。 乔普拉表示,虽然向工人解释他们正在做什么可能存在挑战,但最成功的方法是告诉工人他们正在“教计算机说卡纳达语”。 那里没有人知道,但村民们知道 ,他们称其为“OK”。 35岁的失业父亲(L.)表示,他不知道什么是人工智能,但如果计算机能说他的语言,他会感到自豪。 “我对我的母语就像对我的父母一样尊重。”
希望通过像 Karya 这样的项目的努力,印度语 AI 项目能够从英语 AI 的错误中吸取教训,从一个更可靠、公正的起点开始。 “直到不久前,英语语音识别引擎甚至无法理解我的英语口音,”微软研究院语音研究员巴利在谈到她的口音时说道。 存在的意义是什么?”
以上就是本篇文章【人民的AI为人民:印度公司反击剥削,为贫困数据工人“分红”】的全部内容了,欢迎阅览 ! 文章地址:http://lanlanwork.gawce.com/news/3207.html 资讯 企业新闻 行情 企业黄页 同类资讯 首页 网站地图 返回首页 阁恬下移动站 http://lanlanwork.gawce.com/mobile/ , 查看更多