彼得·卡佩利 普拉桑纳·塔姆比 瓦莱丽·雅库博维奇
大语言模型(Large Language Model, LLM)是在数据科学领域带来范式变革的一项创新。它拓展了机器学习模型的能力,可以根据各种定性提示词生成相关文本和图像。这类工具价格昂贵且开发难度高,但是大量用户可以既快又便宜地用其执行某些基于语言的任务,而这些任务以往必须由人工完成。
这就提出了一种可能:随着这项技术被广泛采用,人类的许多工作会被取而代之或大量削减,尤其是主要从事文本或代码处理的知识密集型工作。然而在现实中,要在组织环境下有效使用大语言模型,远比人们通常认为的更复杂。与此同时,对于知识工作者在既定岗位中要执行的全部任务,它们是否都能令人满意地完成,尚有待证明。
组织中的大语言模型
大语言模型的潜在应用领域主要集中在现有信息的处理利用方面,而这些信息大多是因组织而异的。这方面的应用包括总结内容和生成报告(据调查,这占到用例的35%),以及从文本(例如包含财务信息的PDF文件)中提取信息,并据此创建表格(占用例的33%)。大语言模型还有另外一些热门的有效利用方式,包括使用Dall-E 2等工具创建图像,或在实际数据难以获取时为应用程序提供合成数据,例如用于训练亚马逊Alexa等语音识别工具的数据。
绝大多数使用大语言模型的组织仍处于探索阶段。在客户服务、知识管理和软件工程这三个领域,各组织开展了大量生成式AI(人工智能)的实验。例如,奥迪公司(Audi)聘请某供应商为其构建和部署了一款基于大语言模型的定制聊天机器人,它能够回答员工关于现有文档、客户详情以及风险评估的问题。聊天机器人在各类专有数据库中实时检索相关信息,在可用数据不足的情况下,也会对有些问题不予作答。公司使用了亚马逊云科技(Amazon Web Services)针对检索增强生成(retrieval augmented generation, RAG)开发的提示工程工具,这种常见的定制化方法使用组织的专有数据,但无须修改基础模型。
与需要有固定输入、明确流程以及唯一正确输出的传统自动化工具不同,大语言模型工具的输入和输出都是可变的,而生成回应的流程则是一个黑箱。管理者无法像对待传统机器那样评估并控制这类工具。因此,在组织环境下使用这些工具之前,还有一些实际问题必须回答:由谁来决定输入?由谁来评估输出的质量,谁又有权限使用它?
组织中运用大语言模型的挑战
在这一节里,我们重点讨论在组织中运用大语言模型时可能遭遇的五项关键挑战,以及这当中为何需要人类员工的持续参与。
1.知识获取问题 组织会制造出自身难以处理的大量专有文字信息,包括战略计划书、岗位说明书、组织结构图和工作流程图、产品文档、绩效评估报告,诸如此类。受过这方面数据训练的大语言模型可以给出组织此前或许无从得到的洞察。这或许是使用大语言模型带给公司最重要的好处。
组织要想充分利用大语言模型,可以通过自有数据来源为其提供信息,生成专门针对自身需求的输出。例如,对于企业来说,“中国消费者的关注点可能有哪些?”这个问题就不如“我们应该如何针对中国消费者调整我们的产品?”那幺切中要害。为了有效回答后一个问题,大语言模型需要使用组织的专有数据。而模型回应的质量,则取决于用于训练大语言模型的数据质量如何,是否有针对性。
组织制造的大量垃圾数据或无关数据清理起来也相当费力。因此,为大语言模型提供正确信息绝不是什幺轻松任务。组织文化方面的有用知识、面向员工的调查结果,等等,都需要花不少时间才能收集和整理好。即便如此,有许多重要的知识,对于个人来说可能心知肚明,但并未记录在案。在一项研究中,只有约11%的数据科学家报告称,他们能够利用所需数据对大语言模型进行微调,以给出切合组织实际的恰当答案。这个过程要花费大量资金,需要强大的处理器、数以千计的高质量训练与验证示例、大量工程实践,还要持续进行更新。
在大语言模型内部还面临着数据污染问题:如果来自组织中任何地方的劣质数据被输入了大语言模型,它不仅会影响当前的答案,还会影响未来的回答。应当制定一套关于训练大语言模型所用数据的管理规则,组织中也必须有人对这方面的活动加以监管。
因为定制大语言模型必须有大量的高质量数据,公司必须整理显性知识并将其标准化,编纂成标准的操作流程、岗位说明、员工手册、用户指南、计算机算法以及其他的组织知识单元,以供大语言模型调用。计算机编程是显性知识尤为重要的领域之一。在回答编程问题方面,大语言模型已经派上了很大用场,而且也有许多基于大语言模型的工具,比如,GitHub的Copilot和Hugging Face的StarCoder,都可以实时为人类程序员提供协助。一项研究表明,程序员更喜欢使用基于大语言模型的工具来编写代码,因为与在线搜索现有代码并改写相比,它们提供了更好的起点。不过,这种方法并不能提高编程工作的成功率。目前的主要问题在于,大语言模型生成的代码还需要另外多花时间去调试和理解。
组织在知识获取工作上遇到的困难,可能推动产生新的工作岗位,比如数据馆员(data librarian),其职责是整理组织用于训练大语言模型应用程序的专有数据。在某些场景下,这可能是至关重要的岗位。
2.输出验证问题 在针对编程工作的大语言模型输出被正式应用、产生实际影响前,可以先对它的正确性和有效性进行测试。然而,大多数工作任务并不能这样做。例如,战略建议或营销创意的输出就不容易测试或验证。对于这类任务来说,一个输出要做到有用,只需要“足够好”,而不用绝对正确。大语言模型给出的回答在什幺时候算是足够好?对于简单的任务来说,具有相关知识的员工只需要读一读大语言模型的回答,就能自行做出判断。
迄今为止,在是否会认真对待输出检查工作这件事上,用户的表现并不理想。在一次实验中,白领工作者可以选择使用大语言模型完成写作任务。那些选择使用该工具的人,还可以选择编辑文本后再交稿,或者不做编辑直接交稿。大多数实验参与者选择了后者。
在判断大语言模型更复杂、更少见但又更重要的输出时,如果员工缺乏所需的知识,又会发生什幺?我们对所问的一些问题,可能并不清楚“足够好”的答案是什幺样的。这就需要在评估和应用大语言模型的输出时,有更高明的人工判别能力。
与大语言模型不同,人类员工对自己的产出负责,而过往表现出的高准确率或良好判断力,可以让雇主对其未来的产出情况有所预判。人类员工还可以解释他们如何得到某些结论或做出某些决定。对于大语言模型来说,情况并非如此:每条提示词会发送一个问题,沿着复杂路径穿过知识库,产生一个独特且无法解释的回应。此外,大语言模型会“忘记”怎幺完成它们之前表现很好的任务,这就让保证这些模型的服务质量变得很难。
说到底,还是要由人来评估大语言模型的输出是否足够好,而他们必须认真对待这项任务。将大语言模型的输出与人类监督相结合的挑战在于:在许多情况下,这个人必须对这个领域有所了解,才能评估大语言模型输出是否具有价值。这意味着,对具体领域的知识无法“外包”给大语言模型——在将其投入使用之前,还是需要由领域内专家评估大语言模型输出是否足够好。
3.输出判定问题 大语言模型擅长总结大量文本。这可能有助于为决策提供有价值的数据,并让管理者能够检查关于特定主题的了解程度。例如,在过往调查中,员工对具体某项福利都有哪些看法。不过,这并不意味着大语言模型的回应比人类决策更加可靠或偏见更少:提示词可能让大语言模型根据同一数据得出不同结论,甚至在不同时间给相同的提示词,其回应也可能有所不同。
这也使得组织内部各方很容易产生彼此冲突的输出。例如,如果具有不同利益的个人或团队想要生成支持其自身立场的大语言模型输出,那幺,领导者就要去针对这些分歧做出评判。这种挑战在大语言模型出现之前就已经存在,只不过如今创建新内容的成本远低于评判成本,管理者面临着比以往任何时候都更复杂的新任务。
评判大语言模型输出的任务是加给现有岗位还是要另设新岗,则要看学习的难易程度。认为用上了大语言模型,低级别员工就有能力承担原本属于高级别员工的工作,这样的想法还是过于乐观了。对于岗位职级体系,人们存在已久的看法是,就职者需要的是从实践中获得的技能和判断力,以及处理某些工作的意向,而不仅仅是大语言模型当场给出的书本知识。长期以来的挑战在于,如何推动管理者授权员工去多使用这些知识,而不是替他们做决策。管理者之所以不愿这样做,更多的是因为不够信任,而非员工缺乏知识或能力。前面已经说过,要对大语言模型的输出做出有效评判,可能也需要具备丰富的领域内专业知识。这进一步限制了将这类任务委派给低级别员工的程度。
对于影响重大的输出,同时解决决策权与可靠性问题的一种做法,是集中使用大语言模型。设置一个职位使用大语言模型编制组织的关键报告,既有助于发展对这类工具的运用能力,又能减少使用组织专有数据生成的文档数量。
设置一个集中作业岗位以规范方式编写报告,也有助于避免处理输出冲突的问题,并且不用再对内容的出入做出评判。一个大语言模型办公室完全可以自行完成稳健性测试,观察针对数据、安全护栏和提示词的小幅调整会如何改变输出。这将使评判者的角色从技术层面更多转向合规层面,因此,这个职位也就很容易作为一个信息技术岗,设置在公司的法律总顾问办公室。
4.成本收益问题 在组织内使用大语言模型输出的收益可能难以预测。例如,大语言模型擅长起草简单信函,因为这些信函通常只需合乎要求即可。可是,类似付款逾期客户告知函这种重复发送的简单邮件,已经通过格式信函实现了自动化。而简易机器人也已经能很好地接待客户和其他人,引导他们找到组织推荐的解决方案(虽然未必是客户真正想要的)。呼叫中心里针对客户最常见问题量身定制的模板和话术脚本更是一应俱全。
一项关于客户服务代表的研究发现,在现有的部分计算机辅助手段之外,再组合引入大语言模型和经过成功客户互动训练的机器学习算法,可以将问题解决率提高14%。对于这项通常被认为很适合采用大模型的工作来说,这种提升算是巨大飞跃还是微不足道,以及就成果而言,实施的成本是否值得,都还没有定论。一项面对波士顿咨询公司(BCG)758名咨询师的预注册实验表明,GPT-4大幅提高了咨询师在某些任务上的生产力,但在另外一些任务上显着降低了其生产力。在这些工作中,核心任务非常适合由大语言模型完成,其提升生产力的效果虽然是实打实的,但还远远谈不上令人印象深刻。
虽然大语言模型有可能给出比现成模板和聊天机器人更好也更精准的回应,但问题在于组织能否看到使用它们的必要性。它们可能会选择将其用在销售电话之类的场景中,因为这样做可以获得很大的收益,但可能不会用在客户服务场景下,因为组织对于利用已有资源提高绩效并没有多大兴趣。
此外,大语言模型在各种应用场景下节省的时间和成本,可能会被随之而来的其他成本抵消。例如,将聊天机器人转换为大语言模型是一个相当艰巨的任务,哪怕它最终能派上用场。此外,让客户与大语言模型支持的聊天机器人直接对话,可能会使组织面临安全和品牌风险。无论是由人还是由大语言模型起草,重要信函或信息通常还是必须交给律师或媒体传播专家审查,而这道程序费用高昂。
5.工作转型问题 大语言模型将如何与员工合作?预测这个问题的答案绝非易事。首先,考虑到员工通常承担着多项动态变化的任务和职责,接管某项任务的大语言模型无法取代整个职位,也无法取代所有单独的细分任务。可以回想一下引入ATM的效果:虽然这些机器能够完成银行出纳承担的许多任务,但它们并没有显着减少人工数量,因为出纳除了处理现金以外还有其他工作,腾出空来之后又接手了新的任务。
在任何工作流程中,是否需要大语言模型也存在着多变性和不可预测性,这个因素从根本上保住了现有工作岗位。如今的多数工作并不需要经常使用大语言模型,也很难预测它们何时会要用到。大语言模型最有可能取代的,当然是那些占用人们大部分时间但利用技术总是可以正确完成的工作。
但即使是在这类情况下,也要做一些郑重的提醒。大语言模型会造成大量失业这一预测取决于一个隐含的假设,即工作任务可以直接在员工间重新分配。这可能适用于老式的打字组,其中所有员工都执行同样的任务。如果小组的生产力提高了10%,就有可能重新分配工作,将打字员人数缩减10%。但是,如果员工并未组织成一个联合小组,同时又没有对工作场所做重大且昂贵的转型,这种精简就不可能实现。此外,显而易见的是,倘若某位高管个人助理的工作效率提高了10%,我们也不可能把这个人裁掉十分之一。
相比正式雇佣来说,外包工作更容易缩减人工。如果部分外包工作可以由大语言模型来做,组织就可以通过谈判,降低购买供应商外包服务的花费或时长。在规模最大的科技供应商,比如那些巨型IT外包公司那里,最常见的是大量程序员在做很方便互换的工作(就像打字组那样),因而最有机会实现人员精简。AI带来的成本降低,会在多大程度上拉低客户价格还是提高承包商利润,仍是一个悬而未决的问题。
独立承包商也岌岌可危。的确,承包商使用大语言模型可以比不使用时完成更多工作,但对员工来说也是如此。如果要做的工作减少了,公司可能会先削减承包商的数量,然后再裁员,因为这样做更容易。和外包供应商一样,公司也可以尝试和使用大语言模型的承包商重新谈一个更低的价格。初步证据表明,随着大语言模型的引入,可以交给承包商完成的标准化零工数量大幅下降了。
还有一种可能的情况是,大语言模型可以充分提高整个组织的生产力,因此不会对特定职业造成影响,而是会影响整体的劳动力需求。这一点目前还没有证据证实,但对于许多商业领袖来说,这可能会是一个可喜的影响,因为美国和其他地区的生产力增长都非常缓慢,还有许多雇主报告正面临招工难。
大语言模型有一个让人意想不到的用武之地,是在我们认为最人性化的领域:那些提供一对一反馈的工作,比如,教练、咨询和辅导。有证据表明,在这些情境下,人们更喜欢和AI聊天机器人而不是真人打交道,至少在初次互动时是这样,因为他们觉得这样没那幺吓人。
对管理者的建议
IT相关的创新历史表明,创新的影响因工作、组织和行业而异,并且需要很长时间才能充分展现。大语言模型工具一直在变得更加容易使用,并且正在与微软Office等广泛应用的软件产品相结合,这让它有可能更快得到应用。不过,我们的讨论表明,眼下大多数组织还只是在一些小范围内尝试使用大语言模型。
组织应该如何为大语言模型做好准备?
首先,应当制定并发布适当的使用规范。阻止员工尝试大语言模型可能不太现实,但即使是在初期阶段,也必须制定出使用大语言模型的基本规则。例如,禁止将专有数据上传第三方大语言模型,以及披露在准备共享的任何文件中大语言模型是否会被使用、怎样被使用。合理的使用政策必然要对员工使用公司设备和工具的方式加以约束。另一种做法则是使用像Amazon Q这样的工具。这是一种生成式AI聊天机器人,可以专门定制,使其符合组织在大语言模型访问权限、可用数据等方面的合理使用政策。
其次,有必要考虑组建一个中心办公室,至少在一开始由其负责产出所有重要的大语言模型输出,确保人们对合理使用规范的遵守,并处理数据污染等问题。中心办公室还可以根据最佳实践,为创建提示词和解读答案变化提供指导。它们还让实现规模经济成为可能。指定一名数据馆员负责所有可用于分析的公司数据,要比让每一位可能的用户自行负责更加高效,也更容易管理。
至少在刚开始的时候,制定规则和行为规范需要召集一个特别工作组,其中要包含来自IT、总法律顾问办公室和可能用户的代表。这个工作组以及之后的中心办公室,可以帮助应对数据管理挑战,正是这些挑战减缓了机器学习与数据分析的应用。作为第一步,只需要确定哪些数据尚未共享、哪些无法共享(比如说,因为其在供应商的手中),或者哪些数据尚未编码,这将是朝着打破这些条块以便提供更多更好信息的一大步。
第三,任何可能想要得到或需要用到大语言模型报告的人,都应该参加简单的培训,以了解这类工具的奇特之处——特别是它们让人产生幻觉的能力——以及如何评估AI生成的文档和报告。下一步则是对员工进行提示词设计和改进方面的培训。同样重要的是,在使用大语言模型输出之前,要说清楚、讲明白,达到什幺标准算是“足够好”。中心办公室可以为最适合本组织的培训创造便利条件。
雇主应该调整未来工作的招聘标准,还是开始制订裁员计划?大众媒体上关于AI将如何消灭大量工作岗位的诸般说法,会给投资人和利益相关者带来裁撤这些岗位的压力。提醒他们那些预测有多幺不准确可能会有帮助。例如,到目前为止,关于卡车司机大多要被机器人取代的预测根本没有发生。
从长远来看,一旦我们摸清了将大语言模型应用于工作的各种可能方式,我们就会知道是否可以对工作进行重构,从而提升效率。急着改写供应商合同或启动裁员,皆非明智之举。
技术的发展历程表明,从长远来看,新技术所创造的就业机会,多于其缩减的就业岗位。那些关于IT创新特别是AI会造成大量失业的预测,并没有成为现实。工作任务分配方式的改变,通常是以缓慢的方式进行的。我们预计,大语言模型的使用会更加普遍,但并不会造成太多失业,即使在大语言模型得到广泛使用的地方也是如此。那些认为这类工具可能全盘取代人类工作的人,必须直面这样一个现实:大语言模型能做的简单工作已经在某种程度上实现了自动化,在特定工作中大语言模型能做的那些最重要的任务,又可能会带来新的任务,而想要通过重新安排现有员工的工作来找出可以裁减的冗余岗位,既不容易做到,也不划算。技术决定论——认为技术进步是塑造社会的主要因素——是一个备受技术创造者欢迎的理论,但在技术研究者看来并没有什幺可信度。
翻译:徐广彤