Lee, B. C., & Chung, J. (2024). An empirical investigation of the impact of ChatGPT on creativity. Nature Human Behaviour. https://doi.org/10.1038/s41562-024-01953-1

摘要

本文研究了ChatGPT在帮助人类解决需要创造力的问题方面的潜力。在五个实验中,作者要求参与者使用ChatGPT(GPT-3.5)为各种日常和创新相关问题生成创意,包括为青少年选择创意礼物、制作玩具、重新利用未使用的物品和设计创新的餐桌。作者发现,与不使用任何技术或使用传统的网络搜索(Google)相比,使用ChatGPT提高了生成想法的创造力。无论问题是否需要考虑许多约束条件,或者是否被视为需要同情心的情况下,这种效果均保持稳健。此外,ChatGPT在产生渐进性(而非突破性)新想法方面最为有效。过程证据表明,ChatGPT的积极影响可以归因于它能够将遥远相关概念结合起来形成有凝聚力的形式,从而更清晰地表达想法。

This paper investigates the potential of ChatGPT for helping humans tackle problems that require creativity. Across five experiments, we asked participants to use ChatGPT (GPT-3.5) to generate creative ideas for various everyday and innovation-related problems, including choosing a creative gift for a teenager, making a toy, repurposing unused items and designing an innovative dining table. We found that using ChatGPT increased the creativity of the generated ideas compared with not using any technology or using a conventional Web search (Google). This effect remained robust regardless of whether the problem required consideration of many (versus few) constraints and whether it was viewed as requiring empathetic concern. Furthermore, ChatGPT was most effective at generating incrementally (versus radically) new ideas. Process evidence suggests that the positive influence of ChatGPT can be attributed to its capability to combine remotely related concepts into a cohesive form, leading to a more articulate presentation of ideas.

研究背景与研究问题

生成式人工智能(AI)技术的最新进展引起了全球关注,其中OpenAI开发的ChatGPT在推出仅两个月内就吸引了超过1亿用户。生成式AI在客观知识评估(如律师资格考试和美国医疗执照考试)中表现出色,并广泛应用于编码、语言翻译及创意任务等领域。鉴于这一社会趋势,我们提出研究问题:AI聊天机器人(如ChatGPT)能否提升人类对需要创造性思维的问题的应对能力

为了探讨这一问题,我们调查了100名个体,发现他们对此持怀疑态度。尽管多数人认可其在翻译、编程和写作上的实用性,但仅少数人认为其能助力创意。这种疑虑导致相关研究仍处于初级阶段,研究结果也褒贬不一。目前,AI聊天机器人在日常生活中的应用尚待深入探索。因此,本研究旨在评估ChatGPT相比不使用工具或仅使用传统工具(如搜索引擎)是否能提升创造力。

创造力通常被视为产生新颖且适当的想法。新颖性指的是新想法与常见想法的偏离,通过新颖的方式结合现有知识;适当性则强调想法的可行性和实用性,被用来解决问题并改善给定的情境。两者都是创造性思维的结果。无论关注新颖性还是适当性,创造性问题解决通常涉及连接联想元素以创造概念的新组合。因此,创造性想法通常源于两个看似无关的元素结合。为了实现这一点,人们常借助头脑风暴、草图等工具或网络服务来促进创意。调研显示,面对创意挑战时,多数人(68%)会求助于在线资源(如Google)。

本文聚焦ChatGPT,探讨其相比传统搜索引擎(如Google)在增强创造性问题解决上的优势。传统搜索引擎虽然便捷,但在整合信息仍然需要大量人力。ChatGPT则能基于上下文生成内容,通过将不同的知识片段整合成连贯、清晰的表达,而非仅仅呈现相关结果。最新研究显示,ChatGPT能展现创造力。因此**,我们认为ChatGPT能优化创造性问题解决的联想过程,助力用户解决问题**。

研究设计与结果

实验 1

样本: 233名MTurk用户

程序:

  • 任务: 参与者被要求使用三种物品(回形针、水瓶和纸袋)为5至11岁的儿童创造一个新的玩具。
  • 分组: 参与者被随机分配到两个实验条件:ChatGPT辅助和网络搜索辅助。选择与网络搜索相比是因为它是最常用的辅助工具之一,并且它也可以提供对用户查询的外部信息的访问。调研显示,面对创意挑战时,多数人(68%)会求助于在线资源(如Google)。
  • ChatGPT辅助组: 参与者被指示可以使用ChatGPT来帮助他们生成创意。
  • 网络搜索辅助组: 参与者被指示可以使用传统的网络搜索引擎(如Google)来帮助他们生成创意。

测量: 由参与者中招募的评委根据原创性和适当性的六题量表对创意进行评分。另外,作为稳健性检查,三位专家评委根据创造性、清晰性和冗长性对所有想法进行评分。

结论:

  • 创意评分: ChatGPT辅助组中的想法在创意评分上显著高于网络搜索辅助条件,表明ChatGPT在促进创意思维方面更为有效。
  • 原创性和适当性: ChatGPT辅助组中的想法在原创性和适当性两个子维度上的评分都显著高于网络搜索辅助条件,显示了ChatGPT在帮助参与者生成既新颖又实用的创意方面的优势。

然而,人们可能会质疑将ChatGPT与传统网络搜索进行比较的有效性。有人可能会认为创造力本质上是人类的,最有创意的想法可能在人们不接受任何外部技术的帮助时出现。为了解决这种可能性,实验2A包括了一个人类仅条件作为另一个基准。

实验2A

样本: 291名Prolific用户

程序:

  • 任务: 参与者需要为一个青少年重新利用两个家庭用品——一个旧网球拍和一个花园软管——来创造一个新产品。
  • 分组: 参与者随机分配到三个实验条件:ChatGPT辅助组、网络搜索辅助组和仅人类组。
  • ChatGPT辅助组: 参与者被告知他们可以使用ChatGPT网站来辅助他们的想法生成。
  • 网络搜索辅助组: 参与者被告知他们可以使用谷歌搜索引擎来辅助他们的想法生成。
  • 仅人类组: 参与者没有提供任何关于外部网络资源的信息,仅凭自己的能力来创造想法。

测量: 同实验1

结论: ChatGPT辅助组的创意评分高于其他两组,显示ChatGPT在提升创造力方面的积极作用。

实验2B

**样本:**200名Prolific用户

程序:

  • 任务: 参与者被要求为一个7岁儿童创造一个玩具,他们需要使用三个指定的物品:一个纸袋、一个剩余的建筑砖和一个未使用的风扇。
  • 分组: 参与者被随机分配到三个不同的实验条件:仅人类组、ChatGPT辅助组和仅ChatGPT组。
  • 仅人类组: 参与者被指示独立思考,不使用任何外部资源或工具来生成创意。
  • ChatGPT辅助组: 参与者被允许使用ChatGPT网站来辅助他们的想法生成,他们可以与ChatGPT互动,直到找到一个满意的答案,并根据需要对答案进行修改。
  • 仅ChatGPT组: 研究人员直接将相同的创意任务指令输入到ChatGPT-3.5中,收集了100个未经修改的原始回应。

**测量:**在先前研究的基础上,专家评委还被要求评估每个想法的创新程度是:一点也不新、渐进性创新还是突破性创新。

结论:

  • 创意评分: ChatGPT辅助和仅ChatGPT两组的创意评分都显著高于仅人类组,且两组之间没有显著差异。这表明ChatGPT无论是作为辅助工具还是独立运作,都能显著提升创意生成的创造力。
  • 创意类型: ChatGPT特别擅长于生成渐进性新想法,而不是突破性新想法。这可能是因为ChatGPT利用其数据库中的现有概念进行组合,而不是从零开始创造全新的概念。
  • 人类修改的作用: 在ChatGPT辅助组中,参与者对ChatGPT初始回应的修改程度与更高的创造力评分没有相关性。这暗示了ChatGPT本身在无需人类进一步修改的情况下,就能够产生具有高度创意的想法。

实验3

样本: 194名MTurk用户

程序:

  • 任务: 参与者被要求想出一个市场上不存在的创意餐桌的想法。
  • 分组: 参与者随机分配到两个实验条件:ChatGPT辅助和网络搜索辅助。

测量: 在先前实验基础上,补充了中介机制:

  • 想法阐述辅助: 参与者被要求评估ChatGPT或网络搜索在帮助他们阐述想法上的作用。
  • 想法表达清晰度: 外部评委对每个想法的表达清晰度进行评分,这作为评估想法阐述辅助效果的第二个中介变量。

结论:

  • **创意评分:**ChatGPT辅助组中的的想法在创意评分上显著高于网络搜索辅助条件,表明ChatGPT在促进创意思维方面更为有效。
  • 想法阐述辅助: 参与者报告称,与网络搜索相比,ChatGPT在帮助他们阐述想法上更为有效,这表明ChatGPT在整合信息和促进想法发展方面的能力更强。
  • **想法表达清晰度:**ChatGPT辅助组中的的想法在表达清晰度上得分更高,这进一步证实了ChatGPT在帮助参与者清晰表达其创意方面的作用。

实验4:

样本: 400名Prolific用户

程序:

  • 任务: 参与者被要求为一个青少年女孩想出一个创意礼物的点子。
  • 分组: 参与者被随机分配到2(ChatGPT辅助和网络搜索辅助)×2(低约束和高约束)的四个实验组。
  • 约束条件: 任务中对创意的约束条件数量被操纵为低约束(两个约束)和高约束(六个约束)。

**测量:**同实验1

结论: 无论是在高约束还是低约束条件下,ChatGPT辅助组中的想法在创意评分上都显著高于网络搜索辅助条件,表明ChatGPT在促进创意思维方面更为有效,且这种效果不受任务约束条件数量的影响。

实验5:

**样本:**383名Prolific用户

程序:

  • 任务: 参与者需要为一个特定情境想出一个创意点子:重新利用两个未使用的物品——一个旧手电筒和一个头发喷雾器——来创造一个新产品。
  • 分组: 参与者被随机分配到2(ChatGPT辅助和网络搜索辅助)×2(低情感共鸣和高情感共鸣)的四个实验组。
  • 情感共鸣条件: 任务中的情感共鸣要求被操纵为两个水平:低情感共鸣(仅提供物品信息)和高情感共鸣(提供物品与个人情感联系的信息,如物品是某人女儿年轻时非常珍爱并经常使用的)。

**测量:**同实验1

结论: 无论是在高情感共鸣还是低情感共鸣条件下,ChatGPT辅助组中的想法在创意评分上都显著高于网络搜索辅助条件,表明ChatGPT在促进创意思维方面更为有效,且这种效果不受情感共鸣要求的影响。


这篇推送就到这里啦。虽然Nature的范式和管理学期刊不太相同,但这篇未来肯定会被多多引用,速速来推荐给大家呀。

多的话不说啦,祝大家中秋假期快乐~

往期推送

原文链接