关注大型语言模型中偏见的起源_大公司日报_商业_欧安网

　　 Zeroing in on the origins of bias in large language models

　　当人工智能模型仔细研究数百gb的训练数据以学习语言的细微差别时，它们也会吸收文本中编织的偏见。

　　达特茅斯大学(Dartmouth)的计算机科学研究人员正在设计方法，以找出模型中编码这些偏见的部分，为减轻这些偏见铺平道路，如果不能完全消除它们的话。

　　在最近发表在《2023年自然语言处理经验方法会议论集》上的一篇论文中，瓜里尼研究生和高级研究学院计算机科学博士研究生马卫成(Weicheng Ma)和计算机科学助理教授Soroush Vosoughi研究了刻板印象是如何在预训练的大型语言模型中编码的。

　　大型语言模型或神经网络是一种深度学习算法，旨在处理、理解和生成文本和其他内容，并在大型数据集上进行训练。

　　沃索吉说，预先训练的模型有偏见，比如刻板印象。这些通常可以是积极的(例如，暗示一个特定群体擅长某些技能)或消极的(假设某人根据性别从事某种职业)。

　　机器学习模型将以各种方式渗透到日常生活中。他们可以帮助招聘经理筛选成堆的简历，加快批准或拒绝银行贷款的速度，并在假释决定期间提供咨询。

　　但基于人口统计的固有刻板印象会产生不公平和不受欢迎的结果。为了减轻这种影响，“我们会问，即使在模特经过训练后，我们是否能对刻板印象做些什么，”沃索吉说。

　　研究人员从一个假设开始，即刻板印象，像其他语言特征和模式一样，被编码在神经网络模型的特定部分，即“注意头”。它们类似于一组神经元;它们允许机器学习程序记住提供给它作为输入的多个单词，以及其他功能，其中一些功能仍未完全理解。

　　Ma、Vosoughi和他们的合作者创建了一个充满刻板印象的数据集，并用它反复调整60种不同的预训练大语言模型，包括BERT和T5。通过放大模型的刻板印象，数据集就像一个探测器，突出了那些在编码这些偏见方面做了繁重工作的注意力头。

　　在他们的论文中，研究人员表明，修剪最严重的违规者可以显著减少大型语言模型中的刻板印象，而不会显著影响他们的语言能力。

　　“我们的发现颠覆了传统观点，即人工智能和自然语言处理的进步需要广泛的培训或复杂的算法干预，”马说。根据Ma的说法，由于该技术本质上不是特定于语言或模型的，因此它将广泛适用。

　　更重要的是，沃索吉补充说，数据集可以调整以揭示一些刻板印象，但不干扰其他刻板印象——“这不是一刀切的。”

　　因此，一个基于年龄或性别的差异对患者评估可能很重要的医学诊断模型，将使用不同版本的数据集，而不是用于从挑选潜在求职者的模型中消除偏见的数据集。

　　该技术仅在可以访问经过充分训练的模型时才有效，不适用于黑匣子模型，例如OpenAI的聊天机器人ChatGPT，其内部工作原理对用户和研究人员是不可见的。

　　马说，将目前的方法应用于黑盒模型是他们的下一步。

　　更多资料:马伟成等，《预训练语言模型中的刻板印象解析》，《2023年自然语言处理经验方法会议论文集》(2023)。DOI: 10.18653 / v1/2023.emnlp-main.697引文:聚焦于大型语言模型中偏见的起源(2024年，1月15日)检索自https://techxplore.com/news/2024-01-zeroing-bias-large-language.html。本文受版权保护。除为私人学习或研究目的而进行的任何公平交易外，未经书面许可，不得转载任何部分。内容仅供参考之用。

关注大型语言模型中偏见的起源

相关推荐