Harvey与OpenAl合作,为法律专业人士构建了一个定制训练的案例法模型。该模型是具有复杂推理广泛领域知识以及超越单一模型调用能力的任务的AI系统,如起草法律文件、回答复杂诉讼场景问题以及识别数百份合同之间的重大差异。
Harvey公司由具有反垄断和证券诉讼背景的律师温斯顿-温伯格(Winston weinberg)和人工智能研究员加布-佩雷拉(Gabe Pereyra)共同创立,加布-佩雷拉曾为谷歌大脑(Google Brain)和 Meta 公司开发大语言模型(LLMs)。他们看到了使用LLMs综合信息并呈现给律师审查的机会。
在案例法研究方面,Harvey的团队设想了这样一种体验:你可以将客户问题复制粘贴进一个案例法模型,它会彻底回答这个问题并引用所有来源。他们首先尝试了明显的技术,如通过公共API微调基础模型和构建检索增强生成(RAG)系统。但他们遇到了独特的复杂、开放式用例的限制。
Harvey决定与OpenAI合作,建立一个定制训练模型,使他们能够将新知识和关于这些知识的推理方式注入基础模型。他们从德拉瓦州的案例法开始,然后扩展到包括所有美国案例法。他们向定制训练的案例法模型中添加了相当于100亿令牌的数据。
过去一年里,Harvey已经成为法律、税务和金融专业人士的安全生成式AI平台。他们的团队增长到100多人,2023年的收入增长了10倍以上,他们刚刚获得 Elad Gil、Kleiner Perkins、openAl和红杉8000 万美元 B轮融资,估值7.5亿美金。
功能特点
1.复杂推理能力: 模型具备处理需要复杂推理的任务的能力,这对于法律专业人士尤为重要,因为他们的工作经常涉及解决高度复杂的问题。
2.广泛的领域知识: 通过定制训练,模型获得了覆盖广泛法律领域的知识,能够理解和处理与法律相关的各种查询和任务。
3.文档起草和审查: 模型帮助法律专业人士起草和审查法律文档,显著提高了工作效率。
4.复杂诉讼场景分析: 能够回答关于复杂诉讼场景的问题,包括识别合同间的重大差异等。
5.高度准确且相关的结果: 相比传统模型,该定制模型能够提供更准确、更相关的法律信息和解决方案,并确保每个句子都有明确的来源引用。
训练方法
1.合作与知识共享: Harvey与OpenAl紧密合作,结合法律专业知识与AI技术。Harvey的律师和研究人员与OpenAl的团队共同探讨案例法研究的工作方式,并将这些知识应用于型训练。
2.数据注入: 从德拉瓦州案例法开始,最终扩展到全美案例法,向模型注入了相当于100亿令牌的数据量,帮助模型深入理解法律领域的知识和逻辑。
3.定制训练: 采用定制训练方法,超越了传统的检索增强生成系统(RAG)和通过公共API进行的基础模型微调,使模型能够整合新的知识和推理方式。
评估结果
为了测试案例法模型,Harvey与十家最大的律师事务所合作。他们向律师提供了定制案例法模型输出与相同问题的GPT-4输出的并排比较。结果,律师们对案例法模型的输出更加青睐,这是因为它提供了更长、更完整的答案,更深入地探讨了问题的细节,并涵盖了更多相关的案例法。
通过建立定制模型,Harvey减少了幻觉问题,并实现了与来源引用相关的高度准确结果。他们渴望将这一模型推广给更多用户,并探索如起草简报和动议,或帮助律师理解不同司法管区案例法如何变化等其他应用。
1.强烈的偏好选择: 当Harvey与十家最大的律师事务所合作进行模型测试时,律师们对比了定制案例法模型的输出与GPT-4对相同问题的输出。结果显示,在97%的情况下,律师们更倾向于选择定制案例法模型的输出。这一强烈偏好主要是因为定制模型提供的答案更长、更完整,更深入地探讨了问题的细节,并覆盖了更多相关的案例法。
2.答案的深度和完整性: 定制模型的输出不仅仅是回答问题,而是提供了长篇、完整的解答,深入到问题的各个细节,并广泛涵盖相关的案例法,这对法律专业人士来说极具价值。
3.减少幻觉(Hallucination): 减少幻觉是Harvey建立定制模型的一个主要动机。测试结果证明,定制模型不会编造案例,每一句话都有确切的案例引用支持,这大大提高了信息的可靠性和准确性。
Harvey的下一步重点是代理,或者如何将多个模型调用组合成一个单一的工作输出。这将简化用户体验,减少用户需要进行的提示工程和打字。Harvey的愿景是成为团队的支持成员,随着法律工作量的增长,助理们在复杂但常规的任务上花费了无数小时,我们拥有的机会不仅仅是法律,而是所有专业服务,即处理常规任务,以便专业人士可以将时间集中在客户互动上。
详细:https://openai.com/customer-stories/harvey
Harvey官网:harvey.ai