上海刘春雷律师事务所欢迎您
中文版 English 手机版
热线:86 + 021-36391266
上海刘春雷律师事务所
上海刘春雷律师事务所
当前位置首页 » 春雷法眼 » 春雷时评

科技赋能&创新发展——浅谈人工智能对法律行业的机遇与挑战

科技赋能&创新发展

现在人工智能领域最为火热的应该是ChatGPT,大量关于ChatGPT是否会取代人类工作,在互联网上已掀起激烈讨论,并蔓延到法律领域。2023年1月30日,哥伦比亚法院在作出判决时承认使用ChatGPT,由此诞生了“全球首份使用ChatGPT做出的判决书”。笔者认为,从算法实现角度看,以ChatGPT为代表的人工智能,在短时间内并不会对法律行业产生重大变革,如果克服缺失训练数据以及生成虚假陈述等挑战,将会促进法律领域的行业变革。以下通过对ChatGPT技术实现的解析,可以帮助我们更好了解以ChatGPT为代表的大型语言模型对法律行业的挑战。

一、关于训练步骤

ChatGPT的训练可以分成3步,分别是SFT、RM、PPO,下面逐一介绍。

(一)Supervised FineTune【人工标注】

GPT原本是使用互联网海量语料库训练的大模型,但互联网上的语料非常杂乱,不一定是人类想要的答案,GPT依靠此数据生成的答案正确性和有用性不能保证。

在此基础上,对数据集优化,把人们喜欢的答案喂给已经训练好的GPT再次微调,这样模型可以对齐人的思考模式得到提升。可以理解成升级后的模型只订阅人们喜欢的内容。

对话机器人的雏形已经生成,它可以根据问题生成一系列的答案,但是缺陷是它不具备人的判断能力。机器生成了答案A、B、C、D,但哪个是想要的答案呢?由此,引入RM奖励模型。

(二)Reinforcement Learning【人工打分】

强化学习RM全称是Reinforcement Learning,引入RM技术可以告诉模型生成的内容好不好,而不是告诉模型怎么才能变好,这种方式能给予模型更大的探索自由,训练出来的模型更具有泛化能力。具体步骤为:

1.模型根据问题生成多个答案;人工对给定的答案进行排序和打分;机器通过人工打分的数据训练奖励模型,可以预测用户更喜欢哪个模型输出。

2.一个更通俗的例子,讲解SFT和RM的工作方式和区别:SFT用【人工标注】的问题回答数据,并用监督性学习技术训练的自动回答问题的模型。RM用【人工打分】的问题回答数据,并用强化学习技术训练的自动给回答打分的模型,SFT是通过【人工标注】解决答案【有没有】的问题,RM则通过【人工打分】来解决答案【好不好】的问题。

(三)Proximal Policy Optimization

该阶段将前面训练好的SFT和RM两个模型结合起来,利用PPO(Proximal Policy Optimization)算法微调SFT训练出来的生成模型,再把生成出来的答案喂给RM打分模型,基于RM的持续迭代生成模型。具体步骤如下:

☞ 由第一步标注后的SFT模型来初始化PPO策略模型,由第二部生成的RM模型初始化价值函数。

☞ 从PPO数据集中随机采样一个提示,并通过第一步的PPO策略模型生成输出结果。

☞ 对提示和答案,带入RM模型计算奖励值。

☞ 利用奖励来更新PPO策略模型参数。

☞ 重复2~4步,直至PPO策略模型收敛。

强化学习和预训练模型是最近两年最为火热的AI研究方向,之前不少科研工作者说强化学习并不是非常适合应用到预训练模型中,因为很难通过模型的输出内容建立奖励机制。而InstructGPT/ChatGPT反直觉的做到了这点,它通过结合人工标注,将强化学习引入到预训练语言模型中是这个算法最大的创新点。

二、关于适用场景

(一)查找法律条款

在既有的搜索引擎中,除高频法条外,难以明确定位具体的法律条款,往往是给出法律全文,需要自行查阅和复制。而在ChatGPT中,可以通过提问方式直接查找到具体的法律条款,能够有效节约检索时间,在此不加赘述。

(二)梳理法律要件

在一个法律纠纷中可能会涉及不同的法律关系,存在多个争议焦点,如果不是专门从事这一方向的律师或者法官,可能无法进行较为完整准确的分析,未接受过专门法学训练的普通民众更难以遍历相关法条,完整梳理法律规定以及相应的适用要件,在寻求救济时会较为盲从。但在ChatGPT中,通过提问“在XX纠纷中,应该考虑那些司法认定要素”,ChatGPT会基于既有的学习资料来进行梳理,并给出较为完整的参考。但我国并未完全对外国公司开放裁判文书的调取权限,给出的答案并不完全准确,在一些特殊情形下甚至是在“一本正经地胡说八道”。但毋庸置疑的是,其给出的答案具有较大参考价值。

(三)讨论法律适用

法律的适用并非完全处于静态,需要结合具体的适用情形来进行调整,从而确定最为恰当的裁判依据并予以认定。关于房贷有无还清背景下产权界定的法律问题中,ChatGPT会结合前文所提出的案件事实加以分析,并给出在不同情形下应当考虑的法律认定因素,具有一定参考价值。

(四)撰写法律文书

ChatGPT拥有复杂推理能力并且能够泛化到新任务,且能够拒绝不当问题,以及拒绝其知识范围之外的问题,这就是为什么ChatGPT会拒绝直接撰写法律意见书等传统由律师完成的工作。简言之,ChatGPT需要遵循人类指令及价值观,且存在合规的考量,不能够直接从事存在风险的事情。但在实践中,可以通过更换提问方式来引导ChatGPT进行回答,比如撰写起诉意见书等法律文书,虽然生成内容并不合格,更多是个备忘录。但原因在于中文训练数据不足,如果加以有效地训练,实际效果将会进一步逼近专门的法律从业者。

(五)关于运用中的优缺点

1.高效性

主要集中于合同撰写与更新、合同审核、数据库检索、数据分析以及基础法律咨询等重复性、机械性较强的工作。合同撰写与更新、合同审核、数据库检索、数据分析以及基础法律咨询等重复性、机械性较强的工作具有最高的自动化和智能化改革潜质,因此,相关AI工具的在市场上的需求也最为旺盛。

2.准确性

主要集中于生成资料是否真实合理。事实上,一些法律科技开发商,比如北大法宝和法律界常用的秘塔翻译,早在ChatGPT风靡全球以前,就已经将AI融入了产品和服务中。那么,未来是不是已经到来?根据目前情势,似乎这样说仍为时过早。尽管一些让人眼前一亮的工具已经能够在几秒钟内生成大量看起来非常可信的内容,但人们仍然对其结果持怀疑态度,而这并非空穴来风。为了安全,人工智能应当真实且不对人类有害,并应当尽量避免偏见与歧视,该目标也是ChatGPT及其公司Open AI所坚持的。但在实际中,有部分研究者已经通过prompt injection攻击,来诱导ChatGPT以及其他大型语言模型输出诱导性、歧视性乃至虚假陈述。

3.保密性

法律工具处理大量数据,其中可能包括客户的个人信息、商业秘密等,如何采取必要的安全措施来做好该领域的合规工作值得关注。

4.侵害知识产权风险

ChatGPT这样的预训练语言模型,主要是通过挖掘人类日常交流的文本并进行统计分析。其中涉及的数据大部分来源于书籍、网站等媒介,但上述数据往往未获得合法授权,且这种训练过程及训练数据也并不对外界公开,上一代GPT-3.5语言模型就已经需要挖掘千亿级参数加以支撑。在没有经过相关权利主体的授权下,直接获取信息内容并复制到数据库中,再进行修改、拼凑则可能会侵害他人的知识产权。

三、关于未来发展的思考

(一)不拥抱新技术则可能被时代发展抛弃

当机器可以高效完成一些工作,那么原本从事这些工作的人力将何去何从?这是各行各业都在密切关注的问题,法律界也不例外。如同蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机和互联网,AI正为各个产业赋能。AI写作、AI绘画、AI解题、AI助理……与AI有关的衍生产物如潮水般席卷市场,点燃了市场的“AI热”。现今的AI确实取代了相当大部分人的工作,例如Meta、微软、亚马逊等巨头已经停止了一波岗位招聘,纷纷表示要跟随AI脚步。

(二)不断探索如何将新技术融入法律工作中

对于不甘被人工智能取代的那部分初阶法律工作者来讲,在充分享受人工智能的便捷和效率的同时,也要增强自身审查和反思的能力。在专业领域,AI“一本正经地胡说八道”这种现象被称为AI幻觉。如果不和行业专业数据库或者一些专业应用插件进行对接,这可能会导致它们提供过时或者不专业的答案。而人工智能所给出的“标准答案”,实则是对既有数据的接拼或派生。但是对于一个疑难案件,如果人们的解决方案本身是存在争议的,如经典的“洞穴奇案”,杀人还是不杀人的伦理困境,人工智能的回复有时是随机的,有时更是逃避做出选择。所以,初级法律工作者需要培养自身创造能力,养成批判思维,在利用人工智能的基础上,更要对人工智能提供的“标准答案”进行反复批判和检验,成为人工智能的“把关者”。

(三)人工智能难以完全取代律师的工作

法律的理想和现实,词句的衍义,现实的伦理困境和矛盾,道德的多元性都让案件判决趋于多样和多角度。伦理道德并非理性,而是一种信仰,它强烈的先验性色彩让我们只能相信自己的立场和善的原则,或许这种多元立场会在某种程度成为仁者见仁的怀疑论者的依据。、或许人类尚不足以给出令所有人都满意的答复,但如桑德尔所说:“怀疑论是人类理性暂时的休憩场所,是理性的自省,以伺将来做来正确的选择,但绝非理性永久定居地。”

在进行处理复杂案件、进行法庭辩论和与客户沟通等方面的工作,律师这一职业需要人类的情感、判断力和沟通能力,这些是AI目前无法完全取代的。因此,虽然AI可以在一定程度上辅助律师的工作,但律师的职业地位和重要性仍然是不可替代的。