AI法律文本解析對決:GPT-4與Claude 2.1解讀最高法院判決的評比

在當今快速發展的人工智能領域,AI 的應用正逐步深入到法律領域。本文旨在2024年2月的時間點,比較兩個領先的 AI 大語言模型— Anthropic 開發的 Claude 2.1 和OpenAI的ChatGPT (GPT-4)—在總結台灣最高法院判決的能力。通過比較,我們可以了解這些先進模型在理解法院判決文本方面的表現,以便評估AI大語言模型的在高級語言處理任務中的實用性和準確性。

一、以二審與三審理由在同一段的最高法院判決來測試

台灣有少數最高法院判決,會將其所引用的原審判決理由與最高法院自己的理由,連續寫在同一個段落內。在結構上沒有明確的劃分與組織,增加閱讀者理解的障礙,屬於非常糟糕的文章結構(近年來有改善)。沒仔細閱讀,還分不出最高法院的見解究竟是什麼?甚至連法律學者也都會搞混,而誤將最高法院在判決中引用的原審判決理由認為是最高法院判決的見解。不過,這不失為測試 AI 總結能力的好工具。因為,AI 要能在同一段文字中,區分與辨識出原審判決與最高法院判決理由,才能對最高法院判決理由做總結。

我選擇 最高法院90年台上字第1017號民事判決 來測驗 AI 大語言模型的能力。因為,在該則判決中,原審判決理由與最高法院判決理由是記載在同一段落中,不易區分。而且,就連臺灣勞動法學會主編,在2020年出版的《集體勞動法實務見解彙編》一書,也將該則最高法院判決引用並廢棄的原審判決理由,誤認為最高法院判決的理由。

分析這一則最高法院判決在「理由」項下的結構,如下:

第一段:「本件被上訴人主張…」,這也是一審原告的主張。

第二段:「上訴人則以…」,這也是一審被告的主張。

第三段:「原審將第一審所為被上訴人敗訴部分之判決,一部廢棄,改判…..為其判斷之基礎。查原審認….。」這一段是將原審判決理由與最高法院自己的判決理由寫在同一段之內,沒有區分成不同段落,令閱讀者難以區分出哪一個部分是原審判決理由?哪一個部分是最高法院判決理由?閱讀者的閱讀能力,必須足以瞭解原審判決理由是到「為其判斷之基礎。」為止,後面的「查原審認」之後,才是最高法院判決理由。也就是以「為其判斷之基礎。」為原審判決理由及最高法院判決理由的分界點。這足以考驗閱讀者的理解能力。

第四段:「據上論結,本件上訴為有理由。…判決如主文。」

最高法院在該則民事判決所表示的見解,是在理由第三段中間「為其判斷之基礎。」之後,我整理最高法院見解如下:

  1. 原審認定被上訴人得不經預告終止契約,係以上訴人已自認短發86年5月薪資,而被上訴人業以存證信函為終止勞動契約之意思表示。惟遍觀卷附系爭存證信函,被上訴人未曾表示:上訴人短發86年5月份薪資。原審之判斷與卷內證據資料不符,有認定事實不憑證據之違法。
  2. 當事人主張有利於己之事實者,就其事實有舉證之責任。勞工應休之特別休假日於年度終結時,如有未休完日數,雇主是否應發給勞工未休完日數之工資,端視其原因而定。所以,被上訴人請求未休特別休假工資,應就債權發生之事實,也就是不休假原因,負舉證之責。
  3. 上訴人於勞資爭議調解表示「願依法補發勞方未休特別假之工資」,乃於調解程序中所為之讓步意見,調解既未成立,上訴人即不受其羈束。
  4. 原判決記載被上訴人於第一審請求上訴人給付資遣費及資遣費遭駁回之數額,比被上訴人聲明不服之數額還少,是否為誤算誤載?應查明。

《集體勞動法實務見解彙編》2020年版第201頁就該則最高法院判決所摘錄的部分:

勞資爭議處理法第八條規定:「勞資爭議在調解或仲裁期間,勞方不得因勞資爭議事件而罷工、怠工或為其他影響工作秩序之行為 」,雖是對勞方之限制,但均有先決條件,必須是因勞資爭議事件而不可有罷工、怠 工等影響工作秩序之非法行為,如有其他正當理由,則不受限制,暨該條文中未明文 禁止『勞方不得終止勞動契約』,與同法第七條規定有別,顯有意排除勞方得依法終 止勞動契約之適用,是被上訴人於勞資爭議調解期間終止兩造間之勞動契約,即難謂違反強制或禁止規定。

這其實是原審判決的見解,最高法院引用在其判決中理由項下第三段之前半部。但該書編輯者將其誤為最高法院的見解。

二、受試的AI大語言模型

我將該則最高法院判決從司法院法學資料檢索系統轉成 PDF 檔,並下載下來,再於2024年2月初分別上傳到下列兩個個網站,來測試這些 AI 大型語言模型是否能正確解讀出最高法院在這一則判決中所表示的見解。我所選擇可以上傳 PDF 檔的 AI 大語言模型網站,如下:

  1. GPT-4:這是在 perplexity.ai 網站,調用 OPEN AI 的 GPT-4 的大語言模型來測試。
  2. Claude:這是在 Claude 網站,使用 Anthropic 所發展的 Claude-2.1 大語言模型來測試。

三、測試所用的提示詞

提示詞 1:

請說明最高法院的見解。

提示詞2:

請依序說明:
1.原告之主張
2.被告之答辯
3.原審判決的理由
4.最高法院的理由
並以條列式呈現。

就以上兩個提示詞,大語言模型必須能在「閱讀」完整個判決書後,找到屬於最高法院在這一則判決中所表示的理由或見解,才能正確回答。提示詞1,是直接直球對決,考驗 AI 大語言模型是否能找出隱藏在與原審判決理由混在同一段落中的最高法院判決理由,並加以正確解讀與分析;考驗大語言模型是否能判斷出原審判決理由是到「…為其判斷之基礎。」為止,後面的「查原審認…」之後,才是最高法院判決理由。

如果以提示詞 1,無法使大語言模型正確解讀。基於最高法院判決結構,可以分為當事人(上訴人、被上訴人)的主張、原審判決理由、最高法院判決理由等四個段落。所以,使用思維鏈 (Chain of Thought) 技術,設計出提示詞2。透過提示大型語言模型生成一系列中間步驟,逐步解讀最高法院判決的四段結構,以提高其解讀能力,提升大語言模型回答的正確性。而且,最高法院判決只會標示上訴人、被上訴人,不會標示原告、被告。下提示詞 2,大語言模型還要能判斷出誰是原告、誰是被告?然後逐步找出原審判決的理由、最高法院判決的理由。

四、測試結果

(一)GPT-4

perplexity.ai 網站,調用 Open AI 的 GPT-4 模型來測試。下圖中 AI 大語言模型回答的右下角有「GPT-4」的字樣,可以證明這是調用 GPT-4 的大語言模型所做的回答。以 GPT-4 測試的完整對話內容,我附上連結附於本段之結尾。

使用提示詞 1,GPT-4 雖能指出本件判決之案號、主要爭議點及案件背景,內容也大致正確。但對照前述整理的本件最高法院見解,GPT-4是無法正確解讀出最高法院所表示的見解,理由完全錯誤。而且是如同《集體勞動法實務見解彙編》2020年版第201頁所犯的錯誤一般,犯有將原審判決理由當做最高法院判決理由的錯誤。內容如下圖。

即使修正提示詞 1 為:「請說明最高法院的見解。注意,最高法院的見解在「為其判斷之基礎」的文字之後。請總結該部分的內容。」;或是使用具有思維鏈性質的提示詞 2,但沒有指出最高法院判決見解所在位置。GPT-4 都無法正確解讀出最高法院判決的見解。

那麼,就再修正提示詞 2。就是在使用思維鏈技術的同時,也明確指出最高法院判決見解是在「為其判斷之基礎」之後的內容。

這次,GPT-4 就「大致」可以正確解讀出最高法院的見解是關於原判決認定事實錯誤、舉證責任、未審查不休特休假原因等理由,但內容太過簡略,有待加強。而且,還是有遺漏「上訴人不受其在調解程序所作讓步之拘束」及「資遣費誤算」等內容。

點擊該連結以查看這段和GPT-4的對話。

(二)Claude-2.1

接下來,再以提示詞 1及提示詞 2 在 Claude AI 網站測試。由於 Claude AI 並未提供連結的功能,所以在此只能提供截圖。測試結果如下圖:

對照前述整理的本件最高法院見解。測試證明,Claude 能夠正確解讀出最高法院在該判決中所表示的見解。在不需要特別提示最高法院見解出現在哪個部分的情況下,僅通過提問「請說明最高法院的判決見解」,Claude 就能從原審判決理由和最高法院見解寫在同一段落的判決結構中,準確歸納出最高法院的見解。如果以思維鏈的提示詞2來詢問,也可以讓讀者對於該則判決得出整體且正確的認識。

美中不知之處,是 Claude 以中文回答時使用的標點符號:因為 Claude 除了句點用全形符號呈現以外,其餘逗點、冒號與問號都採用了半形符號的方式顯示。這種半形標點使用習慣,與中文排版的規範不符。還有 Claude 對於使用者以繁體中文的詢問,有時候會摻雜簡體中文。使用者如果要將 Claude 的回答複製到自己的文章中,還需要另外修改,增添中文使用者的麻煩。

五、結論

本文比較測試了 GPT-4 和 Claude-2.1 兩個領先的 AI 大語言模型,在理解和歸納最高法院判決見解的能力。測試案例為一則最高法院判決,其中原審理由和最高院見解混雜在同一段落,增加辨識難度。

測試結果顯示,在不給予明確提示的情況下,GPT-4 無法正確抓取最高法院見解,而是將原審見解當成最高院見解。即使給予額外提示,GPT-4 提取的最高院見解也不完整。相較之下,Claude-2.1僅靠單一提示「請說明最高法院見解」,就能從文本結構中準確歸納出完整的最高法院見解。

本次測試證明,Claude-2.1 在解析複雜法律文本、識別關鍵見解方面,優於 GPT-4。 Claude-2.1 展現出較強的邏輯思維與文本分析能力。而 Claude AI 不僅可以免費註冊使用,也可以上傳 PDF 檔。在中文法律文本的解析,比需要付費的 GPT-4 還準確,應為最佳選擇。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料