本文評估GPT-4 Turbo、Claude 2.1和Mistral Large三種AI大語言模型在解讀長篇法學論文的效能,並透過設計提示詞來引導AI,比較模型在提取論文結構、關鍵內容及專有名詞解釋上的表現。結果顯示,GPT-4 Turbo在詳細解讀方面表現最佳。若遇到大語言模型的回答發生異常時,可調整提示詞或嘗試不同的大語言模型。
本文係於2024年2月,測試兩個AI大語言模型:GPT-4和Claude 2.1解析最高法院判決的能力。結果Claude 2.1有比較高的可能性,毋須提示即可正確識別最高院見解,展現其強大文本分析和邏輯思維能力。相反GPT-4則無法正確抓取最高院見解,即使給提示也不完整。本測試顯示Claude 2.1優於GPT-4,具備較強解析複雜法律文本的能力。