GPTZero 準確嗎？它可以檢測聊天 GPT 嗎？這是我們的測試結果

2023/02/16

自 2022 年 11 月成為新聞以來，ChatGPT 就席捲了整個世界。人們已經開始在日常生活中使用它，因為它可以極大地幫助您就周圍事物的問題獲得合理的答案。隨著越來越受歡迎，該工具激發了更多大型語言模型，甚至來自 Google 和 Meta 等公司，這既令人興奮又令人擔憂。

自推出以來的幾個月裡，有幾起學生濫用 ChatGPT 來創作論文和提交作業的案例，因為該工具只需一個簡單的提示即可生成全面的內容。為了打擊人工智能生成內容的濫用，現在有一個新工具——GPTZero，教育工作者和記者可以使用它來檢查一篇文章是否是使用人工智能創作的。

在這篇文章中，我們將解釋 GPTZero 是什麼、如何使用它，以及您可以相信它在多大程度上能夠可靠地檢測和區分人類文章與 AI 生成的內容。

什麼是 GPTZero？

GPTZero 由普林斯頓大學學生 Edward Tian 開發，是一種使用統計分析來檢測文本是人類編寫的還是從 ChatGPT 等人工智能內容生成器複製的軟件。該工具旨在幫助教育、新聞和其他領域的人們打擊 AI 剽竊，並了解他們何時查看由大型語言模型 (LLM) 生成的文本，其中之一是 ChatGPT。

隨著 ChatGPT 等工具的日益普及，許多人一直在濫用 AI 服務生成的書面內容並將其據為己有。GPTZero 承諾通過檢測具有兩個主要因素（困惑度和突發性）的文本的複雜性，使人工智能的使用變得透明。

困惑度——指的是 GPTZero 將與語言模型中的文本的外觀進行比較的輸入文本的隨機性度量。這個分數越高，文本由人而非機器編寫的可能性就越大。

突發性——指文本在文本中的分佈。雖然 AI 生成的文本到處都是統一的長度，但人類編寫的文本可能包括具有平滑模式的長句和短句。文本的 Burstiness 分數越高，它越有可能是由人寫的。

除了確定您複製到該工具的文本是由 AI 還是人類編寫的，GPTZero 還可以檢測可能使用 LLM 生成的文本部分。如果一篇文章是同時使用人工智能和人類作品撰寫的，該工具將突出顯示它認為可以使用人工智能創建的部分。在某些情況下，GPTZero 還可能確定輸入文本“更可能是人類編寫的”，但包含“低困惑度的句子”，以便您可以對其進行改進。

如何使用 GPTZero？

雖然您可能需要一個帳戶才能使用 ChatGPT，但使用 GPTZero 相當簡單，因為您不需要帳戶或訂閱來檢查文本是否由 AI 編寫。這意味著您無需共享您的個人信息（例如您的電子郵件地址或電話號碼）即可開始使用該服務。使用 GPTZero 所需要做的就是：

可以連接到互聯網的設備，例如計算機或電話
有效的互聯網連接
啟動 GPTZero 網站的網絡瀏覽器

滿足這些要求後，在您的任何設備上的網絡瀏覽器上啟動GPTZero 。在這種情況下，我們在 Mac 上的 Firefox 上使用它，但您可以在任何計算機或手機上使用任何瀏覽器。

當 GPTZero 加載時，向下滾動到Try it out部分。在其下方可見的文本框中，複製並粘貼要檢查 AI 抄襲的文本。您在此處粘貼的文本長度至少應為 250 個字符，以便檢測器對其進行分析。

您還可以通過單擊文本框下方的瀏覽來檢查您設備上的文檔中的文本是否涉及 AI 。從那裡，您可以上傳這些支持格式的文件——PDF、DOCX 和 TXT，以允許 GPTZero 對其進行分析。

輸入要檢查的文本後，單擊“獲取結果”。

GPTZero 將立即檢查您共享的文本並確定其結果。你會得到下面的結果，讓你知道文本是由人寫的還是人工智能生成的。

根據您輸入的文本，您可能會得到以下任何結果：

您的文本很可能完全由人編寫。
您的文字很可能完全由 Al 撰寫。
你的文本很可能是人類寫的，但有些句子的困惑度較低。
您的文本可能包含 Al 編寫的部分。

向下滾動時，您將看到有關結果的更多詳細信息。如果 GPTZero 檢測到您的文本中有任何 AI 參與，該工具確定為 AI 編寫的部分將以黃色突出顯示。

當您進一步滾動時，您將在“統計”部分下看到輸入文本的詳細分析及其困惑度和突發度測量。這些測量值將以數字表示，您將在條形圖中看到它的表現。文本在 Perplexity 和 Burstiness 值上的得分越低，它是在 AI 內容生成器的幫助下編寫的機會就越高。

在 Stats 部分的末尾，GPTZero 還會顯示困惑度最高的句子及其個人得分。這並不一定意味著這部分文本是由人類編寫的，但它表明這部分文本使用 AI 編寫的可能性最小。

GPTZero 準確嗎？

TL;DR 版本：在我們有限的時間測試軟件時，我們能夠推斷出 GPTZero 幾乎一直都能準確地確定由 ChatGPT 生成的文本。當涉及到檢查人類編寫的文本時，這就是它遇到障礙的地方。

雖然 GPTZero 可以輕鬆檢測到由 AI 生成的內容，但它也會將人類編寫的內容標記為“由 AI 編寫”，即使它不是。這超出了使用此工具檢查 AI 生成內容的目的，因為 GPTZero 還可以在實際結果為負時標記誤報。

完整版：為了測試 GPTZero 是否能夠確定文本是 AI 生成的還是人類編寫的，我們將其用於自己。在我們揭示該工具的準確性之前，您需要先了解我們是如何測試它的，以便您大致了解該服務的工作原理。

我們如何測試 GPTZero

為了徹底測試 GPTZero，我們使用了 Nerdschalk.com 上現有文章中的文本，並從這些文章中復制了不同的文本部分，例如介紹和指南。在 GPTZero 內部，我們粘貼了這些文章的複制摘錄，並檢查了它們是否涉及 AI。

除了人工編寫的文本（我們的內容），我們還想測試 GPTZero 是否檢測到通過 AI 生成的文本。為此，我們使用了 ChatGPT，並用它為我們從 Nerdschalk 複製文本的相同主題創建了介紹和指南。

舉個例子，我們要求 ChatGPT 為這篇文章創建一個介紹——如何在 Google 文檔中取消合併單元格。

當服務生成對我們查詢的響應時，我們複製 AI 編寫的文本並將其粘貼到 GPTZero 的文本框中以檢查其合法性。

同樣，我們從自己的帖子中復制了介紹，並在 GPTZero 上檢查了它是否涉及 AI。

為了確保我們能夠確定 GPTZero 結果的一致性，我們使用至少 10 個文本摘錄進行了測試，每個文本都來自我們自己的帖子以及我們要求 ChatGPT 創建的與我們的帖子主題相同的文本。這就是我們的發現。

GPTZero 是否檢測到 ChatGPT 編寫的文本？

對於旨在檢測使用 AI 編寫的文本的工具，GPTZero 在識別使用 ChatGPT 創建的文本方面做得非常好。每次我們複製我們要求 ChatGPT 創建的內容時，GPTZero 都能準確地確定它很可能是在 AI 的幫助下編寫的。

對於 ChatGPT 創建的文本，GPTZero 要么確定整個文本是由 AI 編寫的，要么包括有 AI 參與的部分文本。為了幫助您了解它是如何找到 AI 編寫的文本的，GPTZero 會在每個結果的末尾向您顯示困惑度和突發度分數。

對於 AI 生成的文本，該軟件始終顯示較低的困惑度值，這表明它們更容易預測人類情況下的哪些內容會比較困難，因為一個人的詞彙知識會與其他人不同，因此文本可能看起來更隨機一些。在確定 Burstiness 值時也是如此，因為 ChatGPT 生成的文本得分較低，因此表明所使用的句子在長度方面更加統一。

該工具還將隔離它認為最有可能通過人工智能生成的文本部分。看看這個截圖，例如：

儘管這仍然是一個小樣本規模，但我們可以得出結論，GPTZero 在將 ChatGPT 生成的內容標記為 AI 編寫方面表現相當不錯。

GPTZero 是否檢測到人類編寫的文本？

現在，這是我們遇到障礙的地方。雖然 GPTZero 能夠輕鬆確定 ChatGPT 文本是 AI 編寫的，但它甚至對我們從 Nerdschalk 原始文章中復制的文本也做了同樣的事情。當我們使用來自我們要求 ChatGPT 創建的同一主題的文本時，GPTZero 只能在十次嘗試中正確檢測到特定文本是由人類編寫的兩次。

在這兩個“成功”的例子中，關於 GPTZero 認為有多少文本是我們寫的，我們得到了不同的結果。例如，當我們檢查原始帖子的這段摘錄時，該軟件顯示了一個準確的結果，表明這段文字可能完全由人類撰寫。

然而，當我們滾動查看其困惑度和突發性分數時，顯示的值（42.5 和 13.4）低於 ChatGPT 生成的文本（分別為 46 和 20.8）。這意味著即使是用於確定文本是否涉及 AI 的參數也不一致，儘管在這種情況下結果是準確的。

GPTZero 正確的另一個例子是我們從這篇 Nerdschalk 帖子中復制了部分文本。與之前的案例不同，雖然該工具能夠斷定它是由人類編寫的，但它在摘錄中發現了具有較低困惑度值的句子。當整個文本最初是由我們編寫時，它甚至突出顯示了它認為是由 AI 編寫的句子。

當我們將這篇文章的統計數據與前一篇文章進行比較時，GPTZero 顯示出類似的 Perplexity 得分 40.2，Burstiness 值略高，為 17.9。

至於其他結果，該軟件錯誤地將我們編寫的 10 部分文本中的 8 部分標記為 AI 生成的文本。例如，這篇原始帖子的介紹顯示為“可能完全由 AI 編寫”……

而同一篇文章的另一部分顯示了這樣一個略有不同的結果——

……令人困惑的是，同一摘錄的困惑度和突發度得分分別為 76.3 和 59.3，高於我們在 GPTZero 上提交的任何其他文本。

這就是說，處於早期階段的 GPTZero 無法像檢測通過 AI 生成的內容一樣準確地檢測人類編寫的文本。

GPTZero 的準確性如何？

在我們對該軟件的全面測試中，我們得出的結論是，由於該工具在檢測人類編寫的文本時存在不一致性，因此 GPTZero 的結果充其量是可以通過的。儘管它能夠閱讀和檢測 ChatGPT 生成的內容是否為 AI 編寫，但該軟件無法識別人類編寫的短句和文本，這使其成為教育工作者或記者檢查 AI 剽竊的不可靠工具。

由於此類工具的目的是幫助人們解決人工智能內容生成的不道德使用問題，因此 GPTZero 不能 100% 可靠地使用。這並不是說沒有改進的餘地——因為隨著軟件添加更多來自其他大型語言模型 (LLM) 的數據以提高識別的準確性，文本識別可以獲得更高的潛力。不過，就目前而言，您可以對 GPTZero 有所保留，並根據自己的能力來區分人類和機器書寫的文字。

這就是您需要了解的有關 GPTZero 準確性的全部信息。