GPTZero は正確ですか? チャットGPTを検出できますか? これが私たちのテストで明らかになったものです

2023/02/16

2022 年 11 月にニュースが発表されて以来、ChatGPT は世界を席巻しています。日常生活で ChatGPT を使用し始めたのは、身の回りのことについての質問に対する論理的な答えを得るのに非常に役立つからです。人気が高まるにつれて、このツールは、Google や Meta などからも、より大きな言語モデルに影響を与えてきました。これらは刺激的であると同時に、同様に懸念の原因となる可能性があります。

ChatGPT は簡単なプロンプトだけで包括的なコンテンツを生成できるため、ローンチから数か月の間に、学生が ChatGPT を悪用してエッセイを作成し、課題を提出する事例がいくつかありました。AI によって生成されたコンテンツの悪用に対抗するために、教育者やジャーナリストが AI を使用して作成されたかどうかを確認するために使用できる新しいツール GPTZero が登場しました。

この投稿では、GPTZero とは何か、GPTZero をどのように使用できるか、AI が生成したコンテンツから人間の記事を確実に検出して区別するために、GPTZero をどこまで信頼できるかについて説明します。

GPTZeroとは？

プリンストン大学の学生 Edward Tian によって開発された GPTZero は、統計分析を使用して、テキストが人間によって書かれたものか、ChatGPT のような AI コンテンツジェネレーターからコピーされたものかを検出するソフトウェアです。このツールは、教育、ジャーナリズム、およびその他の分野の人々が AI の盗作と戦い、ChatGPT を含む大規模言語モデル (LLM) によって生成されたテキストを表示していることを認識できるように設計されています。

ChatGPT のようなツールの人気がますます高まる中、多くの人々が AI サービスによって生成された記述コンテンツを悪用し、それを自分のものとして渡しています。GPTZero は、2 つの主要な要因である Perplexity と Burstiness を使用してテキストの複雑さを検出することにより、AI の使用を透過的にすることを誓います。

Perplexity – GPTZero が言語モデルからのテキストがどのように見えるかを比較する、入力テキストのランダム性の尺度を指します。このスコアが高いほど、テキストが機械ではなく人間によって書かれた可能性が高くなります。

バースティネス– テキスト内のテキストの分布を指します。AIが生成する文章はどこまでも均一な長さですが、人間が書く文章は長い文と短い文の両方が滑らかなパターンで含まれている場合があります。テキストの Burstiness スコアが高いほど、人間によって書かれた可能性が高くなります。

ツールにコピーしたテキストが AI によって書かれたものか人間によって書かれたものかを判断するだけでなく、GPTZero は LLM を使用して生成された可能性のあるテキストの一部を検出することもできます。記事が AI と人間の作業の両方を使用して作成された場合、このツールは、人工知能を使用して作成できると思われる部分を強調表示します。場合によっては、GPTZero は、入力テキストが「人間が書いた可能性が高い」と判断することもありますが、改善できるように「困惑の少ない文」が含まれています。

GPTZero をどのように使用できますか?

ChatGPT を使用するにはアカウントが必要になる場合がありますが、テキストが AI によって書かれたかどうかを確認するためにアカウントやサブスクリプションを必要としないため、GPTZero の使用は非常に簡単です。つまり、サービスの使用を開始するために、メールアドレスや電話番号などの個人情報を共有する必要はありません。GPTZero を使用するために必要なものは次のとおりです。

インターネットに接続できるパソコンやスマートフォンなどのデバイス
アクティブなインターネット接続
GPTZero Web サイトを起動するための Web ブラウザー

これらの要件を整理したら、任意のデバイスの Web ブラウザーでGPTZeroを起動します。この例では、Mac 上の Firefox で使用していますが、任意のコンピューターまたは電話で任意のブラウザーを使用できます。

GPTZero が読み込まれたら、[Try it out]セクションまで下にスクロールします。その下に表示されているテキストボックスに、AI 盗作をチェックするテキストをコピーして貼り付けます。ここに貼り付けるテキストは、検出器が分析できるように、少なくとも 250 文字の長さにする必要があります。

また、テキストボックスの下にある[参照] をクリックして、デバイスにあるドキュメントのテキストに AI が関与しているかどうかを確認することもできます。そこから、サポートされているこれらの形式 (PDF、DOCX、および TXT) でファイルをアップロードして、GPTZero がファイルを分析できるようにすることができます。

チェックしたいテキストを入力したら、Get Resultsをクリックします。

GPTZero は、共有したテキストを即座にチェックし、その結果を判断します。以下の結果が表示され、テキストが人間によって書かれたものか、AI によって生成されたものかがわかります。

入力したテキストに基づいて、次のいずれかの結果が得られる場合があります。

あなたのテキストは、人間によって完全に書かれている可能性があります。
あなたのテキストはすべて Al によって書かれている可能性があります。
あなたのテキストは人間が書いたものである可能性が最も高いですが、困惑の少ない文章がいくつかあります。
あなたのテキストには、Al によって書かれた部分が含まれる場合があります。

下にスクロールすると、結果の詳細が表示されます。GPTZero がテキストに AI の関与を検出した場合、AI が作成したとツールが判断した部分が黄色で強調表示されます。

さらにスクロールすると、「統計」セクションの下に、入力テキストの詳細な分析とその Perplexity および Burstiness の測定値が表示されます。これらの測定値は数値で示され、棒グラフでどのように推移するかがわかります。Perplexity 値と Burstiness 値の両方でテキストのスコアが低いほど、AI コンテンツジェネレーターの助けを借りて書かれた可能性が高くなります。

統計セクションの最後に、GPTZero は、パープレキシティが最も高い文章とその個々のスコアも表示します。これは、テキストのこの部分が人間によって書かれたことを必ずしも意味するものではありませんが、この部分が AI を使用して書かれている可能性が最も低いことを示しています。

GPTZero は正確ですか?

TL;DR バージョン: ソフトウェアの限られた時間のテストでは、GPTZero が ChatGPT によって生成されたテキストをほぼ常に正確に判断していると推測できました。そして、人間が書いたテキストをチェックすることになると、そこが障害になります。

GPTZero は、AI によって生成されたコンテンツを簡単に検出できますが、人間によって書かれたコンテンツでなくても、「AI によって書かれた」というフラグを立てます。これは、GPTZero が実際の結果が陰性である場合に誤検知をマークすることもできるため、このツールを使用して AI によって生成されたコンテンツをチェックするという目的に反します。

フルバージョン: GPTZero がテキストが AI によって生成されたものか人間によって書かれたものかを判断できるかどうかをテストするために、それを自分で使用しました。ツールの精度を明らかにする前に、サービスがどのように機能するかについての一般的なアイデアを得るために、ツールのテスト方法を理解する必要があります。

GPTZero のテスト方法

GPTZero を徹底的にテストするために、Nerdschalk.com の既存の記事のテキストを使用し、イントロやガイドなど、これらの記事のテキストのさまざまなセクションをコピーしました。GPTZero の内部では、それらの記事からの抜粋をコピーして貼り付け、AI の関与を確認しました。

人間が書いたテキスト (私たちのコンテンツ) とともに、GPTZero が AI によって生成されたテキストを検出するかどうかもテストしたいと考えました。このために、ChatGPT を使用して、Nerdschalk からテキストをコピーしたのと同じトピックのイントロとガイドを作成しました。

例を示すために、ChatGPT にこの投稿のイントロを作成するよう依頼しました – How to Unmerge Cells in Google Docs.

サービスがクエリに対する応答を生成したとき、AI が作成したテキストをコピーして GPTZero のテキストボックスに貼り付け、その正当性を確認しました。

同様に、イントロを自分の投稿からコピーし、GPTZero で AI の関与を確認しました。

GPTZero の結果の一貫性を判断できることを確認するために、私たち自身の投稿と、私たちの投稿と同じトピックで ChatGPT に作成を依頼したものから、それぞれ少なくとも 10 のテキストの抜粋を使用してこれをテストしました。これが私たちが見つけたものです。

GPTZero は ChatGPT によって書かれたテキストを検出しますか?

AI を使用して書かれたテキストを検出するように設計されたツールである GPTZero は、ChatGPT を使用して作成されたテキストを認識するのに非常に優れています。ChatGPT に作成を依頼したコンテンツをコピーするたびに、GPTZero は AI の助けを借りて作成された可能性が高いことを正確に確認することができました。

ChatGPT によって作成されたテキストの場合、GPTZero は、テキスト全体が AI によって書かれたものであるか、AI が関与したテキストの一部が含まれていると判断します。AI が作成したテキストをどのように見つけたかを理解するために、GPTZero は各結果の最後に Perplexity と Burstiness のスコアを表示します。

AI によって生成されたテキストの場合、ソフトウェアは一貫して低い Perplexity 値を明らかにし、人間の場合、語彙知識が他の人とは異なるため、テキストが少しランダムに見える可能性があるため、どれが難しいかを予測しやすいことを示しました。ChatGPT によって生成されたテキストのスコアが低いため、バースティネス値を決定する際にも同じことが当てはまり、使用された文章の長さがより均一であったことが示されました。

また、このツールは、AI によって生成される可能性が最も高いと思われるテキストの部分を分離します。たとえば、次のスクリーンショットを見てください。

これはまだ小さなサンプルスケールですが、GPTZero は、ChatGPT で生成されたコンテンツを AI によって作成されたものとしてフラグ付けするのに非常にうまく機能したと結論付けることができます。

GPTZero は人間が書いたテキストを検出しますか?

さて、ここで障害にぶつかります。GPTZero は、ChatGPT テキストが AI によって書かれたものであると簡単に判断できましたが、元の Nerdschalk 記事からコピーしたテキストに対しても同じことを行いました. ChatGPT に作成を依頼したのと同じトピックのテキストを使用したため、GPTZero は、特定のテキストが 10 回の試行で人間によって書かれたものであることを 2 回しか正確に検出できませんでした。

どちらの「成功」例でも、GPTZero がどのくらいのテキストが私たちによって書かれたと考えられるかについて、さまざまな結果が得られました。たとえば、元の投稿からのこの抜粋を確認したところ、ソフトウェアは、このテキストは完全に人間によって書かれた可能性があるという正確な結果を示しました。

ただし、スクロールして Perplexity と Burstiness のスコアを確認すると、表示された値 (42.5 と 13.4) は、ChatGPT によって生成されたテキスト (46 と 20.8) よりも低かった. これは、テキストの AI の関与を判断するために使用されたパラメーターでさえ一貫性がなかったことを意味しますが、この場合の結果は正確でした。

GPTZero が正しかったもう 1 つの例は、この Nerdschalk の投稿からテキストの一部をコピーしたときです。前のケースとは異なり、ツールはそれが人間によって書かれたものであると結論付けることができましたが、抜粋内にパープレキシティ値が低い文が見つかりました。テキスト全体がもともと私たちによって書かれたときに、AI によって書かれたと思われる文章を強調表示することさえありました。

このテキストの統計を前のものと比較すると、GPTZero は同様のパープレキシティスコア 40.2 を示し、わずかに高いバースティネス値 17.9 を示しました。

他の結果に関しては、ソフトウェアは、私たちが書いたテキストの 10 部分のうち 8 部分を、AI によって生成されたものとして誤ってフラグ付けしました。たとえば、この元の投稿のイントロは、「すべて AI によって書かれている可能性が高い」と示されていました…

同じ投稿の別の部分では、このようなわずかに異なる結果が明らかになりました –

…これは、同じ抜粋が 76.3 と 59.3 という最高の Perplexity と Burstiness のマークを獲得したため、紛らわしく、GPTZero で提出した他のどのテキストよりも高かった.

つまり、初期段階にある GPTZero は、AI によって生成されたコンテンツを検出する方法と同じ精度で、人間によって書かれたテキストを検出することができません。

GPTZero はどのくらい正確ですか?

ソフトウェアを徹底的にテストした結果、GPTZero の結果はせいぜいまずまずという結論に達しました。これは、ツールが人間によって書かれたテキストを検出する際に一貫性がないためです。ChatGPT で生成されたコンテンツを AI が作成したものとして読み取り、検出できたという事実にもかかわらず、このソフトウェアは人間が書いた短い文章やテキストを認識できないため、教育者やジャーナリストが AI の盗作をチェックするための信頼できないツールとなっています。

このようなツールの目的は、人々が AI コンテンツ生成の非倫理的な使用に取り組むのを支援することであるため、GPTZero を 100% の信頼性で使用することはできません。これは、改善の余地がないということではありません。ソフトウェアが他の大規模言語モデル (LLM) からより多くのデータを追加して認識の精度を高めるにつれて、テキストの認識はより高い可能性を達成できるからです。ただし、今のところ、ひとつまみの塩と、人間と機械によって書かれた単語を区別する独自の能力を備えた GPTZero を使用できます。

GPTZero の精度について知っておく必要があるのはこれだけです。