📂 CPX PDF書類自動仕分け by BERT

大量のPDF書類を、社内システムだけで処理して、種類ごとに自動でフォルダ整理

外部公開用説明書 v1.0.0

🎯 このシステムでできること

ためこんだ PDFの書類を“まるごと”AIに渡すだけ。中身を読み取って、 「これは銀行の書類」「これは物件の契約書」と判断し、種類ごとのフォルダへ自動で振り分け、 さらに 分かりやすいファイル名 まで付けます。

これまで人が1枚ずつ開いて「どこに入れよう…」と悩んでいた作業を、まとめて自動化します。

🔒 オンプレ完結(社内のコンピュータだけで処理)なので、 機密文書を外部のサービスに一切出さずに守れます。

⚡ つかいかた(3ステップ)

1
書類を入れる
PDFを何千枚でもそのまま投入。
2
AIが読む
1ページ目から内容を理解。
3
自動で整理
種類別フォルダへ収納+名前付け。

🔍 仕組み(やさしく)

中では次の順で処理が進みます。専門用語は 用語集 も参照してください。

① 文字をよみとる

紙をスキャンしたPDFは「画像」です。まず OCR(画像から文字を読み取る技術)で、 文字データに変換します。

② 文章を「数」にして種類を見わける

コンピュータは文章そのままでは比べられないので、いったん「数」に変換します。日本語はまず 形態素解析(文を単語に分ける処理)で単語に区切り、そこから種類を判定します。 この“判定する頭脳”を、当社は3世代にわたって開発・改良してきました(→次の章)。 現在は BERT(文章の意味を前後の文脈ごと理解する高性能AI)を使っています。

③ キーワードやAIで目印をつける

本文から「会社名」「物件名」「発行日」などを見つけてタグ(目印)にします。 辞書で見つからない場合は LLM(文章を理解・生成できる大規模AI)が本文から読み取って補います。

④ 似た書類を探す(応用:ベクトル検索)

文章をAIで ベクトル(数の並び)に変換しておくと、 コサイン類似度(ベクトル同士の“向きの近さ”)で 意味の近い書類を探す ベクトル検索 もできます。 キーワードが一致しなくても、内容が似ていれば見つけられるのが特長です。

⑤ フォルダに片づける

「種類 → 取引先」の二段構えで自動収納し、ファイル名にもタグを付けます。

🧬 文書分類AIの進化(世代の歩み)

当社がこのシステムのために開発・改良してきた「分類の頭脳」の歩みです。 世代を重ねるごとに、言葉の“意味”や“文脈”まで理解できるように作り変えてきました。

世代中心技術やっていること(ざっくり)
第1世代TF-IDFSVM 単語の「出やすさ・珍しさ」を数値化し、直線で種類を切り分ける方式。
第2世代MLP(+単語ベクトル) 単語を数ベクトルにし、簡単なニューラルネットで分類。表現力が向上。
第3世代
(現在)
BERT(+LLM 文章全体の意味を文脈ごと理解して分類。固有名や日付の抽出はLLMで補完。
ざっくり言うと 「単語の数えあげ(第1世代)」→「単語のベクトル化(第2世代)」→「文章の意味理解(第3世代)」 という進化です。

🗂️ 仕分けできる種類

書類を次のような種類(カテゴリ)に自動で振り分けます。

銀行証券会社不動産・物件税務 公共料金火災保険契約書 被請求書固定資産台帳社会保険 クレジットカード名刺分類不能

どの種類か自信がないものは 「分類不能」 に分けるので、誤って混ざることを防げます。

📁 フォルダと名前のつき方

「種類 → 取引先」の二段構えで整理されます(※名前はすべて見本です)。

出力先フォルダ/ └ 20_銀行証券/   └ 20-00_銀行詳細/     └ 515○○銀行/ ← 銀行ごとにフォルダ       └ 20251003_○○銀行_2p.pdf ← 名前も自動

ファイル名に「取引先・物件・発行日・ページ数」などが入るので、開かなくても中身が分かります。

✅ うれしいポイント

手作業ゼロ
仕分け・命名が全自動。人は確認だけ。
すぐ探せる
種類別・取引先別に整理済み。名前で中身が分かる。
オンプレ完結で安全
社内だけで処理し、機密文書を外部に出しません。

🛡️ 品質と安全

しくみなにをしているか
信頼度スコア1枚ごとに「どれだけ自信を持って読めたか」を数値化。
分類不能ふりわけ判断できないものは無理に分けず、別フォルダへ。
OCR不可の検出手書き・低画質などで読めない書類を自動で見分け、人の確認に回せます。
オンプレ完結外部クラウド等に書類を送らず、社内の環境だけで処理する設計。機密保持に有利。

📖 用語集

用語かんたんな意味
OCR画像(スキャンした紙)から文字を読み取る技術。
形態素解析日本語の文を「単語」に区切る処理。AIが扱う前の下ごしらえ。
TF-IDF単語の「よく出る/珍しい」を数値化して文章の特徴をつくる古典的な方法(第1世代)。
SVMサポートベクターマシン。データを“直線(境界)”で2つに切り分ける分類器(第1世代)。
MLP多層パーセプトロン。層を重ねた簡単なニューラルネット(人工神経回路)。分類に使う(第2世代)。
BERT文章を前後の文脈ごと理解する高性能AI。現在の分類の中心(第3世代)。
LLM大規模言語モデル。文章を理解・生成でき、会社名や日付などの抽出を補います。
ベクトル文章や単語を表す「数の並び」。意味が近いほどベクトルも近くなります。
コサイン類似度2つのベクトルの“向きの近さ”を測る指標(1に近いほど似ている)。
ベクトル検索文章をベクトルにして、コサイン類似度で「意味の近い書類」を探す検索方式。

💬 Q&A

Q. どんな書類でも仕分けできますか?

A. 銀行・税務・物件・契約書・名刺など多くの種類に対応します。手書きや極端に画質の悪いものは「読めない書類」として人の確認に回します。

Q. データが外部にもれませんか?

A. オンプレ完結(社内環境だけで処理)の設計です。書類の中身を外部サービスへ送る必要がなく、機密文書を社内で守れます。

Q. ファイル名や元の書類は書き換わりますか?

A. 元のPDFはそのまま。仕分け先にコピーして、コピー側に分かりやすい名前を付けます。

Q. 間違った種類に入ることはありませんか?

A. 100%ではありませんが、自信がないものは「分類不能」へ回す設計で誤混入を抑えています。信頼度の数字で見直しもできます。

Q. 何枚くらいまで処理できますか?

A. 数千〜数万枚規模をまとめて処理できます。途中で止めても続きから再開できます。