CPX PDF書類自動仕分け by BERT

🎯 このシステムでできること

ためこんだ PDFの書類を“まるごと”AIに渡すだけ。中身を読み取って、「これは銀行の書類」「これは物件の契約書」と判断し、種類ごとのフォルダへ自動で振り分け、さらに 分かりやすいファイル名 まで付けます。

これまで人が1枚ずつ開いて「どこに入れよう…」と悩んでいた作業を、まとめて自動化します。

🔒 オンプレ完結（社内のコンピュータだけで処理）なので、機密文書を外部のサービスに一切出さずに守れます。

⚡ つかいかた（3ステップ）

1
書類を入れる
PDFを何千枚でもそのまま投入。

2
AIが読む
1ページ目から内容を理解。

3
自動で整理
種類別フォルダへ収納＋名前付け。

🔍 仕組み（やさしく）

中では次の順で処理が進みます。専門用語は用語集も参照してください。

① 文字をよみとる

紙をスキャンしたPDFは「画像」です。まず OCR（画像から文字を読み取る技術）で、文字データに変換します。

② 文章を「数」にして種類を見わける

コンピュータは文章そのままでは比べられないので、いったん「数」に変換します。日本語はまず形態素解析（文を単語に分ける処理）で単語に区切り、そこから種類を判定します。この“判定する頭脳”を、当社は3世代にわたって開発・改良してきました（→次の章）。現在は BERT（文章の意味を前後の文脈ごと理解する高性能AI）を使っています。

③ キーワードやAIで目印をつける

本文から「会社名」「物件名」「発行日」などを見つけてタグ（目印）にします。辞書で見つからない場合は LLM（文章を理解・生成できる大規模AI）が本文から読み取って補います。

④ 似た書類を探す（応用：ベクトル検索）

文章をAIでベクトル（数の並び）に変換しておくと、コサイン類似度（ベクトル同士の“向きの近さ”）で 意味の近い書類を探すベクトル検索もできます。キーワードが一致しなくても、内容が似ていれば見つけられるのが特長です。

⑤ フォルダに片づける

「種類 → 取引先」の二段構えで自動収納し、ファイル名にもタグを付けます。

🧬 文書分類AIの進化（世代の歩み）

当社がこのシステムのために開発・改良してきた「分類の頭脳」の歩みです。世代を重ねるごとに、言葉の“意味”や“文脈”まで理解できるように作り変えてきました。

世代	中心技術	やっていること（ざっくり）
第1世代	TF-IDF ＋ SVM	単語の「出やすさ・珍しさ」を数値化し、直線で種類を切り分ける方式。
第2世代	MLP（＋単語ベクトル）	単語を数ベクトルにし、簡単なニューラルネットで分類。表現力が向上。
第3世代（現在）	BERT（＋LLM）	文章全体の意味を文脈ごと理解して分類。固有名や日付の抽出はLLMで補完。

ざっくり言うと 「単語の数えあげ（第1世代）」→「単語のベクトル化（第2世代）」→「文章の意味理解（第3世代）」 という進化です。

🗂️ 仕分けできる種類

書類を次のような種類（カテゴリ）に自動で振り分けます。

銀行証券会社不動産・物件税務公共料金火災保険契約書被請求書固定資産台帳社会保険クレジットカード名刺分類不能

どの種類か自信がないものは 「分類不能」 に分けるので、誤って混ざることを防げます。

📁 フォルダと名前のつき方

「種類 → 取引先」の二段構えで整理されます（※名前はすべて見本です）。

出力先フォルダ/ └ 20_銀行証券/ └ 20-00_銀行詳細/ └ 515○○銀行/ ← 銀行ごとにフォルダ └ 20251003_○○銀行_2p.pdf ← 名前も自動

ファイル名に「取引先・物件・発行日・ページ数」などが入るので、開かなくても中身が分かります。

✅ うれしいポイント

手作業ゼロ
仕分け・命名が全自動。人は確認だけ。

すぐ探せる
種類別・取引先別に整理済み。名前で中身が分かる。

オンプレ完結で安全
社内だけで処理し、機密文書を外部に出しません。

🛡️ 品質と安全

しくみ	なにをしているか
信頼度スコア	1枚ごとに「どれだけ自信を持って読めたか」を数値化。
分類不能ふりわけ	判断できないものは無理に分けず、別フォルダへ。
OCR不可の検出	手書き・低画質などで読めない書類を自動で見分け、人の確認に回せます。
オンプレ完結	外部クラウド等に書類を送らず、社内の環境だけで処理する設計。機密保持に有利。

📖 用語集

用語	かんたんな意味
OCR	画像（スキャンした紙）から文字を読み取る技術。
形態素解析	日本語の文を「単語」に区切る処理。AIが扱う前の下ごしらえ。
TF-IDF	単語の「よく出る／珍しい」を数値化して文章の特徴をつくる古典的な方法（第1世代）。
SVM	サポートベクターマシン。データを“直線（境界）”で2つに切り分ける分類器（第1世代）。
MLP	多層パーセプトロン。層を重ねた簡単なニューラルネット（人工神経回路）。分類に使う（第2世代）。
BERT	文章を前後の文脈ごと理解する高性能AI。現在の分類の中心（第3世代）。
LLM	大規模言語モデル。文章を理解・生成でき、会社名や日付などの抽出を補います。
ベクトル	文章や単語を表す「数の並び」。意味が近いほどベクトルも近くなります。
コサイン類似度	2つのベクトルの“向きの近さ”を測る指標（1に近いほど似ている）。
ベクトル検索	文章をベクトルにして、コサイン類似度で「意味の近い書類」を探す検索方式。

💬 Q&A

Q. どんな書類でも仕分けできますか？

A. 銀行・税務・物件・契約書・名刺など多くの種類に対応します。手書きや極端に画質の悪いものは「読めない書類」として人の確認に回します。

Q. データが外部にもれませんか？

A. オンプレ完結（社内環境だけで処理）の設計です。書類の中身を外部サービスへ送る必要がなく、機密文書を社内で守れます。

Q. ファイル名や元の書類は書き換わりますか？

A. 元のPDFはそのまま。仕分け先にコピーして、コピー側に分かりやすい名前を付けます。

Q. 間違った種類に入ることはありませんか？

A. 100%ではありませんが、自信がないものは「分類不能」へ回す設計で誤混入を抑えています。信頼度の数字で見直しもできます。

Q. 何枚くらいまで処理できますか？

A. 数千〜数万枚規模をまとめて処理できます。途中で止めても続きから再開できます。