大量のPDF書類を、社内システムだけで処理して、種類ごとに自動でフォルダ整理
ためこんだ PDFの書類を“まるごと”AIに渡すだけ。中身を読み取って、 「これは銀行の書類」「これは物件の契約書」と判断し、種類ごとのフォルダへ自動で振り分け、 さらに 分かりやすいファイル名 まで付けます。
これまで人が1枚ずつ開いて「どこに入れよう…」と悩んでいた作業を、まとめて自動化します。
中では次の順で処理が進みます。専門用語は 用語集 も参照してください。
紙をスキャンしたPDFは「画像」です。まず OCR(画像から文字を読み取る技術)で、 文字データに変換します。
コンピュータは文章そのままでは比べられないので、いったん「数」に変換します。日本語はまず 形態素解析(文を単語に分ける処理)で単語に区切り、そこから種類を判定します。 この“判定する頭脳”を、当社は3世代にわたって開発・改良してきました(→次の章)。 現在は BERT(文章の意味を前後の文脈ごと理解する高性能AI)を使っています。
本文から「会社名」「物件名」「発行日」などを見つけてタグ(目印)にします。 辞書で見つからない場合は LLM(文章を理解・生成できる大規模AI)が本文から読み取って補います。
文章をAIで ベクトル(数の並び)に変換しておくと、 コサイン類似度(ベクトル同士の“向きの近さ”)で 意味の近い書類を探す ベクトル検索 もできます。 キーワードが一致しなくても、内容が似ていれば見つけられるのが特長です。
「種類 → 取引先」の二段構えで自動収納し、ファイル名にもタグを付けます。
当社がこのシステムのために開発・改良してきた「分類の頭脳」の歩みです。 世代を重ねるごとに、言葉の“意味”や“文脈”まで理解できるように作り変えてきました。
| 世代 | 中心技術 | やっていること(ざっくり) |
|---|---|---|
| 第1世代 | TF-IDF + SVM | 単語の「出やすさ・珍しさ」を数値化し、直線で種類を切り分ける方式。 |
| 第2世代 | MLP(+単語ベクトル) | 単語を数ベクトルにし、簡単なニューラルネットで分類。表現力が向上。 |
| 第3世代 (現在) | BERT(+LLM) | 文章全体の意味を文脈ごと理解して分類。固有名や日付の抽出はLLMで補完。 |
書類を次のような種類(カテゴリ)に自動で振り分けます。
どの種類か自信がないものは 「分類不能」 に分けるので、誤って混ざることを防げます。
「種類 → 取引先」の二段構えで整理されます(※名前はすべて見本です)。
ファイル名に「取引先・物件・発行日・ページ数」などが入るので、開かなくても中身が分かります。
| しくみ | なにをしているか |
|---|---|
| 信頼度スコア | 1枚ごとに「どれだけ自信を持って読めたか」を数値化。 |
| 分類不能ふりわけ | 判断できないものは無理に分けず、別フォルダへ。 |
| OCR不可の検出 | 手書き・低画質などで読めない書類を自動で見分け、人の確認に回せます。 |
| オンプレ完結 | 外部クラウド等に書類を送らず、社内の環境だけで処理する設計。機密保持に有利。 |
| 用語 | かんたんな意味 |
|---|---|
| OCR | 画像(スキャンした紙)から文字を読み取る技術。 |
| 形態素解析 | 日本語の文を「単語」に区切る処理。AIが扱う前の下ごしらえ。 |
| TF-IDF | 単語の「よく出る/珍しい」を数値化して文章の特徴をつくる古典的な方法(第1世代)。 |
| SVM | サポートベクターマシン。データを“直線(境界)”で2つに切り分ける分類器(第1世代)。 |
| MLP | 多層パーセプトロン。層を重ねた簡単なニューラルネット(人工神経回路)。分類に使う(第2世代)。 |
| BERT | 文章を前後の文脈ごと理解する高性能AI。現在の分類の中心(第3世代)。 |
| LLM | 大規模言語モデル。文章を理解・生成でき、会社名や日付などの抽出を補います。 |
| ベクトル | 文章や単語を表す「数の並び」。意味が近いほどベクトルも近くなります。 |
| コサイン類似度 | 2つのベクトルの“向きの近さ”を測る指標(1に近いほど似ている)。 |
| ベクトル検索 | 文章をベクトルにして、コサイン類似度で「意味の近い書類」を探す検索方式。 |
Q. どんな書類でも仕分けできますか?
A. 銀行・税務・物件・契約書・名刺など多くの種類に対応します。手書きや極端に画質の悪いものは「読めない書類」として人の確認に回します。
Q. データが外部にもれませんか?
A. オンプレ完結(社内環境だけで処理)の設計です。書類の中身を外部サービスへ送る必要がなく、機密文書を社内で守れます。
Q. ファイル名や元の書類は書き換わりますか?
A. 元のPDFはそのまま。仕分け先にコピーして、コピー側に分かりやすい名前を付けます。
Q. 間違った種類に入ることはありませんか?
A. 100%ではありませんが、自信がないものは「分類不能」へ回す設計で誤混入を抑えています。信頼度の数字で見直しもできます。
Q. 何枚くらいまで処理できますか?
A. 数千〜数万枚規模をまとめて処理できます。途中で止めても続きから再開できます。