【Document AI】確定申告のために為替差益の計算に必要なデータを抽出する

はじまり#

135ml

今年もアレの季節だな・・・

リサちゃん

アレだね

135ml

しかも昨年はアレをしたからな・・・

リサちゃん

アレをしたね

為替差益の計算を自動化したい#

昨年、円安前から貯め続けていた外貨を円に換えてしまいました・・・。

確定申告の際、為替取引による利益（為替差益）を計算する必要がありますが、取引履歴のPDFから必要なデータを手作業で抽出するのは時間がかかり、ミスも起こりやすいものです。

そこで今回は、Google Cloud の Document AI を使って、PDFからOCRで自動的にデータを抽出し、為替差益を計算する方法を紹介します。

Document AIとは？#

Document AIは、GoogleのCloud AI/MLサービスの1つで、PDFや画像から構造化されたデータを抽出できるサービスです。一般的なOCRとは異なり、以下のような特徴があります:

高度なデータ抽出
- 単なるテキスト認識だけでなく、表形式データの認識が可能
- フォームからの特定フィールドの抽出
- 請求書、領収書、契約書などの定型文書の処理
カスタマイズ可能
- カスタムプロセッサによる特定データの抽出
- 独自のトレーニングデータによる精度向上
- 多言語対応
実用的な機能
- 自動レイアウト分析
- エンティティ抽出
- テーブル構造の認識

Document AIは以下のような場面で特に威力を発揮します:

請求書処理の自動化
契約書からの重要情報抽出
金融取引データの分析
医療記録のデジタル化

今回は、この強力なツールを使って確定申告のための為替取引データ抽出を自動化してみましょう。

実装手順#

以下の流れで、為替差益の計算まで完了させたいと思います。

各証券口座から取引履歴PDFを収集する。
取引履歴PDFの前処理をする。
Document AIをセットアップする。
カスタムプロセッサの作成およびカスタムプロセッサに学習させる。
Pythonでカスタムプロセッサを使う機能を実装する。
為替差益を計算する。（今回は総平均法を使います。）

各証券口座から取引履歴PDFを収集する。#

まず、為替差益が発生した各証券口座から、その為替取引に関わる取引履歴を扱ったPDF文書を収集します。

これは各証券口座にログインして口座管理画面などからアクセスして集められるので操作としては単純ですが・・・。

何せ収集量が多い。

僕が昨年に発生させた為替差益は1箇所の証券口座のみでしたが、それでも4年分の外国証券の取引履歴、配当金に関する書類などを集める必要があったので、この作業だけでも2時間ぐらい掛かりました・・・。

取引履歴PDFの前処理をする。#

そしたら、PDFから必要なデータを抽出しやすくするための前処理を行います。

PDFの表示縮尺を調整してスクリーンショットを撮影する。
個人情報を省くためにトリミングする。

スクショのトリミングには、以前にPowerShellで実装したものを使います。実装した時の記事は以下にありますのでご参考程度に。

エンドルフィン風呂に浸かる。

【PowerShell、HTML】画像の不要な部分を数値化して、その座標でトリミングする

HTMLとJavaScriptとPowerShellで画像を一気にトリミングする記事です。OutOfMemoryExceptionとExternalExceptionをWrite-Errorでやり過ごしたりします。

www.endorphinbath.com

PowerShellにおけるトリミングの処理とは、簡潔に書くとざっと以下のようなイメージです。

1
# PowerShellでトリミング処理を自動化
2
function Trim-Image {
3
  param(
4
    [string]$inputPath,
5
    [string]$outputPath,
6
    [int]$x,
7
    [int]$y,
8
    [int]$width,
9
    [int]$height
10
  )
11

12
  Add-Type -AssemblyName System.Drawing
13
  $image = [System.Drawing.Image]::FromFile($inputPath)
14
  $bitmap = New-Object System.Drawing.Bitmap($width, $height)
15
  $graphics = [System.Drawing.Graphics]::FromImage($bitmap)
16

17
  $graphics.DrawImage($image,
18
    (New-Object System.Drawing.Rectangle(0, 0, $width, $height)),
19
    (New-Object System.Drawing.Rectangle($x, $y, $width, $height)),
20
    [System.Drawing.GraphicsUnit]::Pixel)
21

22
  $bitmap.Save($outputPath)
23
  $graphics.Dispose()
24
  $bitmap.Dispose()
25
  $image.Dispose()
26
}

そんな感じの処理を実行して、以下のようなPNG画像を何枚か作ります。以下はDocument AIを使っている時のスクショです。

Document AIのセットアップと学習#

まず、Google Cloud Consoleで新しいプロジェクトを作成し、Document AI APIを有効化します。

1
# Google Cloud CLIでプロジェクトを設定
2
gcloud config set project your-project-id
3

4
# Document AI APIを有効化
5
gcloud services enable documentai.googleapis.com

以下の流れでDocument AIでカスタムプロセッサを作成していきます。各手順の詳細は後ほど記載していきます。

カスタムプロセッサを作成する。
トレーニングを開始します。ラベリングをしてスキーマを定義します。
「ビルド」＞「基盤モデルを呼び出す」を選択して、トレーニングさせるベースモデルを選びます。
「新しいバージョンを作成」で、学習させたモデルにバージョン名を設定してビルドする。
ビルド完了後、そのモデルをデプロイしてデフォルトのバージョンに設定する。

以下、Document AIをWebコンソール上で利用した際に感じた留意点です。

Document AIのUXは少し分かりづらいです
デプロイ状態の確認が不明確な場合があります
「1個のバージョンをデプロイしています。」というメッセージが表示されても、実際には使用可能な状態かもしれません

カスタムプロセッサを作成する。#

Document AI Workbenchに移動して、カスタムプロセッサを作成します。

Google Cloud

Document AI Workbench | Google Cloud

Document AI ワークベンチを使用すると、請求書の処理、フォームの処理、本人確認などのドキュメントワークフロー向けに ML モデルのトレーニングとアップトレーニングを行うことができます。

cloud.google.com

以下の項目をDocument AI上で入力します。

プロセッサ名：「test_extractor」
目的：取引履歴からの自動データ抽出

トレーニングを開始。ラベリングをする。#

そしたら早速トレーニングを開始します。

以下のようコンソール内のGUI上で、PNG画像の中でOCRさせたい箇所を選んでラベリングして、スキーマを定義していきます。

証券銘柄のシンボルは、学習元のAIが自動的にラベリングしてくれました。元々の能力が高いですね。

一旦これで1枚目のラベリングは完了しました。

2枚目からはラベリングした情報を元に、モデルが自動的にラベリングしてくれるようになります。その自動ラベリング結果を承認するかどうかはユーザ次第。

しかしながら、殆ど当たっていますね。これは少ない学習量で済みそう。5枚も要らなさそう。

「ビルド」＞「基盤モデルを呼び出す」#

ラベリングが終わったら、次に学習させるAIモデルを選んでいきます。

AIモデルは「基盤モデルを呼び出す」、「ファインチューニング」、「カスタムモデルのトレーニング」から選べますが、今回のような比較的単純なドキュメントを読み取る場合は、「基盤モデルを呼び出す」を選択すれば、トレーニングに必要なデータセットが少なく済みます。

今回は、「基盤を呼び出す」で作っていきます。

「新しいバージョンを作成」で学習させたモデルにバージョン名を設定してビルドする。#

適当にバージョン名を付けて、先ほどラベリングしたデータを選択したAIモデルに学習させて、そのモデルをビルドします。

学習させたモデルをデプロイする。#

ビルドが終わったら、「テストと評価」の項目に移ります。

しかし、「テストと評価」の作業を行うためには、その前に「デプロイと使用」を行わなければならないようです。（なんで工程の順番が逆なの？）

それでは、「デプロイと使用」で先ほどビルドしたバージョンを選択してデプロイします。バージョンを選択したらデプロイすることが出来ます。

デプロイが始まりました・・・。画面下の方に「1個のバージョンをデプロイしています。」といったメッセージが表示されて、何十分経っても表示されたままでしたが、とりあえずそのトレーニングさせたバージョンをデフォルトに設定して、実際にローカルから使っていきました。

これで、Document AI内での作業は完了です。

Pythonでの実装#

次に、先ほど作成したカスタムプロセッサを使って、ローカルに置いてある資料をOCRさせていきます。今回はPythonとColab Notebookを使いました。

GitHubにて公開されていたGoogle公式サンプルコードを参考に実装します:

1
# [START documentai_process_document]
2
from typing import Optional
3

4
from google.api_core.client_options import ClientOptions
5
from google.cloud import documentai  # type: ignore
6

7
# TODO(developer): Uncomment these variables before running the sample.
8
# project_id = "YOUR_PROJECT_ID"
9
# location = "YOUR_PROCESSOR_LOCATION" # Format is "us" or "eu"
10
# processor_id = "YOUR_PROCESSOR_ID" # Create processor before running sample
11
# file_path = "/path/to/local/pdf"
12
# mime_type = "application/pdf" # Refer to <https://cloud.google.com/document-ai/docs/file-types> for supported file types
13
# field_mask = "text,entities,pages.pageNumber"  # Optional. The fields to return in the Document object.
14
# processor_version_id = "YOUR_PROCESSOR_VERSION_ID" # Optional. Processor version to use
15

16
def process_document_sample(
17
    project_id: str,
18
    location: str,
19
    processor_id: str,
20
    file_path: str,
21
    mime_type: str,
22
    field_mask: Optional[str] = None,
23
    processor_version_id: Optional[str] = None,
24
) -> None:
25
    # You must set the `api_endpoint` if you use a location other than "us".
26
    opts = ClientOptions(api_endpoint=f"{location}-documentai.googleapis.com")
27

28
    client = documentai.DocumentProcessorServiceClient(client_options=opts)
29

30
    if processor_version_id:
31
        # The full resource name of the processor version, e.g.:
32
        # `projects/{project_id}/locations/{location}/processors/{processor_id}/processorVersions/{processor_version_id}`
33
        name = client.processor_version_path(
34
            project_id, location, processor_id, processor_version_id
35
        )
36
    else:
37
        # The full resource name of the processor, e.g.:
38
        # `projects/{project_id}/locations/{location}/processors/{processor_id}`
39
        name = client.processor_path(project_id, location, processor_id)
40

41
    # Read the file into memory
42
    with open(file_path, "rb") as image:
43
        image_content = image.read()
44

45
    # Load binary data
46
    raw_document = documentai.RawDocument(content=image_content, mime_type=mime_type)
47

48
    # For more information: <https://cloud.google.com/document-ai/docs/reference/rest/v1/ProcessOptions>
49
    # Optional: Additional configurations for processing.
50
    process_options = documentai.ProcessOptions(
51
        # Process only specific pages
52
        individual_page_selector=documentai.ProcessOptions.IndividualPageSelector(
53
            pages=[1]
54
        )
55
    )
56

57
    # Configure the process request
58
    request = documentai.ProcessRequest(
59
        name=name,
60
        raw_document=raw_document,
61
        field_mask=field_mask,
62
        process_options=process_options,
63
    )
64

65
    result = client.process_document(request=request)
66

67
    # For a full list of `Document` object attributes, reference this page:
68
    # <https://cloud.google.com/document-ai/docs/reference/rest/v1/Document>
69
    document = result.document
70

71
    # Read the text recognition output from the processor
72
    print("The document contains the following text:")
73
    print(document.text)
74

75
# [END documentai_process_document]
76

77
process_document_sample(
78
    project_id="000000000000",
79
    location="us",
80
    processor_id="xxxxxxxxxxxxxx ",
81
    file_path = "/content/drive/MyDrive/TemporarySave/ImagesForAgentWorking/スクリーンショット 2025-03-14 072159.png",
82
    mime_type="image/png",
83
)

Colab Notebook上で、Python実行前に必要かもしれない処理。

1
!gcloud auth application-default login
2

3
!gcloud auth application-default set-quota-project [project-id]
4

5
!pip install --upgrade google-genai
6

7
!pip install google-cloud-documentai==3.0.1

以下のように、Googleドライブに資料を格納して、Colab Notebookにドライブをマウントします。

1
The document contains the following text:
2
Document Al / プロセッサ / プロセッサ: xxxxxxxxxxxxxx / 始める
3
←
4
!i!
5
=フィルタ
6
テキストを入力して結果を
7
絞り込む
8
+ 新しいフィールドを作成
9
dvidend
10
3,946
11
rate_less
12
149.4900
13
rate_more
14
150.2600
15
ラベル付きとしてマーク
16
I>
17
52
18
Q
19
(国内源泉徴収税の明細)
20
配当金等支払日
21
国内支払日
22
現地基準日
23
銘柄コード
24
銘
25
柄名
26
2024/02/15
27
2024/02/16
28
2024/02/12
29
304-AAPL
30
アップル
31
分配通貨
32
外国源泉税率(%)
33
1単位あたり金額
34
決済方法
35
円貨決済用レート
36
口座区分
37
勘定設定年
38
備考
39
米国ドル
40
10.0
41
0.24
42
外貨決済
43
数量
44
配当金等金額
45
外国源泉
46
徴収税額
47
外国手数料
48
外国精算金額
49
国内源泉
50
徴収税額
51
国内手数料
52
消費税
53
受取金額
54
外貨
55
23.76
56
4.78
57
0.00
58
0.00
59
18.98
60
110
61
26.40
62
2.64
63
0.00
64
円貨
65
ラベル 「rate_more」を作成しました
66
X
67
申告レート基準日
68
為替レート基準日
69
申告レート
70
為替レート
71
配当金等金額(円)
72
外国源泉
73
徴収税額(円)
74
国内課税所得額(円)
75
所得税
76
地方税
77
国内源泉
78
徴収税額
79
2024/02/15
80
149.4900
81
外貨
82
3.61
83
1.17
84
4.78
85
2024/02/16
86
150.2600
87
3,946
88
394
89
3,552
90
円貨
91
543
92
177

取得できたデータをCSV形式などで出力して、スプレッドシート上に反映すれば、外国証券の売買履歴および配当金の授受履歴のデータが格納された、為替取引の計算シートの完成です！

これらのデータを元に計算すれば、為替差益による利益を確定申告書に入力することが出来ますね！

【参考】Document AI APIからのレスポンスの仕様#

Document AIでドキュメントを解析すると、ラベル付けした各項目は「エンティティ（entities）」として出力されます。（2025-03-26時点）つまり、データセットでラベル付けした部分の情報は、解析結果のJSONオブジェクト内のentities配列に格納されます。

エンティティの構造#

各エンティティには以下のような情報が含まれます：

type_（ラベルの種類） 例: 「請求書番号」「日付」「金額」など、あなたがラベル付けした名前が入ります。
mention_text（抽出されたテキスト） 実際に読み取った文字列がここに格納されます。
normalized_value（正規化された値） 日付や金額など、フォーマットが統一された値がある場合に利用できます。
confidence（信頼度） 解析結果の精度を表す数値です。
page_anchor ラベル付けしたテキストがどのページ、どの位置にあったかの情報です。

ラベル付け部分の値を取得する例（Python）#

以下は、解析済みのDocumentオブジェクトから各エンティティを取得し、ラベルとその値を表示するサンプルコードです。

1
from google.cloud import documentai_v1 as documentai
2

3
# 例として、既にDocument AIで処理されたdocumentオブジェクトがあるとする
4
document = client.process_document(request=request).document
5

6
# エンティティごとにループし、ラベルと抽出された値を出力
7
for entity in document.entities:
8
    print("ラベル:", entity.type_)
9
    print("抽出値:", entity.mention_text)
10
    # 正規化された値が存在する場合はそちらも利用可能
11
    if entity.normalized_value:
12
        print("正規化された値:", entity.normalized_value.text)
13
    print("信頼度:", entity.confidence)
14
    print("---")

このコードでは、document.entities に含まれる各エンティティから、ラベル（type_）、実際に読み取ったテキスト（mention_text）、および（存在すれば）正規化された値を取得しています。これにより、データセットでラベル付けした各部分の値をプログラム内で利用可能です。

カスタムプロセッサの場合#

もしカスタムラベルや独自のアノテーションを使用している場合は、各エンティティのtype_にカスタムで設定したラベル名が入るため、目的に合わせて条件分岐などで抽出することも可能です。

為替差益の計算方法#

今回は売却を任意の日で一括で行ったため、総平均法で計算しました。

売却を都度行っている場合は先入先出法の方がオトクかもしれませんね。

OCRに使ったコストと作業時間#

今回、カスタムプロセッサを作るために使ったAPIコストに関しては、80枚の画像処理で872円の料金が掛かりました。

まあまあ掛かった気がしますが、次回の為替差益の計算が楽になったので特に問題なく感じています。

まとめ#

今回はDocument AIを使って、確定申告のために必要なデータである為替差益に関する情報を、証券口座から受け取った書類からOCRして、スプレッドシートに一気に反映する方法を紹介しました。

以下が記事のまとめです。

Document AIでは、5枚以下の学習データで、証券取引の書類からデータを抽出出来るAIモデルを構築出来る。
Document AIでは、用途ごとにAIモデルを「基盤モデルを呼び出す」、「ファインチューニング」、「カスタムモデルのトレーニング」の中から選べる。
PythonからDocument AIのモデルから情報を取得する際には、document.entities に含まれる各エンティティから正規化された情報を取得出来る。
コストは80枚で872円ぐらい掛かった。

おしまい#

リサちゃん

結構漏れないな！

135ml

一つ大きな作業が減ったぞ。

以上になります！

音楽

音楽

はじまり#

為替差益の計算を自動化したい#

Document AIとは？#

実装手順#

各証券口座から取引履歴PDFを収集する。#

取引履歴PDFの前処理をする。#

Document AIのセットアップと学習#

カスタムプロセッサを作成する。#

トレーニングを開始。ラベリングをする。#

「ビルド」＞「基盤モデルを呼び出す」#

「新しいバージョンを作成」で学習させたモデルにバージョン名を設定してビルドする。#

学習させたモデルをデプロイする。#

Pythonでの実装#

【参考】Document AI APIからのレスポンスの仕様#

エンティティの構造#

ラベル付け部分の値を取得する例（Python）#

カスタムプロセッサの場合#

為替差益の計算方法#

OCRに使ったコストと作業時間#

まとめ#

おしまい#

記事を共有

音楽

目次