論文意訳: TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Image

文書の画像データを扱う機会が増えたけど、人力で文字を読んで入力したりするのは大変

テーブル形式の文書データが増えた

テーブルにも色々なレイアウトがあり、そこから文字を機械的に検出するの難題

今ある手法はほとんどが

1)　テーブル範囲の検出

2)　テーブルの構造の検出

のどちらかを別々にやってるが、それぞれのタスクはそれぞれ補完しうるで、

マルチタスクで解けばいいのではないか

マルチタスクでEnd2Endにテーブル検出できるモデル「**TableNet** 」を提案

このモデルでは以下を検出

1) テーブルの範囲

2) テーブル内のカラムのセグメンテーション、その後ルールベースで行検出し、セルを取得

エンコーダーとしてImageNet datasetで学習ずみのVGG19を使用

エンコーダーの出力を二種類のデコーダーに渡してテーブル範囲と列を検出

モデル構造
f:id:yoshikawat64m:20200823235637p:plain

学習データ

Marmotデータセットにテーブルのアノテーションをしたもの

1016種類　中国語と英語が半々

評価データ

ICDAR2013 dataset

環境
Intel(R) Xeon(R) Silver CPU having 32 cores
and RAM of 128 GB Tesla V100-PCIE-1 GPU with 6GB
of GPU memory.

ライブラリ tensorflow

既存の手法より少しだけ精度向上

ネットワークの構造

Note by Yoshikawa