Note by Yoshikawa

Love Technology and Art

論文意訳: TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Image

issue: 2020.01 url: https://arxiv.org/pdf/2001.01469.pdf(https://arxiv.org/pdf/2001.01469.pdf)

問題提起

文書の画像データを扱う機会が増えたけど、人力で文字を読んで入力したりするのは大変

テーブル形式の文書データが増えた

テーブルにも色々なレイアウトがあり、そこから文字を機械的に検出するの難題

今ある手法はほとんどが

1) テーブル範囲の検出

2) テーブルの構造の検出

のどちらかを別々にやってるが、それぞれのタスクはそれぞれ補完しうるで、

マルチタスクで解けばいいのではないか

解決案

マルチタスクでEnd2Endにテーブル検出できるモデル「**TableNet** 」を提案

このモデルでは以下を検出

1) テーブルの範囲

2) テーブル内のカラムのセグメンテーション、その後ルールベースで行検出し、セルを取得

エンコーダーとしてImageNet datasetで学習ずみのVGG19を使用

エンコーダーの出力を二種類のデコーダーに渡してテーブル範囲と列を検出

モデル構造
f:id:yoshikawat64m:20200823235637p:plain

データ

学習データ

Marmotデータセットにテーブルのアノテーションをしたもの

1016種類 中国語と英語が半々

評価データ

ICDAR2013 dataset

実装

環境
Intel(R) Xeon(R) Silver CPU having 32 cores
and RAM of 128 GB Tesla V100-PCIE-1 GPU with 6GB
of GPU memory.

ライブラリ tensorflow

学習
結果

既存の手法より少しだけ精度向上

ネットワークの構造