論文意訳: TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Image
issue: 2020.01 url: https://arxiv.org/pdf/2001.01469.pdf(https://arxiv.org/pdf/2001.01469.pdf)
問題提起
文書の画像データを扱う機会が増えたけど、人力で文字を読んで入力したりするのは大変
テーブル形式の文書データが増えた
テーブルにも色々なレイアウトがあり、そこから文字を機械的に検出するの難題
今ある手法はほとんどが
1) テーブル範囲の検出
2) テーブルの構造の検出
のどちらかを別々にやってるが、それぞれのタスクはそれぞれ補完しうるで、
マルチタスクで解けばいいのではないか
解決案
マルチタスクでEnd2Endにテーブル検出できるモデル「**TableNet** 」を提案
このモデルでは以下を検出
1) テーブルの範囲
2) テーブル内のカラムのセグメンテーション、その後ルールベースで行検出し、セルを取得
エンコーダーとしてImageNet datasetで学習ずみのVGG19を使用
エンコーダーの出力を二種類のデコーダーに渡してテーブル範囲と列を検出
モデル構造
実装
環境
Intel(R) Xeon(R) Silver CPU having 32 cores
and RAM of 128 GB Tesla V100-PCIE-1 GPU with 6GB
of GPU memory.
ライブラリ tensorflow
学習
結果
既存の手法より少しだけ精度向上
ネットワークの構造
参考文献
15) Fully Convolutional Networks for Semantic Segmentation(https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf)