WEKO3
アイテム
OCRを利用した統計表の体系的なテキストデータ化
https://doi.org/10.15057/72558
https://doi.org/10.15057/72558fdfd4bfb-c4e7-4e84-86ea-1377e3c9a537
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
|
| アイテムタイプ | デフォルトアイテムタイプ(フル)その2(1) | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2022-02-01 | |||||||||
| タイトル | ||||||||||
| タイトル | OCRを利用した統計表の体系的なテキストデータ化 | |||||||||
| 言語 | ja | |||||||||
| タイトル | ||||||||||
| タイトル | Textizing Statistical Tables using OCR at Scale | |||||||||
| 言語 | en | |||||||||
| 作成者 |
有本, 寛
× 有本, 寛
NRID
1000020526470
|
|||||||||
| アクセス権 | ||||||||||
| アクセス権 | open access | |||||||||
| アクセス権URI | http://purl.org/coar/access_right/c_abf2 | |||||||||
| 内容記述 | ||||||||||
| 内容記述タイプ | Abstract | |||||||||
| 内容記述 | 本稿は,OCRを利用して,統計表を体系的かつ大規模にテキストデータ化するための要件と方法を解説する.統計表をOCRでテキストデータ化するには,高い精度の表レイアウト解析が求められる.筆者が開発しているocrstatsは,バッチ処理,定型的な工程の自動化,外部OCRの利用,実用的な精度の表レイアウト解析を実現し,作業効率の改善を図っている.また,ocrstatsを使って『日本帝国統計年鑑』をテキストデータ化する過程で得られたノウハウや,パネルデータの作成にあたって変数を経年的にリンクする方法も解説する. | |||||||||
| 言語 | ja | |||||||||
| 内容記述 | ||||||||||
| 内容記述タイプ | Abstract | |||||||||
| 内容記述 | This study describes the requirements and methods for textizing statistical tables using OCR(optical character recognition)at scale. A major challenge of textizing statistical tables using OCR is analyzing the table layout with high accuracy. I develop a Python toolkit, ocrstats, which supports the task by providing batch processing, automation of routine processes, use of external OCR, and table layout analysis with practical accuracy. In addition, I explain the practical tips learned from the process of textizing the Japan Imperial Statistical Yearbook using ocrstats. | |||||||||
| 言語 | en | |||||||||
| 出版者 | ||||||||||
| 出版者 | 岩波書店 | |||||||||
| 言語 | ja | |||||||||
| 日付 | ||||||||||
| 日付 | 2022-01-25 | |||||||||
| 日付タイプ | Issued | |||||||||
| 言語 | ||||||||||
| 言語 | jpn | |||||||||
| 資源タイプ | ||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||||
| 資源タイプ | journal article | |||||||||
| 出版タイプ | ||||||||||
| 出版タイプ | VoR | |||||||||
| 出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||||||
| selfDOI | ||||||||||
| ID登録 | 10.15057/72558 | |||||||||
| ID登録タイプ | JaLC | |||||||||
| 収録物識別子 | ||||||||||
| 収録物識別子タイプ | PISSN | |||||||||
| 収録物識別子 | 00229733 | |||||||||
| 収録物識別子 | ||||||||||
| 収録物識別子タイプ | NCID | |||||||||
| 収録物識別子 | AN00070761 | |||||||||
| 収録物名 | ||||||||||
| 収録物名 | 経済研究 | |||||||||
| 言語 | ja | |||||||||
| 巻 | ||||||||||
| 巻 | 73 | |||||||||
| 号 | ||||||||||
| 号 | 1 | |||||||||
| 開始ページ | ||||||||||
| 開始ページ | 15 | |||||||||
| 終了ページ | ||||||||||
| 終了ページ | 28 | |||||||||
| JEL | ||||||||||
| 値 | Y1 | |||||||||
| JEL | ||||||||||
| 値 | No1 | |||||||||