Python图像表格数据提取
-
- 1、数据来源
- 2、目标图像
- 3、图像文本提取
- 4、图像灰度化与二值化可以提高识别准确率吗
1、数据来源
国家统计局:http://www.stats.gov.cn/sj/
数据来源:国家统计局中国统计年鉴2022年人口数及构成
2、目标图像
数据(部分)如下:
数据形式:http://www.stats.gov.cn/sj/ndsj/2022/html/C02-01.jpg
通过网页分析,数据格式为图片形式
3、图像文本提取
本次图像文本识别使用EasyOCR模块,详细介绍见:Python图像文本识别
import easyocr
import numpy as np
import pandas as pd
# 读取HTTP图像
url = r'http://www.stats.gov.cn/sj/ndsj/2022/html/C02-01.jpg'
# 定义列字段
cols = ['年份', '年末总人口(万)', '男.人口数(万)', '男.比重', '女.人口数(万)', '女.比重', '城镇.人口数(万)', '城镇.比重', '乡村.人口数(万)',<