分析:
在利用爬虫抓取亚马逊网站的数据时,有时会出现所抓页面的语言类型发生错误的情况(如抓取沙特站数据时想要英文页面,抓到的确是阿拉伯语页面)。在数据量大的时候人工排查这类异常情况是非常麻烦的,这时候就可以用到langid模块。
但langid模块的识别结果并不完全正确,但是用作参考还是够用的。
代码:
安装langid
pip install langid
识别语言
import langid
# langid能识别90多种语言,且欧洲许多语言都非常相似,所以最好设置下语言类型
langid.set_languages(['en', 'fr', 'de', 'es', 'sv', 'ja', 'pt', 'it', 'nl'])
print(langid.classify('Compatible Devices')) # 英文
print(langid.classify('フォームの形式')) # 日语
print(langid.classify('Varumärke')) # 瑞典语
print(langid.classify('Caractéristique spéciale')) # 法语
运行结果