主页 > 编程资料 > Python >
发布时间:2018-10-08 作者:apizl 阅读:927次

目前有两个开源项目: langid 和 langdetect


pip install langdetect


项目地址:https://github.com/Mimino666/langdetect

但是使用langdetect来判断中文时候就会爆出错误


# -*- coding:utf-8 -*-
from langdetect import detect
str = '你好'
print detect(str)

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

Python来识别字符串所属语言类型(langid 、langdetect)

但是使用判断英文时候就是正常的,这个时候用来做字符串检测不太好使了。


pip install langid 


项目地址:https://github.com/saffsd/langid.py


使用另一个项目langid 来做检测还算正常,


# -*- coding:utf-8 -*-
import langid
s1 = "你好"
array = langid.classify(s1)
print array[0]

Python来识别字符串所属语言类型(langid 、langdetect)

文章由爱资料原创本文地址:https://www.apizl.com/archives/view-148728-1.html,转载请以链接形式标明本文地址!
关键字词: