语料数据入库时有个小需求,需要用一个字段存储语料的语种,偶然发现langid可以实现这一功能,再次感叹python的好用!
复制代码
import langid #引入langid模块
s1 = '你好'
s2 = 'hello'
s3 = 'Flüssigkeiten zum Nassbehandeln von Wäschestücken werden vielfach mit Dampf aufgeheizt. Dazu wird der Dampf mit hoher Geschwindigkeit durch eine Düse (30) der aufzuheizenden Flüssigkeit direkt zugeführt. Aufgrund der hohen Geschwindigkeit, mit der der Dampf in die aufgeheizte Flüssigkeit einströmt, entstehen starke Geräusche sowie Schwingungen und Vibrationen. Um mindestens die Geräusche zu reduzieren, ist es bereits bekannt, zusätzlich Druckluft zuzuführen. Das verschlechtert den Wärmeübergang. Die Erfindung sieht es vor, in die Düse (30) eine kleine Menge der aufzuheizenden Flüssigkeit einzusaugen und dadurch in der Düse (30) ein Kondensat-Dampfgemisch zu bilden. Alternativ oder zusätzlich kann hinter der Düse (30) ein Strömungsteiler vorgesehen sein, der die Strömungsgeschwindigkeit des Dampfs bzw. Dampf-Kondensatgemisches erhöht. Hierdurch und/oder durch die Bildung eines Dampf-Kondensatgemisches in der Düse (30) werden die Geräuschentwicklung beim Einleiten des Dampfs in die aufzuheizende Flüssigkeit sowie Schwingungen und Vibrationen ohne die Zufuhr von Druckluft verringert'
i = langid.classify(s1)
j = langid.classify(s2)
m = langid.classify(s3)
print m, m[0], type(m)
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。