966SEO学习网»SEO学习网 › 网站优化专区（增删板块） › SEO经验分享 › 机器学习与算法分析中常用的分词技术整理-百度排名优化 ...

发新帖

查看: 808|回复: 0

机器学习与算法分析中常用的分词技术整理-百度排名优化

发消息

发表于 2020-7-1 01:37 | 显示全部楼层 |阅读模式

中文分词技术，在各大领域都属于最基础，但是最核心的一块技术。尤其是SEO应用中，合理使用分词技术，可以极大提高内容相关性和页面关键词标签的准确性。中文分词与英文分词有极大的差点，英文分词更简单容易一些，中文分词在有些情况下还需要根据语境进行词切分。常用的分词引擎有如下几种：Paodingmmseg4j（切分速度、准确率较高）Imdict-chinese-analyzerAnsjHttpcwshttps://github.com/nltk/nltk NLTK自然语言处理包http://www.ltp-cloud.com/document 哈工大LTP语言云http://bosonnlp.com/dev/center BosonNLPhttp://www.oschina.net/p/ikanalyzer IKAnalyzerhttp://ictclas.nlpir.org/docs NLPIRhttp://www.xunsearch.com/scws/docs.php SCWS中文分词https://github.com/fxsjy/jieba 结巴分词http://pangusegment.codeplex.com/ 盘古分词https://code.google.com/p/paoding/ 庖丁解牛（准确率、分词速度、新词识别等，最棒）http://www.sogou.com/labs/webservice/ 搜狗分词http://www.qcloud.com/wiki/API%E8%AF%B4%E6%98%8E%E6%96%87%E6%A1%A3 腾讯文智http://www.sinacloud.com/doc/sae/python/segment.html 新浪云https://github.com/thunlp/THULAC 清华大学THULAChttp://hanlp.hankcs.com/ HanLP在Python领域，应用最广的是结巴分词，有很多有意思的特性。在使用全文检索引擎领域，Solr和ElasticSearch普遍使用IKAnalyzer分词。其余的，以哈工大、清华和HanLP在应用性上比较广泛。以前分享为一段代码，使用Python开发结巴分词，配合自定义分词，快速提取文章标签。核心逻辑就是加载自定义词典，在自定义词典中设置自定义的词性。通过jieba.load_userdict('user.txt')加载自定义词典。分词之后，通过过滤词性。将自己的词拿出来，达到快速匹配标签的功能。在内存加载完词典之后，每秒可处理上千文章的标签提取。公司项目BrandInsights，原WI-ORM系统，核心技术，就是使用Elasticsearch做海量数据的检索。里面核心基础的部份就是分词技术的应用。我们在IK分词器的基础上，做了代码升级迭代及优化。以支持更高效的分词和数据处理。在分词的基础上，还可以进行情感正负面分析和语义分析，关键词提取，摘要提取等诸多功能。有兴趣的同事可以进一步交流。

回复

发新帖

966SEO学习网

GMT+8, 2026-7-27 13:55

Powered by SEO学习网 本站采用创作共用版权 CC BY-NC-SA 3.0 CN 许可协议，转载或复制请注明出处

© 2014-2019 投诉建议及友链申请联系邮箱：[email protected]

快速回复 返回顶部 返回列表