重庆分公司,新征程启航

为企业提供网站建设、域名注册、服务器等服务

CRF是什么缩写搜索引擎常用的中文分词的方法有哪些?-创新互联

搜索引擎常用的中文分词的方法有哪些?中文分词算法大概分为两大类a.第一类是基于字符串匹配,即扫描字符串,如果发现字符串的子串和词相同,就算匹配。这类分词通常会加入一些启发式规则,比如“正向/反向大匹配”,“长词优先”等策略。这类算法优点是速度块,都是O(n)时间复杂度,实现简单,效果尚可。也有缺点,就是对歧义和未登录词处理不好。b.第二类是基于统计以及机器学习的分词方式这类分词基于人工标注的词性和统计特征,对中文进行建模,即根据观测到的数据(标注好的语料)对模型参数进行估计,即训练。在分词阶段再通过模型计算各种分词出现的概率,将概率大的分词结果作为最终结果。常见的序列标注模型有HMM和CRF。这类分词算法能很好处理歧义和未登录词问题,效果比前一类效果好,但是需要大量的人工标注数据,以及较慢的分词速度。CRF是什么缩写 搜索引擎常用的
中文分词的方法有哪些?机器学习需要哪些数学基础?

最主要的是线性代数和概率论。

成都创新互联公司2013年开创至今,是专业互联网技术服务公司,拥有项目网站制作、网站建设网站策划,项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命,1280元镶黄做网站,已为上家服务,为镶黄各地企业和个人服务,联系电话:18982081108线性代数

现在最流行的机器学习模型,神经网络基本是就是一大堆向量、矩阵、张量。从激活函数到损失函数,从反向传播到梯度下降,都是对这些向量、矩阵、张量的操作和运算。

其他“传统”机器学习算法也大量使用线性代数。比如线性回归

听名字就知道和线性代数关系密切了。

而主成分分析,从线性代数的观点看,就是对角化协方差矩阵。

概率

特别是当你读论文或者想深入一点的时候,概率论的知识非常有帮助。

包括边缘概率、链式法则、期望、贝叶斯推理、大似然、大后验、自信息、香农熵、KL散度,等等。

其他

神经网络很讲究“可微”,因为可微的模型可以通过梯度下降的方法优化。梯度下降离不开求导。所以多变量微积分也需要。另外,因为机器学习是基于统计的方法,所以统计学的知识也缺不了。不过大部分理工科应该都学过这两块内容,所以这也许不属于需要补充的内容。

在nlp中常用的算法都有哪些?

词向量方面有有word2vec,tf-idf,glove等

序列标注方面有hmm,crf等常用的算法,也可和神经网络结合使用,可用于解决分词,词性识别,命名实体识别,关键词识别等问题!

关键词提取方面可以用textrank,lda等

分类方面(包括意图识别和情感识别等)传统的机器学习算法和神经网络都是可以的。

其他方面,如相似度比较的余弦相似度,编辑距离以及其他优化方面的动态规划,维特比等很多。


标题名称:CRF是什么缩写搜索引擎常用的中文分词的方法有哪些?-创新互联
网页地址:http://cqcxhl.cn/article/cdshgc.html

其他资讯

在线咨询
服务热线
服务热线:028-86922220
TOP