重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
PHP怎么实现中文全文搜索?这个问题可能是我们日常工作经常见到的。通过这个问题,希望你能收获更多。今天跟随小编一起来看解决方案吧。
创新互联-专业网站定制、快速模板网站建设、高性价比武宣网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式武宣网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖武宣地区。费用合理售后完善,十多年实体公司更值得信赖。一般的开发中的相关文章或内容都是通过关键词标签、标题来实现相关搜索的,但这样是搜索基本会使用低效的like语句,由于效率低下在稍微大一点的项目开发中我们无法进行文章或者相关内容的详情字段搜索(服务器压力过大、效率极低)。
常见的解决方案
1、sphinx + coreseek
优点 : 技术成熟、稳定
缺点 : sphinx 不支持中文 coressk 目前已经停止维护【如果是纯英文环境 sphinx 极佳】
2、迅搜(Xunsearch)
优点 : 技术成熟、稳定
缺点 : 安装过程复杂,配置不够灵活
3、mysql 全文搜索
有点:安装方便、效率高
缺点:对中文支持不够好
来自hcoder的解决方案 (分词 + 自主配置)
优点 : 安装简单(php 组件)、底层由开发者自行编写更清晰底层、更容易的优化
缺点 : 需要开发者有 php + mysql 基础,需要自己编写整个过程的代码
原理
1、获取词语环节 文章数据表 -> 逐行读取文章信息 -> 组合所有文字内容 -> 分词、去重 -> 记录到新的数据表 2、搜索环节 搜索关键字记录表 -> 合并文章数据 -> 去重 -> 展示数据
使用到的第三方组件(scws)
http://www.xunsearch.com/scws/
SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。
这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点。
SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序, 支持的中文编码包括 GBK、UTF-8 等。此外还提供了 PHP 扩展模块, 可在 PHP 中快速而方便地使用分词功能。
分词算法上并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名, 数字年代等规则识别来达到基本分词,经小范围测试准确率在 90% ~ 95% 之间, 基本上能满足一些小型搜索引擎、关键字提取等场合运用。首次雏形版本发布于 2005 年底。
SCWS 由 hightman 开发, 并以 BSD 许可协议开源发布,源码托管在 github。
看完上述内容,你们掌握PHP实现中文全文搜索的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注创新互联成都网站设计公司行业资讯频道,感谢各位的阅读!
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。