实用PHP+jieba(结巴)中文关键字提取 - CSDN博客
文章推薦指數: 80 %
jieba(结巴)中文分词是目前国内一款较好的中文分词插件。
1.兼容当前绝大部分流行开发语言,例:Java、C/C++、PHP、Ios、 Node.js 等开发语言。
实用PHP+jieba(结巴)中文关键字提取
mrqinxd
于 2019-03-0810:59:06 发布
4728
收藏
11
分类专栏:
PHP
文章标签:
jieba
结巴
版权声明:本文为博主原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/uesr_qxd/article/details/88342349
版权
PHP
专栏收录该内容
3篇文章
0订阅
订阅专栏
jieba(结巴)中文分词
jieba(结巴)中文分词是目前国内一款较好的中文分词插件。
1.兼容当前绝大部分流行开发语言,例:Java、C/C++、PHP、Ios、 Node.js等开发语言。
2.搜索引擎模式,全模式和精确模式匹配,以及关键词提取的实用性的功能
3.代码开源,词库自定义等优势
4.对GBK不是特别友好、需要转译一次;中英文分词兼容性不是很好;词库更新较缓慢,如果是长期的分词使用,需要频繁更新词库。
下面通过PHP+jieba来进行中文分词
安装
代码(zip)下载地址:https://github.com/fukuball/jieba-php
下载之后放在PHP运行环境中并且在使用时需要引入
require_once"/path/to/your/vendor/multi-array/MultiArray.php";
require_once"/path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php";
require_once"/path/to/your/class/Jieba.php";
require_once"/path/to/your/class/Finalseg.php"
composer安装:
composerrequirefukuball/jieba-php:dev-master
基本分词
注:本文是通过zip下载方式进行安装
目录结构
在test下建立我们测试的.php文件,导入以下代码:
//设置PHP运行占用内存
ini_set('memory_limit','1024M');
//导入文件
require_once"../src/vendor/multi-array/MultiArray.php";
require_once"../src/vendor/multi-array/Factory/MultiArrayFactory.php";
require_once"../src/class/Jieba.php";
require_once"../src/class/Finalseg.php";
useFukuball\Jieba\Jieba;
useFukuball\Jieba\Finalseg;
Jieba::init();
Finalseg::init();
echo"
"; $seg_list=Jieba::cut("结巴分词-全模式分词",true); var_dump($seg_list);#全模式 echo"
"; $seg_list=Jieba::cut("默认就是精确模式",false); var_dump($seg_list);#默認精確模式 echo"
"; $seg_list=Jieba::cutForSearch("搜索引擎模式,会将这句话分词成功类似搜索引擎的模式");#搜索引擎模式 var_dump($seg_list); echo"
"; 关键词提取 //设置PHP运行占用内存 ini_set('memory_limit','600M'); //导入核心文件 require_once"../src/vendor/multi-array/MultiArray.php"; require_once"../src/vendor/multi-array/Factory/MultiArrayFactory.php"; require_once"../src/class/Jieba.php"; require_once"../src/class/Finalseg.php"; require_once"../src/class/JiebaAnalyse.php"; useFukuball\Jieba\Jieba; useFukuball\Jieba\Finalseg; useFukuball\Jieba\JiebaAnalyse; //实例化:第一个参数表示开启测试模式dict表示读取small词库,如果是繁体需要改成big Jieba::init(array('mode'=>'test','dict'=>'small')); Finalseg::init(); JiebaAnalyse::init(); //越小精确度越高|提取的关键词越准|默认20 $top_k=10; //读取luric.txt文件中的中文字符,进行提取 $content=file_get_contents("../src/dict/lyric.txt","r"); $tags=JiebaAnalyse::extractTags($content,$top_k); var_dump($tags); 导入自定义的词库 //设置PHP运行占用内存 ini_set('memory_limit','1024M'); //导入核心文件 require_once"../src/vendor/multi-array/MultiArray.php"; require_once"../src/vendor/multi-array/Factory/MultiArrayFactory.php"; require_once"../src/class/Jieba.php"; require_once"../src/class/Finalseg.php"; useFukuball\Jieba\Jieba; useFukuball\Jieba\Finalseg; Jieba::init(); Finalseg::init(); jieba::loadUserDict("../src/dict/user_dict.txt");//重点在这里,导入自定义的词库 //接下来的词库中就会有你导入的词库 $seg_list=Jieba::cut("结巴中文分词:做最好的中文分词!"); var_dump($seg_list); 导入自定义词库并提取关键词 这个主要是用在某种特定的情况下,看看我们分析的文本中,我们自定义的关键字比重是多大 //设置PHP运行占用内存 ini_set('memory_limit','600M'); //导入核心文件 require_once"../src/vendor/multi-array/MultiArray.php"; require_once"../src/vendor/multi-array/Factory/MultiArrayFactory.php"; require_once"../src/class/Jieba.php"; require_once"../src/class/Finalseg.php"; require_once"../src/class/JiebaAnalyse.php"; useFukuball\Jieba\Jieba; useFukuball\Jieba\Finalseg; useFukuball\Jieba\JiebaAnalyse; //实例化:第一个参数表示开启测试模式dict表示读取small词库,如果是繁体需要改成big Jieba::init(array('mode'=>'test','dict'=>'small')); Finalseg::init(); JiebaAnalyse::init(); jieba::loadUserDict("../src/dict/user_dict.txt");//导入自定义的词语 //越小精确度又高|提取的关键词越准|默认20 $top_k=10; $content=file_get_contents("../src/dict/lyric.txt","r"); //这里是定义截断性比重占比分析 JiebaAnalyse::setStopWords('../src/dict/stop_words.txt'); //调用方法分析词语的占比 $tags=JiebaAnalyse::extractTags($content,$top_k); echo""; var_dump($tags); 其他还有很多可以用到的,博主觉得比较实用的就这几种,不同的业务环境,可以使用不同的方式,总体来说,jieba分词是一款灵活,强大的中文分词工具 mrqinxd 关注 关注 1 点赞 踩 3 评论 11 收藏 打赏 扫一扫,分享内容 点击复制链接 专栏目录 phpjieba:结巴中文分词之php扩展,适用php5,php7 05-17 version0.0.6 加载字典缘故嫌慢的同学可以考虑使用 functions arrayjieba(string$text,int$action=0,int$limit=50) action 0Extract 1CutForSearch 2Tag 3TagAll解决Tag对于相同key的问题 install gitclonehttps://github.com/jonnywang/phpjieba.git cdphpjieba/cjieba make cd.. phpize ./configure make makeinstall jiebamoredetailpleasevisit php.ini extension=jieba.so jieba.enable=1 jieba.dict_path=/data/softs/ph jieba-php:“结巴”中文分词:做最好PHP。
PHP中文分词,中文断词组件。
“Jieba”(中文为“tostutter”)中文文本分割:构建为最佳PHP中文单词分割模块 02-03 “结巴”中文分词:做最好PHP中文分词,中文断词组件,当前翻译版本为jieba-0.33版本,未来再慢慢往上升级,效能也需要再改善,请有兴趣的开发者一起加入开发!若想使用Python版本请前往 现在已经可以支持繁体中文!只要将字典切换为big模式即可! “Jieba”(中文为“tostutter”)中文文本分割:内置为最好PHP中文单词分割模块。
向下滚动以获取英文文档。
线上展示 网站网址:: 网站原始码:: 特征 支持三种分词模式: 1)最小精确模式,试图将句子最精确地切开,适合文本分析; 2)全模式,把句子中所有的可以成词的单词都扫描出来,但是不能解决歧义。
(需要大量的字典) 搜寻引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合使用搜寻引擎分词。
支持繁体断词 支持自定义词典 用法 自动安装:使用composer安装后,透过autoload引用 代码示例 composerrequirefukuball/jieba-php:dev-master 代码示例 require_once"/path/to/your/vendor/autoload 评论 3 您还未登录,请先 登录 后发表或查看评论 JiebaPHP結巴中文分詞做最好的PHP中文分詞中文斷詞組件 08-08 Jieba-PHP-"結巴"中文分詞:做最好的PHP中文分詞、中文斷詞組件 PHP分词使用之Jieba分词(结巴分词)应用 weixin_30895603的博客 12-01 1944 一、下载地址 1.https://github.com/fukuball/jieba-php 二、简介 “结巴”中文分词:做最好的PHP中文分词,中文断词组件。
/“结巴”(中文为“口吃”)中文分词:建立最好的PHP中文分词模块。
目前翻译版为jieba-0.26版本,未来再慢慢往上升级,效能也需要再改善,请有兴趣的开发者一起加入开发!若想使用Python版... sphinxjieba自定义分词php,jieba中文分词(PHP版本) weixin_29538497的博客 03-13 100 1.特点支持三种分词模式精准模式,将句子按词语切分成几分全模式,把句子中所有可以成词的词语扫描出来搜索引擎模式,在精准模式基础上,对长词再次切分支持繁体字支持自定义词典2.安装composerrequirefukuball/jieba-php:dev-master3.使用1.分词jieba.cut方法接受两个参数,第一个为要分词的字符串第二个为选用的分词模式Jieba::cut("今天天气... php+jieba+字典,结巴(jieba)分词器入门 weixin_31841431的博客 03-19 57 安装jieba#pipinstalljieba分词工具importjiebainput="我来到北京大学"seg_list=jieba.cut(input)print("默认精确模式:"+"/".join(seg_list))seg_list=jieba.cut(input,cut_all=True)print("全模式:"+"/".join(seg_list))默认精确模式:我/来到/北... PHP扩展之结巴分词 zc520yzy的博客 03-18 460 functions arrayjieba(string$text,int$action=0,int$limit=50) action 0Extract 1CutForSearch 2Tag 3TagAll解决Tag对于相同key的问题 install gitclonehttps://github.com/jonnywang/ph... php调用jieba,PHP通过FFI调用CJieba分词 weixin_39807352的博客 03-10 31 这里尝试使用PHP7.4的FFI测试直接调用cjieba分词的动态库。
选用CJieba的原因是FFI使用的是C的调用约定,如果用Cpp,还得自己包装一下,然后externC,让编译器生成标准C的动态库。
碰到的问题段错误C变量没有初始化直接调用了C的函数,没有通过FFI初始化后的的C对象调用非空判断需要使用FFI::isNull($x)指针形式的数组不能用foreach指针形式数组的... phpjieba,laravel下TNTSearch+jieba-php实现中文全文搜索 weixin_39988331的博客 03-19 28 上篇文章我们简单介绍了全文搜索的方案;全文搜索和中文分词;TNTSearch+jieba-php这套组合可以在不依赖第三方的情况下实现中文全文搜索;特别的适合博客这种小项目;我新建一个项目用于演示;laravelnewtntsearch创建一个文章表和文章模型;phpartisanmake:modelModels/Article-m添加文章标题和内容字段/database/migrat... phpjieba,GitHub-deminy/jieba-php:"结巴中文分词"PHP版本 weixin_35589827的博客 03-19 37 "结巴中文分词"PHP版本:"结巴中文分词"是SunJunyi开发的Python版的中文分词组件,后来衍生了多种语言实现,包括C++、Java、.NET、Go等等。
这份PHP版本起始于fukuball之前做的PHP实现(v0.25),随后对其整体重写并作了各种更新和改进,包括代码升级、使用PHP7的新功能重构代码、使用PSR-4管理autoloading、使用依赖注射等设计模式、更新单元测试的... php中文搜索工具,Laravel下TNTSearch+jieba-PHP实现中文全文搜索 weixin_39883129的博客 03-10 210 TNTSearch+jieba-php这套组合可以在不依赖第三方的情况下实现中文全文搜索;特别的适合博客这种小项目;开启php扩展pdo_sqlitesqlite3mbstring开始:看到https://learnku.com社区新上线的文件推荐功能,作者介绍说是使用了es(elasticsearch)全文搜索功能,于是我开始使用es(之前没用过),首先想到的是找度娘,结果搜索了好多相关... laravel(7.0)下tntsearch(2.0)和jieba-php使用 Hy忠 04-05 521 使用的"teamtnt/laravel-scout-tntsearch-driver":"^8.1"版本。
如需要,请先查看完此篇文章再修改代码。
按照参考文章TNTSearch-PHP实现的全文索引引擎,已经完成了英文分词的搜索。
中文就需要jieba-php,但苦于tntsearch的驱动已经跟进laravel7,但jieba并没有跟进,致使我参考TNTSearch轻量级全文索引+... php调用jieba,php搜索分词处理(jieba分词) weixin_39795479的博客 03-10 182 做搜索分词处理的时候,有几个常用的分词方法,jieba分词,scws分词,jieba分词是比较常用的分词开启php扩展pdo_sqlitesqlite3mbstring1.先compose安装一下composerrequirevanry/laravel-scout-tntsearch2、添加Provider'providers'=>[.../***TNTSearch全文... php使用结巴分词,分词api-结巴中文分词在php上设置使用全过程 weixin_39603604的博客 03-12 103 一、参考资料:二、结巴分词特点:1、支持三种分词模式:a、精确模式,试图将句子最精确地切开,适合文本分析;b、全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;c、搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
2、支持繁体分词3、支持自定义词典三、安装步骤:使用centos+ngnix+mysql+php环境,使用PuTTY远程服... thinkphp5分词查询 最新发布 bei199133的博客 12-29 316 thinkphp5的整合结巴分词以下是核心代码根据个人业务自行调整 首先:通过composer安装结巴分词模块 composerrequirefukuball/jieba-php:dev-master 以下是核心代码根据个人业务自行调整
也可以通过list(jieba.cut())来等价jieba.lcut() posseg posseg.cut和posseg.lcut的区别雷同,不过posseg还提供了词性 word_pos_seq=posseg.lcut(sentence) word_seq,pos_seq=[],[] forw,pi.. php搜索分词处理(jieba分词) ouxiaoxian的博客 07-16 1281 做搜索分词处理的时候,有几个常用的分词方法,jieba分词,scws分词,jieba分词是比较常用的分词 开启php扩展 pdo_sqlite sqlite3 mbstring 1.先compose安装一下 composerrequirevanry/laravel-scout-tntsearch 2、添加Provider 'providers'=>[ ...... PHP结巴程序实现 weixin_34417183的博客 12-22 50 <?php $str="我...我要要要...学学学..编编程"; $str=preg_replace('/\./','',$str);//我我要要要学学学编编程 $str=preg_replace('/(.)\1+/u','$1',$str);//我要学编程 echo$str; 全部用正则实现。
1.替换. 2.去掉重复的字 文章来源:刘俊涛的博客... php使用结巴分词进行分词 chiangDeng的博客 01-26 265 1 https://github.com/jonnywang/goredisjieba connect('127.0.0.1',6379,10);//端口需要与config.xml配置保持一致 $redis_handle->select(0); $result=$redis_handle->rawCommand('cutforsearch','我来到北京清华大学'... “相关推荐”对你有帮助么? 非常没帮助 没帮助 一般 有帮助 非常有帮助 提交 ©️2022CSDN 皮肤主题:大白 设计师:CSDN官方博客 返回首页 mrqinxd CSDN认证博客专家 CSDN认证企业博客 码龄5年 暂无认证 9 原创 90万+ 周排名 50万+ 总排名 3万+ 访问 等级 455 积分 7 粉丝 16 获赞 6 评论 39 收藏 私信 关注 热门文章 PHP原生环境配置来让你熟悉为什么 9838 PHP运行Python脚本 6768 实用PHP+jieba(结巴)中文关键字提取 4728 phpstudy+yii2集成环境快速开发 4661 MySql按分钟,小时,天,月,年进行统计查询 3806 分类专栏 环境配置 3篇 thinkPHP5 1篇 yii2 1篇 微信开发 1篇 mysql 1篇 SQLserver NginxApache js/jq 2篇 redis PHP 3篇 Python 1篇 最新评论 MySql按分钟,小时,天,月,年进行统计查询 我要怎样才能有钱: 可是这样会带来新问题,当数据量很大的时候,查询耗时会很长的 PHP运行Python脚本 loliconRoot: 已赞 实用PHP+jieba(结巴)中文关键字提取 Leesanghyeok: 请问我在微信公证号接收消息时,无法引用 useFukuball\Jieba\Jieba;这两行是什么原因呢? 实用PHP+jieba(结巴)中文关键字提取 mrqinxd: 不用 实用PHP+jieba(结巴)中文关键字提取 toooooop8: 确定不用配置php.ini么 php.ini extension=jieba.so jieba.enable=1 jieba.dict_path=/data/softs/phpjieba/cjieba/dict 您愿意向朋友推荐“博客详情页”吗? 强烈不推荐 不推荐 一般般 推荐 强烈推荐 提交 最新文章 VueAES加密解密失败 PHP运行Python脚本 MySql按分钟,小时,天,月,年进行统计查询 2020年1篇 2019年3篇 2017年5篇 目录 目录 分类专栏 环境配置 3篇 thinkPHP5 1篇 yii2 1篇 微信开发 1篇 mysql 1篇 SQLserver NginxApache js/jq 2篇 redis PHP 3篇 Python 1篇 目录 打赏作者 mrqinxd 你的鼓励将是我创作的最大动力 ¥2 ¥4 ¥6 ¥10 ¥20 输入1-500的整数 余额支付 (余额:--) 扫码支付 扫码支付:¥2 获取中 扫码支付 您的余额不足,请更换扫码支付或充值 打赏作者 实付元 使用余额支付 点击重新获取 扫码支付 钱包余额 0 抵扣说明: 1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。
余额充值
延伸文章資訊
- 1jieba-php - Bountysource
"結巴"中文分詞:做最好的PHP 中文分詞、中文斷詞組件。 / "Jieba" (Chinese for "to stutter") Chinese text segmentation: bui...
- 2Laravel 中使用PHP 分词库(jieba) 和(scws) - LearnKu
laravel中使用php分词库(jieba)和(scws) 坚持开源,坚持分享这篇文章旨在介绍我用过的两个PHP分词库以及他们的简单使用目的:完成一段段落的分词1.Jieba分词库Jieba分...
- 3Jieba-php by fukuball - "結巴"中文分詞
只要將字典切換為big 模式即可! "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the b...
- 4jieba-php/composer.json at master - GitHub
"結巴"中文分詞:做最好的PHP 中文分詞、中文斷詞組件。 / "Jieba" (Chinese for "to stutter") Chinese text segmentation: bui...
- 5fukuball jieba-php - ReleaseEye
結巴"中文分詞:做最好的PHP 中文分詞、中文斷詞組件。 / "Jieba" (Chinese for "to stutter") Chinese text segmentation: buil...