乐于分享
好东西不私藏

WordCut 中文分词模块 v0.0.1 发布

WordCut 中文分词模块 v0.0.1 发布

WordCut 中文分词模块 v0.0.1 发布

模块介绍

本模块主要用于文本分词,常用语提取标签,计算词频等需求。

特性

  • • 支持六种分词模式
  1. 1. 模式1:全模式核心特点:将句子中所有能成词的词语都切分出来,分词结果最细、无歧义判断,速度最快。适用场景:快速检索、词频统计、粗分词。
  2. 2. 模式2:精确模式(含新词发现)核心特点:精准切分句子,可识别未登录词/新词(如人名、新网络词),结果最贴合语义。适用场景:常规文本分析、文章理解。
  3. 3. 模式3:精确模式(无新词发现)核心特点:基础精准切分,仅使用内置词典,不识别新词,分词速度更快。适用场景:固定词典文本、无新词的标准文本。
  4. 4. 模式4:搜索引擎模式(含新词发现)核心特点:在精确模式基础上,对长词再次切分(如「清华大学」→「清华」「大学」),支持新词发现。适用场景:搜索引擎、关键词检索、全文检索。
  5. 5. 模式5:搜索引擎模式(无新词发现)核心特点:基础搜索引擎分词,拆分长词,不识别新词。适用场景:常规搜索、关键词匹配。
  6. 6. 模式6:词性标注模式核心特点:分词同时标注词语词性(名词/动词/形容词等),返回带词性的结果。适用场景:句法分析、文本挖掘、NLP预处理。
  7. 7. 模式7:名词模式核心特点:先做词性标注,再仅保留名词。适用场景:关键词提取、实体统计、主题分析。
  8. 8. 默认模式核心特点:无匹配模式时兜底使用,效果同模式1全模式。适用场景:所有场景兜底。
  • • 支持在数据添加自定义词汇

本次更新

  • • 新增: 数据库自定义词汇表和逻辑
  • • 新增:分词接口,支持多种模式
  • • 新增:高频词接口,返回指定数量的高频词

效果展示

高频名词获取

请求

{"mode":7,"sentence":"梦如心海深处最隐秘的岛屿,古往今来牵引着诗魂与哲思的航船。当“赠梦”的幻景浮于现实地平线,我们骤然彻悟:人类精神的长河从未停止流动——以言语、文字、行动为舟楫,灵魂深处的光华早已在无声中穿越时空,赠予彼此以不灭的星火。这精神的“赠梦”,正是人间星河恒久不熄的深层奥秘。赠梦,是心灵深处最纯粹渴盼的彼此交付,它超越言语的藩篱而直抵灵魂的共鸣。弗洛伊德曾言梦境是“未被满足愿望的曲折表达”。纵使“昨夜闲潭梦落花”的幽微叹息难以复制,那其中如落花般轻颤的心弦却早已被理解传递。陶渊明于东篱下采菊时的悠然,千载之后不依然赠予我们一方澄澈心田?杜丽娘为情生死的执念,不也悄然点燃过无数追求真我的灵魂?个体梦境或许短暂,但当精神之梦以文字、艺术为媒介传递,便如星火落入心原,点燃他人心中相似的渴望。赠梦之舟,更载着文明命脉的薪火,在时间长河上破浪前行。","data_size":5}

结果

{  "words": [    "精神",    "文字",    "星火",    "梦境",    "灵魂"  ]}
本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » WordCut 中文分词模块 v0.0.1 发布

猜你喜欢

  • 暂无文章