快捷搜索:

Python实现敏感词过滤的4种方法

Python实现敏感词过滤的4种方法

  怎么修改asp源码页面内容的大小和宽度在我们生活中的一些场合经常会有一些不该出现的敏感词,我们通常会使用*去屏蔽它,例如:尼玛 -> **,一些骂人的敏感词和一些政治敏感词都不应该出现在一些公共场合中,这个时候我们就需要一定的手段去屏蔽这些敏感词。下面我来介绍一些简单版本的敏感词屏蔽的方法。

  replace就是最简单的字符串替换,当一串字符串中有可能会出现的敏感词时,我们直接使用相应的replace方法用*替换出敏感词即可。

  正则表达式算是一个不错的匹配方法了,日常的查询中,机会都会用到正则表达式,包括我们的爬虫,也都是经常会使用到正则表达式的,在这里我们主要是使用“”来进行匹配,“”的意思是从多个目标字符串中选择一个进行匹配。写个简单的例子:

  DFA的算法,即Deterministic Finite Automaton算法,翻译成中文就是确定有穷自动机算法。它的基本思想是基于状态转移来检索敏感词,只需要扫描一次待检测文本,就能对所有敏感词进行检测。(实现见代码注释)

  AC自动机需要有前置知识:Trie树(简单介绍:又称前缀树,字典树,是用于快速处理字符串的问题,能做到快速查找到一些字符串上的信息。)

  ac自动机,就是在tire树的基础上,增加一个fail指针,如果当前点匹配失败,则将指针转移到fail指针指向的地方,这样就不用回溯,而可以路匹配下去了。

  以上便是使用Python实现敏感词过滤的四种方法,前面两种方法比较简单,后面两种偏向算法,需要先了解算法具体实现的原理,之后代码就好懂了。(DFA作为比较常用的过滤手段,建议大家掌握一下~)

  以上就是Python实现敏感词过滤的4种方法的详细内容,更多关于python 敏感词过滤的资料请关注脚本之家其它相关文章!

  本篇文章给大家带来的内容是关于Python如何筛选序列中的元素 ,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。1、需求序列中含有一些数据,我们需要提取其中的值或根据某些标准对序列做删减,2、解决方案要筛选序列中的数据,通常最简单的方法是使用列表推导式。例如:my...查看详情

  对于英文文本分句比较简单,只要根据终结符.划分就好,中文文本分句看似很简单,但是实现时会遇到很多麻烦,尤其是处理社交媒体数据时,会遇到文本格式不规范等问题。下面代码针对一段一段的短文本组成了文档分句import redef cut_sent(infile, outfile):...查看详情

  前言这篇文章主要介绍了linux中如何使用python3获取ip地址,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下。一、不带参数#!/usr/bin/python # -*- coding: UTF-8 -*- import o...查看详情

  Python 处理 JSON 数据时,dumps 函数是经常用到的,当 JSON 数据中有特殊类型时,往往是比较头疼的,因为经常会报这样一个错误。自定义编码类#!/usr/bin/env python# -*- coding:utf-8 -*-# Author: wxnacy(w...查看详情

  如下所示:list=[1,2,3,4,5,6,7,8,9,0,11,0,13,14,15,16,17,18,19,20]#把list分为长度为5的4段for j in range(0,len(list),5): matrix.append(list[j:j+5])matrix=...查看详情

  在pycharm使用过程中,对于每次新建的python文件的时候,关于代码编写者的一些个人信息快捷填写,使用模板的方式比较方便。方法如下:1.打开pycharm,选择File-Settings2.Editor –> File and Code Templates –>...查看详情

  最近由于开发业务量陡增,脚本一个接一个,一天好几个,为了便于后期的维护和调优,我习惯在前面加一些跟脚本相关的信息,如业务需求、开发思路、实现过程、开发周期、时间等等asp教程,因此做一个模版是必不可少的了,方法如下:尽量做成世上最详细(没有之一)1、左上角File2、Settings3、E...查看详情

  最近学习python,刚好学到了gui(tkinter)相关的知识,顺便一提,我学python用的是《programming python 4edition》这本书,在这里小小的推荐一下,感觉还不错。昨天在做一个简单的文本编辑器的时候,想要在窗口启动的时候就默认是最大化的,但是不...查看详情

  今天分享一下django的账号密码登陆,前端发送ajax请求,将用户名和密码信息发送到后端处理,后端将前端发送过来的数据跟数据库进行过滤匹配,成功就跳转指定页面,否则就把相对应的错误信息返回,同时增加一个小功能,在规定时间内超过规定的登录次数,就锁住无法登陆,等下一个时间段再允许...查看详情

  最近几天了解了一下人脸识别,应用场景可以是图片标注,商品图和广告图中有没有模特,有几个模特,模特的性别,年龄,颜值,表情等数据的挖掘。基础的识别用dlib来实现,dlib是一个机器学习的包,主要用C++写的,但是也有Python版本。其中最流行的一个功能是Facial Landm...查看详情

您可能还会对下面的文章感兴趣: