分析评价是好评还是差评的算法

问题引入

一个有经验的网购者能够靠大脑思维能判断一个评价的是好评还是差评,但是一个网购新人却很难分辨的。如果让一个有经验的网购者说出他判断评价的过程,那是否就可以将这种思维用计算机模拟呢?是否也能够精确地判断这个评价到底是隐含着好的评价还是差的评价呢?

评价分类

好的评价

一个好的评价,必定是经过用户使用过后,真实的感受,而在当前网购中,商家往往为了追求好评率而采用现金红包来刺激评价,这样则大大的降低了评价的真实效果。那么有效的评价特征是什么呢?

1.使用之后,感觉***。这种必定是使用过后的感觉,无论是好是坏,都有一定的参考意义

2.第二次买了,***。这种是回头客,不用说,商品对这个人来说必定是比较好的

无意义的评价

无意义的评价则占据了多数,比如:

1.还没用,感觉还好。这种则是纯属无意义的评价,都还没用,怎么知道好还是不好呢,可能是为了现金红包?

2.商家态度好,好评。我们买的商品,和商家的态度并没有多大关系,因此这类评价对我们判断商品是否好坏并无意义。

差的评价

有些评论会带有一些善意,虽然东西不太好,但是由于商家服务态度好,评论语气也会比较好,很难鉴别出来商品到底是好还是不好,因此需要将那些委婉的评价隐含着对商品不好的信息找出来,转化成不好的评价。

判断好评与差评

level1:形容词判别(关键词判别)

第一个level则是根据关键词判断是好评还是差评,通常这须收集代表好的词汇和代表差的词汇。

词汇一般是形容词,比如好的形容词有:好,精致,美观等等,不好的形容词有:一般,粗糙,太差等等。

但是如果只使用关键词匹配就会出现这种情况,以下面的评价为例子:

一点都不好,也不美观!

关键词匹配则会匹配到“好”,“美观”,原本是差评,如果只是关键词匹配,那么差评可能会变成好评

引入副词

副词为修饰形容词或者副词本身的词汇,表示程度,关系,否定等等。

比如上面的“不”就是一个副词,修饰后面的“好”和“美观”,那么原来的语句就很明确了。用副词加上形容词的判别方法,则可以对语句做出一个较为准确的判断。

不过这里又有一个问题,比如下面的评价

刚买来,还不知道好不好用

这里程序从前往后找,依次会找到“不”,“好”,“不”,“好”这四个关键词,那么按照修饰语,不则修饰后面的好,判断的结果是两个不好,那么明明是一个中性的评价,则成为了不好的评价,判断失误,因此这里还需要引入修饰距离

引入修饰距离

修饰词语被修饰词的间隔我定义为修饰距离L,比如“不知道好”,这个“不”与“好”之间的距离L为2后面的“好不好”,“不”与“好”之前的修饰距离L为0,那么可以使用一个阈值M,当L<M的时候,修饰才有效,否则无效,这样就能够有效的减少误判。

level2:判断评价是否有意义

对于一些无意义的评价,总有着相似的特点,比如:

1.给朋友买的,给家人买的,给***买的等等,然后后面接一句,***说还好。这种评价是无意义的,因此需要排除。

2.有些用户习惯给好评,一般还没用就给好评了,这种也是无意义的

3.商家为了追求好评,用红包返现来刺激用户,这种也是无意义的,但是找出这类评价太困难。

抛开这些无意义的评价,评价的水分就少很多了。

 

你可能还喜欢下面这些文章

linux shell 入门

从程序员的角度来看, Shell本身是一种用C语言编写的程序,从用户的角度来看,Shell是用户与Linux操作系统沟通的桥梁。用户既可以输入命令执行,又可以利用 Shell脚本编程,完成更加复杂的操作。在Linux GUI日益完善的今天,在系统管理等领域,Shell编程仍然起着不可忽视的作用。深入地了解和熟练地掌握Shell编程,是每一个Linux用户的必修 功课之一。Linux的Shell种类众多,常见的有:Bourne Shell(/usr/bin/sh或/bin/sh)、Bourne Again Shell(/bin/bash)、C Shell(/usr/bin/csh)、K Shel

使用sublime+platuml高效画图

程序员难免要经常画流程图,状态图,时序图等。以前经常用 visio 画,经常为矩形画多大,摆放在哪等问题费脑筋。有时候修改文字后,为了较好的显示效果不得不再去修改图形。今天介绍的工具是如何使用 Sublime + PlantUML 的插件画流程图,状态图,时序图等。这是一种程序员看了就会爱上的画图方式:自然,高效。什么是 PlantUMLPlantUML 是一个画图脚本语言,用它可以快速地画出:时序图流程图用例图状态图组件图简单地讲,我们使用 visio 画图时需要一个一个图去画,但使用 PlantUML 只需要用文字表达出图的内容,然后就可以直接生成图片。看一个最简单的例子:软件安装这些软件

C++动态内存管理

C++中,动态内存管理是通过一对运算符来完成:new 和 delete。new操作符在内存中为对象分配空间并返回一个指向该对象的指针,delete接收一个动态对象的指针,销毁该对象,并释放与之相关的内存。手动管理内存看起来只有这两个操作,似乎很轻松,但实际上这是一件非常繁琐的事情,分配了内存但没有释放内存的场景发生的概率太大了!回想一下,你有多少次打开抽屉却没关上,拿出来的护肤品擦完脸之后却忘了放回去,吃完饭却忘了洗碗。类似这种没有收尾的事情我做的太多了。(以上这些都是在实际生活中我爱人批评我的点)我连这种明面上的事情都能忘记收尾,何况分配内存!所以为了世界和平,我放弃了手动管理内存。好在C+

布隆过滤器(bloom filter)介绍以及php和redis实现布隆过滤器实现方法

引言在介绍布隆过滤器之前我们首先引入几个场景。场景一在一个高并发的计数系统中,如果一个key没有计数,此时我们应该返回0。但是访问的key不存在,相当于每次访问缓存都不起作用了。那么如何避免频繁访问数量为0的key而导致的缓存被击穿?有人说, 将这个key的值置为0存入缓存不就行了吗?这是确实是一种解决方案。当访问一个不存在的key的时候,设置一个带有过期时间的标志,然后放入缓存。不过这样做的缺点也很明显:浪费内存和无法抵御随机key攻击。场景二在一个黑名单系统中,我们需要设置很多黑名单内容。比如一个邮件系统,我们需要设置黑名单用户,当判断垃圾邮件的时候,要怎么去做。比如爬虫系统,我们要记录下

gcc/g++编译参数详解

编译步骤gcc 与 g++ 分别是 gnu 的 c & c++ 编译器。gcc/g++ 在执行编译工作的时候,总共需要4步:预处理,生成 .i 的文件将预处理后的文件转换成汇编语言, 生成文件 .s 有汇编变为目标代码(机器代码)生成 .o 的文件连接目标代码, 生成可执行程序 参数详解-x language filename参数含义为指定文件所使用的语言。根据约定,C语言的后缀名称为".c",而 C++ 的后缀名为".cpp"或".cc",但如果你的源代码后缀不约定的那几种,那么需要使用-x参数来指定文件所使用的语言。这个参数对他后面的文件名都起作用。 可以使用的参数吗有下面的这些:

iterm2 使用 rz、sz 的方法

如果没有额外的设置,iterm2 使用 rzsz 的时候会卡在这个时候就需要使用iterm2提供的trigger来实现rzsz的功能。第一步:本机安装rzsz使用rzsz之前本地也需要安装如果没有安装brew,请先安装brew,mac必备的包管理器!第二步:创建发送和接收脚本发送文件的脚本如下,可以复制下面的内容,保存在 /usr/local/bin/iterm2-send-zmodem.sh中。接收文件的脚本如下,同样可以复制保存在/usr/local/bin/iterm2-recv-zmodem.sh第三步:设置Triggerteigger需要设置两个,一个实发送文件的trigger,一个

Go入门:六、常用标准库

这是我的Go学习的第六篇笔记,也是Go入门的最后一篇笔记。在大多数语言中,了解了变量和数据类型,流程控制,函数,面向对象,再加上标准库,就可以用这门语言去写一些项目了。首先让我想想,在工作中通常会用语言频繁处理什么问题或者处理什么数据?最常见的应该是各种字符串操作,日期和时间,读写文件、socket等IO相关的操作!字符串处理 — StringsString提供了一组处理字符串的操作,常用的有:判断一个字符串是否在另一个字符串中分割字符串为[]string和组合[]string为一个字符串字符串替换...太多了,就不一一列举了,这里列出一些常用的字符串操作。字符串判断字符串分割与合并字符串转换

vsftpd配置文件详解

vsftpd的配置文件/etc/vsftpd/vsftpd.conf主配置文件/usr/sbin/vsftpdVsftpd的主程序/etc/rc.d/init.d/vsftpd启动脚本/etc/pam.d/vsftpdPAM认证文件(此文件中file=/etc/vsftpd/ftpusers字段,指明阻止访问的用户来自/etc/vsftpd/ftpusers文件中的用户)/etc/vsftpd/ftpusers禁止使用vsftpd的用户列表文件。记录不允许访问FTP服务器的用户名单,管理员可以把一些对系统安全有威胁的用户账号记录在此文件中,以免用户从FTP登录后获得大于上传下载操作的权利,而对

Shell中的条件判断语句if的用法

shell中的if语法是最让我头疼的语法之一,它的判断就向使用USB插头一样——拿起来插入不行,翻转再插入还不行,再翻转插入行了!为了搞清楚这部分语言,我收集了一些文章关于if条件判断的用法,希望对你也有些帮助。一、基本语法语法说明bash shell会按顺序执行if语句,如果command执行后且它的返回状态是0,则会执行符合该条件执行的语句,否则后面的命令不执行,跳到下一条命令。当有多个嵌套时,只有第一个返回0退出状态的命令会导致符合该条件执行的语句部分被执行,如果所有的语句的执行状态都不为0,则执行else中语句。返回状态:最后一个命令的退出状态,或者当没有条件是真的话为0。注意:1、表

Go入门:一、变量和数据类型

这是学习Go语言的第一篇笔记,主要学习的是变量和基本数据类型。如果您也在开始学习Go语言,那么这篇笔记一定能帮助您学习的更快!我的语言学习过程一般分为下面几个:1. 变量和数据类型2. 流程控制方法3. 函数声明和调用4. 面向对象5. 语言特性6. 标准库变量声明Go语言的变量声明有三种第一种,var identifier type// 先声明后赋值var identifier typeidentifier = value// 声明并且赋值var identifier type = value开始实战一下!比如声明一个int类型变量var i inti = 1// 或者var i int =

赞赏

微信赞赏支付宝赞赏

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注