技术文 – 第 4 页

漫话中文自动分词和语义识别（上）：中文分词算法

中文分词的主要困难在于分词歧义。“结婚的和尚未结婚的”，应该分成“结婚／的／和／尚未／结婚／的”，还是“结婚／的／和尚／未／结婚／的”？人来判断很容易，要交给计算机来处理就麻烦了。问题的关键就是，“和尚未”里的“和尚”也是一个词，“尚未”也是一个词，从计算机的角度看上去，两者似乎都有可能。对于计算机来说，这样的分词困境就叫做“交集型歧义”。

有时候，交集型歧义的“歧义链”有可能会更长。“中外科学名著”里，“中外”、“外科”、“科学”、“学名”、“名著”全是词，光从词库的角度来看，随便切几刀下去，得出的切分都是合理的。类似的例子数不胜数，“提高产品质量”、“鞭炮声响彻夜空”、“努力学习语法规则”等句子都有这样的现象。在这些极端例子下，分词算法谁优谁劣可谓是一试便知。

最简单的，也是最容易想到的自动分词算法，便是“最大匹配法”了。也就是说，从句子左端开始，不断匹配最长的词（组不了词的单字则单独划开），直到把句子划分完。算法的理由很简单：人在阅读时也是从左往右逐字读入的，最大匹配法是与人的习惯相符的。而在大多数情况下，这种算法也的确能侥幸成功。不过，这种算法并不可靠，构造反例可以不费吹灰之力。例如，“北京大学生前来应聘”本应是“北京／大学生／前来／应聘”，却会被误分成“北京大学／生前／来／应聘”。

维护一个特殊规则表，可以修正一些很机械的问题，效果相当不错。例如，“不可能”要划分成“不／可能”，“会诊”后面接“断”、“疗”、“脉”、“治”时要把“会”单独切出，“的确切”后面是抽象名词时要把“的确切”分成“的／确切”，等等。

还有一个适用范围相当广的特殊规则，这个强大的规则能修正很多交集型歧义的划分错误。首先我们要维护一个一般不单独成词的字表，比如“民”、“尘”、“伟”、“习”等等；这些字通常不会单独划出来，都要跟旁边的字一块儿组成一个词。在分词过程中时，一旦发现这些字被孤立出来，都重新考虑它与前面的字组词的可能。例如，在用最大匹配法切分“为人民服务”时，算法会先划出“为人”一词，而后发现“民”字只能单独成词了。查表却发现，“民”并不能单独划出，于是考虑进行修正——把“为人”的“人”字分配给“民”字。巧在这下“为”和“人民”正好都能成词，据此便可得出正确的划分“为／人民／服务”。

不过，上述算法归根结底，都是在像人一样从左到右地扫描文字。为了把问题变得更加形式化，充分利用计算机的优势，我们还有一种与人的阅读习惯完全不同的算法思路：把句子作为一个整体来考虑，从全局的角度评价一个句子划分方案的好坏。设计自动分词算法的问题，也就变成了如何评估分词方案优劣的问题。最初所用的办法就是，寻找词数最少的划分。注意，每次都匹配最长的词，得出的划分不见得是词数最少的，错误的贪心很可能会不慎错过一些更优的路。因而，在有的情况下，最少词数法比最大匹配法效果更好。若用最大匹配法来划分，“独立自主和平等互利的原则”将被分成“独立自主／和平／等／互利／的／原则”，一共有 6 个词；但词数更少的方案则是“独立自主／和／平等互利／的／原则”，一共只有 5 个词。

当然，最少词数法也会有踩大便的时候。“为人民办公益”的最大匹配划分和最少词数划分都是“为人／民办／公益”，而正确的划分则是“为／人民／办／公益”。同时，很多句子也有不止一个词数最少的分词方案，最少词数法并不能从中选出一个最佳答案。不过，把之前提到的“不成词字表”装备到最少词数法上，我们就有了一种简明而强大的算法：

对于一种分词方案，里面有多少词，就罚多少分；每出现一个不成词的单字，就加罚一分。最好的分词方案，也就是罚分最少的方案。

这种算法的效果出人意料的好。“他说的确实在理”是一个很困难的测试用例，“的确”和“实在”碰巧也成词，这给自动分词带来了很大的障碍。但是“确”、“实”、“理”通常都不单独成词的，因此很多切分方案都会被扣掉不少分：

他／说／的／确实／在理（罚分：1+1+1+1+1 = 5 ）
他／说／的确／实／在理（罚分：1+1+1+2+1 = 6 ）
他／说／的确／实在／理（罚分：1+1+1+1+2 = 6 ）

正确答案胜出。

需要指出的是，这个算法并不需要枚举所有的划分可能。整个问题可以转化为图论中的最短路径问题，利用动态规划效率则会更高。

算法还有进一步加强的余地。大家或许已经想到了，“字不成词”有一个程度的问题。“民”是一个不成词的语素，它是绝对不会单独成词的。“鸭”一般不单独成词，但在儿歌童谣和科技语体中除外。“见”则是一个可以单独成词的语素，只是平时我们不常说罢了。换句话说，每个字成词都有一定的概率，每个词出现的频率也是不同的。

何不用每个词出现的概率，来衡量分词的优劣？于是我们有了一个更标准、更连续、更自动的改进算法：先统计大量真实语料中各个词出现的频率，然后把每种分词方案中各词的出现概率乘起来作为这种方案的得分。利用动态规划，不难求出得分最高的方案。

以“有意见分歧”为例，让我们看看最大概率法是如何工作的。查表可知，在大量真实语料中，“有”、“有意”、“意见”、“见”、“分歧”的出现概率分别是 0.0181 、 0.0005 、 0.0010 、 0.0002 、 0.0001 ，因此“有／意见／分歧”的得分为 1.8×10^-9 ，但“有意／见／分歧”的得分只有 1.0×10^-11 ，正确方案完胜。

这里的假设是，用词造句无非是随机选词连在一块儿，是一个简单的一元过程。显然，这个假设理想得有点不合理，必然会有很多问题。考虑下面这句话：

这／事／的确／定／不／下来

但是概率算法却会把这个句子分成：

这／事／的／确定／不／下来

原因是，“的”字的出现概率太高了，它几乎总会从“的确”中挣脱出来。

其实，以上所有的分词算法都还有一个共同的大缺陷：它们虽然已经能很好地处理交集型歧义的问题，却完全无法解决另外一种被称为“组合型歧义”的问题。所谓组合型歧义，就是指同一个字串既可合又可分。比如说，“个人恩怨”中的“个人”就是一个词，“这个人”里的“个人”就必须拆开；“这扇门的把手”中的“把手”就是一个词，“把手抬起来”的“把手”就必须拆开；“学生会宣传部”中的“学生会”就是一个词，“学生会主动完成作业”里的“学生会”就必须拆开。这样的例子非常多，“难过”、“马上”、“将来”、“才能”、“过人”、“研究所”、“原子能”都有此问题。究竟是合还是分，还得取决于它两侧的词语。到目前为止，所有算法对划分方案的评价标准都是基于每个词固有性质的，完全不考虑相邻词语之间的影响；因而一旦涉及到组合型歧义的问题，最大匹配、最少词数、概率最大等所有策略都不能实现具体情况具体分析。

于是，我们不得不跳出一元假设。此时，便有了那个 Google 黑板报上提到的统计语言模型算法。对于任意两个词语 w₁ 、 w₂ ，统计在语料库中词语 w₁ 后面恰好是 w₂ 的概率 P(w₁, w₂) 。这样便会生成一个很大的二维表。再定义一个句子的划分方案的得分为 P(∅, w₁) · P(w₁, w₂) · … · P(w_n-1, w_n) ，其中 w₁, w₂, …, w_n 依次表示分出的词。我们同样可以利用动态规划求出得分最高的分词方案。这真是一个天才的模型，这个模型一并解决了词类标注、语音识别等各类自然语言处理问题。

至此，中文自动分词算是有了一个漂亮而实用的算法。

但是，随便拿份报纸读读，你就会发现我们之前给出的测试用例都太理想了，简直就是用来喂给计算机的。在中文分词中，还有一个比分词歧义更令人头疼的东西——未登录词。中文没有首字母大写，专名号也被取消了，这叫计算机如何辨认人名地名之类的东西？最近十年来，中文分词领域都在集中攻克这一难关。

在汉语的未定义词中，中国人名的规律是最强的了。根据统计，汉语姓氏大约有 1000 多个，其中“王”、“陈”、“李”、“张”、“刘”五大姓氏的覆盖率高达 32% ，前 400 个姓氏覆盖率高达 99% 。人名的用字也比较集中，“英”、“华”、“玉”、“秀”、“明”、“珍”六个字的覆盖率就有 10.35% ，最常用的 400 字则有 90% 的覆盖率。虽然这些字分布在包括文言虚词在内的各种词类里，但就用字的感情色彩来看，人名多用褒义字和中性字，少有不雅用字，因此规律性还是非常强的。根据这些信息，我们足以计算一个字符串能成为名字的概率，结合预先设置的阈值便能很好地识别出可能的人名。

可是，如何把人名从句子中切出来呢？换句话说，如果句中几个连续字都是姓名常用字，人名究竟应该从哪儿取到哪儿呢？人名以姓氏为左边界，相对容易判定一些。人名的右边界则可以从下文的提示确定出来：人名后面通常会接“先生”、“同志”、“校长”、“主任”、“医生”等身份词，以及“是”、“说”、“报道”、“参加”、“访问”、“表示”等动作词。

但麻烦的情况也是有的。一些高频姓氏本身也是经常单独成词的常用字，例如“于”、“马”、“黄”、“常”、“高”等等。很多反映时代性的名字也是本身就成词的，例如“建国”、“建设”、“国庆”、“跃进”等等。更讨厌的就是那些整个名字本身就是常用词的人了，他们会彻底打乱之前的各种模型。如果分词程序也有智能的话，他一定会把所有叫“高峰”、“汪洋”的人拖出去斩了；要是听说了有人居然敢叫“令计划”，估计直接就崩溃了。

还有那些恰好与上下文组合成词的人名，例如：

费孝通向人大常委会提交书面报告
邓颖超生前使用过的物品

这就是最考验分词算法的句子了。

相比之下，中国地名的用字就分散得多了。北京有一个地方叫“臭泥坑”，网上搜索“臭泥坑”，第一页全是“臭泥坑地图”、“臭泥坑附近酒店”之类的信息。某年《重庆晨报》刊登停电通知，上面赫然印着“停电范围包括沙坪坝区的犀牛屙屎和犀牛屙屎抽水”，读者纷纷去电投诉印刷错误。记者仔细一查，你猜怎么着，印刷并无错误，重庆真的就有叫“犀牛屙屎”和“犀牛屙屎抽水”的地方。

好在，中国地名数量有限，这是可以枚举的。中国地名委员会编写了《中华人民共和国地名录》，收录了从高原盆地到桥梁电站共 10 万多个地名，这让中国地名的识别便利了很多。

真正有些困难的就是识别机构名了，虽然机构名的后缀比较集中，但左边界的判断就有些难了。更难的就是品牌名了。如今各行各业大打创意战，品牌名可以说是无奇不有，而且经常本身就包含常用词，更是给自动分词添加了不少障碍。

最难识别的未登录词就是缩略语了。“高数”、“抵京”、“女单”、“发改委”、“北医三院”都是比较好认的缩略语了，有些缩略语搞得连人也是丈二和尚摸不着头脑。你能猜到“人影办”是什么机构的简称吗？打死你都想不到，是“人工影响天气办公室”。

汉语中构造缩略语的规律很诡异，目前也没有一个定论。初次听到这个问题，几乎每个人都会做出这样的猜想：缩略语都是选用各个成分中最核心的字，比如“安全检查”缩成“安检”，“人民警察”缩成“民警”等等。不过，反例也是有的，“邮政编码”就被缩成了“邮编”，但“码”无疑是更能概括“编码”一词的。当然，这几个缩略语已经逐渐成词，可以加进词库了；不过新近出现的或者临时构造的缩略语该怎么办，还真是个大问题。

说到新词，网络新词的大量出现才是分词系统真正的敌人。这些新词汇的来源千奇百怪，几乎没有固定的产生机制。要想实现对网络文章的自动分词，目前来看可以说是相当困难的。革命尚未成功，分词算法还有很多进步的余地。

文章转自Matrix67博客，原文地址： http://www.matrix67.com/blog/archives/4212

你可能还喜欢下面这些文章

漫话中文自动分词和语义识别（下）：句法结构和语义结构

这篇文章是漫话中文分词算法的续篇。在这里，我们将紧接着上一篇文章的内容继续探讨下去：如果计算机可以对一句话进行自动分词，它还能进一步整理句子的结构，甚至理解句子的意思吗？这两篇文章的关系十分紧密，因此，我把前一篇文章改名为了《漫话中文自动分词和语义识别（上）》，这篇文章自然就是它的下篇。我已经在很多不同的地方做过与这个话题有关的演讲了，在这里我想把它们写下来，和更多的人一同分享。什么叫做句法结构呢？让我们来看一些例子。“白天鹅在水中游”，这句话是有歧义的，它可能指的是“白天有一只鹅在水中游”，也可能指的是“有一只白天鹅在水中游”。不同的分词方案，产生了不同的意义。有没有什么句子，它的分词方案是

murmur hash，一个更快的hash算法

在打算搭建memcache集群的时候，使用了crc3算法来对key进行hash，然而发现该算法性能比较低，于是寻找一个高性能，低碰撞的hash算，很高兴有前人已经为我们发明了这种算法——murmur。MurmurHash算法：高运算性能，低碰撞率，由Austin Appleby创建于2008年，现已应用到Hadoop、libstdc++、nginx、libmemcached等开源系统。2011年 Appleby被Google雇佣，随后Google推出其变种的CityHash算法。MurmurHash算法，自称超级快的hash算法，是FNV的4-5倍。官方数据如下：OneAtATime – 35

记一次进程异常退出的问题排查

机器搬家之后，之前一直稳定的PHP多进程程序子进程突然异常退出，但是退出的不是很频繁，查看进程日志并也没有发现有什么导致退出的，问题比较诡异。于是开启了一段问题排查之路。首先查看内核日志，使用dmesg，拉到最后发现有一些这样的错误，看来确实是崩溃了。 php: segfault at 7f6443ee18c8 ip 00007f6443ee18c8 sp 00007fff4d4ba818 error 15 in libc-2.17.so php: segfault at 0 ip 000000000075919d sp 00007fff0c6e0578 error 4 in php trap

记录一下使用中PDO出现的一个问题：Cannot execute queries while other unbuffered queries are active. Consider using PDOStatement::fetchAll().

在使用PDO的时候，一条sql语句打死都不执行，dump一下errorInfo试试，出现这样的错误信息问题描述居然告诉我还有语句没有执行完成？当前的查询未能执行，逗我么！考虑使用fetchAll，或者开启缓冲查询，行，你说得对....问题出现的使用场景服务器服务器为linux，安装了一个什么面板套件之类的，不是自家机器，也懒得去折腾，在本地的windows环境并没有该问题。程序笔者在对数据库的一个计数字段进行更新的时候，首先会先查询这个记录是否存在，如果存在则进行更新，如果不存在则先插入。问题就出现在记录不存在的时候，当我查询这条不存在的记录时候，发现这个记录不存在，然后进行插入，发现之前的查

并发任务分配问题

这是在工作中遇到的实际问题和解决过程。问题已经被抽象成并发任务的分配问题。问题如果有 n 组数据均分给 m 个处理器处理，那么每个处理器分到的数据是。如果n组数据的类型有差异，其中有a组是一类数据，剩余 n-a 组是另一类数据。只有同类数据才能被一次性处理，那么该如何分配？这个问题在现实中是存在的。比如HTTP并发请求处理一些数据。数据被批量送来，但类型不一样。为了节省耗时，我们希望并发处理这些不同的数据。并发数是确定好的。现在需要计算每个请求处理的数量，以便我们能给每一个请求打包数据。求解n 组数据交给 m 个处理器处理，每个处理器最多分到组数据，这是毫无疑问的。如果 n 组数据中有

mysql varchar类型探秘

mysql中varchar能够存储可变长度的字符串。过去我做的诸多业务中，一般存储短字符串的需求，都会使用varchar类型，并且定义长度为255，也就是varchar(255)。不过为了探究varchar这种类型到底是怎么存储的，它的最大长度能达到多少，我决定区翻一下mysql文档学习一下。varchar怎么存储经过一番了解，varchar最大能存储的长度为65535字节。存储字符串的时候，会将字符串的长度存在首部，接着才是内容。当varchar存储的字符个数小于或等于255的时候，首部需要一个字节来记录字符的个数。当内容大于255的字符的时候，首部需要2个自己来保存长度。varchar能存

一致性哈希的php实现

未来项目可能要上memcache集群，memcache集群的key分配完全在客户端完成，服务端不做任何处理，这里对key进行分配节点的最优方式就是使用一致性哈希。记得以前用mysql进行分库分表的时候，通常会用一个求余作为哈希函数，这样一些id就能对应相应的表了。不过使用mysql的时候，我们不需要考虑这些节点失效问题，以及节点增加或者减少的问题（在此之前应该做好足够的计划和准备），但是对于缓存，通常就比较宽松了，允许节点失效问题，但是普通的hash分配在节点失效之后，大部分的缓存位置都改变了，这显然个灾难，这个时候就要考虑一致性hash了，在增加或者删除节点，只有小部分的key会受影响。一致

utf8编码原理

在我的程序中，基本都使用utf8来编码（除非历史原因，实在是无法转换）。但我用的php在处理中文语言的时候，总显得有些生硬，总感觉没有处理英文那么流畅。比如为什么统计字符的数目要远大于汉字的个数？为什么截断中文乱码？为什么一串英文所组成的字符串可以使用数组的方式访问但是中文字符串为什么就是乱码？等等等等之类的问题。这一切的一切，都是因为对utf8编码不了解所导致的！虽然我们有mb_string这个扩展的对中文有很友好的支持，但对于编码原理，还是需要好好的了解一下。但对于初学者，我想你未必有耐心看完这篇文章，可以跳过直接看程序实例，这篇文章可以作为实例程序的参考作用。

Redis主从模式下从库过期的key仍然能够被读到的解决方案

Redis主从模式下，当对一个key设定过期时间，到期之后从库依然能够读取到数据。这个问题困扰了我很久，相信很多人都遇到过这种问题了。（前提是你不去读主库，并且redis版本在3.2以下）。经过一番搜寻，发现很多人遇到的问题和我一样。主Redissetex test 20 1+OKget test$11ttl test:18从Redisget test$11ttl test:7以上都没问题，然而过几秒再看从Redisttl test:-1get test$11test这个key已经过期了，然而还是可以获取到test的值。在使用Redis做锁的时候，如果直接取读从库的值，这就有大问题了。为什么从

GDB入门：使用bt查看程序出core的调用栈

当程序崩溃的时候，会产生一个core文件。我们可以称它为进程死亡现场。排查进程死亡就和破案一样，找到案发现场，仔细排查每个细节，抽丝剥茧，最终定位原因。很幸运我们有一个强大的工具调查现场信息。这个工具就是GDB。下面我们就来看看如何用GDB排查问题。首先以一个越界访问数组的程序为例，如下：#include #include void core() { std::vector<int> a; std::cout << a;}int main() { core(); return 0;}执行上面的代码将会产生一个core文件。假设我们的core文件为

互联网时代的社会语言学：基于SNS的文本数据挖掘

今年上半年，我在人人网实习了一段时间，期间得到了很多宝贵的数据，并做了一些还算有意义的事情，在这里和大家一块儿分享。感谢人人网提供的数据与工作环境，感谢赵继承博士、詹卫东老师的支持和建议。在这项工作中，我得到了很多与众人交流的机会，特别感谢 OpenParty 、 TEDxBeijing 提供的平台。本文已发表在了《程序员》杂志，分上下两部分刊于 2012 年 7 月刊和 8 月刊，在此感谢卢鸫翔编辑的辛勤工作。由于众所周知的原因，《程序员》刊出的文章被和谐过（看到后面大家就自动地知道被和谐的内容是什么了），因而我决定把完整版发在 Blog 上，同时与更多的人一同分享。对此感兴趣的朋友可以给我发邮件继续交流。好了，开始说正文吧。

作为中文系应用语言学专业的学生以及一名数学 Geek ，我非常热衷于用计算的方法去分析汉语资料。汉语是一种独特而神奇的语言。对汉语资料进行自然语言处理时，我们会遇到很多其他语言不会有的困难，比如分词——汉语的词与词之间没有空格，那计算机怎么才知道，“已结婚的和尚未结婚的青年都要实行计划生育”究竟说的是“已／结婚／的／和／尚未／结婚／的／青年”，还是“已／结婚／的／和尚／未／结婚／的／青年”呢？这就是所谓的分词歧义难题。不过，现在很多语言模型已经能比较漂亮地解决这一问题了。但在中文分词领域里，还有一个比分词歧义更令人头疼的东西——未登录词。中文没有首字母大写，专名号也被取消了，这叫计算机如何辨认人名地名之类的东西？更惨的则是机构名、品牌名、专业名词、缩略语、网络新词等等，它们的产生机制似乎完全无规律可寻。最近十年来，中文分词领域都在集中攻克这一难关。自动发现新词成为了关键的环节。

挖掘新词的传统方法是，先对文本进行分词，然后猜测未能成功匹配的剩余片段就是新词。这似乎陷入了一个怪圈：分词的准确性本身就依赖于词库的完整性，如果词库中根本没有新词，我们又怎么能信任分词结果呢？此时，一种大胆的想法是，首先不依赖于任何已有的词库，仅仅根据词的共同特征，将一段大规模语料中可能成词的文本片段全部提取出来，不管它是新词还是旧词。然后，再把所有抽出来的词和已有词库进行比较，不就能找出新词了吗？有了抽词算法后，我们还能以词为单位做更多有趣的数据挖掘工作。这里，我所选用的语料是人人网 2011 年 12 月前半个月部分用户的状态。非常感谢人人网提供这份极具价值的网络语料。（更多…）

你可能还喜欢下面这些文章

基于信息熵分词以及新词发现的实践过程

原标题：互联网时代的社会语言学：基于SNS的文本数据挖掘今年上半年，我在人人网实习了一段时间，期间得到了很多宝贵的数据，并做了一些还算有意义的事情，在这里和大家一块儿分享。感谢人人网提供的数据与工作环境，感谢赵继承博士、詹卫东老师的支持和建议。在这项工作中，我得到了很多与众人交流的机会，特别感谢 OpenParty 、 TEDxBeijing 提供的平台。本文已发表在了《程序员》杂志，分上下两部分刊于 2012 年 7 月刊和 8 月刊，在此感谢卢鸫翔编辑的辛勤工作。由于众所周知的原因，《程序员》刊出的文章被和谐过（看到后面大家就自动地知道被和谐的内容是什么了），因而我决定把完整版发在 Bl

基于信息熵原理分词的php实现

基于信息熵原理分词这个概念很早了，用php实现了个，一气呵成，代码自然是，反正我也没有二次检查，呵呵。不过耗费内存是真的，真的很消耗内存！写这个的好处就是我明白了很多东西...代码如下<?php/** * 基于信息熵的无词典分词*/class partword{ /** * 词语最大长度 */ public $maxwordlen = 5; /** * 需要进行分词的文字 */ public $text; /** * 字符串长度 */ private $len; /** * 切分的单个文字

linux下面ftp的搭建

linux下面ftp服务器一般选择vsftpd这个免费开源的ftp程序。主要说一下其安装，配置，启动这些过程。由于我的是centos系统，只需要使用就可以安装啦 ubuntu用安装完毕之后。首先在linux下面添加一个用户作为ftp用户 useradd –d /var/www/site -g ftp –s /sbin/nologin myftp -s /sbin/nologin 是让其不能登陆系统 -d 是指定用户目录为/var/www ，这里可以替换成任何你需要的目录。 -g ftp 把用户加入到ftp组中(vsftp已创建) myftp是ftp用户名，在配置时把这个myftp换成你的ft

记一次PHP7中正则匹配失败，原因为PREG_JIT_STACKLIMIT_ERROR

最近弄了一台机器，安装php7，性能很棒！

但是在运行中发现之前的程序运行有些异常，有些正则匹配不到了，开始怀疑是正则表达式的问题，一番查找发现php7并没有对正则进行改动。接下来就是一番痛苦的查找bug，我甚至写了一个非正则的函数来替换原来的正则匹配，不过太消耗cpu而放弃了。

还是继续找bug，打印出正则的错误信息

echo array_flip(get_defined_constants(true)['pcre'])[preg_last_error()];

出现了 PREG_JIT_STACKLIMIT_ERROR

官方给出的提示是：

PREG_JIT_STACKLIMIT_ERROR (自 PHP 7.0.0 起)

PREG_JIT_STACKLIMIT_ERROR 当 PCRE 函数因 JIT 栈空间限制而失败， preg_last_error() 就会返回此常量。

果然是php7中引入的特性引起的！

在php7.1中，我们没办法改变jit的栈空间，当字符串太大的时候，栈空间满了，直接就出错了。

解决方案

打开php.ini，找到pcre.jit=1这行，改成pcre.jit=0，不使用jit

你可能还喜欢下面这些文章

一个功能完备的url路由：Hcrail

写在前面功能完备还有待添加，嘿嘿正文之前学习了一下composer，正好也缺一个很优雅的 url 路由，于是就来实践一下，这个路由需要php 5.3以上环境支持，因为用到了匿名回调。代码<?phpnamespace cmhc\Hcrail;class Hcrail{ /** * callback function * @var callable */ protected static $callback; /** * match string or match regexp * @var string */ prot

c++ 标准库二分查找

C++标准库中的二分查找可以通过和函数实现。这两个函数都在头文件中定义，并接受一个排序的范围（例如，，，等）以及一个要查找的值。返回指向在范围中第一个不小于（即大于或等于）给定值的元素的迭代器。则返回指向在范围中第一个大于给定值的元素的迭代器。下面是一个使用进行二分查找的例子：在这个例子中，我们首先定义了一个排序的，然后定义了一个目标值。我们使用查找，然后检查返回的迭代器是否指向。如果是，我们就打印出在中的位置。否则，我们打印出未找到的消息。如果你想查找的是范围中是否包含特定的值，并且不关心具体的位置，你可以将和的结果进行比较。如果它们相同，那么范围中不包含该值。否则，范围中包含该值。请注意，

C++实现python字符串的endswith方法

可以使用的或方法配合比较运算符来模拟方法的功能。下面是一个示例函数，它检查一个字符串是否以另一个字符串结束：在这个示例中，函数接受两个参数：和。函数首先检查的长度是否大于或等于的长度。如果不是，那么显然不能以结束，函数返回。否则，函数使用方法从的末尾提取与长度相同的子字符串，并将其与进行比较。如果它们相等，那么以结束，函数返回。否则，函数返回。请注意，这个函数是区分大小写的。如果你想要一个不区分大小写的版本，你可以在比较之前使用和函数将和转换为小写。在这个版本中，函数首先使用和函数将和转换为小写。然后，它调用函数来检查转换后的字符串是否以结束。

Go入门：六、常用标准库

这是我的Go学习的第六篇笔记，也是Go入门的最后一篇笔记。在大多数语言中，了解了变量和数据类型，流程控制，函数，面向对象，再加上标准库，就可以用这门语言去写一些项目了。首先让我想想，在工作中通常会用语言频繁处理什么问题或者处理什么数据？最常见的应该是各种字符串操作，日期和时间，读写文件、socket等IO相关的操作！字符串处理 — StringsString提供了一组处理字符串的操作，常用的有：判断一个字符串是否在另一个字符串中分割字符串为[]string和组合[]string为一个字符串字符串替换...太多了，就不一一列举了，这里列出一些常用的字符串操作。字符串判断字符串分割与合并字符串转换

Go入门：三、函数的声明和调用

这是我Go学习笔记的第三篇！接下来学习的是Go的函数声明和调用。我的语言学习过程一般分为下面几个：1. 变量和数据类型2. 流程控制方法3. 函数声明和调用4. 面向对象5. 语言特性6. 标准库函数声明func 函数名称(参数表) 返回值类型 { // 函数体}写一个函数是非常简单的，掌握语法格式就可以了。函数是一个功能的封装，能让函数体内的代码得到很好的复用。比如我要输出个人信息，我可以把个人信息封装到函数里面，后续直接调用这个函数而不是每次都print一堆信息了上面定义的函数没有参数，也没有返回值，非常简单的一个函数。如果我想让姓名可变，那么可以定义一个带有参数的函数接下来定义一个有

Go语言的 make 和 new

new 和 make 是两个内置函数，主要用来创建并分配类型的内存。在我们定义变量的时候，可能会觉得有点迷惑，不知道应该使用哪个函数来声明变量，其实他们的规则很简单，new 只分配内存，make 只能用于 slice、map 和 channel 的初始化。下面我们就来具体介绍一下new在Go语言中，new 函数描述如下：从上面的代码可以看出，new 函数只接受一个参数，这个参数是一个类型，并且返回一个指向该类型内存地址的指针。同时 new 函数会把分配的内存置为零，也就是类型的零值。【示例】使用 new 函数为变量分配内存空间。当然，new 函数不仅仅能够为系统默认的数据类型，分配空间，自定义

C++入门：三、函数

这是我学习C++的第三篇笔记，函数。我的学习路径是现在学习的是函数的声明、定义、调用等相关知识。函数声明和定义函数的声明包含返回类型，函数名字，0个或者多个形参，无函数体，通常在头文件中对函数进行声明。函数的定义包含返回类型，函数名字，0个或多个形参，以及函数体。比如写一个求阶乘的函数，可以写成下面这样写一些简单的函数大多数语言都差不多，不过可惜每种语言或多或少都有自己的特色，这是比较令人头秃的地方。函数的参数函数可以带有0或多个参数，每个参数都需要声明类型。参数传递可以传值和传引用。如果形参是引用类型，那么它将绑定到对应的实参中，我们成为传引用。否则，将会把实参的值拷贝后赋值给形参，我们成为

mysq常用函数大全

很少用到，但是有时候又必须用到，这里收集一下mysql的常用函数一、数学函数ABS(x) 返回x的绝对值BIN(x) 返回x的二进制（OCT返回八进制，HEX返回十六进制）CEILING(x) 返回大于x的最小整数值EXP(x) 返回值e（自然对数的底）的x次方FLOOR(x) 返回小于x的最大整数值GREATEST(x1,x2,...,xn)返回集合中最大的值LEAST(x1,x2,...,xn) 返回集合中最小的值LN(x) 返回x的自然对数LOG(x,y)返回x的以y为底的对数MOD(x,y)

python学习笔记：三、函数

这是第三篇python学习笔记，我们即将要学习python的函数。内容主要包括两个部分，函数的声明和函数的调用。函数声明和调用比如我们要声明一个“吃”的函数，语法如下：def eat(): return "eat something"print(eat())上面是一个没有参数的函数，做的事情很简单，声明一个函数，然后返回一个字符串。接下来要增加一个参数了。def ead(food): return "eat %s" % foodprint(eat('fruit'))可以看到，上面声明了一个带有一个参数的函数，当然可以声明带两个，三个等。这些都是固定的，那么如果要声明一个不固定参数的

命令行下的mongo初试

从连接mongo开始，熟悉一下命令行下面的mongo使用连接普通连接mongo mongodb://ip:port查看数据库show dbs选择或者创建数据库use mydb创建一个集合比如创建一个mycollection的集合db.createCollection('mycollection')显示数据库中所有的集合show collections向集合中写入数据假设我们创建了一个mycollection集合，实际上当我们没有创建mycollection集合的时候，执行下面的命令mongo会自动创建一个mycollection集合db.mycollection.insert({"foo",'

autossh实现树莓派内网穿透

在我写的另一片文章《使用ssh建立反向连接》实现了内网穿透，但连接在长时间不使用时会自动断开。现在有一个更好的解决方案，使用autossh来实现一个不会断开的反向链接，实现内网穿透。

如何使用

首先在树莓派上安装autossh，命令是：

apt-get install autossh

安装完毕后，启动autossh，可以使用如下命令：

autossh -M 5678 -NR 1234:localhost:22 user@123.123.123.123 -p 222

参数解释：

参数“-M 5678”中，-M指定树莓派的监控端口，此处是5678。树莓派会定时检查该端口，如果不通则会重新发起连接。

命令“1234:localhost:22”中， 1234表示需要在远程主机上开启的端口，22表示本地的ssh端口。这个含义表示我们希望通过公网ip和1234端口访问树莓派的22端口。

user@123.123.123.123 -p222 user为公网机器上的用户，222为公网机器的ssh端口。

免密码登陆

通常情况，建立反向连接时需要登陆公网机器，此时需要输入密码。而开机自启动输入密码显然不现实。此时需要使用sshkey来实现免密码登录。

首先，在树莓派上生成sshkey，命令如下：

ssh-keygen -t rsa

由于我们不需要密码，所以一路回车即可。生成的id_rsa.pub文件在~/.ssh/文件夹里。然后我们将这个key推送到公网机器。命令如下：

ssh-copy-id -i ~/.ssh/id_rsa.pub 用户@主机地址 -p 端口/

（更多…）

你可能还喜欢下面这些文章

ssh实现树莓派的内网穿透

前几天入手了一个树莓派3，然而不幸的是家中的网没有公网IP，直接访问肯定是没戏了，这时候突然想到了打洞这个词，我想ssh打洞肯定是可以的。经过一番搜索，答案找到了，实现非常简单，步骤如下。1.原料实现内网穿透，你首先需要一台在公网的vps，哪个国家的都无所谓。2.VPS配置vps开启SSHD的GatewayPorts选项，开启方式如下：vim /etc/ssh/sshd_config# 找到GatewayPorts选项，将其变为yesGatewayPorts yes# 重启sshd服务service sshd restart3.树莓派配置假设VPS的IP为1.1.1.1，远程转发的端口号为11

开始使用varnish

本文假设你已经安装了varnish了，如果还没安装，那么请看前面的varnish的安装来安装varnish吧！下面的命令将会启动varnishservice varnish start现在你的varnish已经运行了，让我们确保它已经在工作吧！打开浏览器，在地址栏中输入http://127.0.0.1:6081/（你需要把ip替换成你的机器ip）默认的配置将会尝试将请求转发到该台机器上的8080端口上面。如果该台机器上面没有web服务，varnish将会返回Error 503 Service Unavailable。你的web应用可能运行在其他端口或者其他的机器，这需要编辑varnish的配置

ftp命令大全详解

来熟悉熟悉ftp命令，对于服务器之间的文件传输太有用啦，不会怎么能行呢！先来看看基础的命令，包括了连接，列出列表，下载，上传，断开这最基础的命令，会这些，在使用ftp命令行就毫无压力啦！1. 连接ftp服务器格式：ftp a)在linux命令行下输入：b)服务器询问你用户名和密码，分别输入用户名和相应密码，待认证通过即可。2.列出文件列表以及切换目录这部分其实和linux并无区别，分别是ls，和cd列出目录列表切换当前目录3. 下载文件下载文件通常用get和mget这两条命令。a) get格式：get 将文件从远端主机中传送至本地主机中。如要获取远程服务器上/usr/your/1.htm，则

树莓派zero连接wifi

这是一篇记录树莓派连接wifi的文章。这里我们使用wpa_cli的交互环境来连接无线网，这比直接使用配置要方便得多。注意，wpa_cli需要在root环境下执行终端下面执行： sudo wpa_cli -iwlan0-i参数表示使用哪个网卡，我们需要指定只用wlan0这个网卡。具体可以执行ifconfig看看都有哪些网卡可以使用，如果你的树莓派带有wifi模块，那么一般是wlan0进入交互模式之后，首先需要执行scan命令，该命令能扫描附近的热点。然后输入scan_result列出扫描出来的热点上面扫描出了我的一个手机热点。我们知道了热点的ssid之后就可以连接了，首先增加一个网络连接，执行a

使用sublime+platuml高效画图

程序员难免要经常画流程图，状态图，时序图等。以前经常用 visio 画，经常为矩形画多大，摆放在哪等问题费脑筋。有时候修改文字后，为了较好的显示效果不得不再去修改图形。今天介绍的工具是如何使用 Sublime + PlantUML 的插件画流程图，状态图，时序图等。这是一种程序员看了就会爱上的画图方式：自然，高效。什么是 PlantUMLPlantUML 是一个画图脚本语言，用它可以快速地画出：时序图流程图用例图状态图组件图简单地讲，我们使用 visio 画图时需要一个一个图去画，但使用 PlantUML 只需要用文字表达出图的内容，然后就可以直接生成图片。看一个最简单的例子：软件安装这些软件

gcc/g++编译参数详解

编译步骤gcc 与 g++ 分别是 gnu 的 c & c++ 编译器。gcc/g++ 在执行编译工作的时候，总共需要4步：预处理,生成 .i 的文件将预处理后的文件转换成汇编语言, 生成文件 .s 有汇编变为目标代码(机器代码)生成 .o 的文件连接目标代码, 生成可执行程序参数详解-x language filename参数含义为指定文件所使用的语言。根据约定，C语言的后缀名称为".c"，而 C++ 的后缀名为".cpp"或".cc"，但如果你的源代码后缀不约定的那几种，那么需要使用-x参数来指定文件所使用的语言。这个参数对他后面的文件名都起作用。可以使用的参数吗有下面的这些：

布隆过滤器(bloom filter)介绍以及php和redis实现布隆过滤器实现方法

引言在介绍布隆过滤器之前我们首先引入几个场景。场景一在一个高并发的计数系统中，如果一个key没有计数，此时我们应该返回0。但是访问的key不存在，相当于每次访问缓存都不起作用了。那么如何避免频繁访问数量为0的key而导致的缓存被击穿？有人说，将这个key的值置为0存入缓存不就行了吗？这是确实是一种解决方案。当访问一个不存在的key的时候，设置一个带有过期时间的标志，然后放入缓存。不过这样做的缺点也很明显：浪费内存和无法抵御随机key攻击。场景二在一个黑名单系统中，我们需要设置很多黑名单内容。比如一个邮件系统，我们需要设置黑名单用户，当判断垃圾邮件的时候，要怎么去做。比如爬虫系统，我们要记录下

linux命令：ls用法，列出文件及目录

原标题:每天一个linux命令(1)：ls命令ls 命令是linux下最常用的命令。ls命令就是list的缩写缺省下ls用来打印出当前目录的清单，如果ls指定其他目录那么就会显示指定目录里的文件及文件夹清单。通过ls 命令不仅可以查看linux文件夹包含的文件而且可以查看文件权限(包括目录、文件夹、文件权限)，查看目录信息等等。ls 命令在日常的linux操作中用的很多!ls命令格式ls 命令功能列出目标目录中所有的子目录和文件。常用参数-a, –all 列出目录下的所有文件，包括以 . 开头的隐含文件-A 同-a，但不列出“.”(表示当前目录)和“..”(表示当前目录的父目录)。

查看varnish统计信息命令：varnishstat

varnishstat是一个查看当前varnish实例的实时运行状态信息。命令以及参数如下：varnishstat 以下选项可用： -1不再显示不断更新的显示，而是将统计信息打印到stdout。-f <glob>Field inclusion glob. Use backslash to escape characters. If the argument starts with '^' it is used as an exclusion glob. Multiple -f arguments may be given, and they will be ap

iterm2 使用 rz、sz 的方法

如果没有额外的设置，iterm2 使用 rzsz 的时候会卡在这个时候就需要使用iterm2提供的trigger来实现rzsz的功能。第一步：本机安装rzsz使用rzsz之前本地也需要安装如果没有安装brew，请先安装brew，mac必备的包管理器！第二步：创建发送和接收脚本发送文件的脚本如下，可以复制下面的内容，保存在 /usr/local/bin/iterm2-send-zmodem.sh中。接收文件的脚本如下，同样可以复制保存在/usr/local/bin/iterm2-recv-zmodem.sh第三步：设置Triggerteigger需要设置两个，一个实发送文件的trigger，一个

ssh实现树莓派的内网穿透

前几天入手了一个树莓派3，然而不幸的是家中的网没有公网IP，直接访问肯定是没戏了，这时候突然想到了打洞这个词，我想ssh打洞肯定是可以的。

经过一番搜索，答案找到了，实现非常简单，步骤如下。

1.原料

实现内网穿透，你首先需要一台在公网的vps，哪个国家的都无所谓。

2.VPS配置

vps开启SSHD的GatewayPorts选项，开启方式如下：

vim /etc/ssh/sshd_config
# 找到GatewayPorts选项，将其变为yes

GatewayPorts yes
# 重启sshd服务
service sshd restart

3.树莓派配置

假设VPS的IP为1.1.1.1，远程转发的端口号为11111（端口号最好高于1024，否则需要使用root权限），远程服务器的ssh端口为22，登陆用户为username；
继续假设本地路由器需要转发的端口为22，路由器的在LAN中的IP地址为192.168.1.1。

当我们确认好了各个数字的意义后，就可以开始替换下面的命令了。

（更多…）

你可能还喜欢下面这些文章

autossh实现树莓派内网穿透

在我写的另一片文章《使用ssh建立反向连接》实现了内网穿透，但连接在长时间不使用时会自动断开。现在有一个更好的解决方案，使用autossh来实现一个不会断开的反向链接，实现内网穿透。如何使用首先在树莓派上安装autossh，命令是：安装完毕后，启动autossh，可以使用如下命令：参数解释：参数“-M 5678”中，-M指定树莓派的监控端口，此处是5678。树莓派会定时检查该端口，如果不通则会重新发起连接。命令“1234:localhost:22”中， 1234表示需要在远程主机上开启的端口，22表示本地的ssh端口。这个含义表示我们希望通过公网ip和1234端口访问树莓派的22端

使用 ssh config给你的远程主机创建别名

与windows不一样，通常在linux下（mac也一样）一般使用终端来连接远程主机而不是使用一些比如putty或者是xshell。ssh -p port name@host这样未免有些麻烦，实际上通过配置ssh的config文件能够使用别名，简化连接，用户的配置文件在~/.ssh/config, 没有的话就创建一个。配置示例如下Host 别名 HostName 主机域名或者ip User 用户名 Port 指定端口号比如你的树莓派在本地的ip是192.168.1.100Host rapsi HostName 192.168.1.100 User root

开始使用varnish

树莓派zero连接wifi

ftp命令大全详解

布隆过滤器(bloom filter)介绍以及php和redis实现布隆过滤器实现方法

gcc/g++编译参数详解

iterm2 使用 rz、sz 的方法

使用sublime+platuml高效画图

linux命令：ls用法，列出文件及目录

Redis主从模式下从库过期的key仍然能够被读到的解决方案

Redis主从模式下，当对一个key设定过期时间，到期之后从库依然能够读取到数据。这个问题困扰了我很久，相信很多人都遇到过这种问题了。（前提是你不去读主库，并且redis版本在3.2以下）。

经过一番搜寻，发现很多人遇到的问题和我一样。

主Redis

setex test 20 1
+OK
get test
$1
1
ttl test
:18

从Redis

get test
$1
1
ttl test
:7

以上都没问题，然而过几秒再看从Redis

ttl test
:-1
get test
$1
1

test这个key已经过期了，然而还是可以获取到test的值。

在使用Redis做锁的时候，如果直接取读从库的值，这就有大问题了。（更多…）

你可能还喜欢下面这些文章

mysql中的alter操作详解

在使用mysql的客户端之后，手动输入语句的机会减少太多，比如mysql的alter语句竟然想不起来怎么用了，于是重新学习一下。alter是用来修改表结构的语句。既然是修改，那么可分为增加，修改，删除这几种。大致的操作如下ALTER TABLE 表名称操作(ADD|DROP|CHANGE|RENAME) 操作内容列操作相关1.增加列ALTER TABLE table_name ADD new_column_name VARCHAR(255) NOT NULL2.删除列ALTER TABLE table_name DROP a_column3.修改列ALTER TABLE table_name

漫话中文自动分词和语义识别（上）：中文分词算法

记得第一次了解中文分词算法是在 Google 黑板报上看到的，当初看到那个算法时我彻底被震撼住了，想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上再次学到中文分词算法，才知道这并不是中文分词算法研究的全部，前前后后还有很多故事可讲。在没有建立统计语言模型时，人们还在语言学的角度对自动分词进行研究，期间诞生了很多有意思的理论。中文分词的主要困难在于分词歧义。“结婚的和尚未结婚的”，应该分成“结婚／的／和／尚未／结婚／的”，还是“结婚／的／和尚／未／结婚／的”？人来判断很容易，要交给计算机来处理就麻烦了。问题的关键就是，“和尚未”里的“和尚”也是

linux设置虚拟内存（交换空间）方法

场景大多数场景下机器内存是够用的，然而运行某些低频软件的时候可能需要较高内存（如编译软件）。此时再增加较大的物理内存不划算，此时可以通过增加虚拟内存来达到临时增加内存的目的。步骤第一步：使用dd命令创建一个swap文件，大小为1G。命令如下：bs为一次读写的大小，单位为字节。此处bs=1024表示一次读写的大小为1kb。count为读写的次数，此处count为1024000，表示1024000次，乘以每次读取的1kb，正好是1024000kb，为1G大小。第二步：将文件格式转换为swap格式。命令如下：第三步：用swapon命令挂载该文件到swap分区命令如下：都操作完毕之后可以使用free

记一次进程异常退出的问题排查

漫话中文自动分词和语义识别（下）：句法结构和语义结构

mongodb 常用命令

最近业务可能会用到mongodb，因此将mongodb的一些特性和常用命令整理一下。mongodb是一种非关系型数据库中最像关系数据库的，但我用mongodb仍然只把它当做KV存储，其他的关系一概不做，对于关系，还是让MySQL去做吧！关于mongo集群的搭建已经有运维帮我搭建好了，我就直接用了，但是在用之前，了解mongo集群的搭建十分有必要。关于Mongos，MongodMongos：起着路由的作用，根据分片key找到数据所存放的分片位置Mongod：数据存放的位置关于索引索引在任何数据库都起着至关重要的作用，没有索引的数据只能是一堆杂乱无章的集合，在mongo的集合中，可以创建索引，创建

记录一下使用中PDO出现的一个问题：Cannot execute queries while other unbuffered queries are active. Consider using PDOStatement::fetchAll().

shell 变量的定义

shell可以自定义变量，这为shell的编写带来很多方便定义变量定义变量时，变量名不加美元符号（$），如：variableName="value"注意：变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样同时，变量名的命名须遵循如下规则。首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用bash里的关键字（可用help命令查看保留关键字）。变量定义举例：myUrl="http://imhuchao.com/tag/bash"myNum=100使用变量使用一个定义过的变量，只要在变量名前面加美元符号（$）即可，如：your_nam

并发任务分配问题

js保存用户自定义的样式重新载入会闪烁的解决方案

在制作一个页面的时候，有需要前台js保存用户自定义的样式的需求，但是保存之后，重新刷新页面，会显示原来的样式，然后再变更为现在的自定义的样式。

这是一个有闪烁的例子，点击打开

保存样式之后，再重新强制刷新几次，可以看到页面在载入的时候会出现闪烁的情况。强迫症患者表示这不能接受，页面这么小的情况都闪烁的这么厉害，这页面大了，加载速度慢了，自定义样式还得等着加载完成之后才能显示，就失去了自定义的意义了。

上面的闪烁是可以理解的，css渲染完成之后，js给body增加了一个class，浏览器又会重新渲染，因此会出现短暂的闪烁

那么在渲染到head的时候，此时再用js给head标签里面增加css呢？这样不就在body出现之前就完成了css的渲染吗？果然，这样的方法是可行的

这是一个没有闪烁的例子，点击打开

至此，问题解决。也许更多的原因我还需要去看看浏览器渲染页面相关的文章。

你可能还喜欢下面这些文章

wordpress慢了，来用memcache和cdn加速一下吧

我用的vps，用了wordpress之后速度慢了不少，内存，cpu，涨的都厉害，很直观。于是，写插件吧，虽然wordpress的插件很多，缓存插件也不少，但满足我的需求的却是没有。我要的是这样的1.使用memcache缓存整个页面。（memcache可压缩缓存，并且我的页面并不多，因此占用并不大）2.在入口处就加载并且使用缓存（仅仅加载一个我预定义的缓存读取php文件，io极少，速度极快）需求很少，因为是特定的需求，十分简单，我要的就是整个页面都跑在内存中！写插件吧......几天之后，一个插件完成了。hccache缓存插件加速后台菜单是酱紫的hccache菜单点开之后是酱紫的能够定义缓存过期

matplotlib画柱状图教程

matplotlib画柱状图十分简单，首先需要导入matplotlib中的pyplot，这个就是能够画图的类啦import matplotlib.pyplot as plt画柱状图十分简单，使用bar方法，比如画一个各个班级的人数吧，先准备一些数据，有两组数据，students为人数，这里放到y坐标系中，变量x就放在x坐标系中students = x = 好了，现在我们可以直接画出来，调用bar方法，最后再调用show就能画图啦，代码如下plt.bar(x=x, height=students)plt.show()完整代码如下#coding:utf-8import matplotlib.pyp

发布composer包到packagist让所有人都能用

创建了composer包之后，要让所有人都能使用你的包，就必须要发布到packagist上。首选你的包需要使用git大多数人可能都有github了，进入packagist的提交页面：https://packagist.org/packages/submit，输入包的github地址，提交即可。使用hook自动更新当提交了github之后，想让你的包自动更新可以使用webhook。按照相应的提示去设置就可以了。

xshell 部分版本存在后门登录凭证或将被泄露

刚收到邮件，说Xshell官方提供的多个版本存在后门，会向 nylalobghyhirgh.com 发送登录凭证信息。已知受影响的版本为：Xshell Build 5.0.1322Xshell Build 5.0.1325Xmanager Enterprise 5.0 Build 1232Xmanager 5.0 Build 1045Xftp 5.0 Build 1218Xftp 5.0 Build 1221Xlpd 5.0 Build 1220 已知不受影响的版本为：Xmanager Enterprise Build 1236Xmanager Build 1049Xshell Bu

创建自己的composer包之怎样制作composer包

项目做多了之后，可能会慢慢总结出自己的代码库出来，当在新的项目中使用的时候，总不能一直是复制粘贴。这个时候，composer就能派上用场了。一个项目开始，使用composer就能够加载所需要的依赖，非常方便。这个时候，来做一个自己的包吧！使用命名空间composer自动加载需要用到命名空间，因此所有的代码库都需要使用命名空间，如果没有，那就改吧！使用命名空间之后你可能会打开新世界的大门。创建composer.json我假设你已经安装了composer，并且已经会使用了。创建自己的包我们首先需要创建一个composer.json，示例文件如下上面的composer.json有一个比较重要的是au

代码语法高亮插件整理

语法高亮是文本编辑器用来显示文本的，特别是源代码，根据不同的类别来用不同的颜色和字体显示。这个功能有助于编写结构化的语言，比如编程语言，标记语言，这些语言的语法错误显示是有区别的。语法高亮并不会影响文本自身的意义，而且能很好的符合人们的阅读习惯。语法高亮同时也能帮助开发者很快的找到他们程序中的错误。例如，大部分编辑器会用不同的颜色突出字符串常量。所以，非常容易发现是否遗漏了分隔符，因为相对于其他文本颜色不同。现在有各种各样的语法高亮工具，可以格式化语言，并且根据不同的编程语言进行高亮显示。无论是个 HTML 页面还是 PHP，Ruby，Python 或者是 ASP。这篇文章中，我们会介绍 1

开始使用varnish

centos7系统初初始化工作以及网站环境搭建(php7+nginx+mysql)

拿到一台做网站的主机, 我们先要做一些环境初始化的工作, 由于这些工作会有些繁琐,因此记录一下. 后面将这些流程写成一个shell脚本,一次性完成.此次工作流程如下: 安全性设置额外的目录创建网站环境搭建安全性设置一般从某云上买的主机, 默认账户是root, 为了不被暴力破解, 我们首先需要设置一个强一点的密码,不过更好的方法是禁用root, 另外创建一个用户来作为日常管理的账户.第一步: 创建一个新的账户,并且能够切换到root权限比如我的用户名叫xiaobai, 添加用户名就是useradd xiaobai设置密码passwd xiaobai之后输入密码,一个新的账户就设定好了.

awk分析nginx日志中的网页响应时间

nginx日志可以十分方便的看到每一个请求的响应速度，通常我会用awk去分析这些请求耗时。通常nginx的log配置是这样的

log_format access_comment '$remote_addr - $remote_user [$time_local] "$request" '
 '$status $body_bytes_sent "$http_referer" '
 '"$http_user_agent" $http_x_forwarded_for '
 '$upstream_response_time $request_time';

我们记录的日志类似于这样

127.0.0.1 - - [15/Feb/2017:10:30:19 +0800] "POST /get" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36" 111.111.111.111, 10.0.0.0 0.007 0.007

响应时间是最后一个。

awk的工作原理是读出一行数据，然后根据指定的分隔符对行进行分割，放到序号变量里面，默认是按照空格分割，比如$1是127.0.0.1，$2是-...

然而按照空格分割的话，这里有一个不确定的因素，就是http_user_agent，这个里面的空格是不确定的，因此没有一个固定的序号变量来保存响应时间。

不急，awk提供了一个非常好的内置变量NF，NF保存了当前分割出来的字段总数，那么最后一个则是$(NF),这样我们就能得到日志里面的响应时间。

命令如下

$ tail -f /data/logs/nginx/access.log | awk '{print $(NF)}'

实际应用中路径需要你记录nginx日志的路径。

同样我们还可以分析最近请求的平均耗时，使用NR，NR是已经读取的行数

tail -f /data/logs/nginx/access.log | awk 'BEGIN{FS=" ";count=0} {count+=$(NF); print (count/NR),"\t",$(NF)}'

awk的详细用法可以查看：http://imhuchao.com/606.html

你可能还喜欢下面这些文章

MySQL开启慢查询日志以及慢查询日志分析

mysql满查询有助于让我们发现系统中瓶颈所在。开启方法默认情况满查询应该关闭，如果需要分析则需要手动开启。mysql> show variables like '%slow_query_log%'; +---------------------+--------------------------------------+ | Variable_name | Value | +---------------------+--------------------------------------+ | slow_

python rsplit

在Python中，是字符串（str）对象的一个方法，用于从字符串的末尾（右侧）开始分割字符串。这个方法与方法相似，但方向相反。方法接受一个分隔符（默认为所有空白字符）和一个最大分割次数作为参数，并返回分割后的子字符串列表。下面是方法的基本语法：：分隔符，用于指定如何分割字符串。如果不指定分隔符，则默认为所有的空白字符（包括空格、换行符、制表符等）。：可选参数，指定最大分割次数。如果指定了，则分割不会超过这个指定的次数，并且结果列表的长度最多为。如果参数被省略或者为 -1，则分割会进行到字符串的末尾。下面是一些使用方法的例子：注意：如果参数为空字符串，则会

shell 变量的定义

ajax的核心，好好认识一下XMLHttpRequest

相信包括在我的绝大多数人都用jQuery的$.get()，$.post()，$.ajax()方法用的很爽了，关于其原生的请求却很少去发掘，很多时候(比如用html5开发app的时候),我并不再需要jQuery，弄明白XMLHttpRequest用原生的就能很好的处理ajax了。首先，由于我的js是通过jQuery入门的，所以才会有这篇文章。从new一个对象开始var xmlhttp = new XMLHttpRequest();之后的请求，读取，出错等等各种处理都在xmlhttp这个对象里面啦第一个GET请求get请求简单，最适合入门操作啦。之前new了一个xmlhttp对象，这次我们就要对它

php的empty,isset，is_null与！

来说说php的empty，isset，is_null 与!，这几个都是if语句中比较常见的判断逻辑。但是有时候用的很纠结，甚至看别人写的程序里面也很纠结。特地梳理梳理，避免踩坑先来定义一些东西<?php$a;$b=0;$c=array();$d='';$e=null;empty，用了会上瘾这是一个用了会上瘾的语言结构！多好，empty可接受的参数是一个变量，任意类型，哪怕是变量不存在，只要变量被boolean转换之后是false（参考：php的boolean都有哪些），那么empty返回的就是false，并且不会出现警告！等价于不过注意的是，empty里面不能使用表达式（在php<

JS使用XMLHttpRequest实现ajax请求

是一个JavaScript对象，它最初由微软设计，随后被 Mozilla、Apple和Google采纳。如今，该对象已经被 W3C组织标准化。通过它，你可以很容易的取回一个URL上的资源数据。尽管名字里有XML，但可以取回所有类型的数据资源，并不局限于XML。而且除了HTTP ，它还支持和协议。创建一个实例, 可以使用如下语句:方法概述非标准方法属性AttributeTypeDescription一个JavaScript函数对象，当readyState属性改变时会调用它。回调函数会在user interface线程中调用。警告: 不能在本地代码中使用. 也不应该在同步模式的请求中

boost split 用法

是一个用于将字符串按照指定的分隔符分割成多个子串的函数，并将这些子串存储到一个容器中，比如。使用函数需要包含头文件。函数的用法如下：在上面的示例中，我们首先定义了一个以逗号分隔的字符串。然后，我们创建了一个类型的容器，用于存储分割后的子串。接下来，我们调用函数，将按照逗号进行分割，并将结果存储在容器中。最后，我们遍历容器，并输出每个子串。函数有几个参数：第一个参数是存储分割后子串的容器，类型为或其他类似的容器。第二个参数是要分割的字符串。第三个参数是分隔符，可以是一个普通字符或者正则表达式。常见的分隔符有逗号、分号、制表符等。在上面的示例中，我们使用了作为分隔符，表示以逗号为分隔符进行分割。还

如何用火焰图分析程序性能瓶颈

一个经验非常丰富的程序员可能可以静态分析程序的性能瓶颈，但大多数人做不到这些。这个时候我们往往需要借助一些辅助工具来分析程序的性能瓶颈，火焰图就是其中之一。一张典型的火焰图长这样本文主要介绍如何生成和分析火焰图。如何生成火焰图第一步：使用perf生成采样日志火焰图是根据perf命令生成的日志文件来生成的，所以首先需要使用perf命令对所需要分析的进程进行采样。命令解释：运行上面两个命令之后，会生成一个out.perf文件第二步：下载FlameGraphFlameGraph用于将采样日志转换成svg图片，这个图片就是我们见到的火焰图。FlameGraph地址：https://github.com

设计模式：装饰器模式介绍和应用

简短描述当前有一个功能完善的对象，如果我们想要给这个对象添加一个新的职责，那么我们可以用一个新的类去装饰它来实现对原有对象职责的扩展。新的类称为“装饰者”，原有的对象称为“被装饰者”。这种模式被称为装饰器模式。现实生活中的装饰器模式装饰器模式在现实生活中的例子简直太多了。比如我开了一个奶茶店，卖的是普通的奶茶。现在我想引入一个叫珍珠奶茶的商品，我要怎么做呢？我是不是需要升级一下我的制作奶茶的机器，让它支持珍珠奶茶的做法？但这种成本估计比较高，说不定还没原来做奶茶的机器好用呢！实际上我只需要买一个能做“珍珠”的机器就行！把“珍珠”放进奶茶不就成了珍珠奶茶。原有的做奶茶的机器依然可以稳定地制作做奶

bash教程：一、变量，函数，控制流程

变量的定义和使用变量的定义bash变量定义很简单。如下：a="hello"左边是变量名，右边是变量值。bash是弱类型，因此不需要给a加上类型。注意，等号两边不能有空格比如 a = "hello"，这是错误的。变量使用变量使用需要在定义的变量名之前加上$，比如我们打印之前定义的aecho $a特殊变量后面再说，现在仅仅是最基础的，能够让自己写出一个完整的脚本就行。流程控制流程控制则是编写程序必备的过程，比如顺序，循环，条件，分支等等。在其他类C语言中有if...else,for,while,do...while,switch，那么在bash里面，这些应该怎么写呢。if...else结构a=0

bash教程：一、变量，函数，控制流程

变量的定义和使用

变量的定义

bash变量定义很简单。如下：

a="hello"

左边是变量名，右边是变量值。bash是弱类型，因此不需要给a加上类型。注意，等号两边不能有空格 比如 a = "hello"，这是错误的。

变量使用

变量使用需要在定义的变量名之前加上$，比如我们打印之前定义的a

echo $a

特殊变量后面再说，现在仅仅是最基础的，能够让自己写出一个完整的脚本就行。

（更多…）

你可能还喜欢下面这些文章

C++字符串拼接

在C++中，字符串拼接可以使用多种方法，下面是一些常用的方法：使用运算符C++中的类型支持运算符来进行字符串拼接。使用成员函数类提供了成员函数，它可以用来拼接字符串。使用运算符也支持运算符来进行字符串拼接。使用 C 风格的字符串拼接虽然不推荐使用C风格的字符串拼接（因为它可能会导致缓冲区溢出），但你还是可以在C++中这样做。在这种情况下，你需要确保目标缓冲区有足够的空间来存储拼接后的字符串。在这个例子中，函数被用来拼接两个C风格的字符串。注意，在使用之前，我们检查了是否有足够的空间来存储拼接后的字符串，以防止缓冲区溢出。使用对于更复杂的字符串拼接，特

python教程（一）：变量和数据类型

python的基本数据类型有整型，浮点型，字符串，布尔，列表，元组，字典，集合。它们占用内存和定义方式如下表：类型占用内存如何定义整型(int)动态长度>=24字节a = 1浮点型(float)动态长度>=24字节a = 1.0字符串(string)动态长度，>=37字节，增加一个字符加1字节a = 'str'布尔(boolean)24字节a = True列表(list)动态长度，>=72字节a = []元组(tupe)动态长度，>=56字节a = ()集合(set)动态长度，>=232字节a = set([])占用的内存通过sys.getsizeof()获

Go入门：六、常用标准库

C++实现python字符串的endswith方法

shell 变量的定义

Shell中的条件判断语句if的用法

shell中的if语法是最让我头疼的语法之一，它的判断就向使用USB插头一样——拿起来插入不行，翻转再插入还不行，再翻转插入行了！为了搞清楚这部分语言，我收集了一些文章关于if条件判断的用法，希望对你也有些帮助。一、基本语法语法说明bash shell会按顺序执行if语句，如果command执行后且它的返回状态是0，则会执行符合该条件执行的语句，否则后面的命令不执行，跳到下一条命令。当有多个嵌套时，只有第一个返回0退出状态的命令会导致符合该条件执行的语句部分被执行,如果所有的语句的执行状态都不为0，则执行else中语句。返回状态：最后一个命令的退出状态，或者当没有条件是真的话为0。注意：1、表

Go入门：一、变量和数据类型

这是学习Go语言的第一篇笔记，主要学习的是变量和基本数据类型。如果您也在开始学习Go语言，那么这篇笔记一定能帮助您学习的更快！我的语言学习过程一般分为下面几个：1. 变量和数据类型2. 流程控制方法3. 函数声明和调用4. 面向对象5. 语言特性6. 标准库变量声明Go语言的变量声明有三种第一种，var identifier type// 先声明后赋值var identifier typeidentifier = value// 声明并且赋值var identifier type = value开始实战一下！比如声明一个int类型变量var i inti = 1// 或者var i int =

rapidjson从字符串解析json

在RapidJSON中，要从字符串解析JSON，你可以使用类的方法。下面是一个简单的例子，展示了如何使用RapidJSON从一个JSON字符串中解析数据：在这个例子中，我们首先定义了一个包含JSON数据的字符串。然后，我们创建了一个对象，并使用方法将JSON字符串解析到这个对象中。解析完成后，我们检查是否有解析错误。如果没有错误，我们就可以通过键（例如"name"、"age"、"city"）来访问JSON对象中的各个成员，并使用、等方法来检查成员的类型，并使用、等方法来获取成员的值。最后，我们还展示了如何将解析后的对象转换回JSON字

C++ 判断 char* 是否相等

在C++中，是一个指向字符的指针，通常用于表示C风格的字符串。判断两个指针是否相等，需考虑两个方面：判断指针本身的地址是否相等：可以通过直接使用或操作符来实现。和指向不同的地址（尽管它们的内容相同），而和指向相同的地址。2. 判断指针指向的字符串内容是否相等：需要使用函数，它是C标准库中的一部分，在C++中可用。函数用于比较、和的内容。如果内容相同，返回

mysq常用函数大全

websocket协议详解

近来项目中使用websocket，于是来研究一番。websocket传输协议有两个部分，握手和数据传输

握手

GET / HTTP/1.1
HOST: <IP>:<PORT> 
Sec-Websocket-Version: 13
Sec-Websocket-Key: <KEY>
Connection: keep-alive, Upgrade
Upgrade: websocket

之后服务端会返回类似下面的数据

HTTP/1.1 101 Switching Protocols
Upgrade: websocket
Connection: Upgrade
Sec-WebSocket-Accept: <ACCEPT_KEY>
Sec-WebSocket-Version: 13
Server: swoole-websocket-server

校检连接

这里可以对accept key进行校检，确定服务器确实是websocket服务器，校检算法为

sha1（KEY+‘258EAFA5-E914-47DA-95CA-C5AB0DC85B11’），将得到的一串字符串用16进制表示，之后再进行base64编码。（更多…）

你可能还喜欢下面这些文章

使用sublime+platuml高效画图

记一次进程异常退出的问题排查

linux shell 入门

从程序员的角度来看， Shell本身是一种用C语言编写的程序，从用户的角度来看，Shell是用户与Linux操作系统沟通的桥梁。用户既可以输入命令执行，又可以利用 Shell脚本编程，完成更加复杂的操作。在Linux GUI日益完善的今天，在系统管理等领域，Shell编程仍然起着不可忽视的作用。深入地了解和熟练地掌握Shell编程，是每一个Linux用户的必修功课之一。Linux的Shell种类众多，常见的有：Bourne Shell（/usr/bin/sh或/bin/sh）、Bourne Again Shell（/bin/bash）、C Shell（/usr/bin/csh）、K Shel

JS使用XMLHttpRequest实现ajax请求

mac下面查看端口占用进程情况

在linux下面有netstat可以查看指定端口被哪些进程占用，但是mac下面就不好用了，看不到进程号。mac下面可以使用lsof来查看端口被哪个进程占用，比如查看80端口被占用情况：lsof -i tcp:80lsof是列出打开的文件命令，更多的用法可以参考： https://linuxtools-rst.readthedocs.io/zh_CN/latest/tool/lsof.html原文如下：lsof（list open files）是一个查看当前系统文件的工具。在linux环境下，任何事物都以文件的形式存在，通过文件不仅仅可以访问常规数据，还可以访问网络连接和硬件。如传输控制协议 (

utf8编码原理

C++入门：一、变量和数据类型

这是我的C++学习笔记第一篇，同所有的程序语言学习路径一样，首先学习的是变量和数据类型。我的学习路径如下：1. 变量和数据类型2. 流程控制3. 函数声明和调用4. 面向对象5. 标准库这一章，学习的是变量和数据类型，需要了解的有：了解这些，对于变量基本就够了。Hello world在开始之前，先写一个hello world来熟悉一下程序的主要结构以及如何打印一个变量。iostream提供标准输入输出的头文件，程序以main函数问入口，std为标准库的命名空间，“<<” 为输出操作符，std::cout为标准输出，std::endl为结束符，表示将等待输出的内容从内存传送到标准输出

ftp命令大全详解

vsftpd配置文件详解

vsftpd的配置文件/etc/vsftpd/vsftpd.conf主配置文件/usr/sbin/vsftpdVsftpd的主程序/etc/rc.d/init.d/vsftpd启动脚本/etc/pam.d/vsftpdPAM认证文件（此文件中file=/etc/vsftpd/ftpusers字段，指明阻止访问的用户来自/etc/vsftpd/ftpusers文件中的用户）/etc/vsftpd/ftpusers禁止使用vsftpd的用户列表文件。记录不允许访问FTP服务器的用户名单，管理员可以把一些对系统安全有威胁的用户账号记录在此文件中，以免用户从FTP登录后获得大于上传下载操作的权利，而对

utf8中文截断原理以及php的实现

php截断字符串用的是substr，但是这个是无法截断中文的，原因就是中文是采用多字节编码。这里说一下针对utf8编码的汉字截断原理。UTF-8的编码规则是这样的1）对于单字节的符号，字节的第一位（字节的最高位）设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。下表总结了编码规则，字母x表示可用编码的位。UTF-8编码方式(十六进制) | 十进制|（二进制）—————+—