用php编写守护进程

在此之前,需要知道守护进程这个概念,知道之后,才可以用php来编写守护进程。那么创建守护进程需要有下面这几个步骤。

1.创建子进程,父进程退出

父进程先与子进程退出,子进程则会被1号进程收养,这个子进程就会成为init的子进程

php使用pcntl_fork()来创建子进程。

pcntl_fork()返回一个整型值,在父进程里面返回的是子进程的id,子进程返回的是0,失败则返回-1。这样我们就可以根据这个来分别控制父进程和子进程执行任务。

2.子进程创建会话

这个是重要的一步,在这一步中该子进程会做这些事情:1.让进程摆脱原会话的控制;2.让进程摆脱员进程组的控制;3.让进程摆脱终端的控制。

为什么要这样?这个在守护进程介绍里面有

php这里使用posix_setsid()来在这个子进程中创建会话,使得这个进程成为会话组组长 (更多…)

php的empty,isset,is_null与!

来说说php的empty,isset,is_null 与!,这几个都是if语句中比较常见的判断逻辑。但是有时候用的很纠结,甚至看别人写的程序里面也很纠结。特地梳理梳理,避免踩坑

先来定义一些东西

<?php
$a;
$b=0;
$c=array();
$d='';
$e=null;

empty,用了会上瘾

这是一个用了会上瘾的语言结构! (更多…)

php运算符的优先级

无论在哪个语言,运算符都有优先级,就如四则运算一样。先乘除后加减,但语言的运算可不止四则。代码写的越多,越觉得运算符的优先级重要性(请原谅我是一个野生程序员)。记住运算符的优先级,能让你少些很多括号,也能体现你的水平,别闹笑话了(在有一个加法和一个乘法的式子中,还特地把乘法用括号括起来,这不是闹笑话吗)。更能够让那种无厘头的bug消失!

(更多…)

一个将网页里面的(图片,链接地址)相对路径转化为绝对路径的php实现方法

抓取网页的时候有时候会需要下载里面的图片或者其他附件,但有的网页里面用的是相对路径,这时候就要转化为绝对路径。

 
/**
* url补全,相对url转化为绝对url
* 作用是补全url
*/
function url2abs($srcurl,$baseurl){

  $srcinfo = parse_url($srcurl); 
  //print_r($srcinfo); 
  if(isset($srcinfo['scheme'])) {  
    return $srcurl;  
  }

  $baseinfo = parse_url($baseurl);  
  $url = $baseinfo['scheme'].'://'.$baseinfo['host'];  
  if(substr($srcinfo['path'], 0, 1) == '/') {  
    $path = $srcinfo['path'];  
  }else{  
    $path = dirname($baseinfo['path']).'/'.$srcinfo['path'];  
  }  
  $rst = array();  
  $path_array = explode('/', $path);  
  if(!$path_array[0]) {  
    $rst[] = '';  
  }
  foreach ($path_array AS $key => $dir) {  
    if ($dir == '..') {  
      if (end($rst) == '..') {  
        $rst[] = '..';  
      }elseif(!array_pop($rst)) {  
        $rst[] = '..';  
      }  
    }elseif($dir && $dir != '.') {  
      $rst[] = $dir;  
    }  
   }  
  if(!end($path_array)) {  
    $rst[] = '';  
  }  
  $url .= implode('/', $rst);
  if( !empty($srcinfo['query']) ) $url .= '?'.$srcinfo['query'];
  return str_replace('\\', '/', $url);
}

就这样吧,上代码,完事。代码不是我写的,看起来有点乱,哈哈,不关我事啦

php的file_get_contents()的高级用法

读取文件,读取网页,file_get_contents总是首选。既简单,又高效。

读取网页:

 $content = file_get_contents("http://imhuchao.com")

这里要说的是file_get_contents的一些”高级”的用法,平时大概用不上。

file_get_contents可以用来发送post请求,设定超时时间等等,不弱于curl。

函数说明是这样子的

string file_get_contents ( string $filename [, bool $use_include_path = false [, resource $context [, int $offset = -1 [, int $maxlen ]]]] )

其中第三个参数$context能够让file_get_content发送post请求,控制超时等功能

先看一个简单地例子,下面是一个发送post数据的示例,并且设定超时时间为5s

 //发送的post数据
$data = array("hello"=>"1");
// 创建contentxt流
$opts = array(
 'http'=>array(
 'method'=>"POST",
 'content'=>http_build_query($data),
 'timeout'=>'5'
 )
);

$context = stream_context_create($opts);


$file = file_get_contents('http://www.example.com', false, $context);
?>

http context的参数项

http的context有这么一些参数,根据这些组合能让file_get_contents不弱于curl

method (string)
远程服务器支持的 GET,POST 或其它 HTTP 方法。

默认值是 GET。
header (string)
请求期间发送的额外 header 。在此选项的值将覆盖其他值 (诸如 User-agent:, Host: 和 Authentication:)。
user_agent string
要发送的 header User-Agent: 的值。如果在上面的 header context 选项中没有指定 user-agent,此值将被使用。

默认使用 php.ini 中设置的 user_agent。
content (string)
在 header 后面要发送的额外数据。通常使用POST或PUT请求。
proxy (string)
URI 指定的代理服务器的地址。(e.g. tcp://proxy.example.com:5100).
request_fulluri (boolean)
当设置为 TRUE 时,在构建请求时将使用整个 URI 。(i.e. GET http://www.example.com/path/to/file.html HTTP/1.0)。 虽然这是一个非标准的请求格式,但某些代理服务器需要它。

默认值是 FALSE.
follow_location (integer)
跟随 Location header 的重定向。设置为 0 以禁用。

默认值是 1。
max_redirects (integer)
跟随重定向的最大次数。值为 1 或更少则意味不跟随重定向。

默认值是 20。
protocol_version float
HTTP 协议版本。

默认值是 1.0。

Note:

PHP 5.3.0 以前的版本没有实现分块传输解码。 如果此值设置为 1.1 ,与 1.1 的兼容将是你的责任。
timeout (float)
读取超时时间,单位为秒(s),用 float 指定(e.g. 10.5)。

默认使用 php.ini 中设置的 default_socket_timeout。
ignore_errors (boolean)
即使是故障状态码依然获取内容。

默认值为 FALSE.

附录

file_get_contents的参数

filename
要读取的文件的名称。
use_include_path
Note:

As of PHP 5 the FILE_USE_INCLUDE_PATH can be used to trigger include path search.
context
A valid context resource created with stream_context_create(). 如果你不需要自定义 context,可以用 NULL 来忽略。
offset
The offset where the reading starts on the original stream.

Seeking (offset) is not supported with remote files. Attempting to seek on non-local files may work with small offsets, but this is unpredictable because it works on the buffered stream.
maxlen
Maximum length of data read. The default is to read until end of file is reached. Note that this parameter is applied to the stream processed by the filters.

utf8中文截断原理以及php的实现

php截断字符串用的是substr,但是这个是无法截断中文的,原因就是中文是采用多字节编码。这里说一下针对utf8编码的汉字截断原理。

UTF-8的编码规则是这样的

1)对于单字节的符号,字节的第一位(字节的最高位)设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。

2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

下表总结了编码规则,字母x表示可用编码的位。

UTF-8编码方式(十六进制) | 十进制|(二进制)
—————+———————————————————————
0000 0000-0000 007F |0 – 127      | 0xxxxxxx
0000 0080-0000 07FF |192 – 223  |110xxxxx 10xxxxxx
0000 0800-0000 FFFF |224 – 239  |1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF |240 – 247  |11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

更详细的可以去看看utf8编码原理 (更多…)