胡超博客 – 第 2 页 – 程序员日常

还能这样？把 Python 自动翻译成 C++

一、问题背景

随着深度学习的广泛应用，在搜索引擎/推荐系统/机器视觉等业务系统中，越来越多的深度学习模型部署到线上服务。

机器学习模型在离线训练时，一般要将输入的数据做特征工程预处理，再输入模型在 TensorFlow PyTorch 等框架上做训练。

1.常见的特征工程逻辑

常见的特征工程逻辑有：

分箱/分桶离散化
log/exp 对数/幂等 math numpy 常见数学运算
特征缩放/归一化/截断
交叉特征生成
分词匹配程度计算
字符串分隔匹配判断 tong
缺省值填充等
数据平滑
onehot 编码，hash 编码等

这些特征工程代码，当然一般使用深度学习最主要的语言 python 实现。

二、业务痛点

离线训练完成，模型上线部署后，同样要用 C++ 重新实现这些 python 的特征工程逻辑代码。

我们发现，“用 C++ 重新实现” 这个步骤，给实际业务带来了大量的问题：

繁琐，费时费力，极容易出现 python 和 C++ 代码不一致
不一致会直接影响模型在线上的效果，导致大盘业务指标不如预期，产生各种 bad case
不一致难以发现，无法测试，无法监控，经常要靠用户投诉反馈，甚至大盘数据异常才能发现

1. 业界方案

针对这些问题，我调研了这些业界方案：

《推荐系统中模型训练及使用流程的标准化》
https://www.infoq.cn/article/2E6LCqb1GeqFRAjkkjX3

《自主研发、不断总结经验，美团搜索推荐机器学习平台》
https://cloud.tencent.com/developer/article/1357309

《京东电商推荐系统实践》
https://www.infoq.cn/article/1OkKmb_gEYNR3YqC9RcW

“模型线上线下一致性问题对于模型效果非常重要，我们使用特征日志来实时记录特征，保证特征的一致性。这样离线处理的时候会把实时的用户反馈，和特征日志做一个结合生成训练样本，然后更新到模型训练平台上，平台更新之后在推送到线上，这样整个排序形成了一个闭环。”

总结起来，有几种思路：

在线特征存储起来给离线用
在线 C++ 代码编译成 so 导出给离线用
根据一份配置生成离线和在线代码
提取公共代码，加强代码复用，等软件工程手段，减少不一致

2. 自动翻译方案

(1). 已有方案的缺点

但这些思路都有各种缺点：

所有在线请求的所有特征，这个存储量数据量很大
算法改代码需要等待后台开发，降低了算法同学的工作效率
特征处理代码的复杂度转移到配置文件中，不一定能充分表达，而且配置格式增加学习成本
就这边真实离线特征处理代码来看，大部分代码都无法抽取出公共代码做复用。

(2). 翻译器

回到问题出发点考虑，显而易见，这个问题归根结底就是需要一个 “ python 到 c++ 的翻译器 ” 。

那其实 “翻译器 Transpiler ” ，和编译器解释器类似，也是个古老的热门话题了，比如 WebAssembly, CoffeeScript ，Babel ,
Google Closure Compiler，f2c

于是一番搜索，发现 python 到 C++ 的翻译器也不少，其中 Pythran 是新兴比较热门的开源项目。

于是一番尝试后，借助 pythran，我们实现了：

一条命令全自动把 Python 翻译成等价 C++
严格等价保证改写，彻底消除不一致
完全去掉重新实现这块工作量，后台开发成本降到 0 ，彻底解放生产力
算法同学继续使用纯 python，开发效率无影响，无学习成本
并能推广到其他需要 python 改写成后台 C++ 代码的业务场景，解放生产力

三、pythran 的使用流程

(1) 安装

一条命令安装：

pip3 install pythran

(2). 写 Python 代码

下面这个 python demo，是 pythran 官方 demo

import math
import numpy as np

def zero(n, m):
    return [[0]*n for col in range(m)]

#pythran export matrix_multiply(float list list, float list list)
def matrix_multiply(m0, m1):
    new_matrix = zero(len(m0),len(m1[0]))
    for i in range(len(m0)):
        for j in range(len(m1[0])):
            for k in range(len(m1)):
                new_matrix[i][j] += m0[i][k]*m1[k][j]
    return new_matrix

#pythran export arc_distance(float[], float[], float[], float[])
def arc_distance(theta_1, phi_1, theta_2, phi_2):
    """
    Calculates the pairwise arc distance
    between all points in vector a and b.
    """
    temp = (np.sin((theta_2-theta_1)/2)**2
           + np.cos(theta_1)*np.cos(theta_2) * np.sin((phi_2-phi_1)/2)**2)
    distance_matrix = 2 * np.arctan2(np.sqrt(temp), np.sqrt(1-temp))
    return distance_matrix


#pythran export dprod(int list, int list)
def dprod(l0,l1):
    """WoW, generator expression, zip and sum."""
    return sum(x * y for x, y in zip(l0, l1))


#pythran export get_age(int )
def get_age(age):
    if age <= 20:
        age_x = '0_20'
    elif age <= 25:
        age_x = '21_25'
    elif age <= 30:
        age_x = '26_30'
    elif age <= 35:
        age_x = '31_35'
    elif age <= 40:
        age_x = '36_40'
    elif age <= 45:
        age_x = '41_45'
    elif age <= 50:
        age_x = '46_50'
    else:
        age_x = '50+'
    return age_x

(3). Python 转成 C++

一条命令完成翻译

pythran -e demo.py -o  demo.hpp

(4). 写 C++ 代码调用

pythran/pythonic/ 目录下是 python 标准库的 C++ 等价实现，翻译出来的 C++ 代码需要 include 这些头文件

写个 C++ 代码调用

#include "demo.hpp"
#include "pythonic/numpy/random/rand.hpp"
#include <iostream>

using std::cout;
using std::endl;

int main() {
  pythonic::types::list<pythonic::types::list<double>> m0 = {{2.0, 3.0},
                                                             {4.0, 5.0}},
                                                       m1 = {{1.0, 2.0},
                                                             {3.0, 4.0}};
  cout << m0 << "*" << m1 << "n=n"
       << __pythran_demo::matrix_multiply()(m0, m1) << endl
       << endl;

  auto theta_1 = pythonic::numpy::random::rand(3),
       phi_1 = pythonic::numpy::random::rand(3),
       theta_2 = pythonic::numpy::random::rand(3),
       phi_2 = pythonic::numpy::random::rand(3);
  cout << "arc_distance " << theta_1 << "," << phi_1 << "," << theta_2 << ","
       << phi_2 << "n=n"
       << __pythran_demo::arc_distance()(theta_1, phi_1, theta_2, phi_2) << endl
       << endl;

  pythonic::types::list<int> l0 = {2, 3}, l1 = {4, 5};
  cout << "dprod " << l0 << "," << l1 << "n=n"
       << __pythran_demo::dprod()(l0, l1) << endl
       << endl;

  cout << "get_age 30 = " << __pythran_demo::get_age()(30) << endl << endl;

  return 0;
}

(5) 编译运行

g++ -g -std=c++11 main.cpp -fopenmp -march=native -DUSE_XSIMD -I /usr/local/lib/python3.6/site-packages/pythran/ -o pythran_demo

./pythran_demo

四、pythran 的功能与特性

(1) 介绍

按官方定义，Pythran 是一个 AOT (Ahead-Of-Time - 预先编译) 编译器。给科学计算的 python 加注解后，pythran 可以把 python 代码变成接口相同的原生 python 模块，大幅度提升性能。

并且 pythran 也可以利用 OpenMP 多核和 SIMD 指令集。

支持 python 3 和 Python 2.7 。

pythran 的 manual 挺详细：
https://pythran.readthedocs.io/en/latest/MANUAL.html

(2). 功能

pythran 并不支持完整的 python，只支持 python 语言特性的一个子集:

polymorphic functions 多态函数(翻译成 C++ 的泛型模板函数)
lambda
list comprehension 列表推导式
map, reduce 等函数
dictionary, set, list 等数据结构
exceptions 异常
file handling 文件处理
部分 numpy

不支持的功能：

classes 类
polymorphic variables 可变类型变量

(3). 支持的数据类型和函数

pythran export 可以导出函数和全局变量。
支持导出的数据类型，BNF 定义是：

    argument_type = basic_type
                  | (argument_type+)    # this is a tuple
                  | argument_type list    # this is a list
                  | argument_type set    # this is a set
                  | argument_type []+    # this is a ndarray, C-style
                  | argument_type [::]+    # this is a strided ndarray
                  | argument_type [:,...,:]+ # this is a ndarray, Cython style
                  | argument_type [:,...,3]+ # this is a ndarray, some dimension fixed
                  | argument_type:argument_type dict    # this is a dictionary

    basic_type = bool | byte | int | float | str | None | slice
               | uint8 | uint16 | uint32 | uint64 | uintp
               | int8 | int16 | int32 | int64 | intp
               | float32 | float64 | float128
               | complex64 | complex128 | complex256

可以看到基础类型相当全面，支持各种整数，浮点数，字符串，复数

复合类型支持 tuple, list, set, dict, numpy.ndarray 等，

对应 C++ 代码的类型实现在 pythran/pythonic/include/types/ 下面，可以看到比如 dict 实际就是封装了一下 std::unordered_map
https://pythran.readthedocs.io/en/latest/SUPPORT.html
可以看到支持的 python 基础库，其中常用于机器学习的 numpy 支持算比较完善。

五、pythran 的基本原理

和常见的编译器/解释器类似， pythran 的架构是分成 3 层：

python 代码解析成抽象语法树 AST 。用 python 标准库自带的的 ast 模块实现
代码优化。
在 AST 上做优化，有多种 transformation pass，比如 deadcode_elimination 死代码消除，loop_full_unrolling 循环展开等。还有 Function/Module/Node 级别的 Analysis，用来遍历 AST 供 transformation 利用。
后端，实现代码生成。目前有 2 个后端，Cxx / Python， Cxx 后端可以把 AST 转成 C++ 代码（ Python 后端用来调试）。

目前看起来，pythran 还欠缺的：

字符串处理能力欠缺，缺少 str.encode()/str.decode() 对 utf8 的支持
缺少正则表达式 regex 支持

看文档要自己加也不麻烦，看业务需要可以加。

文章来源：腾讯技术工程

你可能还喜欢下面这些文章

代码语法高亮插件整理

语法高亮是文本编辑器用来显示文本的，特别是源代码，根据不同的类别来用不同的颜色和字体显示。这个功能有助于编写结构化的语言，比如编程语言，标记语言，这些语言的语法错误显示是有区别的。语法高亮并不会影响文本自身的意义，而且能很好的符合人们的阅读习惯。语法高亮同时也能帮助开发者很快的找到他们程序中的错误。例如，大部分编辑器会用不同的颜色突出字符串常量。所以，非常容易发现是否遗漏了分隔符，因为相对于其他文本颜色不同。现在有各种各样的语法高亮工具，可以格式化语言，并且根据不同的编程语言进行高亮显示。无论是个 HTML 页面还是 PHP，Ruby，Python 或者是 ASP。这篇文章中，我们会介绍 1

中文分词词性对照表

汉语词性对照表词性编码词性名称注解Ag形语素形容词性语素。形容词代码为 a，语素代码ｇ前面置以A。a形容词取英语形容词 adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起。an名形词具有名词功能的形容词。形容词代码 a和名词代码n并在一起。b区别词取汉字“别”的声母。c连词取英语连词 conjunction的第1个字母。dg副语素副词性语素。副词代码为 d，语素代码ｇ前面置以D。d副词取 adverb的第2个字母，因其第1个字母已用于形容词。e叹词取英语叹词 exclamation的第1个字母。f方位词取汉字“方”g语素绝大多数语素都能作为合成词

如何选择特征

特征工程是数据分析中最耗时间和精力的一部分工作，它不像算法和模型那样是确定的步骤，更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。1. 特征的来源在做数据分析的时候，特征的来源一般有两块，一块是业务已经整理好各种特征数据，我们需要去找出适合我们问题需要的特征；另一块是我们从业务特征中自己去寻找高级数据特征。我们就针对这两部分来分别讨论。2. 选择合适的特征我们首先看当业务已经整理好各种特征数据时，我们如何去找出适合我们问题需要的特征，此时特征数可能成百上千，哪些才是我们需要的呢？第一

C++ any容器的介绍与简易实现

一、any容器是什么？1、any“不是”模板类，any是一种很特殊的容器。2、any只能容纳一个元素，但这个元素可以是任意的类型，可以是基本数据类型（int、double、string、标准容器或者任何自定义类型）。3、一种动态（类型检查只发生在运行时）语言特性的数据结构。4、C++17引入，需要RIIT支持，VS默认是没有支持C++17的，需要自己修改设置，如果不能使用any，请修改标准。二、any类摘要C++typeid关键字详解:三、any类用法注意：any的析构函数删除内部holder对象。如果类型是指针，any并不会对指针执行delete操作，所有any保存原始指针对造成内存泄漏。完

C++中zlib的crc32和python zlib.crc32结果不一致的解决方案

背景python和c++的代码中均有使用crc32分流的操作，需要保证分流得到的结果一致，那么两个crc32的方法得到的结果需要一致才行。然而实际测试中发现python2中zlib.crc32和c++的zlib中crc32得到的结果却不一致。问题复现python版crc32结果为 -102031187。如下：C++ 版zlib crc32运行结果为：4192936109python版得出的结果是-102031187，而C++版本得出的结果是4192936109。资料查找首先从百度上查看有没有人和我遇到同样的问题，结果发现有。但是回答的结果乱七八糟，没什么参考价值。于是找了找python的文档，

创建自己的composer包之怎样制作composer包

项目做多了之后，可能会慢慢总结出自己的代码库出来，当在新的项目中使用的时候，总不能一直是复制粘贴。这个时候，composer就能派上用场了。一个项目开始，使用composer就能够加载所需要的依赖，非常方便。这个时候，来做一个自己的包吧！使用命名空间composer自动加载需要用到命名空间，因此所有的代码库都需要使用命名空间，如果没有，那就改吧！使用命名空间之后你可能会打开新世界的大门。创建composer.json我假设你已经安装了composer，并且已经会使用了。创建自己的包我们首先需要创建一个composer.json，示例文件如下上面的composer.json有一个比较重要的是au

c语言中的define用法

作为代码中，第一个看到的，极有可能就是define这个东西，称为宏！（define是可以出现在任何地方的，但是我们一般把这个写到最开始）然而，很多时候，初学者有时候可能看不懂她，因此，我的c语言学习的第一篇就写这个啦。define基本用法，简单定义最浅显的，define能用一个有含义的字符来替代一些数字，比如#define PI 3.141592654这样，假如以后要计算圆的周长或者面积，就可以用PI这个字符而不用写3.141592654啦。比如#define PI 3.141592654#include "stdio.h"int main(){ int r = 3; float

一个将网页里面的(图片，链接地址)相对路径转化为绝对路径的php实现方法

抓取网页的时候有时候会需要下载里面的图片或者其他附件，但有的网页里面用的是相对路径，这时候就要转化为绝对路径。 /*** url补全，相对url转化为绝对url* 作用是补全url*/function url2abs($srcurl,$baseurl){ $srcinfo = parse_url($srcurl); //print_r($srcinfo); if(isset($srcinfo)) { return $srcurl; } $baseinfo = parse_url($baseurl); $url = $baseinfo.'://'.$basein

不给以后的你找麻烦，编写单元测试吧

原本我想要写造福后人，请为你的程序编写单元测试吧。突然觉得这样写会不会太高尚了一些，想想还是不给以后的自己找麻烦，编写单元测试比较好。一直都在隐式的做着单元测试你可能没有听过单元测试，或者听过，但没有使用单元测试框架来做单元测试，又或者对单元测试框架不屑一顾等等...（等等，这不是在说我自己嘛）好了，在你没有使用单元测试框架之前，其实你一直在不知不觉中使用单元测试。比如，当你写完了一个方法的时候，你会在下面调用这个方法，然后看看运行的结果，哦，对了，要的就是这个结果。这就是一个单元测试啊！你对这个方法做了一个测试，传n个参数进入，输出一个结果，结果与预期一致，通过；结果与预期不一致，失败，de

php的empty,isset，is_null与！

来说说php的empty，isset，is_null 与!，这几个都是if语句中比较常见的判断逻辑。但是有时候用的很纠结，甚至看别人写的程序里面也很纠结。特地梳理梳理，避免踩坑先来定义一些东西<?php$a;$b=0;$c=array();$d='';$e=null;empty，用了会上瘾这是一个用了会上瘾的语言结构！多好，empty可接受的参数是一个变量，任意类型，哪怕是变量不存在，只要变量被boolean转换之后是false（参考：php的boolean都有哪些），那么empty返回的就是false，并且不会出现警告！等价于不过注意的是，empty里面不能使用表达式（在php<

词向量模型word2vec详解

“万事万物都有一个模式，它是我们宇宙的一部分。它具有对称、简洁和优雅——这些品质你总能在真正的艺术家的作品中找到。你可以在季节的更替中、在沿着山脊的沙迹中、在杂酚油灌木的树枝丛中或其叶子的图案中找到它。

我们试图在我们的生活和社会中复制这些模式，寻找令人舒适的节奏、舞蹈和形式。然而，在寻找终极完美的过程中也可能会遇到危险。显然，最终的模式有其自身的固定性。在如此完美的情况下，一切事物都走向死亡。” ~ 沙丘 (1965)

我发现Embedding（中文翻译为嵌入，但不好理解，因此后续直接使用原术语Emdedding表示）的概念是机器学习中最迷人的想法之一。如果您曾经使用过 Siri、Google Assistant、Alexa、Google Translate，甚至具有下一个单词预测功能的智能手机键盘，那么您应该能从这个已成为自然语言处理模型核心的想法中受益。

经过几十年发展，神经网络模型中的Embedding已经十分成熟（最近的发展的语境Emdedding，从而催生了BERT和 GPT等尖端模型）。

Word2vec是一种生成 Embedding 的方法，发布于2013 年。但除了作为生成embedding的方法之外，它的一些概念已经被证明可以有效地创建推荐引擎和理解时序数据。在商业、非语言任务中，像Airbnb、阿里巴巴、Spotify这样的公司都从NLP领域中提取灵感并用于产品中，从而为新型推荐引擎提供支持。

（更多…）

你可能还喜欢下面这些文章

2020年11月19日股市涨跌预测

上一篇预测股市涨跌的翻车了！毕竟概率在这儿，70%-80%的的概率毕竟不能保证一定是正确的。今天沪深300指数上午上涨，下午开始下跌，最终收跌-0.06%，感觉还好！今天晚上用之前训练好的模型去预测，结果看起来还比较乐观，如图：虽然模型也没能给出明确的涨还是跌，但看起来涨的概率还是比跌的概率稍微大一点点。此外，从我个人的主观感觉来看，明天沪深300上涨的概率也比较大，毕竟前值是下跌的趋势，而最近几天基本跌不下去了。模型说明简单说一下模型里面的数字都是什么意思吧。这些模型是根据过去2年的沪深300的波动特征训练得到的模型，上面的精准度代表预测正确的次数/总次数，比如model_6，精准度为0.7

c++ vector取最后一个元素

在C++中，你可以使用的成员函数来获取最后一个元素。这个函数返回对向量中最后一个元素的引用。以下是一个简单的示例：在这个例子中，我们创建了一个包含五个整数的。然后，我们使用函数获取最后一个元素，并将其存储在变量中。最后，我们打印出这个元素。请注意，如果向量是空的（即，不包含任何元素），调用函数将导致未定义行为。因此，在调用之前，最好先检查向量是否为空，这可以通过调用成员函数来完成。

如何选择特征

linux shell 入门

从程序员的角度来看， Shell本身是一种用C语言编写的程序，从用户的角度来看，Shell是用户与Linux操作系统沟通的桥梁。用户既可以输入命令执行，又可以利用 Shell脚本编程，完成更加复杂的操作。在Linux GUI日益完善的今天，在系统管理等领域，Shell编程仍然起着不可忽视的作用。深入地了解和熟练地掌握Shell编程，是每一个Linux用户的必修功课之一。Linux的Shell种类众多，常见的有：Bourne Shell（/usr/bin/sh或/bin/sh）、Bourne Again Shell（/bin/bash）、C Shell（/usr/bin/csh）、K Shel

计算机语言学习指南

这篇文章讨论基于语言的基本要素，如何快速入门一种计算机语言。是一篇语言从学习到使用的指导手册，并且这种学习方式是一个系统的学习，相比于碎片化的学习，这种学习更加不容易遗忘。语言的基本成分语言的基本成分为数据、运算、控制、传输。想想你学过的语言，是不是都是这样。归结语言的组成成分，学习一门语言可以从这四个方面下手，这四个方面掌握之后，对这个语言就有个最基本的了解了。语言基本成分：数据数据是程序操作的对象。实际上我们可以思考，一个数据拥有的属性有哪些，根据我们已经掌握的语言来说（比如PHP）。$a = 1$a是数据，那么这个数据有哪些属性呢？名称(a)，类型(int)。从这一行代码只能发现这两个属

gcc/g++编译参数详解

编译步骤gcc 与 g++ 分别是 gnu 的 c & c++ 编译器。gcc/g++ 在执行编译工作的时候，总共需要4步：预处理,生成 .i 的文件将预处理后的文件转换成汇编语言, 生成文件 .s 有汇编变为目标代码(机器代码)生成 .o 的文件连接目标代码, 生成可执行程序参数详解-x language filename参数含义为指定文件所使用的语言。根据约定，C语言的后缀名称为".c"，而 C++ 的后缀名为".cpp"或".cc"，但如果你的源代码后缀不约定的那几种，那么需要使用-x参数来指定文件所使用的语言。这个参数对他后面的文件名都起作用。可以使用的参数吗有下面的这些：

websocket协议详解

近来项目中使用websocket，于是来研究一番。websocket传输协议有两个部分，握手和数据传输握手GET / HTTP/1.1HOST: <IP>:<PORT> Sec-Websocket-Version: 13Sec-Websocket-Key: <KEY>Connection: keep-alive, UpgradeUpgrade: websocket之后服务端会返回类似下面的数据HTTP/1.1 101 Switching ProtocolsUpgrade: websocketConnection: UpgradeSec-WebSocket-A

使用sublime+platuml高效画图

程序员难免要经常画流程图，状态图，时序图等。以前经常用 visio 画，经常为矩形画多大，摆放在哪等问题费脑筋。有时候修改文字后，为了较好的显示效果不得不再去修改图形。今天介绍的工具是如何使用 Sublime + PlantUML 的插件画流程图，状态图，时序图等。这是一种程序员看了就会爱上的画图方式：自然，高效。什么是 PlantUMLPlantUML 是一个画图脚本语言，用它可以快速地画出：时序图流程图用例图状态图组件图简单地讲，我们使用 visio 画图时需要一个一个图去画，但使用 PlantUML 只需要用文字表达出图的内容，然后就可以直接生成图片。看一个最简单的例子：软件安装这些软件

php print 这个坑，遇到连接符从右往左执行

在使用php的时候，我很少用到print这个函数，哦，不对，这是一个语言结构，而并非日函数！看一段代码

JS使用XMLHttpRequest实现ajax请求

是一个JavaScript对象，它最初由微软设计，随后被 Mozilla、Apple和Google采纳。如今，该对象已经被 W3C组织标准化。通过它，你可以很容易的取回一个URL上的资源数据。尽管名字里有XML，但可以取回所有类型的数据资源，并不局限于XML。而且除了HTTP ，它还支持和协议。创建一个实例, 可以使用如下语句:方法概述非标准方法属性AttributeTypeDescription一个JavaScript函数对象，当readyState属性改变时会调用它。回调函数会在user interface线程中调用。警告: 不能在本地代码中使用. 也不应该在同步模式的请求中

C++ 判断 char* 是否相等

在C++中，char* 是一个指向字符的指针，通常用于表示C风格的字符串。判断两个 char* 指针是否相等，需考虑两个方面：

判断指针本身的地址是否相等：可以通过直接使用 == 或 != 操作符来实现。

char* str1 = "hello";
char* str2 = "hello";
char* str3 = str1;
 
if (str1 == str2) {
    std::cout << "str1 and str2 point to the same address." << std::endl;
} else {
    std::cout << "str1 and str2 point to different addresses." << std::endl;
}
 
if (str1 == str3) {
    std::cout << "str1 and str3 point to the same address." << std::endl;
} else {
    std::cout << "str1 and str3 point to different addresses." << std::endl;
}

str1 和 str2 指向不同的地址（尽管它们的内容相同），而 str1 和 str3 指向相同的地址。

2. 判断指针指向的字符串内容是否相等：需要使用 strcmp() 函数，它是C标准库中的一部分，在C++中可用。

#include <cstring>
 
char* str1 = "hello";
char* str4 = "hello";
char* str5 = "world";
 
if (strcmp(str1, str4) == 0) {
    std::cout << "str1 and str4 have the same content." << std::endl;
} else {
    std::cout << "str1 and str4 have different content." << std::endl;
}
 
if (strcmp(str1, str5) == 0) {
    std::cout << "str1 and str5 have the same content." << std::endl;
} else {
    std::cout << "str1 and str5 have different content." << std::endl;
}

strcmp() 函数用于比较 str1、str4 和 str5 的内容。如果内容相同，strcmp() 返回0。注意，当你比较C风格字符串的内容时，应该使用 strcmp() 而不是直接使用 == 操作符，因为后者只会比较指针地址而不是字符串内容。

你可能还喜欢下面这些文章

C++动态内存管理

C++中，动态内存管理是通过一对运算符来完成：new 和 delete。new操作符在内存中为对象分配空间并返回一个指向该对象的指针，delete接收一个动态对象的指针，销毁该对象，并释放与之相关的内存。手动管理内存看起来只有这两个操作，似乎很轻松，但实际上这是一件非常繁琐的事情，分配了内存但没有释放内存的场景发生的概率太大了！回想一下，你有多少次打开抽屉却没关上，拿出来的护肤品擦完脸之后却忘了放回去，吃完饭却忘了洗碗。类似这种没有收尾的事情我做的太多了。（以上这些都是在实际生活中我爱人批评我的点）我连这种明面上的事情都能忘记收尾，何况分配内存！所以为了世界和平，我放弃了手动管理内存。好在C+

C++入门：三、函数

这是我学习C++的第三篇笔记，函数。我的学习路径是现在学习的是函数的声明、定义、调用等相关知识。函数声明和定义函数的声明包含返回类型，函数名字，0个或者多个形参，无函数体，通常在头文件中对函数进行声明。函数的定义包含返回类型，函数名字，0个或多个形参，以及函数体。比如写一个求阶乘的函数，可以写成下面这样写一些简单的函数大多数语言都差不多，不过可惜每种语言或多或少都有自己的特色，这是比较令人头秃的地方。函数的参数函数可以带有0或多个参数，每个参数都需要声明类型。参数传递可以传值和传引用。如果形参是引用类型，那么它将绑定到对应的实参中，我们成为传引用。否则，将会把实参的值拷贝后赋值给形参，我们成为

C++字符串拼接

在C++中，字符串拼接可以使用多种方法，下面是一些常用的方法：使用运算符C++中的类型支持运算符来进行字符串拼接。使用成员函数类提供了成员函数，它可以用来拼接字符串。使用运算符也支持运算符来进行字符串拼接。使用 C 风格的字符串拼接虽然不推荐使用C风格的字符串拼接（因为它可能会导致缓冲区溢出），但你还是可以在C++中这样做。在这种情况下，你需要确保目标缓冲区有足够的空间来存储拼接后的字符串。在这个例子中，函数被用来拼接两个C风格的字符串。注意，在使用之前，我们检查了是否有足够的空间来存储拼接后的字符串，以防止缓冲区溢出。使用对于更复杂的字符串拼接，特

C++入门：一、变量和数据类型

这是我的C++学习笔记第一篇，同所有的程序语言学习路径一样，首先学习的是变量和数据类型。我的学习路径如下：1. 变量和数据类型2. 流程控制3. 函数声明和调用4. 面向对象5. 标准库这一章，学习的是变量和数据类型，需要了解的有：了解这些，对于变量基本就够了。Hello world在开始之前，先写一个hello world来熟悉一下程序的主要结构以及如何打印一个变量。iostream提供标准输入输出的头文件，程序以main函数问入口，std为标准库的命名空间，“<<” 为输出操作符，std::cout为标准输出，std::endl为结束符，表示将等待输出的内容从内存传送到标准输出

Go入门：三、函数的声明和调用

这是我Go学习笔记的第三篇！接下来学习的是Go的函数声明和调用。我的语言学习过程一般分为下面几个：1. 变量和数据类型2. 流程控制方法3. 函数声明和调用4. 面向对象5. 语言特性6. 标准库函数声明func 函数名称(参数表) 返回值类型 { // 函数体}写一个函数是非常简单的，掌握语法格式就可以了。函数是一个功能的封装，能让函数体内的代码得到很好的复用。比如我要输出个人信息，我可以把个人信息封装到函数里面，后续直接调用这个函数而不是每次都print一堆信息了上面定义的函数没有参数，也没有返回值，非常简单的一个函数。如果我想让姓名可变，那么可以定义一个带有参数的函数接下来定义一个有

Go语言的 make 和 new

new 和 make 是两个内置函数，主要用来创建并分配类型的内存。在我们定义变量的时候，可能会觉得有点迷惑，不知道应该使用哪个函数来声明变量，其实他们的规则很简单，new 只分配内存，make 只能用于 slice、map 和 channel 的初始化。下面我们就来具体介绍一下new在Go语言中，new 函数描述如下：从上面的代码可以看出，new 函数只接受一个参数，这个参数是一个类型，并且返回一个指向该类型内存地址的指针。同时 new 函数会把分配的内存置为零，也就是类型的零值。【示例】使用 new 函数为变量分配内存空间。当然，new 函数不仅仅能够为系统默认的数据类型，分配空间，自定义

C++实现python字符串的endswith方法

可以使用的或方法配合比较运算符来模拟方法的功能。下面是一个示例函数，它检查一个字符串是否以另一个字符串结束：在这个示例中，函数接受两个参数：和。函数首先检查的长度是否大于或等于的长度。如果不是，那么显然不能以结束，函数返回。否则，函数使用方法从的末尾提取与长度相同的子字符串，并将其与进行比较。如果它们相等，那么以结束，函数返回。否则，函数返回。请注意，这个函数是区分大小写的。如果你想要一个不区分大小写的版本，你可以在比较之前使用和函数将和转换为小写。在这个版本中，函数首先使用和函数将和转换为小写。然后，它调用函数来检查转换后的字符串是否以结束。

mysq常用函数大全

很少用到，但是有时候又必须用到，这里收集一下mysql的常用函数一、数学函数ABS(x) 返回x的绝对值BIN(x) 返回x的二进制（OCT返回八进制，HEX返回十六进制）CEILING(x) 返回大于x的最小整数值EXP(x) 返回值e（自然对数的底）的x次方FLOOR(x) 返回小于x的最大整数值GREATEST(x1,x2,...,xn)返回集合中最大的值LEAST(x1,x2,...,xn) 返回集合中最小的值LN(x) 返回x的自然对数LOG(x,y)返回x的以y为底的对数MOD(x,y)

Shell中的条件判断语句if的用法

shell中的if语法是最让我头疼的语法之一，它的判断就向使用USB插头一样——拿起来插入不行，翻转再插入还不行，再翻转插入行了！为了搞清楚这部分语言，我收集了一些文章关于if条件判断的用法，希望对你也有些帮助。一、基本语法语法说明bash shell会按顺序执行if语句，如果command执行后且它的返回状态是0，则会执行符合该条件执行的语句，否则后面的命令不执行，跳到下一条命令。当有多个嵌套时，只有第一个返回0退出状态的命令会导致符合该条件执行的语句部分被执行,如果所有的语句的执行状态都不为0，则执行else中语句。返回状态：最后一个命令的退出状态，或者当没有条件是真的话为0。注意：1、表

bash教程：一、变量，函数，控制流程

变量的定义和使用变量的定义bash变量定义很简单。如下：a="hello"左边是变量名，右边是变量值。bash是弱类型，因此不需要给a加上类型。注意，等号两边不能有空格比如 a = "hello"，这是错误的。变量使用变量使用需要在定义的变量名之前加上$，比如我们打印之前定义的aecho $a特殊变量后面再说，现在仅仅是最基础的，能够让自己写出一个完整的脚本就行。流程控制流程控制则是编写程序必备的过程，比如顺序，循环，条件，分支等等。在其他类C语言中有if...else,for,while,do...while,switch，那么在bash里面，这些应该怎么写呢。if...else结构a=0

解决Mac ReportCrash进程占用大量CPU的问题

今天电脑风扇一直呼呼转，发烫利害。于是看看到底哪个进程占用了大量cpu，top查看发现ReportCrash占用了大量CPU，直接kill之后还是会拉起。

于是从网上查看如何关闭这个进程，方法如下：

打开终端，执行下面命令

launchctl unload -w /System/Library/LaunchAgents/com.apple.ReportCrash.plist
sudo launchctl unload -w /System/Library/LaunchDaemons/com.apple.ReportCrash.Root.plist

如果后续要打开，可以在终端执行如下命令：

launchctl load -w /System/Library/LaunchAgents/com.apple.ReportCrash.plist
sudo launchctl load -w /System/Library/LaunchDaemons/com.apple.ReportCrash.Root.plist

你可能还喜欢下面这些文章

守护进程介绍

1．守护进程概述守护进程，也就是通常所说的daemon进程，是Linux中的后台服务进程。它是一个生存期较长的进程，通常独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程常常在系统引导载入时启动，在系统关闭时终止。Linux有很多系统服务，大多数服务都是通过守护进程实现的。同时，守护进程还能完成许多系统任务，例如，作业规划进程crond、打印进程lqd等（这里的结尾字母d就是daemon的意思）。由于在Linux中，每一个系统与用户进行交流的界面称为终端，每一个从此终端开始运行的进程都会依附于这个终端，这个终端称为这些进程的控制终端，当控制终端被关闭时，相应的进程都

php多进程编程：第一次fork

工作原因，要用到php多进程，于是粗略的了解一下，完成之后把过程记录下来，整理成教程，希望对学习php多进程编程的程序员有所帮助。前言使用php cli的时候，我们在终端会这样运行一个hello.php程序，这样linux会为我们创建一个进程。不考虑 nohup ，在一个终端，我们以cli方式运行的php程序也只能有这一个进程。一个进程处理的任务必定是有限的，在系统资源空闲那么多的情况下，为什么不使用多进程来提高效率呢？不过php多进程需要安装pcntl和posix扩展（windows不支持）fork，创建子进程创建子进程的方法就是fork，在php里面，这个函数是pcntl_fork()pc

用php编写守护进程

在此之前，需要知道守护进程这个概念，知道之后，才可以用php来编写守护进程。那么创建守护进程需要有下面这几个步骤。1.创建子进程，父进程退出父进程先与子进程退出，子进程则会被1号进程收养，这个子进程就会成为init的子进程php使用pcntl_fork()来创建子进程。pcntl_fork()返回一个整型值，在父进程里面返回的是子进程的id，子进程返回的是0，失败则返回-1。这样我们就可以根据这个来分别控制父进程和子进程执行任务。2.子进程创建会话这个是重要的一步，在这一步中该子进程会做这些事情：1.让进程摆脱原会话的控制；2.让进程摆脱员进程组的控制；3.让进程摆脱终端的控制。为什么要这样？

Linux信号列表

我们运行如下命令，可看到Linux支持的信号列表：列表中，编号为1 ~ 31的信号为传统UNIX支持的信号，是不可靠信号(非实时的)，编号为32 ~ 63的信号是后来扩充的，称做可靠信号(实时信号)。不可靠信号和可靠信号的区别在于前者不支持排队，可能会造成信号丢失，而后者不会。下面我们对编号小于SIGRTMIN的信号进行讨论。1) SIGHUP本信号在用户终端连接(正常或非正常)结束时发出, 通常是在终端的控制进程结束时, 通知同一session内的各个作业, 这时它们与控制终端不再关联。登录linux时，系统会分配给登录用户一个终端(Session)。在这个终端运行的所有程序，包括前台进程组

MySQL时间字段类型的选择

建表的时候对时间的字段类型选择有些疑惑，于是找出高性能MySQL这本书来看看，书中已经给了我们很好的建议，因此记录下来。保存时间通常有这几种类型可以选择： datetime timestamp int date首先看看datetime，datetime这个类型可以保存从1001年到9999年的数据，内部是将日期和时间封装在YYYYMMDDHHMMSS的整数中，与时区无关，占用8个字节。timestamp，timestamp只能保存1970年到2038年，占用4个字节，和int所占用的字节是一样的。int，int占用的同样是4个字节，和timestamp一样，但是timestamp拥有一

GDB入门：使用bt查看程序出core的调用栈

当程序崩溃的时候，会产生一个core文件。我们可以称它为进程死亡现场。排查进程死亡就和破案一样，找到案发现场，仔细排查每个细节，抽丝剥茧，最终定位原因。很幸运我们有一个强大的工具调查现场信息。这个工具就是GDB。下面我们就来看看如何用GDB排查问题。首先以一个越界访问数组的程序为例，如下：#include #include void core() { std::vector<int> a; std::cout << a;}int main() { core(); return 0;}执行上面的代码将会产生一个core文件。假设我们的core文件为

linux命令:cd命令，改变当前的工作目录

原标题 : 每天一个linux命令(2)：cd命令Linux cd 命令可以说是Linux中最基本的命令语句，其他的命令语句要进行操作，都是建立在使用 cd 命令上的。所以，学习Linux 常用命令，首先就要学好 cd 命令的使用方法技巧。命令格式cd 命令功能切换当前目录至dirName常用范例例一：进入系统根目录命令cd /输出# cd /说明：进入系统根目录,上面命令执行完后拿ls命令看一下，当前目录已经到系统根目录了命令cd .. 或者 cd .. //输出:# pwd/opt/soft# cd ..# cd ..//# pwd/说明：进入系统根目录可以使用“ cd .. ”一直退，就

linux命令桌面壁纸

linux命令桌面壁纸作为桌面，再也不怕记不住linux命令了

让sublime支持php，python等脚本的执行

sublime有自己的Build系统，默认的快捷键是ctrl+b。只需要定制对应语言的执行命令，就可以支持各个语言的编译，执行了。这里对几种主流的脚本语言执行做一些教程。打开Tools->Build System -> New Build System ...插入对应的json格式的配置即可php保存为php.sublime-build，这下执行php不用老是跑去刷网页了，也不用老是开cmd窗口了。python保存为python.sublime-build不过貌似里面自带了python的，不过如果你看到有build system里面有python的话，那么就可以不用加了。这些执行

mac下面查看端口占用进程情况

在linux下面有netstat可以查看指定端口被哪些进程占用，但是mac下面就不好用了，看不到进程号。mac下面可以使用lsof来查看端口被哪个进程占用，比如查看80端口被占用情况：lsof -i tcp:80lsof是列出打开的文件命令，更多的用法可以参考： https://linuxtools-rst.readthedocs.io/zh_CN/latest/tool/lsof.html原文如下：lsof（list open files）是一个查看当前系统文件的工具。在linux环境下，任何事物都以文件的形式存在，通过文件不仅仅可以访问常规数据，还可以访问网络连接和硬件。如传输控制协议 (

C++ any容器的介绍与简易实现

一、any容器是什么？

1、any“不是”模板类，any是一种很特殊的容器。
2、any只能容纳一个元素，但这个元素可以是任意的类型，可以是基本数据类型（int、double、string、标准容器或者任何自定义类型）。
3、一种动态（类型检查只发生在运行时）语言特性的数据结构。
4、C++17引入，需要RIIT支持，VS默认是没有支持C++17的，需要自己修改设置，如果不能使用any，请修改标准。

二、any类摘要

class any
{
public:
	any(); //默认构造
	any(const any& _That); //拷贝构造
	template<class _ValueType>
		any(_ValueType&& _Value);
	~any();	//析构
	any& operator=(const any& _That); //拷贝复制
	void reset();//清空内容
	void swap(any& _That); //交换语义
	bool has_value() const; //是否持有值
	const type_info& type() const; //获取类型信息
	template<class _Decayed>
	_Decayed * _Cast(); //若*this包含_decay类型的值，返回一个指向它的指针
};

//辅助函数
void swap(any& _Left, any& _Right); //交换语义
template<class _ValueType,class... _Types>
inline any make_any(_Types&&... _Args);	//工厂函数
template<class _Ty>
_Ty any_cast(const any& _Any);	//访问元素，运行时类型检查，不一致则抛出bad_any_cast异常。并且含有多个重载版本。

C++typeid关键字详解:

三、any类用法

#include<iostream>
#include<any>
#include<vector>
#include<set>
using namespace std;
int main() {
	any Int = 69,//整型
	Double = 8.8,	//浮点型
	CStr = "hello",	//字符数组
	Str = string("world!");	//string类
	vector<any> anys = { Int, Double, CStr, Str }; //可直接放入序列容器中
	//set < any > any_set{ Int,Double,CStr,Str }; //Error:不能直接放入关联容器内,需要提供operator<，但 any 很难比较
	cout << *Int._Cast<int>() << endl; //T* _Cast<typenampe T>():返回any对象的"值"，但需要一个模板参数确定对象值的类型
	cout << *Double._Cast<double>() << endl;
	cout << *CStr._Cast<char const *>() << endl;
	cout << *Str._Cast<string>() << endl;
	
	std::any any = std::make_any<int>(10);
	if (typeid(int) == any.type())
		int i = std::any_cast<int>(any);
	//double d = std::any_cast<double >(any); //抛出bad_any_cast异常
	return 0;
}
//OutPut:
//69
//8.8
//hello
//world!

注意：
any的析构函数删除内部holder对象。如果类型是指针，any并不会对指针执行delete操作，所有any保存原始指针对造成内存泄漏。完美解决方法是用共享智能指针std::shared_ptr<T>包装存入any容器。

四、any实现原理：

通过使用模板构造函数擦除模板类的参数类型。

1、存储：
定义一个基类Base，再派生一个模板类Data，对二者再进行一次封装，构造一个Any类，使用Any类的模板构造函数来构造一个Data对象，这样就能存储任何数据类型。

2、取值：
只能存，但还无法把元素取出，所以Any必须有一个基类Base指针的成员变量，存储构造好的Data对象，使用模板函数_Cast()，利用其模板参数Type，进行一个再将Base类强制转换为Data< Type > 对象。

基本上是这个原理吧。

附超简版代码：

#include<iostream>
#include<any>
using namespace std;
class Any {
public:
	template<typename T>
	Any(T t) :base(new Data<T>(t)) {}//模板构造函数
	template<typename T>
	T _Cast() {
		return dynamic_cast<Data<T>*>(base.get())->value;	//强制转换
	}
private:
	class Base {
	public:
		virtual ~Base() {} //确定Base为多态类型
	};
	template <typename T>
	class Data :public Base {
	public:
		Data(T t) :value(t) {}
		T value;
	};
	unique_ptr<Base> base;	//基类指针
};
int main() {
	Any a(string("s123")), b = 1, c = 12.0;
	cout << a._Cast<string>() << endl;			/*调用get函数必须要填写模板参数，我感觉这样大大折扣了any的作用*/
	cout << b._Cast<int>() << endl;				/*我想能否在构造的时候就确认参数的类型，保证_Cast调用的时候不需要使用模板参数*/
	cout << c._Cast<double>();
	return 0;
}

参考

C++中VS2019下STL的std::any深入剖析
 C++17 any类（万能容器）详解
 Boost中的容器boost::any

文章来自：https://blog.csdn.net/qq_43148810/article/details/119389563

你可能还喜欢下面这些文章

为什么C++模板不支持分离式编译

前言最近编译C++代码时出现链接失败信息，类似下图：图一初见这个错误有些令人费解，不过经过一番分析，发现原因还是清晰的，和大家一起分享一下。图一中使用的tpl.h代码如下：tpl.cpp代码如下：main.cpp代码如下：我一直习惯把模板实现写在头文件中，因此从未遇见这种错误。这次偶然将模板声明和实现分离，出现了链接错误。这引发了我一些思考，为什么模板不支持分离式编译？模板的编译为了搞清楚模板是怎么编译的，这里以上述tpl.cpp中的compare模板函数为例。tpl.h中声明了一个模板函数并且在tpl.cpp中实现这个模板函数。现在我们编译tpl.cpp，生成的汇编代码如下：图二可以看出，一

在C++中，是一个指向字符的指针，通常用于表示C风格的字符串。判断两个指针是否相等，需考虑两个方面：判断指针本身的地址是否相等：可以通过直接使用或操作符来实现。和指向不同的地址（尽管它们的内容相同），而和指向相同的地址。2. 判断指针指向的字符串内容是否相等：需要使用函数，它是C标准库中的一部分，在C++中可用。函数用于比较、和的内容。如果内容相同，返回

python学习笔记：三、函数

这是第三篇python学习笔记，我们即将要学习python的函数。内容主要包括两个部分，函数的声明和函数的调用。函数声明和调用比如我们要声明一个“吃”的函数，语法如下：def eat(): return "eat something"print(eat())上面是一个没有参数的函数，做的事情很简单，声明一个函数，然后返回一个字符串。接下来要增加一个参数了。def ead(food): return "eat %s" % foodprint(eat('fruit'))可以看到，上面声明了一个带有一个参数的函数，当然可以声明带两个，三个等。这些都是固定的，那么如果要声明一个不固定参数的

C++入门：一、变量和数据类型

还能这样？把 Python 自动翻译成 C++

一、问题背景随着深度学习的广泛应用，在搜索引擎/推荐系统/机器视觉等业务系统中，越来越多的深度学习模型部署到线上服务。机器学习模型在离线训练时，一般要将输入的数据做特征工程预处理，再输入模型在 TensorFlow PyTorch 等框架上做训练。1.常见的特征工程逻辑常见的特征工程逻辑有：分箱/分桶离散化 log/exp 对数/幂等 math numpy 常见数学运算特征缩放/归一化/截断交叉特征生成分词匹配程度计算字符串分隔匹配判断 tong 缺省值填充等数据平滑 onehot 编码，hash 编码等这些特征工程代码，当然一般使用深度学习最主要的语言 pyt

boost split 用法

是一个用于将字符串按照指定的分隔符分割成多个子串的函数，并将这些子串存储到一个容器中，比如。使用函数需要包含头文件。函数的用法如下：在上面的示例中，我们首先定义了一个以逗号分隔的字符串。然后，我们创建了一个类型的容器，用于存储分割后的子串。接下来，我们调用函数，将按照逗号进行分割，并将结果存储在容器中。最后，我们遍历容器，并输出每个子串。函数有几个参数：第一个参数是存储分割后子串的容器，类型为或其他类似的容器。第二个参数是要分割的字符串。第三个参数是分隔符，可以是一个普通字符或者正则表达式。常见的分隔符有逗号、分号、制表符等。在上面的示例中，我们使用了作为分隔符，表示以逗号为分隔符进行分割。还

使用php curl 的并发能力可以做什么

在php中，没有多线程让编程变得简单。但在一些需要并发提升性能的场景下，显得有些无能为力，比如发起一些http请求。

但好在curl扩展可以让我们“并发”去请求网络资源。利用这个特点，我们能做很多有趣的事情。

最基础的，并发请求网络资源，提升处理速度。

（更多…）

你可能还喜欢下面这些文章

ajax的核心，好好认识一下XMLHttpRequest

相信包括在我的绝大多数人都用jQuery的$.get()，$.post()，$.ajax()方法用的很爽了，关于其原生的请求却很少去发掘，很多时候(比如用html5开发app的时候),我并不再需要jQuery，弄明白XMLHttpRequest用原生的就能很好的处理ajax了。首先，由于我的js是通过jQuery入门的，所以才会有这篇文章。从new一个对象开始var xmlhttp = new XMLHttpRequest();之后的请求，读取，出错等等各种处理都在xmlhttp这个对象里面啦第一个GET请求get请求简单，最适合入门操作啦。之前new了一个xmlhttp对象，这次我们就要对它

Go入门：五、goroutine和channel

这是我Go学习的第五篇笔记，学习的是go的语言的其他特性，这些特性是其他语言所不具备的。这次主要学习的是goroutine和channel。我的语言学习过程一般分为下面几个：1. 变量和数据类型2. 流程控制方法3. 函数声明和调用4. 面向对象5. 语言特性6. 常用标准库goroutine介绍和使用Go语言中，每个并发执行的单元称为goroutine（可类比线程）。当一个程序启动时候，main函数在一个main goroutine中运行。如果想要创建新的goroutine，使用go关键字！语法创建一个新的 goroutinechannel是goroutine的通信机制，比如创建一个能够接收

一致性哈希的php实现

未来项目可能要上memcache集群，memcache集群的key分配完全在客户端完成，服务端不做任何处理，这里对key进行分配节点的最优方式就是使用一致性哈希。记得以前用mysql进行分库分表的时候，通常会用一个求余作为哈希函数，这样一些id就能对应相应的表了。不过使用mysql的时候，我们不需要考虑这些节点失效问题，以及节点增加或者减少的问题（在此之前应该做好足够的计划和准备），但是对于缓存，通常就比较宽松了，允许节点失效问题，但是普通的hash分配在节点失效之后，大部分的缓存位置都改变了，这显然个灾难，这个时候就要考虑一致性hash了，在增加或者删除节点，只有小部分的key会受影响。一致

JS使用XMLHttpRequest实现ajax请求

并发任务分配问题

这是在工作中遇到的实际问题和解决过程。问题已经被抽象成并发任务的分配问题。问题如果有 n 组数据均分给 m 个处理器处理，那么每个处理器分到的数据是。如果n组数据的类型有差异，其中有a组是一类数据，剩余 n-a 组是另一类数据。只有同类数据才能被一次性处理，那么该如何分配？这个问题在现实中是存在的。比如HTTP并发请求处理一些数据。数据被批量送来，但类型不一样。为了节省耗时，我们希望并发处理这些不同的数据。并发数是确定好的。现在需要计算每个请求处理的数量，以便我们能给每一个请求打包数据。求解n 组数据交给 m 个处理器处理，每个处理器最多分到组数据，这是毫无疑问的。如果 n 组数据中有

CGI与FastCGI是什么

当我们在谈到cgi的时候，我们在讨论什么最早的Web服务器简单地响应浏览器发来的HTTP请求，并将存储在服务器上的HTML文件返回给浏览器，也就是静态html。事物总是不断发展，网站也越来越复杂，所以出现动态技术。但是服务器并不能直接运行 php，asp这样的文件，自己不能做，外包给别人吧，但是要与第三做个约定，我给你什么，然后你给我什么，就是握把请求参数发送给你，然后我接收你的处理结果给客户端。那这个约定就是 common gateway interface，简称cgi。这个协议可以用vb，c，php，python 来实现。cgi只是接口协议，根本不是什么语言。下面图可以看到流程WEB服

php-fpm与fastcgi之间的关系

php-fpm与fastcgi名词解释php-fpm 全称为php fastcgi progress manager （php fastcgi 进程管理器）FastCGI全称为fast common gateway interface （Fast 通用网关接口）FastCGI是一种协议Fastcgi是CGI的升级版，一种语言无关的协议，用来沟通程序(如PHP, Python, Java)和Web服务器(Apache2, Nginx), 理论上任何语言编写的程序都可以通过Fastcgi来提供Web服务。Fastcgi的特点是会在一个进程中依次完成多个请求，以达到提高效率的目的，大多数Fastcg

php的file_get_contents()的高级用法

读取文件，读取网页，file_get_contents总是首选。既简单，又高效。读取网页： $content = file_get_contents("http://imhuchao.com")这里要说的是file_get_contents的一些"高级"的用法,平时大概用不上。file_get_contents可以用来发送post请求，设定超时时间等等，不弱于curl。函数说明是这样子的string file_get_contents ( string $filename ]]] )其中第三个参数$context能够让file_get_content发送post请求，控制超时等功能先看一个简单

awk分析nginx日志中的网页响应时间

nginx日志可以十分方便的看到每一个请求的响应速度，通常我会用awk去分析这些请求耗时。通常nginx的log配置是这样的log_format access_comment '$remote_addr - $remote_user "$request" ' '$status $body_bytes_sent "$http_referer" ' '"$http_user_agent" $http_x_forwarded_for ' '$upstream_response_time $request_time';我们记录的日志类似于这样127.0.0.1 - - "POST /get" "M

欧拉计划：找出1000以下3与5的倍数之和

题目如果我们列出10以下的3和5的倍数，我们可以得到3,5,6,9。它们的和为23。请求出1000以下所有的3和5的倍数之和。原文If we list all the natural numbers below 10 that are multiples of 3 or 5, we get 3, 5, 6 and 9. The sum of these multiples is 23.Find the sum of all the multiples of 3 or 5 below 1000.原文链接https://projecteuler.net/problem=1解答我会用php，pyth

ChatGPT是怎么实现的？为什么它这么有效？

ChatGPT 能够自动生成类似于人类写作的文本，这一点非常引人注目，也令人意外。但它是如何实现的？为什么它能够如此出色地生成我们认为有意义的文本？我的目的是在这里概述ChatGPT内部的运行情况，并探讨它能够如此出色地产生有意义文本的原因。

首先需要解释的是，ChatGPT的基本目标是尝试产生一个“合理的延续”，无论它当前所拥有的文本是什么。这里的“合理”是指“在浏览了数十亿网页等人类书写的内容后，人们可能会写什么”。

那么假设我们有文本“AI的牛逼之处在于它能够...”，我们可以想象一下扫描数十亿页人类写作的文本（比如在网上和数字化的书籍中），找到所有这个文本的实例，然后看下一个单词出现的频率是多少。ChatGPT实际上是在类似地寻找在某种意义上“匹配”的内容，以生成一个排名列表，列出可能的后续单词和相应的“概率”。

（更多…）

GDB入门：使用bt查看程序出core的调用栈

当程序崩溃的时候，会产生一个core文件。我们可以称它为进程死亡现场。排查进程死亡就和破案一样，找到案发现场，仔细排查每个细节，抽丝剥茧，最终定位原因。

很幸运我们有一个强大的工具调查现场信息。这个工具就是GDB。

下面我们就来看看如何用GDB排查问题。

首先以一个越界访问数组的程序为例，如下：

#include 
#include 

void core() {
    std::vector<int> a;
    std::cout << a[0];
}
int main() {
    core();
    return 0;
}

执行上面的代码将会产生一个core文件。（更多…）

你可能还喜欢下面这些文章

linux文件描述符介绍

文件描述符是什么文件描述符在形式上是一个非负整数。实际上，它是一个索引值，指向内核为每一个进程所维护的该进程打开文件的记录表。当程序打开一个现有文件或者创建一个新文件时，内核向进程返回一个文件描述符。在程序设计中，一些涉及底层的程序编写往往会围绕着文件描述符展开。但是文件描述符这一概念往往只适用于UNIX、Linux这样的操作系统。习惯上，标准输入（standard input）的文件描述符是 0，标准输出（standard output）是 1，标准错误（standard error）是 2。尽管这种习惯并非Unix内核的特性，但是因为一些 shell 和很多应用程序都使用这种习惯，因此，如

每次启动程序都要敲一堆命令，终止程序都要ps+grep找到程序pid然后kill，太麻烦了！花了点时间写了个程序启动停止脚本，如下：只需要配置一个BIN变量即可实现程序的启动和停止，十分简单。

linux命令：ls用法，列出文件及目录

原标题:每天一个linux命令(1)：ls命令ls 命令是linux下最常用的命令。ls命令就是list的缩写缺省下ls用来打印出当前目录的清单，如果ls指定其他目录那么就会显示指定目录里的文件及文件夹清单。通过ls 命令不仅可以查看linux文件夹包含的文件而且可以查看文件权限(包括目录、文件夹、文件权限)，查看目录信息等等。ls 命令在日常的linux操作中用的很多!ls命令格式ls 命令功能列出目标目录中所有的子目录和文件。常用参数-a, –all 列出目录下的所有文件，包括以 . 开头的隐含文件-A 同-a，但不列出“.”(表示当前目录)和“..”(表示当前目录的父目录)。

如何避免GIT修改文件权限导致的提交变更

默认情况下当文件权限变更的时候，GIT会认为该文件有变更，提交的时候会将权限变更的文件一并提交上去，这样会让我们的代码修改记录变得混乱。解决方案解决方案很简单，忽略文件权限的变更。使用如下命令：

记一次进程异常退出的问题排查

机器搬家之后，之前一直稳定的PHP多进程程序子进程突然异常退出，但是退出的不是很频繁，查看进程日志并也没有发现有什么导致退出的，问题比较诡异。于是开启了一段问题排查之路。首先查看内核日志，使用dmesg，拉到最后发现有一些这样的错误，看来确实是崩溃了。 php: segfault at 7f6443ee18c8 ip 00007f6443ee18c8 sp 00007fff4d4ba818 error 15 in libc-2.17.so php: segfault at 0 ip 000000000075919d sp 00007fff0c6e0578 error 4 in php trap

Linux信号列表

Shell中的条件判断语句if的用法

shell中的if语法是最让我头疼的语法之一，它的判断就向使用USB插头一样——拿起来插入不行，翻转再插入还不行，再翻转插入行了！

为了搞清楚这部分语言，我收集了一些文章关于if条件判断的用法，希望对你也有些帮助。

一、基本语法

if [ command ]; then
     符合该条件执行的语句
fi

if [ command ];then
     符合该条件执行的语句
elif [ command ];then
     符合该条件执行的语句
else
     符合该条件执行的语句
fi

语法说明

bash shell会按顺序执行if语句，如果command执行后且它的返回状态是0，则会执行符合该条件执行的语句，否则后面的命令不执行，跳到下一条命令。
当有多个嵌套时，只有第一个返回0退出状态的命令会导致符合该条件执行的语句部分被执行,如果所有的语句的执行状态都不为0，则执行else中语句。
返回状态：最后一个命令的退出状态，或者当没有条件是真的话为0。

（更多…）

你可能还喜欢下面这些文章

mysq常用函数大全

php print 这个坑，遇到连接符从右往左执行

在使用php的时候，我很少用到print这个函数，哦，不对，这是一个语言结构，而并非日函数！看一段代码

Go入门：六、常用标准库

这是我的Go学习的第六篇笔记，也是Go入门的最后一篇笔记。在大多数语言中，了解了变量和数据类型，流程控制，函数，面向对象，再加上标准库，就可以用这门语言去写一些项目了。首先让我想想，在工作中通常会用语言频繁处理什么问题或者处理什么数据？最常见的应该是各种字符串操作，日期和时间，读写文件、socket等IO相关的操作！字符串处理 — StringsString提供了一组处理字符串的操作，常用的有：判断一个字符串是否在另一个字符串中分割字符串为[]string和组合[]string为一个字符串字符串替换...太多了，就不一一列举了，这里列出一些常用的字符串操作。字符串判断字符串分割与合并字符串转换

记录一下使用中PDO出现的一个问题：Cannot execute queries while other unbuffered queries are active. Consider using PDOStatement::fetchAll().

在使用PDO的时候，一条sql语句打死都不执行，dump一下errorInfo试试，出现这样的错误信息问题描述居然告诉我还有语句没有执行完成？当前的查询未能执行，逗我么！考虑使用fetchAll，或者开启缓冲查询，行，你说得对....问题出现的使用场景服务器服务器为linux，安装了一个什么面板套件之类的，不是自家机器，也懒得去折腾，在本地的windows环境并没有该问题。程序笔者在对数据库的一个计数字段进行更新的时候，首先会先查询这个记录是否存在，如果存在则进行更新，如果不存在则先插入。问题就出现在记录不存在的时候，当我查询这条不存在的记录时候，发现这个记录不存在，然后进行插入，发现之前的查

python教程（一）：变量和数据类型

python的基本数据类型有整型，浮点型，字符串，布尔，列表，元组，字典，集合。它们占用内存和定义方式如下表：类型占用内存如何定义整型(int)动态长度>=24字节a = 1浮点型(float)动态长度>=24字节a = 1.0字符串(string)动态长度，>=37字节，增加一个字符加1字节a = 'str'布尔(boolean)24字节a = True列表(list)动态长度，>=72字节a = []元组(tupe)动态长度，>=56字节a = ()集合(set)动态长度，>=232字节a = set([])占用的内存通过sys.getsizeof()获

php的empty,isset，is_null与！

bash教程：一、变量，函数，控制流程

Go入门：二、流程控制

这是我的go语言学习笔记的第二篇，go语言的流程控制。流程控制是计算机语言的基本组成部分。一般的流程控制有顺序，分支，循环。这次来学习一下go语言的流程控制都有哪些，语法是什么样的。我将会通过以下步骤来入门go语言1. 变量和数据类型2. 流程控制方法3. 函数声明和调用4. 面向对象5. 语言特性6. 标准库条件分支go语言的条件分支有: if语句，if...else...语句，switch...case...语句。和大多数语言差别不大！if 语句语法// 纯ifif 条件语句 { 表达式}// 带有else 的 ifif 条件语句1 { 表达式1} else 条件语句2 {

C++入门：二、流程控制

这是我的C++学习笔记第二篇，学习流程控制语句我的学习路径如下：1. 变量和数据类型2. 流程控制3. 函数声明和调用4. 面向对象5. 标准库顺序顺序语句为一条一条顺序执行的语句。C++的顺序语句有赋值，四则运算，位运算，逻辑运算等条件C++提供两种条件，一个是if条件语句，另一个是switch选择语句。if条件switch条件循环循环语句有while循环，for循环，do...while循环。while 循环条件为真，就一直执行语句。如果初次条件不为真，语句一次都不会执行。for 循环更简单的for循环，范围for循环。类似与遍历的效果，序列可以是一个数组，vector，string等迭代

C++字符串拼接

程序启动停止脚本

每次启动程序都要敲一堆命令，终止程序都要ps+grep找到程序pid然后kill，太麻烦了！

花了点时间写了个程序启动停止脚本，如下：

打开微信，扫描左侧二维码，关注程序员日常，发送【2318】获取验证码，输入获取到的验证码即可获取隐藏内容

提交

只需要配置一个BIN变量即可实现程序的启动和停止，十分简单。

你可能还喜欢下面这些文章

CGI与FastCGI是什么

GDB入门：使用bt查看程序出core的调用栈

从PHP到Go的程序员需要注意的一些事项

PHP转Go的程序员很多，使用Go重写Web应用，代价不高，并且所带来性能的提升很明显，因此很多PHP程序员正在转Go。PHP是一个弱类型，解释型的语言，Go是一个强类型，编译型语言，两者的差别很大。如果长期使用PHP，使用Go的时候，一些惯性思维会带来不太好的效果。这里总结一些从PHP转到Go需要注意的点。警惕内存越界访问一个数组，在php中，如果a是一个空数组，直接访问a会出现警告，但程序还能继续运行，而在Go中，由于访问一个不存在的地址，程序会直接崩溃。因此Go中需要时刻警惕内存越界。在访问数组下标的时候，如果不能确认需要访问数据一定存在，那么一定要使用len判断数组长度，需要访问的下标

std::endl为什么导致程序变慢

最近在写hadoop的streaming任务，在输出的时候用了std::endl，就像下面这样：运行后发现程序跑的比python还慢，令人费解。我入门C++的时候，输出hello world也是这样写的，有什么问题？于是查了一下std::endl，发现问题挺大。std::endl解释如下：也就是说每次执行到std::endl的时候都会将缓冲区的内容写入到输出的对象中，这样一来速度慢也就不足为奇。性能测试不加std::endl性能高出20倍。如果程序的逻辑十分简单，那么输出字符串的时候最好用"\n"代替加std::endl

序言：我的sublime

多年以前有朋友推荐我用sublime，那大概是2011年的时候吧，我用tango notpad2，曾觉得这是用的最舒服的编辑器，高亮，秒开，太舒服。当我无意中看到好多人在用sublime的时候，我好奇的试一试，这一试，就是几年了，或许我以后也将会一直用下去。开始，相当长的一段时间内仅仅将sublime当做一个编辑器用，我想的是看的舒服，打开快，界面够酷就可以了，而且我用的也确实很舒服。但后来，我觉得要是sublime能够直接f5来运行程序是多方便啊，实际上，这对于sublime就是小case，sublime灵活的配置，快捷键你想怎么定义就怎么定义，只要机器上面安装了编译器或者各种语言的解释器就

shell 变量的定义

shell可以自定义变量，这为shell的编写带来很多方便定义变量定义变量时，变量名不加美元符号（$），如：variableName="value"注意：变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样同时，变量名的命名须遵循如下规则。首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用bash里的关键字（可用help命令查看保留关键字）。变量定义举例：myUrl="http://imhuchao.com/tag/bash"myNum=100使用变量使用一个定义过的变量，只要在变量名前面加美元符号（$）即可，如：your_nam

chkconfig给linux添加开机自启动服务，chkconfig命令详解

chkconfig命令主要用来更新（启动或停止）和查询系统服务的运行级信息。谨记chkconfig不是立即自动禁止或激活一个服务，它只是简单的改变了符号连接。使用语法chkconfig 或 chkconfig chkconfig 在没有参数运行时，会显示所有的服务在开机启动状态。如果加上服务名，那么就检查这个服务是否在当前运行级启动。如果是，返回true，否则返回false。如果在服务名后面指定了on，off或者reset，那么chkconfig 会改变指定服务的启动信息。on和off分别指服务被启动和停止，reset指重置服务的启动信息，无论有问题的初始化脚本指定了什么。on和off开

php-fpm与fastcgi之间的关系

计算机语言学习指南

php多进程编程：第一次fork