词向量模型word2vec详解

“万事万物都有一个模式，它是我们宇宙的一部分。它具有对称、简洁和优雅——这些品质你总能在真正的艺术家的作品中找到。你可以在季节的更替中、在沿着山脊的沙迹中、在杂酚油灌木的树枝丛中或其叶子的图案中找到它。

我们试图在我们的生活和社会中复制这些模式，寻找令人舒适的节奏、舞蹈和形式。然而，在寻找终极完美的过程中也可能会遇到危险。显然，最终的模式有其自身的固定性。在如此完美的情况下，一切事物都走向死亡。” ~ 沙丘 (1965)

我发现Embedding（中文翻译为嵌入，但不好理解，因此后续直接使用原术语Emdedding表示）的概念是机器学习中最迷人的想法之一。如果您曾经使用过 Siri、Google Assistant、Alexa、Google Translate，甚至具有下一个单词预测功能的智能手机键盘，那么您应该能从这个已成为自然语言处理模型核心的想法中受益。

经过几十年发展，神经网络模型中的Embedding已经十分成熟（最近的发展的语境Emdedding，从而催生了BERT和 GPT等尖端模型）。

Word2vec是一种生成 Embedding 的方法，发布于2013 年。但除了作为生成embedding的方法之外，它的一些概念已经被证明可以有效地创建推荐引擎和理解时序数据。在商业、非语言任务中，像Airbnb、阿里巴巴、Spotify这样的公司都从NLP领域中提取灵感并用于产品中，从而为新型推荐引擎提供支持。

（更多…）

你可能还喜欢下面这些文章

2020年11月19日股市涨跌预测

上一篇预测股市涨跌的翻车了！毕竟概率在这儿，70%-80%的的概率毕竟不能保证一定是正确的。今天沪深300指数上午上涨，下午开始下跌，最终收跌-0.06%，感觉还好！今天晚上用之前训练好的模型去预测，结果看起来还比较乐观，如图：虽然模型也没能给出明确的涨还是跌，但看起来涨的概率还是比跌的概率稍微大一点点。此外，从我个人的主观感觉来看，明天沪深300上涨的概率也比较大，毕竟前值是下跌的趋势，而最近几天基本跌不下去了。模型说明简单说一下模型里面的数字都是什么意思吧。这些模型是根据过去2年的沪深300的波动特征训练得到的模型，上面的精准度代表预测正确的次数/总次数，比如model_6，精准度为0.7

c++ vector取最后一个元素

在C++中，你可以使用的成员函数来获取最后一个元素。这个函数返回对向量中最后一个元素的引用。以下是一个简单的示例：在这个例子中，我们创建了一个包含五个整数的。然后，我们使用函数获取最后一个元素，并将其存储在变量中。最后，我们打印出这个元素。请注意，如果向量是空的（即，不包含任何元素），调用函数将导致未定义行为。因此，在调用之前，最好先检查向量是否为空，这可以通过调用成员函数来完成。

如何选择特征

特征工程是数据分析中最耗时间和精力的一部分工作，它不像算法和模型那样是确定的步骤，更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。1. 特征的来源在做数据分析的时候，特征的来源一般有两块，一块是业务已经整理好各种特征数据，我们需要去找出适合我们问题需要的特征；另一块是我们从业务特征中自己去寻找高级数据特征。我们就针对这两部分来分别讨论。2. 选择合适的特征我们首先看当业务已经整理好各种特征数据时，我们如何去找出适合我们问题需要的特征，此时特征数可能成百上千，哪些才是我们需要的呢？第一

linux shell 入门

从程序员的角度来看， Shell本身是一种用C语言编写的程序，从用户的角度来看，Shell是用户与Linux操作系统沟通的桥梁。用户既可以输入命令执行，又可以利用 Shell脚本编程，完成更加复杂的操作。在Linux GUI日益完善的今天，在系统管理等领域，Shell编程仍然起着不可忽视的作用。深入地了解和熟练地掌握Shell编程，是每一个Linux用户的必修功课之一。Linux的Shell种类众多，常见的有：Bourne Shell（/usr/bin/sh或/bin/sh）、Bourne Again Shell（/bin/bash）、C Shell（/usr/bin/csh）、K Shel

计算机语言学习指南

这篇文章讨论基于语言的基本要素，如何快速入门一种计算机语言。是一篇语言从学习到使用的指导手册，并且这种学习方式是一个系统的学习，相比于碎片化的学习，这种学习更加不容易遗忘。语言的基本成分语言的基本成分为数据、运算、控制、传输。想想你学过的语言，是不是都是这样。归结语言的组成成分，学习一门语言可以从这四个方面下手，这四个方面掌握之后，对这个语言就有个最基本的了解了。语言基本成分：数据数据是程序操作的对象。实际上我们可以思考，一个数据拥有的属性有哪些，根据我们已经掌握的语言来说（比如PHP）。$a = 1$a是数据，那么这个数据有哪些属性呢？名称(a)，类型(int)。从这一行代码只能发现这两个属

gcc/g++编译参数详解

编译步骤gcc 与 g++ 分别是 gnu 的 c & c++ 编译器。gcc/g++ 在执行编译工作的时候，总共需要4步：预处理,生成 .i 的文件将预处理后的文件转换成汇编语言, 生成文件 .s 有汇编变为目标代码(机器代码)生成 .o 的文件连接目标代码, 生成可执行程序参数详解-x language filename参数含义为指定文件所使用的语言。根据约定，C语言的后缀名称为".c"，而 C++ 的后缀名为".cpp"或".cc"，但如果你的源代码后缀不约定的那几种，那么需要使用-x参数来指定文件所使用的语言。这个参数对他后面的文件名都起作用。可以使用的参数吗有下面的这些：

websocket协议详解

近来项目中使用websocket，于是来研究一番。websocket传输协议有两个部分，握手和数据传输握手GET / HTTP/1.1HOST: <IP>:<PORT> Sec-Websocket-Version: 13Sec-Websocket-Key: <KEY>Connection: keep-alive, UpgradeUpgrade: websocket之后服务端会返回类似下面的数据HTTP/1.1 101 Switching ProtocolsUpgrade: websocketConnection: UpgradeSec-WebSocket-A

使用sublime+platuml高效画图

程序员难免要经常画流程图，状态图，时序图等。以前经常用 visio 画，经常为矩形画多大，摆放在哪等问题费脑筋。有时候修改文字后，为了较好的显示效果不得不再去修改图形。今天介绍的工具是如何使用 Sublime + PlantUML 的插件画流程图，状态图，时序图等。这是一种程序员看了就会爱上的画图方式：自然，高效。什么是 PlantUMLPlantUML 是一个画图脚本语言，用它可以快速地画出：时序图流程图用例图状态图组件图简单地讲，我们使用 visio 画图时需要一个一个图去画，但使用 PlantUML 只需要用文字表达出图的内容，然后就可以直接生成图片。看一个最简单的例子：软件安装这些软件

php print 这个坑，遇到连接符从右往左执行

在使用php的时候，我很少用到print这个函数，哦，不对，这是一个语言结构，而并非日函数！看一段代码

JS使用XMLHttpRequest实现ajax请求

是一个JavaScript对象，它最初由微软设计，随后被 Mozilla、Apple和Google采纳。如今，该对象已经被 W3C组织标准化。通过它，你可以很容易的取回一个URL上的资源数据。尽管名字里有XML，但可以取回所有类型的数据资源，并不局限于XML。而且除了HTTP ，它还支持和协议。创建一个实例, 可以使用如下语句:方法概述非标准方法属性AttributeTypeDescription一个JavaScript函数对象，当readyState属性改变时会调用它。回调函数会在user interface线程中调用。警告: 不能在本地代码中使用. 也不应该在同步模式的请求中

C++ 判断 char* 是否相等

在C++中，char* 是一个指向字符的指针，通常用于表示C风格的字符串。判断两个 char* 指针是否相等，需考虑两个方面：

判断指针本身的地址是否相等：可以通过直接使用 == 或 != 操作符来实现。

char* str1 = "hello";
char* str2 = "hello";
char* str3 = str1;
 
if (str1 == str2) {
    std::cout << "str1 and str2 point to the same address." << std::endl;
} else {
    std::cout << "str1 and str2 point to different addresses." << std::endl;
}
 
if (str1 == str3) {
    std::cout << "str1 and str3 point to the same address." << std::endl;
} else {
    std::cout << "str1 and str3 point to different addresses." << std::endl;
}

str1 和 str2 指向不同的地址（尽管它们的内容相同），而 str1 和 str3 指向相同的地址。

2. 判断指针指向的字符串内容是否相等：需要使用 strcmp() 函数，它是C标准库中的一部分，在C++中可用。

#include <cstring>
 
char* str1 = "hello";
char* str4 = "hello";
char* str5 = "world";
 
if (strcmp(str1, str4) == 0) {
    std::cout << "str1 and str4 have the same content." << std::endl;
} else {
    std::cout << "str1 and str4 have different content." << std::endl;
}
 
if (strcmp(str1, str5) == 0) {
    std::cout << "str1 and str5 have the same content." << std::endl;
} else {
    std::cout << "str1 and str5 have different content." << std::endl;
}

strcmp() 函数用于比较 str1、str4 和 str5 的内容。如果内容相同，strcmp() 返回0。注意，当你比较C风格字符串的内容时，应该使用 strcmp() 而不是直接使用 == 操作符，因为后者只会比较指针地址而不是字符串内容。

你可能还喜欢下面这些文章

C++动态内存管理

C++中，动态内存管理是通过一对运算符来完成：new 和 delete。new操作符在内存中为对象分配空间并返回一个指向该对象的指针，delete接收一个动态对象的指针，销毁该对象，并释放与之相关的内存。手动管理内存看起来只有这两个操作，似乎很轻松，但实际上这是一件非常繁琐的事情，分配了内存但没有释放内存的场景发生的概率太大了！回想一下，你有多少次打开抽屉却没关上，拿出来的护肤品擦完脸之后却忘了放回去，吃完饭却忘了洗碗。类似这种没有收尾的事情我做的太多了。（以上这些都是在实际生活中我爱人批评我的点）我连这种明面上的事情都能忘记收尾，何况分配内存！所以为了世界和平，我放弃了手动管理内存。好在C+

C++入门：三、函数

这是我学习C++的第三篇笔记，函数。我的学习路径是现在学习的是函数的声明、定义、调用等相关知识。函数声明和定义函数的声明包含返回类型，函数名字，0个或者多个形参，无函数体，通常在头文件中对函数进行声明。函数的定义包含返回类型，函数名字，0个或多个形参，以及函数体。比如写一个求阶乘的函数，可以写成下面这样写一些简单的函数大多数语言都差不多，不过可惜每种语言或多或少都有自己的特色，这是比较令人头秃的地方。函数的参数函数可以带有0或多个参数，每个参数都需要声明类型。参数传递可以传值和传引用。如果形参是引用类型，那么它将绑定到对应的实参中，我们成为传引用。否则，将会把实参的值拷贝后赋值给形参，我们成为

C++字符串拼接

在C++中，字符串拼接可以使用多种方法，下面是一些常用的方法：使用运算符C++中的类型支持运算符来进行字符串拼接。使用成员函数类提供了成员函数，它可以用来拼接字符串。使用运算符也支持运算符来进行字符串拼接。使用 C 风格的字符串拼接虽然不推荐使用C风格的字符串拼接（因为它可能会导致缓冲区溢出），但你还是可以在C++中这样做。在这种情况下，你需要确保目标缓冲区有足够的空间来存储拼接后的字符串。在这个例子中，函数被用来拼接两个C风格的字符串。注意，在使用之前，我们检查了是否有足够的空间来存储拼接后的字符串，以防止缓冲区溢出。使用对于更复杂的字符串拼接，特

C++入门：一、变量和数据类型

这是我的C++学习笔记第一篇，同所有的程序语言学习路径一样，首先学习的是变量和数据类型。我的学习路径如下：1. 变量和数据类型2. 流程控制3. 函数声明和调用4. 面向对象5. 标准库这一章，学习的是变量和数据类型，需要了解的有：了解这些，对于变量基本就够了。Hello world在开始之前，先写一个hello world来熟悉一下程序的主要结构以及如何打印一个变量。iostream提供标准输入输出的头文件，程序以main函数问入口，std为标准库的命名空间，“<<” 为输出操作符，std::cout为标准输出，std::endl为结束符，表示将等待输出的内容从内存传送到标准输出

Go入门：三、函数的声明和调用

这是我Go学习笔记的第三篇！接下来学习的是Go的函数声明和调用。我的语言学习过程一般分为下面几个：1. 变量和数据类型2. 流程控制方法3. 函数声明和调用4. 面向对象5. 语言特性6. 标准库函数声明func 函数名称(参数表) 返回值类型 { // 函数体}写一个函数是非常简单的，掌握语法格式就可以了。函数是一个功能的封装，能让函数体内的代码得到很好的复用。比如我要输出个人信息，我可以把个人信息封装到函数里面，后续直接调用这个函数而不是每次都print一堆信息了上面定义的函数没有参数，也没有返回值，非常简单的一个函数。如果我想让姓名可变，那么可以定义一个带有参数的函数接下来定义一个有

Go语言的 make 和 new

new 和 make 是两个内置函数，主要用来创建并分配类型的内存。在我们定义变量的时候，可能会觉得有点迷惑，不知道应该使用哪个函数来声明变量，其实他们的规则很简单，new 只分配内存，make 只能用于 slice、map 和 channel 的初始化。下面我们就来具体介绍一下new在Go语言中，new 函数描述如下：从上面的代码可以看出，new 函数只接受一个参数，这个参数是一个类型，并且返回一个指向该类型内存地址的指针。同时 new 函数会把分配的内存置为零，也就是类型的零值。【示例】使用 new 函数为变量分配内存空间。当然，new 函数不仅仅能够为系统默认的数据类型，分配空间，自定义

C++实现python字符串的endswith方法

可以使用的或方法配合比较运算符来模拟方法的功能。下面是一个示例函数，它检查一个字符串是否以另一个字符串结束：在这个示例中，函数接受两个参数：和。函数首先检查的长度是否大于或等于的长度。如果不是，那么显然不能以结束，函数返回。否则，函数使用方法从的末尾提取与长度相同的子字符串，并将其与进行比较。如果它们相等，那么以结束，函数返回。否则，函数返回。请注意，这个函数是区分大小写的。如果你想要一个不区分大小写的版本，你可以在比较之前使用和函数将和转换为小写。在这个版本中，函数首先使用和函数将和转换为小写。然后，它调用函数来检查转换后的字符串是否以结束。

mysq常用函数大全

很少用到，但是有时候又必须用到，这里收集一下mysql的常用函数一、数学函数ABS(x) 返回x的绝对值BIN(x) 返回x的二进制（OCT返回八进制，HEX返回十六进制）CEILING(x) 返回大于x的最小整数值EXP(x) 返回值e（自然对数的底）的x次方FLOOR(x) 返回小于x的最大整数值GREATEST(x1,x2,...,xn)返回集合中最大的值LEAST(x1,x2,...,xn) 返回集合中最小的值LN(x) 返回x的自然对数LOG(x,y)返回x的以y为底的对数MOD(x,y)

Shell中的条件判断语句if的用法

shell中的if语法是最让我头疼的语法之一，它的判断就向使用USB插头一样——拿起来插入不行，翻转再插入还不行，再翻转插入行了！为了搞清楚这部分语言，我收集了一些文章关于if条件判断的用法，希望对你也有些帮助。一、基本语法语法说明bash shell会按顺序执行if语句，如果command执行后且它的返回状态是0，则会执行符合该条件执行的语句，否则后面的命令不执行，跳到下一条命令。当有多个嵌套时，只有第一个返回0退出状态的命令会导致符合该条件执行的语句部分被执行,如果所有的语句的执行状态都不为0，则执行else中语句。返回状态：最后一个命令的退出状态，或者当没有条件是真的话为0。注意：1、表

bash教程：一、变量，函数，控制流程

变量的定义和使用变量的定义bash变量定义很简单。如下：a="hello"左边是变量名，右边是变量值。bash是弱类型，因此不需要给a加上类型。注意，等号两边不能有空格比如 a = "hello"，这是错误的。变量使用变量使用需要在定义的变量名之前加上$，比如我们打印之前定义的aecho $a特殊变量后面再说，现在仅仅是最基础的，能够让自己写出一个完整的脚本就行。流程控制流程控制则是编写程序必备的过程，比如顺序，循环，条件，分支等等。在其他类C语言中有if...else,for,while,do...while,switch，那么在bash里面，这些应该怎么写呢。if...else结构a=0

解决Mac ReportCrash进程占用大量CPU的问题

今天电脑风扇一直呼呼转，发烫利害。于是看看到底哪个进程占用了大量cpu，top查看发现ReportCrash占用了大量CPU，直接kill之后还是会拉起。

于是从网上查看如何关闭这个进程，方法如下：

打开终端，执行下面命令

launchctl unload -w /System/Library/LaunchAgents/com.apple.ReportCrash.plist
sudo launchctl unload -w /System/Library/LaunchDaemons/com.apple.ReportCrash.Root.plist

如果后续要打开，可以在终端执行如下命令：

launchctl load -w /System/Library/LaunchAgents/com.apple.ReportCrash.plist
sudo launchctl load -w /System/Library/LaunchDaemons/com.apple.ReportCrash.Root.plist

你可能还喜欢下面这些文章

守护进程介绍

1．守护进程概述守护进程，也就是通常所说的daemon进程，是Linux中的后台服务进程。它是一个生存期较长的进程，通常独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程常常在系统引导载入时启动，在系统关闭时终止。Linux有很多系统服务，大多数服务都是通过守护进程实现的。同时，守护进程还能完成许多系统任务，例如，作业规划进程crond、打印进程lqd等（这里的结尾字母d就是daemon的意思）。由于在Linux中，每一个系统与用户进行交流的界面称为终端，每一个从此终端开始运行的进程都会依附于这个终端，这个终端称为这些进程的控制终端，当控制终端被关闭时，相应的进程都

php多进程编程：第一次fork

工作原因，要用到php多进程，于是粗略的了解一下，完成之后把过程记录下来，整理成教程，希望对学习php多进程编程的程序员有所帮助。前言使用php cli的时候，我们在终端会这样运行一个hello.php程序，这样linux会为我们创建一个进程。不考虑 nohup ，在一个终端，我们以cli方式运行的php程序也只能有这一个进程。一个进程处理的任务必定是有限的，在系统资源空闲那么多的情况下，为什么不使用多进程来提高效率呢？不过php多进程需要安装pcntl和posix扩展（windows不支持）fork，创建子进程创建子进程的方法就是fork，在php里面，这个函数是pcntl_fork()pc

用php编写守护进程

在此之前，需要知道守护进程这个概念，知道之后，才可以用php来编写守护进程。那么创建守护进程需要有下面这几个步骤。1.创建子进程，父进程退出父进程先与子进程退出，子进程则会被1号进程收养，这个子进程就会成为init的子进程php使用pcntl_fork()来创建子进程。pcntl_fork()返回一个整型值，在父进程里面返回的是子进程的id，子进程返回的是0，失败则返回-1。这样我们就可以根据这个来分别控制父进程和子进程执行任务。2.子进程创建会话这个是重要的一步，在这一步中该子进程会做这些事情：1.让进程摆脱原会话的控制；2.让进程摆脱员进程组的控制；3.让进程摆脱终端的控制。为什么要这样？

Linux信号列表

我们运行如下命令，可看到Linux支持的信号列表：列表中，编号为1 ~ 31的信号为传统UNIX支持的信号，是不可靠信号(非实时的)，编号为32 ~ 63的信号是后来扩充的，称做可靠信号(实时信号)。不可靠信号和可靠信号的区别在于前者不支持排队，可能会造成信号丢失，而后者不会。下面我们对编号小于SIGRTMIN的信号进行讨论。1) SIGHUP本信号在用户终端连接(正常或非正常)结束时发出, 通常是在终端的控制进程结束时, 通知同一session内的各个作业, 这时它们与控制终端不再关联。登录linux时，系统会分配给登录用户一个终端(Session)。在这个终端运行的所有程序，包括前台进程组

MySQL时间字段类型的选择

建表的时候对时间的字段类型选择有些疑惑，于是找出高性能MySQL这本书来看看，书中已经给了我们很好的建议，因此记录下来。保存时间通常有这几种类型可以选择： datetime timestamp int date首先看看datetime，datetime这个类型可以保存从1001年到9999年的数据，内部是将日期和时间封装在YYYYMMDDHHMMSS的整数中，与时区无关，占用8个字节。timestamp，timestamp只能保存1970年到2038年，占用4个字节，和int所占用的字节是一样的。int，int占用的同样是4个字节，和timestamp一样，但是timestamp拥有一

GDB入门：使用bt查看程序出core的调用栈

当程序崩溃的时候，会产生一个core文件。我们可以称它为进程死亡现场。排查进程死亡就和破案一样，找到案发现场，仔细排查每个细节，抽丝剥茧，最终定位原因。很幸运我们有一个强大的工具调查现场信息。这个工具就是GDB。下面我们就来看看如何用GDB排查问题。首先以一个越界访问数组的程序为例，如下：#include #include void core() { std::vector<int> a; std::cout << a;}int main() { core(); return 0;}执行上面的代码将会产生一个core文件。假设我们的core文件为

linux命令:cd命令，改变当前的工作目录

原标题 : 每天一个linux命令(2)：cd命令Linux cd 命令可以说是Linux中最基本的命令语句，其他的命令语句要进行操作，都是建立在使用 cd 命令上的。所以，学习Linux 常用命令，首先就要学好 cd 命令的使用方法技巧。命令格式cd 命令功能切换当前目录至dirName常用范例例一：进入系统根目录命令cd /输出# cd /说明：进入系统根目录,上面命令执行完后拿ls命令看一下，当前目录已经到系统根目录了命令cd .. 或者 cd .. //输出:# pwd/opt/soft# cd ..# cd ..//# pwd/说明：进入系统根目录可以使用“ cd .. ”一直退，就

linux命令桌面壁纸

linux命令桌面壁纸作为桌面，再也不怕记不住linux命令了

让sublime支持php，python等脚本的执行

sublime有自己的Build系统，默认的快捷键是ctrl+b。只需要定制对应语言的执行命令，就可以支持各个语言的编译，执行了。这里对几种主流的脚本语言执行做一些教程。打开Tools->Build System -> New Build System ...插入对应的json格式的配置即可php保存为php.sublime-build，这下执行php不用老是跑去刷网页了，也不用老是开cmd窗口了。python保存为python.sublime-build不过貌似里面自带了python的，不过如果你看到有build system里面有python的话，那么就可以不用加了。这些执行

mac下面查看端口占用进程情况

在linux下面有netstat可以查看指定端口被哪些进程占用，但是mac下面就不好用了，看不到进程号。mac下面可以使用lsof来查看端口被哪个进程占用，比如查看80端口被占用情况：lsof -i tcp:80lsof是列出打开的文件命令，更多的用法可以参考： https://linuxtools-rst.readthedocs.io/zh_CN/latest/tool/lsof.html原文如下：lsof（list open files）是一个查看当前系统文件的工具。在linux环境下，任何事物都以文件的形式存在，通过文件不仅仅可以访问常规数据，还可以访问网络连接和硬件。如传输控制协议 (

C++ any容器的介绍与简易实现

一、any容器是什么？

1、any“不是”模板类，any是一种很特殊的容器。
2、any只能容纳一个元素，但这个元素可以是任意的类型，可以是基本数据类型（int、double、string、标准容器或者任何自定义类型）。
3、一种动态（类型检查只发生在运行时）语言特性的数据结构。
4、C++17引入，需要RIIT支持，VS默认是没有支持C++17的，需要自己修改设置，如果不能使用any，请修改标准。

二、any类摘要

class any
{
public:
	any(); //默认构造
	any(const any& _That); //拷贝构造
	template<class _ValueType>
		any(_ValueType&& _Value);
	~any();	//析构
	any& operator=(const any& _That); //拷贝复制
	void reset();//清空内容
	void swap(any& _That); //交换语义
	bool has_value() const; //是否持有值
	const type_info& type() const; //获取类型信息
	template<class _Decayed>
	_Decayed * _Cast(); //若*this包含_decay类型的值，返回一个指向它的指针
};

//辅助函数
void swap(any& _Left, any& _Right); //交换语义
template<class _ValueType,class... _Types>
inline any make_any(_Types&&... _Args);	//工厂函数
template<class _Ty>
_Ty any_cast(const any& _Any);	//访问元素，运行时类型检查，不一致则抛出bad_any_cast异常。并且含有多个重载版本。

C++typeid关键字详解:

三、any类用法

#include<iostream>
#include<any>
#include<vector>
#include<set>
using namespace std;
int main() {
	any Int = 69,//整型
	Double = 8.8,	//浮点型
	CStr = "hello",	//字符数组
	Str = string("world!");	//string类
	vector<any> anys = { Int, Double, CStr, Str }; //可直接放入序列容器中
	//set < any > any_set{ Int,Double,CStr,Str }; //Error:不能直接放入关联容器内,需要提供operator<，但 any 很难比较
	cout << *Int._Cast<int>() << endl; //T* _Cast<typenampe T>():返回any对象的"值"，但需要一个模板参数确定对象值的类型
	cout << *Double._Cast<double>() << endl;
	cout << *CStr._Cast<char const *>() << endl;
	cout << *Str._Cast<string>() << endl;
	
	std::any any = std::make_any<int>(10);
	if (typeid(int) == any.type())
		int i = std::any_cast<int>(any);
	//double d = std::any_cast<double >(any); //抛出bad_any_cast异常
	return 0;
}
//OutPut:
//69
//8.8
//hello
//world!

注意：
any的析构函数删除内部holder对象。如果类型是指针，any并不会对指针执行delete操作，所有any保存原始指针对造成内存泄漏。完美解决方法是用共享智能指针std::shared_ptr<T>包装存入any容器。

四、any实现原理：

通过使用模板构造函数擦除模板类的参数类型。

1、存储：
定义一个基类Base，再派生一个模板类Data，对二者再进行一次封装，构造一个Any类，使用Any类的模板构造函数来构造一个Data对象，这样就能存储任何数据类型。

2、取值：
只能存，但还无法把元素取出，所以Any必须有一个基类Base指针的成员变量，存储构造好的Data对象，使用模板函数_Cast()，利用其模板参数Type，进行一个再将Base类强制转换为Data< Type > 对象。

基本上是这个原理吧。

附超简版代码：

#include<iostream>
#include<any>
using namespace std;
class Any {
public:
	template<typename T>
	Any(T t) :base(new Data<T>(t)) {}//模板构造函数
	template<typename T>
	T _Cast() {
		return dynamic_cast<Data<T>*>(base.get())->value;	//强制转换
	}
private:
	class Base {
	public:
		virtual ~Base() {} //确定Base为多态类型
	};
	template <typename T>
	class Data :public Base {
	public:
		Data(T t) :value(t) {}
		T value;
	};
	unique_ptr<Base> base;	//基类指针
};
int main() {
	Any a(string("s123")), b = 1, c = 12.0;
	cout << a._Cast<string>() << endl;			/*调用get函数必须要填写模板参数，我感觉这样大大折扣了any的作用*/
	cout << b._Cast<int>() << endl;				/*我想能否在构造的时候就确认参数的类型，保证_Cast调用的时候不需要使用模板参数*/
	cout << c._Cast<double>();
	return 0;
}

参考

C++中VS2019下STL的std::any深入剖析
 C++17 any类（万能容器）详解
 Boost中的容器boost::any

文章来自：https://blog.csdn.net/qq_43148810/article/details/119389563

你可能还喜欢下面这些文章

为什么C++模板不支持分离式编译

前言最近编译C++代码时出现链接失败信息，类似下图：图一初见这个错误有些令人费解，不过经过一番分析，发现原因还是清晰的，和大家一起分享一下。图一中使用的tpl.h代码如下：tpl.cpp代码如下：main.cpp代码如下：我一直习惯把模板实现写在头文件中，因此从未遇见这种错误。这次偶然将模板声明和实现分离，出现了链接错误。这引发了我一些思考，为什么模板不支持分离式编译？模板的编译为了搞清楚模板是怎么编译的，这里以上述tpl.cpp中的compare模板函数为例。tpl.h中声明了一个模板函数并且在tpl.cpp中实现这个模板函数。现在我们编译tpl.cpp，生成的汇编代码如下：图二可以看出，一

在C++中，是一个指向字符的指针，通常用于表示C风格的字符串。判断两个指针是否相等，需考虑两个方面：判断指针本身的地址是否相等：可以通过直接使用或操作符来实现。和指向不同的地址（尽管它们的内容相同），而和指向相同的地址。2. 判断指针指向的字符串内容是否相等：需要使用函数，它是C标准库中的一部分，在C++中可用。函数用于比较、和的内容。如果内容相同，返回

python学习笔记：三、函数

这是第三篇python学习笔记，我们即将要学习python的函数。内容主要包括两个部分，函数的声明和函数的调用。函数声明和调用比如我们要声明一个“吃”的函数，语法如下：def eat(): return "eat something"print(eat())上面是一个没有参数的函数，做的事情很简单，声明一个函数，然后返回一个字符串。接下来要增加一个参数了。def ead(food): return "eat %s" % foodprint(eat('fruit'))可以看到，上面声明了一个带有一个参数的函数，当然可以声明带两个，三个等。这些都是固定的，那么如果要声明一个不固定参数的

C++入门：一、变量和数据类型

还能这样？把 Python 自动翻译成 C++

一、问题背景随着深度学习的广泛应用，在搜索引擎/推荐系统/机器视觉等业务系统中，越来越多的深度学习模型部署到线上服务。机器学习模型在离线训练时，一般要将输入的数据做特征工程预处理，再输入模型在 TensorFlow PyTorch 等框架上做训练。1.常见的特征工程逻辑常见的特征工程逻辑有：分箱/分桶离散化 log/exp 对数/幂等 math numpy 常见数学运算特征缩放/归一化/截断交叉特征生成分词匹配程度计算字符串分隔匹配判断 tong 缺省值填充等数据平滑 onehot 编码，hash 编码等这些特征工程代码，当然一般使用深度学习最主要的语言 pyt

boost split 用法

是一个用于将字符串按照指定的分隔符分割成多个子串的函数，并将这些子串存储到一个容器中，比如。使用函数需要包含头文件。函数的用法如下：在上面的示例中，我们首先定义了一个以逗号分隔的字符串。然后，我们创建了一个类型的容器，用于存储分割后的子串。接下来，我们调用函数，将按照逗号进行分割，并将结果存储在容器中。最后，我们遍历容器，并输出每个子串。函数有几个参数：第一个参数是存储分割后子串的容器，类型为或其他类似的容器。第二个参数是要分割的字符串。第三个参数是分隔符，可以是一个普通字符或者正则表达式。常见的分隔符有逗号、分号、制表符等。在上面的示例中，我们使用了作为分隔符，表示以逗号为分隔符进行分割。还

使用php curl 的并发能力可以做什么

在php中，没有多线程让编程变得简单。但在一些需要并发提升性能的场景下，显得有些无能为力，比如发起一些http请求。

但好在curl扩展可以让我们“并发”去请求网络资源。利用这个特点，我们能做很多有趣的事情。

最基础的，并发请求网络资源，提升处理速度。

（更多…）

你可能还喜欢下面这些文章

ajax的核心，好好认识一下XMLHttpRequest

相信包括在我的绝大多数人都用jQuery的$.get()，$.post()，$.ajax()方法用的很爽了，关于其原生的请求却很少去发掘，很多时候(比如用html5开发app的时候),我并不再需要jQuery，弄明白XMLHttpRequest用原生的就能很好的处理ajax了。首先，由于我的js是通过jQuery入门的，所以才会有这篇文章。从new一个对象开始var xmlhttp = new XMLHttpRequest();之后的请求，读取，出错等等各种处理都在xmlhttp这个对象里面啦第一个GET请求get请求简单，最适合入门操作啦。之前new了一个xmlhttp对象，这次我们就要对它

Go入门：五、goroutine和channel

这是我Go学习的第五篇笔记，学习的是go的语言的其他特性，这些特性是其他语言所不具备的。这次主要学习的是goroutine和channel。我的语言学习过程一般分为下面几个：1. 变量和数据类型2. 流程控制方法3. 函数声明和调用4. 面向对象5. 语言特性6. 常用标准库goroutine介绍和使用Go语言中，每个并发执行的单元称为goroutine（可类比线程）。当一个程序启动时候，main函数在一个main goroutine中运行。如果想要创建新的goroutine，使用go关键字！语法创建一个新的 goroutinechannel是goroutine的通信机制，比如创建一个能够接收

一致性哈希的php实现

未来项目可能要上memcache集群，memcache集群的key分配完全在客户端完成，服务端不做任何处理，这里对key进行分配节点的最优方式就是使用一致性哈希。记得以前用mysql进行分库分表的时候，通常会用一个求余作为哈希函数，这样一些id就能对应相应的表了。不过使用mysql的时候，我们不需要考虑这些节点失效问题，以及节点增加或者减少的问题（在此之前应该做好足够的计划和准备），但是对于缓存，通常就比较宽松了，允许节点失效问题，但是普通的hash分配在节点失效之后，大部分的缓存位置都改变了，这显然个灾难，这个时候就要考虑一致性hash了，在增加或者删除节点，只有小部分的key会受影响。一致

JS使用XMLHttpRequest实现ajax请求

并发任务分配问题

这是在工作中遇到的实际问题和解决过程。问题已经被抽象成并发任务的分配问题。问题如果有 n 组数据均分给 m 个处理器处理，那么每个处理器分到的数据是。如果n组数据的类型有差异，其中有a组是一类数据，剩余 n-a 组是另一类数据。只有同类数据才能被一次性处理，那么该如何分配？这个问题在现实中是存在的。比如HTTP并发请求处理一些数据。数据被批量送来，但类型不一样。为了节省耗时，我们希望并发处理这些不同的数据。并发数是确定好的。现在需要计算每个请求处理的数量，以便我们能给每一个请求打包数据。求解n 组数据交给 m 个处理器处理，每个处理器最多分到组数据，这是毫无疑问的。如果 n 组数据中有

CGI与FastCGI是什么

当我们在谈到cgi的时候，我们在讨论什么最早的Web服务器简单地响应浏览器发来的HTTP请求，并将存储在服务器上的HTML文件返回给浏览器，也就是静态html。事物总是不断发展，网站也越来越复杂，所以出现动态技术。但是服务器并不能直接运行 php，asp这样的文件，自己不能做，外包给别人吧，但是要与第三做个约定，我给你什么，然后你给我什么，就是握把请求参数发送给你，然后我接收你的处理结果给客户端。那这个约定就是 common gateway interface，简称cgi。这个协议可以用vb，c，php，python 来实现。cgi只是接口协议，根本不是什么语言。下面图可以看到流程WEB服

php-fpm与fastcgi之间的关系

php-fpm与fastcgi名词解释php-fpm 全称为php fastcgi progress manager （php fastcgi 进程管理器）FastCGI全称为fast common gateway interface （Fast 通用网关接口）FastCGI是一种协议Fastcgi是CGI的升级版，一种语言无关的协议，用来沟通程序(如PHP, Python, Java)和Web服务器(Apache2, Nginx), 理论上任何语言编写的程序都可以通过Fastcgi来提供Web服务。Fastcgi的特点是会在一个进程中依次完成多个请求，以达到提高效率的目的，大多数Fastcg

php的file_get_contents()的高级用法

读取文件，读取网页，file_get_contents总是首选。既简单，又高效。读取网页： $content = file_get_contents("http://imhuchao.com")这里要说的是file_get_contents的一些"高级"的用法,平时大概用不上。file_get_contents可以用来发送post请求，设定超时时间等等，不弱于curl。函数说明是这样子的string file_get_contents ( string $filename ]]] )其中第三个参数$context能够让file_get_content发送post请求，控制超时等功能先看一个简单

awk分析nginx日志中的网页响应时间

nginx日志可以十分方便的看到每一个请求的响应速度，通常我会用awk去分析这些请求耗时。通常nginx的log配置是这样的log_format access_comment '$remote_addr - $remote_user "$request" ' '$status $body_bytes_sent "$http_referer" ' '"$http_user_agent" $http_x_forwarded_for ' '$upstream_response_time $request_time';我们记录的日志类似于这样127.0.0.1 - - "POST /get" "M

欧拉计划：找出1000以下3与5的倍数之和

题目如果我们列出10以下的3和5的倍数，我们可以得到3,5,6,9。它们的和为23。请求出1000以下所有的3和5的倍数之和。原文If we list all the natural numbers below 10 that are multiples of 3 or 5, we get 3, 5, 6 and 9. The sum of these multiples is 23.Find the sum of all the multiples of 3 or 5 below 1000.原文链接https://projecteuler.net/problem=1解答我会用php，pyth

ChatGPT是怎么实现的？为什么它这么有效？

ChatGPT 能够自动生成类似于人类写作的文本，这一点非常引人注目，也令人意外。但它是如何实现的？为什么它能够如此出色地生成我们认为有意义的文本？我的目的是在这里概述ChatGPT内部的运行情况，并探讨它能够如此出色地产生有意义文本的原因。

首先需要解释的是，ChatGPT的基本目标是尝试产生一个“合理的延续”，无论它当前所拥有的文本是什么。这里的“合理”是指“在浏览了数十亿网页等人类书写的内容后，人们可能会写什么”。

那么假设我们有文本“AI的牛逼之处在于它能够...”，我们可以想象一下扫描数十亿页人类写作的文本（比如在网上和数字化的书籍中），找到所有这个文本的实例，然后看下一个单词出现的频率是多少。ChatGPT实际上是在类似地寻找在某种意义上“匹配”的内容，以生成一个排名列表，列出可能的后续单词和相应的“概率”。

（更多…）

GDB入门：使用bt查看程序出core的调用栈

当程序崩溃的时候，会产生一个core文件。我们可以称它为进程死亡现场。排查进程死亡就和破案一样，找到案发现场，仔细排查每个细节，抽丝剥茧，最终定位原因。

很幸运我们有一个强大的工具调查现场信息。这个工具就是GDB。

下面我们就来看看如何用GDB排查问题。

首先以一个越界访问数组的程序为例，如下：

#include 
#include 

void core() {
    std::vector<int> a;
    std::cout << a[0];
}
int main() {
    core();
    return 0;
}

执行上面的代码将会产生一个core文件。（更多…）

你可能还喜欢下面这些文章

linux文件描述符介绍

文件描述符是什么文件描述符在形式上是一个非负整数。实际上，它是一个索引值，指向内核为每一个进程所维护的该进程打开文件的记录表。当程序打开一个现有文件或者创建一个新文件时，内核向进程返回一个文件描述符。在程序设计中，一些涉及底层的程序编写往往会围绕着文件描述符展开。但是文件描述符这一概念往往只适用于UNIX、Linux这样的操作系统。习惯上，标准输入（standard input）的文件描述符是 0，标准输出（standard output）是 1，标准错误（standard error）是 2。尽管这种习惯并非Unix内核的特性，但是因为一些 shell 和很多应用程序都使用这种习惯，因此，如

每次启动程序都要敲一堆命令，终止程序都要ps+grep找到程序pid然后kill，太麻烦了！花了点时间写了个程序启动停止脚本，如下：只需要配置一个BIN变量即可实现程序的启动和停止，十分简单。

linux命令：ls用法，列出文件及目录

原标题:每天一个linux命令(1)：ls命令ls 命令是linux下最常用的命令。ls命令就是list的缩写缺省下ls用来打印出当前目录的清单，如果ls指定其他目录那么就会显示指定目录里的文件及文件夹清单。通过ls 命令不仅可以查看linux文件夹包含的文件而且可以查看文件权限(包括目录、文件夹、文件权限)，查看目录信息等等。ls 命令在日常的linux操作中用的很多!ls命令格式ls 命令功能列出目标目录中所有的子目录和文件。常用参数-a, –all 列出目录下的所有文件，包括以 . 开头的隐含文件-A 同-a，但不列出“.”(表示当前目录)和“..”(表示当前目录的父目录)。

如何避免GIT修改文件权限导致的提交变更

默认情况下当文件权限变更的时候，GIT会认为该文件有变更，提交的时候会将权限变更的文件一并提交上去，这样会让我们的代码修改记录变得混乱。解决方案解决方案很简单，忽略文件权限的变更。使用如下命令：

记一次进程异常退出的问题排查

机器搬家之后，之前一直稳定的PHP多进程程序子进程突然异常退出，但是退出的不是很频繁，查看进程日志并也没有发现有什么导致退出的，问题比较诡异。于是开启了一段问题排查之路。首先查看内核日志，使用dmesg，拉到最后发现有一些这样的错误，看来确实是崩溃了。 php: segfault at 7f6443ee18c8 ip 00007f6443ee18c8 sp 00007fff4d4ba818 error 15 in libc-2.17.so php: segfault at 0 ip 000000000075919d sp 00007fff0c6e0578 error 4 in php trap

Linux信号列表

Shell中的条件判断语句if的用法

shell中的if语法是最让我头疼的语法之一，它的判断就向使用USB插头一样——拿起来插入不行，翻转再插入还不行，再翻转插入行了！

为了搞清楚这部分语言，我收集了一些文章关于if条件判断的用法，希望对你也有些帮助。

一、基本语法

if [ command ]; then
     符合该条件执行的语句
fi

if [ command ];then
     符合该条件执行的语句
elif [ command ];then
     符合该条件执行的语句
else
     符合该条件执行的语句
fi

语法说明

bash shell会按顺序执行if语句，如果command执行后且它的返回状态是0，则会执行符合该条件执行的语句，否则后面的命令不执行，跳到下一条命令。
当有多个嵌套时，只有第一个返回0退出状态的命令会导致符合该条件执行的语句部分被执行,如果所有的语句的执行状态都不为0，则执行else中语句。
返回状态：最后一个命令的退出状态，或者当没有条件是真的话为0。

（更多…）

你可能还喜欢下面这些文章

mysq常用函数大全

php print 这个坑，遇到连接符从右往左执行

在使用php的时候，我很少用到print这个函数，哦，不对，这是一个语言结构，而并非日函数！看一段代码

Go入门：六、常用标准库

这是我的Go学习的第六篇笔记，也是Go入门的最后一篇笔记。在大多数语言中，了解了变量和数据类型，流程控制，函数，面向对象，再加上标准库，就可以用这门语言去写一些项目了。首先让我想想，在工作中通常会用语言频繁处理什么问题或者处理什么数据？最常见的应该是各种字符串操作，日期和时间，读写文件、socket等IO相关的操作！字符串处理 — StringsString提供了一组处理字符串的操作，常用的有：判断一个字符串是否在另一个字符串中分割字符串为[]string和组合[]string为一个字符串字符串替换...太多了，就不一一列举了，这里列出一些常用的字符串操作。字符串判断字符串分割与合并字符串转换

记录一下使用中PDO出现的一个问题：Cannot execute queries while other unbuffered queries are active. Consider using PDOStatement::fetchAll().

在使用PDO的时候，一条sql语句打死都不执行，dump一下errorInfo试试，出现这样的错误信息问题描述居然告诉我还有语句没有执行完成？当前的查询未能执行，逗我么！考虑使用fetchAll，或者开启缓冲查询，行，你说得对....问题出现的使用场景服务器服务器为linux，安装了一个什么面板套件之类的，不是自家机器，也懒得去折腾，在本地的windows环境并没有该问题。程序笔者在对数据库的一个计数字段进行更新的时候，首先会先查询这个记录是否存在，如果存在则进行更新，如果不存在则先插入。问题就出现在记录不存在的时候，当我查询这条不存在的记录时候，发现这个记录不存在，然后进行插入，发现之前的查

python教程（一）：变量和数据类型

python的基本数据类型有整型，浮点型，字符串，布尔，列表，元组，字典，集合。它们占用内存和定义方式如下表：类型占用内存如何定义整型(int)动态长度>=24字节a = 1浮点型(float)动态长度>=24字节a = 1.0字符串(string)动态长度，>=37字节，增加一个字符加1字节a = 'str'布尔(boolean)24字节a = True列表(list)动态长度，>=72字节a = []元组(tupe)动态长度，>=56字节a = ()集合(set)动态长度，>=232字节a = set([])占用的内存通过sys.getsizeof()获

php的empty,isset，is_null与！

来说说php的empty，isset，is_null 与!，这几个都是if语句中比较常见的判断逻辑。但是有时候用的很纠结，甚至看别人写的程序里面也很纠结。特地梳理梳理，避免踩坑先来定义一些东西<?php$a;$b=0;$c=array();$d='';$e=null;empty，用了会上瘾这是一个用了会上瘾的语言结构！多好，empty可接受的参数是一个变量，任意类型，哪怕是变量不存在，只要变量被boolean转换之后是false（参考：php的boolean都有哪些），那么empty返回的就是false，并且不会出现警告！等价于不过注意的是，empty里面不能使用表达式（在php<

bash教程：一、变量，函数，控制流程

Go入门：二、流程控制

这是我的go语言学习笔记的第二篇，go语言的流程控制。流程控制是计算机语言的基本组成部分。一般的流程控制有顺序，分支，循环。这次来学习一下go语言的流程控制都有哪些，语法是什么样的。我将会通过以下步骤来入门go语言1. 变量和数据类型2. 流程控制方法3. 函数声明和调用4. 面向对象5. 语言特性6. 标准库条件分支go语言的条件分支有: if语句，if...else...语句，switch...case...语句。和大多数语言差别不大！if 语句语法// 纯ifif 条件语句 { 表达式}// 带有else 的 ifif 条件语句1 { 表达式1} else 条件语句2 {

C++入门：二、流程控制

这是我的C++学习笔记第二篇，学习流程控制语句我的学习路径如下：1. 变量和数据类型2. 流程控制3. 函数声明和调用4. 面向对象5. 标准库顺序顺序语句为一条一条顺序执行的语句。C++的顺序语句有赋值，四则运算，位运算，逻辑运算等条件C++提供两种条件，一个是if条件语句，另一个是switch选择语句。if条件switch条件循环循环语句有while循环，for循环，do...while循环。while 循环条件为真，就一直执行语句。如果初次条件不为真，语句一次都不会执行。for 循环更简单的for循环，范围for循环。类似与遍历的效果，序列可以是一个数组，vector，string等迭代

C++字符串拼接

程序启动停止脚本

每次启动程序都要敲一堆命令，终止程序都要ps+grep找到程序pid然后kill，太麻烦了！

花了点时间写了个程序启动停止脚本，如下：

[hide]

#! /bin/bash

readonly CMD=$1
readonly PARAM=$2

readonly BIN="./your_bin"

start() {
    local bin=$1
    local param=$2

    if [ -f .pid ];then
        echo "${bin} is running"
        return 0;
    fi

    if [ ${param}"" == "-d" ];then
        nohup ${bin} &
        echo $! > .pid
        echo "${bin} started"
        return 0
    fi

    ${bin}
}

stop() {
    pid=`cat .pid`
    if [ $pid"" = "" ]; then
        echo "already stopped"
        exit
    fi
    kill -2 $pid
    rm .pid
    echo "stopped"
}

help() {
    echo "sh start.sh [start|stop|restart] [-d]"
}

case "$CMD" in
    start)
        start $BIN $PARAM
        ;;
    stop)
        stop
        ;;
    restart)
        stop
        sleep 1
        start
        ;;
    *)
        help
        ;;
esac

[/hide]

只需要配置一个BIN变量即可实现程序的启动和停止，十分简单。

你可能还喜欢下面这些文章

CGI与FastCGI是什么

GDB入门：使用bt查看程序出core的调用栈

从PHP到Go的程序员需要注意的一些事项

PHP转Go的程序员很多，使用Go重写Web应用，代价不高，并且所带来性能的提升很明显，因此很多PHP程序员正在转Go。PHP是一个弱类型，解释型的语言，Go是一个强类型，编译型语言，两者的差别很大。如果长期使用PHP，使用Go的时候，一些惯性思维会带来不太好的效果。这里总结一些从PHP转到Go需要注意的点。警惕内存越界访问一个数组，在php中，如果a是一个空数组，直接访问a会出现警告，但程序还能继续运行，而在Go中，由于访问一个不存在的地址，程序会直接崩溃。因此Go中需要时刻警惕内存越界。在访问数组下标的时候，如果不能确认需要访问数据一定存在，那么一定要使用len判断数组长度，需要访问的下标

std::endl为什么导致程序变慢

最近在写hadoop的streaming任务，在输出的时候用了std::endl，就像下面这样：运行后发现程序跑的比python还慢，令人费解。我入门C++的时候，输出hello world也是这样写的，有什么问题？于是查了一下std::endl，发现问题挺大。std::endl解释如下：也就是说每次执行到std::endl的时候都会将缓冲区的内容写入到输出的对象中，这样一来速度慢也就不足为奇。性能测试不加std::endl性能高出20倍。如果程序的逻辑十分简单，那么输出字符串的时候最好用"\n"代替加std::endl

序言：我的sublime

多年以前有朋友推荐我用sublime，那大概是2011年的时候吧，我用tango notpad2，曾觉得这是用的最舒服的编辑器，高亮，秒开，太舒服。当我无意中看到好多人在用sublime的时候，我好奇的试一试，这一试，就是几年了，或许我以后也将会一直用下去。开始，相当长的一段时间内仅仅将sublime当做一个编辑器用，我想的是看的舒服，打开快，界面够酷就可以了，而且我用的也确实很舒服。但后来，我觉得要是sublime能够直接f5来运行程序是多方便啊，实际上，这对于sublime就是小case，sublime灵活的配置，快捷键你想怎么定义就怎么定义，只要机器上面安装了编译器或者各种语言的解释器就

shell 变量的定义

shell可以自定义变量，这为shell的编写带来很多方便定义变量定义变量时，变量名不加美元符号（$），如：variableName="value"注意：变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样同时，变量名的命名须遵循如下规则。首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用bash里的关键字（可用help命令查看保留关键字）。变量定义举例：myUrl="http://imhuchao.com/tag/bash"myNum=100使用变量使用一个定义过的变量，只要在变量名前面加美元符号（$）即可，如：your_nam

chkconfig给linux添加开机自启动服务，chkconfig命令详解

chkconfig命令主要用来更新（启动或停止）和查询系统服务的运行级信息。谨记chkconfig不是立即自动禁止或激活一个服务，它只是简单的改变了符号连接。使用语法chkconfig 或 chkconfig chkconfig 在没有参数运行时，会显示所有的服务在开机启动状态。如果加上服务名，那么就检查这个服务是否在当前运行级启动。如果是，返回true，否则返回false。如果在服务名后面指定了on，off或者reset，那么chkconfig 会改变指定服务的启动信息。on和off分别指服务被启动和停止，reset指重置服务的启动信息，无论有问题的初始化脚本指定了什么。on和off开

php-fpm与fastcgi之间的关系

计算机语言学习指南

php多进程编程：第一次fork

如何选择特征

特征工程是数据分析中最耗时间和精力的一部分工作，它不像算法和模型那样是确定的步骤，更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。

1. 特征的来源

在做数据分析的时候，特征的来源一般有两块，一块是业务已经整理好各种特征数据，我们需要去找出适合我们问题需要的特征；另一块是我们从业务特征中自己去寻找高级数据特征。我们就针对这两部分来分别讨论。

2. 选择合适的特征

我们首先看当业务已经整理好各种特征数据时，我们如何去找出适合我们问题需要的特征，此时特征数可能成百上千，哪些才是我们需要的呢？

第一步是找到该领域懂业务的专家，让他们给一些建议。比如我们需要解决一个药品疗效的分类问题，那么先找到领域专家，向他们咨询哪些因素（特征）会对该药品的疗效产生影响，较大影响的和较小影响的都要。这些特征就是我们的特征的第一候选集。

这个特征集合有时候也可能很大，在尝试降维之前，我们有必要用特征工程的方法去选择出较重要的特征结合，这些方法不会用到领域知识，而仅仅是统计学的方法。

最简单的方法就是方差筛选。方差越大的特征，那么我们可以认为它是比较有用的。如果方差较小，比如小于1，那么这个特征可能对我们的算法作用没有那么大。最极端的，如果某个特征方差为0，即所有的样本该特征的取值都是一样的，那么它对我们的模型训练没有任何作用，可以直接舍弃。在实际应用中，我们会指定一个方差的阈值，当方差小于这个阈值的特征会被我们筛掉。sklearn中的VarianceThreshold类可以很方便的完成这个工作。

特征选择方法有很多，一般分为三类：第一类过滤法比较简单，它按照特征的发散性或者相关性指标对各个特征进行评分，设定评分阈值或者待选择阈值的个数，选择合适特征。上面我们提到的方差筛选就是过滤法的一种。第二类是包装法，根据目标函数，通常是预测效果评分，每次选择部分特征，或者排除部分特征。第三类嵌入法则稍微复杂一点，它先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据权值系数从大到小来选择特征。类似于过滤法，但是它是通过机器学习训练来确定特征的优劣，而不是直接从特征的一些统计学指标来确定特征的优劣。下面我们分别来看看3类方法。

2.1 过滤法选择特征

上面我们已经讲到了使用特征方差来过滤选择特征的过程。除了特征的方差这第一种方法，还有其他一些统计学指标可以使用。

第二个可以使用的是相关系数。这个主要用于输出连续值的监督学习算法中。我们分别计算所有训练集中各个特征与输出值之间的相关系数，设定一个阈值，选择相关系数较大的部分特征。

第三个可以使用的是假设检验，比如卡方检验。卡方检验可以检验某个特征分布和输出值分布之间的相关性。个人觉得它比比粗暴的方差法好用。如果大家对卡方检验不熟悉，可以参看这篇卡方检验原理及应用，这里就不展开了。在sklearn中，可以使用chi2这个类来做卡方检验得到所有特征的卡方值与显著性水平P临界值，我们可以给定卡方值阈值，选择卡方值较大的部分特征。

除了卡方检验，我们还可以使用F检验和t检验，它们都是使用假设检验的方法，只是使用的统计分布不是卡方分布，而是F分布和t分布而已。在sklearn中，有F检验的函数f_classif和f_regression，分别在分类和回归特征选择时使用。

第四个是互信息，即从信息熵的角度分析各个特征和输出值之间的关系评分。在决策树算法中我们讲到过互信息（信息增益）。互信息值越大，说明该特征和输出值之间的相关性越大，越需要保留。在sklearn中，可以使用mutual_info_classif(分类)和mutual_info_regression(回归)来计算各个输入特征和输出值之间的互信息。

以上就是过滤法的主要方法，个人经验是，在没有什么思路的时候，可以优先使用卡方检验和互信息来做特征选择

2.2 包装法选择特征

包装法的解决思路没有过滤法这么直接，它会选择一个目标函数来一步步的筛选特征。

最常用的包装法是递归消除特征法(recursive feature elimination,以下简称RFE)。递归消除特征法使用一个机器学习模型来进行多轮训练，每轮训练后，消除若干权值系数的对应的特征，再基于新的特征集进行下一轮训练。在sklearn中，可以使用RFE函数来选择特征。

我们下面以经典的SVM-RFE算法来讨论这个特征选择的思路。这个算法以支持向量机来做RFE的机器学习模型选择特征。它在第一轮训练的时候，会选择所有的特征来训练，得到了分类的超平面$w \dot x+b=0$后，如果有n个特征，那么RFE-SVM会选择出$w$中分量的平方值$w_i^2$最小的那个序号i对应的特征，将其排除，在第二类的时候，特征数就剩下n-1个了，我们继续用这n-1个特征和输出值来训练SVM，同样的，去掉$w_i^2$最小的那个序号i对应的特征。以此类推，直到剩下的特征数满足我们的需求为止。

2.3 嵌入法选择特征

嵌入法也是用机器学习的方法来选择特征，但是它和RFE的区别是它不是通过不停的筛掉特征来进行训练，而是使用的都是特征全集。在sklearn中，使用SelectFromModel函数来选择特征。

最常用的是使用L1正则化和L2正则化来选择特征。在之前讲到的用scikit-learn和pandas学习Ridge回归第6节中，我们讲到正则化惩罚项越大，那么模型的系数就会越小。当正则化惩罚项大到一定的程度的时候，部分特征系数会变成0，当正则化惩罚项继续增大到一定程度时，所有的特征系数都会趋于0. 但是我们会发现一部分特征系数会更容易先变成0，这部分系数就是可以筛掉的。也就是说，我们选择特征系数较大的特征。常用的L1正则化和L2正则化来选择特征的基学习器是逻辑回归。

此外也可以使用决策树或者GBDT。那么是不是所有的机器学习方法都可以作为嵌入法的基学习器呢？也不是，一般来说，可以得到特征系数coef或者可以得到特征重要度(feature importances)的算法才可以做为嵌入法的基学习器。

3. 寻找高级特征

在我们拿到已有的特征后，我们还可以根据需要寻找到更多的高级特征。比如有车的路程特征和时间间隔特征，我们就可以得到车的平均速度这个二级特征。根据车的速度特征，我们就可以得到车的加速度这个三级特征，根据车的加速度特征，我们就可以得到车的加加速度这个四级特征。。。也就是说，高级特征可以一直寻找下去。

在Kaggle之类的算法竞赛中，高分团队主要使用的方法除了集成学习算法，剩下的主要就是在高级特征上面做文章。所以寻找高级特征是模型优化的必要步骤之一。当然，在第一次建立模型的时候，我们可以先不寻找高级特征，得到以后基准模型后，再寻找高级特征进行优化。

寻找高级特征最常用的方法有：

若干项特征加和：我们假设你希望根据每日销售额得到一周销售额的特征。你可以将最近的7天的销售额相加得到。
若干项特征之差：假设你已经拥有每周销售额以及每月销售额两项特征，可以求一周前一月内的销售额。
若干项特征乘积：假设你有商品价格和商品销量的特征，那么就可以得到销售额的特征。
若干项特征除商：假设你有每个用户的销售额和购买的商品件数，那么就是得到该用户平均每件商品的销售额。

当然，寻找高级特征的方法远不止于此，它需要你根据你的业务和模型需要而得，而不是随便的两两组合形成高级特征，这样容易导致特征爆炸，反而没有办法得到较好的模型。个人经验是，聚类的时候高级特征尽量少一点，分类回归的时候高级特征适度的多一点。

4. 特征选择小结

特征选择是特征工程的第一步，它关系到我们机器学习算法的上限。因此原则是尽量不错过一个可能有用的特征，但是也不滥用太多的特征。

不错的文章，原文地址：https://www.cnblogs.com/pinard/p/9032759.html

你可能还喜欢下面这些文章

使用sublime+platuml高效画图

布隆过滤器(bloom filter)介绍以及php和redis实现布隆过滤器实现方法

引言在介绍布隆过滤器之前我们首先引入几个场景。场景一在一个高并发的计数系统中，如果一个key没有计数，此时我们应该返回0。但是访问的key不存在，相当于每次访问缓存都不起作用了。那么如何避免频繁访问数量为0的key而导致的缓存被击穿？有人说，将这个key的值置为0存入缓存不就行了吗？这是确实是一种解决方案。当访问一个不存在的key的时候，设置一个带有过期时间的标志，然后放入缓存。不过这样做的缺点也很明显：浪费内存和无法抵御随机key攻击。场景二在一个黑名单系统中，我们需要设置很多黑名单内容。比如一个邮件系统，我们需要设置黑名单用户，当判断垃圾邮件的时候，要怎么去做。比如爬虫系统，我们要记录下

iterm2 使用 rz、sz 的方法

如果没有额外的设置，iterm2 使用 rzsz 的时候会卡在这个时候就需要使用iterm2提供的trigger来实现rzsz的功能。第一步：本机安装rzsz使用rzsz之前本地也需要安装如果没有安装brew，请先安装brew，mac必备的包管理器！第二步：创建发送和接收脚本发送文件的脚本如下，可以复制下面的内容，保存在 /usr/local/bin/iterm2-send-zmodem.sh中。接收文件的脚本如下，同样可以复制保存在/usr/local/bin/iterm2-recv-zmodem.sh第三步：设置Triggerteigger需要设置两个，一个实发送文件的trigger，一个

股市涨跌的秘密

娱乐之作，大家见笑。^ - ^本文利用神经网络对股市的预测结果作为分析的对象，打开神经网络的黑箱，找到股市中涨跌的秘密。量价特征想要预测股市涨跌，就需要了解在股票上涨和下跌的时候，前一天发生了什么。就好像我们想要预测明天天气的时候，总会想尽办法找到过去几十年甚至几百年下雨的前一段时间都有哪些征兆。预测股票也一样，我们需要想尽一切办法找到某只股票过去几年里面价格上涨的前一天都有哪些特征，越全面越好。找特征不是一件简单的事情，有效的特征可以为我们增加预测的精准度，而无效的特征会对训练造成干扰。首先从最简单的量价特征开始，即今天的股票的价格变化和交易量变化。为什么是这两个特征？我的理论依据是市场所有

C++动态内存管理

JS使用XMLHttpRequest实现ajax请求

Go入门：四、面向对象

这是我的Go学习笔记的第四篇，面向对象！现代语言几乎都会面向对象进行了支持！当然，Go也具备面向对象的特性！我的语言学习过程一般分为下面几个：1. 变量和数据类型2. 流程控制方法3. 函数声明和调用4. 面向对象5. 语言特性6. 标准库Go语言中的面向对象有点特殊。在Go语言里面，没有显式的class、extends等面向对象语言经常使用的关键词，但是却有面向对象的特性。看看Go怎么实现的把！创建一个类按照我的理解，类实际上就是某种模板，这个模板里面含有有限多个属性和方法。在Go里面，定义这个模板的语法使用type来实现！比如单个int类型可以构成一个类（没错，你甚至可以在int数据类型上

还能这样？把 Python 自动翻译成 C++

linux shell 入门

使用apidoc为你的项目编写api文档

在使用apidoc之前，我一直使用wiki来写文档，后来发现这种方式更新起来比较痛苦，时间一长甚至就忘记了更新了。一直在寻找能够使用注释直接生成文档的程序。某一天同事推荐了apidoc，发现这正是我想要的工具。apidoc原理apidoc的原理是扫描你的代码文件，提取出注释部分，根据一些规则生成相应的文档。默认的模板久很美观，十分适合作为api文档的生成器。目前apidoc支持的注释基本涵盖了大部分语言的风格了，c，java，php，js，python，perl，lua, Erlang...安装需要使用npm安装，如果没有安装npm，请先去https://www.npmjs.com/下载npm