perl脚本语言学习

来公司的第二个星期便看了一下perl语言,发现掌握一门脚本语言还是非常有用的。到现在为止已经入职两个月,用perl脚本做了这些活:

1. 修改了公司的一个爬取网页源代码的脚本

2. 改进了一个出特征库的脚本,根据svn status的状态,来优化,将只需要添加的DB的数据进行处理。

3. 编写了一个脚本,用于比对两个文件夹的文件(文件数量大约在+),之后选择需要处理的文件。用perl强大的正则匹配获取对应的字段,并将数据全部放入到excel当中。其中有部分字段需要进行英中文对应,此时创建了两个文件夹进行存放对应的中英文字段,让脚本读取两个文件来进行正确匹配,这样易于后期的维护。此外,由于文件夹的路径可能会发生更改,又用一个bash脚本来连接几个perl脚本,并将常用的参数直接写入到bash脚本中,这样亦可能对应单独使用perl,又可能在不更改参数的情况下,使用bash脚本快速执行脚本功能。后续会将代码贴上来做个分享。

以下为刚开始看perl语言入门的一些基础小笔记,之后在改写脚本和自己编写脚本的时候也积累了一些东西,并没有记录进去,以后应该会做整理补充进去。因为这是最开始的记录,可能会显得非常基础的东西。

# 为注释

#! 则表示执行下面文件的程序

反引号 `......` 表示运行外部程序

下划线可以用来分割数据,并不会改变原数据

如 98908008080 为了方便阅读,可以写成

98_908_008_080

perl 中的NULL没有特殊含义

单引号字符串内,除了单引号或者反斜杠之外的字符都表示自身

双引号字符串内,反斜杠可以用来表示控制字符

用 . 能够连接字符串

x可以表示字符串重复操作符

perl -w my_program

的 -w 参数可以在执行的时候看到警告

-X 可以忽略所有警告

在perl程序内加上

use diagnostics; 将可以看到更详细得警告说明

命令行加上 -M 参数能决定是否激活diagnostics

$变量名

{} 分隔符, 可以用于分隔字符串

数字 0 为 false

字符串 空串 为 false

undef 为 false

比较特殊的是, 字符串 '0' 也为false

<STDIN> 可用于标准输入流

如 $line=<STDIN>;

chomp() 可以用来去掉换行符 (很常用)

结合使用: chomp($line=<STDIN>) 读入且不包含换行符

defined 函数可以用来判断是否为undef

$define ($text) text为undef时返回false,否则返回true

perl 数组没有长度限制,未赋值的数组元素值为undef

$#array 表示array数组最后一个元素得索引

array[-1] 表示最后一个数组元素

@array 表示 all of the array 即可以对所有元素进行整体操作

@array = (1 .. 5) 将1,2,3,4,5赋值给array 赋值是括号可以不加

@array = qw (qwe wer ert rty); 将字符串"qwe", "wer", "ert", "rty"赋值给array

qw可以允许使用任何标点符号作为分界符

push/pop (数组从尾部压栈出栈), shift/unshift (从开头压栈出栈)

foreach $rocks (@rocks) 可以遍历数组

$_ 可以代表 foreach 循环中省略的控制变量

1 foreach (1 .. 10) {

2 print "I can count to $_!\n";

3 }

reverse 逆转, sort 排序

@lines = <STDIN>;

CTRL+D来表明输入结束 (UNIX) CTRL+Z (WINDOWS)

@_ 是程序得私有变量

使用my可以在子程序里创建私有变量

程序开头加上 use strict; 将会使程序检查更加严谨

$! 表示系统会提供一些有用的可读信息, 比如在打开文件失败得时候

@array = split (//, $string); 函数可以将字符串拆分,//内表示按空格来拆分,/\./表示按小数点拆分。

@ARGV 表示命令行的参数列表

=~ 表示匹配绑定,成功返回true。$& 表示成功匹配的值 $` 表示匹配前 $' 表示匹配后

=~ s/正则/替换内容/g 可以用这种方式将所有匹配的字段全部替换

第一篇博客,就先这样,之后应该还会将工作中和学习中积累的点点滴滴都写进去,多总结,多积累。