2014-08-18发表2014-08-18更新powershell4 分钟读完 (大约668个字)

电骡的 eD2k 链接包含了丰富的信息。例如这个：

ed2k://|file|BingPinyinSetup_1.5.24.02.exe|31485072|C8C9282E6112455E624EE82941E5BA00|p=79A822E1788353E0B289D2ADD5DA3BDE:FB9BB40DEDB1D2307E9D734A6416704B:0732B122C4ECF70065B181C92BF72400:437958DF590D764DE1694F91AC085225|h=HLXRQSANEO5MHIVOYNM5FNQOHJG3D5MP|s=http://blog.vichamp.com|s=http://www.baidu.com|/|sources,127.0.0.1:1234,192.168.1.1:8888|/

这给我们的第一感觉是可以用正则表达式来解析。我们观察一下它的规律，发现它是用 | 分割的字符串：

ed2k://
file
BingPinyinSetup_1.5.24.02.exe
31485072
C8C9282E6112455E624EE82941E5BA00
p=79A822E1788353E0B289D2ADD5DA3BDE:FB9BB40DEDB1D2307E9D734A6416704B:0732B122C4ECF70065B181C92BF72400:437958DF590D764DE1694F91AC085225
h=HLXRQSANEO5MHIVOYNM5FNQOHJG3D5MP
s=http://www.abc.com/def.zip
s=http://www.vichamp.com/qq.zip
/
sources,127.0.0.1:1234,192.168.1.1:8888
/

还有一些规律：

从 p= 开始，后面的段都是可选的。
p=xxx、h=xxx、s=xxx看起来像键值对。
s= 可以有多个，sources 后面的 IP 和端口可以有多对。

根据这个规律，我们可以很容易地构造出正则表达式，并用 PowerShell 解析它。

function Get-Ed2kLink {
    Param(
        [string]
        [Parameter(Mandatory = $true, ValueFromPipeline = $true, HelpMessage = 'Enter an ed2k:// url')]
        $Link
    )

    $regex = [regex]@'
(?x)
\bed2k://
\|file\|(?<FILE_NAME>[^|]+)
\|(?<FILE_SIZE>\d+)
\|(?<FILE_HASH>[0-9a-fA-F]+)
(?:\|p=(?:(?<HASH_SET>[0-9a-fA-F]+):?)+)?
(?:\|h=(?<ROOT_HASH>[0-9a-zA-Z]+))?
(?:\|s=(?<HTTP_SOURCE>[^|]+))*
\|\/
\|sources(?:,(?<SOURCES_HOST>[0-9a-zA-Z.]+):(?<SOURCES_PORT>\d+))*
|\/\b
'@
    $match = $regex.Match($Link)
    if ($match.Success) {
        $sourcesHost = $match.Groups['SOURCES_HOST'].Captures | Select-Object -ExpandProperty Value
        $sourcesPort = $match.Groups['SOURCES_PORT'].Captures | Select-Object -ExpandProperty Value
        $sources = @()
        for ($i = 0; $i -lt $sourcesHost.Length; $i++) {
            $sources += [PSCustomObject][Ordered]@{
                Host = $sourcesHost[$i]
                Port = $sourcesPort[$i]
            }
        }

        $result = [PSCustomObject][Ordered]@{
            File = $match.Groups['FILE_NAME'].Value;
            FileSize = $match.Groups['FILE_SIZE'].Value;
            FileHash = $match.Groups['FILE_HASH'].Value;
            HashSet = $match.Groups['HASH_SET'].Captures | Select-Object -ExpandProperty Value
            RootHash = $match.Groups['ROOT_HASH'].Value;
            HttpSource = $match.Groups['HTTP_SOURCE'].Captures | Select-Object -ExpandProperty Value
            Sources = $sources;
        }
    } else {
        $result = $null
    }

    return $result
}

Get-Ed2kLink 'ed2k://|file|BingPinyinSetup_1.5.24.02.exe|31485072|C8C9282E6112455E624EE82941E5BA00|p=79A822E1788353E0B289D2ADD5DA3BDE:FB9BB40DEDB1D2307E9D734A6416704B:0732B122C4ECF70065B181C92BF72400:437958DF590D764DE1694F91AC085225|h=HLXRQSANEO5MHIVOYNM5FNQOHJG3D5MP|s=http://www.abc.com/def.zip|s=http://www.vichamp.com/qq.zip|/|sources,127.0.0.1:1234,192.168.1.1:8888|/'

执行结果如下：

File       : BingPinyinSetup_1.5.24.02.exe
FileSize   : 31485072
FileHash   : C8C9282E6112455E624EE82941E5BA00
HashSet    : {79A822E1788353E0B289D2ADD5DA3BDE, FB9BB40DEDB1D2307E9D734A6416704B, 0732B122C4ECF70065B181C92BF72400, 437958DF590D764DE1694F91AC085225}
RootHash   : HLXRQSANEO5MHIVOYNM5FNQOHJG3D5MP
HttpSource : {http://www.abc.com/def.zip, http://www.vichamp.com/qq.zip}
Sources    : {@{Host=127.0.0.1; Port=1234}, @{Host=192.168.1.1; Port=8888}}

注意一下，由于 s= 和 sources 节包含循环体，所以不能直接用 PowerShell 的 -cmatch 表达式和 $Matches 变量，必须用 .NET 的 [regex] 类来处理。

参考材料：

eD2k 連結
Link Creator - 用于生成 eD2k 链接。

您也可以在这里下载完整的源代码。

2014-08-03发表2014-08-03更新markdown4 分钟读完 (大约541个字)

markdown 学习路线

Markdown 是一种轻量级标记语言，创始人为约翰·格鲁伯（John Gruber）。它允许人们“使用易读易写的纯文本格式编写文档，然后转换成有效的XHTML(或者HTML)文档”。这种语言吸收了很多在电子邮件中已有的纯文本标记的特性。

markdown

介绍

Markdown - 维基百科，自由的百科全书

规范

Markdown 的基本语法较为简单，所以多家衍生出不同的扩展版本。其中由于 GitHub 网站的流行，导致 Markdown 的 GitHub 扩展版本（简称 GFM）较为流行。

以下是基本语法和各个扩展版本的语法文档原始链接：

Markdown 快速入门(简体中文版)
Markdown 语法说明(简体中文版)
Daring Fireball: Markdown Syntax Documentation
Michel Fortin – PHP Markdown Extra
Markdown Editing Help - Stack Overflow
GitHub Flavored Markdown · GitHub Help - 简称 GFM，是目前较为通用的标准。

编辑器

MarkdownPad - The Markdown Editor for Windows

基于 .NET 开发，只用于 Windows，功能较齐全。GFM 风格离线编辑要收费。

MarkdownPad Screenshot

Sublime Text + Markdown Editing 插件，是我目前在用的，支持在浏览器中预览等功能。参见 sublime装配markdown插件 - 开源软件
Cmd Markdown 编辑阅读器 - 作业部落出品 - 在线编辑器

文化

拷贝为Markdown - 将你在页面中选中的HTML格式转化为Markdown格式
dcurtis/markdown-mark - markdown 图标
jeffa00/posh-markdown - PowerShell Cmdlet to convert Markdown to HTML. Uses MarkdownSharp DLL
用 Markdown 来生成 HTML 幻灯片
- jdan/cleaver - 简易，可换皮肤。
- gnab/remark - 略麻烦一点。
- jsakamoto/MarkdownPresenter - 不好用。
用 Markdown 来写书
- GitBook

2014-08-01发表2014-08-01更新powershell / text6 分钟读完 (大约888个字)

用 PowerShell 批量分割 QQ 聊天记录

纯文本文件有诸多的好处：

通用
易于管理
易于搜索
易于迁移

接下来我们用 PoewrShell 来处理 QQ 的聊天记录。目的是将所有的聊天记录按照“组名/对象名.txt”来分别保存每个好友、每个 QQ 群等的聊天记录。

我现在用的是 QQ 6.1 (11905) 版本。依次打开 QQ / 工具 / 消息管理器，点击右上角的倒三角按钮可以看到“导出全部消息记录”菜单项。我们在接下来的对话框里的保存类型中选择“文本文件(*.txt,不支持导入)”，并用默认的“全部消息记录.txt”文件名保存。保存之后的文件内容大概是如下格式：

消息记录（此消息记录为文本格式，不支持重新导入）

================================================================
消息分组:我的好友
================================================================
消息对象:Victor.Woo
================================================================

2010-01-06 16:57:28 Victor.Woo
http://pic4.nipic.com/20090728/1684061_175750076_2.jpg

2010-05-27 12:29:35 Victor.Woo
6块钱包月55
8000/月
中心端，用户端

================================================================
消息分组:技术.关注
================================================================
消息对象:*PowerShell技术交流
================================================================

2013-06-23 15:52:32 此消彼长，云过有痕<qq_g@163.com>
http://yun.baidu.com/buy/center?tag=4#FAQ02

百度亮了，自己找亮点

2013-06-23 18:42:35 Victor.Woo<victorwoo@gmail.com>
[表情]

观察它的规律：

以 ================================================================ 作为每一段的元数据开始。
接下来依次是消息分组、分隔符、消息对象。
以 ================================================================ 作为元数据的结束。
元数据之后，是正文部分，直到下一个元数据开始。
文件头部还有两行无关内容。
文件尺寸巨大，不适合整体用正则表达式来提取，只能一行一行解析。

我们的目标是生成 我的好友/Victor.Woo.txt 和 技术.关注/.PowerShell技术交流.txt

根据这个规律，我们可以用类似“状态机”的思想来设计 PowerShell 脚本。在遍历源文件的所有行时，用一个 $status 变量来表示当前的状态，各个状态的含义如下：

状态	含义
INIT	初始状态
ENTER_BLOCK	进入一个元数据块
ENTER_GROUP	“消息分组”解析完成
ENTER_SPLITTER	元数据中间的分隔符解析完成
ENTER_TARGET	“消息对象”解析完成
LEAVE_BLOCK	元数据块解析完成
CONTENT	当前行是正文内容

然后用一个 switch 语句让 $status 变量在这些状态之间来回跳转，就能解析出一个一个独立的消息文件了。完整代码如下：

function Get-Status($status, $textLine, $lineNumber, $block) {
    $splitter = '================================================================'
    switch ($status) {
        'INIT' {
            if ($textLine -eq $splitter) {
                $status = 'ENTER_BLOCK'
            }
        }
        'ENTER_BLOCK' {
            if ($textLine -cmatch '消息分组:(.*)') {
              $block.Group = $matches[1]
                $block.Target = $null
                $status = 'ENTER_GROUP'
                break
            } else {
              Write-Error "[$lineNumber] [$status] $textLine"
                exit
            }
        }
        'ENTER_GROUP' {
            if ($textLine -eq $splitter) {
                $status = 'ENTER_SPLITTER'
                break
            } else {
                Write-Error "[$lineNumber] [$status] $textLine"
                exit
            }
        }
        'ENTER_SPLITTER' {
            if ($textLine -cmatch '消息对象:(.*)') {
              $block.Target = $matches[1]
                $status = 'ENTER_TARGET'
                break
            } else {
              Write-Error "[$lineNumber] [$status] $textLine"
                exit
            }
        }
        'ENTER_TARGET' {
            if ($textLine -eq $splitter) {
                $status = 'LEAVE_BLOCK'
                break
            } else {
                Write-Error "[$lineNumber] [$status] $textLine"
                exit
            }
        }
        'LEAVE_BLOCK' {
            if ($textLine -eq $splitter) {
                $status = 'ENTER_BLOCK'
                break
            } else {
                $status = 'CONTENT'
            }
        }
        'CONTENT' {
            if ($textLine -eq $splitter) {
                $status = 'ENTER_BLOCK'
                break
            } else {
                $status = 'CONTENT'
            }
        }
    }

    return $status
}

$status = 'INIT'
$lineNumber = 0
$block = @{}
$targetPath = $null
cat 全部消息记录.txt -Encoding UTF8 | foreach {
    $textLine = $_
    $lineNumber++
    $status = Get-Status $status $textLine $lineNumber $block
    switch ($status) {
        'LEAVE_BLOCK' {
            if ($block.Target -eq '最近联系人') {
                break
            }
            $dirName = $block.Group.Replace('*', '.')
            if (!(Test-Path $dirName)) {
                md $dirName | Out-Null
            }

            $fileName = $block.Target.Replace('*', '.')

            $targetPath = (Join-Path $dirName $fileName) + '.txt'
            if (Test-Path $targetPath) {
                del $targetPath
            }

            echo $targetPath
        }
        'CONTENT' {
            #echo $textLine
            if ($block.Target -eq '最近联系人') {
                break
            }
            Out-File -InputObject $textLine -Encoding utf8 -LiteralPath $targetPath -Append
        }
    }
}

您也可以在这里下载完成后的版本。

2014-07-21发表2014-07-21更新powershell / text2 分钟读完 (大约324个字)

用 PowerShell 输出中文到剪贴板

方法一通过 clip.exe

用 PowerShell 将字符串输出到剪贴板的最简单方式是：

'abc' | clip.exe

不过直接这么使用的话，如果待输出的字符串是包含中文的，那么剪贴板里的内容会出现“乱码”：

'abc中文def' | clip.exe

剪贴板里的内容变成：

abc??def

这是因为为了兼容旧程序，管道操作缺省将字符串采用 ASCII 编码，因此对于中文字符，被转换成了“??”。解决方案如下：

$OutputEncoding = [Console]::OutputEncoding
'abc中文def' | clip.exe

方法二通过 WPF 方法

以 -sta 参数启动 PowerShell 后，执行以下代码：

Add-Type -Assembly PresentationCore
[Windows.Clipboard]::SetText('abc中文def')

PowerShell 2.0 的控制台，缺省设置是 MTAPowerShell 3.0 的控制台，缺省设置是 STA。

关于 -sta 的知识，请参见PowerShell中的 STA和MTA。

参考材料：

$OutputEncoding to the rescue
Powershell能否将文件列表写入剪切板
PowerShell中的 STA和MTA
PowerShell.exe Command-Line Help
QQ 群 *PowerShell技术交流（271143343） 2014-07-01 的讨论

2013-11-14发表2013-11-14更新text4 分钟读完 (大约584个字)

快速生成树形结构的纯文本

今天帮朋友整理一些材料，需要为这些材料整理一个目录。之前有研究过一些方案，例如：

这些方案有一个共性：麻烦。也就是无法像手头的工具一样拿来就用。于是发掘了一番，发现 tree 这个 dos 时代的命令刚好能满足需要。该命令的帮助如下：

以图形显示驱动器或路径的文件夹结构。

TREE [drive:][path] [/F] [/A]

   /F   显示每个文件夹中文件的名称。
   /A   使用 ASCII 字符，而不使用扩展字符。

我们可以用以下命令将 D:\work 下的结构输出到 output.txt 文本文件：

TREE "D:\work" /F /A > output.txt

然后用记事本之类的文本编辑器对它进行简单的编辑，就可以达到目的。

还可以拓展一下思路：在撰写文章的时候，常常需要描述一个有层次的结构（可以是心得体会之类的，不仅限于描述一系列文件）。此时可以在硬盘里创建一个临时目录，在里面创建一些文件夹和文件，用资源管理器拖拽调整目录结构，然后用上述命令导出一个目录文件，就可以快速地用于文档的撰写了。请不要徒手编辑这样的文本，因为那样很愚蠢，调整起来也相当费功夫。

命令执行效果参考：

卷 os 的文件夹 PATH 列表
卷序列号为 0000002C 000E:BD6F
C:.
|   HaxLogs.log
|   setmockup.log
|   WEVTUTIL.exe
|
+---adt-bundle-windows-x86
|   |   SDK Manager.exe
|   |
|   +---android-ndk-r9
|   |   |   documentation.html
|   |   |   GNUmakefile
...
|   |   |   README.TXT
|   |   |   RELEASE.TXT
|   |   |
|   |   +---build
|   |   |   +---awk
|   |   |   |       check-awk.awk
|   |   |   |       extract-debuggable.awk

介绍

规范

编辑器

文化

方法一通过 clip.exe

方法二通过 WPF 方法

链接

最新文章

归档

标签

分类

介绍

规范

编辑器

文化

方法一 通过 clip.exe

方法二 通过 WPF 方法

链接

最新文章

归档

标签

分类

方法一通过 clip.exe

方法二通过 WPF 方法