用 PowerShell 批量分割 QQ 聊天记录

纯文本文件有诸多的好处:

  • 通用
  • 易于管理
  • 易于搜索
  • 易于迁移

接下来我们用 PoewrShell 来处理 QQ 的聊天记录。目的是将所有的聊天记录按照“组名/对象名.txt”来分别保存每个好友、每个 QQ 群等的聊天记录。

我现在用的是 QQ 6.1 (11905) 版本。依次打开 QQ / 工具 / 消息管理器,点击右上角的倒三角按钮可以看到“导出全部消息记录”菜单项。我们在接下来的对话框里的保存类型中选择“文本文件(*.txt,不支持导入)”,并用默认的“全部消息记录.txt”文件名保存。保存之后的文件内容大概是如下格式:

消息记录(此消息记录为文本格式,不支持重新导入)

================================================================
消息分组:我的好友
================================================================
消息对象:Victor.Woo
================================================================

2010-01-06 16:57:28 Victor.Woo
http://pic4.nipic.com/20090728/1684061_175750076_2.jpg

2010-05-27 12:29:35 Victor.Woo
6块钱包月55
8000/月
中心端,用户端

================================================================
消息分组:技术.关注
================================================================
消息对象:*PowerShell技术交流
================================================================

2013-06-23 15:52:32 此消彼长,云过有痕<qq_g@163.com>
http://yun.baidu.com/buy/center?tag=4#FAQ02

百度亮了,自己找亮点

2013-06-23 18:42:35 Victor.Woo<victorwoo@gmail.com>
[表情]

观察它的规律:

  • ================================================================ 作为每一段的元数据开始。
  • 接下来依次是消息分组、分隔符、消息对象。
  • ================================================================ 作为元数据的结束。
  • 元数据之后,是正文部分,直到下一个元数据开始。
  • 文件头部还有两行无关内容。
  • 文件尺寸巨大,不适合整体用正则表达式来提取,只能一行一行解析。

我们的目标是生成 我的好友/Victor.Woo.txt技术.关注/.PowerShell技术交流.txt

根据这个规律,我们可以用类似“状态机”的思想来设计 PowerShell 脚本。在遍历源文件的所有行时,用一个 $status 变量来表示当前的状态,各个状态的含义如下:

状态 含义
INIT 初始状态
ENTER_BLOCK 进入一个元数据块
ENTER_GROUP “消息分组”解析完成
ENTER_SPLITTER 元数据中间的分隔符解析完成
ENTER_TARGET “消息对象”解析完成
LEAVE_BLOCK 元数据块解析完成
CONTENT 当前行是正文内容

然后用一个 switch 语句让 $status 变量在这些状态之间来回跳转,就能解析出一个一个独立的消息文件了。完整代码如下:

function Get-Status($status, $textLine, $lineNumber, $block) {
    $splitter = '================================================================'
    switch ($status) {
        'INIT' {
            if ($textLine -eq $splitter) {
                $status = 'ENTER_BLOCK'
            }
        }
        'ENTER_BLOCK' {
            if ($textLine -cmatch '消息分组:(.*)') {
              $block.Group = $matches[1]
                $block.Target = $null
                $status = 'ENTER_GROUP'
                break
            } else {
              Write-Error "[$lineNumber] [$status] $textLine"
                exit
            }
        }
        'ENTER_GROUP' {
            if ($textLine -eq $splitter) {
                $status = 'ENTER_SPLITTER'
                break
            } else {
                Write-Error "[$lineNumber] [$status] $textLine"
                exit
            }
        }
        'ENTER_SPLITTER' {
            if ($textLine -cmatch '消息对象:(.*)') {
              $block.Target = $matches[1]
                $status = 'ENTER_TARGET'
                break
            } else {
              Write-Error "[$lineNumber] [$status] $textLine"
                exit
            }
        }
        'ENTER_TARGET' {
            if ($textLine -eq $splitter) {
                $status = 'LEAVE_BLOCK'
                break
            } else {
                Write-Error "[$lineNumber] [$status] $textLine"
                exit
            }
        }
        'LEAVE_BLOCK' {
            if ($textLine -eq $splitter) {
                $status = 'ENTER_BLOCK'
                break
            } else {
                $status = 'CONTENT'
            }
        }
        'CONTENT' {
            if ($textLine -eq $splitter) {
                $status = 'ENTER_BLOCK'
                break
            } else {
                $status = 'CONTENT'
            }
        }
    }

    return $status
}

$status = 'INIT'
$lineNumber = 0
$block = @{}
$targetPath = $null
cat 全部消息记录.txt -Encoding UTF8 | foreach {
    $textLine = $_
    $lineNumber++
    $status = Get-Status $status $textLine $lineNumber $block
    switch ($status) {
        'LEAVE_BLOCK' {
            if ($block.Target -eq '最近联系人') {
                break
            }
            $dirName = $block.Group.Replace('*', '.')
            if (!(Test-Path $dirName)) {
                md $dirName | Out-Null
            }

            $fileName = $block.Target.Replace('*', '.')

            $targetPath = (Join-Path $dirName $fileName) + '.txt'
            if (Test-Path $targetPath) {
                del $targetPath
            }

            echo $targetPath
        }
        'CONTENT' {
            #echo $textLine
            if ($block.Target -eq '最近联系人') {
                break
            }
            Out-File -InputObject $textLine -Encoding utf8 -LiteralPath $targetPath -Append
        }
    }
}

您也可以在这里下载完成后的版本。

PowerShell 技能连载 - 查找 AD 用户

适用于所有 PowerShell 版本

假如您已登录到了一个活动目录域中,那么只需要执行一些简单的命令就可以搜索活动目录。在前一个技巧中我们演示了最基本的脚本。以下是一个扩展,它能够定义一个搜索的根(搜索的起点),就像一个扁平的搜索一样(相对于在容器中递归而言)。

它也演示了如何将活动目录的搜索结果转换成实际的用户对象:

$SAMAccountName = 'tobias'
$SearchRoot = 'LDAP://OU=customer,DC=company,DC=com'
$SearchScope = 'OneLevel'

$ldap = "(&(objectClass=user)(samAccountName=*$SAMAccountName*))"
$searcher = [adsisearcher]$ldap
$searcher.SearchRoot = $SearchRoot
$searcher.PageSize = 999
$searcher.SearchScope = $SearchScope

$searcher.FindAll() |
  ForEach-Object { $_.GetDirectoryEntry()  } |
  Select-Object -Property *

PowerShell 技能连载 - 查找并提取注册表键的路径

适用于所有 PowerShell 版本

在前一个技巧中,我们演示了如何将一个 PowerShell 内部的路径格式转换为一个真实的路径。以下是一个用力。这段代码递归地搜索 HKEY_CURRENT_USER 键,并且找出所有包含单词“_powershell_”的注册表键(您可以将搜索关键字换成任何别的):

Get-ChildItem -Path HKCU:\ -Include *PowerShell* -Recurse -ErrorAction SilentlyContinue |
  Select-Object -Property *Path* |
  Out-GridView

这段代码输出所有名称中包含“Path_”的属性。如您所见,注册表键中有两个属性包含该关键字:_PSPath 和 _PSParentPath_。两者都是 PowerShell 内置的路径格式。

要提取所有满足搜索条件的注册表键的路径,请使用以下代码:

Get-ChildItem -Path HKCU:\ -Include *PowerShell* -Recurse -ErrorAction SilentlyContinue |
  ForEach-Object {
    Convert-Path -Path $_.PSPath
  }

PowerShell 技能连载 - 修正 PowerShell 中的路径

适用于所有 PowerShell 版本

有些时候,您会为某些奇怪的路径格式感到困惑,比如这个:

Microsoft.PowerShell.Core\FileSystem::C:\windows\explorer.exe

这是一个完整的 PowerShell 路径名,路径中包含了了模块名和提供器名。要得到一个纯的路径名,请使用以下代码:

Convert-Path -Path Microsoft.PowerShell.Core\FileSystem::C:\windows\explorer.exe

PowerShell 技能连载 - 修正名单中的大小写

适用于所有 PowerShell 版本

假设您的工作是更新一份名单。以下方法可以确保只有名字的第一个字母改成大写。这个方法对于姓-名的方式也是有效的:

$names = 'some-wILD-casING','frank-PETER','fred'

Foreach ($name in $names)
{
  $corrected = foreach ($part in $name.Split('-'))
  {
    $firstChar = $part.Substring(0,1).ToUpper()
    $remaining = $part.Substring(1).ToLower()

    "$firstChar$remaining"
  }
  $corrected -join '-'
}

Some-Wild-Casing
Frank-Peter
Fred

PowerShell 技能连载 - 使系统休眠

适用于 PowerShell 所有版本

以下是一个简单的系统调用,可以使系统休眠(当然,前提是启用了休眠功能):

function Start-Hibernation
{
  rundll32.exe PowrProf.dll, SetSuspendState 0,1,0
}

请注意这个函数调用是大小写敏感的!

PowerShell 技能连载 - 指定递归深度

适用于 PowerShell 3.0 及更高版本

当使用 Get-ChildItem 来列出文件夹内容时,可以用 -Recurse 参数来对子目录进行递归。然而,这导致无法控制递归深度。Get-ChildItem 会在所有子目录中搜索,无限地递归下去。

Get-ChildItem -Path $env:windir -Filter *.log -Recurse -ErrorAction SilentlyContinue

有些时候,我们会见到一种类似这样的方法,来试图控制递归的深度:

Get-ChildItem -Path $env:windir\*\*\* -Filter *.log -ErrorAction SilentlyContinue

然而,这并不能限制只递归 3 层。实际上,它的作用是搜索 3 层及 3 层以上的文件夹。它不会搜索 1 层或 2 层的文件夹。

限制递归深度的唯一办法是自己实现递归算法:

function Get-MyChildItem
{
  param
  (
    [Parameter(Mandatory = $true)]
    $Path,

    $Filter = '*',

    [System.Int32]
    $MaxDepth = 3,

    [System.Int32]
    $Depth = 0
  )

  $Depth++

  Get-ChildItem -Path $Path -Filter $Filter -File

  if ($Depth -le $MaxDepth)
  {
    Get-ChildItem -Path $Path -Directory |
      ForEach-Object { Get-MyChildItem -Path $_.FullName -Filter $Filter -Depth $Depth -MaxDepth $MaxDepth}
  }

}

Get-MyChildItem -Path c:\windows -Filter *.log -MaxDepth 2 -ErrorAction SilentlyContinue |
  Select-Object -ExpandProperty FullName

这段代码将获取您 Windows 文件夹中深度在 2 层以内的 *.log 文件。

PowerShell 技能连载 - 以底层的方式管理打印机

适用于所有 PowerShell 版本

新版本的 Windows 操作系统,例如 Windows 8 和 Windows Server 2012 对打印机支持得很好,不过如果您在运行旧版的 Windows,那么这段代码可能有所帮助:

PS> rundll32.exe PRINTUI.DLL,PrintUIEntry

PS>

请注意这段代码是大小写敏感的!请不要加空格,也不要改变大小写。

这段代码将打开一个帮助窗口,列出了许多东西,包括演示如何安装、删除和复制打印机驱动的例子。这个工具也可以远程使用,假设您通过合适的组策略允许远程操作。

PowerShell 技能连载 - 别名有可能带来风险

适用于所有 PowerShell 版本

在 PowerShell 中执行命令时,别名享有最高的优先权,所以如果遇到了有歧义的命令,PowerShell 将会优先执行别名命令。

这样可能很危险:如果您允许别人更改您的 PowerShell 环境,并且私下添加了您不知道的别名,那么您的脚本执行起来的效果可能完全不同。

Here is a simple call that adds the alias Get-ChildItem and lets it point to ping.exe:
以下是一个简单的例子,创建了一个名为 Get-ChildItem 的别名,并指向 ping.exe

Set-Alias -Name Get-ChildItem -Value ping

这将导致一切都改变了:Get-ChildItem 不再列出文件夹内容了,而是变为 ping 的行为。甚至,所有的别名(例如 dirls)现在都指向 ping。我们假想一下如果别名指向了 format.exe,那么您的脚本会做什么?

PowerShell 技能连载 - 转换特殊字符(第二部分)

适用于所有 PowerShell 版本

在前一个技巧中我们演示了如何替换一段文本中的特殊字符。以下是另一种方法,虽然慢一点,但是更容易维护。它也演示了一个大小写敏感的哈希表:

function ConvertTo-PrettyText($Text)
{
  $hash = New-Object -TypeName HashTable

  $hash.'ä' = 'ae'
  $hash.'ö' = 'oe'
  $hash.'ü' = 'ue'
  $hash.'ß' = 'ss'
  $hash.'Ä' = 'Ae'
  $hash.'Ö' = 'Oe'
  $Hash.'Ü' = 'Ue'

  Foreach ($key in $hash.Keys)
  {
    $Text = $text.Replace($key, $hash.$key)
  }
  $Text
}

请注意该函数并不是以 @{} 的方式定义一个哈希表,而是构造了一个 HashTable 对象。由于 PowerShell 所带的哈希表是大小写不敏感的,而这个函数创建的哈希表是大小写敏感的。这一点非常重要,因为该函数期望对大小写字母作区分。

PS> ConvertTo-PrettyText -Text 'Mr. Össterßlim'
Mr. Oesstersslim

PS>

如果您想要指定 ASCII 码,以下是一个用 ASCII 码作为键的变体:

function ConvertTo-PrettyText($Text)
{
  $hash = @{
    228 = 'ae'
    246 = 'oe'
    252 = 'ue'
    223 = 'ss'
    196 = 'Ae'
    214 = 'Oe'
    220 = 'Ue'
  }

  foreach($key in $hash.Keys)
  {
    $Text = $text.Replace([String][Char]$key, $hash.$key)
  }
  $Text
}