现需要一个比较特殊的语料库检索工具,在linux下写了一个python脚本,终端里运行,效果令我非常满意。
然而,复制到windows里面(win8),莫名其妙各种UnicodeDecodeError。
首先是文件读取。获得文件列表,一一打开
代码: 全选
for i in os.listdir('win ni mei'):
content=open('win ni mei/%s'%i,'r')
...
然后是字符串查找。win比linux多了好几步decode,encode。读取到的字符串需要先进行decode('utf-8'),要查找的字符串需要进行decode('gbk'),写入的时候还需要再encode('utf-8'),linux里面完全不需要这些。
此外,顺便吐槽win的分区。电脑城里装电脑时都把office啊,250套装啊,球球啊装到D盘,说是能节省C盘空间。好多同学都是这么做的。
老衲问他们,为什么要节省C盘空间?不分区不行么?
大家纷纷用鄙视的眼神看着我:那你中病毒了或者需要重装电脑怎么办?
老衲笑:为什么会中病毒?为什么需要重装系统?
众人依然鄙视:幼稚!拜托有点长远意识好不好?你怎么保证你不中病毒?而且如果是系统升级呢?你不得重装么?
老衲抖了抖衣袖,露出来一个ubuntu的图案。霎那间众人色变。在一片惊恐的眼神中,老衲飘然离去。深藏功与名。