最近遇到了使用Nginx 重写中文UTF8编码路径的问题。 才发现默认情况下Nginx的rewrite是不支持UTF8匹配的。 比如:
rewrite ^/(..)$ /2个字符文章.html break; #用2个点
可以匹配到 /ab 或 /51, 但 /汉字 是匹配不到的。 我测试了一下, 要匹配两个字的 /汉字 路径, 得用
rewrite ^/(……)$ /2个汉字文章.html break; #要用六个点
如果要让 ^/(..)$ 匹配到2个汉字字符,得开启Nginx对UTF8字符的正则支持, 准确点说是开启Nginx使用的PCRE库的对UTF8字符的支持。因为Nginx的rewrite模块是调用PCRE来处理正则的。 如果PCRE没有问题,Nginx支持UTF8编码的重写样式是:
rewrite "(*UTF8)^/(..)$" /2个字符文章.html break;
#注意(*UTF8)前缀和引号的加入。
继续阅读 →
发表在 信息处理, 站长文档
|
标签为 linux, nginx, nginx中文url重写, nginx的utf8支持, pcre, PCRE的UTF8编码支持, rewrite, url, url重写, utf8, 中文, 中文url, 服务器
|
自己的黑苹果太慢了,买了个64G的镁光M4 SSD硬盘。刚安装了上去。 发现机子比之前快了65.71倍。 以下是xbench的测试截图:

65.71当然是噱头,指的是4k blocks random uncached write项。 看广告不如看疗效, 机子上的lion系统启动时本来要转60个圈(这也太慢了。。。汗,随机启动的程序太多太杂了。。。还好一天基本就启动一次),现在只要转13圈就进系统了,打开程序也变得飞快。反正高兴的我愿意免费发博文为SSD这种东西打广告了。
这次只买了个64G的,将和系统系统最相关的操作系统搬移到了上面。 过些时候等SSD白菜了再搞几个。 我的主板还是只支持SATA 3G的,如果是支持SATA 3的主板那速度又更快不少了。 感觉能DIY的服务器和笔记本电脑应该尽早升级到SSD。
这是我整理出来的一份汉字字频表。 包含汉字10029个。文件采用utf-8编码,换行符为LF,每个汉字一行, 数字是对应汉字在文库中出现的次数。汉字和数字由一个空格分隔。
语料文库是我自己从网络整理而来的,包含小说,杂志,科普图书,论坛帖子等,共计1亿多个字符(文本大小300M)。由于语料原自网络,受中国网站普遍采用GB2312,GBK,GB18030等汉字编码影响,这些编码表内的汉字字频可能会普遍偏高。
字频表文件下载点这里。 大家可免费使用, 引用请用链接注明来源。 谢谢。
以下为出现概率最高的50个汉字(汉字字频表 样本):
继续阅读 →
发表在 信息处理
|
标签为 汉字, 汉字字频, 汉语, 汉语信息处理
|
使用android系统的一个好处就是有很多很多的应用程序。 而且大部分是免费的, 使用各种市场, 安装非常方便。 下面我列出一些我使用的一些android应用程序, 附上简短的介绍。 非名不分前后, 想到啥写啥。
百度输入法
使用它因为带了五笔输入法。 五笔输入一般只在外接键盘时或使用AC100时使用。如果只用拼音的话搜狐,QQ,Google听说都不错。
SSH Tunnel
用来透气的东西。 这个好像在2.1之前的系统没有作用。 只有一个2.2的A650S上使用正常。 困惑。。。
Record My Call
录音软件。 这个可以后台录音, 随系统启动。 接打电话时自动录音。 可惜不支持mp3格式。 继续阅读 →
发表在 信息处理
|
标签为 android, 列表, 手机, 软件
|
我今天才发现,原来google地图有标注功能,而且是“云标注”。
在台式电脑上打开google地图, 登录你的google账号, 在地图上找到你想要做记号的地方, 点击地点名称(如果当地是荒地,没有名称,右键“what’s here”创建一个箭头), 弹出来的界面地名边有个五角星,鼠标点击一下这个星星,这个地方就被标注了!
在手机上打开google地图,登录同一个goolge账号, 在星标菜单里就可以看到刚才标注的地点了。 其实手机上也可以做标注。
使用起来比手持GPS做标注更方便, 而且保存有账号的话还不用担心同步数据问题。。。 当然,可惜云也有不安全的一方面。
不管怎么, 如果手机的电力非常强大, 在城市游行的话,手持GPS真的可以不用带了。
另外:google earth现在可以装进浏览器里面了。 安装一个插件就可以了。 不过目前好像只支持windows和mac os x上的浏览器。
xmarks是一个多平台的浏览器书签同步工具。我一般在Mac的Safari上浏览网页, 所以Safari上有经常用到的网站书签。使用xmarks,可以将这些书签同步到同个电脑的FireFox或Chrome浏览器上。 之前我使用过xmarks,但后来他们宣布停止开发了也就没再使用。 今天从LifeHacker那里了解到xmarks竟然复活了,而且还多了iphone,android手机等平台。不过现在同步到手机好像是收费功能。 希望早日有人山寨出免费版,或是我写这介绍文章的最主要动机。。。
另一个让我意外的是现在xmarks是和LastPass狼狈为奸的。
LastPass,和1Password类似,是一个浏览器插件, 用它可以记下所以网站的登录用户名和密码, 比如某个论坛的登录密码。 下次打开这个论坛,需要登录时点击一下浏览器工具栏上这个插件按钮,LastPass会自动将你的用户名和密码填写到论坛登录页面上。LastPass不但支持密码记录,同时还支持IE, FireFox, Safari, Chrome等不同浏览器里同步, 还支持Windows,mac, linux, iphone, android, symbian等不同平台。 所以,基本上有了它, 你可以忘记你是谁和那个证明自己是自己的密码了。。。 而且,不同于1Password,它是免费的!
现在xmarks好像是lastpass公司的了。 lastpass公司为这两个软件提供特别功能的收费服务。
文件同步方面,DropBox还在墙外(墙外好多东西啊。。。网站一个接一个被墙,人民情绪一直稳定,ZF在温水煮青蛙啊), 没找到方法使用, DropBox之前被封了,所以我使用SugarSync, 用它可以将电脑上的文档,照片等文件同步到手机上。 下面是我的推荐链接, 点击这个链接注册,你我双方都会增加500M空间:
https://www.sugarsync.com/referral?rf=fepjo0giwdkpm (注册可能需要翻墙,但同步文档时不用)
现在DropBox又可以使用了。但它目前只支持iphone, android和BlackBerry手机。Nokia的symbian系统还不支持。 网上有通过sugarsync曲线在symbian手机上使用dropbox的教程,需要的可以参考一下。
另外Evernote可以在windows, mac, iphone, ipad, android等多平台间同步便签。Evernote的平台应该是在同类软件中最多的。 可惜它在android上的易用性和界面不如Springpad。而Springpad没有mac版本,只是在线网页版, 而像我这种思想比较传统的人,对要打开浏览器才能使用的网页版应该程序总感觉没有桌面版方便。
你一身多机了吗? 有没有更高明的同步技巧?
发表在 信息处理
|
标签为 android, evernote, iphone, lastpass, mac, sugarsync, windows, xmarks, 云技术, 多平台, 工具软件, 数据同步
|
现在云技术正时髦。把书签,文档或照片传到网上,这有好处。 只要能上网,无论在家里还是公司学校, 无论是台式电脑,笔记本还是手机冰箱,都可以访问到这些文档照片。 因为方便,所以越来越多的人使用, 甚至最近Google推出的使用Chrome OS操作系统的笔记本更是要最小化本地储存, 把更多的空间留给云技术。
我写这样一个题目不是来反对云技术的。 我自己也使用云技术。 现在我在使用网络书签, 大量的文档存在email信箱里, 网上也注册了dropbox,里面也有资料。 我在这里想指出的云技术有时候不可靠。 大家不要过于依赖云技术。
详细一点:
云技术不一定保密
把照片,特别是女朋友或情妇的照片/或公司见不得人的机密文件上传到网上,比如QQ空间,即便加上100位数的密码, 我感觉也不一定保密。 首先, 云技术公司的员工,比如QQ空间的服务器管理人员,可以轻松地绕过你的密码,在当地服务器硬盘上查看文件内容,或进行复制操作。 当然,一个有道德的公司应该不会让员工这么做,但是, 谁都不能保证一个公司的品德, 特别是在流氓公司横行网络的今天。。。退一万步,即便网络上真的出现了一个像船长我这样的品学兼优做CEO董事的公司, 我也不能保证我招的每一个服务器管理员的质素,更不能保证他们一生不醉酒或不因失恋而失控。储存有这些数据的公司只是保密的一部分。 数据还有可能在传输过程中被黑客或电信机构等或暗或明目张胆地劫取或监控。。。所以,只要你传了情妇(们)的照片到云技术平台上,你可能为自己成为陈冠希2.0埋下了伏笔, 事发之后损人害已。。。三思三思。
云技术不一定安全,数据有可能会丢失
放在云端的数据丢失的可能性是存在的。导致云技术公司不能提供服务原因很多, 比如服务器故障, 比如机房断电, 比如机房被破坏(自然灾害,外星人入侵。。。), 还有很多更可悲的人为灾难, 比如机房被拔网线,域名被DNS被电信公司劫持, 域名被注册商停止解释(以我的经验,我确信比例是前三后七!)。
事实上让我写这文章的是前不久发的日本核电泄漏事件。 这么先进强大细心的日本, 也没料想到地震和核电站间的种种细节关联。 云技术上的资料, 要依靠天上云端的公司, 要依靠本地的数码设备, 要依靠电力系统, 要依靠网线网络, 天灾如地震, 人祸如核爆炸都可能把今天看来稳固, 想当然可以依靠的数码信息社会时代打破。 现在的网络如超大的肥皂水泡,可能很圆,可能多彩,很多的人甚至搬到里面工作生活学习娱乐, 但这样的水泡实事上挡不住一个小针尖。 如果真的电线干线或网络干线被断开了,手机找不信号了,怎么上网下载云上面的收藏夹? 怎么打开收藏好的菜单做饭?到时你不会后悔没把最心爱的歌词手抄一份放在身边吗?
所以说可以使用云技术, 但因为不一定保密, 所以要明白自己上传的东西有外流的可能。 要谨慎选择上传的东西。 当然,你也可以利用这点, 上传大量的假信息, 让误导窃取的人,让他进入混乱状态,伺机单挑; 因为云不一定安全, 所以最好做本地备份。如果资料重要,备份尽量多做一些, 如狡兔三窟,如曹操九十九墓, 备份尽量多样化, 如照片最好在本地硬盘, 外置移动硬盘(防止计算机故障或被盗窃), 当然,最好再素描一张,藏到华山背后的秘密山洞里。
信息时代,数据无价, 船长友情提醒你认真对待。
发表在 信息处理, 某时雨集
|
标签为 云技术, 数据备份
|
上次是智器V5 II,现在是东芝AC100,看来玩Ubuntu for ARM玩上隐了。东芝AC100很轻巧。 10寸屏带键盘才860g, (不带电池700g, 充电器350g). 可惜带的是Android系统(2.1或2.2),兼容和使用都不是很爽。 还好有人在研究于AC100上安装Ubuntu linux操作系统。 经过好几天的尝试,我终于成功地在自己的东芝AC100上安装上了Ubuntu 10.10。 虽然还有不少问题有待解决, 但系统现在还是可以用的。 本文是我的经验总结, 希望对你有用。 有问题请留言。
东芝AC100详细配置
东芝AC100在全球发行的版本硬件略有不同(在日本这个叫Toshiba dynabook az),在中国发行的版本Toshiba AC100-01B (P/N:PDN01Q-00801G), 使用Tegra T250双核A8 1G处理器,512M内存,16G内部空间,带WIFI蓝牙,不带3G上网模块或GPS. 屏幕是10寸的,分辨率为1024 x 600 。
详细硬件参数: 继续阅读 →
更新:更新使用HID蓝牙无线键盘的情况。
买了一个惠普折叠便携式蓝牙键盘(HP Bluetooth Foldable Keyboard FA287A) ,想用它和使用android系统a650s手机连接起来打字。 成功了一半。
继续阅读 →
发表在 信息处理
|
标签为 android, 手机, 蓝牙, 键盘
|
像下图的验证码界面相信不少网友见过吧?

这个是Google和很多其它网站都在使用的验证码界面。我很久之前就遇到过了, 但我是到今天才知道它叫reCAPTCHA, 并且这背后的有藏着一个大阴谋--Google正在用它一次一字地数码化传统的打印在纸上的报纸和图书!
每次reCAPTCHA会显示两个单词。 这两个单词中有一个google是认识的, 另一个是google用扫描仪从图书或报纸上扫描出来,用计算机识别不出来的难字。 用户在填验证码后,google会根据那个已经认识那个单词的输入准确性判断用户是不是机器人。如果用户通过测试, google就把用户录入的另一单词作为对应难识别字的正解。。。 当然,google不会只相信一个人的判断, 它会把这个难词多次交给不同的人去识别, 然后统计分析出最可能的正解。 这样的验证验被提交一次, 实际上就是在帮google录入一个图书的文字!
CAPTCHA验证码本来是在垃圾信息同机器人横飞的年代,不得以被逼出来的一种费财费力的东西。 没想到google会将之变废为宝, 利用它来信息化图书。 这可人类省下多少精力, 又可为自己带来多少利润呢?
我在想: 现在很多人花钱到健身房去健身,其实上在里做了很多无用功, 要是能用类似这些健身的功力来发电, 用这些电可以从井抽多少的水? 又可以节省多废气的排放呢?
google关于reCAPTCHA的更多说明(英文):
http://www.google.com/recaptcha/learnmore
reCPTCHA是开放api的。你可以在自己的网站上使用reCAPTCHA。 从上面的链接进去可以申请。