百度十周年所想 & 人计算

这两天生病了,于是停下了手中的工作和申请的事情。闲下来时候重新看了看百度十年来相关的资料。这些阅读加深我的一个观念:成功人士都是“偏执”狂。这种“偏执”其实就是对于信念的坚定。李彦宏从上大学开始就没有离开过搜索。在大学里面他就认识到了“人人都需要信息,人人都需要搜索”,这种预见能力是令人叹服的。

但更令我佩服的是他的“偏执”:在他毕业申请出国的时候应该知道转专业一定会影响到了他的申请,但他毅然从图书馆管理专业 转到计算机专业;在他布法罗念书的时候一定渴望顺利完成博士学位,成为一个令人尊敬的研究人员,至今他提到自己学位只是硕士时仍略带遗憾, 但他毅然转硕进入工业界;在他成为搜信的高级工程师的时候应该知道创业成功的人只是百万分之一,回国就可能一无所有,但他毅然放弃了国外的车子、房子、老婆独自回国。

如果他今天没有成功,他一定会被人嘲笑为“傻人”。李现在的名气大多因为他的样貌,财富和地位,这也是许多人所歆羡的。但当初做他做这些选择的不易估计也是常人难以体会和忍受的。

以前我认为,一个人的力量决定于他知识的多少,现在我更加倾向于,一个人的力量决定于他内心是否强大。这个世界上聪明的人很多,但是真正内心强大的人却不多。李彦宏就是这样一个人。他肯定算不上是最优秀的,他读书的时候一直都很少拿第一名。但是昔日的那些比他聪明的学生早已消失在茫茫人海之中,籍籍无名,而李彦宏却凭着自己内心对于搜索的坚定实现了他的人生信念:“让每个中国人都能够更加方便的获取信息”。

*************

闲话扯完,进入正题。百度去年提出了框计算,相较于谷歌的云计算,框计算更加贴近于市场,贴近于用户。如果说过去十年里,百度成功的实现了让人们能够更加“方便”的获取信息。未来李彦宏希望能让人们更加“舒服”的获取信息。框计算就是这个指导思想下的产物。

在我的理解里,框计算有前台和后台之分。前台分析用户需求,后台匹配海量数据。这些技术都不新鲜,每年各大实验室也有N多相关论文问世。所以李彦宏认为基于这样的思路的下一代搜索引擎将成为主流也是在情理之中的。

我同意在未来搜索引擎需要让人们更加舒服的获取信息。但是框计算或许难于成为下一代搜索引擎的主流。原因主要在于框计算的前台和后台的各项技术都是由机器还完成的,缺乏人的参与。

在人工智能完善之前,机器计算出来的结果是人感到完全满意是几乎不可能的事情。做过模糊聚类和评价的人都知道。在现今的理论框架下,几乎不存在一种模型在什么情况下都能够达到100%的分类准确率,不可能存在一种评价体系式式每个评价都合情合理。人心太复杂,现在对人的任何建模都不过式一种简单的抽象,是难于用于实际了。这种情况在最近的将来不会得到明显的改善。这些技术依赖于人工智能的发展,而人工智能的发展又依赖于生物学的发展。

我一直找不到一个合适的词汇来描述我对未来技术的预见。后来看到CMU提出的人计算(human computing),我觉得还是比较符合我的构想的。我相信,在不远的将来,人计算或者具有与之类似原理的计算将会广泛应用到各大搜索引擎的后台,慢慢积累而形成质变。当然,也有可能异军突起一个基于此的IT领袖,像当年的微软、雅虎和谷歌一样。结果如何,大家拭目以待吧。

转一篇关于人计算的小文:

——————————————————————————

转载自(http://blog.sina.com.cn/s/blog_5e718bc90100g6ei.html

人计算-Human Computing

最近一直在思考关于social computing 的方面问题,并想把它作为10年后的研究方向和重点,恰巧老板发来一片science上的文章《reCAPTCHA: Human-Based Character Recognition via Web Security Measures》,深感云计算太远,人计算开来更实际。简单介绍一下。

路易斯.凡.安(Luis Von Ahn),卡耐基梅隆(CMU)的研究者,28岁那年,获得麦克阿瑟(MacArthur)天才奖金,或许大家并不熟悉,但他的发明机会所有的网站所有的网民都要引用得到。2000年还是学生的他在导师的指导下,发明了验证码(CAPTCHA)使用机制,就是我们在网站登录时,需要添加的校验码。当初的发明初衷,是防止密码被盗用或者反垃圾邮件(anti-spamming),这项技术发明后短短五年内,每天就有2亿个检验码在被使用,十年之后的今天,几乎所有的网站都采用这个技术来校验用户身份,保证信息安全。

然而Luis Von Ahn并没有在安全认证领域止步,一方面将校验码的模式与程序公布在自己的网站上,供更多的网站使用,另外,Luis进一步拓展这个发明背后的实际上是一门新的学科,叫做“Human Computation”或者“Human-based Computation”。有人称之为“人本计算”或者“人计算”。即利用网络的分众性和协同性,可以轻易完成很多计算机不可能完成的事情。这门学科正是研究如何把人的这个优势发挥出来,与计算机互动,达到一个最佳结果。当所有的人都在思考如果是计算机替代人的时候,Luis Von Ahn却在想利用互联网,利用社会化的协同工作模式,实现计算机根本不可能完成的事情,以达成群体智能的效果。这就是《科学》上的另一个伟大实现,reCaptchas,与检验码身份验证如出一辙,却是另外一番天地的创造性应用。

《纽约时报》创刊与1851年,158年的历史,作为传统传媒业的需求是简单的,就是想把所有的报纸电子化,对于电子化出版之后的工作相对简单,但过往故纸堆上的文字就显得十分困难,传统OCR的技术不能实现百分之百的准确,如果如果人工录入的方式,整个工作耗时耗力不说,一个字一个字的打印录入,校对,短期内基本上是不可完成的任务。Luis Von Ahn的校验码2005年已经得到了广泛的使用,两者之间有什么联系吗?Luis给出的解决方案,当时互联网上每天有2亿个校验码被使用,虽然每个用户在录入校验码的时候只需要10秒钟,但如果把这些时间全部利用起来,就是20亿秒,相当于50多万个小时。Luis Von Ahn把这些事件利用起来,实现不可想象的伟大实践。现在看来,方法很简单,把扫描的《纽约时报》通过简单的分词形成,然后入库编码,作为校验码的素材提供给用户,用户每一次填注校验码的过程就是对文字的一次录入,通过众多用户的协同,当所有的人都对一个图片给出相同的单词结果时,这个结果就是正确的。无数的用户输入的内容整合链接起来,就是一个完整的数字化的《纽约时报》。

Luis Von Ahn的脚步依然没有停止,通过reCaptchas,他利用人的群体智慧和集体计算的模式,做了很多开创性的事情。他最常用的实现模式就是利用SNS的互动游戏的模式,来实现传统模式识别与计算科学中。他的主要应用成果在www.gwap.com上可以体验获得(Game With A Purpose)。

基于内容的图像识别与搜索中,样本的标注是一个很繁琐的问题,为了让计算机内识别图片里的内容,必须要用到许多标注好的图像样本来训练识别核,传统的方式只能通过人工进行大量的手工标准。2006年,Luis推出了一个著名的游戏,叫ESP Game。这一游戏的玩法其实很简单:进入游戏,网站会给你随机配一个伙伴,两人同时看一张图,让你在两分钟内给图片写出关键词,如天空、鸟、足球、奔跑等等。如果你们两人写的关键词一样,就可以得分。通过积分的方式激发用户参与的积极性,网站每天公布得分最高的游戏者,Luis通知这种方式收集的关键字超过了5000万。这个发明已经被谷歌所采用,在谷歌推出的产品Google Image Labeler中,使用的方式就是通过游戏互动的方式来实现图像标注,之后用户谷歌的图片检索引擎。人们在游戏中,已经为科学与商业过程做出来贡献。

Luis一招鲜,吃遍天,他又将这种思想用到了歌曲识别的样本标注上。一首歌曲,听到的人可以在上面进行标注,如“摇滚”“迈克尔杰克逊”“颤栗”……这样进行音乐搜索的时候,标注的人越多,搜索识别结果越精确。之后的游戏还有用于计算机视觉的Squigl(涂鸦)的游戏,还有用于收集语言网语料的Verbosity(唠叨)的游戏。Luis在他的研究中总结了三种常见的GWAP方式:

Output-agreement games.
Inversion-problem games.
Input-agreement games.

这三种方式,都是通过互动游戏的方式,利用协同计算或者人本计算的模式,解决了计算机不可能准确实现的问题。Luis Von Ahn利用人擅长做而计算机不擅长的能力,并通过游戏把这方面的资源尽可能开发收集起来,服务与科学过程。

当我们都在考虑云计算的时候,基于人的互动协同计算其实离我们很近,每天的校验码的登录填注,百度知道与维基网的点击阅读……我们可能都在不知不觉中,贡献了自己的力量。

附:

对我们的启示:

1、              自由的、不受束缚的思想更容易产生创新的智慧。看似废话,如果Luis Von Ahn接受了老师的安排,只停留在校验码的安全机制研究上,就不可能产生今天的人本计算(Human Computation)。如果瓦茨(小世界理论的发现者)只是授意与导师,研究昆虫共鸣的理论,没有与人类社会对应,就不会有今天的小世界模型。

2、              科学需要开放的胸怀,互联网的本质就是回归人原始本性的共享与开放。Luis Von Ahn将校验码的研究成果与源码在自己的网站上与人共享,也是今天所有的网站都在使用校验码模式的原因。倘若当初,Luis Von Ahn通过专利控制这项技术的扩散与使用,估计今天他也就是一篇学术论文而已。

3、              科研与实践需要持续积累。Luis Von Ahn在2000年开始做检验码方面的研究与实践,并在之后提出Human Computation的概念。之后的9年里,他将这种思想与理论应用到了极致,从文本识别,图像内容识别,语音识别,语义网等传统模式识别与机器学习领域,都有他的尝试。实践积累非一日之功,虽然没有复杂的公式推导与理论,但利用互联网的大量实践工作也同样证明了协同计算与演进式学习的有效性。

4、              结合中国的实践还有哪些应用。中国是人口大国,拥有最多的互联网用户与手机上网用户,这些人口资源与上网资源如何有效的利用与收集起来,服务科学上的突破,将会是中国学者需要深入思考和探讨的。比如淘宝网上将会有世界上最大的商品图片库与用户商品标注信息,这些信息将用于商品搜索;维基网与百度知道上有最全面的常识与词语解释,这个将成为语义网学习的语料,而这个语料是通过协同工作的方式,保证了语料的准确性和有效性。抛砖引玉,从事机器学习、模式识别、数据挖掘、web搜索的学者可以沿着这条思路,看看还有哪些需要人与机器互动来实现的过程。

2010-03-03 09:54

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: