公告栏:

首页 > 项目动态 > 列表

大数据需要“大认知”(11BYY088)

作者:北京外国语大学外国语言研究所教授 王馥芳

近年来,“大数据”已经从一个流行词演变成了一个被广为看好的产业链。社会各界多从功用性角度出发看待大数据,而较少思考大数据的认知本质。从认知科学的 角度而言,大数据自身并无内在的价值或者意义,其价值或者意义本质上是认知依存的:认知框架决定或者定义大数据的价值和意义。

大数据:机遇和挑战并存


    “大数据”业已成为社会最引人关注的“热词”之一,但是,有关大数据的定义却不一而论。目前社会各界对大数据的理解多是狭义的,如食品安全大数据、粉丝大数据、经济大数据、农业大数据、科技大数据,等等。
  在探讨大数据时,社会各界多集中在其所带来的裨益或者可能面临的潜在挑战上。对大数据持乐观态度的人认为:它有利于优化社会管理、行政管理、政府决策 并可能促发社会变革;有利于保障民权;有利于反腐,能使权力受到有效监督,并促使社会制度进一步完善;增加对各类社会事件预测的准确性,从而使世界变得更 宜居,人类的生存环境变得更安全。对大数据持批评性态度的人认为:其一,受限于当前的运算技术、数据断裂和封闭以及诸多人为因素,出现了很多伪运算结果, 导致大数据可能成为“大忽悠”,从而导致各种潜在风险。其二,大数据侵犯个人隐私。大数据时代,个体没有隐私,个体的各种行为痕迹都被放大在大数据的显微 镜下。其三,大数据可能存在“陷阱”,数据不是越大越好。受制于多方因素的影响,大数据甚至会导致“假规律”和“伪相关”。


认知“陷阱”

  梳理时下有关大数据的各种信息以及相关论述。我们发现,人们在对待大数据方面存在诸多认知“陷阱”。
  美国大学的一些研究人员在对大数据最早也是最知名的应用之一——“Google Flu Trends(谷歌流感趋势)”——流感爆发预测的某些失真案例进行分析研究后指出:人们对大数据的热捧很可能催生一股“大数据自大思潮”。这股思潮的核 心是,大数据可以完全取代传统的数据收集和分析方法。“大数据自大思潮”的核心问题在于:大数据未必是最具代表性的数据;大数据可能只是巨量的庞杂数据, 而非真正意义上的价值数据。
  在大数据问题上,除“大数据自大思潮”的风险之外,人们对大数据普遍持有的利弊观实质上反映的是我们对大数据的另外一种普遍认知“陷阱”:大数据内在 价值论。这种内在价值的存在使得大数据自身会说话!大数据说真话的时候,我们享受到的是大数据带来的裨益,而其说假话的时候,我们则面临着其带来的潜在风 险。
  殊不知,从认知科学的角度而言,大数据作为一种海量数据,其自身并没有任何内在的价值和意义,其价值和意义受制于我们认知系统中各种认知框架对它的认 知分析和解读。所有语词的理解和定义都是有赖于框架依存的。当我们听到一个语词,与其相关的概念框架就会在我们的脑中被激活。若语词所激活的概念框架是我 们后台认知系统的一部分,那么,我们就能理解该词的语义。设若语词所激活的概念框架与我们的后台认知系统相冲突,那么,我们就不解其意。“框架”的认知功 能在于型塑我们看待世界的方式。因此,数据或者信息要想被我们理解和接受,它们必须和我们脑中内在的认知框架相匹配。如果数据或者信息和认知框架不相匹配 或者相冲突,那么,框架照旧保留,数据则被框架弹出而变得毫无意义。认知框架是一把“双刃剑”:它一方面赋予数据以价值和意义,另一方面则有可能剥夺数据 的价值和意义。

唯有“大理解”,大数据的价值才能凸显


  对在数量上可控的“小数据”而言,其最有价值的不是数据本身,而是创新性的数据分析、解读、理解和认知模式。虽然大数据在表面上看是海量或者巨量信息 的无限膨胀,但数量之巨并未改变数据的本质。大数据本质上仍然是一种数据。既然同属数据范畴,大数据最有价值的也并不仅仅体现在信息之“巨量”上,真正决 定和实现大数据价值的同样是创新性的数据分析、解读、理解和认知模式。换言之,大数据只有变成了“大理解”,大数据的价值才能真正凸显。
  “大理解”概念是美国的一家私有非盈利机构TED(技术、娱乐、设计)的创始人提出的。2014年8月27日,TED创始人理查德·沃曼曾谈到:“我 们需要将大数据变为大理解。只有真正理解数据,才能触及到人本身”。沃曼没有给出“大理解”的定义。基于大数据的信息海量性或者说巨量性,我把“大理解” 阐释为一种“超理解”,即一种大大超越人类现有理解极限的巨延性概念化活动。
  从认知科学的角度而言,我认为要真正实现从“大数据”到“大理解”的转变,取决于我们在多大程度上具有“大认知”能力。广义上,“大认知”指的是一种 大大超越人类认知极限的、以理解“大宇宙”为最终目的的巨延性概念化活动。狭义上,“大认知”指的是一种大大超越人类认知极限的、以理解某个特定区域或者 领域之方方面面为最终目的的巨延性概念化活动。
  只有在“大认知”的视野下,大数据才真正具有价值和意义。对任何一个特定的人类概念系统而言,不管其思维力有多么强大,其所能处理的信息或者数据都具 有认知局限性。这种局限性主要表现在三个方面:一是,其对信息的处理和理解是选择性的;二是,其所能处理和理解的信息类型具有局限性;三是,其所能处理和 理解的信息数量具有局限性。
  人类概念系统对信息处理的局限性在很大程度上使得“信息膨胀”这个概念事实上成为了一个伪命题:由于特定概念系统所能处理和理解的信息在本质上是具有 认知局限性的,故超出特定概念系统所能处理和理解的、处于信息理解临界点之外的那部分信息,不管其在数量上是大抑或小,它们对这一特定概念系统而言实质上 是无意义的、无用的,抑或是“不可见”的。如果我们把某一特定概念系统所能处理和理解的全部数据或者信息定义为真正意义上的数据或者信息,那么,这一概念 系统所不能理解的数据或者信息在本质上则不是真正意义上的信息,或者说是无价值信息。基于此,能被某一特定概念系统处理和理解的、真正意义上的数据或者信 息是不存在“膨胀”之说的:因为不管它们怎么膨胀,最终都能被特定概念系统中的各种认知框架所消化、吸收、接受并理解。而不能被某一特定概念系统理解的、 并非真正意义上的数据或者信息虽然在理论上可以无限“膨胀”,但由于这种“膨胀”对于这一特定概念系统而言是“不可见”的,因而这种“膨胀”对于那个特定 的概念系统而言是无用的和没有任何意义的。这种“信息膨胀”的无意义实质上消解了“膨胀”的内在意义,使得“信息膨胀”成为一个伪命题。
  认识到“信息膨胀”有可能是个伪命题的重要意义在于:由于“信息膨胀”是导致大数据产生的重要原因之一,若“信息膨胀”是个伪命题,那么大数据在很大 程度上可能就是“大忽悠”。从认知框架决定数据或者信息的价值和意义这个角度而言,要避免大数据成为“大忽悠”,我们需要引入“大认知”概念。
  借用当前的一句流行语,“大认知”本质上是“超神一样”的认知。有鉴于人类永远达不到“超神一样”的认知能力,故虽然大数据中存在着巨大的科学可能 性,但是,大数据技术还远未到可以取代更传统之方法或者理论的地步。在当前看来,大数据产业可能更多的是一种具有超大想象空间的技术愿景。[此为作者主持的题为“词典释义的完备性描述研究”(批准号为11BYY088)的国家社科基金项目阶段性成果。](《社会科学报》1436期第6版)