新闻媒体数据库建设的观察思考

 2007-03-28 18:02   

  计算机、网络、数据库是构成当今世界现代信息社会的要素。

  数据库产业既是一个高投入的产业,又是一个高技术产业。数据库的建设需要采用科学的信息组织和加工方式。由于数据库产品有着巨大的市场潜力,数据库产业被称为朝阳产业。

  随着新闻传播业数据库建设的发展,数据库已经成为新闻媒体向用户提供新闻信息服务的主要手段之一。数据库的规模、内容和它所拥有的用户数量,已成为衡量一个媒体实力的重要标志。20世纪80年代,我国新闻媒体(包括报社、杂志社、广播电台、电视台、通讯社)进入计算机时代,数据库建设也随之开始起步,如新华社和北京电讯工程学院合作开发了采用关系型数据库ORACLE建立的新闻资料检索系统,并于1989年4月通过了由机械电子部和新华社共同主持的技术鉴定。进入90年代,报社的数据库建设迅速展开,标志性的事件是1992年8月,TRS与人民日报社合作开发的中文全文按词检索系统在人民日报社投入运行。我国新闻媒体数据库经过10多年的努力建设,不论是数量、规模,还是质量、水平,都取得了长足的进步和快速的提高。

  我国新闻媒体于20世纪90年代中期进入互联网时代后,经过10余年的发展,今天几乎每一家媒体均已在互联网上建立网站,因而为公众提供查询服务的在线数据库的数量也在不断增加。

  近年来,随着数字化进程的加快,新闻媒体更加重视数据库的建设,各新闻单位纷纷投入大量人力、物力和财力,开发以满足新闻信息资源整合、共享为出发点的,面向市场的多媒体数据库产业。目前,一批具有相当实力的数据库厂商已经崛起,一些新闻媒体和机构基于海量信息资源数据库提供新闻信息服务,其用户规模和经营收入已相当可观。

  新闻媒体数据库不但有着一般数据库建设的共同技术要求,而且还有其独特的特点,这主要表现在:信息时效性强、信息入库量大、用户查询量大、数据需要各个子系统的共享和相互间的访问等。

  新闻媒体数据库按内容分类,可以分为全文检索数据库、图片数据库、多媒体数据库、等;按工作性质分类,可分为待编稿件数据库、采访线索数据库、成品稿件数据库(新闻历史资料库)、客户关系数据库、分类广告数据库等。

  除新闻媒体自建数据库外,一些专业数据库提供的期刊数据服务,不论数据量,还是服务水平,都已达到了相当高的水平。如北京万方数据有限公司的《数字化期刊全文数据库》,以中国数字化期刊群为基础,整合了国内科技论文与引文数据库及其他相关数据库中的期刊条目部分内容,基本包括了我国文献计量单位中自然科学类统计源刊和社会科学类核心源期刊。不仅是我国首家网上期刊的出版联盟,而且是核心期刊测评和论文统计分析的数据源基础。截至2006年8月,已收录5462种期刊,多达2833万条的海量数据库资源。再如,由清华同方光盘公司、清华大学光盘国家工程研究中心等多家单位建设的“中国知识基础设施工程”(China National Knowledge Infrastructure,CNKI),是进行知识融合、生产、网络化传播和互动交流的大规模信息化服务工程,其核心是一系列重要数据库,亦包括了中国重要报纸全文数据库(CCND)、中国期刊全文数据库(CJFD)。

  在报业领域,新闻媒体数据库技术应用不断向纵深发展,从全文索技术,发展到覆盖内容采集、创建、传递、分析等完整的内容全生命周期的内容管理技术,实现了文本自动分类、聚类、关联分析、摘要、排重和相似搜索等功能,做到了文本挖掘技术的产品化和实用化,为智能化和个性化信息处理打下了坚实的技术基础,将知识管理的技术与内容管理技术相互融合。

  在广播电视业领域,新闻媒体数据库发展到媒体资产管理系统,实现了媒体资产数据的存储与再利用,满足了管理与应用两个核心要求,媒体资产拥有者可以创建、挖掘、存储、管理、应用、发布各种形式信息;可以融合硬盘、大规模磁带库系统、DVD存储系统等多种介质为一体、基于SAN(存域网)构建的先进HSM(分层存储体系)系统,集视频上下载、编辑、著录、检索、借阅、点播、统计等功能为一体;完善的检索系统,能做到文字、流媒体、关键帧序列、广播级图像随意浏览与检索。

  新闻媒体数据库系统平台,今天已发展到支持跨数据库,如Oracle、DB2、MS SQL Server、Sybase;支持SAN、NAS、DAS等多种网络存储结构,支持分级存储体系;数据流磁带库、光盘库发展到支持多厂家、多种规格产品,可以提供基于WEB方式的带库管理功能以及自有视音频归档迁移系统;支持线性增长的网络存储性能,磁带离线管理功能可以使系统存储容量无限扩充。

  新闻媒体数据库在媒体中的地位越来越重要,作用越来越显著。它是对新闻信息资源进行整合、共享和优化配置的先进技术手段和平台;是新闻信息的新载体(媒体);是新闻信息资源增值的手段。

  我国新闻媒体数据库的建设极大地推动了整个行业数字化的进程,它的开发利用极大地改变整个行业的面貌。

  随着信息化建设的普及和深入,我国新闻传播业已基本实现数字化和网络化,积累了大量的数字资产。数字资产的整合和再利用是普遍面临的问题。在媒体竞争日益加剧的情况下,数据库建设是新闻传播业的核心环节。

  尽管新闻传播业数据库建设取道了长足进步,但是必须看到还存在不少问题,如管理运营水平不高,营销推广力度不大,不同媒体发展水平不平衡等。

  纵观新闻媒体数据库的建设,我们注意到这样一个特点,一般来说,规模较大的新闻媒体和机构比较重视数据库的建设,不但投入大,而且在技术和应用上都有不少创新之处,规模和效益比较明显,如新华通讯社、中央电视台、人民日报社等单位的新闻数据库各具特色,为业界提供了可供借鉴的宝贵经验。2006年6月28日,新华社联合国分社在美国曼哈顿亚洲文化中心,举办了一场主题为“让世界了解中国,让中国走向世界”的新闻发布会,这是新华社首次在北美公开向华文媒体推介多媒体数据库,反响和收效良好。这反映了新华社数据库经营理念的变化。

  通过对有关新闻数据库的研究,对于新闻媒体数据库未来的建设与发展,我们提出以下建议:

  (一)面向标准化

  中国新闻信息国家标准的颁布,为新闻信息的交换和共享奠定了基础。但是,光有标准是不够的,接下来重要的工作,是共同开发出采用标准的数据库产品。为此,有以下几个层面的工作要做好:首先,新闻数据库研发单位要积极开发出支持相关标准的数据库应用系统;其次,新闻单位要加强标准化意识,从新闻数据的源头做起,在新闻采编的数字化进程中,采用支持相关标准的应用系统;最后,做好历史数据的标准化迁移工作。

  (二)面向新媒体开发

  数据库本身就是媒体,我们使用“百度”进行网上搜索,用的就是数据库功能。在统一的采编数据库平台上,新闻资源可以得以有效的整合,数据库本身就是极具价值的资源,也是媒体。新闻数据库对外开放,通过网上检索、手机检索,就可以实现信息增值,为受众提供新的媒体手段。新闻数据库建好了,新媒体的开发就会纲举目张,“一次生成,多次利用”便会得以实现。因此,在新闻媒体数据库的建设中,要在技术和应用上面向新媒体开发,做好衔接工作。

  (三)面向传统媒体新闻生产方式的变革

  以往的新闻数据库往往是新闻成品的数据库,也可以称其为新闻历史资料库。新华社多媒体数据库中的待编稿库、新闻线索库、报道指挥库的应用,为新闻媒体数据库应用提供了新的理念:把新闻信息的共享从新闻信息生命周期的末端――新闻成品,提前到新闻信息生命周期的最前端――新写稿件;通过数据库实现了全方位、立体化高度协同的新闻采编体系,有效地实现了新闻资源的共享,极大地解放了新闻生产力。

  新闻媒体从根本上说是内容产业,而数据库本身是内容整合的有效工具,是数字内容产业的价值体现。整合是结构的优化,是流程的再造,是力量的倍增器。以数据库为核心的应用系统在新闻媒体的推广和深入,将引发传统媒体工作方式的变革;以数据库为核心的媒体资源整合,是提高新闻媒体竞争力的重要手段。

  (四)面向市场

  数据库是朝阳产业,具有广阔的发展前景。在新闻媒体数据库的建设过程中,要注意分析受众的需求,根据不同用户、不同行业的特点,开发特色的数据库产品,最大限度地满足社会的需求。在满足社会需求的同时,经济效益就会随之而来,从而达到信息的增值。

  本文发表于《中国传媒科技》2006年第10期