当前位置:主页 > 资讯 > 市场政策

谭跃:传统出版数字化的关键与产业方向

时间:2018-01-18 09:32:43来源:中国新闻出版广电网作者:谭跃
  中版集团正形成多种专业数据库

  近年来,中国出版集团正在形成古籍、辞书、翻译、百科学术文化、音乐、美术、法律等专业数据库,同时集团资源总库的建设已拥有20多万种资源。我举几个例子:

  “经典古籍数据库”。中华书局经过3年的开发,已上线古籍1200多种、10亿字。2017年实现升级改造:第一,建立“传统文化大数据中心”,未来3年实现5万种古籍、150亿字的数据化。第二,依托大数据中心,开发古籍、善本、工具书、论著4个数据库。第三,依托大数据中心,一是以众筹分包的形式向大众组稿,二是对古籍整理进行自动标点、注释、校勘、翻译,三是采取数字平台+按需印刷的方式进行出版。

  语言文字知识服务平台。商务印书馆以300种工具书和500多种语言文字图书,为中小学生提供了学习平台。它以字词所涵盖的丰富内容,通过可读、可视、可听的方式,构建生动形象、触类旁通、激发思考的知识学习体系:一是纸本到线上的产品服务,目前已上线《新华字典》APP;二是数据库服务,可针对不同需求开发不同数据库;三是多语种学习;四是与华为、腾讯、百度、搜狗、科大讯飞合作,提供权威的语言文字基础数据。预计在5年内实现个人付费用户达到60万人/年、累计150万人次,机构用户累计达到1400家,APP累计销售157.5万份,数据包产品用户最高达到500万人/年。

  中读。汇集杂志、自媒体、书籍等内容数据,通过大数据的深度解析,提取内容兴趣、知识点、阅读习惯、阅读互动行为等标签,对用户的知识需求进行精准画像,为用户提供更精准的内容。同时,通过互联网化的手段,不断聚集内容、用户及需求,形成内容生产传播大数据生态。

  在线音乐教育平台。以音乐大数据为基础,采取“开发区招商模式”,吸引国内外音乐培训机构入驻,以众包众筹方式,提供各种音乐学习产品和服务。同时,通过语音识别技术,导入名师资源,提供测试、问诊及解决方案,规划未来几年吸引5万名商家入驻,积累2000万用户。

  易阅通平台。一是实现数据资源的海量聚合。目前已上线外文电子书36万种、数字期刊1.35万种,中文电子书39万种、数字期刊3700多种,有声书10.5万集,开放获取资源5.4万种。二是实现对图书馆由纸本提供向数据内容提供商转变。三是易阅通打通了国内外4万多家图书馆和100多万个人用户的渠道,并在100多个国家开通了72小时直供的按需印刷网点。

  译见跨语言大数据。一是构建起了全球最大规模的语言资源大数据,其中双语平行语料累计超过48亿句对,仅次于谷歌,中英平行语料规模全球最大;二是构建了全球最大规模的多语文本大数据,采集数据源超过2000万个,日更新超过3000万篇新闻和5亿条社交媒体数据,数据总量达到2PB,其中新闻数据量超过200亿篇,覆盖60多种语言和100多个国家;三是领先的跨语言搜索技术和基于知识图谱的语义搜索技术,构建起了新闻、企业和科技等领域知识图谱。

  大数据再大、再神也是工具

  身处大数据时代,我对大数据的认识是:第一,大数据无处不在,古已有文,云计算激活了它的蓬勃生机;第二,大数据的核心是预测,特点是大而全,是样本即整体,因而放弃精确,拥抱混杂,反而更加精确;第三,大数据的关键在相关关系,一旦掌握了量化的相关性,就掌握了预测的钥匙;第四,大数据再大、再神也是工具,传统出版可以在学习中掌握主动。

  在数据驱动的第三波产业发展中,我们也更清晰地认识到:第一,新时代,主要矛盾,高质量发展,底层的最基本问题是创新,而创新的决定性因素是科技。第二,传统出版本身还有自己的发展空间,但中心正在转移,融合发展将逐步成为主旋律。第三,在数字化网络化的浪潮中,传统出版商的要害是内容数据,前提是内容的数据化,关键是内容数据的集成,核心是内容数据的研发应用,而出版数字化的前景是内容数据的提供商、研发商和服务商。第四,在数据化中出版将真正成为内容的提供、服务和创新主体。内容数据的规模,它的资产化、集约性、增值潜力将越来越代表着出版新业态的方向。总之,内容数据,对我们的数字化来说是“一”的一切,是一切的“一”。

  我们力图构建一个以数据为核心、以出版新业态为导向的由内向外、逐步延展的大数据现代知识服务体系。从目前发展看可描述为4个圈层:一是基础层,即数据资源平台,也是知识服务的前端,主要解决数字标准、资源供给问题,回答“数据从哪里来”。二是核心层,即知识服务的核心平台,主要提供不同领域的专业化知识服务,主要解决“数据生成了什么”,主要包括大众、古籍、工具书、百科、音乐、美术、动漫、法宣等多个知识服务平台。三是中间层,即电商平台,解决关联领域的交易机制问题,主要解决“数据如何交易”,主要包括综合运营、易阅通国际、艺术品、新华、大中专采选等多个平台。四是外围层,即大数据智能分析,属于知识服务的衍生领域,主要包括译云、新华物流大数据平台。

  (作者系中国出版集团公司总裁)