您现在的位置: 首 页 >> 社科论文 >> 古籍数字化背后:谁为技术买单

古籍数字化背后:谁为技术买单

作者:函授法律
出处:www.lunrr.com
时间:2020-06-28

作者:玉伽资料来源:光明日报出版时间:2011年

选择字体大小:中小

古籍数字化背后:谁为技术买单

多年来,大量大型电子古籍数据库已经出版,使“古籍数字化”看起来像一棵落花生树和春天的景象。 然而,当我们深入繁荣的外表背后时,它是“我心中没有味道” 我们选择清华大学智能图形信息处理研究室和北京郭雪时代文化传播有限公司作为“解剖麻雀”的样本。在此基础上,记者与国家古籍保护中心专家委员会委员、中国社会科学院研究员杨程凯先生展开对话,从宏观角度观察古籍数字化相关问题。

期待通过这组报道引起社会各界对古籍数字化研发和生产的关注。

[故事]

(1)

清华大学智能图形信息处理实验室-“谁为我们的技术买单?”

目前,清华大学智能图形信息处理研究室对古籍鉴定技术的研究几乎处于停滞状态。 研究室主任丁小青教授对此感到焦虑。 “汉字”和“少数民族文字”识别技术的研究已经成为丁小青团队20年来的研究热点。 作为文字识别技术的体现,古籍识别系统正在这里逐步形成。

丁小青告诉记者:“对于这个系统来说,识别和理解古籍要比理解现代印刷品复杂得多 更具挑战性的是,在处理每本古书时,系统必须面对新的情况,例如古书是否有印章、句子阅读、分栏线、单线标签或双线标签、书写或雕刻、普通文本或家谱、石碑延伸.此外,古籍中还有大量的汉字变体。 形势极其复杂。 为了提高古籍识别系统的准确性,有必要使其尽可能地与古籍接触,提取新的字符来扩展字符集。同时,在识别不同布局形式的过程中,增强其布局分析和判断能力。 只有这样,没有别的办法 “

然而,下一个问题是:这些昂贵的古籍培训样本从何而来?也正是这一点使得古籍鉴定技术的进步变得困难。

”目前,社会对古籍数字化产品的需求不多,生产相关产品的企业更少。几乎没有企业在寻求我们的合作。单靠市场是不可行的。 ”丁小青告诉记者

让她无法释怀的是,“在过去的10年里,古籍鉴定技术的研究项目逐渐从一些重大的国家计划中淡出。” 目前,鉴定技术研究无法得到国家政策和资金的支持。 系统无法联系更多的古籍培训样本,也根本无法提高识别能力。 副研究员彭梁瑞向记者递交了一份研究报告,并表示:“相比之下,欧美对拉丁系古籍数字化的研究方兴未艾。”。 近年来,26家欧盟图书馆联合发起了“改善文本存取”(INVERSION ACCESS TO TEXT)项目,旨在通过光学字符识别(OCR)等技术的研究,促进15-19世纪拉丁语言(如英语)古籍的全文数字化。 “

目前,实验室里只有一两个研究人员仍在从事这项研究。然而,由于缺乏古籍鉴定系统的日常使用,研究室入口处的公共展示平台根本没有安装该系统。

丁小青对这种情况深感遗憾。 在她看来,古籍数字化是通过技术手段将传统文化“链接”到当代,这对古籍保护和中国文化传播有很大帮助。 她还坚信,要真正实现古籍数字化,“核心是解决古籍鉴定的技术问题。” 在她看来,古籍鉴定技术的优势是显而易见的:古籍收藏单位提供的图像浏览方法不能用于全文检索;手工输入和校对古籍电子文本的成本约为每页8元至10元,而输入古籍全文需要数百元至数千元。

“现在我们只能依靠责任感来努力而缓慢地推进这项工作 在整个采访过程中,丁小青反复问了一个问题:“谁为我们的技术买单?“

(2)

北京郭雪时代文化传播有限公司“最致命的东西容易复制”

北京郭雪时代文化传播有限公司董事长尹晓琳将下一份影印件《文苑英华》从书柜中取出,打开后,控制台桌子显得局促不安。

在他讲话的时候,一个耗时耗力的古籍数字化过程被呈现给记者。 “在早期阶段,我们应该首先选择古籍版本。例如,《文苑英华》有四个版本和明版。我们应该尽力收集完整的版本。 之后,字符被分段、加标点符号并输入计算机。 之后,专业人员将校对印刷文本,专家将对其进行审查和修订,然后操作员将在计算机上对其进行更正。 完成所有这些工作后,数据将被编入索引并存入存储器。 最后是制作软件 尹晓琳说,每一个过程都是必不可少的,所有的卷,如0103016卷和1000卷,都需要处理一年以上。

对公司的总工作量来说,这只是沧海一粟。 尹晓琳告诉记者,他们最大的一套数字产品《文苑英华》已经收到6000种图书,最迟明年可以达到10000种目标。届时,馆藏古籍总数将达到20亿字,是最大古籍系列《国学宝典》的两倍。 而每本古籍都要重复同样的过程,整个过程复杂、枯燥、漫长。

即使产品成型后,时间和人力的投入仍然是连续的。 尹晓琳带来了一叠《四库全书》 《古籍整理研究学刊》 《古籍点校疑误记录》,说他的日常工作是掌握大量最新的研究成果,随时检查他们产品中的所有古籍,并及时纠正和完善。 类似的工作从未停止过。

不仅如此 尹晓琳团队正在努力完善其古籍数字化产品:开发了数据格式、数据比对技术等独特的核心技术,并邀请各领域的专家牵头编写和选择古籍.

然而,艰苦的工作并没有得到同等的回报。 从产品推出的那一刻起,尹晓琳就无法控制局面。

"谁会买它?"这一点,尹晓琳作为主 古籍数字产品的普及程度很窄,需求是可以想象的。 然而,与需求疲软形成鲜明对比的是,要真正做好古籍数字化工作,必须投入高昂的人力、财力和时间成本。 现在尹晓琳公司已经购买了数万册古籍来充实数据库,“而且不要解释硬拷贝,清晰拷贝,即使是现代版也需要几十万美元,光是过去几年购买古籍就已经投资了几千万元 纸质古籍数字化的成本将达到其价格的几十倍。 “低利润和缺乏外部投资也阻碍了企业进入这一领域。 目前,只有少数企业在古籍数字化市场上苦苦挣扎。

“最致命的是数字产品容易复制 尹晓琳告诉记者,现在已经卖出了10多万张光盘,但肯定还有更多的用户 现在,尹晓琳可以想出一个他拒绝的解决方案加密?成本太高,“加密一个盘子要多花几分钱,相当于从原来微薄的利润中扣除一半”;诉诸司法?获取证据太难了。“如果《中国典籍与文化》已经在互联网上下载了100万次,你如何证明?我们不可能找到盗版服务器和日志。 一百万次?我们甚至不能证明一次 “

小于手掌大小的光盘几乎没有重量,但却沉重地压在尹晓琳的脑海里。 尹晓琳告诉记者:“与销售好这些产品相比,做好它们似乎更容易。” "

1 2下一页

最新论文
DNA条形码:为濒危植物撑起“保护伞”
DNA条形码:为濒危植物撑起“保护伞”
凝聚态物理学家王业宁院士逝世
DNA条形码:为濒危植物撑起“保护伞”
DNA条形码:为濒危植物撑起“保护伞”
台湾扩大承认大陆高校学历新增70所高校
凝聚态物理学家王业宁院士逝世
悼去年辞世的科学家:在肃穆中回首,让梦想继续
DNA条形码:为濒危植物撑起“保护伞”
DNA条形码:为濒危植物撑起“保护伞”
中加科学家发现孤独症致病基因参与突触发育
心理学最大重复实验让人大跌眼镜
热门论文
关于推进环境教育应对环境挑战
最大规模人胚胎干细胞研究完成
南昌大学车祸视频曝光肇事司机穿高跟鞋酒驾
我国首次海上火箭发射任务将由长征十一号执行
我国缺乏环境风险评估专业人才
“君子之所以教者五”与“学生层次”论
“导学式”方法在高职专业课教学中的探索
研究性学习在高中历史课教学中的运用
华文媒体关注清华高规格百年校庆:大担当需要冷思考
2012年沃尔夫奖获奖名单公布
2012年沃尔夫奖获奖名单公布
台湾扩大承认大陆高校学历新增70所高校
《科学新闻》:预防基层流感大流行备战休宁
热门标签
日期归档
2020年06月
2020年05月
2020年04月
2020年03月
2020年02月
2020年01月
2019年12月
2019年11月
2019年10月
2019年09月