在本周的学习中,我对于术语管理和语料库方面有了较为全面的了解,从第一天的学习术语库构建的一般流程以及语智云帆术语库的构建方案中我首先了解到了,翻译术语库的概念就是通过科学的收集信息,输入信息,储存以及将这些信息分门别类,以此来换取术语信息,并为科技用户提供规范性的目带有检索功能的数据库。
术语库的设计有着不同的应用场景和建设目的,我们可以针对不同的设计场景和需求进行不同的设计,比如术语学研究者可能会需要对某一些术语进行历时性分析,即在不同的时间术语的不同译文。在标注阶段需要增加术语以及其译文的时间等等信息。但是如果是面向非业内人士的术语检索服务,就需要添加术语的释义信息等等。
在设计完术语库以后要开始语料分析,而到目前呢,语料的获取有三种方法,一是从现有的术语库中导入,二是从领域相关词表中编辑搜索并且手动收入,三是相关软件工具中提取并储存到数据库中。语料又分为单语语料和双语语料,对于前者,术语库的构建者要对语料进行初步的清洗,去掉语料中的标记,格式,以及非文本内容。然而对于双语文本语料,除了要对原文和译文进行初步的清洗处理以外,还要对原文和译文进行篇章级对齐,并且导出为成文的文本等格式。我还了解到了什么是句子段落级的切分与对齐以及人工校对以及切分结果和术语识别与翻译。对于大数量级的文本校对方法,取出一千分之一或万分之一的数据进行校对,如果错误率小于百分之一,则认为整体切分结果是可用的:否则不可用,需要进行原始数据筛查并且再清理。
对于语料库,在这周里我学习到了它的基本概念就是按照一定的采样标准,能够代表一种语言或者某种语言的一种变体或文类的电子文本集。语料库的主要类型通用性语料库和专用性语料库,有笔语语料库和口语语料库,或者单语语料库双语语料库以及多语语料库,共时语料库和历时语料库静态语料库和监控语料库等等。语料库的应用方面很广,包括词典的编辑,语言教学,材料的编写考试的开发以及自主评分系统和翻译研究。