新書推薦:
《
我们为何建造(城市与生态文明丛书)
》
售價:HK$
89.7
《
算法经济 : 商业逻辑与人类生活的智能演进(生动呈现AI与算法的创新应用与商业价值)
》
售價:HK$
79.4
《
家书中的百年史
》
售價:HK$
79.4
《
偏爱月亮
》
售價:HK$
45.8
《
生物安全与环境
》
售價:HK$
56.4
《
泥土:文明的侵蚀(城市与生态文明丛书)
》
售價:HK$
84.0
《
医用化学(第三版)
》
售價:HK$
57.3
《
别怕,试一试
》
售價:HK$
67.9
|
編輯推薦: |
本书分为三大部分:理论篇、工具篇与案例篇,主要介绍了语料库语言学的基本概念、建设原则和加工内容,运用"汉语助研"软件对语料进行建库、检索和统计的方法,以及相应的语料库统计和分析的具体案例等内容。
全书理论与实践相结合,内容翔实、通俗易懂,为广大读者提供了非常实用的语料库语言学方面的工具、方法和真实案例的介绍,能很好地满足汉语研究者对于语料库语言学的学习需求。
|
內容簡介: |
"汉语助研"是作者自主开发的,面向语言研究者,特别是汉语和汉语教学研究者的一款软件。软件力图帮助语言研究者比较轻松地建设语料库,使用语言大数据进行语言研究。汉语助研系统是国内外一个全面综合了语料库建设、检索和统计功能的辅助汉语研究的软件系统,集成了基于语料库方法的汉语字、词、句、篇研究的各项辅助功能,系统能很好地贴合汉语研究各方面的统计需求,功能针对性、实用性强。
汉语助研系统基于真实问卷调查数据分析,符合汉语研究的各项需求,特别是贴合了汉语研究者文科生的动手特点,软件架构、界面设计和编码清晰简洁,将复杂的统计、计算过程隐藏于后台,前端一键式、步骤式操作,简单易用。
|
關於作者: |
刘华,男,1975年生,博士,英国谢菲尔德大学访问学者,暨南大学教授、暨南杰青、博士生导师、博士后合作导师,广东省"千百十"省级培养对象,国家语委语言文字应用研究优秀中青年学者,北京成像技术高精尖创新中心(首都师范大学)、北京语言资源高精尖创新中心(北京语言大学)兼职研究员。
|
目錄:
|
理论篇
1 语料库语言学概述 / 2
1.1 语料库语言学的学科基础 / 2
1.1.1 语料库语言学的产生原因 / 2
1.1.2 语料库语言学的理论基础 / 2
1.2 语料库的定义、特点与分类 / 3
1.2.1 语料库的定义 / 3
1.2.2 语料库的特点 / 4
1.2.3 语料库的分类 / 5
1.3 语料库语言学的定义 / 6
1.3.1 前人论述 / 6
1.3.2 语料库语言学定义 / 7
1.4 语料库语言学的研究内容与方法 / 8
1.4.1 语料库语言学的研究内容 / 8
1.4.2 语料库语言学的研究方法 / 8
2 语料库的建设 / 10
2.1 概述 / 10
2.1.1 语料库建设的基本过程 / 10
2.1.2 语料库建设面临的问题 / 10
2.2 语料库建设的原则和规范 / 11
2.2.1 语料库总的建设原则 / 11
2.2.2 语料库的不规范性 / 12
2.3 语料库建设的平衡性与代表性 / 13
2.3.1 规模、语体、时间与空间 / 13
2.3.2 流通度 / 15
2.4 语料库建设的元数据与信息字段 / 19
2.4.1 元数据 / 19
2.4.2 信息字段 / 23
2.4.3 元数据、信息字段举例 / 24
2.5 语料库建设方法 / 27
2.5.1 总体设计 / 27
2.5.2 具体实施 / 27
3 语料库的加工标注 / 31
3.1 中文自动分词 / 32
3.1.1 词与自动分词 / 32
3.1.2 中文分词的特点和难点 / 32
3.1.3 常见的中文分词方法 / 34
3.2 中文词性标注 / 35
3.2.1 词性、词类与词性标注 / 35
3.2.2 词性标注难点 / 35
3.2.3 常见词性标注方法 / 36
3.3 自动句法分析 / 37
3.3.1 概述 / 37
3.3.2 句法分析分类 / 38
3.3.3 依存句法分析 / 39
3.4 语义分析 / 41
3.4.1 词语级语义分析 / 41
3.4.2 句子级语义分析 / 43
3.4.3 篇章级语义分析 / 44
4 术语说明 / 46
4.1 频次 频率 文本数 / 46
4.1.1 频次 / 46
4.1.2 频率 / 46
4.1.3 文本数 / 46
4.2 累加频率 覆盖率 使用率 高频词语 / 47
4.2.1 累加频率 / 47
4.2.2 覆盖率 / 47
4.2.3 使用率 / 47
4.2.4 高频词语 / 48
4.3 频序 频序比 频率差 / 48
4.3.1 频序 / 48
4.3.2 频序比 / 48
4.3.3 频率差 / 49
4.4 字种 字种数 词种 词种数 / 49
4.4.1 字种 / 49
4.4.2 字种数 / 49
4.4.3 词种 / 49
4.4.4 词种数 / 49
4.5 共用 独用 / 50
4.5.1 共用 / 50
4.5.2 独用 / 50
工具篇
5 网页批量下载 / 52
5.1 具有数字序列规律的网页下载 / 52
5.1.1 搜索网页 / 52
5.1.2 批量生成网址 / 54
5.1.3 创建工程 / 55
5.1.4 运行工程 / 57
5.2 具有时间序列规律的网页下载 / 58
5.3 无数字、无日期序列的规律网页下载 / 59
5.4 无任何规律网页的批量下载 / 60
6 网页信息抽取建库 / 65
6.1 网页内容解析原理 / 65
6.2 程序操作图示 / 67
6.2.1 打开待处理html 文件夹 / 67
6.2.2 展示待处理html 文件的文本内容 / 68
6.2.3 选择抽取字段的起止标记 / 69
6.2.4 选择抽取结果保存的文件夹和文件名 / 70
6.2.5 检查所有网页的抽取起止标记是否正确 / 71
6.3 语料库结果展示 / 71
7 例句检索 / 73
7.1 程序操作图示 / 73
7.1.1 打开、保存文件夹 / 73
7.1.2 选择检索模式 / 73
7.1.3 单击运行程序 / 74
7.2 检索结果展示 / 74
8 例句分析 / 75
8.1 程序操作图示 / 75
8.1.1 检索语料例句 / 75
8.1.2 打开、保存文件夹 / 75
8.1.3 选择例句集来源、输入前后标记 / 76
8.1.4 单击运行程序 / 76
8.2 统计结果展示 / 77
9 用字统计分析 / 78
9.1 程序操作图示 / 78
9.1.1 打开语料库文件夹 / 78
9.1.2 设置保存结果文件夹及名称 / 79
9.1.3 运行统计功能 / 80
9.2 统计结果展示 / 81
9.2.1 总的汉字使用的摘要报告 / 81
9.2.2 汉字分类使用情况 / 81
9.2.3 标点符号和汉字部件的使用情况 / 82
9.2.4 汉字字表的覆盖率情况 / 83
9.2.5 不同排序方式的字表 / 83
9.2.6 与其他字表对比的数据 / 85
10 用词用语统计分析 / 86
10.1 程序操作图示 / 86
10.2 统计结果展示 / 86
10.2.1 基本词语表 / 86
10.2.2 频次与词种数 / 87
10.2.3 高频词语用字统计 / 87
10.2.4 高频词语词长统计 / 88
10.2.5 覆盖率与词种数关系 / 88
10.2.6 词性及其频次的统计结果 / 89
10.2.7 词性及其词种数的统计结果 / 89
10.2.8 成语使用结果 / 89
10.2.9 与《汉语水平词汇与汉字等级大纲》(词汇大纲)对比 / 90
11 字词表对比分析 / 91
11.1 程序操作图示 / 91
11.1.1 选择对比项目和参数 / 91
11.1.2 打开、保存文件夹 / 91
11.1.3 单击运行程序 / 92
11.2 统计结果展示 / 92
11.2.1 频率差结果 / 92
11.2.2 频序比结果 / 93
11.2.3 共独用结果 / 94
12 字词表分布分析 / 95
12.1 程序操作图示 / 95
12.1.1 选择分布计算的大纲和项目 / 95
12.1.2 打开、保存文件夹 / 96
12.1.3 单击运行程序 / 96
12.2 统计结果展示 / 97
12.2.1 在《等级大纲》中的分布 / 97
12.2.2 在《新汉语水平考试大纲》中的分布 / 97
13 词语搭配抽取及分析 / 98
13.1 搭配抽取 / 99
13.1.1 程序操作图示 / 99
13.1.2 统计结果展示 / 99
13.2 搭配过滤 / 101
13.2.1 程序操作图示 / 101
13.3 搭配分析 / 102
13.3.1 程序操作图示 / 102
13.3.2 统计结果展示 / 102
14 词语按主题聚类 / 104
14.1 程序操作图示 / 104
14.1.1 打开、保存文件夹 / 104
14.1.2 选择聚类的底表和词语数 / 105
14.1.3 单击运行程序 / 105
14.2 统计结果展示 / 105
15 篇章风格统计分析 / 107
15.1 程序操作图示 / 108
15.1.1 打开、保存文件夹 / 108
15.1.2 输入特定字词 / 108
15.1.3 单击运行程序 / 108
15.2 统计结果展示 / 109
案例篇
16 国际汉语教学语料库建设 / 112
16.1 汉语口语教学语料库 / 112
16.1.1 话题库建设 / 112
16.1.2 话题分类、难度分级的常用会话资源库 / 113
16.2 商务汉语教材语料库 / 114
16.2.1 商务汉语教材语料库 / 114
16.2.2 商务汉语功能项目库 / 114
16.2.3 商务汉语功能项目分类语料库 / 115
16.3 中小学华文教材语料库 / 116
16.4 少儿汉语教材语料库 / 117
16.4.1 主题库 / 117
16.4.2 教材语料库 / 117
16.4.3 主题分类语料库 / 118
16.5 旅游汉语教材语料库 / 118
16.5.1 旅游汉语教材语料库 / 118
16.5.2 旅游汉语话题分类语料库 / 118
17 全球华语语料库建设及功能研究 / 120
17.1 全球华语语料库建设的必要性和意义 / 120
17.2 全球华语语料库建设 / 122
17.2.1 语料库建设的基本原则 / 122
17.2.2 语料来源与获取方法 / 124
17.2.3 语料库构成及比例 / 125
17.2.4 语料库信息字段及存储格式 / 126
17.3 全球华语语料库深加工 / 127
17.3.1 选取核心库 / 127
17.3.2 分词标注词性、人工校对 / 128
17.3.3 基本字词信息统计 / 128
17.3.4 音视频资源标注处理 / 128
17.3.5 华裔学习者作文和口语语料库偏误标注 / 129
17.4 全球华语语料库网络服务平台介绍 / 129
17.4.1 子语料库定制系统 / 129
17.4.2 网络版字词检索系统 / 129
17.4.3 网络版全文例句检索系统 / 129
17.4.4 音视频资源点播系统 / 130
17.5 结语 / 130
18 东南亚小学华文教材课文用字研究 / 132
18.1 语料和调查对象说明 / 132
18.2 各教材课文用字基本情况 / 133
18.2.1 字次与字种数 / 134
18.2.2 各教材前100 字共用独用情况 / 134
18.2.3 各教材课文用字在《等级大纲》(汉字大纲)中的分布
情况 / 136
18.2.4 新加坡两套教材课文用字对比 / 138
18.2.5 越南、泰国、印尼五套教材课文用字对比 / 139
18.3 各教材课文用字分年级情况 / 140
18.3.1 各教材分年级字次和字种数基本情况 / 140
18.3.2 分年级课文用字的《等级大纲》(汉字大纲)分布情况 / 142
18.3.3 课文用字字种数按年级增量情况 / 144
18.4 东南亚小学华文教材和中国小学语文教材课文用字对比 / 145
18.4.1 基本情况 / 146
18.4.2 分段的共用独用调查 / 147
18.4.3 基于频序比的汉字使用对比分析 / 149
19 东南亚小学华文教材课文用词研究 / 151
19.1 马来西亚《华文》教材课文用词调查 / 151
19.1.1 基本情况 / 151
19.1.2 频次与词种数的关系 / 151
19.1.3 词语的覆盖率 / 152
19.1.4 高频词的词长分布 / 154
19.1.5 成语调查 / 155
19.1.6 课文用词与《等级划分》(词汇大纲)的比较 / 159
19.1.7 课文用词按年级统计情况 / 160
19.2 马来西亚《华文》教材课文用词与新课标小学《语文》对比 / 161
19.2.1 基本情况 / 161
19.2.2 频次与词种数的关系对比 / 162
19.2.3 词语的覆盖率对比 / 163
19.2.4 高频词的词长分布 / 166
19.2.5 成语的对比分析 / 167
19.2.6 按年级对比马-《华文》与人教新课标《语文》课文用
词情况 / 168
19.2.7 高频词的频序比 / 170
19.3 东南亚不同层次小学华文教材对比 / 171
19.3.1 各层级教材课文用词基本情况对比 / 172
19.3.2 各层级教材课文用词按年级统计情况 / 178
19.3.3 各层级教材课文用词与《等级划分》(词汇大纲)的比
较 / 187
19.4 结语 / 191
20 少儿汉语话题及话题词表构建 / 194
20.1 术语及语料库介绍 / 195
20.1.1 话题词表、话题种子词 / 195
20.1.2 词语聚类 / 195
20.1.3 话题词语、话题通用词、话题专类词 / 196
20.1.4 相关语料 / 196
20.2 少儿汉语话题与话题库的构建 / 199
20.3 少儿汉语话题词表的构建标准与方法 / 203
20.3.1 少儿汉语话题词表的构建理论 / 203
20.3.2 少儿汉语话题词表的选词标准 / 205
20.3.3 少儿汉语话题词表的分类 / 205
20.3.4 话题词表的构建方法 / 207
|
內容試閱:
|
本书分为三大部分:理论篇、工具篇与案例篇。
"理论篇"主要介绍语料库、语料库语言学的基本概念,语料库建设的原则与方法,语料库加工标注的基本内容,以及本书语料统计所涉及的基本术语与方法。限于篇幅,并未对具体的加工标注方法(如词性、句法、语义自动标注的各种算法等)展开阐述。
"工具篇"是本书重点,以语料库建库与统计一体化软件"汉语助研"为例,详细介绍了语言学研究中常见的数据统计功能。
"汉语助研"是作者自主开发的,面向语言研究者,特别是汉语和汉语教学研究者的一款软件。软件力图帮助语言研究者较为轻松地建设语料库,使用语言大数据进行语言研究。"汉语助研"是一个全面综合了语料库建设、检索和统计功能的辅助汉语研究的软件系统,集成了基于语料库方法的汉语字、词、句、篇研究的各项辅助功能。该系统能很好地贴合汉语研究各方面的统计需求,在功能性、针对性、实用性等方面表现突出。
汉语助研系统基于真实问卷调查数据分析,符合汉语研究的各项需求,特别考虑了汉语研究者多为文科生这一特点,软件架构、界面设计和编码清晰简洁,将复杂的统计、计算过程隐藏于后台,前端一键式、步骤式操作,简单易用。本系统不仅适用于汉语研究,很多功能也能够有效辅助汉语教学,如字词表对比、字词表和大纲分布对比、例句检索、搭配抽取、词语聚类等。
"汉语助研"主要包括如下几个功能模块:
1. 语料库建设
个性化的网页信息自动抽取及建库系统。
2. 语料库例句检索及分析
自建语料库的各种检索功能;常见语料库例句检索结果智能分析。
3. 用字用词用语统计分析
语料库用字用词用语的全方位统计。
4. 字词对比、分布分析
字词表的共独用、频率差对比,字词表在常见等级大纲中的分布。
5. 词语搭配抽取及分析
在语料库中自动进行所有词语的前后搭配抽取与分析。
6. 语料库风格计算
统计计算语料库的语体风格等特征。
7. 词语智能聚类
在语料库中自动按类别进行词语聚类。
8. 其他语言统计工具
为了方便使用者,本书对于主要功能模块提供了具体的使用案例。
"案例篇"包括:
1. 国际汉语教学语料库建设
2. 全球华语语料库建设及功能研究
3. 东南亚小学华文教材课文用字研究
4. 东南亚小学华文教材课文用词研究
5. 少儿汉语话题及话题词表构建
6. 心理动词"了解"词语搭配研究
7. 高程度补语与述语的组合研究
"汉语助研"软件下载地址为:http:www.languagetech.cncorpustools.aspx
|
|