NLTK中文语料库sinica_treebank-白红宇

NLTK中文语料库sinica_treebank

阅读量：4678 次

发布时间：2019-06-09

本文共 2743 字，大约阅读时间需要 9 分钟。

（博主亲自录制视频教程）

http://www.hankcs.com/program/python/nltk-chinese-corpus-sinica_treebank.html

NLTK包含Sinica （中央研究院）提供的繁体中文语料库，其在Python环境下的显示有些讲究。

NLTK sinica_treebank 显示中文

在IDLE中如果直接查看的话会显示十六进制码：

>>> from nltk.corpus import sinica_treebank

>>> sinica_treebank.words()

['\xe4\xb8\x80', '\xe5\x8f\x8b\xe6\x83\x85', ...]

如果想在IDLE中查看这些进制码对应的中文的话，可以：

>>> print '\xe4\xb8\x80'

NLTK中文词性标注

一个一个手动print太蠢了，一段代码自动让它好看起来：

# -*- coding:utf-8 -*-

# Filename: sinica_treebank.py

# Author：hankcs

# Date: 2014-04-08 上午11:44

import nltk

from nltk.corpus import sinica_treebank

sinica_text = nltk.Text(sinica_treebank.words())

print sinica_text

for (key, var) in sinica_treebank.tagged_words()[:8]:

print '%s/%s' % (key, var),

输出：

<Text: 一友情嘉珍和我住在同一條巷子...>

一/Neu 友情/Nad 嘉珍/Nba 和/Caa 我/Nhaa 住在/VC1 同一條/DM 巷子/Nab

NLTK中文句法树

>>> sinica_treebank.parsed_sents()[15].draw()

真是神奇的Python！

搜索中文文本

在IDLE中不方便调编码，还是写进py文件吧：

# -*- coding:utf-8 -*-

# Filename: sinica_treebank.py

# Author：hankcs

# Date: 2014-04-08 上午11:44

import nltk

from nltk.corpus import sinica_treebank

sinica_text = nltk.Text(sinica_treebank.words())

print sinica_text.concordance('我')

输出：

Building index...

Displaying 25 of 724 matches:

我住在同一條巷子我們是 �

�� 一起回家有一天上學時我到她家等候按了門鈴卻

��鈴卻沒有任何動靜正當我想離開時門內突然傳來

�� 了門大聲的叫著快點我媽媽暈倒了嘉珍抓起我 �

� 我媽媽暈倒了嘉珍抓起我的手急忙往屋裡跑進入

得像紙一樣這種情景把我嚇壞了怎麼辦嘉珍不停 �

��停的哭泣聲音有些顫抖我的腦海中頓時一片空白 �

� 怎麼辦才好過了一會兒我才問她你爸爸呢他出差

他出差了嘉珍擦著眼淚我握住她的雙手她的手又

�� 這時有個念頭突然閃過我的眼前我幫她撥了一一

� 念頭突然閃過我的眼前我幫她撥了一一九請救護�

她的背安慰她不要著急我會陪你的不久救護車停

��上救護車嘉珍上車前對我說謝謝你的幫忙我握著

前對我說謝謝你的幫忙我握著她的手說不用謝 �

�� 握著她的手說不用謝我因為我們是好朋友二無�

員外來找他並且對他說我看你悶悶不樂是不是進京

�� 著他的手說你不用還我了我只是盡一份心力而�

�� 的手說你不用還我了我只是盡一份心力而已以�

銀子含著眼淚說謝謝您我不知道要怎麼來報答您

答您江巡撫說你不必謝我也不必回報我四快樂的

你不必謝我也不必回報我四快樂的閱讀課上國語�

�� 這一組做讀書心得報告我第一個站起來發言我們閱

�過兩人成為知心的朋友我說完之後組長站起來補充

清理火山灰而且欣賞落日我喜歡這種自由自在的生活

的人也不喜歡虛偽的人我覺得小王子很正直最後 �

None

这里面的�大概是字体的原因吧，毕竟不是繁体中文系统。本文的原作者指出：

concordance 會出現 � 的原因是因為這個字的被切一半 , 因為 UTF-8 編碼中文要有三個byte ‘xe4xb8x80′ , 出現�� 表示被切成這樣 ‘xe4xb8′, 少一個 byte

茅塞顿开。

控制台乱码的话可能需要decode成unicode然后在encode成gb编码：

s = "中文"

if isinstance(s, unicode):

# s=u"中文"

print s.encode('gb2312')

else:

# s="中文"

print s.decode('utf-8').encode('gb2312')

NLTK计算中文高频词

>>> sinica_fd=nltk.FreqDist(sinica_treebank.words())

>>> top100=sinica_fd.items()[0:100]

>>> for (x,y) in top100:

print x,y

的 6776

、 1482

在 1331

是 1317

了 1190

有 759

我 724

他 688

就 627

上 612

和 580

也 542

不 526

人 467

都 417

與 404

著 389

我們 384

初步的NLTK中文玩法就这些了，还是挺不错的。

转载于:https://www.cnblogs.com/webRobot/p/6047684.html

你可能感兴趣的文章

关于手机端IOS系统微信中虚拟键盘遮挡input输入框问题的解决方案草稿

查看>>

Python--小功能应用

查看>>

[linux-内核][转]内核日志及printk结构浅析

poj1015【DP.......无奈了】

C#中常用到的时间函数（天数差、星期几等）

查看>>

如何理解一台服务器可以绑定多个ip，一个ip可以绑定多个域名

查看>>

改进delphi中的RoundTo函数

查看>>

Microsoft Visual SourceSafe使用经验

查看>>

威尔逊定理及证明

查看>>

[LeetCode] Peeking Iterator

查看>>

Understanding Unix/Linux Programming-用户程序play_again4.c