Study on Frequency Statistic of Kazak Word Based on Corpus

doi:10.3969/j.issn.1000-3428.2010.24.021

Computer Engineering ›› 2010, Vol. 36 ›› Issue (24): 59-61.

• Networks and Communications • Previous Articles Next Articles

Study on Frequency Statistic of Kazak Word Based on Corpus

WANG Hua, GULILA Altenbek

(College of Information Science & Engineering, Xinjiang University, Urumqi 830046, China)

Online:2010-12-20 Published:2010-12-14

基于语料的哈萨克语词频统计研究

王花，古丽拉阿东别克

(新疆大学信息科学与工程学院，乌鲁木齐 830046)

作者简介:王花(1978－)，女，硕士，主研方向：软件与理论，自然语言处理；古丽拉?阿东别克，教授
基金资助:
国家自然科学基金资助项目“现代哈萨克语词级文本语料库构建技术研究”(60763005)；国家教育部、国家语委民族语言文字规范标准建设及信息化科研基金资助项目(MZ115-92)

Abstract

Abstract:

Kazak as one of the minority languages and characters being universally applied or used in Xinjiang, frequency statistic of word in Kazak natural language treatment becomes the problem to be solved urgently. This paper introduces the relation of Zapf in Kazak word segmentation, which is based on frequency statistic of the word. Through the system, continuous Kazak character bunch input can be segmented, and then the cut apartment word bunch output can be gotten. The cut apartment word bunch usually is two Kazak word bunch, and dictionary can be gotten. The dictionary stores Kazak word and the frequency that the word appears in these disposal test that combines proceeding Kazak covariance of article experiment. Experimental result expresses the relation of frequency of the Kazak word, and the resulting Kazak word frequency distribution accords with power-law of Zapf.

Key words: frequency statistic of Kazak word, power-law, Zapf, frequency

摘要：

哈萨克语作为新疆少数民族语言之一，其词频统计作为自然语言处理的基础性课题，成为需要迫切解决的问题。基于此，介绍Zapf 定律及哈萨克语词频统计之间的联系。对连续输入哈萨克语字符串进行切分，再输入切分后的哈萨克语词串，由此得到哈萨克语词典。在词典中存储词形不同的哈语词组，以及这些词组出现的频率，并进行哈萨克语的统计实验，结果说明哈萨克语词频之间存在内在联系，同时验证哈萨克词频符合Zapf 的幂率定律。

关键词: 哈萨克语词频统计, 幂率定律, 齐普夫, 频率

CLC Number:

TP311.13

WANG Hua, GU Li-La-?A-Dong-Bie-Ke. Study on Frequency Statistic of Kazak Word Based on Corpus[J]. Computer Engineering, 2010, 36(24): 59-61.

王花, 古丽拉阿东别克. 基于语料的哈萨克语词频统计研究[J]. 计算机工程, 2010, 36(24): 59-61.

/ Recommend / Download Citations

URL:

https://www.ecice06.com/EN/Y2010/V36/I24/59

[1]	LU Yichun, XU Ming. Parameter Estimation of Underwater Acoustic Frequency-Hopping Signals Based on Atomic Norm [J]. Computer Engineering, 2025, 51(3): 155-161.
[2]	ZHANG Chi, WANG Zhong, JIANG Tianhao, XIE Kangmin. Speech Enhancement Network Based on Parallel Multi-Attention [J]. Computer Engineering, 2024, 50(4): 68-77.
[3]	ZHANG Yiheng, LIU Yian, SONG Hailing. Design of Frequency-Hopping Sequence Based on Enhanced Runge Kutta Optimizer [J]. Computer Engineering, 2024, 50(4): 267-276.
[4]	CHANG Jian, LIU Xinshu. Low Illumination Image Enhancement with Spatial Transformation and Adaptive Gray Correction [J]. Computer Engineering, 2023, 49(6): 193-200,207.
[5]	SHEN Xueli, TIAN Guiyuan, JIANG Yanji, MA Linlin. Time-Frequency Domain Speech Enhancement Algorithm Based on Dual-Stage Conv-Transformer [J]. Computer Engineering, 2023, 49(6): 123-130.
[6]	SONG Yukai, XIE Jiang. Lightweight Speech Emotion Recognition Model Based on Multi-Task Learning [J]. Computer Engineering, 2023, 49(5): 122-128.
[7]	LIU Jingjng, HUANG Hao. Fundamental Frequency Extraction Model Using Convolutional Neural Networks with Non-local Modules [J]. Computer Engineering, 2023, 49(3): 128-133,160.
[8]	GUO Kaimin, XIE Xin, MA Yijie, QI Heng, LI Keqiu. Fast and Reliable Unknown Tag Identification for Large-Scale RFID System [J]. Computer Engineering, 2023, 49(3): 192-202.
[9]	Yi CHEN, Bosheng LIU, Yongqi XU, Jigang WU. FPGA Accelerator Design for Hybrid Precision Frequency Domain Convolutional Neural Network [J]. Computer Engineering, 2023, 49(12): 1-9.
[10]	LAN Zhengjie, WANG Lie, NIE Xiong. An Expression Recognition Algorithm Based on Term Frequency-Inverse Document Frequency and Hybrid Loss [J]. Computer Engineering, 2023, 49(1): 295-302,310.
[11]	DENG Xiangyu, Lü Yahui, CHEN Yan. Frequency Domain Characteristics Analysis of Non-Coupled PCNN [J]. Computer Engineering, 2022, 48(6): 213-221.
[12]	LIANG Xiaohui, GUO Shengnan, WAN Huaiyu. Time Series Classification Method Based on Adaptive Wavelet Decomposition [J]. Computer Engineering, 2022, 48(4): 81-88,98.
[13]	CHEN Qiaosong, PU Liu, ZHANG Yu, SUN Kaiwei, DENG Xin, WANG Jin. Image Super-Resolution Reconstruction Combining Holistic Attention and Fractal Density Feature [J]. Computer Engineering, 2022, 48(11): 207-214,223.
[14]	CHEN Xu, JIANG Ye. Research on Recording Playback Attack Detection Based on Mixed Features of Gaussian Filter Bank [J]. Computer Engineering, 2021, 47(3): 291-297,303.
[15]	SHI Caixia, LI Shuqin, LIU Bin. Method for Calculating Short Text Similarity Using Multi-Check Weighted Fusion [J]. Computer Engineering, 2021, 47(2): 95-102.

Please choose a citation manager

Content to export

Study on Frequency Statistic of Kazak Word Based on Corpus

基于语料的哈萨克语词频统计研究

PDF

Knowledge

Cited

Abstract

Cite this article

share this article

References

Related Articles 15

Recommended Articles

Metrics

Comments

模态框（Modal）标题

Please choose a citation manager

Content to export

Study on Frequency Statistic of Kazak Word Based on Corpus

基于语料的哈萨克语词频统计研究

PDF

Knowledge

Cited

Abstract

Cite this article

share this article

References

Related Articles 15

Recommended Articles

Metrics

Comments