1. 研究目的与意义
内容:通过查阅相关资料并学习,了解文本分类在自然语言处理中的应用及基本方法,设计出优良的算法模型,实现快速文本分类,编写程序使计算机能自动从海量的文章中区分出文章是机器写作还是人类写作。
意义:在数据已经成为战略资源及经济资产的今天,通过数据挖掘和机器学习方法来分析海量数据,鼓励学科交叉跨界合作,探索以大数据为基础,涉及政府治理、产业升级等的计算方法及解决方案已经成为时代的发展的迫切需求。
2016年AlphaGo和人类棋手的对决拉响了人机大战的序曲,在人类更为通识的写作领域,也上演着更为精彩的机器写作和人类写作的对决,从2014年7月开始,在公司财报等新闻上,美联社就全面利用新闻机器人写作;网络公司雅虎也利用同样的机器人写作体育新闻。
2. 文献综述
辨别出一篇文章究竟是由通过庞大数据算法训练出来的机器写作的还是由人类创作的,这就涉及到文本分类的问题,这也是本课题的关键所在。
文本分类(text categorization,TC)技术是信息检索和文本挖掘的重要基础技术,其作用是根据文本的某些特征,在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。
文本分类是一个有指导的学习过程,它根据一个已经被标注的训练文本集合,找到文本属性(特征)和文本类别之间的关系模型(分类器),然后利用这种学习得到的关系模型对新的文本进行类别判。
3. 设计方案和技术路线
设计方案:(1)通过书籍网络等途径学习多种文本分类方法,再通过编程实现文本分类,并不断修改完善。
(2)编写工具及运行环境环境为python、linux。
(3)程序响应时间短,能较快地产生文本分类结果。
4. 工作计划
3月05日3月11日:收集资料3月12日3月18日:需求分析3月19日3月25日:概要设计3月26日4月01日:详细设计4月02日4月22日:编码实现4月23日5月20日:系统调试、论文撰写5月21日6月03日:系统及论文的修改及完善
5. 难点与创新点
文本分类是机器学习领域新的研究热点。
基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比传统的文本分类模式有所突破,效果较好。
多种分类方法相结合以获得较高的准确率。
