1. 研究目的与意义
数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
数据分析是为了提取有用信息和形成结论而对数据加以洋细研究和概括总结的过程。
主要分析方法有列表法、作图法等。
2. 课题关键问题和重难点
本课题主要分为三部分:存数据,取数据,绘制图像。
问题的关键和难点在于将数据取出后,选择何种数据结构来存储数据最为合适,目前来看结合第三方库并选择二维数组或列表是比较合适的选择。
另外在绘图时,一方面,不同类型的数据需要选择合适的图表,若图表类型选择不恰当可能会导致图表不够直观甚至不合理;另一方面绘图函数里的参数纷繁复杂,不同类型的图表有着不同的参数,需要视情况合理设置参数。
3. 国内外研究现状(文献综述)
随着人工智能技术的兴起,对数据的需求呈指数级的态势增长。
与此同时,网络和信息技术的发展不断地改变着人们的生活方式,人们在使用网络和信息技术的时候,产生的数据也呈爆炸态势增长。
在此背景下,数据分析技术应运而生。
4. 研究方案
课题的实现首先要获取数据源,在设计方案中提供两种获取数据的方法:第一种是通过第三方库tushare获取,tushare库是一个财经数据接口包,提供了许多经济数据接口;第二种方案是通过Python爬虫爬取国家统计局网站,并将数据保存为CSV文件或存入数据库以备调用。
有了数据源,就可以开始读取数据并开始进行绘制了,读取数据时使用第三方库Numpy的.fromfile()以及.loadtxt()等方法读取数据,Numpy库还提供ndarray数组进行存储数据,ndarray数组作为多维数组对象很适合存储经济类数据。
接着可以import第三方库matplotlib并调用matplotlib.pyplot子库,pyplot库中有许多绘图方法可以绘制不同类型的图,如饼图、雷达图、直方图、折线图等,重要的是要在绘图方法中根据不同数据调试参数直至适合。
5. 工作计划
1~4周:完成课题的相关文献阅读与课题前期调研工作;4~6周:完成指定论文的翻译工作7~10周:完成课题的程序编写调试工作;11~结束:完成论文的撰写与修改,毕业论文答辩工作;
