目录

[TOC]

第一章 绪论

1.什么是统计学

统计学是收集、分析数据的科学和艺术。

首先,统计学研究的数据不是抽象的数与形,而是客观世界与现实生活中不断变化的数据,例如经济波动,降水概率。

第二,统计学使用归纳推理的研究方法,即根据样本推断总体特征,从随机现象中探求事物本质。

第三,统计学的研究结论带有不确定性,经典的决定论认为一切均有因果关系联系,世界的运动都是确定的规律,知道因即知道果。而19世纪后人们发现世界可能有规律,但并不服从自然的普通规律,一些新的定律总是根据概率表述,故统计学的研究成果往往不是确定的。

第四,统计学的研究总是伴随新思想的产生。传统的演绎推理是由一般到个别,而基于归纳推理的统计学是从个别到一般。当新现象发生时,传统学说只能够根据已有理论判断它不是什么,而统计学能说明它可能是什么。

第五,统计学和大多数学科有着紧密联系,应用领域广阔。

2.数据的概念与分类

数据是统计学的研究对象,可以描述世界上的各种现象。

(1)根据是否人为控制影响实验对象的相关因素,分为观测数据与试验数据。

观测数据为不对观测对象进行任何人为因素的控制下得到的客观数据,如年龄结构、降水量。

试验数据指控制影响实验对象的相关因素得到的数据,如不同地质情况下的农作物生长状况。

(2)定性数据与定量数据

定性数据指用文字、符号、语言等描述的信息,分为定类数据(如性别)和定序数据(如学历)。

定量数据指事物特征的具体数量描述,分为定距数据(如摄氏温度、年份)和定比数据(如身高体重)。主要看数据之间有实际意义的是差值还是比值。

(3)截面数据、时序数据与面板数据

截面数据指同一时期或时点上测量的数据(如某一年各省市的人口数)。

时序数据指某事物在不同时期或时点上测量得到的数据(如某省在近20年的人口数)。

面板数据指不同事物在多个时期或时点上测量的道德数据(如各省市在近20年的人口数)。

3.描述统计与推断统计的差别

描述统计是用表格、图形、数字概括显示数据特征的方法。

推断统计指从总体中抽取样本,并利用样本数据推断总体特征的方法。一般是用样本统计量推断总体参数。

4.确定性和随机性

一个人的寿命长短有一定随机性,这种随机性可能和很多因素有关系。而我国公民的平均寿命长短却是稳定的,这就是规律性。一个个体可能活过平均寿命,也可能活不过,这是随机性。随机之中有规律性,这种规律就是统计规律。随机事件常常用概率描述其发生机会。

5.总体和样本

总体是研究的全部同类对象组成的集合,总体中的一个对象称为个体,根据个体的数目是否有限,可将总体分为有限总体和无限总体。

样本指研究的全部同类对象中部分对象组成的集合。

为了解总体某方面的特征,从总体中抽取一部分对象,及样本进行研究,由此对总体特征进行推断。

6.参数和统计量

参数是总体数量特征的概括性数字度量。

统计量是样本数据的数量特征的概括性数字度量,也包括一些为了统计检验构造出的特殊统计量(如t统计量,F统计量,卡方统计量)。

通常参数是未知的,故需要用样本统计量估计参数。

7.变量和指标

变量:比较同类事物某方面特征的变化和差异,该特征名称为变量,对应的值称变量值(如统计班级同学的性别,性别为变量,男女为变量值)。根据变量取值可将变量分为定类变量(如性别)、定序变量(如优良中差)、数值变量(如成绩)。其中多元统计分析,多元回归中的元指的就是变量。

统计指标:指反应现象数量特征的概念(如年末人口数)或概念及具体数值(如2008年我国GDP为300670亿元)。分为总量指标、相对指标(如性别比例)与平均指标(如职工平均工资)。

8.使用统计软件分析数据的步骤

(1)数据准备。

首先,创建分析数据集,即将数据导入统计软件,建立相应的数据文件。

之后进行数据预处理,即检查数据错误、异常数据,处理异常数据和缺失数据。

(2)数据的统计分析。

首先,根据研究目的和数据类型选择相应的统计分析方法和呈现数据,估计模型得出结果。

其次,根据结果对模型进行诊断。

最后,将统计分析结论运用到决策中或提供参考。

第二章 数据的搜集

1.一手数据与二手数据

一手数据有两种来源,一是调查或观察,二是实验,实验是取得自然科学数据的主要手段。

二手数据主要指已公开报道或出版的数据,也有尚未公开出版的数据。获取渠道主要有:国家统计局、行业协会信息资料、图书资料、计算机信息网络、国际组织。

2.使用二手数据需要注意的问题

(1)数据含义、计算口径、计算方法。避免使用与统计目的不符的数据。

(2)时效性。避免使用过时数据。

(3)数据来源与可靠程度。使用时应注明来源。

3.常用的统计调查方式

普查,抽样调查与统计报表制度

4.普查的概念与特点

普查是一个国家或地区为了了解某项重要的国情、国力而专门组织的一次性、大规模的全面调查。特点如下:

(1)一次性或周期性。由于普查调查面较广,需要耗费大量人力、物力、财力、时间,故两次间隔时间较长。

(2)需要统一的标准时点。标准时点即对被调查对象登记时所依据的统一时点,反映这一时点被调查对象的情况。

(3)准确性、标准化程度较高。

(4)调查项目较少,适用范围狭窄,调查资料缺乏深度。

5.统计报表制度

按国家有关法规规定,自上而下地统一布置,自下而上地逐级提供基本统计报表的统计报告制度,可以经常地、定期地搜集反映国民经济和社会发展的基本情况,利于有关部门制定发展计划与检查计划执行情况。

6.抽样调查的概念与特点

根据从总体中抽取的样本单元是否符合随机性原则,将抽样调查分为概率抽样和非概率抽样。

抽样调查是为了根据样本调查结果推断总体数字特征,从总体中随机抽取一部分单位作为样本而进行的调查。

(1)经济性强。抽样调查的样本单位小,调查工作量小。

(2)时效性强。由于抽样调查获取信息迅速、及时,可以频繁进行,时效性大大提高。

(3)适应面广。抽样调查可以获取更广泛的信息,故而能调查全面调查能调查的现象,可能调查全面调查不能调查的现象。且抽样调查的内容和指标可以更详细、更深入。

(4)准确性高。同普查相比,只要调查方法得当,由于抽样调查在调查人员素质、调查时间、调查范围等方面产生误差的几率都小于普查。

7.概率抽样

概率抽样是严格按照随机原则从总体中抽取部分单位构成样本。

(1)简单随机抽样(纯随机抽样)

概念:最基本的随机抽样方法,从含N个单位的总体中直接取出n单位组成样本,且每个样本单位被抽到的概率相等(从而每个可能的样本被抽中的概率也相同)。

分类:简单随机抽样分为重复抽样和不重复抽样。一般社会调查采用不重复抽样。

抽样方法:有抽签法和随机数法。

优点:简单易操作,理论成熟。

缺点:编制抽样框即抽取样本过于分散;没有利用其他辅助信息提高估计效率。

(2)分层抽样(层间差距较大,层内差距较小)

概念:根据辅助信息,将总体划分为若干子总体,然后从每层中随机抽取样本,可分为按比例分层抽样和不按比例分层抽样。

优点:组织管理方便;有辅助信息表明总体的某些个体有明显的差异,将相近的划为一层;隔层中的样本量由抽样者控制。

(3)整群抽样(层间差距较小,层内差距较大)

概念:将总体分为N个群或组,每个群或组中包括若干单位,再随机抽取n个群组进行全面调查。

优点:样本单位比较集中,便于组织管理,节省成本;整群抽样不需要所有总体单位的抽样框。

缺点:样本单位不能均匀分布在总体各个部分,代表性较差。

(4)系统抽样(包含等距抽样)

概念:将N个总体单位按顺序排列,在规定范围内随机抽取一个单元作为样本的起始单元,之后按一套确定的规则抽取其他样本单元。

特点:一旦初始单元确定,整个样本就确定了。

优点:抽样简单易懂;样本单元在总体中分布均匀,利于提高估计精度。

缺点:单元排列存在周期性时样本代表性较差;方差估计较困难。

(5)多阶段抽样

概念:先从总体中随机抽取若干初级单位,再从初级单位中抽取若干二级单位,往下循环。

优点:灵活,在不同阶段可使用不同抽样方法。

缺点:阶数越多设计越复杂。

8.非概率抽样

非概率抽样是用主观的方法从总体中抽选样本的抽样方法。

(1)方便抽样(无目标,随意)

概念:任意抽样,根据调查者的方便性,以无目标、随意的方式进行的抽样调查。

优点:在某些调查中快速有效;花费最小。

缺点:无法知道抽取样本代表总体目标的程度。

(2)判断抽样(主观经验判断代表性)

概念:调查者根据主观经验和判断从总体中选出有代表性的样本。

特点:抽样精度取决于抽样者的经验。

(3)配额抽样(定额抽样)

概念:根据调查者认为较为重要的变量将总体分类,并确定各层(类)样本数额,再从各层(类)中主观选取一定比例样本。

优点:控制了样本结构和总体结构在“量”方面的控制,能保证样本有较高的代表性。

缺点:难避免受调查员的选择偏好影响。

(4)滚雪球抽样(根据调查对象选取后续调查对象)

概念:先随机选取一组对象,访问后请他们提供另外一些所研究目标总体的调查对象。

特点:适用于在总体中十分稀有的人物特征。

9.配额抽样与分层抽样的区别

配额抽样的被调查者不是按随机原则抽出来的,分层抽样必须遵守随机原则。

配额抽样注重样本与总体在结构比例上的表面一致性;分层抽样一方面要提高各层间的差异性与同层间的同质性,另一方面要照顾比例较小的层次,可采用不按比例分层抽样,使样本代表性提高。

10.抽样误差

抽样误差:由于抽取样本的随机性造成了样本值和总体值之间的差异,用估计量的方差或标准差来表示。只要采用抽样调查,该误差就不可避免。概率抽样中的抽样误差是能够计量且可控的。

抽样误差的大小取决于:

(1)总体内部的差异程度。其他条件固定时,总体内部差异越大,抽样误差越大。

(2)样本容量的大小。样本容量越大,抽样误差越小,但在样本容量超过一定的大小后抽样误差便稳定下来。

(3)抽样方法。不同抽样方法抽样误差不同。

11.非抽样误差

非抽样误差:调查中由各种原因引起的与样本抽取无关的误差。不仅出现在概率抽样、非概率抽样中,也出现在全面调查和非全面调查中。

非抽样误差的特点:

(1)在抽样调查中,非抽样误差不可能随着样本量的增加而减小。

(2)容易造成估计量的有偏。

(3)难以识别和测定。

(4)非抽样误差的成因比较复杂。

12.非抽样误差的分类

(1)抽样框误差

目标总体和抽样总体不一致时产生的误差。目标总体是作为调查研究对象的全体,抽样总体是从中抽取样本的总体。

a.丢失目标总体单元。抽样框没能全部覆盖总体,造成总体总和估计偏低。

b.包含非目标总体单元。常造成总体总和估计偏高。

c.复合连接。抽样框中的单元与目标总体单元不完全是一对一对应,存在一对多或者多对多现象。

d.不正确的辅助信息。有些复杂抽样框中包含辅助信息,若辅助信息不正确,也会导致误差。

(2)无回答误差

没能获得有关抽取样本的信息。分为单位无回答与项目无回答。单位无回答指没参与或拒绝接受调查;项目无回答指被调查者接受调查,但对其中一些调查项目没有回答。

(3)计量误差

计量误差指获得的数据与真值不一致。可分为三类:

a.问卷设计阶段产生的误差。主要来自不同措辞的不同表达,以及不同问题的顺序与间隔,以及问卷设计过长。

b.调查阶段产生的误差。访问者与被调查者有意或无意地使数据失真。

c.其他误差。

13.减少非抽样误差的措施

(1)无回答误差

a.问卷设计得更有吸引力.

b.充分利用调查组织者的社会权威性和影响力。

c.确定准确的调查方位,使调查者容易找到被调查者。

d.采取有助于消除被调查者冷漠、担心的措施。

e.做好调查员的培训。

f.对调查过程进行监控,对不成功的调查及时总结、归纳经验。

g.奖励措施。

h.多次调查,针对无回答的原因采取相应的措施。

i.替换被调查单元。对于放弃的无回答者,需要替换单元。

(2)计量误差

a.调查设计方面。有能力的设计人员能够设计出更好地调查问卷和抽样程序,以减少由于设计不周所可能带来的计量误差。

b.现场准备方面。准备工作的质量好坏,包括招聘访问员、对访问员进行培训等,直接影响计量误差。

c.调查结果审核方面。保证数据的完整性、一致性、有效性。

14.调查方案设计

(1)确定调查目的。目的明确以后才能有的放矢。

(2)确定调查对象和调查单位。调查对象是根据调查目的确定的调查研究的总体或调查范围;调查单位是构成调查对象的每一个单位,它是调查项目和指标的承担着或载体。

(3)确定调查内容。调查内容是需要调查的具体项目,是调查方案的核心。

(4)确定调查方式和方法。根据调查对象和调查内容确定采用什么组织方式(普查、统计报表、抽样调查等)、方法(访问调查、邮寄调查、电话调查等)取得调查资料。

(5)确定调查时间。一是资料所属的时间,二是调查期限。

(6)确定调查的组织实施计划。调查人员的选择、组织和培训;调查表格、问卷、调查员手册的印刷;必要调查工具的准备;调查经费的来源和预算。

15.统计数据的收集方法

(1)访问调查,又称派员调查。标准式访问是指调查人员按实现设计好的、有固定格式的标准化问卷或表格有顺序地提问;非标准式访问又称非结构式访问,用事先给出的题目或提纲,由调查人员和被调查者自由交谈,以获得所需的资料。

(2)邮寄调查。通过邮寄、宣传媒介传送、专门场所等方式将调查表或调查问卷送到被调查者手中。

(3)电话调查。通过查找电话号码簿,用电话向被调查者进行询问。优点之一是提供了控制调查质量的机会,二是成本效益高,三是速度快。

(4)电脑辅助电话调查(CATI)。调查员坐在计算机前进行电话调查。

(5)座谈会,也称集体访谈法。将一组被调查者集中在调查现场,通过其对调查的主题发表意见,从而获取调查资料的方法。

(6)个别深入访谈。一次只有一名被调查者参加。

除此之外,还有观察法(在一个真实或模拟的环境中,在被访者完全没有意识的情况下,观察分析被访员的行为)和实验法(在受控制的环境下,其他因素不变,研究所控制变量对某一变量或某些变量的影响)。

16.调查问卷基本结构

(1)开头部分。包括问候语、填表说明、问卷编号等。

(2)甄别部分。通过设计一些问题过滤不符合要求的被调查者。

(3)主体部分。包括了所要调查的全部问题,以及这些问题的所有可供选择的答案。

(4)背景部分。说明被调查者的一些主要特征,如性别、民族、职业等。

17.问卷问题设计应注意的方面

(1)提问内容尽可能短,摒弃多余修饰词。

(2)用词确切通俗,避免不具体的问题。(如避免使用常常、一般等模棱两可的字眼)

(3)一项提问仅包含一项内容。(错误实例:您和您的家人是否同意……)

(4)避免诱导性提问。(错误实例:绝大数人认为xx牛奶口味纯正,您认为是这样吗?)

(5)避免否定形式的提问。否定式的提问会影响到被调查者的思维。(错误实例:你不认为听到国歌不立正不是不对的吗?)

(6)尽可能避免敏感性问题。敏感性问题指与个人或单位的隐私或私人利益有关而不便向外界透露的问题(如:您考试作弊过吗?)。可以采用随机化回答技术(RRT),在调查中使用特定的随机化装置,使得被调查者以预定的概率P来回答敏感性问题。

18.问卷中的答案设计

封闭性问题:二项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法。

开放性问题:对问题的回答未给出任何具体的答案。

19.问题顺序的设计

(1)问题安排要有逻辑性。问题顺序给人上下连贯的逻辑性,一般性问题置前,特殊性问题置后。

(2)问题的安排应先易后难、由浅入深。第一个问题应与调查目的直接相关且容易回答,敏感性问题应放在最后。

(3)问卷主体部分的问题按照过滤性、热身性、容易性、困难性的顺序进行排列。

第三章 数据的描述

1.频数分布

频数分布反映变量的取值在各个组中的分布状况,是归纳总结数据的一种重要方法。依据研究目的把数据分成若干组,统计各组中的数值个数,可得到频数分布。

2.定量数据的频数分布(定量数据分组三要素)

(1)确定组数

一般来说,定量数据分为5-15或20个组,数据较少的用5或6组。

根据经验公式确定组数K: $$ 2^K>n,即K=1+\frac{ln(n)}{ln(2)} $$ (2)确定组距 $$ 近似组距=\frac{数组最大值-数组最小值}{组数} $$ (3)确定组限

组限的确定必须保证每一个数据属于且只属于一组,分配到该组数据的最小值和最大值分别称为下组限和上组限。定性数据无需规定组限,但定量数据一定要规定组限。

组限的确定有三种情况:

a.上下组限间断,互不重叠。(如:10~14,15~19)

b.上下组限重叠,上组限不在内。(如:10~15,15~20)

c.使用开口组。(如:60以下)

统计分组习惯上规定“上组限不在内”。(贾俊平P51)

相邻两组的下组限之差是组距。

一旦确定了三要素,即组数、组限、组距,通过统计属于每一组的数据项的个数就能得到频数分布。

3.累积频数分布、列联表和常用统计图

(刘扬P35-41)

4.数据类型与图表的适配

(1)定量数据:条形图、饼图、环形图

(2)定性数据:

a.原始数据:茎叶图、箱线图

b.分组数据:直方图

c.时间序列数据:线图

d.多变量数据:散点图、气泡图、雷达图。

5.鉴别图表优劣的准则(贾俊平P61)

塔夫特指出,一张好图应有的基本特征:

a.显示数据。

b.让读者注意力集中在图形内容而非制作程序上。

c.避免歪曲。

d.强调数据比较。

e.服务于一个明确目的。

f.有对图形的统计描述和文字说明。

又提出鉴别图形优劣的准则:

a.精心设计,有助于洞察问题本质。

b.应当使复杂的观念得到简明、确切、高效的阐述。

c.用最简单的笔墨传递大量的信息。

d.多维。

e.描述数据的真实情况。

6.绘制统计图应注意的问题

(1)选择恰当的图形类型、长宽比例、刻度等,使图形能准确反映数据中包含的信息。时间一般绘在横轴,指标数据绘在纵轴;长宽比例一般为10:7;刻度一般从0开始,或采用折断符号将纵轴折断。

(2)图形尽量简明,避免不必要的标签、网格线、背景等。

(3)应有清楚的标题和必要的说明,明确图形含义、计量单位、坐标轴代表的变量等。

(4)反复加工修改。

7.制作统计表时应注意的问题(参考贾俊平P62)

统计表一般由四个主要部分构成,即表头、行标题、列标题、数据资料。

(1)合理安排统计表结构。行标题、列标题、数据资料的位置应安排合理,统计表横竖比例应合适。

(2)表头一般包括表号、总标题、表中数据的单位,总标题应说清when/where/what。若全部数据都是同一计量单位,可在表右上角标明。

(3)表的上下两条横线一般用粗线,中间用细线,左右不封口,数据右对齐,且没有数据处应填“—”。

(4)必要时在表的下方加上注释,特别注明数据来源。

8.集中趋势

指一组数据向其中心值靠拢的倾向和程度。

(1)算术平均数

简单算术平均数: $$ \bar x=\frac{\sum x_i}{n} $$ 加权算术平均数: $$ \bar x=\frac{\sum ω_ix_i}{\sum ω_i}
根据总体计算的平均值为μ,根据样本计算得到的平均值为\bar x $$ 特点:利用了变量的每一个观测值,获得更多的信息;但容易受到极端值的影响。

(2)中位数

观测值为奇数,位于中心位置的数值为中心值;观测值为偶数,位于中心的两个数值平均数为中心值。

特点:没有利用数据中所有信息,但对极端值不敏感。

(3)众数

数据中出现频率最高的数值,可以有多个,但所有数值出现次数相同时无众数。

众数是描述定性数据的重要指标。

特点:能够提供给大家最感兴趣的数据。

(4)四分位数

最小的四分位数称为下四分位数,为Q1;上四分位数为Q3。四分位数位置为: $$ \frac{n+1}{4},\frac{2(n+1)}{4},\frac{3(n+1)}{4} $$ 若四分位数位置不是整数,用加权平均。

如Q1的位置为3.25,第三、四个数分别为a、b,则Q1=a+0.25*(b-a)

(5)时间序列的描述统计:平均发展水平和平均发展速度

a.平均发展水平

时间序列中每一个观测值称为发展水平;

要研究的那个时间的发展水平称为报告期水平或计算期水平;

用来作为比较基础的时间发展水平称为基期水平;

不同时期的发展水平加以平均得到的平均数称为平均发展水平。

(i)根据绝对数时间序列计算平均发展水平。

绝对数时期序列: $$ \bar a=\frac{\sum a_i}{n} $$ 绝对数时点序列:

连续时点序列(逐日记录、逐日排列的时点序列)可按时期序列公式计算计算平均发展水平。

间断时点序列,f为时间间隔长度:

$$ \bar a=\frac{\frac{a_1+a_2}{2}*f_1+\frac{a_2+a_3}{2}*f2+…+\frac{a{n-1}+an}{2}*f{n-1}}{f_1+f2+…f{n-1}} $$

当时间间隔相等时,简化为:

$$ \bar a=\frac{\frac{a_1}{2}+a_2+…+\frac{a_n}{2}}{n-1} $$

(ii)根据相对数或平均数时间序列计算平均发展水平。

先按构成相对数或平均数的两数值性质分别求出平均发展水平,再相除。 $$ \bar c=\frac{\bar a}{\bar b} $$ b.平均发展速度

两个发展水平相比的结果称为发展速度。

定基发展速度指报告期水平与某一固定基期水平相比的结果;

环比发展速度为报告期水平与前期水平相比的结果;

增长速度指发展速度减100%;

平均增长速度指平均发展速度减100%。 $$ \bar g=\sqrt[n]{g_1\times g_2\times …g_n}=\sqrt[n]{\frac{a_n}{a_0}} $$

其中n为环比发展速度的个数,g_i为各个环比发展速度,a_0,a_n,为基期和报告期的水平。

9.离散程度

(1)全距 $$ 全距=最大值-最小值 $$ 特点:最容易计算,但极易受异常值影响。

(2)四份位距 $$ IQR=Q_3-Q_1 $$ 特点:一定程度上克服了异常值的影响。

(3)方差和标准差

总体方差: $$ σ^2=\frac{\sum (X_i-μ)^2}{N} $$ 样本方差(用n-1是因为这一统计量是总体方差的无偏估计) $$ s^2=\frac{\sum (x_i-\bar x)^2}{n-1} $$ 总体标准差: $$ σ=\sqrt{σ^2} $$ 样本标准差: $$ s=\sqrt{s^2} $$ 标准差和原始数据有相同的度量单位,故更容易进行比较。

(4)离散系数

度量数据对于均值的离散程度。当两个变量计量单位不同,或是计量单位相同但均值悬殊,通过离散系数比较离散程度都更有意义。

总体离散系数: $$ CV=\frac{σ}{X}\times 100\% $$ 样本离散系数: $$ cv=\frac{s}{\bar x}\times 100
$$

10.数据分布形态描述

(1)偏度及其测定

衡量数据分布对称性 $$ 偏度=\frac{\sum(X_i-\mu)^3}{N\sigma^3} $$ 偏度<0,数据左偏;

偏度>0,数据右偏;

偏度=0,数据对称。

(2)峰度及峰度系数

描述分布中的尖峰程度。 $$ 峰度=\frac{\sum(X_i-\mu)^4}{N\sigma^4}-3 $$ 峰度=0,正态分布;

峰度>0,尖峰分布;

峰度<0,平锋分布。

(3)箱线图

a.根据Q1、Q2、Q3画出箱子。

b.Q1到Q1-1.5IQR与Q3到Q3+1.5IQR用直线连接。

c.在(Q3+1.5IQR,Q3+3IQR)与(Q1-3IQR,Q1-1.5IQR)中的值为离群值,用圆点标出。

d.大于Q3+3IQR或小于Q1-3IQR的值为极端值,用星号标出。

可从中看出数据的左偏右偏情况。

(4)z—分位数(标准得分)

考查数据项在数据集中的位置。 $$ x_i的z-分位数=z_i=\frac{x_i-\bar x}{s} $$ 两个不同数据集的观测值,若具有相同z-分位数,则具有相同位置,即它们与平均数距离有相同个数的标准差。

第四章 参数估计与假设检验

1.参数估计的概念与分类

参数估计指利用样本信息对总体数字特征做出的估计,分为点估计和区间估计。

点估计:根据样本数据给出的总体未知参数的一个估计值。不同样本、不同方法得到的点估计值不唯一。

区间估计:在点估计的基础上给出一个置信区间。置信度为100(1-α)%的含义是:根据不同样本得到的所有置信区间中有100(1-α)%包含总体参数的真实值。(总体参数非随机)

2.常用估计量评价准则

(1)无偏性:估计量的数学期望与总体参数真实值相等。

(2)有效性:两个无偏估计量,方差越小的越有效。

(3)一致性:样本容量越大,估计量取值越接近总体参数。

3.抽样分布

抽样分布是指统计量的概率分布。

从总体中重复抽取样本量为n的样本,得到统计量的多个值,统计量所有可能值的概率分布为统计量的抽样分布。

4.中心极限定理

(1)重复抽样中,若总体服从正态分布N(μ,σ^2);或总体均值为μ,方差为σ^2,且样本容量足够大(一般认为n≥30为大样本),有样本均值: $$ \bar x\sim N(μ,\frac{σ^2}{n}) $$ (2)不重复抽样时,N为总体容量,样本均值满足: $$ \bar x \sim N(μ,\frac{N-n}{N-1}\times\frac{σ^2}{n}) $$ 当n/N<0.05时(可当做无限总体),可当做重复抽样计算。

5.根据样本比例推总体比例

样本比例为p,总体比例为π。当np≥5,np(1-p)≥5时,有: $$ 重复抽样中
p\sim N(\pi,\frac{\pi(1-\pi)}{n} );
不重复抽样中
p\sim N(\pi,\frac{\pi(1-\pi)}{n}\times\frac{N-n}{N-1} )。 $$

6.单个总体均值的区间估计

给定置信度为:1-α 。 $$ P(|\frac{\bar x-\mu}{\sigma/\sqrt{n}}|≤Z_\frac{\alpha}{2})=1-\alpha \ (重复抽样) $$ 总体均值的置信区间为:

(1)总体正态,方差已知 or 总体非正态,大样本。 $$ \bar x±Z{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}
(重复抽样)
\bar x±Z
{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\sqrt{\frac{N-n}{N-1}}
(不重复抽样) $$

方差未知时σ用s代替。(参考贾俊平P133)

(2)方差未知,小样本。 $$ \bar x±t{\frac{\alpha}{2}}(n-1)\frac{s}{\sqrt{n}}\(重复抽样)\\bar x±t{\frac{\alpha}{2}}(n-1)\frac{s}{\sqrt{n}}\sqrt{\frac{N-n}{N-1}}\(不重复抽样) $$

7.总体比例的区间估计

给定置信度为:1-α 。当np≥5,np(1-p)≥5时,总体比例的置信区间为: $$ p±Z{\frac{\alpha}{2}}\sqrt{\frac{p(1-p)}{n}}\(重复抽样)\p±Z{\frac{\alpha}{2}}\sqrt{\frac{p(1-p)}{n}}\sqrt{\frac{N-n}{N-1}}\(不重复抽样) $$

8.两个总体均值之差的区间估计(贾俊平P138)

独立样本

(1)两个总体正态 or 两个总体非正态但为大样本(n≥30) $$ z=\frac{(\bar x_1-\bar x_2)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1) $$ 总体均值差在1-α置信水平下的置信区间为: $$ (\bar x_1-\bar x2)±z {\frac{\alpha}{2}}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}\(方差未知时可用s^2代替\sigma^2) $$ (2)两个样本均为小样本

此时有假设:i 两个总体都服从正态分布。 ii 两个随机样本独立地分别抽取自两个总体。

a.两个总体方差未知但相等 $$ s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2} $$ 此时两总体均值差在1-α置信水平下的置信区间为: $$ \bar x_1-\bar x2±t\frac{\alpha}{2}(n_1+n_2-2)\sqrt{s_p^2(\frac{1}{n_1}+\frac{1}{n_2})} $$ b.两个总体未知且互不相等

两样本均值之差近似服从自由度为v的t分布,其中 $$ v=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(\frac{s_1^2}{n_1})^2}{n_1-1}+\frac{(\frac{s_2^2}{n_2})^2}{n_2-1}} $$ 此时两总体均值差在1-α置信水平下的置信区间为: $$ (\bar x_1-\bar x2)±t\frac{\alpha}{2}(v)\sqrt{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})} $$

匹配样本

$$ d表示两个匹配样本对应数据的差值,\bar d表示个差值的均值,\sigmad表示各差值的标准差。两总体均值差置信区间为\\bar d \pm z\frac{\alpha}{2}\sqrt{\frac{\sigma_d^2}{n}}\(大样本情况,总体方差未知用s_d代替\sigmad)\\bar d \pm t\frac{\alpha}{2}(n-1)\sqrt{\frac{s_d^2}{n}}\(小样本情况) $$

9.两个总体比例之差的区间估计(贾俊平P143)

从两个二项总体中抽出两个独立的样本,样本比例之差的抽样分布满足正态分布。两总体比例差在1-α置信水平下的置信区间为: $$ (p_1-p2)\pm z\frac{\alpha}{2}\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}} $$

10.两个总体方差比的区间估计(贾俊平P145)

要找到一个F值,使其满足: $$ F{1-\frac{\alpha}{2}}\leq F\leq F\frac{\alpha}{2} $$ 又有: $$ \frac{s_1^2/s_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1) $$ 故两总体方差比在1-α置信水平下的置信区间为: $$ \frac{s_1^2/s2^2}{F\frac{\alpha}{2}(n_1-1,n_2-1)}\leq\frac{\sigma_1^2}{\sigma_2^2}\leq \frac{s_1^2/s2^2}{F{1-\frac{\alpha}{2}}(n_1-1,n2-1)}\另外,由于F分布图中右分位数面积较小,可用
\frac{1}{F
{\alpha}(n_2,n1)}={F{1-\frac{\alpha}{2}}(n_1,n_2)} $$

11.抽样误差的几个概念

(1)实际抽样误差

样本估计值与总体真实值的绝对离差,是一个随机变量,且不可知。 $$ |\hat \theta -\theta| $$ (2)抽样平均误差(参考第二章10.)

即统计量抽样分布的标准差:

$$ \hat \sigma\theta = \sqrt{E(\hat \theta- \theta)^2} $$ 简单随机抽样中样本均值的抽样平均误差为: $$ \sigma{\bar x}=\frac{\sigma}{\sqrt{n}} \(重复抽样) \\sigma_{\bar x}=\frac{\sigma}{\sqrt{n}}\sqrt{\frac{N-n}{N-1}} \(不重复抽样) $$ (3)最大允许误差

在一定概率下抽样误差的允许范围,是人为确定的,用E表示。

如对样本均值的置信区间: $$ \bar x ~~\pm ~E $$

12.必要样本容量的影响因素

(1)总体标准差。标准差越大,必要样本容量越大。

(2)最大允许误差。E越大,必要样本容量越小。

(3)置信度1-α 。要求的置信度越高,需要的样本容量越大。

(4)抽样方式。抽样方式不同,必要样本容量不同。

13.样本容量的计算

(1)简单随机抽样、重复抽样。 $$ 根据前面对总体均值区间估计的计算过程,明显可以看出
E=Z\frac{\alpha}{2}\frac{\sigma}{\sqrt{n}},
从而得到:
n=\frac{Z
{\frac{\alpha}{2}}^2\sigma^2}{E^2}
估计总体比例时有:
E=Z\frac{\alpha}{2}\sqrt{\frac{\pi(1-\pi)}{n}},
从而可得:
n=\frac{Z
{\frac{\alpha}{2}}^2\pi(1-\pi)}{E^2} $$ 其中总体均值与总体比例可通过如下方法估计:i 根据历史资料确定 ii 通过实验性调查估计

确定总体比例时还可以直接取为0.5(π=0.5时,π(1-π)值最大,从而得到的n最大)。

(2)简单随机抽样、不重复抽样。

不重复抽样的必要样本容量比样本容量小一些,用n0表示重复抽样时的样本容量,则不重复抽样时的必要样本容量n为: $$ n=\frac{n_0}{1+\frac{n_0}{N}} $$

14.假设检验的基本原理及步骤

假设检验根据:小概率事件在一次试验中几乎不会发生。若在一次试验中发生了,则有理由怀疑假设的真实性。

假设检验步骤:

(1)根据实际问题提出一对假设;

(2)构造适当的统计量,并确定其零假设成立时的分布;

(3)根据观测的样本计算检验统计量的值;

(4)根据制定的显著性水平确定检验统计量的临界值并给出拒绝域;

(5)根据决策规则判断是否拒绝零假设。(注:不能拒绝零假设不等于接受零假设)

15.零假设与备择假设的选择

零假设与备择假设互斥,且等号必须出现在零假设中。

零假设:不能轻易否定的假设;现状;所做出的声明。

备择假设:要证明的假设。

(eg:某减肥药声称其产品每周可帮助减重8kg以上,为证明该说法的真实性,将μ≥8(现状,声明)作为零假设;若该减肥药之前每周能帮助减重8kg,其声称改良过的产品能帮助减重8kg以上,此时应将μ>8(要证明的结论)作为备择假设。)

双侧检验 左侧检验 右侧检验
H0 μ=μ0 μ≥μ0 μ≤μ0
H1 μ≠μ0 μ>μ0 μ<μ0

16.假设检验中的两类错误

拒真(第一类错误) & 取伪(第二类错误)

要减小犯一种错误的概率,就会增加犯另一种错误的概率。

原则:控制犯第一类错误概率不超过α,在满足该条件前提下尽量减小犯第二类错误的概率。

α为显著性水平,即允许犯第一类错误的概率。(通常取值0.01,0.05,0.1)

17.假设检验中的p值

p值是零假设成立条件下,出现检验统计量的样本观测结果或更极端结果的概率,也称为观测到的显著性水平。

p小于α时拒绝H0。关于p值的计算,对于t分布: $$ t{obs}为t统计量的观测值
双侧检验:
p=P(|t|\geq |t
{obs}|)
右侧检验:
p=P(t\geq t{obs})
左侧检验:
p=P(t \leq t
{obs}) $$

图形表示及软件实现(刘扬P73-77)

第五章 方差分析(ANOVA)(对照数理统计8.2,多元统计分析第四章)

1. 适用方差分析的情境

t检验可以检验两个独立样本对应的总体均值是否相等,而对于多个总体,用t检验两两对比需要进行多次,若要求每一次检验中都不犯第一类错误,则整体检验中不犯第一类错误的概率降低。

而方差分析在比较多个总体均值的情况下,计算量较小,且犯第一类错误的概率保持不变。

2.方差分析有关概念

方差分析一般用来分析一个定量变量与多个定性变量之间的关系,如大学生毕业起薪(因变量)与性别、专业(自变量)等的关系。

方差分析的数据一般是经过专门设计而收集的实验数据,使用观察数据的话需要满足假设条件。

分类

单因素方差分析&多因素方差分析:根据自变量的数量

固定效应模型&随机效应模型:固定效应模型中因素所有水平都是由实验者审慎安排而不是随机选择,而随机效应模型中因素的水平是从多个可能水平中随机选择的。

3.方差分析中的基本假设

(1)各个总体中因变量都服从正态分布。

(2)各个总体中因变量的方差都相等。

(3)各个观测值之间是相互独立的。

4.方差分析中假设条件的检验方法

正态性检验

对按因素分组后各组数据的检验

(1)观察各组数据的直方图、Q-Q图。

(2)K-S检验(样本经验分布与给定分布比较,用于标准正态检验,可直接用软件实现)

方差齐次检验

检验各总体方差是否相等

(1)计算各组数据的标准差,若最大值与最小值的比值小于2:1(方差的话是4:1),则可以认为数据同方差。

(2)Levene检验

对基本假设的说明

(1)如果样本量很大,也可以允许非正态情况。

(2)独立性假设一般直接通过对数据搜集过程的控制来保证。

(3)若数据严重偏离前两个假设,可以对数据先进行变换,如开方、取对数等,或使用非参数的方法来比较均值(如Kruskal-Wallis检验,检验两个以上样本来自统一概率分布的一种非参数方法)

5.单因素方差分析

根据分别来自r个等方差正态总体的数据检验这些总体的均值是否相等。

因素A共r个水平,每个水平的样本容量为m,观测值为xij,i为因素水平。

总离差平方和(总变异)SST(Sum of squares for total)为: $$ SST=\sum{i=1}^r\sum{j=1}^m(x_{ij}-\bar{\bar x})^2 $$ (所有观测值减去总均值的平方和)

组间离差平方和SSA(sum of squares for factor A),可解释的变异为: $$ SSA=\sum_{i=1}^rm(\bar x_i-\bar{\bar x})^2 $$ (组均值与总均值之差的平方和,不要忘记乘m)

组内离差平方和SSE(sum of squares for error),与自变量无关的不可控因素引起的变异: $$ SSE=\sum{i=1}^r\sum{j=1}^m(x_{ij}-\bar x_i)^2 $$ (每个观测值与对应组均值的平方和)

满足关系: $$ SST=SSA+SSE $$

变异来源 离差平方和 自由度df 均方 F值
组间 SSA r-1 MSA=SSA/(r-1) MSA/MSE
组内 SSE n-r MSE=SSE/(n-r)
总变异 SST n-1

6.方差分析的步骤

(1)检验数据是否符合方差分析的假设条件

(2)提出零假设和备择假设。对于单因素方差分析:

零假设:各总体均值没有显著差异

备择假设:至少有两个均值不相等。

(3)计算F值和p值

(4)根据决策规则得出结论。

对F值,当计算值大于临界值时拒绝原假设。

对p值,当p<α时拒绝原假设。

7.方差分析的多重分析

当零假设被拒绝时,要进一步检验哪些均值之间有显著差异,还需要多重比较,称为事后检验。

可以使用Fisher最小显著差异方法(Least Significant Difference,LSD),Tukey诚实显著差异方法(Honestly Significant Difference,HSD)等

LSD方法

(1)H0:μi = μj ,H1:μi ≠ μj

(2)计算检验统计量: $$ t=\frac{\bar x_i-\bar x_j}{\sqrt{MSE(\frac{1}{n_i}+\frac{1}{nj})}} $$ (3)决策: $$ |t|>t{\alpha/2} ~~or ~~p<\alpha $$ 拒绝H0;

或者0不包含在置信区间: $$ (\bar x_i-\bar xj)\pm t{\alpha/2}\sqrt{MSE(\frac{1}{n_i}+\frac{1}{n_j})} $$ 拒绝H0。

其中t的临界值自由度为n-r(对应MSE组内方差自由度)

8.双因素方差分析(参考贾俊平P221)

方差分析可以分析因素之间的交互作用,也就是可以分析一个因素对因变量的影响受另一个因素的影响。

无交互作用的双因素方差分析

假设两个因素分别为A、B,分别有r、s个不同水平,每组试验重复m次。

定义: $$ \bar{\bar X}=\frac{1}{rsm}\sum\sum\sum X_{ijk} $$

$$ \bar X{ij}=\frac{1}{m}\sum{k=1}^mX_{ijk} $$

$$ \bar X{i ~\cdot}=\frac{1}{s}\sum{j=1}^s\bar X_{ij} $$

$$ \bar X{\cdot ~j}=\frac{1}{r}\sum{i=1}^{r}\bar X_{ij} $$

(此处刘扬书可能有误)

分解离差平方和为: $$ SST=\sum{i=1}^{r}\sum{j=1}^{s}\sum{k=1}^{m}(X{ijk}-\bar{\bar X})^2
~~~~~=SSA+SSB+SSE $$ 其中: $$ SSA=sm\sum{i=1}^r(\bar X{i~\cdot}-\bar{\bar X})^2 $$

$$ SSB=sm\sum{j=1}^s(\bar X{\cdot ~j}-\bar{\bar X})^2 $$

$$ SSE=\sum{i=1}^r\sum{j=1}^s\sum{k=1}^m(X{ijk}-\bar X{i~\cdot}-\bar X{\cdot ~j}+\bar{\bar X})^2 $$

变异来源 离差平方和 自由度df 均方 F值
A因素 SSA r-1 MSA=SSA/(r-1) F_A=MSA/MSE
B因素 SSB s-1 MSB=SSB/(s-1) F_B=MSB/MSE
误差 SSE n-r-s+1 MSE=SSE/(n-r-s+1)
合计 SST n-1
有交互作用的双因素方差分析

$$ SST=SSA+SSB+SSAB+SSE $$

其中: $$ SSAB=M\sum{i=1}^r\sum{j=1}^s(\bar X{ij}-\bar X{i~\cdot}-\bar X_{\cdot ~j}+\bar{\bar X})^2 $$

$$ SSE=\sum{i=1}^r\sum{j=1}^s\sum{k=1}^m(X{ijk}-\bar X_{ij})^2 $$

变异来源 离差平方和 自由度df 均方 F值
A因素 SSA r-1 MSA=SSA/(r-1) F_A=MSA/MSE
B因素 SSB s-1 MSB=SSB/(s-1) F_B=MSB/MSE
AB交互作用 SSAB (r-1)(s-1) MSAB=SSAB/(r-1)(s-1) F_AB=MSAB/MSE
误差 SSE rs(m-1) MSE=SSE/rs(m-1)
合计 SST n-1

9.双因素方差分析步骤

(1)分析数据是否满足方差分析假设条件,不满足的话要先对数据进行变换。

(2)提出零假设和备择假设

a.说明因素A有无显著影响。 $$ H_0:\alpha_1=\alpha_2=\cdots =\alpha_r=0;H_1:\alpha_1,\alpha_2,\cdots,\alpha_r不全为0。 $$ b.说明因素B有无显著影响。 $$ H_0:\beta_1=\beta_2=\cdots =\beta_s=0;H_1:\beta_1,\beta_2,\cdots,\beta_s不全为0。 $$ c.说明A,B交互作用是否显著。 $$ H0:(\alpha\beta){11}=(\alpha\beta){12}=\cdots =(\alpha\beta){rs}=0;H1:(\alpha\beta){11},(\alpha\beta){12},\cdots ,(\alpha\beta){rs}不全为0。 $$ (3)计算F值或p值。

对F值,当计算值大于临界值时拒绝原假设。

对p值,当p<α时拒绝原假设。

第七章 相关与回归分析

1.函数关系和相关关系

变量之间的数量关系存在两种不同类型:函数关系和相关关系

函数关系:一个变量取一定数值,另一个变量有确定值与之对应。

相关关系:一个变量取一定数值,另一个变量的数值按一定规律变化。

2.相关关系类型

相关方向:正相关、负相关

相关形式:线性相关、非线性相关

变量数量:单相关、复相关

3.相关关系的测度

(1)散点图

直观反映两个变量的相关关系。

(2)单相关系数

总体相关系数: $$ \rho=-\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} $$ 样本相关系数(总体相关系数的一致估计量) $$ r=\frac{\sum(X_t-\bar X)(Y_t-\bar Y)}{\sqrt{\sum(X_t-\bar X)^2\sum (Y_t-\bar Y)^2}}
=\frac{\sum X_tY_t-n\bar X\bar Y}{\sqrt{\sum(X_t-\bar X)^2\sum (Y_t-\bar Y)^2}} $$ i. r的值介于-1到1之间

ii. 当r=0,表明X、Y不存在线性关系,但可能存在其他相关关系。

iii. 当|r|=0,表明X、Y为完全线性关系。

iv. 大多数情况下,0<|r|<1,即X、Y存在一定的线性关系。

4.相关系数的检验

样本的相关系数带有一定随机性,与样本容量有关,故需要对相关系数的显著性进行检验。

检验总体相关系数ρ是否等于0: $$ t=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}} $$ 若 $$ |t|>t{\alpha/2} $$ 则r在统计上显著。若 $$ |t|\leq t{\alpha/2} $$ 则r在统计上不显著。

5.相关关系和因果关系

(1)因果关系:只要改变X的值,就会改变Y的值。

(2)相关关系:

i.直接相关。X导致Y。

ii.共同反应。X、Y都会随Z的改变而改变。

iii.交叉关系。X、Z可能同时影响Y,由于X与Z有关系,所以无法界定X对Y的直接影响。

6.一元线性回归函数

回归:建立函数关系Y=F(X)的过程。

(1)总体回归函数 $$ Y_t=\beta _0+\beta _1X_t+u_t $$ β为回归系数,是未知参数。u是随机误差项,又称随机干扰项,反映未列入方程式的其他因素对Y的影响。

(2)样本回归函数 $$ \hat Y_t=\hat \beta_0+\hat \beta_1X_t
Y_t=\hat \beta_0+\hat \beta_1X_t+e_t $$ et称为残差,X、Y为第t次的观测值。

(3)总体回归函数与样本回归函数的区别

i.总体函数未知,只有一条;样本回归函数根据样本数据拟合,抽取的样本数据不同,样本回归函数也不同。

ii.总体回归函数的回归系数是未知参数,为常数;而样本回归函数的回归系数是随机变量,根据选取样本数据变化。

7.一元线性回归模型的估计(参考计量经济学第三章)

(1)统计假设 $$ i.E(u_t)=0
ii.var(u_t)=E(u_t^2)=\sigma^2
iii.t\neq s时,Cov(u_t,u_s)=E(u_tu_s)=0,即不存在序列相关关系。
iv.Cov(X_t,u_t)=0,即自变量是确定取值,与随机误差项线性无关。
v.u_t\sim N(0,\sigma^2) $$ (2)普通最小二乘法

原理:使残差et项平方和最小。 $$ Q=\sum e_t^2=\sum(Y_t-\hat Y_t)^2=\sum(Y_t-\hat \beta_0-\hat \beta_1X_t)^2 $$ 对Q求极小值,分别对两个β求偏导,使其等于0。整理后得: $$ \hat \beta_1=\frac{n\sum X_tY_t-\sum X_t\sum Y_t}{n\sum X_t^2-(\sum X_t)^2}=\frac{\sum x_ty_t}{\sum x_t^2}
\hat \beta_0=\sum \frac{Y_t}{n}-\hat \beta_1\sum \frac{X_t}{n}=\bar Y-\hat \beta_1 \bar X $$ (3)理论依据

高斯-马尔可夫定理为用普通最小二乘法估计一元线性模型提供了理论依据。

即统计假设满足的情况下,回归系数的期望值等于回归系数的真值。此时回归系数的最小二乘估计量是BLUE(最优线性无偏估计量)和一致估计量。

注:并不意味着该方法每一个具体估计量都比其他方法计算出的具体估计值更接近回归系数真值,只是反复多次或扩大样本量计算估计量,接近真值的可能性最大。

8.一元线性回归模型的评价和检验

理论意义检验:参数估计值的符号和取值区间

一级检验:统计学检验,包括拟合程度评价和显著性评价

二级检验:经济计量学检验,包括序列相关检验、异方差性检验等。

‘拟合优度的评价

回归直线的拟合优度:回归直线与各观测数据的接近程度。

总离差: $$ Y_t-\bar Y $$ 可由回归直线解释的部分: $$ \hat Y-\bar Y $$ 不能由回归直线解释的部分(残差): $$ Y_t-\hat Y_t $$ 对下式两边求平方和: $$ Y_t-\bar Y=(Y_t-\hat Y_t)+(\hat Y_t-\bar Y_t)
\sum(Y_t-\bar Y)^2=\sum(Y_t-\hat Y_t)^2+\sum(\hat Y_t-\bar Y_t)^2+2\sum(Y_t-\hat Y_t)(\hat Y_t-\bar Y_t)
由\sum(Y_t-\hat Y_t)(\hat Y_t-\bar Y_t)=0
故\sum(Y_t-\bar Y)^2=\sum(Y_t-\hat Y_t)^2+\sum(\hat Y_t-\bar Y_t)^2
即SST=SSE+SSR $$ SST为总离差平方和,SSR为回归平方和,SSE为残差平方和。

同除以SST,得: $$ 1=\frac{SSR}{SST}+\frac{SSE}{SST} $$ 定义判定系数为: $$ R^2=\frac{SSR}{SST}=\frac{\sum(\hat Y_t-\bar Y)^2}{\sum(Y_t-\bar Y)^2}=1-\frac{\sum(Y_t-\hat Y_t)^2}{\sum(Y_t-\bar Y)^2}=1-\frac{SSE}{SST} $$ 显然,R^2的取值范围是[0,1],而R^2越大,残差和(SSE)越小,直线拟合程度越好。

在一元线性回归中: $$ r^2=R^2 $$ r为相关系数,正负与回归系数β1同号。

’估计标准差

估计标准差是对随机误差项标准差的估计,计算公式为: $$ s_y=\sqrt{\frac{\sum (Y_t-\hat Y_t)^2}{n-2}}=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE} $$ 其反映了用估计的回归方程预测因变量Y时预测误差的大小。sy越小,回归直线的代表性越好,预测也越准确。

‘显著性检验

分为对回归系数的的显著性检验(t检验)与对整个回归方程的检验(F检验)

i.对回归系数的显著性检验(t检验)

假设与统计量分别为: $$ H_0:\beta_1=0~~~H_1:\beta_1\neq0
t=\frac{\hat \beta_1-\beta1}{s{\hat \beta1} }
其中s
{\hat \beta_1}=\frac{s_y}{\sqrt{\sum X_i^2-\frac{1}{n}(\sum X_i)^2}} $$ 根据自由度df=n-2查找临界值t{α/2},若|t|>t{α/2},拒绝原假设,回归系数显著。

ii.对整个回归方程的检验(F检验)

在一元线性回归模型中,对β1=0的t检验等价于对整个方程的F检验。

此时的假设与检验统计量为: $$ \beta_1=0
F=\frac{SSR/1}{SSE/(n-2)}=\frac{MSR}{MSE}\sim F(1,n-2) \此处为F(p,n-p-1) $$ 此处根据df1=1,df2=n-2查F分布表,找出相应的临界值Fα,若F>Fα,拒绝原假设,两变量之间线性关系显著。

‘利用回归方程进行预测(刘扬P129)

Sig.的值小于α(显著性水平),拒绝原假设。

R为R^2正的平方根,|r|=R,故Y与X的相关系数绝对值为|r|,正负与估计的回归系数一致。

判定系数R^2=SSR/SST的统计含义(P131):

在因变量的离差中,有100R^2%可以由线性回归方程解释;

在因变量的变动中,有100R^2%是由自变量决定的。

估计标准误sy的统计含义:

根据自变量对因变量进行估计时,平均估计误差为sy。

9.多元线性回归模型及参数估计

除一元线性回归模型的五项假设,还包括:

(1)p+1<n

(2)各变量间不存在严格的线性关系 $$ Y_t=\beta_0+\beta1X{1t}+\beta2X{2t}+…\betapX{pt}+u_t $$ 估计的多元线性方程一般形式为: $$ Y_t=\hat\beta_0+\hat\beta1X{1t}+\hat\beta2X{2t}+…\hat\betapX{pt} $$ betai称为偏回归系数,表示当其他变量不变时,Xi每变动一个单位因变量的平均变动量。

10.回归方程的拟合优度

‘修正判定系数

判定系数与一元线性方程相同: $$ R^2=\frac{SSR}{SST}=\frac{\sum(\hat Y_t-\bar Y)^2}{\sum(Y_t-\bar Y)^2}=1-\frac{\sum(Y_t-\hat Y_t)^2}{\sum(Y_t-\bar Y)^2}=1-\frac{SSE}{SST} $$ +√(R^2)为复相关系数。

样本容量一定时,SST与自变量个数p无关,但p增加可能会使预测误差减小,从而SSE减小(至少不会增加)。多元线性模型包含的自变量个数不一定相同,故R2不适合用于衡量优劣,引入修正自由度的判定系数: $$ R_a^2=1-(1-R^2)\times \frac{n-1}{n-p-1} $$

’估计标准误

估计标准误是对误差项ut方差的估计值: $$ s_y=\sqrt{\frac{\sum (y_i-\hat y_i)^2}{n-p-1}}=\sqrt{\frac{SSE}{n-p-1}}=\sqrt{MSE} $$ 含义:根据自变量Xi来预测因变量y时的平均误差。

11.显著性分析

‘线性关系检验(F检验)

提出假设: $$ H_0:\beta_1=…=\beta_P=0~~~~~H_1:\beta_1,\beta_2,…,\beta_P至少有一个不为0 $$ 检验统计量: $$ F=\frac{SSR/p}{SSE/(n-p-1)}\sim F(p,n-p-1) $$ F>Fα(临界值),或p<α,拒绝原假设。

’回归系数的检验(t检验)

提出假设: $$ H_0:\beta_i=0~~~~~H_1:\beta_i\neq0 $$ 检验统计量: $$ t_i=\frac{\hat \beta_i-\betai}{s{\hat \betai}}\sim t(n-p-1)
s
{\hat \beta_i}=\frac{s_y}{\sqrt{\sum X_i^2-\frac{1}{n}(\sum X_i)^2}} $$ 若|t|>t{α/2}(临界值),拒绝原假设。

12.非线性回归分析

‘主要函数类型

(1)抛物线函数 $$ Y=a+bX+CX^2 $$ 判断是否适用抛物线函数,计算: $$ \triangle X_t=Xt-X{t-1}
\triangle Y_t=Yt-Y{t-1}
\triangle ^2Y_{t}=\triangle Yt-\triangle Y{t-1}
若△X_t与|△^2Y_t|均接近常数,则Y、X的关系近似于抛物线方程。 $$ (2)双曲线函数 $$ Y=a+\frac{b}{X} $$ Y随X同增同减,起初增加(减少)很快,后期放缓并趋于稳定。

(3)幂函数 $$ Y=aX_1^{b_1}X_2^{b_2}…X_k^{b_k} $$ 可直接反映Y对某一个自变量的弹性。

(4)指数函数 $$ Y=ab^x $$ 广泛用于描述客观现象的变动趋势。

(5)对数函数 $$ Y=a+blnx $$ 随x增大,X的单位变动对因变量Y的影响效果不断递减。

(6)S形曲线函数 $$ Y=\frac{L}{1+ae^{-bx}} $$ 又称为逻辑曲线,Y为X的非减函数,开始随X增长,Y增长加快,当Y到达一定水平,增长速度放慢,之后趋近于L。

’逐步回归(借助SPSS计算)

多元线性回归方程中不一定所有的自变量的系数都显著。

(1)向前引入法

分别计算各自变量对因变量贡献的大小按次序逐个加入从而建立最优回归方程。当加入其余变量不能使得方程更优时停止。

(2)向后剔除法

从包含自变量的全部模型开始,逐步把不显著的变量剔除出去。直到剔除任一变量不能使得方程更优时停止。

(3)逐步引入-剔除法

先按照向前引入法的原则选择较好的自变量进入,再按照向后剔除法剔除不合标准的自变量,如此反复。

13.违背回归模型统计假设的后果与补救方法

‘异方差(参考计量经济学陈强第7章)

随机误差项的方差不为常数 $$ Var(u_t)=\sigma^2 $$ 此时回归模型估计量不再具有最小方差性质,即不再具有有效性。

可以采用以下方法对异方差进行假设检验:帕克检验法、斯皮尔曼等级相关检验法、怀特检验法、戈德弗尔德-匡特检验法、格里瑟检验法、布鲁奇-帕根检验法。

一旦检验处异方差,需要对模型进行变换,使经过变幻的模型具有同方差性,通常有以下方法:

(1)OLS+稳健标准误

只要样本容量较大,即使在异方差的情况下,若使用稳健标准误,则所有参数估计、假设检验均可照常进行。

(2)广义最小二乘法GLS $$ Var(\epsilon|X)=\sigma^2V(X)\neq \sigma^2 I_n,V(X)为对称正定矩阵,故存在V^{-1}(X)=C’C $$ 原方程左乘C,变换后: $$ Var(\tilde\epsilon|\tilde X)=\sigma^2 In
\hat \beta
{GLS}=(X’V^{-1}X)^{-1}X’V^{-1}y $$ (3)加权最小二乘WLS:

假定: $$ E(\epsilon_i ^2|x_i)=Var(\epsilon_i|x_i)=\sigma^2v_i(X)
根据信息量大小进行加权
v= \left[ \begin{matrix} v_1 & &&0\ & v_2\ &&…\0&&&v_n\end{matrix}\right]
新扰动项为\frac{\epsilon_i}{\sqrt{vi}}
min~~SSR=\sum^n
{i=1}(\frac{\epsilon_i}{\sqrt{vi}})^2=\sum^n{i=1}(\frac{\epsilon_i^2}{v_i}) $$

’序列相关

$$ 当t\neq s,Cov(u_t,u_s)\neq0 $$

此时普通最小二乘估计量仍为无偏估计量,但不具有最小方差性质,显著性检验也失效。

检验序列相关的方法:德宾-沃森检验法,拉格朗日乘数法等。

‘多重共线性

两个或多个解释变量高度线性相关,即存在不全为0的常数: $$ C_0+C_1X_1+…C_kX_p=0 $$ 估计值精度会大大降低;解释变量对被解释变量的影响也无法测定;回归系数的显著性检验,也会增大取伪的概率。

判断多重共线性:(1)估计值的符号明显违背经济常理,或重要的解释变量t值小但模型R较大。

(2)VIF(方差膨胀因子):一般VIF超过5,认为有严重多重共线性存在。

解决思路:加入额外信息(增加样本容量、施加约束条件、删除若干共线解释变量);采用岭回归等方法估计模型系数。

第八章 时间序列分析

1.时间序列分解

时间序列分析方法:数据图法、指标法、模型法

(1)长期趋势(Tt):朝着一定的方向持续上升或下落,或停留在某一水平上的倾向。

(2)季节变动(St):一年或更短时间内受某种固定周期性因素的影响而呈现出有规律的周期性波动。

(3)循环变动(Ct):通常为周期一年以上的有规律波动。周期长短不一,变动的规律性和稳定性较差。

(4)不规则变动(It):由于偶然事件引起的变动。

2.时间序列分解模型

(1)加法模型 $$ Y_t=T_t+S_t+C_t+I_t $$ 四种成分相互独立,某种成分变动并不影响其他成分的变动,各成分用绝对量表示,量纲相同。

(2)乘法模型 $$ Y_t=T_t\times S_t\times C_t\times I_t $$ 四种成分相互依存,长期趋势T用绝对量表示,量纲与时间序列本身相同,其他成分用相对量表示。

(3)加乘混合模型

需要考虑现象变化与数据本身特征。

3.时间序列长期趋势分析

‘移动平均法

求连续若干期的平均数作为某一期的趋势值,逐步移动得到一系列移动平均数。一次N期移动平均的计算公式为: $$ M_t^{(1)}=\frac{1}{N}(Yt+Y{t-1}+…+Y_{t-N-1}) $$ 平均期数为N。此时短期偶然因素引起的变动被削弱。可以作为作为最近一期的趋势值,也可以作为N期中间一期的趋势值(中心化移动平均)。

N为偶数时,中心化移动平均需要进行N+1项移动平均: $$ M_{t-N/2}^{(1)}=\frac{1}{N}(0.5Yt+Y{t-1}+…+Y{t-N-1}+0.5Y{t-N}) $$

’时间回归法

当时间序列明显包含某种确定性趋势时,用时间回归法描述其变化趋势。

常用模型:

(1)线性方程 $$ \hat Y_t=a+bt $$ (2)二次曲线 $$ \hat Y_t=a+bt+ct^2 $$ (3)指数曲线 $$ \hat Y_t=ab^t $$ (4)修正指数曲线 $$ \hat Y_t=K+ab^t(K>0,a\neq0,00,00,a>0,0<b\neq 1) $$ (7)振动曲线 $$ \hat Y_t=f(t)+Acos(\omega t +\phi) $$

可以根据数据图直接观察数据变化的趋势特征选择,也可以拟合几个模型以后比较判定系数R2。

4.时间序列季节变动分析

先需要从原时间序列中提出可能存在的长期趋势。

用移动平均剔除法:

(1)先进行N期中心化移动平均值,得到反映长期趋势的移动平均序列。

(2)原时间序列除以相应的中心化移动平均值(2),得到剔除长期趋势的时间序列。

(3)计算剔除长期趋势后时间序列(3)的同期平均值(同月或同季度),即未调整的季节指数。

(4)用未调整的季节指数除以剔除长期趋势后的时间序列(2)的总平均值。

5.时间序列循环变动分析

应用于经济周期波动和商业景气循环研究。用剩余法测定循环变动(以乘法模型为例): $$ C_t\times I_t=\frac{Y_t}{T_t\times S_t} $$ 先求出时间序列Y的长期趋势T和季节指数S,再除去长期趋势和季节变动,最后用移动平均法除去不规则变动I,就能得到循环变动C。

6.时间序列分解预测法

利用结构模型对未来取值进行预测。分解预测法先将序列中的各种非随机成分分离出来,分别进行预测,再将各部分预测值合成总的预测值。

(1)对原时间序列进行N期中心化移动平均,求得TC。

(2)将原时间序列各观测值除以相应中心化移动平均值,得到SI。

(3)计算SI的同期平均值,消除不规则影响,得到S,反映季节变动。

(4)对TC用时间回归法建立合适的模型,得到T。

(5)从TC中分离出T,得到C。

(6)合成预测值: $$ \hat Y{t+l}=\hat T{t+l}S{t+l}C{t+l} $$ T由(4)得到,S可用同期季节指数代替,C可以用半定量化方法预测(根据分离出的C的变化趋势,主观判断C的预测值)。

7.指数平滑

指数平滑是一种加权移动平均,可以描述时间序列的趋势,也可以用来预测。

‘单参数(一次)指数平滑

$$ F_t=aYt+(1-a)F{t-1}
\hat Y_{t+1}=F_t $$

Ft是第t期的平滑值,Yt是第t期的实际观测值,a为平滑系数。 $$ F_1=Y_1
\hat Y_2=aY1+(1-a)F{1}=aY1+(1-a)Y{1}=Y_1
\hat Y_3=aY2+(1-a)F{2}=aY2+(1-a)Y{1}
\hat Y_4=aY3+(1-a)F{3}=aY3+a(1-a)Y{2}+(1-a)^2Y1 $$ 推得: $$ \hat Y{t+1}=\sum {k=1}^{\infin}a(1-a)^kY{t-k}
\sum _{k=1}^{\infin}a(1-a)^k=1 $$ 序列波动小,a值应取小一些,使得不同时期的数据权数差别小一些,使预测模型能包含更多历史数据的信息。

一般用前半段历史数据建立预测模型,后半段用于事后预测,以事后预测误差平方和为评价标准,确定最佳a值。

‘双参数指数平滑

适用于只包含长期趋势的非平稳时间序列预测。预测公式为: $$ \hat Y_{T+t}=F_t+b_tl~~~~(l=1,2,…)
F_t=\alpha Yt+(1-\alpha )(F{t-1}+b_{t-1})
b_t=\beta (Ft-F{t-1})+(1-\beta)b_{t-1}
F_1=Y_1
b_1=\frac{Y_m-Y_1}{m-1} $$

’三参数指数平滑

对既含长期趋势又含季节变动的非平稳时间序列进行预测时,用Winter(温特)指数平滑法。依据加法或者乘法模型,其中乘法模型为: $$ \hat Y_{T+t}=(F_t+btl)S{t+l-L}
F_t=\alpha\frac{Yt}{S{t-1}}+(1-\alpha)(F{t-1}+b{t-1})
b_t=\beta(Ft-F{t-1})+(1-\beta)b_{t-1}
St=(1-\gamma)S{t-L}+\gamma \frac{Y_t}{Ft}(消除不规则影响的季节指数) $$ L是季节变动的周期长度。季节指数有L个初始值,由序列第一个周期数据算得: $$ \bar Y=\frac{\sum^L{i=1}Y_i}{L} \S_i=\frac{Y_i}{\bar Y} \F_L=\bar Y \bL=\frac{[(Y{L+1}-Y1)+(Y{L+2}-Y2)+(Y{L+3}-Y_3)]}{3L} $$

8.ARMA模型的基本形式

宽平稳满足:(1)均值为常数;(2)协方差仅与时间间隔有关

‘AR(p)p阶自回归

$$ X_t=\phi 1X{t-1}+…+\phipX{t-p}+a_t
其中a_t不存在自相关,且一般假定a_t\sim N(0,\sigma_a^2) $$

‘MA(q)q阶滑动平均

$$ X_t=a_t-\theta1a{t-1}-…-\thetaqa{t-q} $$

’ARMA(p,q)自回归滑动平均模型

$$ X_t=\phi 1X{t-1}+…+\phipX{t-p}+a_t-\theta1a{t-1}-…-\thetaqa{t-q}
\Phi (B)X_t=\Theta(B)a_t
\Phi(B)=1-\phi _1B-…-\phi_pB^p
\Theta(B)=1-\theta_1B-…-\theta_qB^q $$

9.ARMA模型的识别与估计

’识别
模型 AR(P) MA(q) ARMA(p,q)
自相关函数(ACF) 拖尾 q后截尾 拖尾
偏自相关函数(PACF) p后截尾 拖尾 拖尾

拖尾指以指数率单调递减或震荡衰减,若出现缓慢衰减或周期性衰减,序列可能非平稳。

关于ACF与PACF的计算(时间序列分析P46)

Schwarz信息准则,记为SIC,有以下准则函数,准则函数值越小,模型越优。 $$ AIC(p,q)=ln[\hat \sigma_a(p,q)]+2(p+q)/N
BIC(p,q)=ln[\hat \sigma_a(p,q)]+(p+q)ln(N)/N $$

‘适应性检验

用矩估计法、最小二乘估计法、极大似然估计法等参数估计法估计参数后,检验该模型描述时间序列是否恰当。一般是判别残差是否独立。

一般的样本观测数据序列均值不为0,此时应在ARMA模型上加一截距项\theta_0

首先,绘出ACF、PACF图形,由边界值:均值±两倍标准差,可判别两值是否显著非0。

其次,观察各参数值是否显著。

最后,绘制残差项的自相关与非自相关图,若不存在显著的自相关性,则模型是适应的。

10.ARIMA模型

对明显呈现趋势性的序列,通常采用ARIMA模型(求和自回归滑动平均模型)。

ARIMA(p,d,q)模型如下: $$ \Phi(B)(\nabla^d X_t)=\Theta(B)a_t
\nabla^1X_t=Xt-X{t-1} $$ 首先,进行差分,直到时间序列图没有明显的趋势。

其次,识别差分后时间序列的类型(ARMA/AR/MA)。

然后,计算机进行参数估计及显著性检验。

最后,绘制残差项的自相关与非自相关图,若不存在显著的自相关性,则模型是适应的。

第九章 统计指数

1.统计指数的概念与种类

’概念

广义:反应现象在时间上数量变动程度和方向的相对数。

狭义:表明复杂总体数量特征综合变动的特殊相对数。

简单总体:构成总体的各事物数量上能直接加总。

复杂总体:构成总体的各事物有不同的使用价值和计量单位,数量上不能直接加总。

‘分类

(1)个体指数&总指数(反映现象范围)

个体指数:个别事物变动情况

总指数:多种事物综合变动情况(狭义指数)

(2)数量指数&质量指数(反映现象性质)

数量指数:现象总体规模变动情况(职工人数指数)

质量指数:现象总体内涵数量变动情况(价格指数、劳动生产率指数)

(3)简单指数&加权指数(指数是否加权)

简单指数:不加权

加权指数:以重要性的数值为权数加权计算的指数

(4)综合指数&平均指数

综合指数:先综合后求比率

平均指数:先求比率后求平均

2.指数的编制

‘简单指数

以价格指数为例

(1)简单综合指数 $$ P^i_0,P^i_1分别表示第i种商品在基期和报告期的单位价格。
I_p=\frac{P^1_1+P^2_1+…+P^n_1}{P^1_0+P^2_0+…+P^n_0}=\frac{\sum P_1}{\sum P_0} $$ 缺点:i.易受价格高的商品价格变动影响 ii.未考虑商品的经济重要性

(2)简单平均指数 $$ I_p=\frac{1}{n}(\frac{P^1_1}{P^1_0}+\frac{P^2_1}{P^2_0}+…+\frac{P^n_1}{P^n_0}) $$ 解决了简单综合指数的缺点i,却没解决缺点ii。

’加权指数

用权数区别指数中包含商品的经济重要性大小,分为加权综合指数与加权平均指数。

(1)加权综合指数

数量指数以质量指标作为权数,质量指数用数量指标作为权数。

i.数量指数

指数化因素:要研究变化程度的因素。

同度量因素:使得不能相加的指数化因素过渡到可以相加的因素。

以产品产量为例,同度量因素为产品出厂价格,q为指数化因素,p为同度量因素。 $$ 同度量因素固定在基期:拉氏指数 ~I_p=\frac{\sum q_1p_0}{\sum q_0p_0}
同度量因素固定在报告期:帕氏指数 ~I_p=\frac{\sum q_1p_1}{\sum q_0p_1} $$ ii.质量指数

以产品出产价格为例,同度量因素为产品产量,q为指数化因素,p为同度量因素。公式同(1)。

实际中多采用拉氏物量指数和帕氏价格指数公式编制指数。

(2)加权平均指数(主要是算术平均指数和调和平均指数)

i.算术平均指数

以个体指数为变量,总值资料(一般为基期总值)为权数,对个体指数加权平均计算的总指数。 $$ K_q=\frac{q_1}{q_0}
I_q=\frac{\sum q_1p_0}{\sum q_0p_0}=\frac{\sum K_qq_0p_0}{\sum q_0p_0} $$ ii.调和平均指数

以个体指数为变量,总值资料(一般为报告期总值)为权数,对个体指数加权平均计算的总指数。 $$ K_q=\frac{q_1}{q_0}
I_q=\frac{\sum q_1p_1}{\sum q_0p_1}=\frac{\sum q_1p_1}{\sum \frac{1}{K_q}q_1p_1} $$ iii.固定权数的平均指数 $$ I_p=\frac{\sum\frac{p_1}{p_0}\omega}{\sum \omega} $$ 该固定权数是经过调整计算后在一定时期内保持不变的权数。

3.加权综合指数与加权平均指数的区别与联系

加权综合指数是根据现象内在的关系通过两个同度量后的总值指标对比编制的总指数,即可以说明现象变动的方向和程度,又能说明现象变动产生的实际效果。

加权平均指数是个体指数的加权平均数,权数为值权。

’联系

在一定权数下,两指数可变形,且此时经济意义与数学性质完全一致。若依据资料相同,则结果也相同。

‘区别

(1)编制加权综合指数的基本问题是同度量因素问题,加权平均指数不存在该问题。

(2)编制加权综合指数需要全面资料和计算假定值,加权平均指数不需要,且具有独立的使用价值。

4.居民消费价格指数(CPI)

​ 反映各种消费品和生活服务价格的变动趋势和程度的重要经济指数。该指数可以观察分析消费品的零售价格和服务价格变动对城乡居民实际生活的影响,为各级政府和部门掌握消费者价格状况,研究、制定价格、工资、货币、消费等政策,宏观调控提供依据,同时它也反映通货膨胀、进行国民经济核算和契约指数化调整的重要指标和根据。

‘编制方法

将居民消费划分为八大类,263基本分类,选定约700种商品和服务项目,采用固定加权算术平均指数法编制。

(1)对生活消费品和服务项目进行分类。

(2)选取代表商品和代表规格品及服务项目。

(3)选择指数公式。 $$ 单项商品或服务项目的价格指数=\frac{\bar p_1}{\bar p_0}
类指数=\sum k \times\frac{\omega}{\sum \omega} $$ (4)确定权数。根据城乡居民消费习惯、消费模式,参照抽样调查原理选中的近12万户城乡居民家庭的消费支出数据,结合其他相关资料确定的。一般采用分层抽样的方式,在全国抽选出500多个市、县作为调查地区,从中选择50000多个调查网点进行经常性的调查。至少每五天调查一次价格,保证CPI能够及时、准确地反映市场价格变动。

‘选择代表规模品时应遵循的原则

(1)与社会生产和人民生活关系密切。

(2)销售量大。

(3)生产前景较好,市场供应比较稳定。

(4)价格变动趋势和程度对其他规格品具有较强的影响和牵引力。

(5)所选择的代表规格品之间差异大。

’居民消费价格指数的应用

在经济分析中需要首先剔除价格因素的影响,这时需要用相应的价格指数来缩减现价指标,此时需要效用与相应序列一致的价格指数序列。 $$ 实际指标=\frac{名义指标}{相应的定基价格指标} $$ 一般把按当年价格计算的指标称为名义指标,将以可比价格计算的指标称为实际指标。

5.生产指数

生产指数指反映生产的发展趋势及变动程度的相对数,是一种物量指数,一般采用代表产品产量个体指数的加权算术平均指数公式编制。 $$ 生产物量指数=\frac{\sum \frac{q_1}{q_0}p_0q_0}{\sum p_0q_0} $$

‘工业生产指数(IPI)

是经济动态最敏感的指数,可以作为经济分析和商情预测的尺度。计算产量时,有以生产量衡量,也有以销售量衡量的。

工业生产指数原则上采用修改后的拉氏物量指数: $$ 工业生产指数=\frac{\sum p_nq_1}{\sum p_nq_0} $$ 实际编制时一般采用固定权数的加权算术平均指数公式: $$ 工业生产指数=\frac{\sum \frac{q_1}{q_0}p_nq_n}{\sum p_nq_n} $$ pn为可比价格,q0、q1分别表示基期和报告期工业产品的数量,pnqn是权数,是可比价格增加量。

编制工业生产指数的基期一般五年变更一次,每变更一次基期,有关年份的生产指数都要按新的基期年份调整,保证资料的可比性。 $$ 换算系数=\frac{交替年按新不变价格计算的增加值}{交替年按旧不变价格计算的增加值} $$

‘农业生产指数

反映农业生产的发展趋势和程度的相对数,表明一定时期全部农畜产品实物产量的增减变化。

采用固定权数的加权算术平均指数公式,一般一年编制一次。

由于农业受自然条件影响较大,有些国家除了以某一年度作为基数以外,还以某几个年度的平均数作为基数。

6.股票价格指数(SPI)

简称股价指数,反映股票市场价格变动趋势和程度的综合性指标。

股市是经济发展的晴雨表,股票价格指数的变动也是反映一个国家或地区政治、经济发展状况的灵敏信号。

‘股票价格指数的编制要求

(1)正确选择具有代表性的若干股票作为计算对象。

(2)采用恰当的计算方式进行编制计算,计算方法应具有高度适应性和较好的敏感性,能对不断变化的股市行情作出相应的调整或修正。还要有科学的计算依据和手段。

(3)选好计算股价指数的基期。基期应具有较好的代表性和均衡水平,使各个不同时期的股价指数具有可比性。

‘编制方法

(1)上证综合指数

以正式开业日1990年12月19日为基期,用市价总额加权计算: $$ 股价指数=\frac{报告期市价总额}{基期市价总额}\times 100
市价总额=\sum(8种股票市价\times 发行量) $$ 如报告期前一天出现了增资扩股或新增股票(删除旧股),分母替换为新基准市价总值。 $$ 新基准市价总值=修正前基期市价总值\times\frac{修正前基期市价总值+市价总变动值}{修正前市价总值} $$ (2)深证成份股指数与深证综合指数

深证成份股指数以流通股为权数,深证综合指数以计算日总股本数(发行量)为权数。 $$ 股价指数=\frac{报告期成份股总市价}{基期成份股总市价}\times 1000 $$ 当有新股上市,其上市后的第二天纳入成份股计算;

当某一成份股暂停买卖,将其剔除指数计算;

当某一成份股在交易时间停盘,取最后成交价格计算即时指数,收市后再进行必要调整。

(3)沪深300指数

选取的成分股规模大、流动性好。每半年调整一次成份股,每次调整比例一般不超过10%。

成分股选取:

i.计算样本空间股票近一年的日平均总市值、日均流通市值、日均流通股份数、日均成交金额、日均成交股份数5个指标,按2:2:2:1:1进行加权平均。

ii.计算结果从高到低排列,选取排名前300的股票。

iii.样本设置缓冲区,前240的新样本优先进入,排名360以前的老样本优先保留。

iv.样本股公司退市,由最近一次指数定期调整时的候选样本中排名最高的尚未调入指数的股票代替。

沪深300以2004年12月31号为基日: $$ 股价指数=\frac{报告期成份股的调整市值}{基期成份股的调整市值}\times1000
调整市值=\sum (市值\times调整股本数) $$ 调整股本数以分级靠档的方法对成分股本进行调整。

例如:

股票A流通股比例(流通股本/总股本)为7%,低于20%,采用流通股本为权数;

股票B流通股比例为35%,在区间(30,40)内,对应的加权比例为40%,采用总股本的40%为权数。

7.指数体系与因素分析

许多现象之间存在相互联系和相互影响的客观关系,事物之间的这种必然联系可以从数量上加以测定。

指数体系的两个主要作用:

(1)根据指数体系中各指数之间的联系进行相互推算。

(2)分析研究现象总变动中各个因素变动对其的影响方向和程度。

总值与各因素的关系表现在两个方面:

(1)总指指数等于各因素指数的乘积。

(2)总值变动的绝对额等于各因素导致的变动额之和。

指数体系中可以包含两个或者更多个因素指数,此处以两个因素为例。

通常一个是数量指数、另一个是质量指数,且必须一个是拉氏指数、一个是帕氏指数。

最常用的分解公式为: $$ 价值指数=拉氏数量指数\times帕氏价格指数
\frac{\sum p_1q_1}{\sum p_0q_0}=\frac{\sum p_0q_1}{\sum p_0q_0}\times\frac{\sum p_1q_1}{\sum p_1q_0}
\sum p_1q_1-\sum p_0q_0=(\sum q_1p_0-\sum q_0p_0)+(\sum q_1p_1-\sum q_1p_0) $$ 总值变动的因素分析(P184例题):

i.被分析指标的总变动程度和绝对额。

ii. 各因素的变动程度和对绝对额的影响。

iii.综合分析:总变动程度等于各因素变动程度连乘积,总变动绝对额等于各因素变动影响绝对额之和。