正交试验设计

发布于 2023-06-02  305 次阅读


Please refresh the page if equations are not rendered correctly.
---------------------------------------------------------------

正交试验设计

引言

在科研和生产当中,经常需要做许多试验,所考察的指标往往是收多个因素影响的,我们要通过试验来选择各个因素的最佳试验状态,这就存在着如何安排试验和如何分析试验结果的问题。举个例子,某工厂为了提高维尼纶的耐热水性能,需要分析其醛化工序,该工序使用缩醛化度作为衡量指标,其程度越高,纤维耐热水性能越好。影响缩醛化度的因素有很多,比如反应时间、反应温度、甲醛浓度、硫酸浓度、芒硝浓度等等。这些因素除了芒硝浓度取三个水平外,其余的四个因素各取七个水平。这么多的因素和水平,如果要做全面试验,要做7\times7\times7\times7\times3=7203次试验,约要五年时间,这显然是行不通的。又比如水稻品种的筛选试验中,光是播下种子后的秧田期就需要考虑因素不同田地的发芽率、播种密度、土壤含水量、土壤肥力、天气等等,考虑的指标更是有叶片数、苗高、叶片长度等诸多指标,如果要做全面试验,显然不太实际。因此需要一种能够只做部分试验就能得到全面试验结果的方法。

正交试验设计是试验设计(DOE)中的一种方法,其是利用一套现成的规格化的表——正交表来安排多因素试验,能以部分试验来代表全面试验,并对试验结果进行统计分析,从而找出最优(较优)试验方案的一种方法。具体而言,它能够回答以下问题:

  1. 因素的主次:即每个因素对所考察指标的影响大小
  2. 因素和指标的关系:即每个因素在不同水平下,指标如何变化
  3. 哪种才是较好的工艺条件

正交试验设计中的基本概念:

(1)指标。根据试验的目的而选定的用来衡量试验结果好坏或处理效应高低的质量指标称为试验指标。指标=实验目的,一般是定量的,比如产率。如果是定性指标,通常通过评分定级的方法转化为定量指标。

(2)因素。因素也称因子,是试验中考查对试验指标可能有影响的原因或要素。因素=实验条件,比如温度、浓度,在正交表中通常用大写英文字母A、B、C、D代表。对于没有列在因素中的实验条件,要尽量保持一致,以减小系统误差。

(3)水平。试验中选定的因素所处的状态和条件称为水平或位级。水平=实验条件的具体数数值,例如温度的水平是80℃、90℃、100℃,在正交表中通常用“1”、“2”、“3”来表示。正交表中所说的一因素二水平,意思就是1个实验条件有2个实验数值,三因素四水平就是3个实验条件,每个条件都有4个数值。


正交试验方案和正交表

正交试验方案——因素水平表

该试验的文章出处:UHMWPE防弹复合材料正交试验设计与分析 - 中国知网 (cnki.net)

image-20230524112437109

上图为XX防弹复合材料正交试验设计方案

  • 已知影响复合材料防弹性能的因素有:温度(A)、压强(B)、时间(C)等热压成型工艺参数,以及铺层角度(D)
  • 对每个因素设置三个水平
    • 温度(A):110、120、130
    • 压强(B):15、20、25
    • 时间(C):20、40、60
    • 铺层角度(D):0°,90°和±45°

因此该方案为4因素3水平的方案

正交表

image-20230524113106252

img

上图为该试验的正交表,记为L_9(3^4)

L:正交表符号

9:正交表安排的需要做的试验次数

4:正交表的列数(最多课安排的因素的个数)

3:每个因素的水平数

正交表安排的试验次数 N=s\times(q-1)+1

可见,如果是做全面试验,4因素3水平的试验需要做3^4=81次,但是利用正交表只需要做9次。

不难看出,该表中有两个特点:

  1. 整齐可比性:表中任意一列所含的各种水平的个数相同,如每列都有三个“1”,三个“2”,三个“3”

  2. 均衡搭配性:表中任意两列所有可能的数对出现的次数相同,如1、2、3三个数字可能出现的数对为

    (1,1) (1,2) (1,3)

    (2,1) (2,1) (2,3)

    (3,1) (3,2) (3,3)

    而在表中任意两列,这九种数对各出现一次

    以上两个特点正是正交表的特点。

正交试验方案的合理性解释

正交表安排的部分试验可完全代表全面试验,对于它的证明需要较多的代数和数理统计知识,在此从略。下面给出一个较为直观的解释。

正交表的整齐可比性和均衡搭配性两个性质决定了正交试验方案的两个特点:

  1. 每个因素的各个不同水平在试验中出现了相同的次数
  2. 任何两个因素的各种水平的不同搭配,在试验中都出现了,即对任意两个因素是全面试验,且出现了相同次数。

小结

  1. 正交表的安排的是小部分试验,且可完全代替全面试验
  2. 不需要自己构造正交表,完全可以交给软件处理,只需要知道如何用正交表安排试验和看懂正交表

正交试验数据分析

对于正交试验,通常采用两种分析方法,极差分析法和方差分析法,前者直观、简单,但比较粗糙,后者能提供更详细的有关结论

数理统计基础知识简介(待完成)

数理统计的基本内容包括数据采集和统计推断两个方面,其中数据采集包括抽样理论和试验设计等内容,统计推断则包括估计和检验两类问题。

基本概念

  1. 随机变量、期望、方差、标准差等
  • 方差的概念:方差用来计算每一个变量(观察值)与总体均值之间的差异。为避免出现离差总和为零,离差平方和受样本含量的影响,方差反映了随机变量与均值的偏离程度

总体方差计算公式:\sigma^2=\frac{\sum(x-\mu)^2}{N}

\sigma^2为总体方差,X为随机变量,\mu为总体均值,N为总体个数

  • 极差的概念:最大值—最小值
  1. 总体与样本
  • 总体:所涉及的研究对象的全体,比如要分析材料学院全体学生的身高分布,总体为材料学院全体学生的身高,又比如要研究某工厂同一批次生产的玻纤的次品率,总体为该批次生产的玻纤。总体既可以是有限的(比如上面的学生身高),也可以是无限的(比如某片海域的鱼类分布)。在数理统计中,总体可以用一个随机变量及其概率分布(总体分布)来描述,记为X\sim FX \sim f
  • 样本:从总体中抽取一定容量的个体所组成的集合。样本也是随机变量,同样可以用概率分布(样本分布)来描述。我们所的得到的统计模型,就是样本分布。 样本可能取值的全体,构成样本空间。
  1. 统计量—样本的函数

对于一些破坏性的试验,比如电子元件的寿命试验,工厂显然不可能进行全面试验,因而我们只能得到样本数据,从而利用抽取的样本数据推断同一批生产的所有电子元件的寿命分布情况,将该样本分布情况视作是全体的分布情况。

因此,统计量就是由样本算出的量,或者说是样本的函数。其只和样本有关,与未知参数无关

常见统计量:

X_1,X_2…X_n是从某总体X中抽取的样本

  • 样本均值:\bar X=\frac{1}{n}\sum_{i=1}^{n}X_i,其反映了总体均值的信息
  • 样本方差:S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2,其反映了总体方差的信息
  1. 总体分布和抽样分布
  • 总体分布:正态分布

1686106463426.png

正态分布概率密度.png

  • 抽样分布:样本服从的是样本分布,统计量是样本的函数,因此统计量也是随机变量,也有其概率分布,且可由样本分布导出,统计量的概率分布称为抽样分布。下面介绍三种由正态总体下得到的三大分布
    • 卡方分布\chi^2

    1686122457384.png

    • $t$分布:

    1686122615931.png

    • $F$分布

    1686122741740.png

  1. 假设检验

极差分析

image-20230524175446847

上表中:

K_i(K_1,K_2,K_3)为每个因素各个水平下的指标总和

k_i(k_1,k_2,k_3)为每个因素各个水平下的指标总和的平均值

R为极差,R=max{k_1,k_2,k_3}-min{k_1,k_2,k_3},极差越大,表示该因素对指标的影响程度越大

  1. 数据计算

    以因素A为例:

K_1=661+464+690=1815 k_1=K_1/3=605

K_2=660+648+514=1822 k_2=K_2/3=607.33

K_3=491+655+667=1822 k_3=K_3/3=604.33

R=607.33-604.33=3

K_1,K_2,K_3表示对于因素A而言,将9个试验结果分成三组,分别对应因素A的1(110)、2(120)、3(130)水平,然后将每组的三个试验结果分别相加之和

k_1,k_2,k_3表示对K_1,K_2,K_33个水平的指标和分别取均值

R表示对k_1,k_2,k_3取极差

同样的方法计算出因素B、C、DK_ik_iR

  1. 分析因素的影响

K_1表示因素A在水平1下三次试验的数据和,在这三次试验中,B,C,D三个因素的1,2,3水平各出现了一次,因此K_1反映了三次A1水平的影响和B,C,D每个因素1,2,3水平各一次的影响;

同样,K_2反映了三次A2的影响和B,C,D每个因素的三个水平各一次的影响;

K_3反映了三次A3的影响和B,C,D每个因素的三个水平各一次的影响。

由此,可认为B,C,D三个因素对K_1,K_2,K_3的影响相同,而三个值的差异是由于A取了三个不同的水平造成的,因此,AK_1,K_2,K_3的数值大体上可以反应因素A的三个水平对实验结果的影响,R反映了因素A影响程度的大小

同理,对于B、C、D列,K_1,K_2,K_3的数值大体上可以反应因素B的三个水平对实验结果的影响,C列,K_1,K_2,K_3的数值大体上可以反应因素C的三个水平对实验结果的影响,每一列的R反映了因素B、C、D影响程度的大小

  1. 选取较好的生产/工艺方案

K_1,K_2,K_3的含义可知,各因素所在列的K_1,K_2,K_3实际上只反应该因素由于水平变动引起指标的变动,而不受其他因素水平变动的影响。因此把各因素的好水平简单地组合起来就是较好地生产/工艺条件,但是实际选取时还需要区分各因素的主次,对于主要因素,要按照有利于指标的要求选取最好的水平,对于不重要的因素按照节约、方便等方面考虑可任取一个水平。

如该例中,各因素的主次关系为:D>C>B>A,即铺层角度对材料性能的影响最大,时间次之,而温度影响最低

较优的工艺方案为:A_2B_3C_1D_3,即热压成型温度120℃、压强25 MPa、时间20 min,铺层角度$[(-45°/45°)2]{2n}$ 。

需要指出的是,把各因素的好水平组合起来的得到的较好工艺方案可能不包含在做过的9次试验中,这是若选出较好工艺条件做验证性试验结果一般都会比做过的9次试验效果好,这是由于正交表安排的9次试验是81次全面试验的典型代表,通过9次试验就可以筛选出较好的工艺方案来。

  1. 因素—指标图

    以指标为纵坐标,因素的水平为横坐标可做因素—指标图,可直观地选出较优工艺方案,同时指导进一步的试验方向

    image-20230526151321915

    从图中可见,因素A不同水平的指标波动很小,对指标影响甚微,因素B的3水平处的指标最高,水平选在其附近较好,因素C在1水平处指标最好,从1水平到2水平快速下降,如果想要进一步提高材料性能的话,可选择低于1水平做进一步探索性试验。因素D在3水平处指标最高,2水平快速下降,1水平处较高,可选择低于1水平和高于3水平做探索试验。

  2. 小结

  • 各因素所在列的K_1,K_2,K_3实际上只反应该因素由于水平变动引起指标的变动,而不受其他因素水平变动的影响
  • 极差R的大小反映了哪些因素是影响指标的主要因素,哪些是次要因素
  • 把各因素的好水平简单地组合起来就是较好地生产/工艺条件,但是实际选取时还需要区分各因素的主次

方差分析

极差分析没有把因素水平的改变所引起的试验结果的波动与由试验误差引起的试验结果的波动进行比较,也没有提供一个标准来判断因素的作用是否显著,为了克服这些不足,可采用方差分析法

方差分析模型(选看)

对于正交表L_N(q^s),其表示安排的总实验次数N,每个因素的水平数为q,最多可安排的因素个数为s,记第i号试验的试验结果为y_i,i=1,2,3……,N,又记

T=\sum_{i=1}^{N}y_i\bar{y}=\frac{T}{N}r=\frac{N}{q}

SS_T=\sum_{i=1}^{N}(y_i-\bar{y})^2=\sum_{i=1}{N}y_i^2-\frac{T^2}{N}

SS_j=r\sum_{i=1}^{q}(\frac{T_{ij}}{r}-\bar{y})^2=\frac{1}{r}\cdot\sum_{i=1}^{r}T_{ij}^2-\frac{T^2}{N} ,j=1,2,3……s

df_T=N-1=\sum_{j=1}^{s}f_j

df_j=q-1

可证明:SS_T=\sum_{j=1}^{s}SS_j

T_{ij}:正交表中第j列第i水平的试验结果y_i之和(等同于K_1,K_2,K_3)

r:同水平的重复次数

SS_T:总变差平方和,反映了全部试验结果之间的差异程度(SS_Ty_1,y_2,……y_N的二次型)

SS_j:第j列变差平方和,反映了第j列所排因素的不同水平之间的差异程度(SS_jy_1,y_2,……y_N的二次型),若SS_j越大,则对应的第j列所排因素对试验结果的影响程度越大

df_T表示SS_T的自由度(二次型的秩),df_j表示SS_j的自由度

定理:假设试验结果y_1,y_2,……y_N相互独立,且服从方差为\sigma ^2的正态分布,则SS_1,SS_2……SS_s相互独立,且当第j列的T_1j,T2j……Tqj相互独立且服从同一正态分布时(此时认为因素作用不显著),有SS_j/\sigma ^2 \sim \chi ^2(df_j)

对于用正交表安排的试验,若某列未安排元素(空列),则该列的列变差平方和当作误差平方和(即将该列元素视作误差处理)。总误差平方和为所有的误差平方和相加,记为SS_e,对应的自由度记为df_e,为所有误差自由度的相加和。

构造F统计量:F_j=\frac{SS_j/df_j}{SS_e/df_e},当因素作用不显著时,F_j\sim F(df_j,df_e),j=1,2,3……s

对于给定显著水平\alpha,当F_j值大于F_{1-\alpha}(df_j,df_e)时,在检验水平\alpha下,推断该因素作用显著,否则认为不显著(原假设:不显著,备择假设:显著)

方差分析过程

因素无交互情形

正交试验在做方差分析时,需要有误差列(空列),在不增加试验次数的情况下,通常可以把因素变差平方和较小的列(极差分析中R值最小的列)作为误差列或者取较大的正交表(但是会增加试验次数)

image-20230526152236531

上表为之前试样方案的方差分析表,通常方差分析表表头如表中所示:方差来源、某因素的偏差平方和SS_j、各因素的自由度df,均方和MS_j(MS_j=SS_j/df_j),F值,F值检验,显著性推断

由于极差分析中,在因素A的110~130℃的成型温度范围内,其极差值最小,因此,在不增加试验次数的情况下可将其列为空列,作为误差项来进行方差分析。对比各因素的F值和F检验值,可见因素B、C、D的影响都显著,且因素D最显著,其次是因素C、D,这与极差分析结果一致

因素有交互作用(待完成)
交互作用

常见问题:无法进行方差分析?(待完成)

多指标的分析方法

如果我们考虑的指标不止一个,比如水稻试验除了要考虑产量,还要考虑颗粒度、口味、营养成分等,又比如复合材料,要考虑拉伸强度、抗弯强度、断裂伸长率等等指标,因此对于多指标问题,通常采用综合平衡法和综合分析法

综合平衡法

综合平衡法是:先分别考察每个因素对各指标的影响,然后进行分析比较,确定出最好的水平,从而得出最好的试验方案。

案例:为了提高某产品质量,要对生产该产品的原料进行配方试验。要检验3项指标:抗压强度、落下强度和裂纹度,前两个指标越大越好,第三个指标越小越好。根据以往的经验,配方中有3个重要因素:水份、粒度和碱度。它们各有3个水平,具体数据如表所示。试进行试验分析,找出最好的配方方案。

A水分 B粒度 C碱度
1 8 4 1.1
2 9 6 1.3
3 7 8 1.5

三种指标得出的三种方案:

image-20230529205759998

image-20230529205839138

image-20230529205852827

对3个指标分别进行计算分析,得出3个好的方案:

  • 对抗压强度是A2B3C1
  • 对落下强度是A3B3C2

  • 对裂纹度是A2B3C1

image-20230529210131290

  • 粒度B对各指标的影响:从表看出,对抗压强度和落下强度来讲,粒度的极差都是最大,也就是说粒度是影响最大的因素,且以取B3水平为最好;对裂纹度来讲,粒度的极差不是最大,不是影响最大的因素,但也是以取B3水平为最好。总的来说,对3个指标来讲,粒度都是以取B3水平为最好。
  • 碱度C对各指标的影响:从表看出,对3个指标来说,碱度的极差都不是最大,也就是说碱度不是影响最大的因素,是较次要的因素,对抗压强度和裂纹度来讲,碱度取C1水平为最好;对落下强度来讲,碱度取C2水平为最好,但取C1水平也不是太差。对3个指标综合考虑,碱度取C1水平为好。
  • 水份A对各指标的影响:从表看出,对裂纹度来讲,水份的极差最大,即水份是影响最大的因素,水份取A2水平最好,但对抗压强度和落下强度来讲,水份的极差都是最小的,是影响最小的因素。对抗压强度来讲,水份取A2最好,取A3次之;对落下强度来讲,水份取A3最好,取A2次之。对3个指标综合考虑,水份取A2水平为好。

通过各因素对各指标影响的综合分析,得出较好的试验方案是:B3C1A2

综合评分法(待完善)

综合评分法是:先按重要性程度不同给各个指标赋以权数,再对各试验计算加权指标,化为单一指标问题。

案例:某厂生产一种化工产品,需要检验两个指标:核酸纯度和回收率,这两个指标都是越高越好。有影响的因素有4个,各有3个水平,具体情况如表。试通过试验找出较好的方案,使产品的核酸纯度和回收率都有提高。

A时间 B加料中核酸含量 C pH含量 D加水量
1 25 7.5 5.0 1:6
2 5 9.0 6.0 1:4
3 1 6.0 9.0 1:2

根据实际经验,纯度的重要性比回收率的重要性大,纯度的权数取4,回收率的权数取1,计算加权指标得出综合评分。

总分=4\times纯度+1\times回收率

image-20230529211107369

从表看出,A、D两个因素的极差都很大,是对试验影响很大的两个因素,还可以看出,A、D都是取第1水平为好;B因素的极差比A、D的极差小,对试验的影响比A、D都小,B因素取第3水平为好;C因素的极差最小,是影响最小的因素,C取第2水平为好。综合考虑,最好的试验方案是:A1B3C2D1

按影响的大小次序列出:

方案 因素 水平
A1 时间 1 25h
D1 加水量 1 1:6
B3 核酸含量 3 6.0
C2 pH 2 6.0

实现工具以及操作演示

SPSSAU(在线)

网址:SPSSAU_相关|回归分析_因子|方差分析_SPSS下载-在线SPSS分析软件

进入后选择:实验/医学研究——正交试验

image-20230529201559416

  1. 明确要研究的因素和水平,生成合适的正交表

    SPSSAU生成正交表有两种方式:

  • 自动生成正交表:输入相应的因子(因素)数和水平数

    image-20230529202201444

  • 自选正交表

    • 选择常用正交表:按照之前正交表的命名方式选择对应的正交表,如L9.3.4就是之前的L_9(3^4)

      image-20230529202417517

    • 输入正交表ID:点击“输入正交表ID”右侧的下载箭头进入表格,输入官方提供的正交表手册中正交表的ID来生成表格

      • L8.2.4.4.1:L8表示需要8次实验,2水平的因子有4个,4水平的因子为1个;各项以英文句号隔开。
      • L12.2.2.6.1:L12表示需要12次实验,2水平的因子有6个,6水平的因子为1个;各项以英文句号隔开
      • 如果自主选择正交表,可能还需要使用‘拟水平法’,‘组合法’,‘并列法’等对正交表进行处理,最终得到自己需要的正交表

      image-20230529202559250

      >(待完善,弄清楚具体怎么使用)
      >
      >拟水平法:如果某因子的水平数比预期多,比如生成正交表的因子1有5个水平,但只需要4个水平;那么此时把多出的数字5(第5个水平),直接用其它4个水平中任意一个或多个替换填补即可。但‘拟水平法’后,可能就不再具有正交表特性。
      >
      >组合法:比如考虑2水平,4水平,8水平;并不需要一定使用2.1.4.1.8.1;而是使用比如L12.2.11(因为2水平有16个,可拆分成:2,22,222,共用掉6个因子,都还余5个因子没有使用直接删除即可),组合法是一种正交表获取的技巧操作法,该操作法是在正交表生成前自行处理和选择,以及‘组合法’对于正交性没有任何影响,只是一种手工选择正交表的技巧做法。
      >
      >并列法: 指把两列或多列,合并成1列,比如有两个因子其中1个为2水平另1个为3水平;把两个因子合并变成2
      3=6水平;‘并列法’是自主手工选择正交表的一种技巧式做法,‘并列法’后正交性还在。

    以案例中的试验为例,我们研究的是四因素三水平,生成一张L9.3.4的表格

    image-20230529214336366

  1. 导出EXCEL表格,填入实验结果数据

    image-20230529214541993

    image-20230529214557570

    image-20230529215810514

    > 记得“正交设计表”这一行给删掉!要不然无法识别数据

  2. 上传数据,选择分析方法

    image-20230529215903930

image-20230529215917578

image-20230529215939806

将左边的因子和指标拖到右边,点击开始分析

image-20230529220114745

image-20230529220155173

Everything not saved will be lost.
最后更新于 2023-06-07