论文模板

XXXXXXXXX

——XXXXXXXXX

XX¹，XXXX²

（1.华南理工大学公共管理学院，广东广州 510641；

2.浙江大学公共管理学院，浙江杭州 310027）

摘要：随着政府购买社会服务的兴起，如何为其构建一套合理有效的绩效评估指标体系已成公共管理领域的一个重要命题。本研究试图沿着“概念化模型建立—指标筛选—权重赋值”的步骤，依次运用文献法、德尔菲法和层次分析法，构建一套政府购买社会服务的绩效评估指标体系。我们首先通过文献法建立了一个政府购买社会服务绩效评估的概念化模型，并从投入、过程、产出、品质、成效、政治等6个维度，初步拟定出42个具体的评估指标；然后运用修正版的德尔菲法对初始评估指标进行两轮次筛选，得到36个正式评估指标，其信度和效度均达到了较好的水平；最后利用层次分析法，构造出553个两两比较的判断矩阵，求取了每一个评估指标的相对权重，且进行一致性的检验和分析。研究结果显示，“成效”和“品质”维度的权重远高于其他维度，“政治”和“产出”维度权重居中，“过程”和“投入”维度的权重略低。

关键词：政府购买社会服务；评估指标；德尔菲法；层次分析法

中图分类号：D035—3 文献标识码：A 文章编号：

DOI：10.13975/j.cnki.gdxz.

一、问题的提出

社会服务（Social Service）是社会福利的重要组成部分，在英国通常被称为个人社会服务（Personal Social Service），在北欧国家则一般被叫做社会照顾服务（Social Care Service），主要指的是除教育、住房、医疗保险和收入保障这四大基本社会福利之外专门为具有特殊需要或处于弱势地位的个人所提供的具体服务，如老年人和残疾人的社会照料、儿童青少年和妇女的社会保护、吸毒人员和轻微罪犯的社区矫正等。^[1^][^2]二战之后，西方国家政府通常采取直接生产的方式来提供社会服务，但到了20世纪70年代，随着福利多元主义思潮和新公共管理运动的兴起，外部购买（contracting out）逐渐变成提供社会服务的重要方式。尽管新公共管理运动的浪潮基本上已经消退^[3]，但社会服务外部购买依然受到各国政府的追捧。^[4]在美国，超过55%的社会服务是由政府购买而来^[5]，甚至在瑞典这样的北欧福利国家，也有超过16%的老人照顾服务外包给了私人承包商，而且这个比例还在不断提高。^[6]

与西方国家不同，我国政府在社会服务体系建设初期便将外部购买列为提供社会服务的重要手段。改革开放以来，为了配合市场经济体制的发展，我国政府致力于建设以收入保障为核心内容的社会福利体系，而没有对以个人需求为导向的社会服务给予充分的重视和足够的投入。^[7]然而，随着社会矛盾日渐积累和人口结构日益老龄化，特殊群体对社会服务的需求不断增强。在此背景下，我国政府逐渐认识到社会服务在整个社会福利体系中的重要性，并正探索建立一个现代社会服务体系。在选择社会服务的生产方式时，我国政府一方面担忧直接生产的方式很可能会引致公务员队伍膨胀、财政投入难以持续等顽疾，另一方面，考虑到加强社会管理建设的需要，又倾向于选择外部购买的提供方式。^[8^][^9]

政府购买社会服务已不再是特例，而成了一种普遍现象。学者们普遍认为，外部购买至少可带来四个好处：一是专业性，承包商往往具有更为专业的知识和技能；二是效率性，承包商之间的竞争有助于降低生产成本；三是灵活性，调整契约内容比调整层级结构要容易很多；四是多样性，能为消费者提供多元化的选择。^[10]^33-52不过，很多案例研究表明，外部购买并不一定能确保生产效率的提高和服务品质的改善。^[11^][^12]正如唐纳德·凯特尔指出的，“这些承包合同不能管理自己”，政府必须首先变成一个“精明买家”（smart buyer），然后才可能利用外部购买实现社会服务的有效供给。^[⁵^]144-145而要想成功扮演“精明买家”角色，政府就必须能对从外部购买而来的公共服务进行绩效评估。原因很简单：一则绩效评估本身就是政府在管理承包合同的过程中所需倚重的调控工具；二则若没有绩效评估就无从判断外部购买是否提升了社会服务供给的效率和质量。

因此，本文的目的在于探讨如何为政府购买社会服务建立一套有效的绩效评估指标体系，以提升社会服务提供的效率和质量，满足公民的需求。为实现这一目的，本文首先通过文献法为政府购买社会服务的绩效评估建立一个概念化的模型，然后运用德尔菲法拟定和筛选绩效评估指标，进而利用层次分析法确定这些指标的权重。

二、政府购买社会服务绩效评估的概念化模型

政府绩效评估的理论探讨和应用实践已有20多年的历史，但人们对政府绩效或公共服务绩效的认知仍然存在很大的分歧。按照Talbot的总结，政府管理领域的绩效至少包括了7种涵义：作为责任的绩效；作为使用者权力的绩效；作为顾客服务的绩效；作为效率的绩效；作为结果、效益的绩效；作为资源配置的绩效；作为公共价值创造的绩效。^[13]^10-36为了避免概念模糊，我们有必要事先建立一个政府购买社会服务绩效评估的概念化模型。

（一）社会服务的评估

评估社会服务供给的效率和质量并非一件易事。一般来说，政府向社会组织或私人企业购买的公共服务有两种类型：一种是如垃圾清理、路灯维护、工程项目之类的“硬性”公共服务，也称非社会服务，其产出、效率与质量的评估具有较为客观的标准，可以被很清晰地界定出来；另一种是如老年人社会照顾、社区矫正、儿童保护之类的“软性”公共服务，也即社会服务，其评估往往面临诸多难以克服的困难，例如评估指标的主观化、任务目标多元化等。表1更加清楚地描绘了非社会服务和社会服务之间的特性差异。^[14]正是由于这些差异的存在，人们在评估非社会服务时，往往重视对产出或效果（如清扫垃圾的数量）的监控和测量；而在评估社会服务时，通常强调对投入或过程（如财务审查、从业资质、人员培训等）的监控和测量。

表1 .非社会服务和社会服务的特性差异

	非社会服务	社会服务
目标设定（事先）	目标可以事先描述清楚，容易具体化	目标通常比较复杂，充满不确定性，难以事先描述清楚
绩效监控（事中）	可以针对具体的任务进行监控	难以找到监控的适当着力点
绩效测量（事后）	绩效容易测量，因为目标较为标准化和定量化	绩效难以测量，因为缺乏客观性的目标设定

虽然社会服务在目标设定、绩效监控和绩效测量等方面均存在极大困难，但考虑“如果你不能衡量你想要的东西，那你将无法得到它”^[15]⁴，学者们一直没有放弃对社会服务绩效评估的研究和探索。传统上，鉴于测量产出的难度颇大，社会服务的评估焦点往往放在服务提供的投入和过程上，强调按活动支付报酬，旨在规范承包商如何工作；直到新公共管理运动兴起，人们转而重视社会服务提供的产出、品质和成效，强调按结果支付报酬，意在责成承包商达成预期目标。^[16]为缓解这两种评估模式的紧张关系，Carter，Day和Klein运用系统论理念将公共绩效划分为投入、过程、产出和成效等四个层面^[17]，而Talbot进一步提出了公共绩效评估的四个焦点：投入的控制问题、过程的合法合理问题、效率问题（投入和产出之比）、成效问题（投入和成效之比）。^[18]在此基础上，Martin提出了一个著名的社会服务绩效评估模式，认为社会服务绩效评估需要涵盖投入、过程、产出、品质和成效等五个维度，并包括效率、质量和效能等三个层面（参见图1）。所谓效率指的是产出与投入之比，所谓质量指的是品质与投入之比，所谓效能指的是成效与投入之比。^[19]

图1.社会服务的绩效评估模型

（二）政治价值的评估

很多学者往往将对政府购买社会服务的绩效评估等同于对社会服务的绩效评估，故而只采纳了经济类指标，而忽视了政治类指标。^[20]以Martin的社会服务评估模型为例，其评估内容看似面面俱到，其实仅仅涉及经济影响，并没有考虑到政府购买社会服务可能带来的政治影响。不同于一般的企业采购，政府购买社会服务毕竟是一项政治行为，因而必须恪守一些核心的现代政治价值，比如公平正义、公民参与、回应性、问责制和廉洁等。^[21]然而，在政府购买社会服务中，落实现代政治价值的问题既显得更加重要，也变得更加困难。

一旦政府将社会服务的生产职能委托给非政府组织，非政府组织便分享了政府的某些特权——对公共权力的自由裁量和对公共财政资源的使用。这种“权力分享”模糊了公共部门和私人部门之间的责任界限，却没有消除两者之间的性质差别和利益分歧，由此“带来了一系列严峻的公共管理和政府责任问题，而这些问题都是传统公共行政理论尚未涉及的”。^[22]¹¹就像Ronald Moe在那篇著名的论文中所警示的，最为重要的问题是，“公共部门和私人部门之间的权力分享是否会威胁到宪法、法律和公民意愿规定政府必须追求的公共利益”。^[23]站在这个角度看，就算政府购买社会服务的目的是让公民获得低成本、高质量的社会服务，也不能简单地将对政府购买社会服务的绩效评估等同于对社会服务的绩效评估，因为经济上的高效率和高效能不等于政治上的正当性和合理性。

（三）政府购买社会服务绩效评估的一般模型

根据前文分析，政府购买社会服务的绩效评估需要包括两个方面：一是对作为购买对象的社会服务进行评估，二是对购买行为的政治价值进行评估。Martin的社会服务绩效评估模型发展得比较成熟，但是缺少政治评估的内容；不少学者呼吁重视政治价值的评估，却没有对此提出过相对系统和完整的模型。因此，本文以Martin的社会服务绩效评估模型为模板，在投入、过程、产出、品质和成效等五维度的基础上添加了政治维度，以强调政府行为的特殊性，从而得到了政府购买社会服务绩效评估的一般模型（参见图2）。

图2.政府购买社会服务绩效评估的一般模型

三、政府购买社会服务绩效评估指标的拟定与筛选

德尔菲法是一种著名的群体决策方法，它通过匿名问卷的方式反复征询多名专家的主观判断，直至意见趋于一致，从而获得一个相对客观的结论。由于遵循十分严格的步骤，传统的德尔菲法会产生成本过高、耗时太久、使用不便等弊端。为此，很多学者在研究中往往倾向于采用修正版的德尔菲法（Modified Delphi Method，MDM）。与传统做法不同，修正版的德尔菲法放弃了第一轮的开放式问卷调查，而改以文献梳理、研究规划或专家座谈的方式来发展出结构性问卷。这一修正不仅简化了德尔菲法的程序，也使专家的意见更具针对性。

本研究运用修正版的德尔菲法，先通过文献综述整理出最初的绩效评估指标，然后运用匿名问卷来收集专家的判断，并利用统计分析来整合他们的意见，进而获得政府购买公共服务绩效评估指标的共识。

（一）评估指标的初步拟定

以政府购买社会服务绩效评估的一般模型为引导，再根据对相关文献^①的整理和归纳分析，本文初步拟定出了政府购买社会服务绩效的评估指标，共包含有6个维度和42个指标（表2）。

对于指标设计来说，还需要说明两个重要的问题：

其一，指标的定义说明。本研究对42个指标均做出过较为明确的定义，但限于篇幅，这里只列出本研究对6个维度的定义^②：投入维度，用以评估为实现社会服务方案而投入的资源；过程维度，用以评估将投入资源转化为产出的活动；产出维度，用以评估活动实际提供的社会服务数量，及其与成本之比；品质维度，用以评估社会服务的质量；成效维度，用以评估产出对服务对象所产生的影响；政治维度，用以评估整个活动的正当性和合理性。

其二，指标的测量方式。42个指标的测量方式相当多样化，有些可以直接通过客观数据来衡量，如工作人员的数量、接受服务的人数等；另一些能够使用态度量表来衡量，如方案设计的合理性、服务对象的满意度等；还有一些则需要借助中间变量进行间接衡量，如工作人员的素质、服务组织的成长情况等。本研究在初步拟定指标时，考虑到了指标测量的难易，但没有探讨或设计每一个指标的测量方式，因为这并非本研究的焦点。

（二）评估指标的首轮筛选

根据初步拟定的评估指标，我们设计出《“政府购买社会服务的绩效评估指标”专家咨询问卷（首轮）》来收集专家对每一个评估指标的态度，以剔除那些支持率不高的评估指标。

在问卷设计方面，由于李克特五点量表（Likert five-point scale）有助于提高问卷的填写率和回答质量^[24]，本次问卷便采用该种量表来衡量专家的态度，分别用1分、2分、3分、4分和5分来表示“很不同意”、“不同意”、“没有意见”、“同意”和“很同意”等五种态度。这是第一轮的指标筛选，为了保守起见，我们将3.5的平均分（处在“没有意见”和“同意”之间）视为专家对指标入选达成共识的临界分值。换言之，凡是平均得分超过3.5的指标将得以保留，而其余的指标将被淘汰。

在调查对象方面，我们选取30位从事相关研究的高校学者、30位负责购买社会服务的政府工作人员和30位承包社会服务生产的社会组织成员进行问卷咨询。这些专家要么具备深厚的理论功底，要么积累了丰富的实践经验，可以说都对政府购买社会服务有着相当深刻的认识和理解。按照这一研究设计，我们邮寄出了90份问卷。为了提高问卷的回收率和填写质量，我们在问卷寄出之后的第七天又用电话联系了各个专家，催促他们填写并寄回问卷。再经过七天，回收问卷84份，有效回收率达到93.3%。

通过对回收问卷的统计分析（参见表2），在42个初始指标中，有6个指标的平均得分没有达到3.5分，包括“服务环境的舒适度”（2.6071）、“预算执行进度的检查”（2.8452）、“服务档案的完整性和准确性”（2.4048）、“提供服务的次数”（2.5357）、“服务提供的可靠性”（3.0952）和“政府公信力的提升情况”（2.9762）。这表明，大部分的专家学者不认为这6个指标可以有效地反映政府购买社会服务的绩效。与此同时，我们还计算了指标得分的标准差，结果显示，所有42个指标的得分标准差均小于1，这意味着，专家的意见基本趋于一致和稳定。因此，我们在这一轮指标筛选过程中，删除了上述6个指标，而保留了其余36个指标。

表2.首轮的指标筛选结果

维度	指标	平均值	标准差	维度	指标	平均值	标准差
投入	1. 工作人员的数量	3.7620	0.6698	品质	22. 服务提供的可靠性	3.0952	0.8590
	2. 工作人员的素质	4.0952	0.7049		23. 服务提供的回应性	4.1310	0.8033
	3. 管理人员与一线员工的比例	3.6905	0.6110		24. 服务提供的个性化	3.6310	0.8182
	4. 服务设施的完善度	4.0119	0.6854		25. 工作人员的胜任水平	3.8929	0.6770
	5. 服务环境的舒适度	2.6071	0.9054		26. 工作人员的敬业精神	4.1905	0.7835
	6. 方案设计的合理性	4.2023	0.6359		27. 服务对象的投诉率	4.1548	0.7835
	7. 预算编制的合理性	3.8810	0.6659		28. 服务对象的满意度	4.2381	0.7702
过程	8. 服务组织的管理水平	4.1429	0.6967	成效	29. 社会服务需求的满足程度	4.3333	0.7336
	9. 服务流程的标准化程度	3.6667	0.7657		30. 公民生活质量的改善水平	3.8333	0.8190
	10. 服务流程的便捷度	3.9643	0.7516		31. 服务提供成本的节省程度	4.2143	0.7773
	11. 服务流程的透明度	3.5952	0.6423		32. 服务提供效率的改善水平	3.7500	0.8341
	12. 契约执行进度的审查	3.8333	0.7253		33. 政府规模的缩小情况	3.6310	0.8182
	13. 预算执行进度的审查	2.8452	0.9755		34. 政府公信力的提升情况	2.9762	0.8914
	14. 服务档案的完整性和准确性	2.4048	0.9199		35. 服务组织的成长情况	3.7024	0.8471
产出	15. 计划目标的完成度	4.0000	0.7114	政治	36. 服务提供的公平性	4.1786	0.8090
	16. 接受服务的人数	3.9048	0.9394		37. 服务提供的公益性	3.7262	0.8552
	17. 提供服务的时数