2006年12月23日土曜日

排序算法实现大全

后面的例程,都是对数组的排序,使用静态链表的也适用于链表的排序。为简单起见,只对单关键码排序,并且最后的结果都是从头到尾按升序排列。下面是统一的测试程序:
#include
#include
using namespace std;
#include
#include
#include
#include "InsertSort.h"
#define random(num) (rand() % (num))
#define randomize() srand((unsigned)time(NULL))
#define N 10000 //排序元素的数目
#define SORT InsertSort //排序方法
class timer//单位ms
{
public:
void start() { start_t = clock(); }
clock_t time() { return (clock() - start_t); }
private:
clock_t start_t;
};
int KCN, RMN; timer TIMER;
void test(int a[])
{
TIMER.start();
SORT(a, N, KCN, RMN);
cout << "\tTimeSpared: " << TIMER.time() << "ms" << endl;
cout << "KCN=" << left << setw(11) << KCN;
cout << "KCN/N=" << left << setw(11)<< (double)KCN/N;
cout << "KCN/N^2=" << left << setw(11)<< (double)KCN/N/N;
cout << "KCN/NlogN=" << left << setw(11)<< (double)KCN/N/log((double)N)*log(2.0) << endl;
cout << "RMN=" << left << setw(11) << RMN;
cout << "RMN/N=" << left << setw(11)<< (double)RMN/N;
cout << "RMN/N^2=" << left << setw(11)<< (double)RMN/N/N;
cout << "RMN/NlogN=" << left << setw(11)<< (double)RMN/N/log((double)N)*log(2.0) << endl;
}
int main()
{
int i;
//randomize();为了在相同情况下比较各个排序算法,不加这句
int* ascending = new int[N];//升序序列
int* descending = new int[N];//降序序列
int* randomness = new int[N];//随机序列
for (i = 0; i < N; i++) { ascending[i] = i; randomness[i] = i; descending[i] = N - i - 1;}
for (i = 0; i < N; i++) swap(randomness[i], randomness[random(N)]);
cout << "Sort ascending N=" << N; test(ascending);
cout << "Sort randomness N=" << N; test(randomness);
cout << "Sort descending N=" << N; test(descending);
return 0;
}

  需要说明一点,KCN(关键码比较次数)、RMN(记录移动次数)并不是算法必须的,是为了对算法的性能有个直观的评价(不用那些公式算来算 去)。对10000个整数排序应该是最省事的测试手段,建议不要再增多记录数目了,一是在最坏的情况不用等太久的时间,二是避免KCN、RMN溢出,另外 有些递归的算法在情况比较糟的时候,记录数目太多堆栈可能会溢出,导致程序崩溃。
插入排序

  基本思想是,每步将一个待排序的记录,按其关键码大小,插入到前面已经排好序的记录的适当位置,从头做到尾就可以了。

  直接插入排序

template
void InsertSort(T a[], int N, int& KCN, int& RMN)
{
KCN = 0; RMN = 0;
for (int i = 1; i < N; i++)
{
T temp = a[i]; RMN++;
for (int j = i; j > 0 && ++KCN && temp < a[j - 1]; j--) { a[j] = a[j - 1]; RMN++; }
a[j] = temp; RMN++;
}
}

  精简之后就是这样:

template void InsertSort(T a[], int N)
{
for (int i = 1; i < N; i++)
{
T temp = a[i];
for (int j = i; j > 0 && temp < a[j - 1]; j--) a[j] = a[j - 1];
a[j] = temp;
}
}

  测试结果:

Sort ascending N=10000 TimeSpared: 0ms
KCN=9999 KCN/N=0.9999 KCN/N^2=9.999e-005 KCN/NlogN=0.07525
RMN=19998 RMN/N=1.9998 RMN/N^2=0.00019998 RMN/NlogN=0.1505
Sort randomness N=10000 TimeSpared: 330ms
KCN=24293730 KCN/N=2429.37 KCN/N^2=0.242937 KCN/NlogN=182.829
RMN=24303739 RMN/N=2430.37 RMN/N^2=0.243037 RMN/NlogN=182.904
Sort descending N=10000 TimeSpared: 711ms
KCN=49995000 KCN/N=4999.5 KCN/N^2=0.49995 KCN/NlogN=376.25
RMN=50014998 RMN/N=5001.5 RMN/N^2=0.50015 RMN/NlogN=376.4

  可以看出,平均性能近似为n2/4,书上没有骗人(废话,多少人做过多少试验才得出的结论)。

  折半插入排序

  将直插排序中的搜索策略由顺序搜索变为折半搜索,便能得到此种排序方法。显而易见,只能减少KCN,不能减少RMN,所能带来的性能提升也不会太大。

template
void BinaryInsertSort(T a[], int N, int& KCN, int& RMN)
{
KCN = 0; RMN = 0;
for (int i = 1; i < N; i++)
{
T temp = a[i]; RMN++; int low = 0, high = i - 1;
while (low <= high)//折半查找
{
int mid = (low + high) / 2;
if (++KCN && temp < a[mid]) high = mid - 1; else low = mid + 1;
}
for (int j = i - 1; j >= low; j--) { a[j + 1] = a[j]; RMN++; }//记录后移
a[low] = temp; RMN++;//插入
}
}

  测试结果:

Sort ascending N=10000 TimeSpared: 0ms
KCN=123617 KCN/N=12.3617 KCN/N^2=0.00123617 KCN/NlogN=0.930311
RMN=19998 RMN/N=1.9998 RMN/N^2=0.00019998 RMN/NlogN=0.1505
Sort randomness N=10000 TimeSpared: 320ms
KCN=118987 KCN/N=11.8987 KCN/N^2=0.00118987 KCN/NlogN=0.895466
RMN=24303739 RMN/N=2430.37 RMN/N^2=0.243037 RMN/NlogN=182.904
Sort descending N=10000 TimeSpared: 631ms
KCN=113631 KCN/N=11.3631 KCN/N^2=0.00113631 KCN/NlogN=0.855158
RMN=50014998 RMN/N=5001.5 RMN/N^2=0.50015 RMN/NlogN=376.4

  可以看到KCN近似为nlog2n,有一定的性能提升。

  表插入排序

  如果用“指针”来表示记录间的顺序,就可以避免大量的记录移动,当然,最后还是要根据“指针”重排一下。自然的,折半查找在这里用不上了。

template
void TableInsertSort(T a[], int N, int& KCN, int& RMN)
{
KCN = 0; RMN = 0;
int* link = new int[N]; int head = 0, pre, cur, i; link[0] = -1;
for (i = 1; i < N; i++)
{
if (a[head] > a[i]) { link[i] = head; head = i; KCN++;}//没设表头,因此需要此判断,失败时此次判断没记入KCN
else
{
for (cur = head; cur != -1&& ++KCN && a[cur] <= a[i]; cur = link[cur]) pre = cur;
link[pre] = i; link[i] = cur;
}
}
cur = head;//重排序列
for (i = 0; i < N; i++)
{
while (cur < i) cur = link[cur];
pre = link[cur];
if (cur != i)
{
swap(a[i], a[cur]); RMN += 3;
link[cur] = link[i]; link[i] = cur;
}
cur = pre;
}
delete []link;
}

  测试结果:

Sort ascending N=10000 TimeSpared: 751ms
KCN=49995000 KCN/N=4999.5 KCN/N^2=0.49995 KCN/NlogN=376.25
RMN=0 RMN/N=0 RMN/N^2=0 RMN/NlogN=0
Sort randomness N=10000 TimeSpared: 621ms
KCN=25721250 KCN/N=2572.13 KCN/N^2=0.257213 KCN/NlogN=193.572
RMN=29955 RMN/N=2.9955 RMN/N^2=0.00029955 RMN/NlogN=0.225434
Sort descending N=10000 TimeSpared: 0ms
KCN=9999 KCN/N=0.9999 KCN/N^2=9.999e-005 KCN/NlogN=0.07525
RMN=15000 RMN/N=1.5 RMN/N^2=0.00015 RMN/NlogN=0.112886

  可以看到,确实减少了RMN,理论上RMNmax=3(n-1)。然而,就平均情况而言,性能还不如简单的直插——这是由于测试对象是整数的缘故。对于链表来说,这种方法就不需要最后的重排了。关于重排的算法在严蔚敏的《数据结构(C语言版)》上有详细的说明.

希尔排序

  前面的算法的平均效率都不怎么好,但我们注意到直插排序在关键码基本有序的情况下,效率是最好的,并且,在关键码的数量很少的时候,n和n2的 差距也不是那么的明显。基于以上的事实,D.L.Shell在1959年(老古董了)提出了缩小增量排序,基本思想是:取一个间隔(gap),将序列分成 若干的子序列,对每个子序列进行直插排序;然后逐渐缩小间隔,重复以上过程,直到间隔为1。在开始的时候,每个子序列里关键码很少,直插的效率很高;随着 间隔的缩小,子序列的关键码越来越多,但是在前面的排序基础上,关键码已经基本有序,直插的效率依然很高。

  希尔排序的时间复杂度不好估量,gap的选取也没有定论,gap=[gap/2]的程序是最好写的,至于为什么,写写就知道了。

template
void ShellSort(T a[], int N, int& KCN, int& RMN)
{
KCN = 0; RMN = 0;
for (int gap = N/2; gap; gap = gap/2)
for (int i = gap; i < N; i++)
{
T temp = a[i]; RMN++;
for (int j = i; j >= gap && ++KCN && temp < a[j - gap]; j -= gap)
{ a[j] = a[j - gap]; RMN++; }
a[j] = temp; RMN++;
}
}

  测试结果:

Sort ascending N=10000 TimeSpared: 0ms
KCN=120005 KCN/N=12.0005 KCN/N^2=0.00120005 KCN/NlogN=0.903128
RMN=240010 RMN/N=24.001 RMN/N^2=0.0024001 RMN/NlogN=1.80626
Sort randomness N=10000 TimeSpared: 10ms
KCN=258935 KCN/N=25.8935 KCN/N^2=0.00258935 KCN/NlogN=1.94868
RMN=383849 RMN/N=38.3849 RMN/N^2=0.00383849 RMN/NlogN=2.88875
Sort descending N=10000 TimeSpared: 10ms
KCN=172578 KCN/N=17.2578 KCN/N^2=0.00172578 KCN/NlogN=1.29878
RMN=302570 RMN/N=30.257 RMN/N^2=0.0030257 RMN/NlogN=2.27707

  注意到这时的测试结果很不准确了,10000个整数的排序已经测试不出什么来了(估计新机器都是0ms,我这里也有个别的时候全是0)。因此,下面用100000个整数的排序重新测试了一次:

Sort ascending N=100000 TimeSpared: 140ms
KCN=1500006 KCN/N=15.0001 KCN/N^2=0.000150001KCN/NlogN=0.903094
RMN=3000012 RMN/N=30.0001 RMN/N^2=0.000300001RMN/NlogN=1.80619
Sort randomness N=100000 TimeSpared: 230ms
KCN=4041917 KCN/N=40.4192 KCN/N^2=0.000404192KCN/NlogN=2.43348
RMN=5598883 RMN/N=55.9888 RMN/N^2=0.000559888RMN/NlogN=3.37086
Sort descending N=100000 TimeSpared: 151ms
KCN=2244585 KCN/N=22.4459 KCN/N^2=0.000224459KCN/NlogN=1.35137
RMN=3844572 RMN/N=38.4457 RMN/N^2=0.000384457RMN/NlogN=2.31466

  这个结果表明,希尔排序几乎没有最坏情况,无论是正序、逆序、乱序,所用时间都不是很多,附加储存是O(1),的确非常不错。在没搞清楚快速排序、堆排序之前,它的确是个很好的选择,我当年一直用它。
交换排序

  基本思想是:两两比较待排序记录的关键码,如果发生逆序,则交换之,直到所有对象都排好为止。

0 件のコメント: