Improve GPU function
This commit is contained in:
@@ -1,5 +1,5 @@
|
||||
// rs_decode.c
|
||||
// Copyright : 2023-09-21 Yutaka Sawada
|
||||
// Copyright : 2023-10-22 Yutaka Sawada
|
||||
// License : GPL
|
||||
|
||||
#ifndef _UNICODE
|
||||
@@ -284,11 +284,11 @@ printf(" 2nd decode %d.%03d sec, %d loop, %d MB/s\n", time_encode2b / 1000, time
|
||||
// GPU 対応のサブ・スレッド (最後のスレッドなので、1st decode では呼ばれない)
|
||||
static DWORD WINAPI thread_decode_gpu(LPVOID lpParameter)
|
||||
{
|
||||
unsigned char *s_buf, *p_buf;
|
||||
unsigned char *s_buf, *g_buf;
|
||||
unsigned short *factor;
|
||||
int i, j, block_lost, max_num, chunk_num;
|
||||
int i, j, block_lost;
|
||||
int src_num;
|
||||
unsigned int unit_size, len, off, chunk_size;
|
||||
unsigned int unit_size;
|
||||
HANDLE hRun, hEnd;
|
||||
RS_TH *th;
|
||||
#ifdef TIMER
|
||||
@@ -296,18 +296,14 @@ unsigned int time_start2, time_encode2 = 0, loop_count2 = 0;
|
||||
#endif
|
||||
|
||||
th = (RS_TH *)lpParameter;
|
||||
p_buf = th->buf;
|
||||
g_buf = th->buf;
|
||||
unit_size = th->size;
|
||||
chunk_size = th->len;
|
||||
block_lost = th->count;
|
||||
hRun = th->run;
|
||||
hEnd = th->end;
|
||||
//_mm_sfence();
|
||||
SetEvent(hEnd); // 設定完了を通知する
|
||||
|
||||
chunk_num = (unit_size + chunk_size - 1) / chunk_size;
|
||||
max_num = chunk_num * block_lost;
|
||||
|
||||
WaitForSingleObject(hRun, INFINITE); // 計算開始の合図を待つ
|
||||
while (th->now < INT_MAX / 2){
|
||||
#ifdef TIMER
|
||||
@@ -325,17 +321,10 @@ time_start2 = GetTickCount();
|
||||
InterlockedExchange(&(th->now), INT_MAX / 3); // サブ・スレッドの計算を中断する
|
||||
}
|
||||
|
||||
// スレッドごとに復元する消失ブロックの chunk を変える
|
||||
len = chunk_size;
|
||||
while ((j = InterlockedIncrement(&(th->now))) < max_num){ // j = ++th_now
|
||||
off = j / block_lost; // chunk の番号
|
||||
j = j % block_lost; // lost block の番号
|
||||
off *= chunk_size; // chunk の位置
|
||||
if (off + len > unit_size)
|
||||
len = unit_size - off; // 最後の chunk だけサイズが異なるかも
|
||||
|
||||
// VRAM上のソース・ブロックごとにパリティを追加していく
|
||||
i = gpu_multiply_chunks(src_num, factor + source_num * j, p_buf + (size_t)unit_size * j + off, off, len);
|
||||
// スレッドごとに復元する消失ブロックを変える
|
||||
while ((j = InterlockedIncrement(&(th->now))) < block_lost){ // j = ++th_now
|
||||
// 倍率は逆行列から部分的にコピーする
|
||||
i = gpu_multiply_blocks(src_num, factor + source_num * j, g_buf + (size_t)unit_size * j, unit_size);
|
||||
if (i != 0){
|
||||
th->len = i;
|
||||
InterlockedExchange(&(th->now), INT_MAX / 3); // サブ・スレッドの計算を中断する
|
||||
@@ -359,7 +348,6 @@ time_encode2 += GetTickCount() - time_start2;
|
||||
WaitForSingleObject(hRun, INFINITE); // 計算開始の合図を待つ
|
||||
}
|
||||
#ifdef TIMER
|
||||
loop_count2 /= chunk_num; // chunk数で割ってブロック数にする
|
||||
printf("gpu-thread :\n");
|
||||
if (time_encode2 > 0){
|
||||
i = (int)((__int64)loop_count2 * unit_size * 125 / ((__int64)time_encode2 * 131072));
|
||||
@@ -575,16 +563,9 @@ int decode_method2( // ソース・データを全て読み込む場合
|
||||
len = try_cache_blocking(unit_size);
|
||||
//len = ((len + 2) / 3 + (sse_unit - 1)) & ~(sse_unit - 1); // 1/3の実験用
|
||||
chunk_num = (unit_size + len - 1) / len;
|
||||
cpu_num1 = 0; // 読み込み中はスレッド数を減らす(シングル・スレッドの時は 0にする)
|
||||
i = 1;
|
||||
while (i * 2 <= cpu_num){ // 1=0, 2~3=1, 4~7=2, 8~15=3, 16~31=4, 32=5
|
||||
cpu_num1++;
|
||||
i *= 2;
|
||||
}
|
||||
if (cpu_num1 > part_num)
|
||||
cpu_num1 = part_num;
|
||||
cpu_num1 = calc_thread_num1(part_num); // 読み込み中はスレッド数を減らす
|
||||
src_max = cpu_cache & 0xFFFE; // CPU cache 最適化のため、同時に処理するブロック数を制限する
|
||||
if ((src_max < 8) || (cpu_num == 1))
|
||||
if ((src_max < CACHE_MIN_NUM) || (cpu_num == 1))
|
||||
src_max = 0x8000; // 不明または少な過ぎる場合は、制限しない
|
||||
#ifdef TIMER
|
||||
printf("\n read all blocks, and keep some recovering blocks\n");
|
||||
@@ -1020,16 +1001,9 @@ int decode_method3( // 復元するブロックを全て保持できる場合
|
||||
prog_base = (__int64)(source_num + prog_write) * block_lost + prog_read * source_num; // ブロックの合計掛け算個数 + 読み書き回数
|
||||
len = try_cache_blocking(unit_size);
|
||||
chunk_num = (unit_size + len - 1) / len;
|
||||
cpu_num1 = 0; // 読み込み中はスレッド数を減らす(シングル・スレッドの時は 0にする)
|
||||
i = 1;
|
||||
while (i * 2 <= cpu_num){ // 1=0, 2~3=1, 4~7=2, 8~15=3, 16~31=4, 32=5
|
||||
cpu_num1++;
|
||||
i *= 2;
|
||||
}
|
||||
if (cpu_num1 > block_lost)
|
||||
cpu_num1 = block_lost;
|
||||
cpu_num1 = calc_thread_num1(block_lost); // 読み込み中はスレッド数を減らす
|
||||
src_max = cpu_cache & 0xFFFE; // CPU cache 最適化のため、同時に処理するブロック数を制限する
|
||||
if ((src_max < 8) || (cpu_num == 1))
|
||||
if ((src_max < CACHE_MIN_NUM) || (cpu_num == 1))
|
||||
src_max = 0x8000; // 不明または少な過ぎる場合は、制限しない
|
||||
#ifdef TIMER
|
||||
printf("\n read some blocks, and keep all recovering blocks\n");
|
||||
@@ -1364,27 +1338,29 @@ int decode_method4( // 全てのブロックを断片的に保持する場合 (G
|
||||
parity_ctx_r *p_blk, // パリティ・ブロックの情報
|
||||
unsigned short *mat)
|
||||
{
|
||||
unsigned char *buf = NULL, *p_buf, *work_buf, *hash;
|
||||
unsigned char *buf = NULL, *p_buf, *g_buf, *work_buf, *hash;
|
||||
unsigned short *id;
|
||||
int err = 0, i, j, last_file, chunk_num, recv_now;
|
||||
int cpu_num1, src_off, src_num, src_max, vram_max;
|
||||
int cpu_num1, src_off, src_num, src_max;
|
||||
int cpu_num2, vram_max, cpu_end, gpu_end, th_act;
|
||||
unsigned int io_size, unit_size, len, block_off;
|
||||
unsigned int time_last, prog_read, prog_write;
|
||||
__int64 file_off, prog_num = 0, prog_base;
|
||||
HANDLE hFile = NULL;
|
||||
HANDLE hSub[MAX_CPU], hRun[MAX_CPU], hEnd[MAX_CPU];
|
||||
RS_TH th[1];
|
||||
RS_TH th[1], th2[1];
|
||||
|
||||
memset(hSub, 0, sizeof(HANDLE) * MAX_CPU);
|
||||
id = mat + (block_lost * source_num); // 何番目の消失ソース・ブロックがどのパリティで代替されるか
|
||||
|
||||
// 作業バッファーを確保する
|
||||
// part_num を使わず、全てのブロックを保持する所がdecode_method2と異なることに注意!
|
||||
io_size = get_io_size(source_num + block_lost, NULL, 1, MEM_UNIT);
|
||||
// CPU計算スレッドと GPU計算スレッドで保存先を別けるので、消失ブロック分を2倍確保する
|
||||
io_size = get_io_size(source_num + block_lost * 2, NULL, 1, MEM_UNIT);
|
||||
//io_size = (((io_size + 1) / 2 + HASH_SIZE + (MEM_UNIT - 1)) & ~(MEM_UNIT - 1)) - HASH_SIZE; // 2分割の実験用
|
||||
//io_size = (((io_size + 2) / 3 + HASH_SIZE + (MEM_UNIT - 1)) & ~(MEM_UNIT - 1)) - HASH_SIZE; // 3分割の実験用
|
||||
unit_size = io_size + HASH_SIZE; // チェックサムの分だけ増やす
|
||||
file_off = (source_num + block_lost) * (size_t)unit_size + HASH_SIZE;
|
||||
file_off = (source_num + block_lost * 2) * (size_t)unit_size + HASH_SIZE;
|
||||
buf = _aligned_malloc((size_t)file_off, MEM_UNIT); // GPU 用の境界
|
||||
if (buf == NULL){
|
||||
printf("malloc, %I64d\n", file_off);
|
||||
@@ -1392,42 +1368,36 @@ int decode_method4( // 全てのブロックを断片的に保持する場合 (G
|
||||
goto error_end;
|
||||
}
|
||||
p_buf = buf + (size_t)unit_size * source_num; // 復元したブロックを記録する領域
|
||||
hash = p_buf + (size_t)unit_size * block_lost;
|
||||
g_buf = p_buf + (size_t)unit_size * block_lost; // GPUスレッド用
|
||||
hash = g_buf + (size_t)unit_size * block_lost;
|
||||
prog_base = (block_size + io_size - 1) / io_size;
|
||||
prog_read = (block_lost + 31) / 32; // 読み書きの経過をそれぞれ 3% ぐらいにする
|
||||
prog_write = (source_num + 31) / 32;
|
||||
prog_base *= (__int64)(source_num + prog_write) * block_lost + prog_read * source_num; // 全体の断片の個数
|
||||
len = try_cache_blocking(unit_size);
|
||||
chunk_num = (unit_size + len - 1) / len;
|
||||
cpu_num1 = 0; // 読み込み中はスレッド数を減らす(シングル・スレッドの時は 0にする)
|
||||
i = 1;
|
||||
while (i * 2 <= cpu_num){ // 1=0, 2~3=1, 4~7=2, 8~15=3, 16~31=4, 32=5
|
||||
cpu_num1++;
|
||||
i *= 2;
|
||||
}
|
||||
if (cpu_num1 > block_lost)
|
||||
cpu_num1 = block_lost;
|
||||
cpu_num1 = calc_thread_num2(block_lost, &cpu_num2); // 使用するスレッド数を調節する
|
||||
src_max = cpu_cache & 0xFFFE; // CPU cache 最適化のため、同時に処理するブロック数を制限する
|
||||
if ((src_max < 8) || (cpu_num <= 2))
|
||||
src_max = 0x8000; // 不明または少な過ぎる場合は、制限しない
|
||||
if ((src_max < CACHE_MIN_NUM) || (src_max > CACHE_MAX_NUM))
|
||||
src_max = CACHE_MAX_NUM; // 不明または極端な場合は、規定値にする
|
||||
//cpu_num1 = 0; // 2nd decode の実験用に 1st decode を停止する
|
||||
#ifdef TIMER
|
||||
printf("\n read all blocks, and keep all recovering blocks (GPU)\n");
|
||||
printf("buffer size = %I64d MB, io_size = %d, split = %d\n", file_off >> 20, io_size, (block_size + io_size - 1) / io_size);
|
||||
printf("cache: limit size = %d, chunk_size = %d, split = %d\n", cpu_flag & 0x7FFF0000, len, chunk_num);
|
||||
printf("unit_size = %d, cpu_num1 = %d, src_max = %d\n", unit_size, cpu_num1, src_max);
|
||||
printf("cache: limit size = %d, chunk_size = %d, chunk_num = %d\n", cpu_flag & 0x7FFF0000, len, chunk_num);
|
||||
printf("unit_size = %d, cpu_num1 = %d, cpu_num2 = %d\n", unit_size, cpu_num1, cpu_num2);
|
||||
#endif
|
||||
|
||||
// OpenCL の初期化
|
||||
vram_max = source_num;
|
||||
i = init_OpenCL(unit_size, len, &vram_max);
|
||||
i = init_OpenCL(unit_size, &vram_max);
|
||||
if (i != 0){
|
||||
if (i != 3) // GPU が見つからなかった場合はエラー表示しない
|
||||
printf("init_OpenCL, %d, %d\n", i & 0xFF, i >> 8);
|
||||
i = free_OpenCL();
|
||||
if (i != 0)
|
||||
printf("free_OpenCL, %d, %d", i & 0xFF, i >> 8);
|
||||
OpenCL_method = 0; // GPU を使わない設定にする
|
||||
// GPU を使わずに計算を続行する場合は以下をコメントアウト
|
||||
OpenCL_method = 0; // GPU を使えなかった印
|
||||
err = -2; // CPU だけの方式に切り替える
|
||||
goto error_end;
|
||||
}
|
||||
@@ -1437,10 +1407,14 @@ int decode_method4( // 全てのブロックを断片的に保持する場合 (G
|
||||
|
||||
// マルチ・スレッドの準備をする
|
||||
th->buf = p_buf;
|
||||
th2->buf = g_buf;
|
||||
th->size = unit_size;
|
||||
th2->size = unit_size;
|
||||
th->count = block_lost;
|
||||
th->len = len; // chunk size
|
||||
for (j = 0; j < cpu_num; j++){ // サブ・スレッドごとに
|
||||
th2->count = block_lost;
|
||||
th->len = len ; // chunk size
|
||||
th2->len = 0; // GPUのエラー通知用にする
|
||||
for (j = 0; j < cpu_num2; j++){ // サブ・スレッドごとに
|
||||
hRun[j] = CreateEvent(NULL, FALSE, FALSE, NULL); // Auto Reset にする
|
||||
if (hRun[j] == NULL){
|
||||
print_win32_err();
|
||||
@@ -1457,12 +1431,13 @@ int decode_method4( // 全てのブロックを断片的に保持する場合 (G
|
||||
goto error_end;
|
||||
}
|
||||
// サブ・スレッドを起動する
|
||||
th->run = hRun[j];
|
||||
th->end = hEnd[j];
|
||||
//_mm_sfence(); // メモリーへの書き込みを完了してからスレッドを起動する
|
||||
if ((j == cpu_num - 1) && (OpenCL_method != 0)){ // 最後のスレッドを GPU 管理用にする
|
||||
hSub[j] = (HANDLE)_beginthreadex(NULL, STACK_SIZE, thread_decode_gpu, (LPVOID)th, 0, NULL);
|
||||
if (j == cpu_num2 - 1){ // 最後のスレッドを GPU 管理用にする
|
||||
th2->run = hRun[j];
|
||||
th2->end = hEnd[j];
|
||||
hSub[j] = (HANDLE)_beginthreadex(NULL, STACK_SIZE, thread_decode_gpu, (LPVOID)th2, 0, NULL);
|
||||
} else {
|
||||
th->run = hRun[j];
|
||||
th->end = hEnd[j];
|
||||
hSub[j] = (HANDLE)_beginthreadex(NULL, STACK_SIZE, thread_decode3, (LPVOID)th, 0, NULL);
|
||||
}
|
||||
if (hSub[j] == NULL){
|
||||
@@ -1475,7 +1450,6 @@ int decode_method4( // 全てのブロックを断片的に保持する場合 (G
|
||||
}
|
||||
WaitForSingleObject(hEnd[j], INFINITE); // 設定終了の合図を待つ (リセットしない)
|
||||
}
|
||||
th->len = 0; // GPUのエラー通知用にする
|
||||
|
||||
// ブロック断片を読み込んで、消失ブロック断片を復元する
|
||||
print_progress_text(0, "Recovering slice");
|
||||
@@ -1629,6 +1603,7 @@ skip_count++;
|
||||
time_read += GetTickCount() - time_start;
|
||||
#endif
|
||||
|
||||
memset(g_buf, 0, (size_t)unit_size * block_lost); // 待機中に GPU用の領域をゼロ埋めしておく
|
||||
WaitForMultipleObjects(cpu_num1, hEnd, TRUE, INFINITE); // サブ・スレッドの計算終了の合図を待つ
|
||||
src_off += 1; // 計算を開始するソース・ブロックの番号
|
||||
if (src_off > 0){ // 計算不要なソース・ブロックはとばす
|
||||
@@ -1647,74 +1622,150 @@ skip_count++;
|
||||
j = (src_off * 1000) / source_num;
|
||||
printf("partial decode = %d / %d (%d.%d%%), read = %d, skip = %d\n", src_off, source_num, j / 10, j % 10, read_count, skip_count);
|
||||
#endif
|
||||
|
||||
recv_now = -1; // 消失ブロックの本来のソース番号
|
||||
last_file = -1;
|
||||
|
||||
// GPU と CPU のどちらに最適化するかが難しい
|
||||
src_num = src_max; // 一度に処理するソース・ブロックの数を制限する
|
||||
if (src_num > vram_max){ // VRAM に収まらない場合は、VRAM のサイズに応じて分割する
|
||||
src_num = vram_max & ~1; // 減らして偶数にする(元が奇数なら分割数が増えるかも)
|
||||
i = (source_num - src_off + src_num - 1) / src_num; // 何回に分けて処理するか
|
||||
src_num = (source_num - src_off + i - 1) / i; // 一度に処理する量を平均化する
|
||||
src_num = (src_num + 1) & ~1; // 増やして偶数にする
|
||||
}
|
||||
th2->size = 0; // 計算前の状態にしておく (th->size は既に 0 になってる)
|
||||
cpu_end = gpu_end = 0;
|
||||
#ifdef TIMER
|
||||
printf("remain = %d, src_off = %d, src_num = %d\n", source_num - src_off, src_off, src_num);
|
||||
printf("remain = %d, src_off = %d, src_max = %d\n", source_num - src_off, src_off, src_max);
|
||||
#endif
|
||||
while (src_off < source_num){
|
||||
// ソース・ブロックを何個ずつ処理するか
|
||||
if (src_off + src_num > source_num){
|
||||
src_num = source_num - src_off;
|
||||
#ifdef TIMER
|
||||
printf("last1: src_off = %d, src_num = %d\n", src_off, src_num);
|
||||
#endif
|
||||
} else if (src_off + src_num * 2 - 1 >= source_num){
|
||||
src_num = source_num - src_off;
|
||||
if (src_num > vram_max){ // VRAM のサイズまでにする
|
||||
src_num = (src_num + 1) / 2; // 半分にする
|
||||
src_num = (src_num + 1) & ~1; // 偶数にする
|
||||
// GPUスレッドと CPUスレッドのどちらかが待機中になるまで待つ
|
||||
do {
|
||||
th_act = 0;
|
||||
// CPUスレッドの動作状況を調べる
|
||||
if (WaitForMultipleObjects(cpu_num2 - 1, hEnd, TRUE, 0) == WAIT_TIMEOUT){
|
||||
th_act |= 1; // CPUスレッドが動作中
|
||||
} else if (th->size > 0){ // CPUスレッドの計算量を加算する
|
||||
prog_num += th->size * block_lost;
|
||||
th->size = 0;
|
||||
}
|
||||
#ifdef TIMER
|
||||
printf("last2: src_off = %d, src_num = %d\n", src_off, src_num);
|
||||
#endif
|
||||
}
|
||||
|
||||
// GPU と CPU がスレッドごとに消失ブロックを計算する
|
||||
th->buf = buf + (size_t)unit_size * src_off;
|
||||
th->mat = mat + src_off;
|
||||
th->size = src_num;
|
||||
th->now = -1; // 初期値 - 1
|
||||
//_mm_sfence(); // メモリーへの書き込みを完了してからスレッドを再開する
|
||||
for (j = 0; j < cpu_num; j++){
|
||||
ResetEvent(hEnd[j]); // リセットしておく
|
||||
SetEvent(hRun[j]); // サブ・スレッドに計算を開始させる
|
||||
}
|
||||
|
||||
// サブ・スレッドの計算終了の合図を UPDATE_TIME だけ待つ
|
||||
while (WaitForMultipleObjects(cpu_num, hEnd, TRUE, UPDATE_TIME) == WAIT_TIMEOUT){
|
||||
// th-now が最高値なので、計算が終わってるのは th-now + 1 - cpu_num 個となる
|
||||
j = th->now + 1 - cpu_num;
|
||||
if (j < 0)
|
||||
j = 0;
|
||||
j /= chunk_num; // chunk数で割ってブロック数にする
|
||||
// 経過表示(UPDATE_TIME 時間待った場合なので、必ず経過してるはず)
|
||||
if (print_progress((int)(((prog_num + src_num * j) * 1000) / prog_base))){
|
||||
err = 2;
|
||||
goto error_end;
|
||||
// GPUスレッドの動作状況を調べる
|
||||
if (WaitForSingleObject(hEnd[cpu_num2 - 1], 0) == WAIT_TIMEOUT){
|
||||
th_act |= 2; // GPUスレッドが動作中
|
||||
} else if (th2->size > 0){ // GPUスレッドの計算量を加算する
|
||||
if (th2->len != 0){ // エラー発生
|
||||
i = th2->len;
|
||||
printf("error, gpu-thread, %d, %d\n", i & 0xFF, i >> 8);
|
||||
err = 1;
|
||||
goto error_end;
|
||||
}
|
||||
prog_num += th2->size * block_lost;
|
||||
th2->size = 0;
|
||||
}
|
||||
time_last = GetTickCount();
|
||||
}
|
||||
if (th->len != 0){ // エラー発生
|
||||
i = th->len;
|
||||
printf("error, gpu-thread, %d, %d\n", i & 0xFF, i >> 8);
|
||||
err = 1;
|
||||
goto error_end;
|
||||
if (th_act == 3){ // 両方が動作中なら
|
||||
// サブ・スレッドの計算終了の合図を UPDATE_TIME だけ待ちながら、経過表示する
|
||||
while (WaitForMultipleObjects(cpu_num2, hEnd, FALSE, UPDATE_TIME) == WAIT_TIMEOUT){
|
||||
// th2-now が GPUスレッドの最高値なので、計算が終わってるのは th2-now 個となる
|
||||
i = th2->now;
|
||||
if (i < 0){
|
||||
i = 0;
|
||||
} else {
|
||||
i *= th2->size;
|
||||
}
|
||||
// th-now が CPUスレッドの最高値なので、計算が終わってるのは th-now + 2 - cpu_num2 個となる
|
||||
j = th->now + 2 - cpu_num2;
|
||||
if (j < 0){
|
||||
j = 0;
|
||||
} else {
|
||||
j /= chunk_num; // chunk数で割ってブロック数にする
|
||||
j *= th->size;
|
||||
}
|
||||
// 経過表示(UPDATE_TIME 時間待った場合なので、必ず経過してるはず)
|
||||
if (print_progress((int)(((prog_num + i + j) * 1000) / prog_base))){
|
||||
err = 2;
|
||||
goto error_end;
|
||||
}
|
||||
time_last = GetTickCount();
|
||||
}
|
||||
}
|
||||
} while (th_act == 3);
|
||||
|
||||
// どちらかのスレッドで消失ブロックを計算する
|
||||
if ((th_act & 1) == 0){ // CPUスレッドを優先的に開始する
|
||||
src_num = src_max; // 一度に処理するソース・ブロックの数を制限する
|
||||
if (src_off + src_num * 2 - 1 >= source_num){
|
||||
src_num = source_num - src_off;
|
||||
#ifdef TIMER
|
||||
printf("CPU last: src_off = %d, src_num = %d\n", src_off, src_num);
|
||||
#endif
|
||||
}
|
||||
cpu_end += src_num;
|
||||
th->buf = buf + (size_t)unit_size * src_off;
|
||||
th->mat = mat + src_off;
|
||||
th->size = src_num;
|
||||
th->now = -1; // CPUスレッドの初期値 - 1
|
||||
//_mm_sfence();
|
||||
for (j = 0; j < cpu_num2 - 1; j++){
|
||||
ResetEvent(hEnd[j]); // リセットしておく
|
||||
SetEvent(hRun[j]); // サブ・スレッドに計算を開始させる
|
||||
}
|
||||
} else { // CPUスレッドが動作中なら、GPUスレッドを開始する
|
||||
src_num = (source_num - src_off) * gpu_end / (cpu_end + gpu_end); // 残りブロック数に対する割合
|
||||
if (src_num < src_max){
|
||||
if (gpu_end / src_max < (cpu_end / src_max) / 2){ // GPU が遅い場合は最低負担量も減らす
|
||||
if (gpu_end < cpu_end / 4){
|
||||
if (src_num < src_max / 4)
|
||||
src_num = src_max / 4;
|
||||
} else if (src_num < src_max / 2){
|
||||
src_num = src_max / 2;
|
||||
}
|
||||
} else {
|
||||
src_num = src_max; // 最低でも CPUスレッドと同じ量を担当する
|
||||
}
|
||||
}
|
||||
if (src_num > vram_max)
|
||||
src_num = vram_max;
|
||||
if (src_off + src_num > source_num){
|
||||
src_num = source_num - src_off;
|
||||
#ifdef TIMER
|
||||
printf("GPU last 1: src_off = %d, src_num = %d\n", src_off, src_num);
|
||||
#endif
|
||||
} else if (src_off + src_num + src_max > source_num){
|
||||
src_num = source_num - src_off - src_max;
|
||||
#ifdef TIMER
|
||||
printf("GPU last 2: src_off = %d, src_num = %d\n", src_off, src_num);
|
||||
} else {
|
||||
printf("GPU: remain = %d, src_off = %d, src_num = %d\n", source_num - src_off, src_off, src_num);
|
||||
#endif
|
||||
}
|
||||
gpu_end += src_num;
|
||||
th2->buf = buf + (size_t)unit_size * src_off;
|
||||
th2->mat = mat + src_off;
|
||||
th2->size = src_num;
|
||||
th2->now = -1; // GPUスレッドの初期値 - 1
|
||||
//_mm_sfence();
|
||||
ResetEvent(hEnd[cpu_num2 - 1]); // リセットしておく
|
||||
SetEvent(hRun[cpu_num2 - 1]); // サブ・スレッドに計算を開始させる
|
||||
}
|
||||
|
||||
// 経過表示
|
||||
prog_num += src_num * block_lost;
|
||||
if (GetTickCount() - time_last >= UPDATE_TIME){
|
||||
if (print_progress((int)((prog_num * 1000) / prog_base))){
|
||||
if (th2->size == 0){
|
||||
i = 0;
|
||||
} else {
|
||||
// th2-now がGPUスレッドの最高値なので、計算が終わってるのは th2-now 個となる
|
||||
i = th2->now;
|
||||
if (i < 0){
|
||||
i = 0;
|
||||
} else {
|
||||
i *= th2->size;
|
||||
}
|
||||
}
|
||||
if (th->size == 0){
|
||||
j = 0;
|
||||
} else {
|
||||
// th-now が CPUスレッドの最高値なので、計算が終わってるのは th-now + 2 - cpu_num2 個となる
|
||||
j = th->now + 2 - cpu_num2;
|
||||
if (j < 0){
|
||||
j = 0;
|
||||
} else {
|
||||
j /= chunk_num; // chunk数で割ってブロック数にする
|
||||
j *= th->size;
|
||||
}
|
||||
}
|
||||
if (print_progress((int)(((prog_num + i + j) * 1000) / prog_base))){
|
||||
err = 2;
|
||||
goto error_end;
|
||||
}
|
||||
@@ -1724,6 +1775,50 @@ skip_count++;
|
||||
src_off += src_num;
|
||||
}
|
||||
|
||||
// 全スレッドの計算終了の合図を UPDATE_TIME だけ待ちながら、経過表示する
|
||||
while (WaitForMultipleObjects(cpu_num2, hEnd, TRUE, UPDATE_TIME) == WAIT_TIMEOUT){
|
||||
if (th2->size == 0){
|
||||
i = 0;
|
||||
} else {
|
||||
// th2-now が GPUスレッドの最高値なので、計算が終わってるのは th2-now 個となる
|
||||
i = th2->now;
|
||||
if (i < 0){
|
||||
i = 0;
|
||||
} else {
|
||||
i *= th2->size;
|
||||
}
|
||||
}
|
||||
if (th->size == 0){
|
||||
j = 0;
|
||||
} else {
|
||||
// th-now が CPUスレッドの最高値なので、計算が終わってるのは th-now + 2 - cpu_num2 個となる
|
||||
j = th->now + 2 - cpu_num2;
|
||||
if (j < 0){
|
||||
j = 0;
|
||||
} else {
|
||||
j /= chunk_num; // chunk数で割ってブロック数にする
|
||||
j *= th->size;
|
||||
}
|
||||
}
|
||||
// 経過表示(UPDATE_TIME 時間待った場合なので、必ず経過してるはず)
|
||||
if (print_progress((int)(((prog_num + i + j) * 1000) / prog_base))){
|
||||
err = 2;
|
||||
goto error_end;
|
||||
}
|
||||
time_last = GetTickCount();
|
||||
}
|
||||
if (th2->size > 0){ // GPUスレッドの計算量を加算する
|
||||
if (th2->len != 0){ // エラー発生
|
||||
i = th2->len;
|
||||
printf("error, gpu-thread, %d, %d\n", i & 0xFF, i >> 8);
|
||||
err = 1;
|
||||
goto error_end;
|
||||
}
|
||||
prog_num += th2->size * block_lost;
|
||||
}
|
||||
if (th->size > 0) // CPUスレッドの計算量を加算する
|
||||
prog_num += th->size * block_lost;
|
||||
|
||||
#ifdef TIMER
|
||||
time_start = GetTickCount();
|
||||
#endif
|
||||
@@ -1738,6 +1833,8 @@ time_start = GetTickCount();
|
||||
}
|
||||
//printf(" lost block[%d] = source block[%d]\n", i, recv_now);
|
||||
|
||||
// CPUスレッドと GPUスレッドの計算結果を合わせる
|
||||
galois_align_xor(g_buf + (size_t)unit_size * i, work_buf, unit_size);
|
||||
// 復元されたソース・ブロックのチェックサムを検証する
|
||||
checksum16_return(work_buf, hash, io_size);
|
||||
if (memcmp(work_buf + io_size, hash, HASH_SIZE) != 0){
|
||||
@@ -1817,7 +1914,8 @@ if (prog_num != prog_base)
|
||||
|
||||
error_end:
|
||||
InterlockedExchange(&(th->now), INT_MAX / 2); // サブ・スレッドの計算を中断する
|
||||
for (j = 0; j < cpu_num; j++){
|
||||
InterlockedExchange(&(th2->now), INT_MAX / 2);
|
||||
for (j = 0; j < cpu_num2; j++){
|
||||
if (hSub[j]){ // サブ・スレッドを終了させる
|
||||
SetEvent(hRun[j]);
|
||||
WaitForSingleObject(hSub[j], INFINITE);
|
||||
@@ -1843,31 +1941,33 @@ int decode_method5( // 復元するブロックだけ保持する場合 (GPU対
|
||||
parity_ctx_r *p_blk, // パリティ・ブロックの情報
|
||||
unsigned short *mat)
|
||||
{
|
||||
unsigned char *buf = NULL, *p_buf, *work_buf, *hash;
|
||||
unsigned char *buf = NULL, *p_buf, *g_buf, *work_buf, *hash;
|
||||
unsigned short *id;
|
||||
int err = 0, i, j, last_file, chunk_num, recv_now;
|
||||
int source_off, read_num, parity_now;
|
||||
int cpu_num1, src_off, src_num, src_max, vram_max;
|
||||
int cpu_num1, src_off, src_num, src_max;
|
||||
int cpu_num2, vram_max, cpu_end, gpu_end, th_act;
|
||||
unsigned int unit_size, len;
|
||||
unsigned int time_last, prog_read, prog_write;
|
||||
__int64 file_off, prog_num = 0, prog_base;
|
||||
HANDLE hFile = NULL;
|
||||
HANDLE hSub[MAX_CPU], hRun[MAX_CPU], hEnd[MAX_CPU];
|
||||
RS_TH th[1];
|
||||
RS_TH th[1], th2[1];
|
||||
|
||||
memset(hSub, 0, sizeof(HANDLE) * MAX_CPU);
|
||||
id = mat + (block_lost * source_num); // 何番目の消失ソース・ブロックがどのパリティで代替されるか
|
||||
unit_size = (block_size + HASH_SIZE + (MEM_UNIT - 1)) & ~(MEM_UNIT - 1); // MEM_UNIT の倍数にする
|
||||
|
||||
// 作業バッファーを確保する
|
||||
read_num = read_block_num(block_lost, 1, MEM_UNIT); // ソース・ブロックを何個読み込むか
|
||||
// CPU計算スレッドと GPU計算スレッドで保存先を別けるので、消失ブロック分を2倍確保する
|
||||
read_num = read_block_num(block_lost * 2, 1, MEM_UNIT); // ソース・ブロックを何個読み込むか
|
||||
if (read_num == 0){
|
||||
//printf("cannot keep enough blocks, use another method\n");
|
||||
return -4; // スライスを分割して処理しないと無理
|
||||
}
|
||||
//read_num = (read_num + 1) / 2 + 1; // 2分割の実験用
|
||||
//read_num = (read_num + 2) / 3 + 1; // 3分割の実験用
|
||||
file_off = (read_num + block_lost) * (size_t)unit_size + HASH_SIZE;
|
||||
file_off = (read_num + block_lost * 2) * (size_t)unit_size + HASH_SIZE;
|
||||
buf = _aligned_malloc((size_t)file_off, MEM_UNIT); // GPU 用の境界
|
||||
if (buf == NULL){
|
||||
printf("malloc, %I64d\n", file_off);
|
||||
@@ -1875,41 +1975,35 @@ int decode_method5( // 復元するブロックだけ保持する場合 (GPU対
|
||||
goto error_end;
|
||||
}
|
||||
p_buf = buf + (size_t)unit_size * read_num; // パリティ・ブロックを記録する領域
|
||||
hash = p_buf + (size_t)unit_size * block_lost;
|
||||
g_buf = p_buf + (size_t)unit_size * block_lost; // GPUスレッド用
|
||||
hash = g_buf + (size_t)unit_size * block_lost;
|
||||
prog_read = (block_lost + 31) / 32; // 読み書きの経過をそれぞれ 3% ぐらいにする
|
||||
prog_write = (source_num + 31) / 32;
|
||||
prog_base = (__int64)(source_num + prog_write) * block_lost + prog_read * source_num; // ブロックの合計掛け算個数 + 書き込み回数
|
||||
len = try_cache_blocking(unit_size);
|
||||
chunk_num = (unit_size + len - 1) / len;
|
||||
cpu_num1 = 0; // 読み込み中はスレッド数を減らす(シングル・スレッドの時は 0にする)
|
||||
i = 1;
|
||||
while (i * 2 <= cpu_num){ // 1=0, 2~3=1, 4~7=2, 8~15=3, 16~31=4, 32=5
|
||||
cpu_num1++;
|
||||
i *= 2;
|
||||
}
|
||||
if (cpu_num1 > block_lost)
|
||||
cpu_num1 = block_lost;
|
||||
cpu_num1 = calc_thread_num2(block_lost, &cpu_num2); // 使用するスレッド数を調節する
|
||||
src_max = cpu_cache & 0xFFFE; // CPU cache 最適化のため、同時に処理するブロック数を制限する
|
||||
if ((src_max < 8) || (cpu_num <= 2))
|
||||
src_max = 0x8000; // 不明または少な過ぎる場合は、制限しない
|
||||
if ((src_max < CACHE_MIN_NUM) || (src_max > CACHE_MAX_NUM))
|
||||
src_max = CACHE_MAX_NUM; // 不明または極端な場合は、規定値にする
|
||||
//cpu_num1 = 0; // 2nd decode の実験用に 1st decode を停止する
|
||||
#ifdef TIMER
|
||||
printf("\n read some blocks, and keep all recovering blocks (GPU)\n");
|
||||
printf("buffer size = %I64d MB, read_num = %d, round = %d\n", file_off >> 20, read_num, (source_num + read_num - 1) / read_num);
|
||||
printf("cache: limit size = %d, chunk_size = %d, split = %d\n", cpu_flag & 0x7FFF0000, len, chunk_num);
|
||||
printf("unit_size = %d, cpu_num1 = %d, src_max = %d\n", unit_size, cpu_num1, src_max);
|
||||
printf("cache: limit size = %d, chunk_size = %d, chunk_num = %d\n", cpu_flag & 0x7FFF0000, len, chunk_num);
|
||||
printf("unit_size = %d, cpu_num1 = %d, cpu_num2 = %d\n", unit_size, cpu_num1, cpu_num2);
|
||||
#endif
|
||||
|
||||
// OpenCL の初期化
|
||||
vram_max = read_num; // 読み込める分だけにする
|
||||
i = init_OpenCL(unit_size, len, &vram_max);
|
||||
i = init_OpenCL(unit_size, &vram_max);
|
||||
if (i != 0){
|
||||
if (i != 3) // GPU が見つからなかった場合はエラー表示しない
|
||||
printf("init_OpenCL, %d, %d\n", i & 0xFF, i >> 8);
|
||||
i = free_OpenCL();
|
||||
if (i != 0)
|
||||
printf("free_OpenCL, %d, %d", i & 0xFF, i >> 8);
|
||||
OpenCL_method = 0; // GPU を使わない設定にする
|
||||
// GPU を使わずに計算を続行する場合は以下をコメントアウト
|
||||
OpenCL_method = 0; // GPU を使えなかった印
|
||||
err = -3; // CPU だけの方式に切り替える
|
||||
goto error_end;
|
||||
}
|
||||
@@ -1919,10 +2013,14 @@ int decode_method5( // 復元するブロックだけ保持する場合 (GPU対
|
||||
|
||||
// マルチ・スレッドの準備をする
|
||||
th->buf = p_buf;
|
||||
th2->buf = g_buf;
|
||||
th->size = unit_size;
|
||||
th2->size = unit_size;
|
||||
th->count = block_lost;
|
||||
th->len = len; // chunk size
|
||||
for (j = 0; j < cpu_num; j++){ // サブ・スレッドごとに
|
||||
th2->count = block_lost;
|
||||
th->len = len ; // chunk size
|
||||
th2->len = 0; // GPUのエラー通知用にする
|
||||
for (j = 0; j < cpu_num2; j++){ // サブ・スレッドごとに
|
||||
hRun[j] = CreateEvent(NULL, FALSE, FALSE, NULL); // Auto Reset にする
|
||||
if (hRun[j] == NULL){
|
||||
print_win32_err();
|
||||
@@ -1939,12 +2037,13 @@ int decode_method5( // 復元するブロックだけ保持する場合 (GPU対
|
||||
goto error_end;
|
||||
}
|
||||
// サブ・スレッドを起動する
|
||||
th->run = hRun[j];
|
||||
th->end = hEnd[j];
|
||||
//_mm_sfence(); // メモリーへの書き込みを完了してからスレッドを起動する
|
||||
if ((j == cpu_num - 1) && (OpenCL_method != 0)){ // 最後のスレッドを GPU 管理用にする
|
||||
hSub[j] = (HANDLE)_beginthreadex(NULL, STACK_SIZE, thread_decode_gpu, (LPVOID)th, 0, NULL);
|
||||
if (j == cpu_num2 - 1){ // 最後のスレッドを GPU 管理用にする
|
||||
th2->run = hRun[j];
|
||||
th2->end = hEnd[j];
|
||||
hSub[j] = (HANDLE)_beginthreadex(NULL, STACK_SIZE, thread_decode_gpu, (LPVOID)th2, 0, NULL);
|
||||
} else {
|
||||
th->run = hRun[j];
|
||||
th->end = hEnd[j];
|
||||
hSub[j] = (HANDLE)_beginthreadex(NULL, STACK_SIZE, thread_decode3, (LPVOID)th, 0, NULL);
|
||||
}
|
||||
if (hSub[j] == NULL){
|
||||
@@ -1957,7 +2056,6 @@ int decode_method5( // 復元するブロックだけ保持する場合 (GPU対
|
||||
}
|
||||
WaitForSingleObject(hEnd[j], INFINITE); // 設定終了の合図を待つ (リセットしない)
|
||||
}
|
||||
th->len = 0; // GPUのエラー通知用にする
|
||||
|
||||
// 何回かに別けてブロックを読み込んで、消失ブロックを少しずつ復元する
|
||||
print_progress_text(0, "Recovering slice");
|
||||
@@ -2086,6 +2184,8 @@ read_count++;
|
||||
time_read += GetTickCount() - time_start;
|
||||
#endif
|
||||
|
||||
if (source_off == 0)
|
||||
memset(g_buf, 0, (size_t)unit_size * block_lost); // 待機中に GPU用の領域をゼロ埋めしておく
|
||||
WaitForMultipleObjects(cpu_num1, hEnd, TRUE, INFINITE); // サブ・スレッドの計算終了の合図を待つ
|
||||
src_off += 1; // 計算を開始するソース・ブロックの番号
|
||||
if (src_off == 0) // 1st decode しなかった場合(src_off = 0)は、消失ブロックをゼロ埋めする
|
||||
@@ -2094,75 +2194,151 @@ time_read += GetTickCount() - time_start;
|
||||
j = (src_off - source_off) * 1000 / read_num;
|
||||
printf("partial decode = %d / %d (%d.%d%%), source_off = %d, read = %d\n", src_off - source_off, read_num, j / 10, j % 10, source_off, read_count);
|
||||
#endif
|
||||
|
||||
recv_now = -1; // 消失ブロックの本来のソース番号
|
||||
last_file = -1;
|
||||
|
||||
// GPU と CPU のどちらに最適化するかが難しい
|
||||
th2->size = 0; // 計算前の状態にしておく (th->size は既に 0 になってる)
|
||||
cpu_end = gpu_end = 0;
|
||||
src_off -= source_off; // バッファー内でのソース・ブロックの位置にする
|
||||
src_num = src_max; // 一度に処理するソース・ブロックの数を制限する
|
||||
if (src_num > vram_max){ // VRAM に収まらない場合は、VRAM のサイズに応じて分割する
|
||||
src_num = vram_max & ~1; // 減らして偶数にする(元が奇数なら分割数が増えるかも)
|
||||
i = (read_num - src_off + src_num - 1) / src_num; // 何回に分けて処理するか
|
||||
src_num = (read_num - src_off + i - 1) / i; // 一度に処理する量を平均化する
|
||||
src_num = (src_num + 1) & ~1; // 増やして偶数にする
|
||||
}
|
||||
#ifdef TIMER
|
||||
printf("remain = %d, src_off = %d, src_num = %d\n", read_num - src_off, src_off, src_num);
|
||||
printf("remain = %d, src_off = %d, src_max = %d\n", read_num - src_off, src_off, src_max);
|
||||
#endif
|
||||
while (src_off < read_num){
|
||||
// ソース・ブロックを何個ずつ処理するか
|
||||
if (src_off + src_num > read_num){
|
||||
src_num = read_num - src_off;
|
||||
#ifdef TIMER
|
||||
printf("last1: src_off = %d, src_num = %d\n", src_off, src_num);
|
||||
#endif
|
||||
} else if (src_off + src_num * 2 - 1 >= read_num){
|
||||
src_num = read_num - src_off;
|
||||
if (src_num > vram_max){ // VRAM のサイズまでにする
|
||||
src_num = (src_num + 1) / 2; // 半分にする
|
||||
src_num = (src_num + 1) & ~1; // 偶数にする
|
||||
// GPUスレッドと CPUスレッドのどちらかが待機中になるまで待つ
|
||||
do {
|
||||
th_act = 0;
|
||||
// CPUスレッドの動作状況を調べる
|
||||
if (WaitForMultipleObjects(cpu_num2 - 1, hEnd, TRUE, 0) == WAIT_TIMEOUT){
|
||||
th_act |= 1; // CPUスレッドが動作中
|
||||
} else if (th->size > 0){ // CPUスレッドの計算量を加算する
|
||||
prog_num += th->size * block_lost;
|
||||
th->size = 0;
|
||||
}
|
||||
#ifdef TIMER
|
||||
printf("last2: src_off = %d, src_num = %d\n", src_off, src_num);
|
||||
#endif
|
||||
}
|
||||
|
||||
// GPU と CPU がスレッドごとに消失ブロックを計算する
|
||||
th->buf = buf + (size_t)unit_size * src_off;
|
||||
th->mat = mat + (source_off + src_off); // ソース・ブロックの番号にする
|
||||
th->size = src_num;
|
||||
th->now = -1; // 初期値 - 1
|
||||
//_mm_sfence(); // メモリーへの書き込みを完了してからスレッドを再開する
|
||||
for (j = 0; j < cpu_num; j++){
|
||||
ResetEvent(hEnd[j]); // リセットしておく
|
||||
SetEvent(hRun[j]); // サブ・スレッドに計算を開始させる
|
||||
}
|
||||
|
||||
// サブ・スレッドの計算終了の合図を UPDATE_TIME だけ待つ
|
||||
while (WaitForMultipleObjects(cpu_num, hEnd, TRUE, UPDATE_TIME) == WAIT_TIMEOUT){
|
||||
// th-now が最高値なので、計算が終わってるのは th-now + 1 - cpu_num 個となる
|
||||
j = th->now + 1 - cpu_num;
|
||||
if (j < 0)
|
||||
j = 0;
|
||||
j /= chunk_num; // chunk数で割ってブロック数にする
|
||||
// 経過表示(UPDATE_TIME 時間待った場合なので、必ず経過してるはず)
|
||||
if (print_progress((int)(((prog_num + src_num * j) * 1000) / prog_base))){
|
||||
err = 2;
|
||||
goto error_end;
|
||||
// GPUスレッドの動作状況を調べる
|
||||
if (WaitForSingleObject(hEnd[cpu_num2 - 1], 0) == WAIT_TIMEOUT){
|
||||
th_act |= 2; // GPUスレッドが動作中
|
||||
} else if (th2->size > 0){ // GPUスレッドの計算量を加算する
|
||||
if (th2->len != 0){ // エラー発生
|
||||
i = th2->len;
|
||||
printf("error, gpu-thread, %d, %d\n", i & 0xFF, i >> 8);
|
||||
err = 1;
|
||||
goto error_end;
|
||||
}
|
||||
prog_num += th2->size * block_lost;
|
||||
th2->size = 0;
|
||||
}
|
||||
time_last = GetTickCount();
|
||||
}
|
||||
if (th->len != 0){ // エラー発生
|
||||
i = th->len;
|
||||
printf("error, gpu-thread, %d, %d\n", i & 0xFF, i >> 8);
|
||||
err = 1;
|
||||
goto error_end;
|
||||
if (th_act == 3){ // 両方が動作中なら
|
||||
// サブ・スレッドの計算終了の合図を UPDATE_TIME だけ待ちながら、経過表示する
|
||||
while (WaitForMultipleObjects(cpu_num2, hEnd, FALSE, UPDATE_TIME) == WAIT_TIMEOUT){
|
||||
// th2-now が GPUスレッドの最高値なので、計算が終わってるのは th2-now 個となる
|
||||
i = th2->now;
|
||||
if (i < 0){
|
||||
i = 0;
|
||||
} else {
|
||||
i *= th2->size;
|
||||
}
|
||||
// th-now が CPUスレッドの最高値なので、計算が終わってるのは th-now + 2 - cpu_num2 個となる
|
||||
j = th->now + 2 - cpu_num2;
|
||||
if (j < 0){
|
||||
j = 0;
|
||||
} else {
|
||||
j /= chunk_num; // chunk数で割ってブロック数にする
|
||||
j *= th->size;
|
||||
}
|
||||
// 経過表示(UPDATE_TIME 時間待った場合なので、必ず経過してるはず)
|
||||
if (print_progress((int)(((prog_num + i + j) * 1000) / prog_base))){
|
||||
err = 2;
|
||||
goto error_end;
|
||||
}
|
||||
time_last = GetTickCount();
|
||||
}
|
||||
}
|
||||
} while (th_act == 3);
|
||||
|
||||
// どちらかのスレッドで消失ブロックを計算する
|
||||
if ((th_act & 1) == 0){ // CPUスレッドを優先的に開始する
|
||||
src_num = src_max; // 一度に処理するソース・ブロックの数を制限する
|
||||
if (src_off + src_num * 2 - 1 >= read_num){
|
||||
src_num = read_num - src_off;
|
||||
#ifdef TIMER
|
||||
printf("CPU last: src_off = %d, src_num = %d\n", src_off, src_num);
|
||||
#endif
|
||||
}
|
||||
cpu_end += src_num;
|
||||
th->buf = buf + (size_t)unit_size * src_off;
|
||||
th->mat = mat + (source_off + src_off); // ソース・ブロックの番号にする
|
||||
th->size = src_num;
|
||||
th->now = -1; // CPUスレッドの初期値 - 1
|
||||
//_mm_sfence();
|
||||
for (j = 0; j < cpu_num2 - 1; j++){
|
||||
ResetEvent(hEnd[j]); // リセットしておく
|
||||
SetEvent(hRun[j]); // サブ・スレッドに計算を開始させる
|
||||
}
|
||||
} else { // CPUスレッドが動作中なら、GPUスレッドを開始する
|
||||
src_num = (read_num - src_off) * gpu_end / (cpu_end + gpu_end); // 残りブロック数に対する割合
|
||||
if (src_num < src_max){
|
||||
if (gpu_end / src_max < (cpu_end / src_max) / 2){ // GPU が遅い場合は最低負担量も減らす
|
||||
if (gpu_end < cpu_end / 4){
|
||||
if (src_num < src_max / 4)
|
||||
src_num = src_max / 4;
|
||||
} else if (src_num < src_max / 2){
|
||||
src_num = src_max / 2;
|
||||
}
|
||||
} else {
|
||||
src_num = src_max; // 最低でも CPUスレッドと同じ量を担当する
|
||||
}
|
||||
}
|
||||
if (src_num > vram_max)
|
||||
src_num = vram_max;
|
||||
if (src_off + src_num > read_num){
|
||||
src_num = read_num - src_off;
|
||||
#ifdef TIMER
|
||||
printf("GPU last 1: src_off = %d, src_num = %d\n", src_off, src_num);
|
||||
#endif
|
||||
} else if (src_off + src_num + src_max > read_num){
|
||||
src_num = read_num - src_off - src_max;
|
||||
#ifdef TIMER
|
||||
printf("GPU last 2: src_off = %d, src_num = %d\n", src_off, src_num);
|
||||
} else {
|
||||
printf("GPU: remain = %d, src_off = %d, src_num = %d\n", read_num - src_off, src_off, src_num);
|
||||
#endif
|
||||
}
|
||||
gpu_end += src_num;
|
||||
th2->buf = buf + (size_t)unit_size * src_off;
|
||||
th2->mat = mat + (source_off + src_off); // ソース・ブロックの番号にする
|
||||
th2->size = src_num;
|
||||
th2->now = -1; // GPUスレッドの初期値 - 1
|
||||
//_mm_sfence();
|
||||
ResetEvent(hEnd[cpu_num2 - 1]); // リセットしておく
|
||||
SetEvent(hRun[cpu_num2 - 1]); // サブ・スレッドに計算を開始させる
|
||||
}
|
||||
|
||||
// 経過表示
|
||||
prog_num += src_num * block_lost;
|
||||
if (GetTickCount() - time_last >= UPDATE_TIME){
|
||||
if (print_progress((int)((prog_num * 1000) / prog_base))){
|
||||
if (th2->size == 0){
|
||||
i = 0;
|
||||
} else {
|
||||
// th2-now がGPUスレッドの最高値なので、計算が終わってるのは th2-now 個となる
|
||||
i = th2->now;
|
||||
if (i < 0){
|
||||
i = 0;
|
||||
} else {
|
||||
i *= th2->size;
|
||||
}
|
||||
}
|
||||
if (th->size == 0){
|
||||
j = 0;
|
||||
} else {
|
||||
// th-now が CPUスレッドの最高値なので、計算が終わってるのは th-now + 2 - cpu_num2 個となる
|
||||
j = th->now + 2 - cpu_num2;
|
||||
if (j < 0){
|
||||
j = 0;
|
||||
} else {
|
||||
j /= chunk_num; // chunk数で割ってブロック数にする
|
||||
j *= th->size;
|
||||
}
|
||||
}
|
||||
if (print_progress((int)(((prog_num + i + j) * 1000) / prog_base))){
|
||||
err = 2;
|
||||
goto error_end;
|
||||
}
|
||||
@@ -2172,6 +2348,50 @@ time_read += GetTickCount() - time_start;
|
||||
src_off += src_num;
|
||||
}
|
||||
|
||||
// 全スレッドの計算終了の合図を UPDATE_TIME だけ待ちながら、経過表示する
|
||||
while (WaitForMultipleObjects(cpu_num2, hEnd, TRUE, UPDATE_TIME) == WAIT_TIMEOUT){
|
||||
if (th2->size == 0){
|
||||
i = 0;
|
||||
} else {
|
||||
// th2-now が GPUスレッドの最高値なので、計算が終わってるのは th2-now 個となる
|
||||
i = th2->now;
|
||||
if (i < 0){
|
||||
i = 0;
|
||||
} else {
|
||||
i *= th2->size;
|
||||
}
|
||||
}
|
||||
if (th->size == 0){
|
||||
j = 0;
|
||||
} else {
|
||||
// th-now が CPUスレッドの最高値なので、計算が終わってるのは th-now + 2 - cpu_num2 個となる
|
||||
j = th->now + 2 - cpu_num2;
|
||||
if (j < 0){
|
||||
j = 0;
|
||||
} else {
|
||||
j /= chunk_num; // chunk数で割ってブロック数にする
|
||||
j *= th->size;
|
||||
}
|
||||
}
|
||||
// 経過表示(UPDATE_TIME 時間待った場合なので、必ず経過してるはず)
|
||||
if (print_progress((int)(((prog_num + i + j) * 1000) / prog_base))){
|
||||
err = 2;
|
||||
goto error_end;
|
||||
}
|
||||
time_last = GetTickCount();
|
||||
}
|
||||
if (th2->size > 0){ // GPUスレッドの計算量を加算する
|
||||
if (th2->len != 0){ // エラー発生
|
||||
i = th2->len;
|
||||
printf("error, gpu-thread, %d, %d\n", i & 0xFF, i >> 8);
|
||||
err = 1;
|
||||
goto error_end;
|
||||
}
|
||||
prog_num += th2->size * block_lost;
|
||||
}
|
||||
if (th->size > 0) // CPUスレッドの計算量を加算する
|
||||
prog_num += th->size * block_lost;
|
||||
|
||||
source_off += read_num;
|
||||
}
|
||||
|
||||
@@ -2189,6 +2409,8 @@ time_start = GetTickCount();
|
||||
}
|
||||
//printf(" lost block[%d] = source block[%d]\n", i, recv_now);
|
||||
|
||||
// CPUスレッドと GPUスレッドの計算結果を合わせる
|
||||
galois_align_xor(g_buf + (size_t)unit_size * i, work_buf, unit_size);
|
||||
// 復元されたソース・ブロックのチェックサムを検証する
|
||||
checksum16_return(work_buf, hash, unit_size - HASH_SIZE);
|
||||
if (memcmp(work_buf + unit_size - HASH_SIZE, hash, HASH_SIZE) != 0){
|
||||
@@ -2252,7 +2474,8 @@ if (prog_num != prog_base)
|
||||
|
||||
error_end:
|
||||
InterlockedExchange(&(th->now), INT_MAX / 2); // サブ・スレッドの計算を中断する
|
||||
for (j = 0; j < cpu_num; j++){
|
||||
InterlockedExchange(&(th2->now), INT_MAX / 2);
|
||||
for (j = 0; j < cpu_num2; j++){
|
||||
if (hSub[j]){ // サブ・スレッドを終了させる
|
||||
SetEvent(hRun[j]);
|
||||
WaitForSingleObject(hSub[j], INFINITE);
|
||||
|
||||
Reference in New Issue
Block a user