fix showing unknown token at gpt_tokenize #801

katsu560 · 2024-04-20T10:17:51Z

As for current implementation, gpt_tokenize() shows each byte of multi bytes character if unknown token is existed, like below

test_gpt_tokenizer : 0 tests failed out of 0 tests.
gpt_tokenize: unknown token ' '
gpt_tokenize: unknown token ' '
gpt_tokenize: unknown token ' '
main: number of tokens in prompt = 6
main: token[0] =   5619, 日本で
main: token[1] =   3300, 一番
main: token[2] =   1737, 高い
main: token[3] =  14218, 山は
main: token[4] =  37814, 何で
main: token[5] =  24250, すか

I fixed with stopping show each bytes as below.

test_gpt_tokenizer : 0 tests failed out of 0 tests.
gpt_tokenize: unknown token '？'
main: number of tokens in prompt = 6
main: token[0] =   5619, 日本で
main: token[1] =   3300, 一番
main: token[2] =   1737, 高い
main: token[3] =  14218, 山は
main: token[4] =  37814, 何で
main: token[5] =  24250, すか

please confirm this.

-- detail --
original:
$ ./240407up/gpt-neox.org --repeat-last-n 256 --repeat-penalty 1.2 -m models/cyberagent/ggml-calm-1b-q4_0.bin -s 7654321 -p "日本で一番高い山は何ですか？"
main: seed = 7654321
gpt_neox_model_load: loading model from 'models/cyberagent/ggml-calm-1b-q4_0.bin' - please wait ...
gpt_neox_model_load: n_vocab = 52096
gpt_neox_model_load: n_ctx = 2048
gpt_neox_model_load: n_embd = 2048
gpt_neox_model_load: n_head = 16
gpt_neox_model_load: n_layer = 24
gpt_neox_model_load: n_rot = 128
gpt_neox_model_load: par_res = 0
gpt_neox_model_load: ftype = 2002
gpt_neox_model_load: qntvr = 2
gpt_neox_model_load: ggml ctx size = 1917.12 MB
gpt_neox_model_load: memory_size = 384.00 MB, n_mem = 49152
gpt_neox_model_load: .................................... done
gpt_neox_model_load: model size = 764.92 MB / num tensors = 292
extract_tests_from_file : No test file found.
test_gpt_tokenizer : 0 tests failed out of 0 tests.
gpt_tokenize: unknown token ' '
gpt_tokenize: unknown token ' '
gpt_tokenize: unknown token ' '
main: number of tokens in prompt = 6
main: token[0] = 5619, 日本で
main: token[1] = 3300, 一番
main: token[2] = 1737, 高い
main: token[3] = 14218, 山は
main: token[4] = 37814, 何で
main: token[5] = 24250, すか

日本で一番高い山は何ですか?」。そんな質問を何度か受けてきましたが、 ...

fixed:
$ ./240407up/gpt-neox.mod --repeat-last-n 256 --repeat-penalty 1.2 -m models/cyberagent/ggml-calm-1b-q4_0.bin -s 7654321 -p "日本で一番高い山は何ですか？"
main: seed = 7654321
gpt_neox_model_load: loading model from 'models/cyberagent/ggml-calm-1b-q4_0.bin' - please wait ...
gpt_neox_model_load: n_vocab = 52096
gpt_neox_model_load: n_ctx = 2048
gpt_neox_model_load: n_embd = 2048
gpt_neox_model_load: n_head = 16
gpt_neox_model_load: n_layer = 24
gpt_neox_model_load: n_rot = 128
gpt_neox_model_load: par_res = 0
gpt_neox_model_load: ftype = 2002
gpt_neox_model_load: qntvr = 2
gpt_neox_model_load: ggml ctx size = 1917.12 MB
gpt_neox_model_load: memory_size = 384.00 MB, n_mem = 49152
gpt_neox_model_load: .................................... done
gpt_neox_model_load: model size = 764.92 MB / num tensors = 292
extract_tests_from_file : No test file found.
test_gpt_tokenizer : 0 tests failed out of 0 tests.
gpt_tokenize: unknown token '？'
main: number of tokens in prompt = 6
main: token[0] = 5619, 日本で
main: token[1] = 3300, 一番
main: token[2] = 1737, 高い
main: token[3] = 14218, 山は
main: token[4] = 37814, 何で
main: token[5] = 24250, すか

日本で一番高い山は何ですか?」。そんな質問を何度か受けてきましたが、 ...

…to fixunknowntoken

ggerganov

Can be simplified - see comments

ggerganov · 2024-06-16T09:35:42Z

examples/common.cpp

+                    auto unk = word.substr(i, 1).data();
+                    unknown.push_back(*unk);


Isn't this just:

Suggested change

auto unk = word.substr(i, 1).data();

unknown.push_back(*unk);

unknown.push_back(word[i]);

ggerganov · 2024-06-16T09:36:02Z

examples/common.cpp

+            std::string unkstr(unknown.begin(), unknown.end());
+            fprintf(stderr, "%s: unknown token '%s'\n", __func__, unkstr.data());


Suggested change

std::string unkstr(unknown.begin(), unknown.end());

fprintf(stderr, "%s: unknown token '%s'\n", __func__, unkstr.data());

fprintf(stderr, "%s: unknown token '%s'\n", __func__, unknown.data());

ggerganov · 2024-06-16T09:36:23Z

examples/common.cpp

+                        std::string unkstr(unknown.begin(), unknown.end());
+                        fprintf(stderr, "%s: unknown token '%s'\n", __func__, unkstr.data());


Suggested change

std::string unkstr(unknown.begin(), unknown.end());

fprintf(stderr, "%s: unknown token '%s'\n", __func__, unkstr.data());

fprintf(stderr, "%s: unknown token '%s'\n", __func__, unknown.data());

ggerganov · 2024-06-16T09:36:40Z

examples/common.cpp

+    // unknown token
+    std::vector<char> unknown;
+    unknown.clear();


Suggested change

// unknown token

std::vector<char> unknown;

unknown.clear();

// unknown token

std::vector<char> unknown;

katsu560 and others added 8 commits April 20, 2024 18:52

fix unknown token at gpt_tokenize

da02d76

Merge branch 'ggerganov:master' into fixunknowntoken

5ad2866

delete same debug code

93f1733

commit again

816578c

delete same debug code

3a8a694

delete some debug code

24f8912

Merge branch 'fixunknowntoken' of https://github.com/katsu560/ggml in…

14169ea

…to fixunknowntoken

Merge branch 'ggerganov:master' into fixunknowntoken

d6dd3b4

ggerganov approved these changes Jun 16, 2024

View reviewed changes

katsu560 added 3 commits June 17, 2024 22:58

Merge branch 'ggerganov:master' into fixunknowntoken

c2ccc65

Merge branch 'ggerganov:master' into fixunknowntoken

f33c3e8

Merge branch 'ggerganov:master' into fixunknowntoken

cfa891d

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix showing unknown token at gpt_tokenize #801

fix showing unknown token at gpt_tokenize #801

katsu560 commented Apr 20, 2024

ggerganov left a comment

ggerganov Jun 16, 2024

ggerganov Jun 16, 2024

ggerganov Jun 16, 2024

ggerganov Jun 16, 2024

		auto unk = word.substr(i, 1).data();
		unknown.push_back(*unk);

	auto unk = word.substr(i, 1).data();
	unknown.push_back(*unk);
	unknown.push_back(word[i]);

		std::string unkstr(unknown.begin(), unknown.end());
		fprintf(stderr, "%s: unknown token '%s'\n", __func__, unkstr.data());

fix showing unknown token at gpt_tokenize #801

Are you sure you want to change the base?

fix showing unknown token at gpt_tokenize #801

Conversation

katsu560 commented Apr 20, 2024

ggerganov left a comment

Choose a reason for hiding this comment

ggerganov Jun 16, 2024

Choose a reason for hiding this comment

ggerganov Jun 16, 2024

Choose a reason for hiding this comment

ggerganov Jun 16, 2024

Choose a reason for hiding this comment

ggerganov Jun 16, 2024

Choose a reason for hiding this comment