updates llama.cpp (#178)

mudler · dependabot[bot] · web-flow · commit f2d61b2d3cca · 2023-08-20T09:18:41.000+02:00
Signed-off-by: dependabot[bot] &lt;support@github.com&gt;
Co-authored-by: dependabot[bot] &lt;49699333+dependabot[bot]@users.noreply.github.com&gt;
diff --git a/binding.cpp b/binding.cpp
@@ -35,7 +35,7 @@ void sigint_handler(int signo) {
 
 int get_embeddings(void* params_ptr, void* state_pr, float * res_embeddings) {
     gpt_params* params_p = (gpt_params*) params_ptr;
-    llama_state* state = (llama_state*) state_pr;
+    llama_binding_state* state = (llama_binding_state*) state_pr;
     llama_context* ctx = state->ctx;
     gpt_params params = *params_p;
 
@@ -77,7 +77,7 @@ int get_embeddings(void* params_ptr, void* state_pr, float * res_embeddings) {
 
 int get_token_embeddings(void* params_ptr, void* state_pr,  int *tokens, int tokenSize, float * res_embeddings) {
     gpt_params* params_p = (gpt_params*) params_ptr;
-    llama_state* state = (llama_state*) state_pr;
+    llama_binding_state* state = (llama_binding_state*) state_pr;
     llama_context* ctx = state->ctx;
     gpt_params params = *params_p;
  
@@ -96,7 +96,7 @@ int get_token_embeddings(void* params_ptr, void* state_pr,  int *tokens, int tok
 
 int eval(void* params_ptr,void* state_pr,char *text) {
     gpt_params* params_p = (gpt_params*) params_ptr;
-    llama_state* state = (llama_state*) state_pr;
+    llama_binding_state* state = (llama_binding_state*) state_pr;
     llama_context* ctx = state->ctx;
 
     auto n_past = 0;
@@ -117,7 +117,7 @@ static llama_context ** g_ctx;
 
 int llama_predict(void* params_ptr, void* state_pr, char* result, bool debug) {
     gpt_params* params_p = (gpt_params*) params_ptr;
-    llama_state* state = (llama_state*) state_pr;
+    llama_binding_state* state = (llama_binding_state*) state_pr;
     llama_context* ctx = state->ctx;
 
     gpt_params params = *params_p;
@@ -608,7 +608,7 @@ int llama_predict(void* params_ptr, void* state_pr, char* result, bool debug) {
 }
 
 void llama_binding_free_model(void *state_ptr) {
-    llama_state* ctx = (llama_state*) state_ptr;
+    llama_binding_state* ctx = (llama_binding_state*) state_ptr;
     llama_free(ctx->ctx);
     delete ctx->model;
 }
@@ -620,7 +620,7 @@ void llama_free_params(void* params_ptr) {
 
 int llama_tokenize_string(void* params_ptr, void* state_pr, int* result) {
     gpt_params* params_p = (gpt_params*) params_ptr;
-    llama_state* state = (llama_state*) state_pr;
+    llama_binding_state* state = (llama_binding_state*) state_pr;
     llama_context* ctx = state->ctx;
 
     // TODO: add_bos
@@ -773,7 +773,7 @@ Keeping them here in sync to generate again patches if needed.
 
 common.h:
 
-struct llama_state {
+struct llama_binding_state {
     llama_context * ctx;
     llama_model * model;
 };
@@ -796,8 +796,8 @@ void* load_binding_model(const char *fname, int n_ctx, int n_seed, bool memory_f
     // load the model
     gpt_params * lparams = create_gpt_params(fname);
     llama_model * model;
-    llama_state * state;
-    state = new llama_state;
+    llama_binding_state * state;
+    state = new llama_binding_state;
     llama_context * ctx;
     lparams->n_ctx      = n_ctx;
     lparams->seed       = n_seed;
diff --git a/llama.cpp b/llama.cpp
@@ -1 +1 @@
-Subproject commit b5ffb2849d23afe73647f68eec7b68187af09be6
+Subproject commit 1f0bccb27929e261744c979bc75114955da49e98
diff --git a/patches/1902-cuda.patch b/patches/1902-cuda.patch
@@ -1,8 +1,8 @@
 diff --git a/examples/common.cpp b/examples/common.cpp
-index 9f8aab9..be2966a 100644
+index bd39d92..17ff47e 100644
 --- a/examples/common.cpp
 +++ b/examples/common.cpp
-@@ -684,18 +684,93 @@ std::tuple<struct llama_model *, struct llama_context *> llama_init_from_gpt_par
+@@ -701,18 +701,93 @@ std::tuple<struct llama_model *, struct llama_context *> llama_init_from_gpt_par
          return std::make_tuple(nullptr, nullptr);
      }
  
@@ -37,8 +37,8 @@ index 9f8aab9..be2966a 100644
 +    // load the model
 +    gpt_params * lparams = create_gpt_params(fname);
 +    llama_model * model;
-+    llama_state * state;
-+    state = new llama_state;
++    llama_binding_state * state;
++    state = new llama_binding_state;
 +    llama_context * ctx;
 +    lparams->n_ctx      = n_ctx;
 +    lparams->seed       = n_seed;
@@ -111,15 +111,15 @@ index 9f8aab9..be2966a 100644
 +}
 \ No newline at end of file
 diff --git a/examples/common.h b/examples/common.h
-index 375bc0a..b165b18 100644
+index 375bc0a..7e7f356 100644
 --- a/examples/common.h
 +++ b/examples/common.h
 @@ -112,3 +112,10 @@ std::vector<llama_token> llama_tokenize(struct llama_context * ctx, const std::s
  
  std::tuple<struct llama_model *, struct llama_context *> llama_init_from_gpt_params(const gpt_params & params);
  struct llama_context_params llama_context_params_from_gpt_params(const gpt_params & params);
 +
-+struct llama_state {
++struct llama_binding_state {
 +    llama_context * ctx;
 +    llama_model * model;
 +};