Sergei Vorobev commited on
Commit
8fc1784
·
1 Parent(s): c4e741b

update tokenizer, license and readme

Browse files
Files changed (3) hide show
  1. LICENSE +97 -0
  2. README.md +28 -0
  3. tokenizer_config.json +8 -0
LICENSE CHANGED
@@ -0,0 +1,97 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ Лицензионное соглашение yandexgpt-5-8b-lite
2
+
3
+
4
+ Настоящее лицензионное соглашение («Соглашение») распространяется на любое физическое или юридическое лицо («Вы», «Ваш» или «Лицензиат»), которое использует или распространяет Материалы или Производные произведения или любую из их частей. Термины, указанные с заглавной буквы и не имеющие определения, приведены в разделе XI Соглашения.
5
+
6
+ Данное Соглашение предоставляет право использования Моделей в Исследовательских или иных Некоммерческих целях с учетом положения в п. I.d Соглашения.
7
+
8
+ Используя или распространяя Материалы или Производные произведения или любые из их частей, Вы соглашаетесь с тем, что ознакомились, поняли и обязуетесь соблюдать условия Соглашения. Если Вы не согласны с условиями Соглашения, то Вы не вправе использовать или распространять Материалы или Производные произведения и должны немедленно прекратить использование Материалов и/или Производных произведений.
9
+
10
+ Если Вы действуете от имени юридического лица (компании-работодателя или иной организации), то “Вы”, “Ваш” или “Лицензиат” включает вас и такое юридическое лицо, и Вы соглашаетесь с тем, что Вы: (i) являетесь уполномоченным представителем юридического лица, наделенным полномочиями заключить Соглашение от имени такого юридического лица и (ii) принимаете условия Соглашения от имени такого юридического лица. Если у Вас нет необходимых полномочий, Вы не имеете права заключать Соглашение и получать доступ к Материалам от имени такого юридического лица.
11
+
12
+ I. УСЛОВИЯ ЛИЦЕНЗИИ
13
+
14
+ a. В соответствии с условиями Соглашения Яндекс предоставляет Вам неисключительную, всемирную, непередаваемую, не подлежащую сублицензированию, отзывную и безвозмездную лицензию в отношении права использования Материалов способами воспроизведения, распространения, переработки и создания Производных произведений в Исследовательских или Некоммерческих целях.
15
+
16
+ b. Вышеуказанная лицензия является персональной, и Вы не имеете права переуступать или сублицензировать эту лицензию или любые другие права или обязательства по Соглашению без предварительного письменного согласия Яндекса; любая такая переуступка или сублицензия будет недействительной и автоматически и немедленно приведет к прекращению действия Соглашения.
17
+
18
+ c. Никакие другие лицензии или права не предоставляются Вам по Соглашению, за исключением прямо указанных в разделе I. Яндекс и его лицензиары оставляют за собой все права, прямо не предоставленные Вам Соглашением.
19
+
20
+ d. Для использования Материалов на иных условиях, отличающихся от условий лицензии в настоящем разделе I и Соглашении, необходимо обратиться в Яндекс по следующему адресу cloud-sales@yandex-team.ru.
21
+
22
+
23
+ II. ОГРАНИЧЕНИЯ
24
+
25
+ Вы не имеете право сами, а также не имеете право разрешать или содействовать третьим лицам в совершении следующих действий:
26
+
27
+ a. использовать Материалы или Производные произведения таким образом, что это приводит или может привести к получению, созданию или распространению следующей информации или материалов:
28
+
29
+ • незаконная и/или запрещенная для распространения информация;
30
+ • информация, содержащая советы по обходу закона, инструкции и указания по способам нарушения прав третьих лиц;
31
+ • неэтичная или оскорбительная для отдельных лиц или категорий лиц информация;
32
+ • информация, разжигающая межнациональную рознь, пропагандирующая ненависть и/или дискриминацию людей по расовому, этническому, половому, религиозному, социальному и иным признакам, порочащая честь, достоинство и/или деловую репутацию третьих лиц;
33
+ • порнографические материалы, в том числе, с участием несовершеннолетних;
34
+ • информация, нарушающая права на частную жизнь, содержащая персональные данные лиц, а также иная информация ограниченного доступа, включая коммерческую, банковскую, налоговую, семейную медицинскую тайну, тайну корреспонденции и т.д.;
35
+ • информация, нарушающая авторские права, права на товарные знаки, средства индивидуализации и/или права на иные объекты интеллектуальной собственности, принадлежащие третьим лицам.
36
+
37
+ b. изменять или удалять уведомления об авторских правах и других правах собственности, содержащихся в Материалах;
38
+
39
+ c. использовать любое оборудование, устройства, программное обеспечение или другие средства для обхода или устранения любых средств защиты, используемых Яндексом в отношении Моделей, или для обхода или устранения любых ограничений на их использование, или для включения функций Моделей, отключенных Яндексом; или
40
+
41
+ d. предлагать или навязывать какие-либо условия в отношении Материалов, которые изменяют, ограничивают или несовместимы с условиями Соглашения.
42
+
43
+
44
+ III. УКАЗАНИЕ АВТОРСТВА
45
+
46
+ При распространении Материалов, а также их Производных произведений, или произведений, включающих Материалы) Вы должны (i) предоставить копию Соглашения и (ii) указать следующее уведомление об авторских правах: “YandexGPT-5-Lite-8B-pretrain распространяется на условиях Лицензионного соглашения YandexGPT-5-Lite-8B-pretrain. Copyright (c) 2025, ОО «ЯНДЕКС». Все права защищены”.
47
+
48
+ IV. ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ
49
+
50
+ МАТЕРИАЛЫ ПРЕДОСТАВЛЯЮТСЯ “КАК ЕСТЬ” и “СО ВСЕМИ ИСПРАВЛЕНИЯМИ” БЕЗ КАКИХ-ЛИБО ГАРАНТИЙ, ЯВНЫХ ИЛИ ПОДРАЗУМЕВАЕМЫХ. ЯНДЕКС КАТЕГОРИЧЕСКИ ОТКАЗЫВАЕТСЯ ОТ ВСЕХ ЗАЯВЛЕНИЙ И ГАРАНТИЙ, ЯВНЫХ ИЛИ ПОДРАЗУМЕВАЕМЫХ, БУДЬ ТО В СИЛУ ЗАКОНА, ОБЫЧАЕВ, ИСПОЛЬЗОВАНИЯ ИЛИ ИНЫМ ОБРАЗОМ, В ОТНОШЕНИИ ЛЮБЫХ ВОПРОСОВ, СВЯЗАННЫХ С МАТЕРИАЛАМИ, ВКЛЮЧАЯ, НО НЕ ОГРАНИЧИВАЯСЬ, ПОДРАЗУМЕВАЕМЫЕ ГАРАНТИИ ТОВАРНОЙ ПРИГОДНОСТИ, ПРИГОДНОСТИ ДЛЯ ОПРЕДЕЛЕННОЙ ЦЕЛИ, ПРАВА СОБСТВЕННОСТИ, КАЧЕСТВА ИЛИ НЕНАРУШЕНИЯ ПРАВ. ЯНДЕКС НЕ ДАЕТ НИКАКИХ ГАРАНТИЙ ИЛИ ЗАВЕРЕНИЙ В ТОМ, ЧТО МАТЕРИАЛЫ НЕ СОДЕРЖАТ ОШИБОК, ВИРУСОВ ИЛИ ДРУГИХ ВРЕДОНОСНЫХ КОМПОНЕНТОВ И ЧТО ИСПОЛЬЗОВАНИЕ МАТЕРИАЛОВ ПРИВОДИТ К КАКИМ-ЛИБО КОНКРЕТНЫМ РЕЗУЛЬТАТАМ.
51
+
52
+ V. ОГРАНИЧЕНИЕ ОТВЕТСТВЕННОСТИ
53
+
54
+ ЯНДЕКС НИ ПРИ КАКИХ ОБСТОЯТЕЛЬСТВАХ НЕ НЕСЕТ ОТВЕТСТВЕННОСТИ ПЕРЕД ВАМИ (А) ЗА ЛЮБЫЕ УБЫТКИ И ПОСЛЕДСТВИЯ ИСПОЛЬЗОВАНИЯ МАТЕРИАЛОВ В СООТВЕТСТВИИ ИЛИ В НАРУШЕНИЕ УСЛОВИЙ СОГЛАШЕНИЯ, ИЛИ (Б) ЗА ЛЮБЫЕ КОСВЕННЫЕ, СЛУЧАЙНЫЕ, ШТРАФНЫЕ ИЛИ СПЕЦИАЛЬНЫЕ УБЫТКИ, ВКЛЮЧАЯ УПУЩЕННУЮ ВЫГОДУ, ДАЖЕ ЕСЛИ ЯНДЕКСУ БЫЛо ИЗВЕСТНО О ВОЗМОЖНОСТИ ТАКИХ УБЫТКОВ. МАТЕРИАЛЫ, ИХ СОСТАВНЫЕ ЭЛЕМЕНТЫ И ЛЮБЫЕ ВЫХОДНЫЕ ДАННЫЕ ИЗ ТАКИХ МАТЕРИАЛОВ НЕ РАЗРАБОТАНЫ И НЕ ПРЕДНАЗНАЧЕНЫ ДЛЯ ИСПОЛЬЗОВАНИЯ В КАКИХ-ЛИБО ПРИЛОЖЕНИЯХ ИЛИ СИТУАЦИЯХ, КОГДА МОЖНО ОБОСНОВАННО ПРЕДПОЛОЖИТЬ, ЧТО НЕКОРРЕКТНАЯ РАБОТА МАТЕРИАЛОВ, СБОЙ В НИХ МОЖЕТ ПРИВЕСТИ К ТРАВМАМ ИЛИ НАРУШЕНИЮ ПРАВ ЧЕЛОВЕКА.
55
+
56
+ VI. ВОЗМЕЩЕНИЕ УБЫТКОВ
57
+
58
+ Вы обязуетесь защитить Яндекс и Аффилированных лиц и выступить на стороне Яндекс или Аффилированных лиц при предъявлении Яндексу или Аффилированным лицам претензий, требований, судебных исков третьими лицами («Претензии»), вытекающих из или связанных с использованием Вами Материалов (а также любых результатов или данных, полученные вследствие использования Материалов), а также всячески содействовать в урегулировании таких Претензий. Вы обязуетесь возместить Яндексу или Аффилированным лицам реальный документально подтвержденный ущерб, возникший в связи с Претензиями.
59
+
60
+ VII. ПРЕКРАЩЕНИЕ ДЕЙСТВИЯ СОГЛАШЕНИЯ
61
+
62
+ a. Действие Соглашения автоматически прекращается при любом нарушении Вами условий Соглашения.
63
+ b. Яндекс может прекратить действие Соглашения, полностью или частично, в любое время, направив Вам уведомление (в том числе в электронном виде).
64
+ c. Следующие разделы Соглашения остаются в силе даже после прекращения его действия: II (ОГРАНИЧЕНИЯ), III (УКАЗАНИЕ АВТОРСТВА), IV (ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ), V (ОГРАНИЧЕНИЕ ОТВЕТСТВЕННОСТИ), VI (ВОЗМЕЩЕНИЕ УБЫТКОВ), VII (ПРЕКРАЩЕНИЕ ДЕЙСТВИЯ СОГЛАШЕНИЯ), VIII (ТОВАРНЫЕ ЗНАКИ), IX (ПРИМЕНИМОЕ ПРАВО; РАЗРЕШЕНИЕ СПОРОВ) и X (ИНОЕ).
65
+
66
+
67
+ VIII. ТОВАРНЫЕ ЗНАКИ И УПОМИНАНИЯ ЯНДЕКСА
68
+
69
+ Соглашение не предполагает предоставления Лицензиату лицензии или иного разрешения в отношении права использования товарных знаков Яндекса или иных обозначений Яндекса. Лицензиат не вправе использовать какое-либо наименование или товарные знаки Яндекса без предварительного письменного согласия Яндекса, за исключением случаев, когда это необходимо для указания уведомления об авторских правах, требуемого разделом III “УКАЗАНИЕ АВТОРСТВА” Соглашения.
70
+
71
+ IX. ПРИМЕНИМОЕ ПРАВО; ПОРЯДОК РАЗРЕШЕНИЯ СПОРОВ
72
+
73
+ Соглашение регулируется и толкуется в соответствии с законодательством Российской Федерации. Любой иск или разбирательство, вытекающие из Соглашения или связанные с ним, должны рассматриваться в судах г. Москвы, и каждая сторона безоговорочно подчиняется юрисдикции и месту проведения таких судов.
74
+
75
+ X. ИНОЕ
76
+
77
+ Если какое-либо положение или часть положения Соглашения признается незаконным, недействительным или не имеющим законной силы, такое положение или его часть считаются исключенными из Соглашения и не влияют на действительность и применимость остальных положений Соглашения. Нереализация Яндексом какого-либо права или положения Соглашения не будет считаться отказом от такого права или положения. Соглашение вместе с Документацией образует единое соглашение между вами и Яндексом относительно предмета Соглашения и заменяет собой все иные письменные или устные соглашения и договоренности относительно такого предмета. Никакие изменения или дополнения к каким-либо положениям Соглашения не будут иметь обязательной силы, если они не оформлены в письменной форме и не подписаны уполномоченными представителями от Вас и Яндекса.
78
+
79
+ XI. ТЕРМИНЫ 
80
+
81
+ «Аффилированные лица» – любые юридические или физические лица, которые имеют прямой или косвенный контроль над Яндексом; над которыми Яндекс имеет прямой или косвенный контроль; либо которые находятся с Яндексом под общим прямым или косвенным контролем.
82
+
83
+ «Соглашение» – настоящее лицензионное соглашение YandexGPT-5-Lite-8B-pretrain License Agreement.
84
+
85
+ «Производные произведения» - (a) любые производные от Материалов работы в значении, предусмотренном Гражданским Кодексом Российской Федерации и (b) любые модификации Модели и любые другие модели, созданные на основе Модели или производные от нее или выходных данных Модели.
86
+
87
+ “Документация” - любые спецификации, руководства, документы и иная письменная информация, предоставляемая Яндексом в отношении Моделей.
88
+
89
+ “Материалы” – совместно Модели и Документация (любая их часть или комбинация), принадлежащие Яндексу и предоставляемые по лицензии в рамках Соглашения. 
90
+
91
+ “Модели" – в совокупности собственные модели и алгоритмы Яндекса, включая модели машинного обучения, весовые коэффициенты обученных моделей (основные параметры обученной модели машинного обучения, которые определяют, как модель делает предсказание следующего токена), программное обеспечение и другие элементы вышеперечисленного, которые предоставляются по лицензии в рамках Соглашения.
92
+
93
+ “Некоммерческие цели” - любая цель, отличная от исследовательской, которая не направлена на получение коммерческой выгоды или денежной компенсации Вами или другими лицами, например, для личного использования или для оценки и тестирования.  
94
+
95
+ “Исследовательские цели” – цели академического или научного развития, не направленные на получение коммерческой выгоды или денежной компенсации Вами или другими лицами.
96
+
97
+ "Яндекс" – ООО «ЯНДЕКС» и его Аффилированные лица.
README.md CHANGED
@@ -35,3 +35,31 @@ input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
35
  outputs = model.generate(**input_ids, max_new_tokens=19)
36
  print(tokenizer.decode(outputs[0], skip_special_tokens=True))
37
  ```
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
35
  outputs = model.generate(**input_ids, max_new_tokens=19)
36
  print(tokenizer.decode(outputs[0], skip_special_tokens=True))
37
  ```
38
+
39
+ Или через vLLM:
40
+ ```python
41
+ from vllm import LLM, SamplingParams
42
+
43
+
44
+ # MODEL_NAME = "yandex/YandexGPT5-8B-base"
45
+ MODEL_NAME = "/home/serv01/repos/YandexGPT-5-Lite-8B-pretrain"
46
+
47
+ sampling_params = SamplingParams(
48
+ temperature=0.3,
49
+ max_tokens=18,
50
+ )
51
+
52
+ llm = LLM(
53
+ MODEL_NAME,
54
+ tensor_parallel_size=1,
55
+ )
56
+ input_texts = ["Кто сказал тебе, что нет на свете настоящей,"]
57
+ outputs = llm.generate(input_texts, use_tqdm=False, sampling_params=sampling_params)
58
+
59
+ for i in range(len(input_texts)):
60
+ print(input_texts[i] + outputs[i].outputs[0].text)
61
+ ```
62
+
63
+ ## Как дообучить под свои задачи
64
+
65
+ Будет дополнено.
tokenizer_config.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": "<s>",
3
+ "eos_token": "</s>",
4
+ "legacy": false,
5
+ "model_max_length": 1000000000000000019884624838656,
6
+ "tokenizer_class": "LlamaTokenizer",
7
+ "unk_token": "<unk>"
8
+ }