Transformator (sztuczna inteligencja)

Transformator[1][2][3] (lub transformer[4]) – architektura uczenia głębokiego opracowana przez Google i oparta na zrównoleglonym mechanizmie uwagi, zaproponowana w 2017 w artykule zatytułowanym „Attention Is All You Need” („Uwaga to wszystko, czego potrzebujesz”)[5]. Zastosowany w transformatorach mechanizm uwagi (ang. attention) wywodzi się z algorytmu zaproponowanego przez Bahdanau i innych w 2014 do tłumaczenia maszynowego oraz mechanizmu Fast Weight Controller przedstawionego w 1992[6][7].

Przewagą transformatorów nad rekurencyjnymi sieciami neuronowymi, takimi jak długa pamięć krótkotrwała (LSTM), jest to, że nie mają jednostek rekurencyjnych, a zatem wymagają krótszego uczenia[8]. Jedna z odmian transformatorów została zastosowana do uczenia dużych modeli językowych (LLM).

Architektura ta jest obecnie wykorzystywana w przetwarzaniu języka naturalnego i rozpoznawaniu obrazów, a także w przetwarzaniu dźwięku i przetwarzaniu multimodalnym (łączącym rózne obszary, np. rozpoznawanie języka i obrazów). Doprowadziło to również do rozwoju wstępnie wytrenowanych systemów, takich jak wstępnie przeszkolone transformatory generatywne (GPT)[9] i BERT[10].

Przypisy

  1. AurélienA. Géron AurélienA., Uczenie maszynowe z użyciem Scikit-Learn i TensorFlow, KrzysztofK. Sawka (tłum.), Wydanie II, aktualizacja do modułu TensorFlow 2, Gliwice: Helion, 2020, s. 539, ISBN 978-83-283-6002-0 [dostęp 2024-06-24] .
  2. Sztuczna inteligencja albo nas zbawi, albo zabije. Mam tyle samo nadziei, co obaw [online], CHIP - Technologie mamy we krwi!, 18 marca 2023 [dostęp 2024-05-29]  (pol.).
  3. BożenaB. Jaskowska BożenaB., Książki pisane przez sztuczną inteligencję: Teraźniejszość oraz refleksje i pytania o przyszłość, „Perspektywy Kultury”, 42 (3), 2023, s. 39–64, DOI: 10.35765/pk.2023.4203.06, ISSN 2719-8014 [dostęp 2024-05-29] .
  4. WacławW. Iszkowski WacławW., RyszardR. Tadeusiewicz RyszardR., Na marginesie dyskusji o sztucznej inteligencji, „Nauka”, 2023, s. 49–70, DOI: 10.24425/nauka.2023.148227, ISSN 1231-8515 [dostęp 2024-05-29]  (pol.).
  5. AshishA. Vaswani AshishA. i inni, Attention is All you Need, „Advances in Neural Information Processing Systems”, 30, Curran Associates, Inc., 2017 [dostęp 2024-05-21]  (ang.).
  6. JürgenJ. Schmidhuber JürgenJ., Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Networks, „Neural Computation”, 4 (1), 1992, s. 131–139, DOI: 10.1162/neco.1992.4.1.131, ISSN 0899-7667 [dostęp 2024-05-21]  (ang.).
  7. DzmitryD. Bahdanau DzmitryD., KyunghyunK. Cho KyunghyunK., YoshuaY. Bengio YoshuaY., Neural Machine Translation by Jointly Learning to Align and Translate, [w:] arXiv, 2014, DOI: 10.48550/ARXIV.1409.0473, arXiv:1409.0473 .
  8. SeppS. Hochreiter SeppS., JürgenJ. Schmidhuber JürgenJ., Long Short-Term Memory, „Neural Computation”, 9 (8), 1997, s. 1735–1780, DOI: 10.1162/neco.1997.9.8.1735, ISSN 0899-7667 [dostęp 2024-05-21]  (ang.).
  9. ThomasT. Wolf ThomasT. i inni, Transformers: State-of-the-Art Natural Language Processing, Association for Computational Linguistics, 2020, s. 38–45, DOI: 10.18653/v1/2020.emnlp-demos.6 [dostęp 2024-05-21]  (ang.).
  10. Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processin [online], research.google [dostęp 2024-05-21]  (ang.).