Llama4Sは、Scala 3で書かれたシンプルながら高い実用性を持つLlama 3.x推論エンジンです。 このプロジェクトはllama3.javaプロジェクトにインスパイアされており、 そのllama3.javaはAndrew Karpathyによるllama2.cと、 大規模言語モデルに関する彼の優れた講義から着想を得ています。 Llama4SはJava Vector API(JEP 469)を通じて量子化テンソルの高速な一般行列-ベクトル乗算をサポートし、 最適なパフォーマンスのためにGraalコンパイラが提供する高度な最適化を活用しています。