RK182X Development KitでローカルLLM「Qwen2.5-3B-Instruct」を動かしてみました

ごんた🐶です。Firefly社のRK182X Development Kitを用いて、ローカルLLMのデモを評価しました。
今回動作させたモデルはQwen2.5-3B-Instructです。クラウドに依存せず、デバイス単体でLLMを実行できる構成は、低遅延・高い応答性・ネットワーク非依存の観点で非常に魅力があります。

RK182X Development Kitは、ローカルAI処理を強く意識した開発キットです。今回のデモでも、その特長である高速な応答性能を確認できました。
特に、ローカルLLMとして体感速度に直結する「初回応答の速さ」と「継続生成の速さ」は注目ポイントです。

今回の評価内容

  • 評価ボード:RK182X Development Kit
  • 実行モデル:Qwen2.5-3B-Instruct
  • 評価内容:ローカルLLMデモの応答性能確認

デモ動画

実際にローカルLLMデモが動作している様子を以下の動画でご覧いただけます。

測定結果

ローカルLLM性能結果

  • 初回トークン出力までの時間:85.718ms
  • 1秒あたりのトークン数:81.062 tokens/s

今回の測定では、初回トークン出力まで85.718ms、さらに81.062 tokens/sという結果が得られました。
ローカルLLMでは、ユーザーが「返ってきた」と感じるまでの初動と、その後の生成スピードの両方が重要です。
今回の結果から、RK182X Development KitはローカルLLMを高速に動作させられるプラットフォームとして非常に有望であることが分かります。

特に81.062 tokens/sという生成速度は、ローカル環境でのLLM実行としてはかなり高速であり、
チャットデモやエッジAI機器への組み込みを検討する際にも、十分に実用性を感じられる水準です。

初回トークン時間について

なお、初回トークン出力までの時間は、プロンプト長やシステムプロンプト、前処理条件などの影響を受けるため、
あくまで参考値としてご覧ください。実運用時には、入力テキストの長さやアプリケーション構成によって変動します。

ローカルLLM用途でRK182X Development Kitが魅力的な理由

ローカルLLMを実機上で動作させる場合、単にモデルが動くだけでなく、応答速度や安定性、そしてクラウドに頼らない構成が重要になります。
RK182X Development Kitは、こうした要件に応えやすい開発キットです。

  • ローカル実行による低遅延な応答
  • ネットワーク接続に依存しない安定した動作
  • 機密データを外部送信しない構成を取りやすい
  • エッジAI機器や組み込み製品への展開を検討しやすい

チャットAI、音声対話端末、産業向けHMI、受付端末、教育機器など、
ローカルLLMを活用したいさまざまなアプリケーションの評価プラットフォームとして活用しやすい印象です。

まとめ

今回は、FireflyのRK182X Development Kit上でQwen2.5-3B-InstructのローカルLLMデモを動作させた結果をご紹介しました。

  • 初回トークン出力までの時間:85.718ms
  • 生成速度:81.062 tokens/s

これらの結果から、RK182X Development KitはローカルLLMを高速に動作させたい用途に適した開発キットであることが確認できました。
今後、エッジAIや組み込みAI機器において、ローカルLLMの活用を検討されている方にとって、有力な選択肢のひとつになるのではないでしょうか。

本製品にご興味がありましたら、ぜひお気軽にお問い合わせください。