サイトのデザイン刷新+Hugging Face とは
こんにちは、音楽家の朝比奈幸太郎です。
本日は徒然なるままにブログを更新していこうと思います。
先日、ブログのデザインを新しくしました。
もともと「HNニュース」というプラットフォームのブログデザインを参考に作っていたのですが、よりしっかりとレトロをテーマにしたブログサイトにしたいと思い、レトロデザインに更新しています。
さて、皆さんは生成AIとどんな付き合いをしていますか。
私は例えばDeepSeek APIなど、APIを使った生成AIの構築に励んでいます。
もちろん、このAPIを使った生成AIの構築自体が何かビジネスになるというわけではなく、シンプルに時代に置いていかれないための技術力の向上のために行っています。
と言っても、時代にはすでに置いていかれているのかもしれません。
もう何が何やら、よく分からない世界になっています。
あんまり考えても仕方ないので、今日の話題としては…Hugging Face について。
チャットのAIや画像生成AI、動画生成AIなど、既存のプラットフォームって非常に高額だと思いませんか。
オーディオも基本的には自作派の筆者ですが、自作派としてはやっぱりオープンソースのモデルを使って自作のプラットフォームを作りたいところです。
オーディオも基本的には自作派の筆者ですが、オープンソースのモデルを使って自作のプラットフォームを作りたいところです。
そこでいろいろ探してみると、Hugging Faceについての情報に行き当たりました。
Hugging Face とは
Hugging Face(ハギング・フェイス)は、機械学習(特に自然言語処理や生成AI)モデル・データセット・デモアプリを共有・配布するためのプラットフォームです。
「AI界の GitHub」とも呼ばれており、世界中の研究者・企業・個人開発者がオープンソースのAIモデルを公開し、誰でも自由にダウンロード・利用できる仕組みを提供しているとのこと。
一応、どこの国かというのは昨今の世界情勢からすると非常に重要なところだと思いますが、以下にAIで検索した情報を貼っておきます。
国・創業者・運営
アメリカ合衆国(本社はニューヨーク市)。
ただし創業者はフランス人で、パリにも大きな拠点を持つ「米仏のハイブリッド企業」として知られています。
創業者:2016年に以下の3名のフランス人起業家によって設立されました。
- Clément Delangue(クレマン・ドゥラング) – CEO
- Julien Chaumond(ジュリアン・ショーモン) – CTO
- Thomas Wolf(トマ・ウルフ) – CSO(チーフサイエンスオフィサー)
運営会社:Hugging Face, Inc. が運営しています。
当初はティーン向けのチャットボットアプリとしてスタートしましたが、2018年頃に NLP ライブラリ「Transformers」を公開したことで方針転換し、現在のAIプラットフォームへと発展しました。Google、Amazon、NVIDIA、Salesforce、Sequoia などから出資を受けており、評価額は数十億ドル規模(ユニコーン企業)となっています。
名前の由来?
社名は絵文字の「🤗(hugging face)」から来ており、ロゴにもこの顔文字が使われています。
親しみやすい雰囲気がブランドの特徴です。
選択できる主なオープンソースモデル
Hugging Face Hub には現在 100万を超えるモデル がホストされており、ジャンル別に代表例を挙げておきます。
こうしてみると、gensparkなどは別に契約せずに、オープンソースだけで自前実装する線もありかも?と思えてきませんか?
もちろんGPUコストや電力コストなど複合的に考える必要がありますが。
大規模言語モデル(テキスト生成・対話)
- Meta:Llama 2、Llama 3、Llama 3.1、Llama 3.2、Llama 3.3、Code Llama
- Mistral AI:Mistral 7B、Mixtral 8x7B、Mixtral 8x22B、Mistral Nemo、Mistral Small、Codestral
- Google:Gemma、Gemma 2、CodeGemma、RecurrentGemma、PaliGemma
- Alibaba:Qwen、Qwen2、Qwen2.5、Qwen2.5-Coder、QwQ(推論特化)
- DeepSeek:DeepSeek-V2、DeepSeek-V3、DeepSeek-R1、DeepSeek-Coder、DeepSeek-Math
- Microsoft:Phi-2、Phi-3、Phi-3.5、Phi-4
- 01.AI:Yi、Yi-1.5、Yi-Coder
- Cohere:Command R、Command R+、Aya(多言語特化)
- xAI:Grok-1(オープンウェイト版)
- Databricks:DBRX
- Snowflake:Arctic
- NVIDIA:Nemotron、Minitron
- AllenAI:OLMo、Tulu
- TII(UAE):Falcon、Falcon 2、Falcon Mamba
- Stability AI:StableLM
- その他:Zephyr、OpenHermes、Nous-Hermes、Dolphin、WizardLM、Vicuna、Orca
日本語特化・日本語対応モデル
- CyberAgent:calm2、calm3
- Preferred Networks:PLaMo
- rinna:japanese-gpt、Nekomata、Youri
- Stockmark:Stockmark-13b
- ELYZA:ELYZA-japanese-Llama
- Sakana AI:EvoLLM-JP
- LINE / LY Corporation:japanese-large-lm
- 東京工業大学・産総研:Swallow
画像生成
- Stability AI:Stable Diffusion 1.5、SD 2.1、SDXL、SDXL Turbo、SD3、SD3.5
- Black Forest Labs:FLUX.1 [dev]、FLUX.1 [schnell]、FLUX.1 Pro
- Tencent:HunyuanDiT
- Kwai:Kolors
- Playground:Playground v2.5
- Segmind:SSD-1B
- PixArt:PixArt-α、PixArt-Σ
- ByteDance:SDXL-Lightning、Hyper-SD
動画生成
- Stability AI:Stable Video Diffusion
- Tencent:HunyuanVideo
- Genmo:Mochi 1
- Lightricks:LTX-Video
- Alibaba:CogVideoX
音声認識・音声合成(TTS/STT)
- OpenAI:Whisper(large-v3、turbo など全サイズ)
- Coqui:XTTS-v2
- Suno:Bark
- MetaVoice:MetaVoice-1B
- Parler-TTS
- Kyutai:Moshi
- Fish Audio:Fish Speech
- ご質問の Sulphur 2 もこの系統です
音楽生成
- Meta:MusicGen、AudioGen
- Stability AI:Stable Audio Open
- Facebook:EnCodec
マルチモーダル(画像+テキスト・動画理解)
- LLaVA、LLaVA-NeXT
- Qwen-VL、Qwen2-VL
- InternVL
- MiniCPM-V
- Idefics(Hugging Face 自作)
- Pixtral(Mistral)
- Phi-3-Vision
- Molmo(AllenAI)
埋め込み(Embedding)・検索系
- BGE(北京智源)
- E5(Microsoft)
- Nomic Embed
- Jina Embeddings
- Sentence-Transformers 各種
コード生成
- StarCoder、StarCoder2(BigCode)
- Code Llama
- DeepSeek-Coder
- Qwen2.5-Coder
- Codestral
画像認識・セグメンテーション
- Meta:SAM、SAM 2、DINOv2
- CLIP、SigLIP、OpenCLIP
- YOLO 系列
- Grounding DINO
旧来の Transformer 系(研究・ファインチューニング用途)
- BERT、RoBERTa、DistilBERT、ALBERT、ELECTRA、DeBERTa、T5、FLAN-T5、BART、GPT-2、XLM-RoBERTa
なぜ Hugging Face はこれほどの「開発力」を持つのか?
ここは誤解しやすいところかもしれないので、ちょっとだけ深掘りしておきましょう。
Hugging Face 自体が全てのモデルを作っているわけではありません。
むしろ核心的なのは 「世界中の開発者がモデルを置きたくなるプラットフォーム」を作り上げた という点にあります。
というのも、2018年に公開した transformers ライブラリが NLP 研究のデファクト標準になりました。当時 Google の BERT、OpenAI の GPT-2 など主要 Transformer モデルを「数行のコードで使える」形にラップして提供したことで、研究者が論文を出すときの「公式実装の置き場所」が自然と Hugging Face になっていきました。
一度この流れができると、新しいモデルを出す側も「Hugging Face に置かないと使ってもらえない」状態になり、強力なネットワーク効果が働きます。
徹底的にオープンソース戦略 transformers、diffusers、datasets、accelerate、peft、trl、tokenizers など、AI 開発に必要なツール群をすべて MIT/Apache ライセンスで無料公開しています。
これにより大学・スタートアップ・大企業の研究部門のいずれもが採用しやすく、結果として「業界標準」になりました。
メタ・グーグル・NVIDIA など大手との提携 Meta は Llama を Hugging Face で公開し、Google は Gemma を Hugging Face と共同発表、NVIDIA は Hugging Face 上での推論最適化に投資しています。AWS とは SageMaker 統合、Microsoft Azure とも提携。つまり Hugging Face 自身は「土管」「ハブ」として、巨大企業の研究成果を吸い上げる仕組みを構築しています。
自社研究チームも強力 Thomas Wolf 率いる研究部門は、BLOOM(多言語176B LLM、世界中の研究者と共同開発)、Zephyr、SmolLM、Idefics、StarCoder(BigCode プロジェクト)など重要なモデルを直接リリースしています。研究力と運営力を両立している点が他のクラウド業者と違うところです。
潤沢な資金調達 これまでに 4 億ドル以上を調達しており、2023年の Series D では評価額 45 億ドル。出資者には Google、Amazon、NVIDIA、Salesforce、IBM、Intel、AMD、Qualcomm、Sequoia、Coatue などが並びます。「競合する大手 AI 企業がこぞって出資する中立的プラットフォーム」というユニークなポジションを築きました。
カルチャー的な要因 創業者3人がフランス人であることもあり、シリコンバレーの「クローズドな商用 AI」とは違う ヨーロッパ的オープンサイエンス志向 が強く、研究者コミュニティから信頼を得ています。
Replicate との違いと「無料で使えるのか」問題
ここも誤解しやすいので分けて説明します。
Replicate は「モデルを API として呼び出す」ことに特化したサービスです。
GPU を借りずに、URL を叩くだけで Stable Diffusion や Llama を動かせます。
料金は従量課金(秒単位)。
Hugging Face はもっと総合的なプラットフォームで、用途別に複数の使い方があります。
Hugging Face の利用形態と料金
① モデルをダウンロードして自分の PC・サーバーで動かす → 完全無料 これが最も基本的な使い方です。
例えばSulphur 2 のようなモデルもアカウントを作れば無料でダウンロードでき、自分の GPU(ローカル PC、または借りた GPU サーバー)で動かせます。
Replicate のような従量課金は発生しません。
ただし自分で GPU を用意するコストはかかります。
② Inference API(Serverless)→ 無料枠あり、本格利用は有料
Replicate のように「API を叩くだけ」で使える仕組みもあります。
無料アカウントでも一定回数までは試せますが、レート制限が厳しめです。
本格運用には PRO プラン(月額 9 ドル) や Enterprise Hub へのアップグレードが必要です。
③ Inference Endpoints(専用 GPU)→ 完全に従量課金
本番運用向けに専用 GPU インスタンスを立てる場合は、Replicate と同じく時間課金です。
GPU の種類(A10G、A100、H100 など)によって時給が変わります。
むしろ Replicate より高くなることもあります。
④ Spaces(デモアプリのホスティング)→ 無料枠 + 有料 GPU
CPU での簡易ホスティングは無料。
GPU を使うなら時間課金。
「自分で GPU を持っている、または借りられる」なら Hugging Face でモデルをダウンロードして動かす方が圧倒的に安く、実質無料になります。
ローカルやクラウド GPU で動かす運用なら、これがベストです。
「GPU を持っていない・API 一本で済ませたい」なら Replicate のような従量課金 API の方が手軽です。
Hugging Face にも同等の Inference API はありますが、料金面で Replicate より明確に安いわけではありません。
むしろモデルラインナップの即応性は Replicate の方が良いこともあります。
つまり Hugging Face の 真の価値は「モデルの配布インフラ」としての無料性 にあり、推論サービスとしては Replicate と競合関係というより補完関係にある、と捉えるのが実態に近いです。
RunPod などを併用した方がよい理由
でも、Hugging Face だけで完結できそうだから、Hugging Face だけでいいんじゃないの?と思うかもしれません。
実は、Hugging Face Inference Endpoints の GPU 料金は、RunPod や Vast.ai、Lambda Labs などの「生 GPU レンタル業者」と比べると 2〜4 倍ほど高い のが一般的です。
たとえば A100 80GB を借りる場合、RunPod なら 1 時間 1.5〜2 ドル前後、Hugging Face Endpoints だと 4〜5 ドル台になることもあります。
マネージドの便利さに対する上乗せ分です。
また、GPU の在庫・選択肢が限定的であることも注目するべきです。
RunPod は H100、A100、RTX 4090、RTX 6000 Ada など幅広い GPU を選べますが、Hugging Face Endpoints は提供 GPU の種類が限られます。
コスパ重視で「RTX 4090 ×複数枚」みたいな構成を組みたい場合は RunPod や Vast.ai の方が柔軟です。
加えてRunPod は基本的に「Linux + GPU の素のサーバー」を貸してくれるので、何をインストールしても自由です。
ComfyUI、Automatic1111、Ollama、独自の Python 環境、Docker など何でも動かせます。
Hugging Face Endpoints はモデル推論に特化したマネージド環境のため、ワークフロー全体を作り込むには制約があります。
長時間稼働 vs スポット利用 常時稼働させる API なら Endpoints のマネージドが便利ですが、「数時間だけ重い処理を走らせたい」「学習だけ回したい」という使い方なら RunPod の方が圧倒的に安いです。
また、GPU自体は実際に生成AIだけを動かす目的で使うわけではなく、機械学習など幅広いライブラリを使いたい人もいるでしょう。
実務での典型的な使い分け
多くの開発者が採用しているパターンを紹介します。
モデルの入手・管理 → Hugging Face モデル本体、データセット、トークナイザーなどはすべて Hugging Face Hub から取得し、バージョン管理も Hub に任せる。ここは無料で完結。
重い計算(学習・大量推論) → RunPod / Vast.ai / Lambda Labs GPU を時間単位で借りて、Hugging Face から huggingface_hub 経由でモデルをダウンロードして実行。終わったらインスタンスを止めて課金停止。
API 提供・本番運用 → 用途次第 低トラフィックで手軽さ重視なら Replicate や Hugging Face Inference Endpoints。コスト重視・大規模なら RunPod 上に自前で vLLM や TGI(Text Generation Inference)を立てる。
デモ公開・社内共有 → Hugging Face Spaces ちょっとした UI を URL で共有するだけなら Spaces が最も楽。
Hugging Face だけで完結する環境を作ることは可能ですが、それは 「便利さに対して GPU 単価を割高に払う」構成 になります。
学習用途や長時間の重い処理を含むなら、Hugging Face(モデル・コード・ツール)+ RunPod など(生 GPU)の組み合わせが、自由度・コスト・性能のバランスが最も良い構成です。
「Hugging Face で完結 = シンプルだが高い」「RunPod 併用 = 手間は増えるが安くて自由」というトレードオフだと理解しておけば、用途に応じて選べます。
今日はこのへんで。
ではでは。