Episodes

  • 株式会社ずんだもん技術室AI放送局 podcast 20260618
    Jun 17 2026
    youtube版(スライド付き) 関連リンク A near-autonomous AI chemist improves a challenging reaction in medicinal chemistry OpenAIは、創薬化学における難度の高い化学反応の効率を改善する「自律型AI化学者」の成果を発表しました。本プロジェクトでは、GPT-5.4と自律型ラボシステム「Maria」を連携させ、製薬のボトルネックとなっていた「チャン・ラムカップリング(炭素-窒素結合形成反応)」の最適化に成功しました。 本システムの仕組みは、AIが膨大な文献を分析して仮説を生成し、実験計画を立案。その後、自動化された高スループットラボで実際に1万回以上の実験を行い、その結果をフィードバックして改善を繰り返すというものです。特筆すべき成果として、特定の酸化剤(TEMPO)を用いることで、これまで低収率だったスルホンアミドを用いた反応の収率を大幅に向上させました。この結果は、ラボでの小規模実験だけでなく、人間の化学者によるベンチスケールでの再現実験によっても実証されています。 新人のエンジニアが注目すべきポイントは、AIが「知識を統合する」だけでなく、「物理的な実験を伴う反復プロセス(ループ)」に深く関与し、科学的発見を加速させている点です。AIは完全に自律しているわけではなく、人間が研究の方向性や実験の精査、倫理的な判断を行う「Human-in-the-loop(人間が介在する)」体制が維持されています。 この事例は、AIが単なるコード生成や文章作成の道具にとどまらず、専門的な実験科学のパートナーとして機能する未来を示唆しています。創薬のように試行錯誤にコストがかかる分野において、AIと自動化ラボの融合は今後非常に重要な技術トレンドとなるでしょう。なお、安全面についてはOpenAIのフレームワークに基づき、有害な化合物生成等のリスクを回避する管理体制が厳格に運用されています。 引用元: https://openai.com/index/ai-chemist-improves-reaction GLM-5.2: Built for Long-Horizon Tasks 「GLM-5.2」は、長期間かつ複雑なエンジニアリングタスク(ロングホライゾン・タスク)を遂行するために設計された、最新のオープンウェイト・フラッグシップモデルです。最大の特徴は、1Mトークンという超長文コンテキストを安定して処理できる能力と、実務での実用性を重視した設計にあります。 主な技術的ハイライトは以下の通りです。 ・1Mコンテキストの最適化: 「IndexShare」という新しいアーキテクチャを採用し、4層ごとに軽量なインデクサーを共有することで、演算コストを劇的に削減しながら1Mトークンの長文処理を実現しました。 ・推論効率の向上: 推論時の推測デコード(Speculative Decoding)を改善し、受容長を最大20%向上させています。また、推論エンジン側でもKVキャッシュ管理やカーネル最適化を行い、長文タスク時のスループットを向上させています。 ・柔軟なリソース制御: ユーザーがタスクの難易度に応じてモデルの「思考コスト(Thinking Effort)」を選択可能で、パフォーマンスとレイテンシのバランスを柔軟に調整できます。 ・エージェント向け強化学習: 大規模な強化学習プロセスを統合管理する「slime」フレームワークや、コーディングタスク特有の「報酬ハッキング(ズル)」を防ぐためのガードレール機能が組み込まれており、信頼性の高いエージェント動作を支援します。 ベンチマークでは、FrontierSWEやSWE-bench Proといった技術的な難易度の高いコーディングタスクにおいて、オープンソースモデルとして最高水準の性能を記録しており、クローズドモデルに迫る実力を示しています。開発者向けにはHuggingFace等でモデルが公開されているほか、各種フレームワークでも利用可能です。 引用元: https://huggingface.co/blog/zai-org/glm-52-blog Build On-Device AI Companions with the NVIDIA ACE Game Agent SDK and Unreal Engine 5 Plugins NVIDIAは、Unreal Engine 5(UE5)向けにオンデバイスで動作するAIエージェント構築用の新しいSDKおよびプラグインを発表しました。本ツール群は、クラウド依存によるレイテンシやコストの課題を解決し、GeForce RTX環境で完結する高性能なAI NPC(ノンプレイヤーキャラクター)体験を提供することを目的としています。 主な提供内容は以下の通...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20260617
    Jun 16 2026
    youtube版(スライド付き) 関連リンク North Mini Code: Agentic Coding Model for Developers Cohere AIスタートアップのCohere社から、開発者向けの新世代コード生成AIモデル「North Mini Code(バージョン1.0)」がオープンソース(Apache 2.0ライセンス)として公開されました。これは同社初となる「エージェント指向(Agentic)」のコーディングモデルです。 本モデルは、日本の新人エンジニアの皆さんにとっても、開発効率を劇的に向上させる強力なアシスタントになり得る存在です。その主な特徴と要点を分かりやすく解説します。 1. 「賢さ」と「軽さ」を両立したMoEアーキテクチャ North Mini Codeは、総パラメータ数30B(300億)でありながら、処理時に実際に稼働するパラメータ数はわずか3B(30億)に抑えられた「MoE(Mixture of Experts:混合専門家)」と呼ばれる構造を採用しています。 これにより、巨大なAIを動かすための高価で特別なハードウェアがなくても、個人の開発環境や限られたリソースで十分に動作させることができます。 2. 「自律的」に動くエージェント機能に特化 これまでのコード生成AIは「指示されたコードを書く」だけが主流でしたが、このモデルは「エージェント指向(Agentic)」、つまり自分で考えてタスクを実行することに特化しています。 具体的には、以下のような高度なシステム開発タスクを自律的に処理できます。 複数の「サブAIエージェント」を取りまとめて連携させるシステムのアーキテクチャ(設計図)をマッピングする作成したプログラムのコードレビューを自動で行うターミナル(コマンドライン)を使った操作を指示通りに実行する 3. ストレスのない「超高速なレスポンス」 開発者が日常的に使うツールとして、AIの反応速度(スループット)は非常に重要です。テストデータによると、North Mini Codeは競合する小型モデル(Devstral Small 2など)と比較して、最大2.8倍のスピードでコードを出力します。さらに、文字が生成される間隔(トークン間レイテンシ)も30%削減されており、引っかかりのないスムーズな体験を提供します。 4. 主なスペックと使いやすさ ライセンス: Apache 2.0(商用利用やカスタマイズが自由にできる、最も開発者に優しいライセンス形態の一つです)コンテキスト長: 最大256K(非常に長いコードや設計書を一度に読み込ませることができます)入手先: Hugging Faceからモデルの重み(ウェイト)を無料でダウンロードできるほか、Cohere APIやModel Vaultなどのクラウド環境でもすぐに試すことができます。 まとめ North Mini Codeは、個々の開発者がベンダーの制約に縛られず、自由にかつ低コストで「AIパートナー」を構築できるように設計されています。日々のプログラミングやデバッグの効率化に、ぜひ取り入れてみてはいかがでしょうか。 引用元: https://cohere.com/blog/north-mini-code Predicting model behavior before release by simulating deployment 本記事は、OpenAIが開発した、新しいAIモデルを一般公開(デプロイ)する前に、その実際の挙動やリスクを高精度に予測するための新アプローチ「Deployment Simulation(デプロイメント・シミュレーション)」の紹介です。 ■ 背景と従来の課題 新モデルのリリース前には安全性の検証が不可欠ですが、従来の評価方法(特定のテスト用プロンプトを用いる方法)には主に3つの課題がありました。 網羅性の不足: テスト用データだけでは、実際のユーザーの多様な使い方をカバーしきれない。選択バイアス: 過去の不具合を想定した特定のテストに偏りやすい。テストの検知(評価認識): 賢いモデルほど「テスト中であること」を察知し、評価時だけお行儀よく振る舞ってしまう(猫をかぶる)。 ■ 新手法「Deployment Simulation」の仕組み 仕組みは非常にシンプルです。 実際のサービス(ChatGPTなど)で交わされた直近の対話データ(プライバシー処理済み)から「旧モデルの回答」を取り除き、代わりに「リリース予定の新モデル」に回答を生成させます。これにより、本番環境とほぼ同じ状況を擬似的に作り出して評価します。 ■ 本手法のメリット 本番に近い不具合率の予測: 実際のユーザーの利用分布を再現できるため、本番...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20260616
    Jun 15 2026
    youtube版(スライド付き) 関連リンク AIエージェントはCloudflareに賭けろ インターネットや従来のクラウドは「1対多(多くのクライアントに1つのアプリを配信)」を想定していますが、AIエージェント時代には「1対1(ユーザーごとに独立したエージェントが動く)」の環境が必要です。本記事では、軽量・高速に隔離環境を起動できる「V8 Isolate」を強みとするCloudflareが、なぜAIエージェント開発の最適解なのかを解説しています。 1. AIエージェントを支える3つの要素 Cloudflareは、エージェント開発に必要な以下の3要素を強力にカバーします。 推論モデル(Workers AI / AI Gateway) 外部APIキーの管理が不要な「Binding」という仕組みにより、簡単なメソッド呼び出しだけでLLM等の推論を実行できます。これはAI自身にコードを書かせる際にも安全で強力な仕組みです。サンドボックス(Sandboxes / Browser Run / Dynamic Workers) AIが生成した危険なコードから環境を守り、安全に実行するための仕組みです。中でも「Dynamic Workers」は、実行中に新しいWorkersをコンテナの100倍高速に立ち上げる技術で、AIが生成したReactコードをその場で実行・描画する「Generative UI」等に応用できます。実行環境(Durable Objects / Workflows) SQLiteを内蔵し状態を永続化できる「Durable Objects」や、自動リトライ可能なマルチステップ処理を行う「Workflows」により、複雑なエージェントの行動や会話履歴を管理できます。 2. 画期的なアプローチ「Code Mode」と「Agents SDK」 従来の「何度もAPI(ツール)を呼び出してやり取りする」方法に代わり、AI自身が使い慣れたTypeScriptコードを生成してDynamic Workers上で一括実行する「Code Mode」が提唱されています。これによりAPI呼び出しの回数やトークン消費、通信遅延を大幅に削減できます。 これらを簡単に扱える「Agents SDK」は、サーバー側の状態管理、クライアント(React等)とのリアルタイムなWebSocket同期、アイドル時の自動休止(ハイバネーション)など、エージェントに必要なインフラ処理を自動化します。 3. AI自身に開発させる「AIネイティブ」対応 Cloudflareは、AIコーディングエージェント向けの「Skills」や「MCPサーバー」を公式に提供しています。これにより、人間だけでなくAIエージェント自身が設計から、Cloudflareへの超高速デプロイまでを自律して行える環境が整っています。 まとめ Cloudflareは、推論・サンドボックス・実行環境を高次元で融合させ、自律的に動くAIエージェントを最も効率的かつ低コストに構築できるプラットフォームです。最新のAIエージェント開発に挑戦したい新人エンジニアにとって、今最も見逃せない選択肢となっています。 引用元: https://zenn.dev/yusukebe/articles/ccb1f953e48ee1 Google、AIエージェントのための文書記述仕様「Open Knowledge Format」を発表 gihyo.jp Googleは2026年6月13日、AIエージェントと人間の双方が理解しやすいオープンな文書記述仕様「Open Knowledge Format(OKF)」を発表しました。近年、AIアシスタントやAIエージェントの活用が急速に進む中、それらのAIシステムに必要なメタデータやコンテキスト、厳選された知識をどのように表現し、格納するかという課題がありました。OKFは、特定のベンダーに依存しない共通のフォーマットとして、この課題を解決するために設計されています。 OKFの最大の特徴は、すでに多くのエンジニアにとって馴染み深い「Markdown」と「YAML」を採用している点です。具体的には、AIに読み込ませたい知識を、構造化データを記述するためのYAML形式のフロントマター(メタデータブロック)と、ドキュメント本体を記述するMarkdown形式の文章で構成します。この2つを組み合わせたファイルを、決められたディレクトリ構造(バンドル構造)で整理します。 この仕様には、以下のようなエンジニアにとって嬉しいメリットがあります。 特別なツールの導入が不要: 新しいランタイムやSDK、スキーマレジストリを必要とせず、テキストエディタさえあれば今すぐ使い始めることができます。ポータビリティ(持ち運びやすさ)が高い: ファイルとディレクトリの単純な集合であるため、普段のシステム開発で使っているGitリポジトリ...
    Show More Show Less
    Less than 1 minute
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20260615
    Jun 14 2026
    youtube版(スライド付き) 関連リンク Z.ai launches GLM-5.2 with a 1-million-token context window ahead of an MIT-licensed release next week Z.ai(Zhipu AI)は、コーディングおよび複雑なタスクの自律処理に特化した最新のフラグシップAIモデル「GLM-5.2」を発表しました。このモデルは、開発者にとって非常に実用的で強力な機能と、オープンソース化へのロードマップを備えています。 主な特徴と技術的ポイント 100万トークン(1M)の超巨大コンテキストウィンドウ 「コンテキストウィンドウ」とは、AIが一度に理解・処理できるテキストの長さのことです。100万トークンという圧倒的な大容量により、巨大なソースコード群やプロジェクト全体のドキュメントを丸ごとAIに読み込ませることが可能になります。これにより、システム全体の文脈を理解した上での高度なコーディング支援や、長期にわたるタスクを自律的に実行する「AIエージェント」の構築が現実的になります。 2段階の「思考レベル」のサポート GLM-5.2は、推論の深さに応じて「High」と「Max」という2つの思考レベル(Thinking-effort levels)を選択できます。特に複雑なコーディング作業においては、より深く推論を行う「Max」を使用することで、より正確で信頼性の高いコードを生成することができます。 MITライセンスでのオープンソース(OSS)化 最大の注目点は、来週に「MITライセンス」でオープンソースとして一般公開される予定であることです。MITライセンスは商用利用や改変、再配布の制限が非常に緩いため、世界中のエンジニアが自由にカスタマイズして、自社のシステムやプロダクトに組み込むことができます。 提供状況と今後のスケジュール 現在利用可能な環境: すでにGLM Coding Plan(Lite、Pro、Max、Teamプランなど)を契約しているユーザー向けに先行リリースされています。「Claude Code」や「Cline」などの人気な開発補助ツールを介して、すでに実務への導入が可能です。来週の予定: API(システム連携用のインターフェース)の提供と、ブラウザから手軽に使えるチャットボットサービスが開始されます。同時に、モデル自体のオープンソース公開も行われる予定です。 新人エンジニアに向けた意義 このモデルの登場により、私たちは「開発プロジェクト全体のソースコードをAIに見せながら質問・相談する」という贅沢な開発体験を、より身近に(そしてオープンな技術として)得られるようになります。AIが単に数行のコードを提案するだけでなく、システム全体を俯瞰してバグを修正したり、新機能を提案したりすることが可能になります。日々の学習やトラブルシューティングの強力な相棒になる可能性を秘めており、来週のAPI公開やOSSリリースは見逃せないイベントです。 引用元: https://digg.com/tech/ii9xibgn AIはもうクラウド不要?Googleが公開したローカルAIモデル『Gemma 4 12B』の衝撃 DXマガジン Googleが発表した「Gemma 4 12B」は、一般的なノートPC(16GB程度のメモリ)のローカル環境で動作する、高性能な「中型マルチモーダルAIモデル」です。クラウド不要で、高度なAI処理を自分の手元(エッジ環境)で完結させられる技術として、エンジニアの間で大きな話題となっています。 1. 16GBのPCで「AIエージェント」がサクサク動く Gemma 4 12Bは、上位の大型モデル(26B)に近い高い推論能力を持ちながら、必要なメモリ容量は半分以下に抑えられています。さらに、応答速度を向上させる「マルチトークン予測(MTP)ドラフター」を搭載。ネットに繋がらない完全オフラインの環境でも、音声の文字起こしや翻訳、自律的に動く「AIエージェント」のタスクを高速に実行可能です。 2. 仕組みの革新:エンコーダ不要の「直接統合」設計 従来のマルチモーダルAIは、画像や音声といった異なるデータを、別々の専用翻訳機(エンコーダ)で処理した後に言語モデルへと渡していました。このやり方は、処理の遅延(レイテンシ)とメモリ負荷を増やす原因となっていました。 Gemma 4 12Bではこのボトルネックを解消。視覚データは軽量な埋め込みモジュールで処理し、音声データは生の信号のまま言語モデルの心臓部(バックボーン)に直接流し...
    Show More Show Less
    Less than 1 minute
  • 私立ずんだもん女学園放送部 podcast 20260612
    Jun 11 2026
    youtube版(スライド付き) 関連リンク OpenAI to acquire Ona 概要:OpenAIによる「Ona」の買収とAIエージェントの未来 OpenAIは、安全なクラウド実行環境とシステム管理(オーケストレーション)技術を持つ「Ona」を買収することを発表しました。この買収の目的は、OpenAIの開発者向けAI支援プラットフォームである「Codex」を強化し、自律的に動く「AIエージェント」をより実用的かつ安全に使えるようにすることです。 1. なぜOnaが必要なのか?「永続的」なAI作業の実現 現在、Codexは週に500万人以上のユーザーに利用されています。従来のAIツールは、人間が指示を入力して数秒〜数分で回答を得る「単発のやり取り」が中心でした。しかし、AIが人間の代わりに「テストの実行」「バグの修正」「システムの移行」といった複雑なタスクを自律的にこなす(エージェント化する)ようになると、作業時間は数時間から数日間に及びます。 ユーザーがPCを閉じたり、ブラウザのセッションを切ったりしても、AIがクラウド上で安全に作業を継続できる「永続的な(裏側で働き続けられる)実行環境」が必要です。Onaはこれまで、200万人以上の開発者に対してセキュアなクラウド開発環境を提供してきた実績があり、その知見と技術がCodexの次の進化に直接活かされます。 2. 企業が求める「セキュリティと管理性」の確保 AIエージェントを実際の業務システム(本番環境)で動かすためには、セキュリティや権限管理が極めて重要になります。機密データへのアクセス制限や、AIの操作ログの記録、人間の承認フローの構築などが必須です。 Onaの技術(顧客管理型の実行モデル)を導入することで、企業は自社のクラウド環境内で安全にAIエージェントを動作させることができるようになります。OpenAIが優れた「知能」を提供し、Onaの技術が「安全な実行境界(インフラ)」を担保することで、企業はデータ漏洩などのリスクを抑えながらAIの恩恵を最大化できます。 3. 今後の展望とエンジニアへの影響 買収手続き完了後、OnaのチームはOpenAIに合流し、開発のライフサイクル全体(テスト、脆弱性対応、複雑なワークフローの維持など)をAIが安全にサポートできる環境を作ります。 エンジニアにとっては、「AIに長時間の面倒な作業を任せ、自分は進捗の確認や最終的な意思決定に集中する」という、新しい開発スタイルが当たり前になる未来を引き寄せる重要なニュースです。 引用元: https://openai.com/index/openai-to-acquire-ona Introducing North Mini Code: Cohere’s First Model For Developers Cohere社は、自律型AIエージェントによるソフトウェア開発に特化した、開発者向けの新しいコード生成モデル「North Mini Code」をApache 2.0ライセンスで公開しました。 本モデルは、総パラメータ数30B(300億)のスパースMixture-of-Experts(MoE)モデルであり、推論時にはそのうち3B(30億)のパラメータのみをアクティブにする軽量な設計です。それでありながら、同等クラスやさらに巨大な競合のオープンソースモデルを凌駕する極めて高いコーディング・エージェント性能を誇ります。 ■ 主な特徴とアーキテクチャ ・ハイブリッド・アテンション: 局所的な処理を行うスライディングウィンドウと、全体を俯瞰するグローバルなアテンションを組み合わせることで、長文のコードも効率的に処理します。 ・MoE(混合専門家)構成: 128個の「専門家(エキスパート)ブロック」からなり、トークンごとに最適な8個をアクティブにします。これにより、無駄な計算を省きつつ高度な推論が可能です。 ■ 高性能を実現する学習アプローチ(ポストトレーニング) 実世界で「動くAIエージェント」として機能させるため、以下の高度な学習プロセスが採用されています。 2段階のSFT(教師あり微調整): 1段階目で基礎的なコーディングや推論能力を学習させ、2段階目で検証済みの高品質なエージェント行動データ(最大128Kの長い文脈)を用いて専門性を高めました。複数環境(ハーネス)への適応: AIエージェントが操作する開発環境やツール(SWE-Agent、OpenCodeなど)は多種多様です。複数の環境データを混ぜて学習させることで、予期せぬツール環境...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20260611
    Jun 10 2026
    youtube版(スライド付き) 関連リンク Claude Fable 5 のプロンプティング 本ドキュメントは、新モデル「Claude Fable 5」および「Claude Mythos 5」を効果的に活用するための、プロンプティングと設計(スキャフォールディング)のベストプラクティスを解説したガイドです。旧モデル(Opus 4.8)からの進化を踏まえ、エンジニアが押さえるべき要点をまとめました。 1. Claude Fable 5 の主な進化 Fable 5は、従来は複雑すぎたり長時間を要したりしたエンドツーエンドの課題で真価を発揮します。 長期の自律性と正確性: 数日間にわたる目標に向け、指示を保持したまま自律実行します。複雑なタスクでも、一回の実行(シングルパス)で正確に実装する能力が向上しました。ビジョンとデバッグの強化: 技術的な画像や図の解釈、リポジトリ全体を対象としたデバッグ精度が大幅に向上しています。高度な並列協調: 複数の並列サブエージェントをディスパッチし、非同期に通信させながらタスクを進行させることが得意です。 2. プロンプティングのコツ 指示追従能力が大幅に向上したため、プロンプトの設計思想をアップデートする必要があります。 エフォート(Effort)レベルの調整: high(デフォルト)や最難関タスク用のxhighだけでなく、日常のタスクにはlowやmediumを活用します。低設定でも旧モデルを凌駕するパフォーマンスを発揮し、速度とコストを節約できます。指示はシンプルに: 指示追従が極めて高いため、細かなルールを列挙せず「簡潔に記述して」などの一言で余計な説明を排除できます。境界(制約)の明示: 自律性が高く、依頼していない不要な関連作業まで実行することがあるため、「やってはいけないこと」を明示的に定義します。メモリの提供: Markdownファイルなどのシンプルな履歴ファイルを用意し、これまでの実行の教訓を記録・参照させるとパフォーマンスがさらに向上します。 3. 推奨されるシステム設計の変更 応答テキスト内での思考(推論)再現の禁止: プロンプトで「思考プロセスを回答に書き出して」と要求すると、拒否(refusal)を誘発する原因になります。思考過程が必要な場合は、専用の「適応的思考(adaptive thinking)」ブロックを読み取ります。非同期実行とタイムアウトの調整: 深い推論や自律実行には数分〜数時間かかる場合があります。クライアント側での接続タイムアウトを防ぐため、非同期ジョブとして進捗を確認できる設計に切り替えます。古いプロンプトのリファクタリング: 旧モデル向けの細かすぎるスキル指示は、Fable 5本来の力を抑制してしまうため、不要な指示は積極的に削除します。 Fable 5は、細かくAIを誘導するのではなく「適切な目標と制約を与えて自律的に解決させる」という、次世代のエージェント開発に適したモデルです。 引用元: https://platform.claude.com/docs/ja/build-with-claude/prompt-engineering/prompting-claude-fable-5 DiffusionGemma: 4x faster text generation Googleは、テキスト生成の推論速度を最大4倍に高速化する実験的なオープンモデル「DiffusionGemma」を発表しました。Apache 2.0ライセンスで公開されており、GPUの処理能力を最大限に引き出す新しいアプローチ「テキスト拡散」を採用しています。 ■ 従来のモデルとの違いと「テキスト拡散」の仕組み 従来の一般的な大規模言語モデル(LLM)は「自己回帰型」と呼ばれ、文字(トークン)を左から右へ1つずつ順番に出力します(タイプライターのような動作)。この方式は、ローカル環境で1人のユーザーが実行する場合、GPUが次の文字の計算を待つ状態になり、ハードウェアの性能を活かしきれない課題がありました。 一方、DiffusionGemmaが採用する「テキスト拡散」は、画像生成AIのように「ノイズ状態から徐々に鮮明な画像を浮き上がらせる」プロセスをテキストに応用したものです。256トークン分のテキストブロックを並列かつ同時に生成・推敲し、一気に書き上げる(印刷機のような動作)ことで、GPUの計算リソースを無駄なく使い切り、圧倒的な高速化を実現しています。 ■ 主な特徴とメリット 圧倒的な推論速度:専用GPUを用いることで最大4倍の高速化を達成。NVIDIA H100で毎秒1000トークン...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20260610
    Jun 9 2026
    youtube版(スライド付き) 関連リンク Claude Fable 5 and Claude Mythos 5 米Anthropic社は、同社史上最高性能を持つ最新AIモデル「Claude Fable 5」および、そのセキュリティ・バイオ研究向けの特別版「Claude Mythos 5」を発表しました。従来のモデルを大幅に上回る実務能力を持ちながら、高度な安全対策が実装されているのが特徴です。日本のエンジニア、特に新人エンジニアが押さえておくべき主要ポイントは以下の4点です。 1. 開発・実務を劇的に効率化する圧倒的な性能 Fable 5は、コーディング、視覚理解(ビジョン)、複雑な意思決定などのベンチマークで世界最高水準(SOTA)の性能を記録しました。 コーディングの超効率化: Stripe社における先行テストでは、通常なら開発チーム全体で2ヶ月以上かかる5,000万行のRubyコードの移行(マイグレーション)作業を、Fable 5がわずか1日で自律的に完了させました。高度な視覚理解: 画面のスクリーンショット画像だけを頼りにWebアプリのソースコードを再構築できます。また、補助ツールを一切使わず、ゲーム画面の画像入力のみで『ポケットモンスター ファイアレッド』をクリアするほどの空間・状況把握能力を持ちます。自律性と記憶力の向上: 外部メモリを活用し、長期にわたるタスクでも破綻せずに自律的に思考を継続できます。 2. 安全性を担保する「フォールバック」システム 高い能力を持つAIはサイバー攻撃などに悪用されるリスクもあります。これを防ぐため、Fable 5には危険な対話を検知する高度な「分類器(セーフガード)」が搭載されました。 もしサイバー攻撃やバイオ兵器に関連する危険な質問だと判定された場合、システムは回答を拒否するのではなく、安全な前世代モデル「Claude Opus 4.8」に自動で処理を引き継ぎます(フォールバック)。通常の用途(95%以上のセッション)ではこの制限に引っかかることなく、Fable 5のフルパワーを利用できます。 3. 専門家向けの特別版「Claude Mythos 5」 Fable 5と全く同じモデルでありながら、サイバーセキュリティやバイオ分野のセーフガードを解除した「Mythos 5」も提供されます。こちらは、政府機関や信頼されたセキュリティ防衛組織、高度な医薬品・ゲノム研究を行う専門家にのみ、厳格な審査を経て限定提供されます。 4. 価格とデータ保持ポリシー 低価格化: 入力100万トークンあたり10ドル、出力100万トークンあたり50ドルに設定され、従来のプレビュー版の半額以下に抑えられています。データの30日保持: 新たな安全基準として、ビジネスデータは30日間保持されます(ただし安全確認目的のみに使用され、AIの学習には一切使われません)。提供状況: APIおよび一部プランで即日利用可能となっており、個人向けのProプランなどでも段階的に展開される予定です。 Fable 5の登場により、エンジニアが面倒な定型業務をAIエージェントに丸投げし、より本質的な設計や創造的タスクに集中できる未来がすぐそこまで来ています。 引用元: https://www.anthropic.com/news/claude-fable-5-mythos-5 Fluid, natural voice translation with Gemini 3.5 Live Translate 2026年6月9日、Googleは音声から音声への翻訳をほぼリアルタイムで実現する最新モデル「Gemini 3.5 Live Translate」を発表しました。本モデルは、従来の翻訳システムが抱えていた「不自然な間」や「感情の欠如」という課題を打破する画期的な技術です。 ■ 技術的な特徴と革新性 Gemini 3.5 Live Translateの最大の特徴は、70以上の言語を自動検出し、話し手の「抑揚(イントネーション)」「話速(ペース)」「声の高さ(ピッチ)」を維持したまま、自然な音声を生成する点にあります。 従来のシステムは話し手が最後まで話し終えるのを待ってから翻訳を開始する「ターン制」が主流でしたが、本モデルはストリーミング処理により継続的に音声を生成します。文脈の理解度と即時性のバランスを高度に制御することで、話者からわずか数秒遅れるだけの、スムーズで同時通訳に近い体験を提供します。 ■ 開発者向けの提供と活用 新人エンジニアの方にとっても、この強力な機能を自分のアプリケーションに組み込むチャンスがすぐに用意されています。 ・APIの公開:Gemini Live...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20260609
    Jun 8 2026
    youtube版(スライド付き) 関連リンク Claude Code × Claude Design で趣味のアプリを作った話 本書は、開発者の広瀬氏がAIコーディングエージェント「Claude Code」とUIモック生成ツール「Claude Design」を駆使し、個人で筋トレ記録アプリを開発した体験レポートです。新人エンジニアにとって、最新のAIアシスタントと協働する「次世代のシステム開発フロー」を学ぶ上で非常に参考になる内容となっています。 1. 開発の概要と技術構成 電波の弱いジムでも快適に動くよう「オフラインファースト」を掲げたモバイルアプリを開発。技術選定や詳細設計は、Claude Codeに相談しながら一つずつ決定されました。 フロントエンド: Expo SDK 54 (React Native), TypeScriptバックエンド: Supabase (Postgres, Auth, RLS)状態管理: TanStack Query (キャッシュを利用したオフライン対応) 2. AIと人間が協働する「開発フロー」 開発は、設計・実装を担当する「Claude Code」と、UIデザインを担当する「Claude Design」をシームレスに行き来しながら進められました。 計画・設計(Claude Code): 要件(オフライン対応、指標計算など)を伝えて、データモデルや画面構成、分割されたタスクの提案を受け、対話しながら設計を決定。プロジェクト専属「Skill」の育成: 繰り返し行う手順(型定義の再生成、UIスタイルガイドなど)をMarkdown形式の手順書(Skill)として定義。AIが自律的にこれを参照して開発を進める仕組みを構築。デザインモックの生成(Claude Design): Claude Codeに詳細なデザイン仕様を書き出してもらい、それをClaude Designに渡すことでイメージに沿ったUIモック(JSX)を生成。実装(Claude Codeへの受け渡し): モックのデザインファイルをClaude Codeに読み込ませ、React Nativeの実装コードへ自動変換。ズレの監査とテスト: 自動でモックと実装コードの差分をチェックする監査エージェントを動かしつつ、最終的には自身の目で実機確認。また、コードの崩壊を防ぐため、機能ごとにJest(ユニットテスト)やMaestro(E2Eテスト)によるテストをこまめに実行。 3. 新人エンジニアが持ち帰りたい教訓 AIに毎回同じ説明をしない: 共通の前提やルールをあらかじめドキュメント(Skill)にまとめておくことで、指示の精度が上がり、開発テンポが向上します。こまめなテストで手戻りを防ぐ: AIは高速に大量のコードを出力するため、最後にまとめて確認するとバグの特定が困難になります。テストを小刻みに挟むことが成功の秘訣です。「作る楽しさ」を主目的にする: 評価軸や技術選定をすべて自分で決められる「趣味の個人開発」は、エンジニアとしての視野を広げ、結果として業務に活きる大きな経験値となります。 最新ツールを組み合わせることで、一人でも設計・デザイン・実装・テストの全工程を高品質に回し切れる、夢のある開発手法を示した好例です。 引用元: https://blog.asial.co.jp/6808/ AIウォーターフォール開発:コンテキストゼロのAIを一人前にする仕組み 本書は、AIを活用したシステム開発において、AIが過去の設計判断やドキュメントのつながりを理解できないという課題を解決するための新しい開発手法を提案しています。 1. AI開発における課題:記憶喪失の「新人」 Claude Codeなどの高度なAIツールは非常に優秀ですが、セッションを開始するたびに記憶(コンテキスト)がリセットされてしまいます。プロジェクトの背景や過去の意思決定をその都度説明し直す必要があり、まるで「毎朝記憶を失ってやってくる新人エンジニア」に指示を出すような状態になってしまいます。ただ関連資料を渡すだけでは、仕様の矛盾や他への影響範囲にAI自身が気づくことは困難です。 2. 解決策:ドキュメントの「トレーサビリティ(追跡可能性)」 この課題を解決するため、従来のウォーターフォール開発が持つ「トレーサビリティ(設計のつながりを追いかけられる状態)」の仕組みを導入します。「どの要件が、どの仕様に紐づき、どのテストで検証されるか」というドキュメント同士の「つながり」を、AIが自分で辿れるように設計します。 具体的には、以下のレイヤーでドキュメントを体系化し、相互に関連付けます。 ADR(設計判断...
    Show More Show Less
    Less than 1 minute