Vendor Agnostik

Aşağıda, güncel ekosistemi tarayıp üç ana yaklaşımı, artı “tek paket”e giden pratik bir mimariyi ve ilk kurulumu adım adım özetledim.


1) Yaklaşımlar (kısa özet)

A. OpenAI “Ses + Bilgisayar Kullanımı” (Realtime + Computer Use)

  • Ses: OpenAI Realtime API ile düşük gecikmeli, kes-int etkileşimli sesli sohbet. (OpenAI Platform)
  • Eylem: “Computer Use” (CUA) özelliği, GUI’yi görüp tıklayabilen/klavye yazabilen bilgisayar‑kullanan ajan. Responses API ile kullanılıyor (önizleme). (OpenAI Platform)
  • Not: OpenAI’nin “computer‑using agent” çalışmaları ve Operator/Agent haberleri bu alanda hızla ilerliyor. (Güncel başarı/ölçek ve ürünleşme işaretleri). (OpenAI)

B. Google Gemini “Live API” (ses + görüntü/screen share + tool use)

  • Ses/Görüntü: Live API ile çift yönlü, düşük gecikmeli ses; kamera/screen‑share ile ekranı “görme”. (Son dönemde native audio ve daha sağlam function calling eklendi—önizleme). (Google Cloud)
  • Eylem: Function calling / code‑execution ile kendi araçlarını çağırıp yerel otomasyon katmanına emir verebiliyor (tool use). (fallendeity.github.io)
  • Mobil/masaüstü: Live ekran paylaşımı/parçaları nihayet yaygınlaştı; ekranı görüp yönlendirme yapabiliyor. (The Verge)

C. Anthropic Claude Code (CLI) + MCP (Model Context Protocol)

  • Kod/Terminal: Claude Code, terminal içi “ajanik” geliştirme yardımcısı ve CLI. (GitHub)
  • Tek Paketleştirme: MCP ile dosya sistemi, tarayıcı, veritabanı vb. standart “tool”lar üzerinden yerel kaynaklara güvenli erişim (Claude Desktop, VS Code/Cline vb.). (The Verge)
  • Ses: Dahili ses yerine ön tarafa Realtime/Gemini/Talon gibi bir ses katmanı eklenir (aşağıda).

2) “Tek Paket” için önerdiğim mimari (vendor‑agnostik)

Mikrofon
  → Wake word & VAD (openWakeWord / Porcupine + Silero VAD)
  → Realtime Ses Ajanı (OpenAI Realtime veya Gemini Live)
  → Orkestratör (LangGraph veya CrewAI; tool-calling)
     → Araçlar (Tool'lar):
         - Dosya sistemi / kabuk (PowerShell, bash, AppleScript/Shortcuts)
         - GUI otomasyon (Robocorp RPA.Desktop / PyAutoGUI / SikuliX)
         - Web otomasyon (Playwright)
         - (Opsiyonel) MCP sunucuları (FS, GitHub, HTTP, Browser)
  → Eylem Ön‑Onayı (küçük onay penceresi / overlay)
  → TTS (Realtime TTS veya yerel Piper/Coqui)
  • Wake word & VAD: openWakeWord veya Picovoice Porcupine ile uyanma kelimesi; Silero/py‑webrtcvad ile konuşma algılama. (GitHub)
  • Ses ajanı:
    • OpenAI Realtime (WebSocket/RTC) veya
    • Gemini Live API (WebSocket; session, function calling, ekran/kamera). (OpenAI Platform)
  • Orkestrasyon: LangGraph (çok‑ajanlı, durumlu akış) veya CrewAI. (LangChain Blog)
  • GUI otomasyon:
    • Windows: Robocorp RPA.Desktop (UIA tabanlı), PowerShell UIAutomation. (Sema4.ai)
    • macOS: AppleScript/Shortcuts + PyAutoGUI + (gerekirse) SikuliX. (Apple Developer)
  • Standart tool entegrasyonu: MCP ile dosya sistemi, shell, tarayıcı gibi yetenekleri eşik izinli verip Claude/ChatGPT/VS Code Cline gibi istemcilerle ortaklaşa kullanabilirsiniz. (Model Context Protocol)

Neden böyle? Ses (STT/TTS) katmanını “değiştirilebilir” tutup, orkestratörü ve araçları yerelde standardize edince; bugün Realtime, yarın Live API veya Claude ile aynı çekirdeği kullanırsınız.


3) Hızlı karşılaştırma (2025’e göre)

BileşenOpenAI Realtime + Computer UseGoogle Gemini Live APIClaude Code + MCP
SesRealtime, çok düşük gecikmeLive API, native audio (önizleme)Harici ses katmanı gerekir
Ekran/kamera(OpenAI CUA, bilgisayarı “kullanma” odağı)Ekran/kamera paylaşım ve canlı rehberlikIDE/masaüstü araçlarına MCP ile erişim
EylemResponses API’de Computer Use (preview)Function calling + code executionMCP ile dosya, shell, repository, HTTP vb.
DurumAktif geliştirme, bazı kısımlar önizlemeLive API preview; hızlı gelişiyorGenişleme ve ekosistem standardı (MCP)
NotOperator/Agent ürünleşme haberleri2.5/2.0 Flash ile canlı ajanlık“Kod + yerel tool” iş akışlarında çok güçlü

(OpenAI Platform)


4) Önerdiğim iki pratik kurgu

(1) Gemini Live merkezli (en iyi gerçek‑zamanlı ses + ekran)

  • Ses/RT: Gemini Live API (websocket, VAD, kes‑int; screen/cam paylaşımı). (Google Cloud)
  • Orkestratör: LangGraph → tool‑calling. (LangChain Blog)
  • Yerel araçlar:
    • Windows: Robocorp RPA.Desktop + PowerShell. (Sema4.ai)
    • macOS: AppleScript/Shortcuts + PyAutoGUI. (Apple Developer)
  • Avantaj: Çok doğal ses, kesintiye izin, ekranı görüp yönlendirme; tool‑calling ile yerel eylemler. (Google Cloud)

(2) OpenAI Realtime + Computer Use (tek uçta ses+eylem)

  • Ses/RT: OpenAI Realtime. (OpenAI Platform)
  • Eylem: Responses API’de Computer Use (GUI kullanabilen ajan). (OpenAI Platform)
  • Orkestratör: LangGraph CUA örnekleri. (GitHub)
  • Avantaj: Tek sağlayıcıyla ses ve bilgisayar kullanımı; API’de planlama/eylem birleşiyor.

Alternatif: Kod odaklı işlerde Claude Code CLI + MCP (ör. VS Code Cline) ile terminal/editör ve yerel dosya/shell yetkilerini standartlaştırıp, ön tarafa Realtime/Gemini ses katmanı eklemek. (GitHub)


5) Kurulum reçetesi (özet adımlar)

  1. Ses katmanı
    • Wake‑word & VAD: openWakeWord veya Porcupine + Silero VAD. (GitHub)
    • Realtime motor: OpenAI Realtime veya Gemini Live (WebSocket). (OpenAI GitHub)
  2. Orkestratör
    • LangGraph (multi‑agent, stateful) veya CrewAI. (LangChain Blog)
    • Tool‑calling şemaları: open_app, click, type, read_screen, run_shell gibi fonksiyon isimleri ve JSON şemaları.
  3. Yerel eylem yürütücü
    • Windows: rpaframework + PowerShell UIA (Not: UI Automation/UA izinleri). (GitHub)
    • macOS: AppleScript/Shortcuts + PyAutoGUI (Erişilebilirlik/Automation izinleri). (Apple Developer)
    • Görsel otomasyon (arka plan planı): SikuliX (görüntü tanıma ile tıklama). (GitHub)
  4. Onay/denetim
    • Eylem öncesi küçük overlay: “Plan: X’i aç, Y’ye tıkla… Onayla / Reddet / Kuru Çalıştır”.
    • Log & kayıt: Tüm tool çağrılarını, ekran görüntüsü özetlerini ve onay kararlarını kaydet.
  5. Opsiyonel standardizasyon
    • MCP sunucuları ile araçları standardize et (Filesystem, Browser, GitHub, HTTP). (Claude Desktop, VS Code/Cline, VS Code Copilot Agent Mode destekliyor). (Visual Studio Code)

6) Güvenlik / izinler (kritik)

  • macOS: “Erişilebilirlik”, “Input Monitoring”, “Automation/Apple Events” izinleri gerekir; AppleScript/GUI scripting bu izinler olmadan engellenir. (Apple Developer)
  • Windows: UI Automation ve UAC davranışları; UIAccess/elevation politikaları. Kurumsal ortamda GPO ile yönetilir. (Microsoft Learn)
  • Kılavuz: En az ayrıcalık, eylem beyaz listesi, yüksek riskli işlemlerde zorunlu onay, ağ giden trafiği kısıtları.

7) Kullanabileceğin hazır parçalar (PoC hızlandırıcıları)

  • OpenAI: Realtime quickstart örnekleri. (OpenAI GitHub)
  • OpenAI Computer Use: Responses API rehberi/önizleme. (OpenAI Platform)
  • Gemini: Live API başlangıç + kapabilite kılavuzu + Vertex/Android dokümanları. (Google AI for Developers)
  • Robocorp (RPA.Desktop): Windows masaüstü otomasyonu. (Sema4.ai)
  • PyAutoGUI: Çoklu platform klavye/fare. (autogui.readthedocs.io)
  • SikuliX: Görsel tıklama/klavye (OS‑agnostik). (GitHub)
  • Claude Code CLI: terminal ajanı. (GitHub)
  • LangGraph CUA örnekleri: CUA sistemleri kurmak için starter. (GitHub)

8) Minimal PoC iskeleti (öneri)

  • Dil: Python (Node da olur).
  • Servisler:
    1. voice-gateway (wake‑word + Realtime/Live bağlantısı),
    2. agent-orchestrator (LangGraph),
    3. tool-executor (Windows: rpaframework/PowerShell; macOS: AppleScript+PyAutoGUI),
    4. approval-ui (Tauri/Electron küçük pencere).

Tool şeması örneği (öz)

[
  {"name":"open_app","schema":{"type":"object","properties":{"name":{"type":"string"}},"required":["name"]}},
  {"name":"click","schema":{"type":"object","properties":{"x":{"type":"integer"},"y":{"type":"integer"}},"required":["x","y"]}},
  {"name":"type_text","schema":{"type":"object","properties":{"text":{"type":"string"}},"required":["text"]}},
  {"name":"run_shell","schema":{"type":"object","properties":{"cmd":{"type":"string"}},"required":["cmd"]}}
]

Bu fonksiyonlar tool‑calling ile çağrılır; tool-executor katmanı OS’e göre uygun sürücüyü (PowerShell/AppleScript/PyAutoGUI/Robocorp) çalıştırır.


9) Hangi kombinasyonu öneriyorum?

  • Gerçek zamanlı ses + ekran rehberliği senaryolarında: Gemini Live API + LangGraph + Robocorp/PyAutoGUI (Windows/macOS’a göre) → “Tek paket”i Tauri ile masaüstüne sar. (Google Cloud)
  • Tek sağlayıcı & API’den bilgisayar kullanımı için: OpenAI Realtime + Computer Use (Responses API) → aynı tool katmanını koru; önizleme olgunluğunu test ederek ilerle. (OpenAI Platform)
  • Kod/terminal ağırlıklı projelerde: Claude Code (CLI) + MCP; öne ses katmanı (Gemini Live/OpenAI Realtime) ekle. (GitHub)

10) Ek: Tamamen eller serbest kullanım için kanıtlanmış giriş araçları

  • Talon Voice (komple eller serbest kontrol, göz takip desteği; sesle imleç/klavye). VS Code için Cursorless ile çok hızlı metin/kod düzenleme. Bunları “ajan” ile birlikte kullanınca, ajan sapınca sen sesle devralırsın. (Talon Voice)

Sonuç / Yol Haritası (öneri)

  1. Hangi ses motorunu seçeceğine karar ver (Gemini Live veya OpenAI Realtime).
  2. LangGraph ile tool‑calling iskeletini çıkar. (LangChain Blog)
  3. Windows ise Robocorp RPA.Desktop + PowerShell; macOS ise AppleScript/Shortcuts + PyAutoGUI bağla. İlgili izinleri ver. (Sema4.ai)
  4. Onay penceresini ekle (yüksek riskte zorunlu onay).
  5. İstersen MCP ile araçları standardize et (geleceğe dönük). (Model Context Protocol)

İstersen işletim sistemine göre PoC için tam bir repo iskeleti (modüller, requirements.txt, basit tool‑executor ve onay UI’si) çıkarabilir. Tek seferde kurup çalıştırabileceğin şekilde paket hazirlanabilir.