Aşağıda, güncel ekosistemi tarayıp üç ana yaklaşımı, artı “tek paket”e giden pratik bir mimariyi ve ilk kurulumu adım adım özetledim.
1) Yaklaşımlar (kısa özet)
A. OpenAI “Ses + Bilgisayar Kullanımı” (Realtime + Computer Use)
- Ses: OpenAI Realtime API ile düşük gecikmeli, kes-int etkileşimli sesli sohbet. (OpenAI Platform)
- Eylem: “Computer Use” (CUA) özelliği, GUI’yi görüp tıklayabilen/klavye yazabilen bilgisayar‑kullanan ajan. Responses API ile kullanılıyor (önizleme). (OpenAI Platform)
- Not: OpenAI’nin “computer‑using agent” çalışmaları ve Operator/Agent haberleri bu alanda hızla ilerliyor. (Güncel başarı/ölçek ve ürünleşme işaretleri). (OpenAI)
B. Google Gemini “Live API” (ses + görüntü/screen share + tool use)
- Ses/Görüntü: Live API ile çift yönlü, düşük gecikmeli ses; kamera/screen‑share ile ekranı “görme”. (Son dönemde native audio ve daha sağlam function calling eklendi—önizleme). (Google Cloud)
- Eylem: Function calling / code‑execution ile kendi araçlarını çağırıp yerel otomasyon katmanına emir verebiliyor (tool use). (fallendeity.github.io)
- Mobil/masaüstü: Live ekran paylaşımı/parçaları nihayet yaygınlaştı; ekranı görüp yönlendirme yapabiliyor. (The Verge)
C. Anthropic Claude Code (CLI) + MCP (Model Context Protocol)
- Kod/Terminal: Claude Code, terminal içi “ajanik” geliştirme yardımcısı ve CLI. (GitHub)
- Tek Paketleştirme: MCP ile dosya sistemi, tarayıcı, veritabanı vb. standart “tool”lar üzerinden yerel kaynaklara güvenli erişim (Claude Desktop, VS Code/Cline vb.). (The Verge)
- Ses: Dahili ses yerine ön tarafa Realtime/Gemini/Talon gibi bir ses katmanı eklenir (aşağıda).
2) “Tek Paket” için önerdiğim mimari (vendor‑agnostik)
Mikrofon
→ Wake word & VAD (openWakeWord / Porcupine + Silero VAD)
→ Realtime Ses Ajanı (OpenAI Realtime veya Gemini Live)
→ Orkestratör (LangGraph veya CrewAI; tool-calling)
→ Araçlar (Tool'lar):
- Dosya sistemi / kabuk (PowerShell, bash, AppleScript/Shortcuts)
- GUI otomasyon (Robocorp RPA.Desktop / PyAutoGUI / SikuliX)
- Web otomasyon (Playwright)
- (Opsiyonel) MCP sunucuları (FS, GitHub, HTTP, Browser)
→ Eylem Ön‑Onayı (küçük onay penceresi / overlay)
→ TTS (Realtime TTS veya yerel Piper/Coqui)
- Wake word & VAD:
openWakeWord
veya Picovoice Porcupine ile uyanma kelimesi; Silero/py‑webrtcvad ile konuşma algılama. (GitHub) - Ses ajanı:
- OpenAI Realtime (WebSocket/RTC) veya
- Gemini Live API (WebSocket; session, function calling, ekran/kamera). (OpenAI Platform)
- Orkestrasyon: LangGraph (çok‑ajanlı, durumlu akış) veya CrewAI. (LangChain Blog)
- GUI otomasyon:
- Windows: Robocorp RPA.Desktop (UIA tabanlı), PowerShell UIAutomation. (Sema4.ai)
- macOS: AppleScript/Shortcuts + PyAutoGUI + (gerekirse) SikuliX. (Apple Developer)
- Standart tool entegrasyonu: MCP ile dosya sistemi, shell, tarayıcı gibi yetenekleri eşik izinli verip Claude/ChatGPT/VS Code Cline gibi istemcilerle ortaklaşa kullanabilirsiniz. (Model Context Protocol)
Neden böyle? Ses (STT/TTS) katmanını “değiştirilebilir” tutup, orkestratörü ve araçları yerelde standardize edince; bugün Realtime, yarın Live API veya Claude ile aynı çekirdeği kullanırsınız.
3) Hızlı karşılaştırma (2025’e göre)
Bileşen | OpenAI Realtime + Computer Use | Google Gemini Live API | Claude Code + MCP |
---|---|---|---|
Ses | Realtime, çok düşük gecikme | Live API, native audio (önizleme) | Harici ses katmanı gerekir |
Ekran/kamera | (OpenAI CUA, bilgisayarı “kullanma” odağı) | Ekran/kamera paylaşım ve canlı rehberlik | IDE/masaüstü araçlarına MCP ile erişim |
Eylem | Responses API’de Computer Use (preview) | Function calling + code execution | MCP ile dosya, shell, repository, HTTP vb. |
Durum | Aktif geliştirme, bazı kısımlar önizleme | Live API preview; hızlı gelişiyor | Genişleme ve ekosistem standardı (MCP) |
Not | Operator/Agent ürünleşme haberleri | 2.5/2.0 Flash ile canlı ajanlık | “Kod + yerel tool” iş akışlarında çok güçlü |
4) Önerdiğim iki pratik kurgu
(1) Gemini Live merkezli (en iyi gerçek‑zamanlı ses + ekran)
- Ses/RT: Gemini Live API (websocket, VAD, kes‑int; screen/cam paylaşımı). (Google Cloud)
- Orkestratör: LangGraph → tool‑calling. (LangChain Blog)
- Yerel araçlar:
- Windows: Robocorp RPA.Desktop + PowerShell. (Sema4.ai)
- macOS: AppleScript/Shortcuts + PyAutoGUI. (Apple Developer)
- Avantaj: Çok doğal ses, kesintiye izin, ekranı görüp yönlendirme; tool‑calling ile yerel eylemler. (Google Cloud)
(2) OpenAI Realtime + Computer Use (tek uçta ses+eylem)
- Ses/RT: OpenAI Realtime. (OpenAI Platform)
- Eylem: Responses API’de Computer Use (GUI kullanabilen ajan). (OpenAI Platform)
- Orkestratör: LangGraph CUA örnekleri. (GitHub)
- Avantaj: Tek sağlayıcıyla ses ve bilgisayar kullanımı; API’de planlama/eylem birleşiyor.
Alternatif: Kod odaklı işlerde Claude Code CLI + MCP (ör. VS Code Cline) ile terminal/editör ve yerel dosya/shell yetkilerini standartlaştırıp, ön tarafa Realtime/Gemini ses katmanı eklemek. (GitHub)
5) Kurulum reçetesi (özet adımlar)
- Ses katmanı
- Wake‑word & VAD:
openWakeWord
veya Porcupine + Silero VAD. (GitHub) - Realtime motor: OpenAI Realtime veya Gemini Live (WebSocket). (OpenAI GitHub)
- Wake‑word & VAD:
- Orkestratör
- LangGraph (multi‑agent, stateful) veya CrewAI. (LangChain Blog)
- Tool‑calling şemaları:
open_app
,click
,type
,read_screen
,run_shell
gibi fonksiyon isimleri ve JSON şemaları.
- Yerel eylem yürütücü
- Windows:
rpaframework
+ PowerShell UIA (Not: UI Automation/UA izinleri). (GitHub) - macOS: AppleScript/Shortcuts + PyAutoGUI (Erişilebilirlik/Automation izinleri). (Apple Developer)
- Görsel otomasyon (arka plan planı): SikuliX (görüntü tanıma ile tıklama). (GitHub)
- Windows:
- Onay/denetim
- Eylem öncesi küçük overlay: “Plan: X’i aç, Y’ye tıkla… Onayla / Reddet / Kuru Çalıştır”.
- Log & kayıt: Tüm tool çağrılarını, ekran görüntüsü özetlerini ve onay kararlarını kaydet.
- Opsiyonel standardizasyon
- MCP sunucuları ile araçları standardize et (Filesystem, Browser, GitHub, HTTP). (Claude Desktop, VS Code/Cline, VS Code Copilot Agent Mode destekliyor). (Visual Studio Code)
6) Güvenlik / izinler (kritik)
- macOS: “Erişilebilirlik”, “Input Monitoring”, “Automation/Apple Events” izinleri gerekir; AppleScript/GUI scripting bu izinler olmadan engellenir. (Apple Developer)
- Windows: UI Automation ve UAC davranışları; UIAccess/elevation politikaları. Kurumsal ortamda GPO ile yönetilir. (Microsoft Learn)
- Kılavuz: En az ayrıcalık, eylem beyaz listesi, yüksek riskli işlemlerde zorunlu onay, ağ giden trafiği kısıtları.
7) Kullanabileceğin hazır parçalar (PoC hızlandırıcıları)
- OpenAI: Realtime quickstart örnekleri. (OpenAI GitHub)
- OpenAI Computer Use: Responses API rehberi/önizleme. (OpenAI Platform)
- Gemini: Live API başlangıç + kapabilite kılavuzu + Vertex/Android dokümanları. (Google AI for Developers)
- Robocorp (RPA.Desktop): Windows masaüstü otomasyonu. (Sema4.ai)
- PyAutoGUI: Çoklu platform klavye/fare. (autogui.readthedocs.io)
- SikuliX: Görsel tıklama/klavye (OS‑agnostik). (GitHub)
- Claude Code CLI: terminal ajanı. (GitHub)
- LangGraph CUA örnekleri: CUA sistemleri kurmak için starter. (GitHub)
8) Minimal PoC iskeleti (öneri)
- Dil: Python (Node da olur).
- Servisler:
voice-gateway
(wake‑word + Realtime/Live bağlantısı),agent-orchestrator
(LangGraph),tool-executor
(Windows: rpaframework/PowerShell; macOS: AppleScript+PyAutoGUI),approval-ui
(Tauri/Electron küçük pencere).
Tool şeması örneği (öz)
[
{"name":"open_app","schema":{"type":"object","properties":{"name":{"type":"string"}},"required":["name"]}},
{"name":"click","schema":{"type":"object","properties":{"x":{"type":"integer"},"y":{"type":"integer"}},"required":["x","y"]}},
{"name":"type_text","schema":{"type":"object","properties":{"text":{"type":"string"}},"required":["text"]}},
{"name":"run_shell","schema":{"type":"object","properties":{"cmd":{"type":"string"}},"required":["cmd"]}}
]
Bu fonksiyonlar tool‑calling ile çağrılır;
tool-executor
katmanı OS’e göre uygun sürücüyü (PowerShell/AppleScript/PyAutoGUI/Robocorp) çalıştırır.
9) Hangi kombinasyonu öneriyorum?
- Gerçek zamanlı ses + ekran rehberliği senaryolarında: Gemini Live API + LangGraph + Robocorp/PyAutoGUI (Windows/macOS’a göre) → “Tek paket”i Tauri ile masaüstüne sar. (Google Cloud)
- Tek sağlayıcı & API’den bilgisayar kullanımı için: OpenAI Realtime + Computer Use (Responses API) → aynı tool katmanını koru; önizleme olgunluğunu test ederek ilerle. (OpenAI Platform)
- Kod/terminal ağırlıklı projelerde: Claude Code (CLI) + MCP; öne ses katmanı (Gemini Live/OpenAI Realtime) ekle. (GitHub)
10) Ek: Tamamen eller serbest kullanım için kanıtlanmış giriş araçları
- Talon Voice (komple eller serbest kontrol, göz takip desteği; sesle imleç/klavye). VS Code için Cursorless ile çok hızlı metin/kod düzenleme. Bunları “ajan” ile birlikte kullanınca, ajan sapınca sen sesle devralırsın. (Talon Voice)
Sonuç / Yol Haritası (öneri)
- Hangi ses motorunu seçeceğine karar ver (Gemini Live veya OpenAI Realtime).
- LangGraph ile tool‑calling iskeletini çıkar. (LangChain Blog)
- Windows ise Robocorp RPA.Desktop + PowerShell; macOS ise AppleScript/Shortcuts + PyAutoGUI bağla. İlgili izinleri ver. (Sema4.ai)
- Onay penceresini ekle (yüksek riskte zorunlu onay).
- İstersen MCP ile araçları standardize et (geleceğe dönük). (Model Context Protocol)
İstersen işletim sistemine göre PoC için tam bir repo iskeleti (modüller, requirements.txt
, basit tool‑executor ve onay UI’si) çıkarabilir. Tek seferde kurup çalıştırabileceğin şekilde paket hazirlanabilir.