Sesli AI Asistanı ve Bilgisayar Kontrol Ajanı Entegrasyonu Araştırma Raporu

1. Giriş

Bu rapor, klavye ve fare kullanımını en aza indirgemek amacıyla, sesli bir yapay zeka (AI) asistanını, bilgisayar üzerinde tam yetkiyle çalışabilen bir AI ajanı ile birleştirme hedefi doğrultusunda yapılan araştırmanın sonuçlarını sunmaktadır. Araştırma, mevcut teknolojileri, entegrasyon yöntemlerini ve pratik uygulama senaryolarını kapsamaktadır. Amaç, bu vizyonu hayata geçirmek için uygulanabilir ve anlaşılır çözüm yolları sunmaktır.

2. Temel Kavramlar ve Teknolojiler

Araştırmamız, iki ana teknoloji kategorisine odaklanmıştır: Sesli AI Asistanları ve Masaüstü Otomasyon Ajanları. Bu iki alanın kesişimi, hedeflenen sistemi oluşturmanın temelini teşkil etmektedir.

Büyük Eylem Modelleri (Large Action Models – LAMs): Bu raporun merkezinde yer alan LAM’lar, kullanıcı niyetini anlayan ve bu niyeti belirli eylemlere dönüştüren yapay zeka modelleridir. Sadece metin üretmekle kalmaz, aynı zamanda bir görevi tamamlamak için uygulamaları kullanabilir, arayüzlerle etkileşime geçebilir ve kararlar alabilirler. Salesforce’un tanımına göre, LAM’lar “üretken yapay zekayı pasif bir araçtan, işleri gerçek zamanlı olarak halletmede aktif bir ortağa yükseltir” [1].

2.1. Sesli AI Asistanları

Bu sistemler, konuşmayı metne dönüştürme (Speech-to-Text, STT), doğal dil anlama (Natural Language Understanding, NLU) ve metni sese dönüştürme (Text-to-Speech, TTS) teknolojilerini kullanarak kullanıcıyla sesli diyalog kurar. Araştırmamızda öne çıkan platformlar şunlardır:

  • Ticari Asistanlar: Google Assistant, Amazon Alexa
  • Açık Kaynak Platformlar: Mycroft, Rhasspy, Open Voice OS
  • Geliştirme Platformları: Voiceflow, Vapi

2.2. Masaüstü Otomasyon Ajanları

Bu ajanlar, bir insanın yapabileceği gibi fareyi hareket ettirme, klavyeye yazma, uygulamaları başlatma ve pencereleri yönetme gibi görevleri yerine getirebilen yazılımlardır. Bu alandaki modern yaklaşım, LAM’ları kullanarak bu ajanları daha otonom ve akıllı hale getirmektir.

  • Hepsi Bir Arada Çözümler: Braina
  • Açık Kaynak Ajanlar: Bytebot
  • İşletim Sistemi Özellikleri: Windows Voice Access, macOS Voice Control

3. Önerilen Çözüm Mimarileri

Araştırmalarımız sonucunda, hedeflenen sistemi kurmak için üç ana mimari yaklaşım belirlenmiştir. Her bir yaklaşım, farklı teknik beceri seviyeleri, bütçe ve gizlilik beklentileri için uygundur.

Çözüm 1: Hepsi Bir Arada Ticari Yazılım (Braina)

Bu yaklaşım, hem sesli asistan hem de masaüstü otomasyon yeteneklerini tek bir pakette sunan hazır bir yazılım kullanmayı içerir.

  • Açıklama: Braina, Windows için geliştirilmiş, 100’den fazla dilde sesli komut anlayan, ChatGPT gibi LLM’leri entegre edebilen ve LAM (Large Action Models) yetenekleriyle bilgisayar görevlerini otomatikleştirebilen güçlü bir ticari yazılımdır [2].
  • Mimari: Kullanıcı -> Braina Uygulaması (Ses Tanıma -> NLU -> Eylem) -> Bilgisayar İşlemleri
  • Avantajları: Kolay kurulum, geniş özellik seti, teknik bilgi gereksiniminin az olması.
  • Dezavantajları: Ticari ve ücretli olması, yalnızca Windows platformunda çalışması, daha az özelleştirme imkanı.

Çözüm 2: DIY Bulut Entegrasyonu (AssistantComputerControl)

Bu yaklaşım, mevcut ticari sesli asistanları (Google Assistant, Alexa) kullanarak, bulut tabanlı bir otomasyon servisi (IFTTT) aracılığıyla bilgisayardaki bir ajanı tetiklemeyi içerir.

  • Açıklama: AssistantComputerControl (ACC), bu mimariyi uygulayan popüler bir açık kaynak projesidir. “Bilgisayarımı kapat” gibi bir komut, Google Assistant tarafından alınır, IFTTT aracılığıyla bir bulut depolama servisine (örn. Dropbox) bir komut dosyası yazılır ve bilgisayarda çalışan ACC ajanı bu dosyayı okuyarak ilgili eylemi gerçekleştirir [3].
  • Mimari: Kullanıcı -> Google/Alexa -> IFTTT -> Bulut Depolama -> ACC Ajanı (PC) -> Bilgisayar İşlemleri
  • Avantajları: Ücretsiz ve açık kaynak olması, mevcut akıllı hoparlörlerle entegrasyon, geniş komut yelpazesi.
  • Dezavantajları: Kurulumun birden çok adımdan oluşması, internet bağlantısı ve üçüncü taraf bulut servislerine bağımlılık.

Çözüm 3: Gelişmiş Açık Kaynak Yerel Sistem (Mycroft + Bytebot)

Bu yaklaşım, maksimum kontrol, gizlilik ve özelleştirme isteyen kullanıcılar için tamamen açık kaynak ve yerel olarak çalışan bileşenleri birleştirmeyi hedefler.

  • Açıklama: Bu mimaride, Mycroft veya Rhasspy gibi yerel bir sesli asistan, kullanıcının komutunu işler. Anlaşılan niyet, yerel ağ üzerinden bir API çağrısı ile Bytebot gibi otonom bir masaüstü ajanına iletilir. Bytebot, kendi sanal masaüstü ortamında tarayıcıları, ofis uygulamalarını ve diğer araçları kullanarak karmaşık görevleri yerine getirir [4].
  • Mimari: Kullanıcı -> Mycroft/Rhasspy (Yerel Ses Tanıma) -> Yerel API Çağrısı -> Bytebot Ajanı (Yerel Sunucu) -> Bilgisayar İşlemleri
  • Avantajları: Tam kontrol ve özelleştirme, yüksek gizlilik (internet bağımlılığı az), güçlü otomasyon yetenekleri.
  • Dezavantajları: En yüksek teknik bilgi ve kurulum eforu gerektirmesi, donanım ihtiyacı (örn. Raspberry Pi, sunucu).

4. Çözümlerin Karşılaştırması

Aşağıdaki tablo, önerilen üç çözüm mimarisini temel kriterlere göre karşılaştırmaktadır.

KriterÇözüm 1: BrainaÇözüm 2: ACCÇözüm 3: Mycroft + Bytebot
MaliyetTicari (Ücretli)ÜcretsizÜcretsiz (Donanım maliyeti olabilir)
Kurulum ZorluğuKolayOrtaZor
PlatformWindowsWindows, macOS, LinuxWindows, macOS, Linux
GizlilikYüksek (Veriler yerelde)Düşük (Bulut bağımlı)Çok Yüksek (Tamamen yerel çalışabilir)
ÖzelleştirmeSınırlıOrtaÇok Yüksek
Teknik BilgiDüşükOrtaYüksek

5. Uygulama İçin Adım Adım Rehber

Kendi sisteminizi kurmaya karar verirseniz, aşağıdaki genel adımları izleyebilirsiniz:

  1. İhtiyaçlarınızı Belirleyin: Hangi görevleri otomatikleştirmek istiyorsunuz? Gizlilik sizin için ne kadar önemli? Teknik bilginiz ne seviyede?
  2. Mimarininizi Seçin: Yukarıdaki karşılaştırma tablosunu kullanarak size en uygun çözüme karar verin.
  3. Bileşenleri Kurun:
    • Çözüm 1 için: Braina yazılımını web sitesinden indirip kurun.
    • Çözüm 2 için: ACC yazılımını kurun, IFTTT hesabı oluşturun ve Google/Alexa ile bağlantı applet’lerini yapılandırın.
    • Çözüm 3 için: Mycroft veya Rhasspy için bir sunucu (örn. Raspberry Pi) hazırlayın. Bytebot’u Docker kullanarak kendi bilgisayarınızda veya ayrı bir sunucuda çalıştırın.
  4. Entegrasyonu Yapılandırın:
    • Sesli asistanın komutları nasıl tanıyacağını ve bu komutları eylem ajanına nasıl ileteceğini yapılandırın. Bu, ACC’de IFTTT applet’leri oluşturmak veya Mycroft’ta özel bir “skill” yazarak Bytebot’un API’sini çağırmak anlamına gelebilir.
  5. Test Edin ve Geliştirin: Basit komutlarla başlayın (“not defterini aç”) ve yavaş yavaş daha karmaşık iş akışlarına geçin (“dünkü satış raporunu aç, özetini çıkar ve bana e-posta olarak gönder”).

6. Sonuç

Sesli komutlarla bilgisayarı tamamen kontrol etme vizyonu, günümüz teknolojileriyle ulaşılabilir bir hedeftir. Hazır ticari yazılımlardan, tamamen özelleştirilebilir açık kaynak sistemlere kadar farklı ihtiyaç ve yeteneklere uygun çeşitli çözümler mevcuttur. Braina gibi ürünler hızlı bir başlangıç sunarken, AssistantComputerControl gibi projeler mevcut akıllı asistanları daha yetenekli hale getirmek için pratik bir yol sağlar. En üst düzeyde kontrol ve gizlilik arayanlar için ise Mycroft ve Bytebot gibi açık kaynak araçların birleşimi, neredeyse sınırsız bir potansiyel sunmaktadır. Bu raporun, kendi kişisel AI asistanınızı ve otomasyon sisteminizi kurma yolculuğunuzda sağlam bir temel oluşturmasını dileriz.

7. Referanslar

[1] Salesforce. (2025). What Are Large Action Models (LAMs)? https://www.salesforce.com/agentforce/large-action-models/
[2] Braina. (2025). Braina – Artificial General Intelligence (AGI) Software for PC. https://www.brainasoft.com/braina/
[3] AssistantComputerControl. (2025). AssistantComputerControl – control your computer using your assistant. https://assistantcomputercontrol.com/
[4] Bytebot. (2025). Bytebot is a self-hosted AI desktop agent. https://github.com/bytebot-ai/bytebot
[5] Hume AI. (2025). Controlling your computer with voice. https://www.hume.ai/blog/controlling-your-computer-with-voice
[6] Voiceflow. (2025). Build Chat and Voice AI Agents Without Code. https://www.voiceflow.com/