Plan Szkolenia

Wprowadzenie do multimodalnej sztucznej inteligencji

  • Czym jest multimodalna sztuczna inteligencja?
  • Kluczowe wyzwania i zastosowania
  • Przegląd wiodących modeli multimodalnych

Przetwarzanie tekstu i rozumienie języka naturalnego

  • Wykorzystanie LLM dla tekstowych agentów AI
  • Zrozumienie inżynierii podpowiedzi dla zadań multimodalnych
  • Dostrajanie modeli tekstowych do zastosowań specyficznych dla domeny

Rozpoznawanie i generowanie obrazów

  • Przetwarzanie obrazów za pomocą sztucznej inteligencji: klasyfikacja, podpisy i wykrywanie obiektów
  • Generowanie obrazów za pomocą modeli dyfuzyjnych (Stable Diffusion, DALLE)
  • Integracja danych obrazu z modelami tekstowymi

Przetwarzanie mowy i dźwięku

  • Rozpoznawanie mowy za pomocą Whisper ASR
  • Techniki syntezy tekstu na mowę (TTS)
  • Wzmocnienie interakcji użytkownika za pomocą głosowej sztucznej inteligencji

Integracja wielomodalnych danych wejściowych

  • Tworzenie potoków sztucznej inteligencji do przetwarzania wielu typów danych wejściowych
  • Techniki fuzji do łączenia danych tekstowych, graficznych i mowy
  • Rzeczywiste zastosowania multimodalnych agentów AI

Wdrażanie multimodalności AI Agents

  • Tworzenie multimodalnych rozwiązań AI opartych na API
  • Optymalizacja modeli pod kątem wydajności i skalowalności
  • Najlepsze praktyki wdrażania multimodalnej sztucznej inteligencji w produkcji

Kwestie etyczne i przyszłe trendy

  • Stronniczość i sprawiedliwość w multimodalnej sztucznej inteligencji
  • Obawy o prywatność związane z danymi multimodalnymi
  • Przyszły rozwój multimodalnej sztucznej inteligencji

Podsumowanie i kolejne kroki

Wymagania

  • Zrozumienie podstaw uczenia maszynowego
  • Doświadczenie w programowaniu Python
  • Znajomość frameworków głębokiego uczenia (np. TensorFlow, PyTorch)

Odbiorcy

  • Programiści AI
  • Naukowcy
  • Inżynierowie multimediów
 21 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie