Reklama

Reklama Tracking Image Advertisement Tracking Exactag Tracking Adnxs Tracking

To jest przełom. Próbki, które zostały udostępnione muszą zrobić wrażenie na każdym. Takiej jakości w AI jeszcze nie było i to mnie przeraża najbardziej. Przeczytajcie i zobaczcie sami.

Naukowcy z Alibaba’s Institute for Intelligent Computing opracowali przełomową technologię AI o nazwie EMO (Emote Portrait Alive), która umożliwia generowanie realistycznych wideo z pojedynczych zdjęć i ścieżek audio.

EMO wykorzystuje zaawansowane modele dyfuzji audio-do-wideo, by tworzyć animacje twarzy mówiących lub śpiewających z wyraźnymi ekspresjami i różnorodnymi pozami głowy, bazując na dynamicznej i subtelnej relacji między dźwiękiem a ruchami twarzy.

Co to za technologia?

EMO reprezentuje nową generację w generowaniu wideo, omijając potrzebę stosowania skomplikowanych modeli 3D czy punktów orientacyjnych twarzy. Zamiast tego, bezpośrednio przekształca fale dźwiękowe w ramki wideo, koncentrując się na uchwyceniu subtelnych ruchów twarzy i indywidualnych stylów ekspresji związanych z naturalną mową. Technologia ta opiera się na modelu dyfuzji, który jest znany z generowania realistycznych obrazów syntetycznych. Do szkolenia systemu wykorzystano obszerny zestaw danych zawierający wideo z głowami mówiących z różnych źródeł, w tym przemówień, filmów, programów telewizyjnych i występów muzycznych.

EMO otwiera nowe możliwości dla personalizowanej kreacji treści wideo, umożliwiając generowanie animowanych portretów śpiewających i mówiących w różnych stylach i długościach. System obsługuje różnorodne języki i style portretów, uchwytując zmiany tonalne dla dynamicznych animacji awatarów. Może to znacząco przekształcić sposób, w jaki wchodzimy w interakcje z mediami wizualnymi, oferując narzędzie do tworzenia żywych animowanych wideo z nieruchomych obrazów.

Co może pójść nie tak?

Technologia EMO, która pozwala ożywić zdjęcia, które finalnie mogą „mówić” czy „śpiewać”, jest bardzo ciekawa, ale też totalnie przerażająca. Dzięki niej można zrobić fałszywe filmy, na których ludzie wydają się mówić coś, czego nigdy by nie powiedzieli. Wystarczy pomyśleć, że ktoś może was w filmie, w którym robicie coś nielegalnego. Można też stworzyć film porno na podstawie jednego zdjęcia.

Dużym polem do nadużyć wydaje się polityka, która ma ogromną moc. Taka technologia może wpływać na wyborców, na wybory na przyszłość narodów. To nie są teorie. Przypomnijcie sobie Cambridge Analytica, ale tutaj dezinformacja może wejść na kilka poziomów wyżej.

Jak sobie z tym radzić?

  1. Wykrywanie deepfake: Trzeba robić lepsze narzędzia, które pomogą nam analizować, czy film jest prawdziwy, czy zrobiony przez AI.
  2. Oznaczać, że to nie prawdziwe: Gdy ktoś stworzy film za pomocą AI (np. EMO), powinien jasno napisać, że to fikcja.
  3. Edukować ludzi: Warto wiedzieć, że takie rzeczy są możliwe i nauczyć się, jak sprawdzać, czy coś jest prawdziwe, czy nie.
  4. Prawo musi nadążyć: Potrzebne są jakieś zasady, które pomogą chronić ludzi przed złym użyciem tej technologii, ale też nie zatrzymają postępu.

EMO (Emote Portrait Alive) stanowi znaczący postęp w technologii animacji, umożliwiając przekształcenie statycznych zdjęć w realistyczne wideo, w których przedmioty wydają się mówić lub śpiewać. Osiąga to poprzez bezpośrednią konwersję audio na ramki wideo, dokładnie uchwytując ekspresje twarzy i ruchy.

EMO daje nam mnóstwo fajnych możliwości do tworzenia ruchomych obrazków i filmików, ale ważne jest, żebyśmy zwrócili uwagę na to, jak ta technologia może być używana. Trzeba mieć na oku, żeby nikt nie wykorzystał EMO do robienia nielegalnych czy nieetycznych rzeczy. Ale patrząc na jasną stronę, EMO to naprawdę ciekawe narzędzie, które może całkiem zmienić nasze doświadczenia z oglądaniem zdjęć i filmów w sieci.

Na blogu mogą pojawiać się linki partnerskie. Dzięki Tobie mogę być niezależny. To nic nie kosztuje. Dziękuję!

Dołącz do klubu Androidowy!
Jest nas 500+

* wymagane

Autor na blogu technologicznym Androidowy.pl Od ponad 13 lat w branży technologicznej. Technologia ma być praktyczna.

2 komentarze

  1. Za 10 lat świat będzie zupełnie innym niż ten jaki znamy od strony cyfrowej. Prawda a kłamstwo stanie się zatarte, już tak się dzieje – ale narzędzia do tego są coraz doskonalsze. Tym bardziej, że google już oficjalnie mówi że będzie manipulowało wynikami w celu zmiany na świecie na taki jaki oni chcą – dlatego lepiej przestać korzystać z google. Bo to tylko przyspieszy wywrócenie go na lewą stronę, tą całkowicie patologiczną jako normalną.

  2. Przez tysiące lat istniał teatr, a potem wymyślono kino, i aktor nie musiał już grać tej samej roli dla widzów po 1000 razy. Teraz przychodzi czas na filmy realizowane bez udziału aktorów. Ale – wiecie co? Dosyć dawno już temu oglądałem film „Król Lew”. Film był super, ale nie grał w nim ani jeden nawet prawdziwy lew.

Skomentuj mój tekst