To jest przełom. Próbki, które zostały udostępnione muszą zrobić wrażenie na każdym. Takiej jakości w AI jeszcze nie było i to mnie przeraża najbardziej. Przeczytajcie i zobaczcie sami.
- Co się stanie, gdy asteroida 2024 YR4 spadnie na Twoje miasto?
- Transport szynowy w miastach – zobacz, jak wypada Warszawa i Katowice
- Mapa pokazująca ile procent wypłaty przeznaczamy na mieszkanie – jesteśmy biedni
- Los Angeles udostępnia mapy na żywo z pożarami – zobacz jak walczą z ogniem
- Najlepsze aplikacje i mapy do śledzenia pociągów na żywo
Naukowcy z Alibaba’s Institute for Intelligent Computing opracowali przełomową technologię AI o nazwie EMO (Emote Portrait Alive), która umożliwia generowanie realistycznych wideo z pojedynczych zdjęć i ścieżek audio.
EMO wykorzystuje zaawansowane modele dyfuzji audio-do-wideo, by tworzyć animacje twarzy mówiących lub śpiewających z wyraźnymi ekspresjami i różnorodnymi pozami głowy, bazując na dynamicznej i subtelnej relacji między dźwiękiem a ruchami twarzy.
Co to za technologia?
EMO reprezentuje nową generację w generowaniu wideo, omijając potrzebę stosowania skomplikowanych modeli 3D czy punktów orientacyjnych twarzy. Zamiast tego, bezpośrednio przekształca fale dźwiękowe w ramki wideo, koncentrując się na uchwyceniu subtelnych ruchów twarzy i indywidualnych stylów ekspresji związanych z naturalną mową. Technologia ta opiera się na modelu dyfuzji, który jest znany z generowania realistycznych obrazów syntetycznych. Do szkolenia systemu wykorzystano obszerny zestaw danych zawierający wideo z głowami mówiących z różnych źródeł, w tym przemówień, filmów, programów telewizyjnych i występów muzycznych.
- UE planuje dostęp do zaszyfrowanych danych obywateli – co to oznacza dla Twojej prywatności?
- Polar wprowadza własny plan subskrypcyjny, podążając śladem Garmina
- Koniec czekania – Galaxy S24 otrzymuje stabilne One UI 7.0
- Dlaczego fani Samsunga są wściekli mimo świetnego One UI 7?
- Wyczekiwane funkcje AI na starszych telefonach Samsunga – które modele otrzymają aktualizację?
EMO otwiera nowe możliwości dla personalizowanej kreacji treści wideo, umożliwiając generowanie animowanych portretów śpiewających i mówiących w różnych stylach i długościach. System obsługuje różnorodne języki i style portretów, uchwytując zmiany tonalne dla dynamicznych animacji awatarów. Może to znacząco przekształcić sposób, w jaki wchodzimy w interakcje z mediami wizualnymi, oferując narzędzie do tworzenia żywych animowanych wideo z nieruchomych obrazów.
Co może pójść nie tak?
Technologia EMO, która pozwala ożywić zdjęcia, które finalnie mogą „mówić” czy „śpiewać”, jest bardzo ciekawa, ale też totalnie przerażająca. Dzięki niej można zrobić fałszywe filmy, na których ludzie wydają się mówić coś, czego nigdy by nie powiedzieli. Wystarczy pomyśleć, że ktoś może was w filmie, w którym robicie coś nielegalnego. Można też stworzyć film porno na podstawie jednego zdjęcia.
Dużym polem do nadużyć wydaje się polityka, która ma ogromną moc. Taka technologia może wpływać na wyborców, na wybory na przyszłość narodów. To nie są teorie. Przypomnijcie sobie Cambridge Analytica, ale tutaj dezinformacja może wejść na kilka poziomów wyżej.
Jak sobie z tym radzić?
- Wykrywanie deepfake: Trzeba robić lepsze narzędzia, które pomogą nam analizować, czy film jest prawdziwy, czy zrobiony przez AI.
- Oznaczać, że to nie prawdziwe: Gdy ktoś stworzy film za pomocą AI (np. EMO), powinien jasno napisać, że to fikcja.
- Edukować ludzi: Warto wiedzieć, że takie rzeczy są możliwe i nauczyć się, jak sprawdzać, czy coś jest prawdziwe, czy nie.
- Prawo musi nadążyć: Potrzebne są jakieś zasady, które pomogą chronić ludzi przed złym użyciem tej technologii, ale też nie zatrzymają postępu.
EMO (Emote Portrait Alive) stanowi znaczący postęp w technologii animacji, umożliwiając przekształcenie statycznych zdjęć w realistyczne wideo, w których przedmioty wydają się mówić lub śpiewać. Osiąga to poprzez bezpośrednią konwersję audio na ramki wideo, dokładnie uchwytując ekspresje twarzy i ruchy.
EMO daje nam mnóstwo fajnych możliwości do tworzenia ruchomych obrazków i filmików, ale ważne jest, żebyśmy zwrócili uwagę na to, jak ta technologia może być używana. Trzeba mieć na oku, żeby nikt nie wykorzystał EMO do robienia nielegalnych czy nieetycznych rzeczy. Ale patrząc na jasną stronę, EMO to naprawdę ciekawe narzędzie, które może całkiem zmienić nasze doświadczenia z oglądaniem zdjęć i filmów w sieci.
2 komentarze
Za 10 lat świat będzie zupełnie innym niż ten jaki znamy od strony cyfrowej. Prawda a kłamstwo stanie się zatarte, już tak się dzieje – ale narzędzia do tego są coraz doskonalsze. Tym bardziej, że google już oficjalnie mówi że będzie manipulowało wynikami w celu zmiany na świecie na taki jaki oni chcą – dlatego lepiej przestać korzystać z google. Bo to tylko przyspieszy wywrócenie go na lewą stronę, tą całkowicie patologiczną jako normalną.
Przez tysiące lat istniał teatr, a potem wymyślono kino, i aktor nie musiał już grać tej samej roli dla widzów po 1000 razy. Teraz przychodzi czas na filmy realizowane bez udziału aktorów. Ale – wiecie co? Dosyć dawno już temu oglądałem film „Król Lew”. Film był super, ale nie grał w nim ani jeden nawet prawdziwy lew.