Moderne teknologi har revolusjonert måten vi får ting gjort. Selv den mest grunnleggende versjonen av smarttelefonene i de fleste folks lommer eller smarte hjemmeenheter i stuene våre har en imponerende mengde evner-spesielt når du vurderer at du kan kontrollere dem bare ved å snakke, takket være kunstig intelligens (AI). Men selv om datamaskiner har kommet videre for å gjøre livene våre enklere, inngår de også inn nytt territorium når de blir i stand til å etterligne menneskelig oppførsel og til og med tenke selv. Og nå kan en ny skummel form for AI simulere stemmen din perfekt etter å ha hørt den i bare tre sekunder. Les videre for å lære mer om den banebrytende teknologien.
Les dette neste: Aldri lade din Android -telefon på denne måten, sier eksperter.
Vi har alle vært avhengige av maskiner for å gjøre hverdagen vår enklere på en eller annen måte. Men hva om en datamaskin kan trå til og etterligne slik du snakker uten at andre engang legger merke til?
Forrige uke kunngjorde forskere ved Microsoft at de hadde utviklet en ny form for tekst-til-tale AI de har kalt Vall-E, rapporterer ARS Technica. Teknologien kan simulere en persons stemme ved å bruke et tre-sekunder. Teamet sier at modellen kan være nyttig for å lage automatiske vokaliseringer av tekst-og selv, selv om det kommer med potensielle risikoer for svært sofistikerte dupes som ligner på Deepfake-videoene.
I papiret som diskuterer den nye teknologien, Microsoft Dubs Vall-E en "Neural Codec Language Model."Hva dette betyr er at selv om tradisjonell programvare for tekst-til-tale (TTS) tar skriftlige ord og manipulerer bølgeformer for å generere vokaliseringer, kan AI plukke opp subtile elementer av en stemme og spesifikke lydforklaringer som hjelper den med å skape en pålitelig rekreasjon av en Person som snakker enhver setning som blir matet til det, ifølge nettstedet Interessant Engineering.
"Å syntetisere personlig tale (e.g., Null-shot TTS), Vall-E genererer de tilsvarende akustiske symbolene betinget av de akustiske symbolene til det 3-sekunders påmeldte innspillingen og fonemet-ledeteksten, som begrenser henholdsvis høyttaler- og innholdsinformasjonen, "forklarer teamet i papiret sitt. "Endelig brukes de genererte akustiske symbolene til å syntetisere den endelige bølgeformen med den tilsvarende nevrale kodekekoderen.""
Relatert: For mer oppdatert informasjon, registrer deg for vårt daglige nyhetsbrev.
For å utvikle den nye modellen, sier teamet at den brukte rundt 60 000 timer med innspilt tale på engelsk fra mer enn 7000 individuelle høyttalere fra et lydbibliotek samlet av Meta kjent som Librilight. I de fleste tilfeller ble innspillinger trukket fra lesninger av lydbøker med offentlig domene lagret på Librivox, rapporterer ARS Technica. I sine forsøk sa teamet at Vall-E trenger stemmen i tre-sekunders utvalg for å ligne en av stemmene fra sine treningsdata for å gi et overbevisende resultat.
Teamet viser nå arbeidet sitt ved å legge ut spesifikke eksempler på programvaren i aksjon på en GitHub -side. Hver gir et tre-sekunder. De gir deretter en "baseline" -opptak for å vise hvordan typisk TTS-programvare ville generere muntlig lyd og en "Vall-E" -versjon av innspillingen for sammenligning med de to foregående.
Selv om resultatene ikke er helt perfekte, viser de frem noen veldig overbevisende eksempler der den maskingenererte talen høres sjokkerende menneskelig. Forskerne legger også til at i tillegg til å etterligne bøyning og følelser, kan programvaren også gjenskape miljøet som base-lyden er spilt inn-for eksempel, slik at det høres ut som om noen snakker utendørs, i et ekko-rom eller på en telefonsamtale.
Forskerteamet avslutter papiret med å si at de planlegger å øke mengden treningsdata for å hjelpe modellen med å forbedre sine talende stiler og bli bedre til å etterligne menneskelig stemme. Men foreløpig har Microsoft også holdt tilbake fra å gjøre den nye programvaren tilgjengelig for utviklere eller allmennheten til testpotensielt på grunn av dens evne til å lure mennesker eller bli brukt til ubehagelige formål. AE0FCC31AE342FD3A1346EBB1F342FCB
"Siden Vall-E kunne syntetisere tale som opprettholder høyttaleridentitet, kan det føre til potensielle risikoer ved misbruk av modellen, for eksempel forfalskning av stemmeidentifikasjon eller etterligne en spesifikk høyttaler," skrev forfatterne i sin konklusjon. "For å dempe slike risikoer er det mulig å bygge en deteksjonsmodell for å diskriminere om et lydklipp ble syntetisert av Vall-E. Vi vil også sette Microsoft AI -prinsippene i praksis når vi videreutvikler modellene.""