오픈AI(OpenAI)가 특정인의 음성을 ’15초’만 듣고도, 그 사람의 육성을 유사하게 만들어낼 수 있는 ‘음성 엔진‘을 공개했다.
오픈AI는 지난달 29일(현지시간) 자사 웹페이지를 통해 단 ’15초짜리 음성’만으로 이와 유사한 목소리(즉 화자의 모방 음성)를 만들어 낼 수 있는 음성 엔진(또는 보이스 엔진, Voice Engine)을 2년 전에 개발했다고 발표했다.
이 엔진은 ’15초짜리 음성’으로 화자(話者, Original speaker)의 목소리를 그대로 모방할 수 있을 뿐만 아니라 이를 이용해 다른 나라 언어를 구사할 수도 있다.
실제 오픈AI가 공개한 포스트에는, 화자의 원본 음성은 물론 이를 모방한 음성으로 영어는 물론 스페인어, 중국어, 독일어, 불어, 일본어 등을 구사하는 샘플 음성이 게시 돼 있다.
여기에 우리나라 언어는 포함되지 않았지만 당연히 사투리도 능숙하게 구사할 가능성이 높다.
왜냐하면, 이 포스트에는 정규 언어뿐만 아니라 비정규 언어 샘플 음성도 포함돼 있기 때문이다.
그런데 시장에는 이와 유사한 기능의 딥보이스(Deepvoice) 인공지능(AI) 모델들이 적지 않다.
그리고 각 모델들의 성능(필요한 원본 음성의 길이, 다국어 지원 등)은 조금씩 다르지만, 대부분 우리를 깜짝 놀라게 할만한 성능을 보유하고 있다.
참고로 현재 이 기술이 얼마나 발전했는지 체감하려면 (1)오픈AI의 해당 포스트에 게재된 샘플 음성을 듣거나, (2)유튜브에서 ‘딥보이스’로 검색해보면 된다.
아무튼 현재의 상황을 보면 ‘단언컨대’ 이 기술은, 챗GPT처럼, 우리가 생각하는 것보다 훨씬 더 빠른 속도(지금까지 인류가 단 한 번도 경험해 보지 못한)로 발전할 것이다.
그리고 유관 분야는 물론 우리가 예상하지 못한 다양한 분야에까지 영감을 주고 혁신을 유도할 것이다.
오픈AI가 발표한 대로 ‘의사소통이 원활하지 못한 환자’들의 소통을 지원하는 것은 물론, 거대 기업과 소규모 개인 비즈니스 영역에서도 큰 역할을 하게 될 것이다.
그러나 이 기술이 ‘언제나’ 공중(公衆, Public)에게 이로운 방향으로만 활용되지는 않을 것도 분명하다.
당연히 빠르게 발전하고 있는 딥페이크(Deepfake) 기술과 함께 완성도 높은 ‘사기성 범죄’에도 활용될 것이기 때문이다.
안 그래도 사기성 범죄(즉 타인을 속여 재물이나 재산상의 이득을 취하는 범죄)가 가장 많이 발생하는 우리나라에서, 이 기술들의 발전은 곧 많은 사람들을 지금보다 더 고통스럽게 만들 도화선(Trigger)이 될 가능성이 매우 높다.
참고로 지난해 4분기 사기죄 발생 건수는 총 88,651건으로 전체 범죄 발생 건수인 375,985건 중 23.6%*나 차지한다.
그리고 최근 몇 년간 ‘사기죄 발생 건수’와 ‘전체 범죄 발생 건수 중 점유율’이 매우 빠르게 증가하고 있다.
*출처: 경찰청 범죄통계(잠정치, 본지 관련 기사 참고)
그래서 혹자(或者, Somebody)는 우리나라를 ‘사기공화국’이라 부르기도 한다.
그러나 정부를 비롯한 정치권은 이에 대해 아직까지 ‘선거’에만 초점을 맞추고 있는 듯하다.
그래서 정치권에서는 딥보이스로 만든 음성(또는 딥페이크 영상에 포함된 음성, 이하 ‘딥보이스 등’)이 자신들의 지지율이나 입지 등을 위협하는 것에 대해 매우 민감하게 반응한다.
정치 풍자를 넘어 ‘잘못된 정보나 메시지’를 전달하는 딥보이스 등이 유권자들의 마음을 움직일 수도 있기 때문이다.
실제 미국에선 지난 1월 조 바이든(Joe Biden) 대통령을 흉내 낸 AI 음성(딥보이스)으로 뉴햄프셔(New Hampshire) 유권자들에게 “예비선거(Presidential Primary)에서 투표하지 말라”라는 메시지를 대량으로 전송했던 로보콜(Robocalls, 자동 음성 스팸전화)이 큰 이슈가 됐다.
당연히 이 로보콜을 조작이라고 가볍게 넘긴 사람들도 있었지만, 이를 실제 조 바이든의 육성이라고 믿은 사람들도 적지 않았기 때문이다.
그래서 美 연방통신위원회(Federal Communication Commission, FCC)는 발 빠르게 AI로 만든 음성을 활용한 로보콜을 통신소비자보호법(Telephone Consumer Protection Act, TCPA) 위반 행위로 규정하기도 했다.
우리나라에선 공직선거법을 개정해 4·10 총선부터 딥페이크 영상 등(딥보이스 포함)을 이용한 선거운동을 ‘선거일 전 90일부터 선거일’까지 전면 금지했다(2024. 1. 29.부터 시행).
즉, 딥페이크와 딥보이스가 영향을 미칠 수많은 분야 중 오직 ‘선거’와 관련된 이슈에 대해서만 재빠르게 움직인 것이다.
실제 4·10 총선 전, 윤석열 대통령을 풍자한 영상(원 제목은 ‘가상으로 꾸며본 윤대통 양심고백’)에 대해서도 딥페이크로 규정하고 매우 신속하게 대응했다.
방송통신심의위원회(방심위, Korea Communications Standards Commission, KCSC)가 나서 이 영상의 접속을 차단했고, 경찰은 이 영상 게시자 계정을 압수수색까지 했다.
물론, ‘성폭력범죄의 처벌 등에 관한 특례법(이하 성폭력처벌법)’에 딥페이크 오용에 관한 처벌 규정이 신설되긴 했지만(2020. 3. 5. 본회의 통과) 이는 정치권의 선제적인 활동의 결과라기보다는 당시 ‘n번방 사건’이 크게 이슈화됐기 때문이었다.
구체적으로 성폭력처벌법 제14조의2(허위영상물 등의 반포등)를 통해 딥페이크 기술로 만든 영상(또는 음성물)의 편집, 합성, 가공, 반포한 경우 5년 이하의 징역 또는 5천만원 이하의 벌금으로 처벌하고 있다.
성폭력처벌법 제14조의2(허위영상물 등의 반포등) ① 반포등을 할 목적으로 사람의 얼굴ㆍ신체 또는 음성을 대상으로 한 촬영물ㆍ영상물 또는 음성물(이하 이 조에서 “영상물등”이라 한다)을 영상물등의 대상자의 의사에 반하여 성적 욕망 또는 수치심을 유발할 수 있는 형태로 편집ㆍ합성 또는 가공(이하 이 조에서 “편집등”이라 한다)한 자는 5년 이하의 징역 또는 5천만원 이하의 벌금에 처한다. ② 제1항에 따른 편집물ㆍ합성물ㆍ가공물(이하 이 항에서 “편집물등”이라 한다) 또는 복제물(복제물의 복제물을 포함한다. 이하 이 항에서 같다)을 반포등을 한 자 또는 제1항의 편집등을 할 당시에는 영상물등의 대상자의 의사에 반하지 아니한 경우에도 사후에 그 편집물등 또는 복제물을 영상물등의 대상자의 의사에 반하여 반포등을 한 자는 5년 이하의 징역 또는 5천만원 이하의 벌금에 처한다. ③ 영리를 목적으로 영상물등의 대상자의 의사에 반하여 정보통신망을 이용하여 제2항의 죄를 범한 자는 7년 이하의 징역에 처한다. ④ 상습으로 제1항부터 제3항까지의 죄를 범한 때에는 그 죄에 정한 형의 2분의 1까지 가중한다. |
그러나 이는 그저 성범죄에 관한 규정일 뿐이다.
즉 일반인들이 일상에서 접하게 되는 사기성 범죄들과는 무관하다는 의미다.
위 성폭력처벌법 제14조의2는 사기성 범죄들과 ‘범죄로 인정되기 위한 조건(즉 구성요건)’이나 ‘보호법익’ 자체가 다르다.
형법 제347조(사기) ①사람을 기망하여 재물의 교부를 받거나 재산상의 이익을 취득한 자는 10년 이하의 징역 또는 2천만원 이하의 벌금에 처한다. ④ 전항의 방법으로 제삼자로 하여금 재물의 교부를 받게 하거나 재산상의 이익을 취득하게 한 때에도 전항의 형과 같다. |
결과적으로, 일반인들은 아직도 딥보이스나 딥페이크를 활용한 ‘사기성 범죄’의 위험에 그대로 노출돼 있는 상태다.
4차 산업혁명(Fourth Industrial Revolution, 4次産業革命)은 침이 마르게 강조하지만 그로 인한 부작용에는 관심이 없는 것인가?
이런 정치권의 스탠스로 인해, 현재는 사기성 범죄라는 리스크의 통제 관리를 오롯이 AI 모델 개발사, 즉 사기업(私企業, 영리기업)의 양심에 맡겨 두고 있는 상태다.
오픈AI는 그나마 양심적인 기업인가?
위에서 언급한 음성 엔진(또는 Voice Engine, 보이스 엔진)을 개발한 오픈AI는 웹페이지를 통해 ‘이 엔진이 악용될 가능성도 있기 때문에 당장 일반인에게 공개하지는 않겠다’고 했다.
그러면서 오픈AI는 자체 가이드라인을 만들어 “이를 테스트하는 파트너들은 원 화자의 명시적인 사전 동의를 얻어야 하며, 개별 사용자가 자신의 목소리를 생성할 수 없게 했고, 이렇게 생성한 목소리를 대중에게 들려줄 경우 이를 AI로 생성한 것임을 명확하게 밝히도록 했다”고 밝혔다.
그리고 물론 음성 엔진에서 생성된 모든 오디오의 출처를 추적할 수 있는 워터마킹(Watermarking) 등의 안전조치도 구현했다고 덧붙였다.
그러나 분명한 것은 딥페이크나 딥페이스 모델을 개발하는 영리 AI 기업들의 양심만을 믿고 있는 것이 정치권의 스탠스가 돼서는 안 된다.
제도가 현실의 속도를 따라갈 수 없다는 것은 누구나 알고 있는 상식이다.
그러나 AI로 인해 모든 기술들의 발전 속도가 인류가 지금까지 경험하지 못한 속도로 발전한다면 제도(규제 포함)를 마련하는 속도도 과거와는 달라져야 한다.
현실은 AI 시대이나 정치권은 아직 70-80년대에 머물러 있다.
위기와 기회를 인지하고도 움직이지 않거나 말로만 떠들며 시간을 낭비하는 것이 바로 무능(無能)이다.
이미지: developed by Midjourney
English version>>
Realistic Deep-voice Regulation Is Needed in the Republic of Korea, a Fraudulent Republic!
OpenAI has unveiled a ‘voice engine’ that can create a similar voice of a specific person by listening to that person’s voice for just ’15 seconds.’
OpenAI announced on its website on the 29th (local time) that it had developed a voice engine two years ago that can generate a similar voice (i.e., a speaker’s imitated voice) with only a 15-second voice.
This engine can not only imitate the original speaker’s voice with a ’15-second voice’, but can also use it to speak other languages.
In fact, in the post released by OpenAI, the speaker’s original voice as well as sample voice that speaks Spanish, Chinese, German, French, and Japanese using the voice that imitates speaker’s original voice.
Although Korean language is not included here, there is a high possibility that he/she can speak the dialect proficiently.
That’s because this post includes sample audio for regular languages as well as non-regular languages speech.
However, there are many deepvoice artificial intelligence (AI) models with similar functions in the market.
And while the performance of each model (the length of the required original speech, multilingual support, etc.) is slightly different, most of them have performance that will surprise us.
For your information, if you want to feel how advanced this technology is now, (1) listen to the sample voice posted on the corresponding post of OpenAI, or (2) search ‘deepvoice’ on YouTube.
Anyway, looking at the current situation, I can assure you that this technology, like ChatGPT, will develop at a much faster rate than we think (something humanity has never experienced before).
And it will inspire and induce innovation not only in related fields but also in various fields that we did not expect.
As announced by OpenAI, it will not only support communication for ‘patients who have difficulty communicating’, but will also play a major role in the areas of large corporations and small individual businesses.
However, it is also clear that this technology will not be used only in a way that is “always” beneficial to the public.
Naturally, it will be used for high-quality “fraudulent crimes” along with the rapidly developing deepfake technology.
In Korea, where fraudulent crimes (crimes that take property or property gains by deceiving others) occur the most, the development of these technologies is likely to soon become a trigger that will make many people more painful than they are now.
For reference, the total number of fraud charges in the fourth quarter of last year was 88,651, accounting for 23.6%* of the total number of crimes committed 375,985 cases.
And in recent years, “the number of fraudulent crimes” and “the share of the total number of crimes” have been increasing very rapidly.
*Source: Korea National Police Agency’s Crime Statistics (preliminary figures, refer to related articles)
That’s why some people call our country as a “Fraudulent Republic.”
However, the political world, including the government, seems to be still focusing only on ‘elections’.
Therefore, the political world reacts very sensitively to voices created with deepvoices (or voices included in deepfake videos) threatening their approval ratings or positions.
This is because deepvoices that go beyond political satire and convey ‘wrong information or messages’ can move the hearts of voters.
In fact, in the United States, Robocalls (automatic voice spam calls), which sent a large number of messages to New Hampshire voters in January, saying, “Don’t vote in the Presidential Primary” with an AI voice that imitated President Joe Biden, has become a big issue.
Of course, there were some people who dismissed this robocall as a manipulation, but there were also quite a few who believed that it was actually Joe Biden’s voice.
Therefore, the U.S. Federal Communication Commission (FCC) quickly defined robocalls using AI-generated voices as a violation of the Telephone Consumer Protection Act (TCPA).
In Korea, the Public Official Election Act was revised to completely ban election campaigns using deepfake videos (including deepvoices) starting from the April 10 general election ‘from 90 days before the election date to the election day’ (effective from January 29, 2024).
In other words, among the numerous areas that deepfake and deepvoice will affect, they only moved quickly on issues related to ‘elections’.
Actually, before the April 10 general elections, a video satirizing President Yoon Seok-yeol (original title: ‘A fictionalized confession of conscience by President Yoon Seok-yeol’) was defined as a deepfake and responded very quickly.
The Korea Communications Standards Commission (KCSC) blocked access to the video from the Internet, and the police even searched and seized the account of the person who posted this video.
Of course, the ‘Special Cases Act on the Punishment of Sexual Violence Crimes (hereinafter referred to as the Sexual Violence Punishment Act)’ has newly established a punishment regulation for the misuse of deepfakes (passed by the plenary session on March 5, 2020), but this was because the ‘Nth Room Case’ became a big issue at that time rather than the result of preemptive activities by the political community.
Specifically, in accordance with Article 14-2 (Distribution of False Videos, etc.) of the Sexual Violence Punishment Act, if a video (or audio) made with deepfake technology is edited, synthesized, processed, or distributed, imprisonment for up to five years or a fine of up to 50 million won will be imposed.
However, this is just a regulation regarding sexual crimes.
In other words, it has nothing to do with the fraudulent crimes that ordinary people encounter in their daily lives.
Article 14-2 of the above Sexual Violence Punishment Act differs from ‘fraudulent crimes’ in terms of ‘conditions (i.e., constituent elements) for recognition as a crime’ or ‘protected legal interests’ itself.
As a result, the general public is still exposed to the risk of ‘fraudulent crimes’ using deepvoice or deepfakes.
There is a lot of emphasis on the Fourth Industrial Revolution, but is there no interest in the side effects it brings?
Due to this political stance, the control and management of the risk of fraudulent crimes is currently left entirely to the conscience of AI model developers, that is, private companies (for-profit companies).
Is OpenAI a conscientious company?
OpenAI, which developed the voice engine mentioned above, said on its web page, ‘Because there is a possibility that this engine may be abused, we will not immediately disclose it to the public.’
Through its own guidelines, OpenAI said, “Partners who test this must obtain the explicit prior consent of the original speaker, and individual users are not allowed to generate their voices, and if the voice generated in this way is heard to the public, it is clearly revealed that it is created by AI.”
And of course, they added that they have also implemented safety measures such as watermarking, which allows the source of all audio generated by the voice engine to be traced.
However, what is clear is that trusting only the conscience of for-profit AI companies that develop deepfake or deepface models should not become a political stance.
It is common knowledge that regulations cannot keep up with the pace of reality.
However, if the speed of development of all technologies due to AI advances at a rate that humanity has never experienced before, the speed of establishing systems (including regulations) must also change from the past.
The reality is the AI era, but the political world is still stuck in the 70s and 80s.
Recognizing a crisis or opportunity but not taking action or just talking and wasting time is incompetence.
Image: developed by Midjourney