به گزارش سرویس اخبار فناوری پایگاه خبری عصر فناوری ،
معده ها غرغر می کنند. آن طبیعی است. صدای حرکت عضلات در دستگاه گوارش. بدن انسان کار خود را انجام می دهد. گاهی اوقات، اگر یک میکروفون در این نزدیکی وجود داشته باشد، آن خروش ها و غرغرها شنیده می شوند.
راویان کتاب صوتی هوش مصنوعی نباید نگران صداهای عجیب گوارشی باشند، اما لی آلرز و مهندس کریگ هینکل ربات نیستند. آنها انسانهایی هستند که در اواسط ژانویه برای تولید کتابهای صوتی نشویل ضبط میکنند، نگران غرغر هستند، بحث میکنند که روی کلمه «افزایش» کجا تأکید شود، و به کار مفصل دادن صدای «واقعی» به کتابی درباره نحوه ارتباط زوج ها
استودیوی NAP در The Rukkus Room در نشویل، تنسی است، همان جایی که تیلور سویفت اولین آلبوم هفت بار پلاتینیوم خود را ضبط کرد. بوی قهوه در اتاق انتظار می پیچد. هینکل با هر کلمهای که از دهان آلرز بیرون میآید تنظیم میشود، از آیپد حاوی متن کتاب گرفته تا مانیتور بزرگی که روی صفحه صدا در استودیو نشسته است.
آلرز قبل از شروع مجدد بخشی از یک فصل به هینکل می گوید: «می خواهم در این سؤالات احساسات بیشتری داشته باشم.
کتاب های صوتی در حال رونق هستند. بر اساس تحقیقات و مشاوره Acumen، انتظار میرود این بازار تا سال 2030 به 33.5 میلیارد دلار برسد که از حدود 4.2 میلیارد دلار در سال 2021 بیشتر است. چه این فرعی از افزایش محبوبیت پادکستها باشد، چه موضوعی برای راحتی گوش دادن، یا محصول جانبی بیماری همهگیر، از توجه شرکتهای فناوری و خزش اجتنابناپذیر هوش مصنوعی دور نمانده است.
در سال 2023، هیجان در مورد پتانسیل هوش مصنوعی بالا است، اما نگرانی در مورد سرقت شغل از خلاقان در حال مبارزه نیز زیاد است. ChatGPT می تواند هر چیزی از نامه های پیش مجوز بیمه گرفته تا بایوس برنامه دوستیابی را با درجات مختلف موفقیت بنویسد. پلتفرم های هوش مصنوعی مانند لنز AI و Dall-E از OpenAI هنر تولید شده توسط هوش مصنوعی را از بین ببرید و بسیاری از کسانی که با خلق هنر دیجیتال امرار معاش می کنند نگران آینده خود باشند.
شرکت های فناوری از جمله اپل و گوگل مدتی است که روی روایت کتاب های صوتی هوش مصنوعی کار می کنند. در سال 2022، گوگل خدمات خود را برای ناشران در شش کشور از جمله ایالات متحده و کانادا عرضه کرد. راویان هوش مصنوعی گوگل نام هایی مانند آرچی که انگلیسی به نظر می رسد و سانتیاگو که اسپانیایی صحبت می کند دارند. در اوایل ژانویه، اپل یک صدای پایدار از هوش مصنوعی را معرفی کرد با نامهایی مانند مدیسون و جکسون، که نویسندگان و ناشران مستقلی که کتابهای خود را در Apple Books میفروشند، میتوانند برای خواندن ژانرهایی از غیرداستانی تا عاشقانه استفاده کنند.
حضور روزافزون هوش مصنوعی در روایت کتاب های صوتی، راویانی مانند تانیا ابی را در مراحل مختلف استرس قرار داده است.
تانیا ابی راوی برنده جایزه.
ابی، راوی ساکن گرند راپیدز، میشیگان که بیش از 1000 کتاب در 21 سال گذشته ضبط کرده است، میگوید: «نمیدانم تا پنج سال دیگر این کنسرت تمام وقت من خواهد بود یا خیر.
راویانی مانند ابی می گویند که انسانیت آنها دقیقاً همان چیزی است که به آنها کمک می کند کارهایشان را انجام دهند. به خصوص در داستانهای تخیلی، راویها در مورد همه چیز از صدای شخصیت گرفته تا نحوه برقراری ارتباط تفاوتهای ظریف و احساسات به گونهای که داستان را منعکس میکند، تصمیم میگیرند.
کاتلین لی، راوی اهل آستین، تگزاس، گفت: «اگر شخصیتی پس از مرگ پدرش گریه میکند، باید این اشکها و نفسها را در گفتارش بیان کنم».
راویان صمیمیت بودن یک صدا در گوش شنونده را توصیف می کنند و از خود می پرسند که آیا حتی واقعی ترین هوش مصنوعی نیز به دره عجیب و غریب سقوط خواهد کرد. آنها نگرانند خطر این است که تجربه را مختل کند.
صداهای هوش مصنوعی می توانند از خمیده تا کاملا متقاعد کننده متغیر باشند. اما حتی سیالترین آنها نیز میتواند آن سیمهای غیرعادی دره را با زایمان یا سرعتی که به صدا در میآید، ایجاد کند.
جاناتان اسلیپ، یک راوی که در خارج از آتلانتا، جورجیا زندگی میکند، میگوید: «تمام چیز در مورد مصرف رسانه این است که ما میخواهیم در آن غرق شویم.
بحث پول
ممکن است افراد سختگیر کتاب صوتی درک کنند که چرا کسی صدای مصنوعی را به صدای انسانی ترجیح می دهد، مشکل داشته باشد. اما برای ناشران و نویسندگان کوچک، زمان و پول می تواند استدلال قوی تری نسبت به تقدس یک اجرای خلاقانه داشته باشد.
کتاب های صوتی برای انتشارات دانشگاه میشیگان درآمد چندانی ندارند. ناشر سالانه حدود 100 کتاب دانشگاهی را منتشر می کند – توسط محققان برای دانش پژوهان یا دانشجویان.
استخدام یک راوی برای کتابی که ممکن است تنها چند صد دلار به دست بیاورد، می تواند 6000 دلار هزینه داشته باشد. و این چیزی از فرآیند تولید فشرده نیست. به گفته ACX، مبادله ایجاد کتاب صوتی آمازون، تولید یک ساعت کامل از یک کتاب صوتی می تواند حدود شش ساعت طول بکشد.
چارلز واتکینسون، مدیر انتشارات دانشگاه میشیگان و دستیار کتابدار دانشگاه برای انتشار در کتابخانه دانشگاه میشیگان، گفت: «واقعیت این است که تا زمانی که شما یک نوع پرفروش نداشته باشید، اقتصاد کار نمی کند. او همچنین رئیس انجمن مطبوعات دانشگاه، یک سازمان حرفه ای ناشران در فضای دانشگاهی است.
برای نویسندگان و ناشران کوچکتر، زمان و هزینه تولید یک کتاب صوتی ممکن است دور از دسترس باشد. هوش مصنوعی می تواند آن را تغییر دهد.
حدود دو سال پیش، گوگل برای شرکت در یک برنامه آزمایشی به انتشارات دانشگاه میشیگان مراجعه کرد. مطبوعات توانستند از ابزار گوگل برای ایجاد حدود 100 کتاب صوتی دیجیتالی استفاده کنند. هنوز به مداخله انسانی نیاز است. واتکینسون گفت برخی از اساتیدی که از گوگل استفاده کردهاند، از دانشآموزان میخواهند که ضبط را گوش کنند تا آن را با متن بررسی کنند. با وجود تسریع در فرآیند ضبط با هوش مصنوعی، دستگاههای کوچکتر همچنان ممکن است مشکلات کارکنان داشته باشند.
واتکینسون گفت که دانشگاه میشیگان به این موضوع علاقه مند است که چگونه هوش مصنوعی به طور بالقوه می تواند دسترسی به کتاب هایی را افزایش دهد که در غیر این صورت ممکن است به صورت صوتی در دسترس نباشند.
در روزهای اولیه اجرای آزمایشی، آنها با حدود 900 نویسنده با نمونهای از روایت تماس گرفتند، و پاسخ کلی این بود که روایت هوش مصنوعی فقط کمی بهتر از چیزی است که یک صفحهخوان میتواند به کسی که دارای اختلال بینایی است ارائه دهد. با این حال، برای کسانی که مشکلات بینایی دارند و ممکن است صفحهخوان یا موارد مشابه نداشته باشند، شاید هوش مصنوعی بتواند به پر کردن شکاف دسترسی کمک کند.
در موارد دیگر، شنوندگان ممکن است از داشتن یک کتاب ضبط شده به هر شکلی خوشحال شوند. یک کارآموز از واتکینسون از کتابهای صوتی برای ادامه مطالعه در لحظاتی که نمیتوانست یک کتاب باز جلوی خود داشته باشد، مانند اتوبوس یا پیادهروی به کلاس، استفاده میکند. او آن را “گوش دادن بینابینی” نامید.
ظهور صداهای دیجیتال
علاوه بر نامهای بزرگی مانند اپل و گوگل، گروهی در حال رشد از شرکتهای کوچکتر نیز وارد فضای صوتی هوش مصنوعی میشوند.
DeepZen در تلاش است تا روایت صوتی هوش مصنوعی را طبیعی تر جلوه دهد.
DeepZen یکی از آنهاست. DeepZen که در سال 2018 تأسیس شد و با الهام از فیلم Her در سال 2013، درباره مردی که عاشق دستیار مجازی هوش مصنوعی خود می شود، یک سیستم پردازش زبان طبیعی ساخت که می تواند نشانه هایی از متن بگیرد و از صداهای هوش مصنوعی ساخته شده از راویان انسانی دارای مجوز استفاده می کند که با نام مستعار برچسب گذاری شده اند. .
تایلان کامیس، مدیرعامل و یکی از بنیانگذاران، گفت: یکی از بزرگترین چالشها ایجاد پلتفرمی بود که متن را به صورت طوطیسازی نکند، بلکه در عوض آن را با لحن القا کند.
چند سال طول کشید تا وارد بازار شود، اما اکنون DeepZen به مشتریان این امکان را میدهد تا یک نسخه خطی را آپلود کنند و بسته به برنامه قیمتگذاری خود، یک سرویس خودکار یا مدیریت شده را انتخاب کنند. هر دو با سطوح کنترل کیفیت، مانند چک تلفظ، ارائه می شوند، اما گزینه مدیریت شده دارای یک بررسی تصحیح شده توسط ویرایشگرهای انسانی و دو دور اصلاح است.
سرویس خودکار 69 دلار در هر ساعت تمام شده برای مشتری در مقابل 129 دلار برای گزینه مدیریت شده هزینه می کند. DeepZen تاکنون تقریباً 3000 کتاب، هم داستانی و هم غیرداستانی تولید کرده است.
در وبسایت آن میتوانید به نمونههایی از 10 صدا با نامهایی مانند تاد، دالیا و آلیس گوش دهید.
در جایی از دنیا، تاد، دالیا و آلیس افراد واقعی هستند. کامیس فکر میکند که مجوز صدا میتواند راهی برای راویان برای همزیستی با هوش مصنوعی در روایت باشد.
«آن راوی در خواب پول در می آورد و صدایش در ژاپن حق امتیاز به دست می آورد [or] چین یا آفریقای جنوبی.»
DeepZen همچنین در حال کار بر روی راهی است تا صداهای هوش مصنوعی را به زبان های دیگر صحبت کند تا دسترسی به بازار را افزایش دهد.
و هرگز اهمیت ندهید که بر چالشهای صحبت کردن به یک زبان غلبه کنید – حتی لازم نیست مرگ مانعی ایجاد کند. DeepZen به خانواده صداپیشه و راوی مشهور ادوارد هرمان که در سال 2014 درگذشت، برای صدور مجوز صدای او مراجعه کرد. امضا کردند. به یک معنا، هرمان پس از مرگ هنوز در حال کار است.
صحبت کردن
کامیس تنها کسی نیست که فکر میکند راهی برای هماهنگی هوش مصنوعی و انسان در روایت صدا وجود دارد.
واتکینسون، از دانشگاه میشیگان، میخواهد از هوش مصنوعی به عنوان راهی برای آزمایش کتابهایی استفاده کند که ارزش استخدام انسان برای ضبط کردن را دارند. اگر کسی فروش خوبی داشته باشد، موفقیت می تواند هزینه را توجیه کند. او خودش طرفدار کتاب های صوتی است.
او گفت: «این یک رمپ برای ما است تا راویان انسانی را به دست آوریم.
همه خوشبین نیستند. برخی از این صنعت نگران هستند که مشاغل کمتری برای راویانی که مشهور نیستند یا دنبال کنندگان خودشان نیستند، وجود داشته باشد.
آندریا فلک-نیسبت، مدیر عامل انجمن ناشران کتاب مستقل، گفت: «همه آن راویان سطح متوسط و واقعاً قوی… کار بسیار خوبی انجام می دهند و این امر امرار معاش آنها است – اما آنها لزوماً به نتیجه نخواهند رسید.
پس از دو دهه فعالیت در این تجارت، ابی گفت که در تعجب است که اگر در نهایت نتواند اثری را برای روایت تمام وقت پیدا کند، چه اتفاقی میافتد.
“چه مهارت هایی دارم که رقابتی هستند؟ و چگونه می توانم وارد یک دفتر شوم، و چه چیزی را ارائه دهم؟” او پرسید.
راوی جاناتان اسلیپ گفت که میداند باید تکالیفش را انجام دهد – و در مورد قراردادهایی که امضا میکند و حقوقی که در رابطه با صدایش به او واگذار میکند، نگاه عقابی بیشتری دارد.
دیگران، مانند راوی اندی گارسیا-روس، می خواهند به نقاط قوت خود بازی کنند: “تنها کاری که می توانیم انجام دهیم این است که آنها را عاشق اجراهای ما کرده و به کار خود ادامه دهند.”
برخی از نویسندگان از استفاده از صدای دیجیتال خودداری می کنند.
الیزابت بل، نویسنده، می گوید: “من احساس می کنم هدف داستان برانگیختن احساسات خواننده یا شنونده است، و داستان به معنای انسان بودن است. و ماشین نمی تواند آن را تکرار کند.”
نویسنده کریس استوکل واکر از گوگل برای روایت کتاب غیرداستانی 2021 خود یعنی TikTok Boom در مورد برنامه ویدیویی محبوب استفاده کرد و در مورد نتیجه در Inverse نوشت.
استوکل واکر مینویسد: «آنچه که برگشت، کتابی صوتی بود که در عین حال فاقد برخی از احساسات و درامهایی بود که انتظارش را داشتید، اما خوب به نظر میرسید.
با این حال، سوالات زیادی باقی مانده است. در دنیایی که مردم هر روز صداهای دیجیتالی مانند سیری و الکسا را میشنوند، اگر صدای دیجیتال کاملاً انسانی به نظر نرسد، آیا انسانها دیگر اهمیتی نمیدهند؟ برای Fleck-Nisbet، روایت هوش مصنوعی تنها یکی از بسیاری از سوالاتی است که صنعت نشر با آن مواجه خواهد شد. ابهامات دیگری در مورد هوش مصنوعی و کپی رایت یا مالکیت معنوی وجود دارد.
به عبارت دیگر، این تنها آغاز راه است.
صحبت کردن
هیچ کدام از اینها به این معنا نیست که هفته آینده راویان در صف بیکاری قرار خواهند گرفت.
جان بهرنز که مالک تولید کتاب های صوتی نشویل است، در چند سال گذشته با دو کتاب تولید شده توسط هوش مصنوعی کار کرده است که اساساً کنترل کیفیت را ارائه می دهند. هوش مصنوعی همچنان با مشکلاتی روبرو بود. نمیتوانست آیات کتاب مقدس را تلفظ کند و با سؤالات بلاغی در متن مبارزه میکرد.
بهرنز گفت که یک کتاب صوتی بد ممکن است 50 تا 100 مدخل برای مشکلاتی که باید برطرف شوند تولید کند. هوش مصنوعی صدها تولید کرد. این او را به این باور می رساند که راویان انسانی راه به جایی نمی برند – حداقل برای مدتی. او توصیه می کند که دچار وحشت نشوید.
“اگر قرار است در ترس زندگی کنید… چرا به سرمایه گذاری در این حرفه ادامه می دهید، اگر فکر می کنید که این شغل در حال خشک شدن است؟” او گفت.
آلرز و هینکل در اتاق Rukkus بازگشته اند تا در مورد ربات ها صحبت کنند.
این اولین باری است که آلرز یک کتاب صوتی را روایت میکند، هرچند که کارهای صداپیشگی و دوبله زیادی از جمله برای نتفلیکس انجام داده است.
هینکل تحت تاثیر هوش مصنوعی قرار نگرفته است.
او گفت: «روباتی که در حال خواندن کتاب است. “من هنوز فکر می کنم که زمان زیادی طول می کشد تا طبیعی و با استعداد به نظر برسد.”
فقط به مدیسون و جکسون نگویید.
یادداشت سردبیران: CNET از یک موتور هوش مصنوعی برای ایجاد برخی توضیح دهندگان مالی شخصی استفاده می کند که توسط ویراستاران ما ویرایش و بررسی می شوند. برای اطلاعات بیشتر، ببینید این پست.
این محتوا از سایت های خبری خارجی بطور اتوماتیک دانلود شده است و عصر فناوری فقط نمایش دهنده است. اگر این خبر با قوانین و مقررات جمهوری اسلامی مناقات دارد لطفا به ما گزارش کنید.