2024年12月27日
こんにちは。新入社員のYSです。
今回は12月末に行われた勉強会の様子をお伝えしようと思います。
最初の発表は同じ部署の先輩のWさんでした。今回はお仕事の都合上、会社には不在でしたが録画での発表となりました。
Wさんは趣味でギターやベースなどを嗜んでおり普段から様々な曲を弾いていらっしゃるそうなのですが、引きたい曲の楽譜(TAB譜)がなかったり、耳コピして楽譜を作成するには複雑すぎる曲などが多く存在するそうです。
そこから動画や音声のデータで楽譜を生成するものがあれば便利とのことで今回のシステムを作成されたそうです。
生成する楽譜はピッチやビートの検出やある程度の歪みやノイズは分離して生成されるものを作成されていました。
作成された楽譜は印刷や共有が可能な形式で出力可能ですがまだ解析のアルゴリズムの改良の余地やエフェクトが強くかかったギター特有の奏法への対応など様々な改善点があるようです。
このシステムが改善されていき自動で楽譜が作成されるものが世に出回れば全世界のギタリストは大歓喜間違いなしだと思います。
二人目の方はOさんです。OさんはAmazon S3(Amazon Simple Storage Service) というAmazonが提供するストレージサービスについて勉強されておりました。
Amazon S3は高い耐久性とスケーラビリティを持つAWSのオブジェクトストレージサービスで、データの保存やバックアップ、静的コンテンツ配信など幅広い用途で使われているもののようです。
Amazon S3ではバケットと呼ばれるデータを格納するためのコンテナとオブジェクトと呼ばれるバケット内に保存されるデータの単位、バケット内のオブジェクトを識別するキーでデータ構造が構成されているようです。Salesforceとのデータ構造と似ていますが少し異なるようですね。
そしてAmazon S3をSalesforceで使用するための方法についても勉強されていました。SalesforceでAmazon S3が利用できれば大容量のファイルやデータをS3に保存できるため、コストを抑えつつ大量のデータを安全に管理できるので私も詳しく勉強したいなと感じました。
そして最後に私YSの発表です。
私は入社前までプログラミングの専門学校でAIについて勉強していたこともあり今回はAIを使用した音声合成について勉強しました。
最近巷ではAIの音声合成を使用した歌の動画や解説動画などが多々見受けられました。そんな動画たちの音声はどのように作られているのか気になったので自分の声で作ってみることにしました。
今回はElevenLabsというツールを使用し自分の音声モデルを作成しました。こちらのツールは他の音声合成のツールに比べ学習速度が速く、日本語に対応しているのと自分の音声合成を作成できる点と、何よりとても安価で利用できました。(500円ほど)
ElevenLabsは主にディープラーニングとNLPと呼ばれる自然言語処理を利用されており、特にトランスフォーマーアーキテクチャと呼ばれるモデルが基礎となっております。そのモデルに含まれる大量のデータからパターンを学習し入力テキストに応じ文脈に合うように自然な発音が発せられるようになっております。
用意したサンプルデータは3分程度のものなのですが学習時間がとても速く1分とかからずに学習を終え自分の音声データを作成することができました。
今回はブログのため音声を乗せることはできませんが、自分の声がテキストを違和感なく読み上げているのを聞くと感動を覚える半面、こんなに簡単に音声合成できることに対し不安を感じました。以下は作成した音声合成データをHTML上で動作させるためのPythonコードです。
AIによる音声合成は以前までは作成するのにも大量データが必要であったりそこから自然な発音を出すことも難しいとされていましたが、これほど手軽にできる技術の発展スピードに驚くと同時に運用するにあたって音声合成のされるデータ元の人間の意志の尊重や著作権などを意識したり、今後増えてくるであろうディープフェイクなどによるインターネット上の誤った情報などを正しく判断する必要があるなと感じました。