Research

これまでの研究のごく一部を簡単に紹介します。全ての研究成果は Publications でご確認ください。詳しい話を聞きたかったり,ここで紹介している以外の研究について知りたい場合は気軽にご連絡ください。

音響信号処理

音源分離

複数の音が混ざったデータから,それぞれの音を取り出す技術を音源分離と呼びます。特に,複数のマイクロホンを用いて観測されたデータに対して分離をする,多チャンネル音源分離の研究に精力的に取り組んでいます。典型的には非凸最適化問題として定式化され,その問題を解くアルゴリズムを構成することで,最適解を求めて分離結果を得ます。これまで,定式化の工夫と最適化アルゴリズムの工夫の両面から,様々な提案を行ってきました。

代表的な論文

調波打撃音分離

典型的な音響信号は,打撃的な成分と正弦波的な成分で構成されます。例えばピアノを例に挙げると,ハンマーが弦に当たったときに打楽器のようなアタック成分が一瞬だけ発生し,それからすぐに音の高さを感じる正弦波的な成分が生じます。打撃的な音はリズムの推定などに役立ち,正弦波的な成分はメロディやハーモニーの推定に役立つので,それらの成分を事前に分解しておくと後の解析に都合が良いです。そのような成分の分解は調波打撃音分離などと呼ばれ,制約付き最適化問題として定式化されるので,その最適化問題を解くためのアルゴリズムを提案しています。

代表的な論文

歪み除去

音響信号に非線形な操作をすると歪みが生じます。ギターのディストーションのように積極的に活用する場合もありますが,多くの場合に歪みは信号の劣化であり,不都合が生じる要因になるので,歪みが生じた信号から元の信号を復元する歪み除去が求められます。歪みの中でも特にハードクリッピングの除去は凸最適化問題として定式化することができ,信号の歪んでいない成分への射影を含んだ最適化アルゴリズムによって歪みを除去することができます。これまで,アルゴリズムの過程で深層ニューラルネットワークを援用する手法を提案してきました。

代表的な論文

位相復元

音響信号は,短時間フーリエ変換 (離散ガボール変換) によって時間周波数領域で表現されることが多いですが,フーリエ変換の結果は一般に複素数なので,複素数値データとして扱うことができます。複素数を極座標表現すれば振幅と位相によって信号を特徴付けられますが,振幅のみが与えられている場合に,信号を復元するには位相を復元する必要があります。そのように,振幅のみのデータから位相を復元する問題は非凸最適化問題として定式化され,最適化アルゴリズムを構成することで最適化の結果として復元結果を得ることができます。また,深層ニューラルネットワークの推定結果を援用することで,アルゴリズムの性能を向上させる取り組みも行っています。

代表的な論文

タイムストレッチング

音楽や動画などのコンテンツ制作において,音の高さや信号の性質をなるべく変えずに,信号の再生時間だけを縮めたり伸ばしたりしたいことがあります。また,DJ などにおいても,曲のテンポを合わせるために再生速度だけを変えたいことがあります。そのように,音の高さはそのままに時間伸縮をする技術をタイムストレッチングと呼び,位相復元の問題として定式化されることが多いです。位相が適切に復元できる程度の伸長であれば問題ないですが,信号を伸長しすぎると打撃音が破綻することがあるので,打撃音を保つための新たなテクニックを提案しました。

代表的な論文

欠損区間推定

音響信号に短時間の欠損が生じると,プチッというノイズが発生します。データ自体が欠損していなくても,例えばマイクの吹かれによるポップノイズや,レコードのプチノイズのように,突発的に大きなノイズが混入すると,元の信号が歪んでしまって欠損として扱うべき状況が生じます。そのような短時間の欠損に対して,信号の前後の情報を用いて穴埋めを行う技術が提案されています。典型的には欠損によって生じたノイズの除去の問題として定式化されますが,ノイズを除去する際にエネルギーが小さく推定されてしまうという課題があります。それに対し,各周波数成分の時間微分に関する情報を利用し,凸最適化アルゴリズムによって欠損区間を復元する手法を提案しました。

代表的な論文

残響除去

室内において,床や壁からの反射音が重なって音が余韻を持つことがあり,残響と呼ばれています。残響は音の明瞭度を下げてしまい,音声認識などに悪影響を与えるので,なるべく残響のない (ドライな) 収録音を得るのが望ましいことがあります。事後的に残響を除去する方法として,典型的には複数のマイクロホンを用いて多チャンネル信号処理を行いますが,収録音がモノラルの場合はそのような手法は効果的でなく,単チャンネルの観測信号のみから残響を除去するのは難しい問題として知られています。この非凸最適化問題に対して,畳み込みを行列リフティングによって定式化することで問題を簡単化し,時間周波数領域で残響除去を実現する最適化アルゴリズムを提案しました。

代表的な論文

音声強調

音声にノイズが乗っているときに,綺麗な音声を手に入れる技術を音声強調と呼びます。複数のマイクロホンで多チャンネルの観測データが得られる場合は,ノイズを除去するビームフォーマーを構成することで音声を強調できます。単チャンネルの場合は,ノイズを除去する深層ニューラルネットワークを学習することで音声を強調します。これまでに,定式化や最適化の工夫をしたビームフォーマーの提案や,フィルタバンクと組み合わせた深層ニューラルネットワークに基づく音声強調手法のフィルタバンク側の性質の調査などを行ってきました。

代表的な論文

音源位置推定

音の発せられた方向や位置を推定するには,複数のマイクロホンで空間的に音を収録した上で,到来時間差やマイクロホン間の音量差などの情報を利用します。典型的な方法では音源が十分遠方にあることを仮定して平面波で音の伝搬がモデル化されますが,平面波モデルでは方向推定ができるのみで奥行を推定できません。そこで,遠方であることを仮定せずに,点音源モデルを用いた音源位置推定問題を定式化し,スパース最適化と凸クラスタリングによって推定する方法を提案しました。

代表的な論文

信号処理と DNN の融合

深層ニューラルネットワークを最適化アルゴリズムの中に組み込む方法が画像処理などを中心に盛んに研究されていますが,音響信号処理においてはあまり受け入れられておらず,深層ニューラルネットワーク単体で処理を行うか,順番に適用するのが主流となっています。特に,最適化アルゴリズムの観点から都合の良い深層ニューラルネットワークを構成しようとしたときに,音響信号処理に適した構造を実現するのは簡単ではなく,あまり検討が進んでいない分野だと言えます。そのような構造を持った深層ニューラルネットワークの構成について研究を行っています。

代表的な論文

時間周波数解析

スパース時間周波数解析

時系列データを周波数軸に展開し,各時刻において各周波数成分がどの程度含まれていそうかを調べる時間周波数解析が広く用いられていますが,線形な解析では不確定性原理に起因する曖昧さがついてまわるので,原理的に理想的な解析は実現できません。そこで,非線形な解析をすることで,信号に含まれる情報をより多く引き出そうとするスパース時間周波数解析が研究されています。そのようなデータ解析を凸最適化問題として定式化し,その問題を解くアルゴリズムを構成することで,より細かな解析が可能な表現を最適解として得ることができる手法を提案しています。

代表的な論文

複数の性質を考慮した窓関数

短時間フーリエ変換による時間周波数解析では,窓関数と呼ばれる時間的に局在化した関数を用いて,フーリエ解析に時間の情報を含めています。現存するほとんどの窓関数は周波数特性を最適化することで設計されており,それ以外の性質を考慮して窓関数を設計することはほとんどありません。周波数特性以外の性質を考慮した窓関数として,微分した際の周波数特性を考慮した窓や,変換としての条件数を考慮した窓を提案しています。

代表的な論文

位相に基づく信号処理

時間周波数領域で時系列信号は振幅と位相によって表現されます。どちらも信号を表現するのに不可欠ですが,振幅の方がわかりやすい構造を持っているので,振幅に注目して処理するのが普通であり,位相は無視されることが多いです。一方,わかりにくいとはいえ位相にも明確な構造があり,聴感上も重要であることが知られているので,位相の構造を積極的に利用した音響信号処理に取り組んでいます。特に,位相の時間的な変化は正弦波成分を考慮するのに都合が良い情報を含んでいるので,位相の時間微分である瞬時周波数を利用した処理や最適化アルゴリズムを提案しています。

代表的な論文

無矛盾性に基づく信号処理

時間周波数解析は冗長な表現を与えるのが普通なので,その冗長性が信号処理のヒントになることを期待して,その特徴を積極的に利用した信号処理に関する研究に取り組んでいます。特に,時間領域の信号と対応付いた状態を無矛盾であると呼び,無矛盾でない状態のデータを無矛盾にすることで信号処理に良い効果を与えられないかと考えています。これまで,例えば優決定ブラインド音源分離に対して無矛盾であることを課したアルゴリズムを提案しています。

代表的な論文

音響情報解析

スマブラのキャラ推定

エンターテインメントの一つとしてゲームがあり,その中でも対戦アクションゲームは人気を博していますが,状況が目まぐるしく変わるゲームの状況を機械が自動的に判別するのは簡単ではありません。そのような自動識別を行うためにはゲームのプレイ画面を利用することが考えられますが,プレイ画面にはエフェクトなどの視覚効果が含まれており,カメラも頻繁に動くので,適切な情報を抜き出す難易度は高いです。一方,コントローラーを操作する際の音であれば,操作に関する情報がメインであり,プレイヤーの情報を得るのに利用しやすいデータであると考えられます。ただし,どのボタンを押しているかわからないので,音のみからゲームに関する意味ある情報をどの程度取り出すことができるのかはわかりません。そこで,実際にスマブラで対戦中のコントローラー操作音を録音して解析したところ,操作しているキャラクターを判別できる程度の情報が操作音に含まれていそうであることがわかりました。

代表的な論文

楽器音のモード分解

物体の振動は,モードと呼ばれる基本的な振動状態の重ね合わせで表現できることが多いです。楽器であれば,基音と倍音それぞれについて振動状態が対応して,その組み合わせが音色を決めることが想定されます。音響信号からモードに対応する周波数成分を抽出することで,楽器の音色の解析を行うことができるので,モードに分解するのは有効な手段の一つです。これまで,モード分解による信号の解析を最適化問題として定式化し,それを解くアルゴリズムを与えることで,何らかの意味で最適な解析手法を提案したり,それによる楽器音の合成法を提案しています。

代表的な論文

鳥の鳴き声の解析

人類だけでなく,動物も音声を用いて互いにコミュニケーションしており,その仕組みや実際のやり取りを解明することで,種の理解やより良い飼育方法の実現などができると考えられます。そのためには,動物の発している音声を解析し,どのような場面でどのような特徴のある音を発しているかを調べる必要があります。これまで,鳥類をターゲットとして音響データを解析し,音声の時間周波数解析や識別に関する研究に取り組んでいます。

代表的な論文

物理シミュレーション

音源の設定やモデル化

物理シミュレーションは,初期値や境界値や強制項などの影響で計算結果が変わります。例えば音響現象の場合は波動方程式を解くことになりますが,それらの条件が現実をどの程度反映できるかによって,最終的な計算結果のリアリティが変わってきます。そこで,強制項である音源のモデル化や計算方法について検討を行い,より正確な音源を設定できるようにすることで,より現実的なシミュレーションを行えるようにする研究を行ってきました。特に,方向ごとに音の放射パターンが違うのを模擬するための方法や,それを計測データから推定する手法を提案しています。

代表的な論文

インパルス応答の推定

音響現象をシミュレーションするために波動方程式を解く方法として,時間領域解法と周波数領域解法があります。建築物の音響的な評価には室内インパルス応答が必要なので,より正確なインパルス応答を計算できる方法が良いシミュレーション手法であると言えます。時間領域解法はインパルス応答をそのまま求められるので便利ですが,計算誤差が蓄積することがあります。一方,周波数領域解法は精度面で有利なこともありますが,計算結果をインパルス応答に変換する際に誤差が生じる場合があります。そこで,周波数領域解法の計算結果をインパルス応答に変換する手続きを最適化問題として解釈し,最適化の観点から拡張することで,より良いインパルス応答を推定する手法を提案しています。

代表的な論文

音響計測

縞投影による振動計測

物体が振動すると音が生じるので,音源の理解には振動の理解が必要であり,振動計測が不可欠です。振動の計測には振動ピックアップなどのセンサを設置することがありますが,センサを設置することで振動状態が変わる可能性があるので,非接触に計測できることが好ましいです。そこで,物体に特定のパターンを投影し,そのパターンの変化を時間的に追うことで振動を計測する方法が利用されています。それを音響的に活用するために,楽器やスピーカーに投影したパターンを高速度カメラで撮影し,得られた振動の音響的な解析に取り組んでいます。

代表的な論文
  • R. Hashimoto, K. Yatabe and Y. Oikawa, “Drumhead tuning based on vibration mode visualization using Fourier transform profilometry,” Acoust. Sci. & Tech., vol.45, no.2, pp.106–109, Mar. 2024.
  • A. Nakamura, Y. Yamanaka, K. Yatabe and Y. Oikawa, “Modeling of free-reed instrument considering mechanical nonlinearity of the reed,” 12th West. Pac. Acoust. Conf. (WESPAC), pp.206–209, Singapore, Dec. 2015.
  • Y. Yamanaka, K. Yatabe, A. Nakamura, Y. Ikeda and Y. Oikawa, “Extracting sound information from high-speed video using 3-D shape measurement method,” 12th West. Pac. Acoust. Conf. (WESPAC), pp.30–34, Singapore, Dec. 2015.

多チャンネル観測データの表現

複数のマイクロホンやセンサで音を観測することで音の空間的な情報を得ることができますが,観測のチャンネル数の増加に伴ってデータの量も増大してしまいます。解析や処理などの都合を考えると,多チャンネルで観測した信号を,意味のある形でコンパクトに表現できると好ましいです。観測対象が空中の可聴音であれば波動方程式に従っていると考えられますが,波動方程式を満たす信号は周波数領域で低次元の多様体上に存在するので,その性質を利用して観測データを都合よく表現できると考えられます。そこで,波動方程式を満たすことを根拠に,適切な関数の重ね合わせでデータを表現したり観測系を解釈する方法を提案しています。

代表的な論文

光学計測・イメージング

X 線タイコグラフィのための位相回復

顕微鏡は微小な対象を観察でき,特に電子顕微鏡は原子レベルでの観察ができますが,相互作用が強かったり厚みのある試料を観察するのは簡単ではありません。一方,X 線であれば厚みのある試料に関するデータを取ることができますが,波長が短すぎるために結像系を構成するのが困難であり,レンズの代わりに計算アルゴリズムによって像を得る必要があります。具体的には,X 線の散乱強度のみから複素波動場の位相を復元する問題として定式化され,非凸最適化問題を解くことで像を得ます。これまで,アルゴリズムの工夫や像に関する事前情報を活用することで,より良い像を復元する手法を提案しています。特に,深層ニューラルネットワークを援用することで,計測条件に頑健な再構成アルゴリズムを提案しています。

代表的な論文

干渉計測のための縞解析

干渉計によって干渉縞を生じさせることで,光の位相に関する情報を光強度に変換することができ,その縞を解析することで光の波長程度の細かな情報を得ることができます。そのような縞解析は,解析的なシンプルな方法で行われることが多いですが,計測条件が悪くて誤差が多い場合に不正確な結果を与えることがあります。光の波長よりも細かな情報を得るためには,計測データの誤差に頑健な解析法が求められます。そこで,縞解析を最適化問題として解釈し,これまであまり利用されてこなかった情報を活用することで,計測誤差に強い縞解析手法を提案しています。

代表的な論文

位相分布に対する信号処理

光学計測では,計測したい対象が光の位相に埋め込まれていることが多く,データを解析した結果として位相の時空間分布が得られることがあります。単位円周上で 0 度と 360 度を区別することはできないので,位相は通常の画像とは異なり,0 度をまたいだ点で 360 度にジャンプする不連続性が存在します。この不連続性は位相の表現に起因するものなので,解析や処理の上では無視する必要がありますが,通常の画像処理や解析にはそのような特殊な状況まで考慮した方法はほとんどありません。そこで,位相の不定性によるジャンプを考慮した処理や解析の手法を提案してきました。また,不連続が解消されたデータが波動方程式に従っていると仮定して,音響信号を抽出する処理も提案しています。

代表的な論文