機械学習による細胞運動パターンの解析

 

細胞の集団遊走


がん細胞などでは,細胞集団(コロニー)全体が移動していくことが最近わかってきた。この運動を集団遊走(Collective migration)という。細胞の集団遊走は,がん細胞の転移や浸潤,組織の発生などで重要な役割を果たすと考えられているが,それらをうまく解析することが難しいため,未だ十分に理解されてはいない。

この論文では,細胞の集団遊走を解析するために,機械学習を利用して,細胞ひとつひとつの動きのパターンを分類するという,これまでにない新規な方法論を示す。


細胞の性質によって運動パターンが異なる


細胞の集団遊走では,移動を先導する細胞(リーダー細胞)とそれに追従する細胞(フォロワー細胞)が存在することが知られている。腫瘍細胞は一般的に上皮系細胞という種類の細胞であるが,腫瘍の悪性化などによって,上皮系細胞から間葉系細胞に性質が変わることがある。この変化を上皮間葉転換(EMT)と呼び,EMTによって細胞は高い移動性を獲得する。腫瘍細胞のコロニーにおいては,EMTを起こし,移動性が高くなった細胞がリーダー細胞としてふるまい,コロニー内の上皮系細胞をひっぱり,細胞が集団として移動していくとの仮説がある。

今回の研究では,細胞集団内での個々の細胞の運動パターンを「似たもの」で分類する方法を開発する。これにより,移動の様子が「似た」細胞が,どのような分子的特性を共通としているかについても探索することができる。

実験の結果から,細胞の運動パターンで分類すると,EMTを誘導させた細胞とそのごく近傍の細胞と,それ以外の細胞ではっきりと分けることができた。これは前者が「リーダー細胞」,後者が「フォロワー細胞」であるとの作業仮説を支持する。


時系列クラスタリング


細胞の運動パターンを解析する手法としては,機械学習のひとつである「時系列クラスタリング(Time-series clustering)」という手法を採用した。これは,直観的には,たとえば台風をその移動コースで似たものを同じグループにまとめていくといった場合や,株価の変動が似た企業群を同じグループにまとめていく,といった考え方に近い。

細胞の移動の様子は,時間ごとの位置データ(座標)で与えられる。今回の実験では,ナノファイバーを基材とした,生体に類似した環境下で細胞集団の移動をタイムラプス観察することで,元データを得た。ここで細胞集団には,EMTを誘導させた細胞を少し混ぜておく。

計算方法の概要は下図に示す。

簡単に説明すると,まず,細胞の時系列位置データ(1)を,移動開始時を原点とするように標準化処理(2)し,ある2つの細胞の時系列位置データの間の「違い」を計算する。この「違い」は最小二乗法における二乗残渣に相当する。すべての組み合わせの二乗残渣を計算すると,距離行列(3)というマトリクスが得られる。

次に,このマトリクスを,「次元圧縮」(4)と呼ばれる手法で,各細胞のデータを2次元に圧縮する。なお次元圧縮にはいろいろな方法(たとえば主成分分析などもそのひとつ)があるが,今回はU-MAPという手法を利用した。

最後に,これらのデータを2次元平面上にプロットし,k-meansという標準的な方法(5)を用いて,近い位置にある細胞を同一クラスターとして分類(6)した。


分類した結果をみると,興味深いことに,EMTを誘導させた細胞とその近傍の細胞が同一のクラスターとして分類された。これらの細胞群が,集団の中ではリーダー細胞としてふるまっていると考えられる。

今回の場合,リーダー細胞には,EMTを起こした細胞だけでなく,その周辺の細胞も含まれていることから,EMTを起こした細胞は,何らかの生物学的な作用によって,まわりの細胞も「リーダー細胞」となるよう,ファシリテートしている可能性が示された。


参考文献

Z. Xin, M. K. Kajita, K. Deguchi, S. Suye, S. Fujita, Time-Series Clustering of Single-Cell Trajectories in Collective Cell Migration. Cancers 2022, 14, 4587. https://doi.org/10.3390/cancers14194587