平岡 達也 (Hiraoka, Tatsuya)
Research Interests
- Natural Language Processing
- Word Segmentation / Tokenization
- Morphology
- Named Entity Recognition
- Interpretability
- Linguistics
- Language Acquisition
- Syntax
Contact
Education
- 2019.4 - 2022.3 Tokyo Institute of Technology, Okazaki Lab (Doctor of Engineering).
- Supervisor: Prof. Naoaki Okazaki
- Doctoral Dissertation: Task-Oriented Word Segmentation
- 2017.4 - 2019.3 Nara Institute of Science and Technology, Computational Linguistics Lab (Master of Engineering).
- Supervisor: Prof. Yuji Matsumoto
- 2013.4 - 2017.3 Waseda University, School of Education, Department of English Language and Literature (Bachelor of Arts).
- Supervisor: Prof. Masakazu Kuno
Publications
Refereed
Journal
- Youmi Ma, Tatsuya Hiraoka, and Naoaki Okazaki. Named Entity Recognition and Relation Extraction Using Enhanced Table Filling by Contextualized Representations. Journal of Natural Language Processing, vol. 29, No. 1, pages 187-223, March 2022.
- Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, Naoaki Okazaki. Joint Optimization of Word Segmentation and Downstream Model using Downstream Loss. Journal of Natural Language Processing, vol. 29, No. 1, pages 112-143, March 2022. (In Japanese)
- Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, and Naoaki Okazaki. Recurrent Neural Hidden Markov Model for High-Order Transition. ACM Transactions on Asian and Low-Resource Language Information Processing (TALLIP). Volume 21, Issue 2, Article No.: 36, pp: 1-15. March 2022.
- Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, Naoaki Okazaki. Optimizing Word Segmentation for Downstream Tasks by Weighting Text Vector. Journal of Natural Language Processing, vol. 28, No. 2, pages 479-507, June 2021. (In Japanese, Best Paper Award / 最優秀論文賞)
Conference and Workshop
- Marco Cognetta, Tatsuya Hiraoka, Rico Sennrich, Yuval Pinter, Naoaki Okazaki. An Analysis of BPE Vocabulary Trimming in Neural Machine Translation. In Proceedings of the Fifth Workshop on Insights from Negative Results in NLP, pages 48–50, Mexico City, Mexico, June 2024.
- Teruno Kajiura, Shiho Takano, Tatsuya Hiraoka, Kimio Kuramitsu. Vocabulary Replacement in SentencePiece for Domain Adaptation. In Proceedings of The 37th Pacific Asia Conference on Language, Information and Computation (PACLIC 37). December 2023.
- Tatsuya Hiraoka. MaxMatch-Dropout: Subword Regularization for WordPiece. In Proceedings of the 29th International Conference on Computational Linguistics (COLING), pages 4864-4872, Gyeongju, Republic of Korea, October 2022.
- Youmi Ma, Tatsuya Hiraoka, and Naoaki Okazaki. Joint Entity and Relation Extraction Based on Table Labeling Using Convolutional Neural Networks. In 6th Workshop on Structured Prediction for NLP (SPNLP), pages 11-21, Dublin, May 2022.
- Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, and Naoaki Okazaki. Word-level Perturbation Considering Word Length and Compositional Subwords. In Findings of the Association for Computational Linguistics: ACL 2022, pages 3268-3275, Dublin, May 2022.
- Sho Takase, Tatsuya Hiraoka, and Naoaki Okazaki. Single Model Ensemble for Subword Regularized Models in Low-Resource Machine Translation. In Findings of the Association for Computational Linguistics: ACL 2022, pages (to appear), Dublin, May 2022.
- Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, and Naoaki Okazaki. Joint Optimization of Tokenization and Downstream Model. In Findings of the Association for Computational Linguistics: ACL 2021, Association for Computational Linguistics, August 2021.
- Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, Naoaki Okazaki. Optimizing Word Segmentation for Downstream Task. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings, pages 1341–1351, Association for Computational Linguistics, November 2020.
- Tatsuya Hiraoka, Hiroyuki Shindo, Yuji Matsumoto. Stochastic Tokenization with a Language Model for Neural Text Classification. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 1620–1629, July 2019.
Non-refereed
- Tatsuya Hiraoka, Kentaro Inui. Repetition Neurons: How Do Language Models Produce Repetitions?. arXiv:2410.13497, 2024.
- Ahmed Oumar El-Shangiti, Tatsuya Hiraoka, Hilal AlQuabeh, Benjamin Heinzerling, Kentaro Inui. The Geometry of Numerical Reasoning: Language Models Compare Numeric Properties in Linear Subspaces. arxiv:2410.13194. 2024.
- Kohei Tsuji, Tatsuya Hiraoka, Yuchang Cheng, Tomoya Iwakura. SubRegWeigh: Effective and Efficient Annotation Weighing with Subword Regularization. arXiv:2409.06216, 2024.
- Jesse Atuhurra, Iqra Ali, Tatsuya Hiraoka, Hidetaka Kamigaito, Tomoya Iwakura, Taro Watanabe. Constructing Multilingual Visual-Text Datasets Revealing Visual Multilingual Ability of Vision Language Models. arXiv:2406.15359, 2024.
- 平岡達也, 岡崎直観. 事前学習済みの分散表現は表層的な知識を獲得しているか. 言語処理学会第30回年次大会 (NLP2024), pp. 2880-2885, 2024年3月.
- 平岡達也, 岩倉友哉. 文書分類のためのクラス情報を考慮したトークン分割. 言語処理学会第30回年次大会 (NLP2024), pp. 1640-1644, 2024年3月.
- 辻航平, 平岡達也, 鄭育昌, 岩倉友哉. サブワード系列の変化が固有表現抽出に与える影響の調査. 言語処理学会第30回年次大会 (NLP2024), pp. 708-712, 2024年3月.
- Tatsuya Hiraoka, Naoaki Okazaki. Knowledge of Pretrained Language Models on Surface Information of Tokens. arXiv:2402.09808. 2024.
- 梶浦照乃, 髙野志歩, 相馬菜生, 平岡達也, 倉光君郎. ドメイン適応のためのSentencePieceにおける語彙追加. 第257回 自然言語処理研究発表会. 2023.
- Tatsuya Hiraoka, Tomoya Iwakura. Tokenization Preference for Human and Machine Learning Model: An Annotation Study . arXiv:2304.10813. 2023.
- Tatsuya Hiraoka, Tomoya Iwakura. Downstream Task-Oriented Neural Tokenizer Optimization with Vocabulary Restriction as Post Processing. arXiv:2304.10808. 2023.
- 平岡達也, 岩倉友哉. 人間と機械学習のモデルそれぞれに扱いやすいトークン分割に関する実験と考察. 言語処理学会第29回年次大会 (NLP2023), pp. 727-731, 2023年3月.
- 平岡達也, 岩倉友哉. 語彙制約付きニューラル単語分割器を用いた後処理としての単語分割の後段タスクへの最適化. 言語処理学会第29回年次大会 (NLP2023), pp. 1503-1507, 2023年3月.
- 平岡 達也, 高瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. 単語の長さと構成要素を考慮した単語レベルの摂動. 言語処理学会第28回年次大会 (NLP2022), pp. 1455-1460, 2022年3月.
- 植木 滉一郎, 平岡 達也, 岡崎 直観. 記事に忠実ではない訓練事例も活用した見出し生成モデルの忠実性の改善法. 言語処理学会第28回年次大会 (NLP2022), pp. 2002-2007, 2022年3月.
- Youmi Ma, 平岡 達也, 岡崎 直観. 畳み込みニューラルネットワークを用いた表ラベリングによる固有表現認識と関係抽出. 言語処理学会第28回年次大会 (NLP2022), pp. 1197-1202, 2022年3月.
- 平岡 達也, 高瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. 後段モデルの損失値を用いた単語分割のタスクへの最適化. 言語処理学会第27回年次大会 (NLP2021), pp. 486–491, 2021年3月.(若手奨励賞)
- 昇 夏海, 平岡 達也, 丹羽 彩奈, 西口 佳佑, 岡崎 直観. 企業情報を考慮したキャッチコピーの自動生成. 言語処理学会第27回年次大会 (NLP2021), pp. 450–454, 2021年3月.
- Youmi Ma, 平岡 達也, 岡崎 直観. BERTを用いたTable-Fillingによる固有表現抽出と関係抽出. 言語処理学会第27回年次大会 (NLP2021), pp. 1274–1279, 2021年3月.(筆頭著者が若手奨励賞)
- 平岡 達也, 高瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. RNNにより高次の依存を考慮したニューラル隠れマルコフモデル. 言語処理学会第26回年次大会 (NLP2020), pp. A4–2 (4 pages), 茨城大学(茨城県), 2020年3月.
- 平岡 達也, 高瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. RNNによる遷移確率計算を用いた隠れマルコフモデル. 第242回自然言語処理研究会, 2019-NL-242(2), pp. 1–6, 奈良先端科学技術大学院大学(奈良県), 2019年10月. (若手奨励賞)
- 平岡 達也,進藤 裕之,松本 裕治.確率的トークナイザーを用いたニューラル感情分析,言語処理学会第 25 回年次大会発表論文集 (NLP2019),2019.
- 平岡 達也,進藤 裕之,松本 裕治.教師なしニューラル単語分割を用いた分散表現獲得,研究報告自然言語処理(NL),Vol.2018-NL-236,No.2,pp.1-7, 2018.
Non-refereed Presentations
- 辻 航平, 平岡 達也, 鄭 育昌, 岩倉 友哉. SubRegWeigh: サブワード正則化による高速アノテーション補正. 第19回NLP若手の会シンポジウム, 2024年9月.
- 石倉 誠也, 山田 寛章, 平岡 達也, 山田 広明, 徳永 健伸. 内心描写付きの対話データを用いた非著名人の性格特性再現. 第19回NLP若手の会シンポジウム, 2024年9月.
- 昇 夏海, 平岡 達也, 丹羽 彩奈, 岡﨑 直観, 脇本 宏平, 黒田 和矢, 西口 佳佑. 企業情報を考慮した広告文の自動生成. 第15回NLP若手の会シンポジウム, 2020年9月.
- 平岡 達也, 高瀬 翔, 岡崎 直観. RNNによる遷移確率計算を用いた隠れマルコフモデル. 第14回NLP若手の会シンポジウム, p. 79, 2019年8月.
- 平岡 達也.ネットスラング『なう』についての統語論的考察,日本英語教育学会・日本教育言語学会第47回年次研究集会,2017.
Awards
- 第10回 AAMT長尾賞学生奨励賞 / AAMT Nagao Student Award
- Tatsuya Hiraoka. Task-Oriented Word Segmentation.
- 2021年度 情報処理学会研究会推薦博士論文 / Recommended Doctoral Dissertation of 2021, Information Processing Society of Japan (IPSJ)
- Tatsuya Hiraoka. Task-Oriented Word Segmentation.
- 解説記事
- 2021年度東京工業大学情報工学系知能情報コース修了代表者
- 2021年度言語処理学会論文賞(Vol. 28),最優秀賞 / First-place Best Paper Award (Journal of Natural Language Processing).
- 平岡 達也, 高瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観.テキストベクトルの重みづけを用いたタスクに対する単語分割の最適化.
- 東京工業大学つばめ博士学生奨学金(2020年度,2021年度特別奨学金)/ Tokyo Tech Tsubame Scholarship for Doctoral Students
- 特に優秀な学業成績を修めた学生(2年次~3年次の全奨学生の20%程度)/ Selected as a student who shows outstanding academic performance
- 言語処理学会第27回年次大会(NLP2021).若手奨励賞 / Young Researcher Award (NLP2021)
- 2021年3月18日.平岡 達也.後段モデルの損失値を用いた単語分割のタスクへの最適化.
- 第242回自然言語処理研究会. 若手奨励賞 / Young Researcher Award (IPSJ-NL 242)
- 2019年10月25日. 平岡 達也. RNNによる遷移確率計算を用いた隠れマルコフモデル.
Resarch Grants
- 2024.04 - (suspended due to living abroad)
- 科学研究費助成事業(科研費) 若手研究 / JSPS KAKENHI, Grant-in-Aid for Early-Career Scientists
- 自然言語処理に最適な語彙と分割の仕方を自動で獲得する人工知能の創出
- 2021.10 - 2024.4
- 国立研究開発法人科学技術振興機構 (Japan Science and Technology Agency, JST), ACT-X.
- 人間とAIの双方に扱いやすいことばの単位の創出
Work Experience
Full-time Job
- 2024.6 - current, Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)
- Research Associate I (Postdoc)
- MINT-NLP Team
- 2022.4 - 2024.5, Fujitsu Limited.
- Ph.D Researcher
Part-time Job
- 2024.8 - current, Institute of Physical and Chemical Research (RIKEN).
- Research Scientist
- 2023.6 - 2024.3, Tokyo Institute of Technology.
- Part-time Researcher
- 2020.4 - 2022.3, The New Energy and Industrial Technology Development Organization.
- Research Assistant
- 2019.4 - 2020.3, The project of NICT: “Research and Development of Deep Learning Technology for Advanced Multilingual Speech Translation”.
- Research Assistant
- 2019.1 - 2022.3, Retrieva, inc.
- Part-time researcher
- 2017.8 - 2017.9, Retrieva, inc.
- Internship
- 2017.5 - 2019.3, Institute of Physical and Chemical Research (RIKEN).
- Research Assistant
Teaching Experience
- 2023.11. 東京工業大学 / Tokyo Institute of Technology.
- Part-time lecturer, 先端通信システム特論 / Advanced Communication System Engineering. Tokyo Institute of Technology.
- 2022, 2023, 2024. 愛媛大学 / Ehime University.
- Part-time lecturer, オブジェクト指向プログラミング / Object Oriented Programming.
Activity
- Other Publications
- 博士号とった人に聞いてみた. 情報処理 64 (6), 298-298, 2023-05-15.
- 単語分割の最適化に関する研究は雑談と偶然の出会いに育まれた.2021年度言語処理学会論文賞(Vol. 28)に関する学会記事.
- Talks
- 生成AI時代の自然言語処理における産学官の役割と課題 パネルディスカッション. 言語処理学会第30回年次大会 (NLP2024), 2024.03.15.
- 未来の博士フェス2023 パネルディスカッション「産業界で活躍する博士人材」. 文部科学省, 国立研究開発法人科学技術振興機構, 2023.9.13. 録画
- 最長一致法のためのサブワード正則化手法(MaxMatch-Dropout)とその周辺の話. NLPコロキウム, 2022.12.14. (録画)
- テキストベクトルの重みづけを用いたタスクに対する単語分割の最適化.言語処理学会第28回年次大会,招待論文.
- 文系的な興味を理系的な達成目標に変換する. 言語処理学会第27回年次大会ワークショップ, 若手研究者交流のニューノーマルを考える.
- Committee
- 生成AI時代の自然言語処理における産学官の役割と課題(共同提案者)
- 言語処理学会 会誌「自然言語処理」 編集委員 / Jounal of Natural Langauge Processing, Associate Editor.
- 2023.9 - current
- 言語処理学会年次大会,運営委員(プログラム編成担当)/ The annual meeting of the Association for Natural Language Processing, Program Committee.
- 第30回年次大会(NLP2024)
- 第31回年次大会(NLP2025)
- NLP若手の会 (YANS),運営委員(会場担当) / Young Researcher Association for NLP Studies (YANS), Committee.