特許庁等が開示している情報をもとに、いろいろまとめてみました。あまり役に立たないというか、既出の情報ですが、せっかくまとめたのでここで紹介させてもらいます。
まずは、年ごとの特許出願件数のグラフ(グラフ1)です。停滞気味の日本だけだと気が滅入るので、景気づけに中国の出願件数を入れてみました。JPOは日本特許庁、SIPOは中国特許庁のことです。2016年の中国の出願件数は軽く100万件を超えてしまいました。ものすごい伸びです。中国特許文献の蓄積数もものすごい伸びているはずなので、世界公知を採用する日本の特許庁が中国の文献もサーチしようと取り組んでいることにも頷けます(詳細)。なお、2016年の日本と中国の特許出願件数をそれぞれの人口で割ってみたところ、日本人1人あたりの出願件数は、中国人1人あたりの出願件数の2.5倍程度でした。
次は、年ごとの実用新案・意匠・商標出願数のグラフ(グラフ2)です。こちらは日本だけです。実用新案と意匠の出願数は特許出願数と同様に停滞しています。一方、2016年の商標出願数が過去十年で最高となっています。その理由の一つを何となく思いつくのですが、ここでは言及しません。
次は、在外者による特許出願件数の主要国別のグラフ(グラフ3)です。中国だけは伸び続けています。中国について、グラフ1と見比べるとグラフ3の伸びが緩やかであるように見えますが、伸び率(前年比)を計算すると、ほぼ同じような値(前年比≒1.2倍程度)となります。
次は、特許査定率のグラフ(グラフ4)です。これもありふれたグラフですが、せっかくまとめたので紹介させてもらいます。日本以外については最近のデータを見つけることができませんでした。EPO以外は似ています。
次は、特許審査(待ち)期間の主要国比較のグラフ(グラフ5)です。日本はついに10ヶ月を切りました。2012年のJPOの審査官1人あたりの審査件数はUSPTOの3倍程度、EPOの5倍程度というデータが特許庁にありました。外部の登録調査機関を利用しているとは言え、日本の審査官はすごいです。
次は、審査(待ち)期間の法域別のグラフ(グラフ6)です。商標と意匠は安定しており、特許が商標と意匠に追い着いてきました。
最後は、早期審査ありの審査(待ち)期間の法域別のグラフ(グラフ7)です。一度、着手してしまえば、どの法域も審査に要する期間は大きく変わらないのでしょうか。グラフ6と比較すると、どの法域でも早期審査の事情説明書を提出することの効果は大きいと言えます。
IOT関連技術、AI関連技術に関する特許出願の審査ハンドブックに事例が追加されたようです。
特許庁ウェブサイトのこのページの一番下に参考資料としてまとめられています。
AI関連では、
・事例3-2:リンゴの糖度データの予測に機械学習を適用した事例
・事例2-13:音声対話システムの対話シナリオのデータ構造
・事例2-14:宿泊施設の評判を分析するための学習済みモデル
・事例31:車載装置及びサーバを有する学習システム
・事例32:製造ラインの品質管理プログラム
が追加されたようです。
・事例3-2
この事例は、「所定期間分のリンゴの糖度データ及び過去・将来の気象条件データを入力として、将来の出荷時のリンゴの糖度データを予測して出力する」特徴を持つ請求項が「発明」に該当する例です。この請求項の例では請求項に人工知能関連技術は明示されておらず、従来の請求項のスタイルと何ら変わりありません。ソフトウェア関連の審査基準からして明らかに発明に該当すると言えるでしょう。本事例が追加された意義は、予測が機械学習であるという点にあるようです。請求項に機械学習は現れないのですが、明細書の課題解決手段には、「予測のための分析が機械学習で行われる」ことと、「機械学習の実現法」と、が開示されていることが想定されています。
機械学習を利用した予測について請求項を作成する際には、多くの場合、この請求項のスタイルが採用されると思います。以前のブログにも書いたように、多くの人工知能関連技術において、入力データを決定することが発明であり目的を達成するための重要なファクターといえますし、機械学習には技術的な特徴が現れない場合が多いと考えるからです。
なお、ここで紹介した事例3-2は発明該当性を論じるための事例であるため、明細書内の記述の妥当性について特許庁は何も述べていないことに注意が必要です。実際に特許出願をする際には、例示された明細書の開示を超える内容が当然に必要になると考えます。
例えば、明細書の開示例として機械学習の進め方が示されていますが、実際に特許出願をする場合にはより詳細に機械学習について開示すべきと考えられます。また、予測を行うための開示が機械学習のみであると、過度の一般化に該当するおそれもありますので、機械学習以外の予測法があり得るのか否か、機械学習以外の予測法が出願人にとって有用であるのか否か等を検討し、必要に応じて機械学習以外の予測法を明細書に書くべきと考えます。
・事例2-13、事例31、事例32
事例2-13は、音声対話システムで利用される対話シナリオのデータ構造としての請求項が「発明」に該当する例です。
事例31は、車載装置で行う画像認識のパラメータを、サーバ内での機械学習で改善する請求項の進歩性を否定する例です。
事例32は、製造ラインの品質管理を行うために、サーバ内で検査結果と製造条件に基づいて機械学習を行う請求項の進歩性を否定する例です。
これら例では、実施形態として人工知能や機械学習が使用されていますが、一読したところ、人工知能関連技術であることが発明該当性や進歩性の結論に影響するものではないようで、新たな気づきは得られませんでした。単に人工知能関連技術の事例を追加したという位置づけでしょうか。近日中に、特許庁審査官の方が追加事例を解説する研修会がありますので、この事例の位置づけを確認してこようと思います。
・事例2-14
この事例は、学習済モデルという請求項が「発明」に該当することを示す例です。非常に有用な事例と思います。今のところ、特許庁は、学習済モデルというカテゴリーの請求項が「発明」に該当すると考えているようです。裁判所がどう考えるかは分からないものの、しばらくの間、学習済モデルという請求項がカテゴリーの不備で拒絶される心配はないため、出願戦略の選択肢が増えますね。この事例がなければ学習済モデルではなくプログラムとして請求項を作成したかもしれません。
さらに、この事例ではニューラルネットワークの構造を特徴として捉えて学習済モデルの請求項を作成しています。学習によって変化し得る重み付け係数も請求項に登場しますが、入出力の関係を示唆するほど詳細に重み付け係数の特徴が請求項で規定されているわけではありません。ニューラルネットワークの構造の特徴を記述するために必要な程度に請求項で重み付け係数が規定されています。これらのことから、少なくとも、特許庁はニューラルネットワークの構造が「発明」に該当すると考えているようです。今後、人工知能関連技術を出願し得る出願人は、ニューラルネットワークの構造に新規性や進歩性があるか否かを常に意識する必要がありそうです。むろん、ニューラルネットワークの構造を出願することが出願人の出願戦略上有意であるか否かは常に検討する必要があります。
以上が今回追加された事例でした。追加された事例においては、ニューラルネットワーク、サポートベクターマシンが登場しますが、他の技術、例えば、強化学習についても追加してあれば良かったと思います(強化学習は、人工知能関連技術で重要な分野になるのではないかと個人的に感じています)。今後の追加に期待しましょう。
前回までの記事
プログラム著作物の争点(その1)
プログラム著作物の争点(その2)
プログラム著作物の争点(その3)
前回(その3)では、プログラムのソースコードが、原告プログラムと被告プログラムとの間で類似し、かつ、創作性がある部分となっていないとプログラム著作物の著作権侵害にはならないということをお話ししました。このことが判示されている典型的な2個の判決文(一部)を紹介します。
プログラムを作成者は、機能を実現できるソースコードの選択肢のなかから実際に記述するものを選択していくことになります。この選択肢のなかからどれを選んだかというところに、プログラム作成者の個性が発揮され、そこにプログラム著作物の創作性が認められると、上記の判例は言っています。ソースコードの選択肢が多い機能を実現するプログラムほど、創作性が認められやすいということになります。あくまでも、ソースコードの選択肢が多い機能であることが重要であって、機能そのものの新しさや突飛さは重要な意味をなさないということになります。なお、宇宙開発事業団事件の判決文はその後の判決で多く引用されており、現状の判断基準になっていると考えてよいでしょう。
このように、プログラムが実現する機能の新しさや突飛さはプログラム著作物として保護されるか否かの判断において重要な意味をなさない一方で、プログラム特許においては、機能の新しさ(新規性)や突飛さ(進歩性)によって特許性(創作性)の有無が決定づけられます。逆に、プログラム著作物において創作性が認められるようなソースコードをクレームに書いても、そもそも発明であることが否定されて特許にはなりません(コンピュータ・ソフトウエア関連発明の特許審査基準の2.2.3)。
図4のように、著作権法と特許法とでは双方とも権利客体としてプログラムが規定されているものの、プログラムのうち保護される部分がまったく異なっていることをお分かり頂けたかと思います。
このような結論を、さも簡単に述べることができるのも、(その1)で述べたように、多くの判例で散々揉めてきた歴史の賜であると言えます。
今回はこのぐらいにしておいて、次回、最終回は、「混銑車自動停留ブレーキ及び連結解放装置プログラム事件」(知財高裁 平成21(ネ)10024号)を紹介します。この判例では、上述した判断基準を前提として特許の新規性とプログラム著作物の創作性との関係が議論されています。
中国特許審査基準のプログラムに関する部分が2017年4月に改正されるということで、改正審査基準を見てみました。あくまでも分かる範囲ですが、改定点には以下の2点が含まれます。
1)ビジネスモデルも含めてプログラムを記録した記録媒体が特許の対象となり得る。
2)プログラムと協働する装置の装置クレームの記載要件が緩和される。
今回の審査基準改正を考慮し、クレームと明細書の記載はどうすべきについては、今後の検討事項です。何か分かり次第、報告させてもらいます。現在、繁忙期でそこまで手が回らないというのが正直なところです。とりあえず、改正の内容だけ紹介させてもらいます。
一、第二部第一章第4.2節の改正
《原文》
在《专利审查指南》第二部分第一章第4.2节第(2)项之后新增一段,内容如下:
【例如】
涉及商业模式的权利要求,如果既包含商业规则和方法的内容,又包含技术特征,则不应当依据专利法第二十五条排除其获得专利权的可能性。
《和訳》
特許審査基準の第二部第一章第4.2節第(2)項の後に追加があり、内容は以下の通り:
【例えば】
ビジネスモデルのクレームが、商業規則と方法の内容を含み、さらに技術的特徴を含んでいれば、特許法第25条を根拠に、その特許の獲得可能性を排除すべきではない。
《解説》
どのような技術的特徴をどの程度まで含んでいればよいのかは分かりませんが、ビジネスモデルも特許になり得るようです。
二、第二部第九章第2節第一段の改正
《原文》
将《专利审查指南》第二部分第九章第2节第(1)项第一段中的
“仅仅记录在载体(例如磁带、磁盘、光盘、磁光盘、ROM、PROM、VCD、DVD 或者其他的计算机可读介质)上的计算机程序”修改为“仅仅记录在载体(例如磁带、磁盘、光盘、磁光盘、ROM、PROM、VCD、DVD 或者其他的计算机可读介质)上的计算机程序本身”。
《和訳》
特許審査基準の第二部第9章第2節第(1)項第一段の中の『記録媒体(例えば磁気テープ、磁気ディスク、CD、磁気ディスク、ROM、PROM、DVD、VCD、その他のコンピュータ読取可能な媒体)上のコンピュータプログラム』は、『記録媒体(例えば磁気テープ、磁気ディスク、CD、磁気ディスク、ROM、PROM、DVD、VCD、その他のコンピュータ読取可能な媒体)上のコンピュータプログラム自体』へと改正。
《解説》
ここでは特許とならないものとして『記録媒体上のプログラム』が挙げられていたところ、それが『記録媒体上のプログラム自体』へと改正されました。プログラムが記録媒体と不可分にクレームされていれば、よさそうな印象を受けます。
二、第二部第九章第2節第三段の改正
《原文》
将《专利审查指南》第二部分第九章第2节第(1)项第三段第一句中的“仅由所记录的程序限定的计算机可读存储介质”修改为“仅由所记录的程序本身限定的计算机可读存储介质”。
《和訳》
特許審査基準の第二部第9章第2節第(1)項第三段第一句中の「記録されたプログラムだけにより限定されたコンピュータ読取可能な記録媒体」を「記録されたプログラム自体だけにより限定されたコンピュータ読取可能な記録媒体」へと改正。
《解説》
ここでも特許とならないものとして『プログラムによって限定された記録媒体』が挙げられていたところ、それが『プログラム自体によって限定された記録媒体』へと改正されました。すいません、うまく翻訳できず、プログラム自体によって限定ということの真意が読み取れません。意味が分かったら、ここで報告させてもらいます。
三、第二部第九章第3節の改正
《原文》
删除《专利审查指南》第二部分第九章第3节第(3)项中的例9。
《翻訳》
第二部第九章第3節第(3)項の例9を削除。
《解説》
ある言語処理を行うことにより学習内容を決定する学習システム(装置)において、処理を行うプログラムのモジュールがクレームの構成要件に含まれているものが特許の対象とならないものとして例示されていましたが、この例が削除されました。
四、第二部第九章第5.2節の改正(1)
《原文》
将《专利审查指南》第二部分第九章第5.2节第1段第1句中的“即实现该方法的装置”修改为“例如实现该方法的装置”。
《翻訳》
特許審査基準の第二部第9章第5.2節第1段第一文の中の「方法を実現させる装置」を「例えば方法を実現させる装置」へと改正。
《解説》
文章の全体は、「コンピュータプログラムに関するクレームを、方法クレームとして書いても、“例えば”当該方法を実現させる装置クレームとして書いてもかまわない」というように改正されました。“例えば”が挿入されたことによって、プログラム記録媒体のクレームが特許され得るようになった印象を受けます。
四、第二部第九章第5.2節の改正(2)
《原文》
将《专利审查指南》第二部分第九章第5.2节第1段第3句中的
“并详细描述该计算机程序的各项功能是由哪些组成部分完成以及如何完成这些功能”修改为“所述组成部分不仅可以包括硬件,还可以包括程序”。
《翻訳》
特許審査基準の第二部第9章第5.2節第1段第三文の中の「コンピュータプログラムの各機能がどの構成部で如何に果たされるかについて詳細に記述しなければならない。」を「ハードウェアだけでなく、プログラムも構成部分に含むことができる」へと改正。
《解説》
プログラムが関連する装置クレームはどう書かれるべきかを述べた文章の改正です。プログラムも装置クレームの一部を構成できるように改正されたと思われます。
詳細はこちらです。
この勉強会は主催者の方が運営しているウェブサイトのアクセスログをニューラルネットワークで学習し、アクセスログの特定のパラメータに基づいて、ウェブサイトからの離脱率を予測するという内容でした。
勉強会はハンズオンと呼ばれる形式でした。私はハンズオンの勉強会に初めて参加しましたが、ハンズオンは、自分自身でコーディングをしながらみんなで勉強するといった形式の勉強会だそうで、主催者の方をはじめ、詳しい方が多く参加されているようです。事前に予習し、積極的に参加するほど得られる成果は大きくなりそうです。
当日は、ハンズオンの他に3人の方が発表されました。
1.超解像関連の技術
2.TensorFlowで写真をゴッホ風の絵に変換
3.人工知能とデザインについて
という内容でした。
1.の超解像技術は、例えば、低解像度の画像から高解像度の画像を生成するような技術で、低解像度の画像を入力、高解像度の画像を出力としたCNNを学習すると、低解像度画像の高解像度化をすることができるとのことでした。ちょっと前にgoogleのニュースなどが話題になりましたが、それに類する技術のようです。そのときはどんな魔法?と思いましたが、技術的な説明を聞いてコンセプトはつかめたように思えました。私の知識不足で理解できなかったことも多かったのですが、論文等も紹介して頂いたので機会があれば勉強したいと思います。
制御系の仕事をしていると画像処理関係の特許技術が関連してくることも多いため、覚えておいて損はないように思えました。
2.も以前話題になりました。そのときはどうするのかと思いましたが、この話も技術説明を聞いてコンセプトは理解できましたように思えました。元画像と生成画像のとの差分と、画風画像の特徴量と出力画像の特徴量の分布の差分との和に基づいて学習するのだとか。うまいこと考えますねえ。こちらも画像処理関係の技術であるため、機会があればもう少し勉強しておこうと思います。
3.はデザインの話でした。懇親会で講師の方のお話を伺いましたが、ウェブサイトでのユーザーの行動解析によって商品購入を動機づけるレコメンドをするなど、現実のビジネスにインパクトを与えるアイディアをお持ちのようでした。人工知能はまだ話題先行のように思えますので、実際にビジネスに役立つアプリケーションを考えるのはとても大事ですよね。
ハンズオン、発表のいずれも私にとって刺激になりました。この勉強会は無料で開催されており、私たちはとても気軽に参加できますが、主催者の方々が無料で企画、運営するのはとても大変のように思えます。スポンサー企業様と主催者の方々に感謝です。今後も機会があれば参加したいと思います。
Tensor Flowのロゴ(例えばこのリンク)を見るといつも弁理士の役目を思い出します。このロゴはある方向から見るとT、別の方向から見るとFに見えるのですが、私は弁理士としていつもこういうスタンスで打ち合わせに臨まなきゃいかんと思っています。発明は見方を変えると全く違う姿になるぞと。。。
さて、日本の特許業界は繁忙期なので今回は小ネタです。
Tensor Flow。人工知能に興味のある方なら一度は耳にしたことがあると思います。実際に触ったことがある方も多いかもしれません。オープンソース化から1年ちょっと経過したようです。Tensor Flowに限らず、人工知能開発のための各種のライブラリが無料で公開されています。私は、Tensor Flow公開のニュースを聞くまで、このようなライブラリの無料公開が行われていることを知りませんでしたので、ニュースを聞いてちょっとした衝撃を受けました。Tensor Flowを使えば、素人(例えば私)でもアイディアと少しのプログラミング知識だけで、身近な問題を解決する技術を開発することができるのではないか?
ちょっと前まで、技術開発は専門知識を身につけた人材が開発環境の整った開発部に属することで初めて実現される、ある種の特権のようなものであったと思うのです。ですが、誰でも無料でライブラリを使えるならば、人工知能開発の少なくとも一部についての障壁は存在せず、誰でも開発者になれるように思えます。ソースデータをネットで収集し、Tensor Flowを使って機械学習を行えば、結構いろいろできるように思います。
実際、ネット上には「Tensor Flowで○○をやってみた。」といった内容の記事がたくさんアップされています。開発の障壁が下がった世界。一般人としてはとても良い世界のように思えます。ちょっとしたアイディアから意味のあるものをつくり出すことができる可能性があるわけですから。
一方、特許業界人としてその世界を見ると、かなり大変な状況なのではないかと思います。人工知能関連技術は他の技術と比較して、進歩性ありとされる技術のレベルが極めて速い速度で上がっていくように思えるからです。専門的な知識を持った開発者が自社の設備を使って開発を進める一方、専門的な知識を持っていない人でも自分のアイディアをちょっと試してみることができる。そして、ある程度の成果が得られた場合に、それをネットで公開する人も多い。それって進歩性判定の基礎となる公知文献が、極めて速い速度で増えていくことになるのでは?少なくとも、自動車のエンジン開発等、特殊な環境が必須になる一般の分野と比較して遥かに進歩性のレベルが上昇しやすいように思えます。大変な時代になってしまったと思います。特許業界人としては。人工知能関連技術を開発し、特許化する意志のある企業はものすごい速さで出願していく必要があるように思えます。
先日、海外企業(特に米国企業、中国企業)に比べて日本企業による人工知能関連の出願が遅れているというニュースが報じられていました。日本企業もがんばってほしいなあ~。
第1回のエントリはこちら
第2回のエントリはこちら
第3回のエントリはこちら
ニューラルネットワークに関連した開発においては、
1.入力データ、出力データの選定
2.ニューラルネットワークの構造決定
以上、2つのステージでたくさん発明がうまれそうです。
1.においては、目的を達成するためにどのような入力(または出力)とすべきか。これを決定すること自体が重要な発明と言えます。今回の開発では、「文書表現上の癖」や「論理展開上の癖」で執筆者を高精度に推定可能であると検証できたこと自体が発明と言えます。
最近はやりのディープニューラルネットワークであれば、どのような入力データが目的達成のために重要であるのか考えることなく、多数のデータを入力してディープニューラルネットワークによる学習を進めることで有用な結果が得られる可能性があります。
しかし、そうであっても、目的の達成に大きく寄与する入力データが多数の入力データの中のどれなのかを特定することが重要であると私は考えます。特許請求項は必須の要素のみを書くべきだからです。
必須の入力データAを特定できた場合の権利化戦略としては、種々の戦略が考えられます。ここではいくつかピックアップして書きたいと思います。
●まず、学習済のデータで推定を行う装置を以下のような請求項として表現した場合の戦略をいくつか挙げたいと思います。
「入力データAを取得する取得部と、
機械学習済の情報に基づいて前記入力データAを出力データBに変換する変換部と、
出力データBに基づいて○○を推定する推定部と、を備えるC装置。」
・入力データA(場合によっては出力データBも)が特徴であり、機械学習の過程は特徴としない。
第1回~第3回のエントリで体験したように、入力データを決定することが発明であり、目的を達成するための重要なファクターといえます。また、機械学習を進めるための具体的な技術は汎用的な技術で充分というケースは多いと考えられます(第1回~第3回のエントリで示した例もこれに該当するように思えます)。
・学習済のデータで推定を行い、出荷後には学習しない装置においては、機械学習を行う学習部を構成要件に含めないような請求項にすることが重要になると考えられます。学習部が構成要件に含まれると、出荷前に学習し、出荷後に学習しない装置を直接侵害で差し止めること等が不可能になります。
・ただし、「機械学習済の情報に基づいて」という文言で不明瞭とならないように請求項または明細書で対策をする必要があるでしょう。機械学習を進めるための具体的な技術が汎用的な場合は、汎用的であることを明細書で説明し、発明の特徴でないならばそのことを明細書で説明して実施可能要件を充足するようにしておくべきです。
・機械学習後のパラメータ、例えば、重み係数やバイアス等は、機械学習によって作成されるため、プロダクトバイプロセスの審査基準に適合する内容になるように明細書を書いておくと好ましいと考えます。
・発明の特徴は入力データAにあるため、入力データの特徴を上位概念から下位概念に展開するのが好ましいと考えます。第1回~第3回のエントリでの例であれば、句読点の統計、接続詞の統計、文末表現の統計など、切り口はたくさんありそうです。
●次に、学習を行うことが可能な装置を以下のような請求項として表現した場合の戦略をいくつか挙げたいと思います。
「サンプル入力データaと正解データbの組に基づいて前記サンプル入力データaを前記正解データbに変換するパラメータを機械学習する学習部と、
入力データAを取得する取得部と、
前記パラメータに基づいて入力データAを出力データBに変換する変換部と、を備えるD装置。」
・ユーザーが学習と変換(入力データAの出力データBへの変換)を実施できる製品が販売されるのであれば、このクレームが有効でしょう。
・学習部を備える学習装置(取得部と変換部を備えていない装置)という請求項も検討の価値があります。
・サンプル入力データaと正解データbの組は必須の組のみを独立請求項に書き込み、開発過程で検討した他の組(例えば、正解率の向上に寄与したが、最も重要ではないような組)は従属請求項で展開すると良いと考えられます。
・利用者が装置に学習させるのであれば、方法の請求項も有効と考えられます。
●最後にニューラルネットワークの構造ですが、ニューラルネットワークの構造が新規であり、かつ、進歩性があれば特許はとれると考えられます。しかし、この場合は慎重に請求項を作成する必要があると考えられます。ニューラルネットワークの構造を特徴とした請求項が権利化された場合であっても、第三者の被疑製品がその請求項を利用していることを立証することが困難である場合が多いからです。
ニューラルネットワークの構造は外部から見てブラックボックスになる場合が多いと予想されるため、ニューラルネットワークの構造自体を特許にしても有効ではない場合は多いと考えられます。第三者の被疑製品がその請求項を利用していることを立証することが事実上不可能であれば、侵害品対策のために出願しても意味がありません。他の事情(例えば、遅かれ早かれ学会で発表してしまうなど)がなければ、出願の可否から検討すべきと考えます。
・ニューラルネットワークの構造で特許を取る必要があるならば、当該ニューラルネットワークの構造を利用する装置を解析した場合に、観測できる特徴を見つける必要があると考えます。特許出願前の打ち合わせでは、観測できる特徴を見つける作業を行う必要があります。発明者様に特徴を見つけるための解析等をお願いすることも多くなるように思われます。
なお、ニューラルネットワークの構造ではありませんが、機械学習で最適化されたパラメータを出願するのは有効と考えられます。例えば、機能材料の組成や材料作成の際の温度、圧力等の最適数値範囲を機械学習で特定し、当該数値範囲を請求項とすることが考えられます。
この場合、数値範囲内の実測結果と数値範囲の境界での実測結果を明細書に記述することが通常の実務ですが、機械学習によって数値範囲を導出した過程を明細書に記述することで明細書の記載要件(実施可能要件等)を充足することは可能でしょうか?
機械学習によって数値範囲が得られ、その範囲での効果が論理的であれば、機械学習の過程を示すことで特定の数値範囲の発明を実施可能に明細書が記述されていることに間違いはなく、記載要件が充足するケースが出てきても良いと私個人は感じます。審査官、裁判官がどのように判断するのか今のところ不明ですが、興味深いトピックのように思えます。
前回までの記事
プログラム著作物の争点(その1)
プログラム著作物の争点(その2)
前回(その2)では、プログラム著作物(著作権法10条1項10号)の著作権侵害が成立するか否かは、原告プログラムと被告プログラムとの間で『類似し、かつ、創作性がある部分』がどこであるかに依存する”ということまでお話ししました。
今回は『類似している部分』がどこにあればプログラムの著作権侵害が成立するのかについて「書類作成支援ツール事件(大阪地裁H14/7/25 H12(ワ)2452)」を挙げて話をします。
本件のプログラムは、表計算ソフトの入力シートにてユーザの入力を受け付け、入力された内容に基づいて高知県に提出するのに適式な申請書類を作成する機能を実現させるものです。プログラムの実体は表計算ソフトのマクロです。少し長いですが、まずは以下の判決文の抜粋をご覧下さい。
原告プログラムのコードと被告プログラムのコードを比較すると、原告プログラムでは、標準モジュール部分にプログラムが記載されているのに対し、被告プログラムでは、帳票を表すワークシート一枚一枚にマクロを割り当てて短いプログラムが記載されているという特徴があり、その結果、二つのソフトウエアの間には、プログラムの表現及び機能において、次の相違点があることが認められる。
ア 原告プログラムにはプログラムの冒頭に変数宣言が存在するが、被告プログラムは変数を全く使っていないため変数宣言がない。
イ 原告プログラムには、ファイルを開くときのプログラムにおいて、subプロシージャとして定義された”gamen” “deffile” “defpath”を実行するようになっているが、被告プログラムではsubプロシージャを実行するような記述はなされておらず、ファイルを開くドライブをCに固定し、フォルダも”syorui”に固定している。
・・(中略)・・
カ 原告プログラムにはエラーが出た場合の処理(「システムの異常の可能性があります。販売者まで連絡をして下さい。」などと画面に表示する。)を行うプログラムがある。被告プログラムは、エラーが出た場合には、”On Error Resume Next”、”On Error Go To 0″という宣言によりエラーをとばす処理をしている。
以上によれば、被告プログラムは、原告プログラムとは構造が著しく異なり、原告プログラムに設けられている機能の多くを有しておらず、プログラムの具体的な表現といえるコードにも類似する部分がないから、構造、機能、表現のいずれについてもプログラムとしての同一性があるとは認められない。したがって、被告プログラムは、原告プログラムを複製又は翻案したものとはいえない。
原告は、被告が原告プログラムをデッドコピーしたことの徴表として、被告プログラムの帳票部分の特徴を指摘するが、原告プログラムに含まれる帳票部分に著作物性を認められないことは前記のとおりであるから、帳票部分において被告プログラムが原告プログラムに酷似し、前者が後者をデッドコピーした徴表があるとしても、被告プログラムが原告プログラムを複製又は翻案したことを肯定する根拠とはならない。
要するに、この判決では、プログラムのソースコードが、原告プログラムと被告プログラムとの間で類似し、かつ、創作性がある部分となっていないとプログラム著作物の著作権侵害にはならないということが述べられています。
図3を用いて説明します。円が原告のプログラムの範囲を示し、そのうちグレーの部分が原告プログラムと被告プログラムとで類似している部分を示し、●が創作性のある部分を示しています。
今回の事件では、表計算ソフト上でユーザが入力を行う入力シートがほぼ同一であり、最終的に出力される申請書類も同一でした。入力シートにおいて入力された内容に基づいて申請書類を生成する各工程における処理(機能)についてもほぼ同じであったはずです。そのため、図3に示すように、入力から出力までの工程の全体にわたる機能的な部分において広く類似していたと予想されます。
しかし、●で示すように、本判決において原告プログラムのうち創作性が認められたのはソースコードであり、そのソースコードについては類似性が認めらませんでした。そのため、この事件ではプログラム著作物の著作権侵害は否定されました。
ここで、著作物は、「思想又は感情を創作的に表現したものであって、文芸、学術、美術又は音楽の範囲に属するもの」(著作権法2条1項1号)です。ここだけを読むと、プログラムにおいて利用者が感得できるように表現される部分(おもにUI画面や最終出力結果)がマネされればプログラム著作物の著作権侵害となると思いがちですが、それだけでは著作権侵害にはならないため注意が必要です。前記の判決に記載されるように、プログラムの具体的な表現はあくまでもソースコードであり、著作権法が保護すべき価値はソースコードに存在するということなのです。かなりの部分で類似しているのにも拘わらず、原告には残念な結果に...
が、しかし、
今回の事件はこれだけでは終わりませんでした。なんと、著作権侵害にはあたらないけど損害賠償請求と差止請求が認められました。その理由を述べた判決部分は以下のとおりです。
民法709条にいう不法行為の成立要件としての権利侵害は、必ずしも厳密な法律上の具体的権利の侵害であることを要せず、法的保護に値する利益の侵害をもって足りるというべきである。他人のプログラムの著作物から、プログラムの表現として創作性を有する部分を除去し、誰が作成しても同一の表現とならざるを得ない帳票のみを抜き出してこれを複製し、もとのソフトウエアとは構造、機能、表現において同一性のないソフトウエアを製作することが、プログラムの著作物に対する複製権又は翻案権の侵害に当たるとはいえないことは、前記のとおりである。しかし、帳票部分も、高知県の制定書式により近い形式のワークシートを作るため、作成者がフォントやセル数についての試行錯誤を重ね、相当の労力及び費用をかけて作成したものであり、そのようにして作られた帳票部分をコピーして、作成者の販売地域と競合する地域で無償頒布する行為は、他人の労力及び資本投下により作成された商品の価値を低下させ、投下資本等の回収を困難ならしめるものであり、著しく不公正な手段を用いて他人の法的保護に値する営業活動上の利益を侵害するものとして、不法行為を構成するというべきである。したがって、被告は、原告に対し、本件不法行為により原告が被った損害を賠償する責任を免れない。
だそうです。なんとかして帳票部分(入力シート)について創作性を認めて図表の著作物(著作権法10条1項6号)の著作権侵害として処理できなかったのかと思います。
『が、しかし』以降は、このシリーズの本筋の話ではありません。
今回お伝えしたいことは、プログラムのソースコードが、原告プログラムと被告プログラムとの間で類似し、かつ、創作性がある部分となっていないとプログラム著作物の著作権侵害にはならないということです。
次回は、ソースコードの創作性と特許の進歩性との関係について判例を挙げて説明しようと思います。
第1回のエントリはこちら
第2回のエントリはこちら
第1回、第2回のエントリでは、ニューラルネットワークで明細書執筆者を高い精度で推定できたことを示しました。ただし、第1回、第2回では入力データを変化させるだけでした。ニューラルネットワークの開発では、ニューラルネットワークの構造も大きなテーマになると考えられます。ニューラルネットワークの構造としては、層の数やノードの数がまず検討対象となるでしょうが、よく知られているように、初期値を変化させるのも重要でしょうし、各種の最適化方法の利用(第1回、第2回は全てSGDでした)を検討しても良いと思います。
いろいろな手法が考えられますが、まずは層をよりdeepにすることが考えられます。今回の開発では項目数(入力ノードの数)が最大で18個しかありませんので、deepといってもたいした数の層は必要ないと予想できます。とりあえず、「3.文書表現上の癖と、論理展開上の癖の双方」のtrainingデータとtestデータを利用し、隠れ層を2層(ノードは13個、8個)として学習しました。結果は、98%の正解率。90件のtestデータについて2件不正解ということになります。非常に高い正解率です。本件については、ディープニューラルネットワークは必要ないと言えますね。そりゃそうですよね。入力ノードが少なすぎますから。ディープニューラルネットワークの開発を疑似体験するためにはサンプルが不適切でした。まあでも入力データが執筆者の推定に適したデータであったからここまで正解率が向上したとは言えるでしょうか。
当初は、自己符号化器などを利用しながら少しずつ正解率を向上させたいと思っていました。モダンな(といっても自己符号化器が話題になったのは10年前ですが)技術を学習したいと思っていましたから。また、単なるニューラルネットワークではなく、同一層においてあるノードの出力を他のノードに入力するなど、ネットワークの構造にも各種の工夫があり得ます。
しかし、ここまでの結果から判断すると、現在のサンプルではニューラルネットワークの構造や各種のテクニックの有用性を判断できるほどサンプル数がないと考えられます。これ以上の改善の余地はあるのかもしれませんが、仮に、正解率が100%になったとしても、ニューラルネットワークの構造の変更等が効果的であったのか偶然なのか、サンプル数が少なすぎて判断できません。そこで、自己符号化器などを利用した開発は、将来別の案件で試してみたいと思います(今のところ、word2vecやQ学習での開発を体験できれば良いなと考えています)。
さて、第1回~第3回までで、ニューラルネットワーク関連の開発過程を疑似体験しましたので、次回は開発過程で生じ得る発明の特許化について考えてみたいと思います。
第4回のエントリはこちら
第1回のエントリはこちら
第1回のエントリでは、疑似開発したニューラルネットワークで明細書執筆者を高い精度で推定できたことを示しました。
開発過程では、以下の3パターンの入力データに基づいてニューラルネットワークの学習を行いました。
1.文書表現上の癖
2.論理展開上の癖
3.文書表現上の癖と、論理展開上の癖の双方
以下、それぞれのパターンについて具体的に述べていきます。
●「1.文書表現上の癖」
第1回のエントリで述べたパターンです。このパターンでは、学習前に各明細書について以下の11個の項目を数値化しました。
メインクレーム行数、メインクレーム文字数、サブクレーム平均行数、サブクレーム平均文字数、クレーム1行あたりの「、」の数、クレーム1行あたりの文字数
明細書1段落あたりの「、」の数、明細書1段落あたりの平均文字数、明細書1文あたりの「、」の数、明細書1文あたりの文字数、明細書全文の文字数
学習の詳細は以下の通りです。
・trainingデータ:11個の項目の数値と執筆者を対応づけた300件のデータ
・testデータ:11個の項目の数値と執筆者を対応づけた90件のデータ
・隠れ層:ノード数7の1層
・ミニバッチ:10~50程度
・最適化方法:確率的勾配降下法(stochastic gradient descent)
・イタレーション:50000回
trainingデータで以上の学習を行い、学習後のニューラルネットワークで90件のtestデータの執筆者を推定したところ、正解率は88%でした(図1)。
●「2.論理展開上の癖」
このパターンでは、学習前に、各明細書について以下の7個の言葉の数を計測しました。
「しかし」、「なお」、「すなわち」、「また」、「さらに」、「ればよい」、「そして」
私自身は、文書を論理的に展開するために、「主張、解説、論証、例示」という順序で明細書内の文章を書くことが多いです。この順序で文章を書く場合、「解説」の前に「すなわち」が現れます。このような論理展開上の癖は、執筆者毎に異なるため、段落の最初の部分や最後の部分の単語を統計処理すれば執筆者が特定できると考えました。
学習の詳細は「1.文書表現上の癖」と同様です(ただし、隠れ層のノード数は5個)。
trainingデータで以上の学習を行い、学習後のニューラルネットワークで90件のtestデータの執筆者を推定したところ、正解率は79%でした(図2)。
以上のように、「1.文書表現上の癖」を入力データとした場合に88%、「2.論理展開上の癖」を入力データとした場合に79%の正解率が得られました。この結果は私の直感と違いましたので、少し戸惑いました。私自身で執筆者を推定する場合には、句読点の数等よりも執筆者特有の論理展開が現れるか否かに着目するからです。「2.論理展開上の癖」の方が、単に入力データの項目数が少ないために正解率に差が出ているだけかもしれませんが、それでも、執筆者の推定に「1.文書表現上の癖」が有効であることは分かりました。今回の成果に基づいて本気で特許出願をするのであれば「1.文書表現上の癖」を入力データとするという観点で権利化することは外せないでしょう。さらに、比較すると多少正解率が少なくなるものの、「2.論理展開上の癖」であっても79%もの正解率が得られるため、特許出願するならば「2.論理展開上の癖」を入力データとするという観点で出願することにもなるでしょう。
「1.文書表現上の癖」「2.論理展開上の癖」の一方を入力データにした場合に有意な正解率が得られたため、双方を入力データにするとより正確な推定が可能であると考えられます。そこで、
●「3.文書表現上の癖と、論理展開上の癖の双方」
についても学習を行いました。「1.文書表現上の癖」「2.論理展開上の癖」のそれぞれで利用した入力データを結合してtrainingデータとtestデータを作成しました。学習の詳細は「1.文書表現上の癖」と同様です(ただし、隠れ層のノードは11個)。trainingデータで以上の学習を行い、学習後のニューラルネットワークで90件のtestデータの執筆者を推定したところ、正解率は93%でした(図3)。90件のtestデータの中の84件は執筆者を正確に推定できたことになります。
明細書の執筆者を推定するための入力データとして「1.文書表現上の癖」「2.論理展開上の癖」「3.文書表現上の癖と、論理展開上の癖の双方」が有効であることは実証されました。一方、ニューラルネットワークの開発においては、ネットワークの構造を最適化することが必須になると考えられます。次回は、ネットワークの構造を変化させた結果を報告します。