octoparseを使用してデータ抽出しました。 対象サイトはこちらです。 https://www.......

octoparseを使用してデータ抽出しました。
対象サイトはこちらです。
https://www.judo.or.jp/p/51287
取りたいデータは
個人の勝敗とその時勝った技、ポイント内容になります。
ご覧の取り表形式でまとめられております。
こちらを対象に抽出しましたのがこちらのリストです。

一応取りたいデータは取れているのですが、
重複データがいくつもあり、また誰の勝敗なのかわからずでして。
もう少し整理したいのですが、、、、どのようにすれば良いのか
ご教示いただけますと嬉しいです。

対象サイトの表示の仕方がスクレイピング向きではないかもしれませんね:sweat_drops:
スクレイピングが必要になるのは、
-同じ構成のページが何ページもある
旅行サイト、物販サイト、食品サイト
-定期的に同じ項目がある
為替サイト
などです。今回の柔道のランキングサイトは、通常の記事のため規則性があまり見られないため、もし集計サイトを作りたいのなら、1ページずつ手動でコピーをしていく方が早いと思います。
記事を一通りみたところ、選手の順位は、一定回数で表示する記事が多そうだったので、例えば以下の項目だけをoctoparse で取得するところから初めて見てはいかがでしょうか?

2020年ヨーロッパオープン・オーバーヴァルト(オーストリア)大会結果(20.2.15-16)
https://www.judo.or.jp/p/51287
https://gyazo.com/e19d629aee1ac2ae66c47643fac0b960## 解決URL: Screenshot - 5f4f9c7d3fbf01671ce8fdc30b40453f - Gyazo

参考URL

https://www.judo.or.jp/p/51287