Badania

Pomimo tego, że Wikipedia jest często krytykowana za niską jakość, nadal jest jedną z najpopularniejszych baz wiedzy na świecie. Artykuły w tej encyklopedii są tworzone i redagowane w ponad 300 różnych językach. Obecnie Wikipedia zawiera ponad 55 milionów artykułów na różne tematy.

Z każdym dniem rośnie liczba artykułów w Wikipedii. Mogą być tworzone i edytowane nawet przez anonimowych użytkowników. Autorzy nie muszą formalnie demonstrować swoich umiejętności, wykształcenia i doświadczenia w niektórych dziedzinach. Wikipedia nie posiada centralnego zespołu redakcyjnego ani grupy recenzentów, którzy mogliby kompleksowo sprawdzić wszystkie nowe i istniejące teksty. Z tych i innych powodów ludzie często krytykują pojęcie Wikipedii, w szczególności wskazując na niską jakość informacji.

Mimo to w Wikipedii czasami można znaleźć cenne informacje - w zależności od wersji językowej i tematyki. Praktycznie w każdej wersji językowej istnieje system nagród za najlepsze artykuły. Jednak liczba tych artykułów jest stosunkowo niewielka (mniej niż jeden procent). W niektórych wersjach językowych są też inne stopnie jakości. Jednak przytłaczająca większość artykułów jest nieoceniona (w niektórych językach ponad 99%).

Automatyczna ocena jakości artykułów Wikipedii

Tak więc w Wikipedii wiele artykułów nie ma ocen jakości, więc każdy czytelnik powinien ręcznie analizować ich zawartość. Znany jest temat automatycznej oceny jakości artykułów Wikipedii w świecie naukowym. Zasadniczo prace naukowe opisują najbardziej rozwiniętą wersję językową Wikipedii - angielską, która zawiera już ponad 6 milionów artykułów.

Od momentu powstania i rosnącej popularności Wikipedii publikuje się coraz więcej publikacji naukowych na ten temat. Jedno z pierwszych badań wykazało, że pomiar objętości treści może pomóc określić stopień „dojrzałości” artykułu w Wikipedii. Prace w tym kierunku pokazują, że generalnie artykuły wyższej jakości są długie, zawierają wiele odniesień, są redagowane przez setki autorów i mają tysiące wydań.

Zadanie automatycznej oceny jakości można rozwiązać za pomocą algorytmów uczenia maszynowego, zwłaszcza za pomocą modeli klasyfikacji opartych na porównaniu artykułów Wikipedii o różnych stopniach jakości, które zostały ocenione przez użytkowników Wikipedii. W takich modelach można zastosować ponad 200 miar jakości związanych z kompletnością, wiarygodnością, objektywnością, niezawodnością, czytelnością, relewancją, stylem i aktualnością. Niektóre z nich są zależne od języka i można je uzyskać za pomocą technik NLP. Dodatkowo takie modele mogą wykorzystywać wskaźniki związane z SEO: indeks widoczności, PageRank, CheiRank, 2D Rank, sygnały z mediów społecznościowych i inne.

Więcej informacji można znaleźć w publikacjach naukowych. Niektóre wyniki są zaimplementowane w różnych narzędziach.