Automatyczne podsumowanie tekstu – Lincoln, Wprowadzenie do automatycznego podsumowania – blog danych

Blog na temat danych, sztucznej inteligencji i moich projektów

Automatyczne podsumowanie polega na przyjmowaniu długiego tekstu, a nawet zestawu tekstów i automatycznie generowania znacznie krótszego tekstu, który zawiera większość informacji. Prosty ? Nie tak wiele. Po pierwsze, musisz się zgodzić, jakie informacje są naprawdę ważne. Następnie musimy być w stanie ich prawidłowo wyodrębnić, zreorganizować je, wszystkie w tekście gramatycznym i bez interwencji człowieka. I to nie licząc na dużą liczbę wariantów możliwych podsumowań !

Automatyczne podsumowanie tekstu

Wraz z eksplozją gromadzenia i przechowywania tekstur potrzeba analizy i wyodrębnienia odpowiednich informacji z tej masy jest coraz bardziej obecna.

Ponadto boom w głębokich uczenia się modeli automatycznego przetwarzania języka naturalnego (Taln) ułatwił wykorzystanie danych tekstowych w kwestiach operacyjnych. Automatyczne podsumowanie tekstu, w taki sam sposób, jak pytanie odpowiadające, analiza podobieństwa, klasyfikacja dokumentu i inne zadania powiązane z taliem są częścią tych problemów.

To w tym kontekście Innowacje laboratoryjne De Lincoln postanowił wykonać prace nad automatycznym podsumowaniem tekstu. Prace te umożliwiły ustanowienie punktu odniesienia automatycznych modeli podsumowania dostępnych dla języka Francuski, powodować nasz własny model i wreszcie umieścić go w produkcji.

�� Trening modelowy

Światowe automatyczne podsumowanie

Dane

Zanim mogliśmy rozpocząć naszą pracę, najpierw musieliśmy zbudować bazę danych do uczenia się automatycznych modeli podsumowania. Odzyskliśmy przedmioty prasowe z kilku francuskich serwisów informacyjnych. Ta podstawa zawiera ~ 60 000 artykułów i jest stale aktualizowana.

Najnowocześniejszy

Automatyczne algorytmy podsumowujące można podzielić na dwie kategorie: podsumowania ekstraktowy i podsumowania abstrahujący. W ramce ekstraktowy, Podsumowania są zbudowane ze zdań wyodrębnionych z tekstu, podczas gdy podsumowania abstrahujący są generowane z nowych zdań.

Automatyczne modele podsumowujące są dość powszechne w języku angielskim, ale są znacznie mniej w języku francuskim.

Metryka

Do oceny modeli zastosowaliśmy następujące wskaźniki:

CZERWONY : Niewątpliwie pomiar najczęściej zgłaszany w zadaniach podsumowujących, zorientowane na wycofanie analizy do oceny powiązania (Lin, 2004) oblicza liczbę podobnych N-gramów między ocenianym podsumowaniem a podsumowaniem referencyjnym człowieka.

Meteor: Metryka oceny tłumaczenia z wyraźnym zamawianiem (Banerjee i Lavie, 2005) zostały zaprojektowane do oceny wyników automatycznych tłumaczeń. Opiera się na średniej harmonicznej precyzji i wycofania na Unigramach, przywołanie ma wagę większą niż precyzja. Meteor jest często stosowany w automatycznych publikacjach podsumowujących (patrz i in., 2017; Dong i in., 2019), oprócz czerwonego.

Nowość: Zauważono, że niektóre modele abstrakcyjne opierają się zbytnio na ekstrakcji (patrz i in., 2017; Krysci „Nski i in.„, 2018). Dlatego powszechne było mierzenie odsetka nowych N-gramów wyprodukowanych w wygenerowanych podsumowaniach.

Źródło: Tłumaczenie z papieru MLSUM [2].

Wdrażanie modeli

Do szkolenia modeli wykorzystaliśmy usługę Cloud Azure ML, która zapewnia pełne środowisko do szkolenia, monitorowania i wdrażania modeli.

Model automatycznego podsumowania

Dokładniej wykorzystaliśmy Python SDK, który pozwala zarządzać całym środowiskiem Azureml w sposób programowy, od uruchomienia „zadań” po wdrażanie modeli.

Jednak zamknęliśmy nasz ostateczny model w aplikacji do pojemnej kolby, a następnie wdrażany za pośrednictwem rurociąg

Wyniki

Po pierwsze, podjęliśmy kilka prób, prowadząc modele na 10 000 artykułów, zmieniając liczbę tokenów podanych na początku modelu (512 lub 1024) i różnych architektur.

Pierwsza obserwacja: wskaźniki czerwonych i meteorów nie wydają się bardzo odpowiednie do oceny wydajności naszych modeli. Dlatego postanowiliśmy oprzeć nasze porównania tylko na nowości i wybrano architektura Faworyzowanie bardziej abstrakcyjnych podsumowań.

Po naciśnięciu szkolenia naszego modelu na 700 tys.

Punkty uwagi

Oprócz wydajności ten eksperyment pozwolił nam podkreślić niektóre granice Automatyczne podsumowanie:

Obecnie rozmiar tekstu w danych wejściowych modeli typu Przekształcać jest ograniczona pojemnością ku pamięci GPU. Koszt pamięci jest kwadratowy z rozmiarem tekstu jako wejściowym, stanowi to prawdziwy problem dla zadań automatycznego podsumowania, w którym tekst, który należy podsumować.

Bardzo trudno jest znaleźć odpowiednie wskaźniki do oceny zadań generowania tekstu.

Bądź ostrożny waga ekstraktora : Napotkaliśmy również kilka problemów związanych z danymi. Głównym problemem jest to, że artykuł z artykułu był często parafrazą lub nawet duplikatem pierwszych zdań artykułu. Miało to konsekwencje zachęcania naszych modeli do bardziej wydobywczego niż abstrakcyjnego, po prostu zwracając pierwsze zdania artykułu. Dlatego konieczne było wykonywanie pracy kuracyjnej poprzez usunięcie artykułów stwarzających problem, aby uniknąć tego rodzaju uprzedzeń.

Blog na temat danych, sztucznej inteligencji i moich projektów.

Automatyczne podsumowanie polega na przyjmowaniu długiego tekstu, a nawet zestawu tekstów i automatycznie generowania znacznie krótszego tekstu, który zawiera większość informacji. Prosty ? Nie tak wiele. Po pierwsze, musisz się zgodzić, jakie informacje są naprawdę ważne. Następnie musimy być w stanie ich prawidłowo wyodrębnić, zreorganizować je, wszystkie w tekście gramatycznym i bez interwencji człowieka. I to nie licząc na dużą liczbę wariantów możliwych podsumowań !

Byłem w stanie pracować przez około rok w tym ekscytującym motywie tuż przed moim doktoratem, ten post jest zatem okazją do zanurzenia się w tym temacie i podsumowania najnowszych innowacji w tej domenie.

Weźmy więc przegląd tego tematu, tworząc poprzez opisanie różnych rodzajów streszczeń, które istnieją, przed nieznacznie zamieszkaniem na dwóch typach systemów: tych z AI i sieci neuronowych oraz tych, które są raczej skoncentrowane na optymalnym ekstrakcji Informacja.

Różne rodzaje podsumowania

Kiedy mówimy o podsumowaniu, często myślimy o tylnej okładce książki lub opisie scenariusza do filmu. Ogólnie rzecz biorąc, unikają zepsucia końca, kiedy właśnie to poprosiłoby o narzędzie klasycznego automatycznego podsumowania: powiedzieć intrygę, aby podsumowanie mogło wystarczyć, aby poznać niezbędne rzeczy. Tutaj jest o Podsumowania monookumentów, To znaczy, że podsumowujemy tylko jeden dokument (film, książka, artykuł, …).

Wręcz przeciwnie, możemy chcieć Podsumowanie wielokumentarne, że częściej spotykamy się w kontekście recenzji prasowych: chcemy mieć podsumowanie najważniejszych informacji, jak donosi różne organizacje prasowe.

Gdy zdecydujemy się na rodzaj danych, które staramy się podsumować, mono lub wielokumentary, mamy wybór między dwoma podejściami:ekstraktowy, który polega na wyodrębnianiu jako co z informacjami przed odłożeniem ich w celu utworzenia podsumowania i podejścia generatywny, który polega na tworzeniu nowych zdań, które pierwotnie nie pojawiają się w dokumentach, aby mieć bardziej płynne i bardziej wolne podsumowanie.

Oprócz tych kryteriów istnieją różne style podsumowań, których nie podejdziemy tutaj: Podsumowania aktualizacji, które polegają na podsumowaniu informacji pojawiających się w nowym dokumencie i które nie zostały do ​​tej pory wymienione, podsumowane, które polegają na przyjęciu dokładnego kąta podane przez użytkownika, ..

AI i sieci neuronowe zrewolucjonizują automatyczne podsumowanie

Do połowy lat 2010. większość streszczeń była ekstrakcyjna. Jednak wielka różnorodność istniała już w tych algorytmach, które mogą obejmować wybór i ekstrakcję całych zdań po ekstrakcję precyzyjnych informacji, a następnie w tekstach z otworami przygotowanymi z wyprzedzeniem zwane szablonami. Przybycie nowych podejść opartych na sieciach neuronowych znacznie zmieniło sytuację. Algorytmy te są znacznie bardziej skuteczne niż poprzednie do generowania tekstu gramatycznego i płynnego, podobnie jak to, co można zrobić z tym demo GPT.

Sieci neuronowe wymagają jednak przeszkolenia dużych danych i są stosunkowo bezbłędne. Działają idealnie, aby wygenerować komentarze, dla których prawdziwość ma niewielkie znaczenie, ale zdecydowanie mogą generować sprzeczne lub po prostu niepoprawne informacje, które są problematyczne w kontekście podsumowania artykułów prasowych na przykład. Wiele artykułów badawczych jest zainteresowanych tymi „halucynacjami” sieci neuronowych.

Przykład hybrydowego narzędzia: Potara

Automatyczne podsumowanie było pierwszym tematem badawczym, w którym byłem zainteresowany, i miałem okazję rozwinąć się podczas mojego master Hybrydowy system podsumowania przez ekstrakcję/generowanie w celu podejścia do wielu Document, to znaczy podsumowanie zestawu dokumentów mówienia tego samego tematu.

Pomysł polegał na rozpoczęciu od klasycznej ekstrakcji, a mianowicie zidentyfikowanie najważniejszych zdań i złożenie ich w celu wygenerowania podsumowania. Problem z tym podejściem polega na tym, że najważniejsze zdania można często poprawić. Na przykład w artykule mówiącego o przesiedleniu prezydenckim zdanie „Emmanuel Macron spotkał swojego amerykańskiego odpowiednika i omówił ekonomię” może zostać ulepszone w „Emmanuel Macron spotkał Joe Biden i omówił gospodarkę”. Dziennikarze starannie unikają prób, często spotykamy się z tego rodzaju zjawiskiem.

Aby przezwyciężyć tę wadę, możemy zidentyfikować podobne zdania obecne w różnych dokumentach i spróbować je połączyć, aby uzyskać lepsze zdanie. ANSI, z następujących dwóch zdań:

  • Emmanuel Macron spotkał swojego amerykańskiego odpowiednika w Waszyngtonie i długo mówił o ekonomii.
  • Francuski prezydent poznał Joe Biden i omawiał ekonomię.

Możemy stworzyć krótkie i pouczające zdanie:

  • Emmanuel Macron poznał Joe Biden w Waszyngtonie i omówił ekonomię.

Aby osiągnąć ten wynik, konieczne jest kilka kroków: znalezienie podobnych zdań, znalezienie najlepszej fuzji, sprawdzenie, czy fuzja jest znacznie lepsza niż oryginalne zdanie. Biorą udział w wielu technologiach: Word2 z sieciami neuronowymi, aby znaleźć podobne zdania, wykresy współdziałania, aby je scalić, optymalizacja ILP, aby wybrać najlepsze fuzje.

Jeśli chcesz zobaczyć więcej, Potara jest open source, ale przez jakiś czas nie był utrzymywany. Ten projekt szczególnie służył jako prezentacja, kiedy zostałem zwolniony i dlatego miał dokumentację, testy, ciągłą integrację, wdrażanie na PYPI, ..

Jakie jest dobre automatyczne podsumowanie ?

Jeśli pewne kryteria wydają się oczywiste i stosunkowo proste do oceny (na przykład gramatyczność zdań), inne są znacznie bardziej złożone. Decydowanie, jakie najważniejsze informacje o tekście jest już bardzo subiektywnym zadaniem samym w sobie. Oceń płynność, właściwy wybór użytych słów, wraca do publikowania pracy i nie mówmy o orientacji politycznej, którą może podsumować !

Nowe modele generatywne oparte na sieciach neuronowych prawdopodobnie wprowadzą pejoratywne osądy lub kwalifikatory (lub przyjazne użytkownikom), co jest poszukiwany, jeśli chodzi o generowanie krytyka filmowego, ale tym bardziej, gdy mówił o programie kandydata na prezydenta !

Automatyczne podsumowanie pozostaje zatem bardzo aktywnym przedmiotem badań i może być przez chwilę, szczególnie w odniesieniu do zdolności do kierowania wynikiem algorytmu, właśnie w kierunku konkretnego uczucia, określonego stylu, kolorystyka politycznego podana. W branży właśnie zaczyna wchodzić do bardzo konkretnych kadry kierowniczej (na przykład podsumowanie spotkań)).

Prezydencki 2022: Do twoich danych !

3 przykłady projektów danych, które mają zostać przeprowadzone w 2022 r. Wybory prezydenckie.