Biznes Ludzie Pieniądze

Sprzęt elektroniczny wreszcie zrozumie polską mowę?

Tomasz Grynkiewicz
18.08.2010 , aktualizacja: 18.08.2010 21:58
A A A Drukuj
Czy komputer i komórka w końcu zrozumieją polski język? Najbliższy rok może być przełomowy - wynika z informacji "Gazety"
Aplikacja firmy Nuance zamienia angielskie pozdrowienia
Fot. Filip Klimaszewski / Agencja Gazeta
Aplikacja firmy Nuance zamienia angielskie pozdrowienia "from Gazeta Wyborcza" na "from Gaza to the porch" (czyli od Gazy do ganku)
Dzięki technologiom rozpoznawania mowy, Amerykanin głosem może wyszukać w telefonie najbliższą pizzerię, Francuz - sterować nawigacją samochodową, a Hiszpan SMS-a może podyktować, zamiast wpisywać z klawiatury. Na Zachodzie aplikacje, które na to pozwalają, nie są niczym nowym. Np. amerykański Nuance za darmo udostępnia na iPhone'a i iPada aplikację Dragon Dictation - dyktowane po angielsku czy niemiecku zdania zamienia w kilka sekund na tekst.

Sprawdzamy - dyktujemy blisko 70 wyrazów po angielsku. Błędów - dwa. Zamiast "Murdoch" wyskakuje "Margaret", zaś zwrot "too early" aplikacja odczytuje jako "to LA" (czyli "do Los Angeles"). Tak przetworzony tekst można wysłać np. mailem. Łącznie z podyktowaniem i ręcznym poprawieniem błędów tekst mamy gotowy w ciągu 40 sekund. Wstukanie tego samego z dotykowej klawiatury iPada zajmuje prawie dwie minuty.

Dragon działa szybko, ale wyłącznie gdy komórka lub tablet mają połączenie z internetem. Bo obliczenia matematyczne, które aplikacja musi wykonać do przetwarzania mowy, odbywają się na serwerach Nuance, a nie na - jeszcze zbyt wątłych - procesorach smartfonów czy tabletów.

W Polsce takie aplikacje to wciąż ziemia nieznana. Ale z informacji zebranych przez "Gazetę" wynika, że najbliższe miesiące mogą być przełomowe dla rozpoznawania polskiej mowy przez komputery i komórki.

- Aplikacja, który pozwoli głosem sterować telefonem oraz dyktować po polsku tekst i zamieniać go na treść, powinna być technicznie dostępna pod koniec roku - mówi Peter Martis, szef firmy Nuance na region Europy Środkowo-Wschodniej.

Amerykański Nuance to jedna z największych firm zajmujących się technologiami głosowymi - weryfikuje ludzi po głosie, tekst zamienia na mowę i odwrotnie. W zeszłym roku przychody spółki przekroczyły miliard dolarów. Według naszych informacji Nuance aplikację do polskiego robi na zlecenie Nokii - zarówno dla telefonów działających pod systemem operacyjnym Series 40, jak i smarftonów z najnowszą wersją systemu Symbian.

Martis tego nie potwierdza. Mówi jedynie, że w pierwszym kwartale 2011 r. Nuance udostępni polską wersję programu Dragon Dictation, m.in. na iPhone'a, iPada oraz "inne smartfony".

Nuance próbuje przekonać też operatorów komórkowych, by u siebie wdrożyli usługę zamiany głosu na SMS. - Takie usługi wdrożył m.in. T-Mobile, British Telecom, Vodafone Spain czy Telefonica w Meksyku - mówi Martis. Niektórzy operatorzy, jak Vodafone, oferują to w ramach abonamentu, z kolei Telefonica pobiera dwa eurocenty za jedną transkrypcję.

Nuance to prawdziwy gigant połykający kolejne firmy. Ale wcale nie jest powiedziane, że i w Polsce będzie grał pierwsze skrzypce na tym rynku.

Część osób z branży nie uważa rozwiązań Nuance za najlepsze. Przyznaje jednak, że spółka ma za to bardzo duże przebicie marketingowe.

Zamienianie głosu na SMS-y testował na początku roku Orange. Dla operatora takie rozwiązanie przygotował polski oddział niemieckiej firmy Materna Communications współpracujący z naukowcami z Politechniki Warszawskiej.

Testowało je kilkaset osób, wpisując odpowiedni prefiks przed numerem adresata. Potem nagrywając - byle wyraźnie - tekst nie dłuższy niż minuta. O testach ani operator, ani Materna nie chcą opowiadać.

- Na razie nie ma decyzji o wprowadzeniu komercyjnie tej usługi - mówi tylko Wojciech Jabczyński, rzecznik Orange. Na jego blogu użytkownicy zamieścili co prawda raczej pozytywne opinie po testach, choć nie wiadomo, co tłumaczył automat, a co człowiek. Bo, jak się dowiedzieliśmy, gdy automat sobie nie radził, SMS-y ręcznie poprawiali współpracownicy.

- W warunkach laboratoryjnych jesteśmy w stanie uzyskać 93 proc. zgodności - mówi Piotr Herman, szef polskiego oddziału Materna Communications. Gorzej w naturalnych warunkach. Zdaniem Hermana, bez zbudowania biblioteki nagrań, na których polskiego uczyć by się mogły takie programy, nie uzyska się zadowalających efektów. A to kosztowne. Jak mówi Peter Martis z Nuance, takie próbki głosowe można by - anonimowo - pobrać z nagrań na skrzynkach głosowych klientów. Ale decyzja leży po stronie operatorów.

Na razie technologię Nuance - w ograniczonym zakresie - wprowadziły powiązane polskie spółki AngelFund i SoftHus. Dzwoniąc na płatny numer telefonu, można odsłuchać z automatu prognozę pogody dla tysiąca dużych miast w Polsce. Podaje się nazwę miejscowości oraz datę (trzy dni wprzód). Automat dyktuje temperaturę, ciśnienie, wiatr, zachmurzenie itp.

Podobne rozwiązanie już dwa lata temu - w warszawskim ZTM do głosowego przeszukiwania m.in. rozkładu jazdy - wprowadziła polska firma Primespeech. I też pracuje nad programem, który rozpoznaje polską mowę i automatycznie zamienia na tekst. - Mamy działającą wersję, ale w mojej ocenie to wciąż nie jest produkt, który można skomercjalizować - mówi Łukasz Brocki, prezes Primespeech. Dodaje, że nie chce powtórzyć błędu, który w poprzedniej dekadzie popełniły duże firmy, rzucając się na niedopracowane aplikacje rozpoznawania mowy. - Miały tyle błędów, że klienci się zniechęcili - mówi. Primespeech z jedną spółką ubezpieczeniową prowadzi teraz pilotaż, w którym agent ubezpieczeniowy może sterować głosem aplikacją do zgłaszania szkód. A rozwiązanie do automatycznego rozpoznawania polskiego języka i zamiany na tekst? Brocki mówi, że będzie gotowe "najpóźniej w ciągu roku".

Na rynku próbuje przetrzeć sobie też szlaki Skrybot - założony m.in. przez Pawła Bosky'ego, właściciela firmy Przepisywanie.pl. Testową wersję do odczytywania tekstu z nagrań audio i wideo można podejrzeć na stronie Skrybot.tv. - Podpisaliśmy list intencyjny ze spółką ESAProjekt o współpracy przy rozpoznawaniu mowy w sądownictwie - mówi Bosky. Chodzi o większy projekt, który ma umożliwić nagrywanie wszystkich rozpraw na salach sądowych. Tym ma się zająć ESAProjekt, Skrybot byłby podwykonawcą i zajmował się przetwarzaniem nagrań na tekst.

Spółka podpisała też umowę o współpracy z firmą ABC Grytner, która oferuje lokalnej administracji edytor tekstów prawnych. Chętnym samorządom będzie oferowała rozpoznawanie mowy Skrybota. A dla warszawskiego Szpitala św. Zofii Bosky opracowuje bezpłatny moduł dla lekarzy - by diagnozy przy USG dyktowali bezpośrednio do komputera. Właśnie na lekarzach najwięcej zarabia Nuance - ok. 35 proc. jego przychodów generują szpitale i lekarze. - To dlatego, że rozliczają się z nami za każdą dokonaną transkrypcję - mówi Peter Martis.

Jaką Skrybot ma skuteczność? - Jeśli system nauczy się danej osoby, to osiąga nawet i 100 proc. - przekonuje Bosky. Bez uczenia to, niestety, tylko ok. 80 proc. trafności. - Polski język jest skomplikowany, ma specyficzną odmianę, jeden rzeczownik ma kilkanaście wersji. Na razie nie wyobrażam sobie, by automat miał wysoką skuteczność bez uczenia się głosu konkretnego użytkownika - mówi Bosky.

Podziel się

  • Ocena:

    • słabe
    • nic specjalnego
    • dobre
    • bardzo dobre
    • znakomite

    15 głosów

Skomentuj:

Zaloguj się. Jeśli nie posiadasz konta zarejestruj się.

Komentarze (2)

  • Gość: Rafael

    0

    Mimo teoretycznie atrakcyjnej ceny Skrybota jest to tylko kłopot dla nas.
    Nie można zwrócić a program wcale nie działa dobrze. Wiele godzin prób nauki naszego głosu nie przyniosło rezultatów.
    Szkoda czasu i nerwów, niewypał !!!

  • Gość: AnnaT

    0

    Skrybot to pełne nieporozumienie!
    To wielkie naciąganie na coś co nie działa poprawnie!
    Rozpoznawanie mowy na poziomie zerowym, stanowczo odradzam :(

Aby ocenić zaloguj się lub zarejestrujX