Mga computer, Information technology

Modern computer vision. Mga Gawain at computer vision technology. Programming Computer Vision sa Python

Paano magturo sa isang computer upang maunawaan kung ano ay itinatanghal sa larawan o mga larawan? Ito ay tila simple, ngunit para sa isang computer na ito ay lamang ng isang matrix na binubuo ng mga zero at mga kung saan nais mong i-extract ang mahalagang impormasyon.

Ano ang computer vision? Ito ay ang kakayahan upang "makita" ang iyong computer

Vision - ay isang mahalagang mapagkukunan ng impormasyon para sa mga tao na gumagamit ng mga ito, makuha namin, ayon sa iba't-ibang mga estima, mula sa 70 hanggang 90% ng lahat ng impormasyon. At, siyempre, kung gusto naming upang lumikha ng isang smart kotse, kailangan namin upang ipatupad ang parehong mga kasanayan at computer.

Ang problema ng computer vision maaaring na lubos na malinaw. Ano ang "nakikita"? Ito ay nauunawaan na kung saan may mga lamang sa pamamagitan ng pagtingin. Iyon concluded ang mga pagkakaiba ng mga computer vision at pantao paningin. Vision para sa amin - ito ay isang mapagkukunan ng kaalaman tungkol sa mundo, pati na rin ang isang pinagmulan ng panukat na impormasyon - iyon ay, ang kakayahan upang maunawaan ang mga distansya at sukat.

Semantiko kernel image

Sa pagtingin sa mga larawan, maaari naming ilarawan ito sa pamamagitan ng isang bilang ng mga katangian, kaya na magsalita, i-extract ang semantic impormasyon.

Halimbawa, ang pagtingin sa larawan na ito, maaari naming sabihin na ito ay sa labas. Ano ang mga lungsod trapiko. Na mga kotse. maaari naming hulaan na ito ay Timog-Silangang Asya sa pagsasaayos ng gusali at hieroglyphics. Ang portrait ni Mao Zedong maunawaan na ito ay Beijing, at kung sinuman nakita ang live video o ang kanyang sarili ay hindi naging doon, gusto hulaan na ito ang sikat na Tiananmen Square.

Ano ang maaari naming sabihin ang nalalaman tungkol sa litrato, nakakakita nito? Maaari naming makilala ang mga bagay sa ang larawan, na sabihin, na may mga tao dito na mas malapit - bakod. Narito payong, poster na gusali. Ang mga ito ay mga halimbawa ng mga klase ay napakahalaga bagay, na kung saan ay pansin sa paghahanap para sa sandaling ito.

Still maaari naming malaman ang ilan sa mga katangian o mga katangian ng mga bagay. Halimbawa, narito maaari nating matiyak na ito ay hindi isang larawan ng isang ordinaryong Chinese, lalo, Mao Zedong.

Ayon sa ang sasakyan ay maaaring tinutukoy na ito ay isang paglipat object, at ito ay mahirap, iyon ay hindi deformed sa panahon ng paggalaw. Tungkol flags ay maaaring sinabi na ito bagay, sila ay din ang paglipat, ngunit ang mga ito ay hindi mahirap, patuloy na deformed. At sa tanawin doon ay ang hangin, na maaaring tinutukoy sa pamamagitan ng pagbuo ng mga flag, at maaaring kahit na matukoy ang direksyon ng hangin, halimbawa, ito ay pamumulaklak mula kaliwa papuntang kanan.

Ang distansya at haba sa computer vision

Napakahalaga ay ang sukatan ng impormasyon tungkol sa computer vision science. Ito ang lahat ng uri ng mga distansya. Halimbawa, para sa mga tulisang-dagat ay partikular na mahalaga dahil ang mga koponan ay mula sa Earth tungkol sa 20 minuto at sagutin ng maraming. Alinsunod dito, ang link na ito doon at pabalik - 40 minuto. At kung gumawa kami ng isang plano para sa mga utos paggalaw ng Earth, kailangan mong gawin ito sa account.

Matagumpay na isinama ang teknolohiya ng computer vision sa video games. Ayon sa video, maaari kang bumuo ng tatlong-dimensional modelo ng mga bagay, tao, at mga larawan sa ang user ay maaaring ipanumbalik ang tatlong-dimensional modelo ng mga lungsod. At pagkatapos ay maglakad sa kanila.

computer vision - isang halip malawak na hanay. Ito ay may malapit na intertwined na may iba't-ibang mga iba pang mga agham. Bahagi ng computer vision Nakukuha nito ang processing area imahe at kung minsan ay naglalaan ng computer paningin, kasaysayan.

Pag-aaral, ang pagkilala sa pattern - ang landas sa ang paglikha ng mga superior intelligence

Ipaalam sa amin suriin ang mga konseptong ito nang hiwalay.

Image Processing - ito ay isang lugar ng mga algorithm, kung saan ang input at output - larawan, at kami ay may kanya gawin ang isang bagay.

image analysis - ay ang lugar ng computer vision, na kung saan naka-focus sa nagtatrabaho sa ang dalawang-dimensional na imahe at gumawa ng mga konklusyon mula sa ito.

Pattern Recognition - isang abstract mathematical disiplina na kinikilala ng data sa form ng vectors. Iyon ay, sa pasukan - vector at mayroon kaming isang bagay na gawin sa mga ito. Saan ang vector ay, kami ay hindi kaya mahalaga na malaman.

Computer paningin - ito orihinal ay upang ibalik ang kaayusan ng dalawang-dimensional na imahe. Ngayon ang lugar na ito ay naging mas malawak at ito ay maaaring bigyang-kahulugan bilang pagtanggap ng lahat ng mga pisikal na mga bagay ng paggawa, batay sa mga imahe. Iyon ay, ito ay ang gawain ng artificial intelligence.

Kahanay na may computer vision sa isang ganap na naiibang mga patlang, sa heodesya, photogrammetry umunlad - isang pagsukat ng distansya sa pagitan ng mga bagay sa dalawang-dimensional imahe.

Robots ay maaaring "makita"

At sa wakas - ito ay machine vision. Sa ilalim ng pangitain machine ay nangangahulugan ng isang pangitain ng mga robot. Iyon ay ang desisyon ng ilang mga problema sa produksyon. Maaari naming sabihin na computer vision - ay isang malaking science. Pinagsasama nito ang ilan sa mga iba pang mga bahagi science. At kapag ang computer vision makakakuha ng anumang partikular na application, ito ay lumiliko sa isang makina paningin.

Computer paningin rehiyon ay may isang mass ng mga praktikal na aplikasyon. Ito ay kaugnay ng automation ng produksyon. Sa negosyo maging mas mahusay na upang palitan ang manual labor sa pamamagitan ng machine. Ang makina ay hindi mapagod, hindi natutulog, siya ay nagkaroon ng hindi regular na iskedyul ng trabaho, siya ay handa upang gumana 365 araw sa isang taon. Kaya, gamit ang machine sa trabaho, maaari naming makakuha ng isang garantisadong resulta sa isang tiyak na oras, at ito ay lubos na kawili-wili. Ang lahat ng mga gawain ay may isang malinaw na paggamit para sa mga computer vision system. At walang anuman mas mahusay kaysa sa upang makita ang mga resulta kaagad sa larawan lamang sa stage pagkalkula.

Sa itaas ng pintuan ng daigdig ng artificial intelligence

Plus ang lugar - ito ay mahirap! Ang isang makabuluhang bahagi ng utak na responsable para sa pangitain, at ito ay pinaniniwalaan na kung tuturuan mo ang iyong computer upang "tingnan", ibig sabihin, ang buong paggamit ng computer vision, ito ay isa sa mga layunin ng buong artificial intelligence. Kung maaari naming malutas ang problema sa antas ng tao, pinaka-malamang sa parehong oras, kami ay malutas ang problema ng AI. Iyon ay isang magandang! O hindi tunay mabuti, kung tiningnan mo, "Terminator 2".

Bakit ang paningin - ito ay mahirap? Dahil ang mga imahe ng parehong bagay ay maaaring mag-iba malaki depende sa mga panlabas na mga kadahilanan. Depende sa object ng mga puntos na pagmamasid iba ang hitsura.

Halimbawa, isa at sa parehong figure, na kinuha mula sa iba't ibang mga anggulo. At kung ano ang pinaka-kagiliw-giliw na sa figure ay maaaring maging isang mata, dalawang mata at isang kalahati. At depende sa konteksto (kung ang larawan na ito ng tao sa isang shirt na may painted mga mata), ang mata ay maaaring maging mas mababa sa dalawang.

Ang computer na hindi pa rin maintindihan, ngunit ito "nakikita"

Ang isa pang kadahilanan na ginagawang mas mahirap - ito ay ang mga ilaw. Ang parehong eksena na may iba't ibang pag-iilaw magiging hitsura naiiba. object laki ay maaaring mag-iba. Bukod dito, ang mga bagay ng anumang uri. Paano maaari mong sabihin tungkol sa isang lalaki na ang kanyang taas ng 2 metro? Wala. Human paglago at maaaring maging 2.3 m, at 80 cm. Tulad ng sa iba pang mga uri ng mga bagay, gayunpaman, ang mga bagay ng parehong klase.

Partikular na buhay na mga bagay sumailalim sa isang iba't ibang mga strains. Hair tao, atleta, mga hayop. Hanapin sa mga larawan ng kabayo tumatakbo, matukoy kung ano ang nangyayari sa kanilang kiling at buntot ay simpleng imposible. A nagpapang-abot na mga bagay sa isang imahe? Kung magtulakan nagpapahiram ka ng computer na imahe, kahit na ang pinaka-makapangyarihang machine makahanap ng kahirapan upang bigyan ang tamang desisyon.

Kasunod na tanaw - ito ay isang balatkayo. Ang ilang mga bagay, hayop pagbabalat-kayo bilang ang kapaligiran, at medyo skillfully. At ang parehong mga lugar at pangkulay. Gayunpaman, nakikita natin ang mga ito, bagaman hindi laging mula sa kalayuan.

Ang isa pang problema - ang paggalaw. Mga bagay sa paggalaw mailarawan ng isip sumailalim sa pagpapapangit.

Marami sa mga bagay na ito ay napaka-variable. Dito, halimbawa, sa ang dalawang mga larawan sa ibaba ang mga bagay ng "chair".

At sa ito maaari kang umupo. Ngunit upang magturo sa isang makina, tulad na ang iba't ibang mga bagay sa hugis, kulay, materyal, lahat ng bagay ay isang bagay "chair" - ay masyadong mahirap. Ito ang hamon. Upang maisama ang mga pamamaraan ng computer vision - ay upang turuan ang isang makina upang maunawaan, pag-aralan, isip-isip.

Pagsasama-sama ng mga computer vision sa iba't-ibang mga platform

Ang masa ng computer vision nagsimula sa suutin mas noong 2001, nang lalangin niya ang unang mukha detector. Ginawa naming dalawang mga may-akda: Viola, Jones. Ito ay ang unang mabilis at maaasahang sapat na algorithm, na kung saan nagpakita ang kapangyarihan ng mga pamamaraan sa pagkatuto ng machine.

Ngayon computer vision magkaroon ng sapat na bagong mga praktikal na aplikasyon - pagkilala ng mukha ng tao.

Ngunit upang makilala ang mga tao tulad ng sa pelikula - sa random anggulo, iba't ibang mga kondisyon ng ilaw - ito ay imposible. Ngunit upang malutas ang problema, o isang bagay na iba't ibang mga tao na may iba't ibang pag-iilaw o sa ibang pose, katulad ng sa mga larawan sa pasaporte, ito ay posible na may isang mataas na antas ng kumpyansa.

pasaporte photo kinakailangan higit sa lahat dahil sa ang tampok na ito ng mga algorithm face recognition.

Halimbawa, kung mayroon kang isang biometric pasaporte, sa ilang mga modernong mga paliparan, ikaw ay maaaring gumamit ng automatic passport control system.

Walang lutas problema ng computer vision - ang kakayahan na makilala ang anumang teksto

Siguro ang isang tao na ginamit OCR system. Isa sa mga ito - isang Fine Reader, ay napaka-tanyag sa RuNet system. Mayroong maraming mga paraan kung saan mo punan ang data, ang mga ito ay ganap na-scan, ang impormasyon ay kinikilala ng ang sistema nang mahusay. Ngunit sa anumang tekstong nasa larawan ang sitwasyon ay magkano ang mas masahol pa. Ang problemang ito pa rin ay nananatiling walang lutas.

Mga Larong kinasasangkutan computer vision, motion capture

Paghiwalayin ang malaking lugar - ay ang paglikha ng mga tatlong-dimensional modelo at pagkuha ng paggalaw (na kung saan ay lubos na matagumpay na ipinatupad sa mga laro sa computer). Ang unang programa, na kung saan ay gumagamit ng computer vision - isang sistema ng pakikipag-ugnayan sa ang computer gamit ang mga galaw. Kapag ito ay nilikha ito ay isang pulutong ng mga bagay na bukas.

Ang algorithm ay dinisenyo medyo simple, ngunit upang i-configure ito kinuha upang lumikha ng isang generator ng synthetic larawan ng mga tao upang makakuha ng isang milyong mga larawan. Supercomputer sa kanila upang piliin ang mga parameter ng algorithm, na kung saan siya ngayon ay gumagana nang maayos.

Iyan ay isang milyong mga imahe at linggo countable supercomputer oras na posible upang lumikha ng isang algorithm na consumes 12% ng kapasidad ng isang processor at nagbibigay-daan sa isang tao upang malasahan ang posisyon sa real time. Ang Microsoft Kinect system (2010).

Maghanap ng mga larawan sa pamamagitan ng nilalaman ay nagbibigay-daan sa iyo upang mag-upload ng mga larawan sa sistema, at ang mga resulta ng mga ito ay magbibigay sa lahat ng mga larawan na may parehong nilalaman at ginawa mula sa parehong anggulo.

Mga halimbawa ng mga computer vision: tatlong-dimensional at dalawang-dimensional na mapa ay ngayon ay ginawa sa mga ito. Maps para sa pag-navigate sa mga sasakyan ay regular na-update ayon sa DVR.

May ay isang database na may bilyun-bilyong naka-geotag na mga larawan. Sa pag-download ng mga larawan sa database, maaari mong matukoy kung saan ito ay ginawa, at kahit na may ilang mga pananaw. Of course, sa kondisyon na ang lugar ay popular na sapat na sa isang pagkakataon ang mga turista at ginawa ng isang bilang ng mga larawan ng mga lugar ay doon.

robots ay lahat ng dako

Robotics sa kasalukuyang panahon, kahit saan, nang walang ito sa anumang paraan. Ngayon may mga sasakyang mayroong mga espesyal na kamera na kumikilala sa mga naglalakad at mga palatandaan ng kalsada upang magpadala ng mga command sa mga driver (ito sa isang paraan ng isang computer program upang tingnan, ay tumutulong sa mga motorist). At doon ay isang ganap na automated robotic sasakyan, ngunit hindi sila maaaring umasa lamang sa ang sistema ng video camera nang walang ang paggamit ng isang malaking halaga ng mga karagdagang impormasyon.

Modern camera - ito ay isang analogue kamera obskura

Pag-usapan natin ang mga digital na imahe. Modern digital camera ay nakaayos sa mga prinsipyo ng kamera obskura. Tanging sa halip ng mga butas sa pamamagitan ng kung saan ang liwanag papasok sa beam at projected papunta sa likod sa dingding ng silid ng paksa circuit, kami ay may isang espesyal na optical system na tinatawag na lens. Nito object ay upang mangolekta ng isang malaking liwanag beam at i-convert ito upang ang lahat ng mga sinag lumipas sa pamamagitan ng isang virtual punto upang makuha ang projection at bumuo ng isang imahe sa pelikula o matrix.

Modernong digital camera (matrix) ay binubuo ng mga indibidwal na elemento - pixels. Ang bawat pixel ay maaaring masukat ang enerhiya ng liwanag na kung saan ay insidente sa kabuuang pixel, at maglalabas ng isang output numero. Samakatuwid, sa isang digital camera, makakakuha tayo sa halip na ang liwanag ng imahe set light measurements, nahuli sa isang solong pixel - ang computer field ng pagtingin. Samakatuwid, kapag ang mga imahe na iyong nakikita namin ay hindi tuluy-tuloy na linya at malinaw na contours, at isang grid ng mga kulay na mga parisukat sa iba't ibang kulay - pixels.

Sa ibaba makikita mo ang unang digital na larawan sa mundo.

Ngunit sa larawan na ito ay hindi? Kulay. Anong kulay?

Sikolohikal na pang-unawa ng kulay

Kulay - ito ay kung ano ang nakikita namin. Ang kulay ng isa at ang parehong bagay para sa mga tao at pusa ay naiiba. Since namin (mga kawani na tao) at mga hayop optical system - ang mga pangitain ay naiiba. Samakatuwid, ang kulay - ito ay sikolohikal na kalidad ng aming mga pananaw na nangyayari kapag obserbahan ang mga bagay at liwanag. At hindi isang pisikal na ari-arian ng mga bagay at ang liwanag. Kulay - ay ang resulta ng pakikipag-ugnayan ng liwanag mga bahagi, at ang tanawin ng aming mga visual system.

Programming Computer Vision sa sawa gamit aklatan

Kung nakapagpasya ka upang makisali seryoso sa pag-aaral ng computer vision, dapat agad na maghanda para sa isang bilang ng mga problema, ito agham ay hindi ang pinakamadaling at Itinatago isang bilang ng mga pitfalls. Ngunit "Programming Computer Vision sa Python" ang pag-akda ng Jan Erik Solema - isang libro na binabalangkas ang lahat ng mga pinaka-simpleng wika. Dito ay makikita mo makakuha ng pamilyar sa mga pamamaraan ng pagkilala ng iba't ibang mga bagay sa 3D, malaman upang magtrabaho kasama ang stereo imahe, virtual reality at marami pang ibang mga aplikasyon ng computer paningin. Sa aklat ay sapat na halimbawa sa sawa. Ngunit ang paliwanag ay ipinakita, kaya na magsalita, pangkalahatan, sa gayon ay hindi Sobra na ang masyadong maraming pananaliksik at hard data. Magtrabaho na angkop para sa mga mag-aaral, amateurs, at mga taong mahilig sa. I-download ang aklat na ito at iba ang tungkol sa computer vision (pdf-format) ay maaaring maging sa network.

Sa sandaling ito, may mga open source library ng computer vision algorithm at image processing at de-numerong algorithm OpenCV. Ito ay ipinatupad sa karamihan sa mga modernong programming wika, ay open source. Kung makipag-usap namin tungkol sa computer vision, Python ay gumagamit ng bilang isang programming language, mayroon din itong suporta ng library, sa karagdagan, ito ay patuloy na umuusbong at may isang mahusay na komunidad.

Ang kumpanya "Microsoft" ay nagbibigay ng mga serbisyo nito Api-magagawang upang sanayin ang neural network upang gumana ito na may mga larawan ng mga tao. Mayroon ding mga pagkakataon na mag-aplay computer vision, Python ay gumagamit ng bilang isang programming language.

Mga computer, Information technology

Modern computer vision. Mga Gawain at computer vision technology. Programming Computer Vision sa Python

Ano ang computer vision? Ito ay ang kakayahan upang "makita" ang iyong computer

Semantiko kernel image

Ang distansya at haba sa computer vision

Pag-aaral, ang pagkilala sa pattern - ang landas sa ang paglikha ng mga superior intelligence

Robots ay maaaring "makita"

Sa itaas ng pintuan ng daigdig ng artificial intelligence

Ang computer na hindi pa rin maintindihan, ngunit ito "nakikita"

Pagsasama-sama ng mga computer vision sa iba't-ibang mga platform

Walang lutas problema ng computer vision - ang kakayahan na makilala ang anumang teksto

Mga Larong kinasasangkutan computer vision, motion capture

robots ay lahat ng dako

Modern camera - ito ay isang analogue kamera obskura

Sikolohikal na pang-unawa ng kulay

Programming Computer Vision sa sawa gamit aklatan

Similar articles

Mga computer

Mga computer

Mga computer

Mga computer

Mga computer

Mga computer

Trending Now

Balita at Lipunan

Kalusugan

Kalusugan

Pagkain at inumin

Balita at Lipunan

Mga Sining at Libangan

Newest

Pagkain at inumin

Balita at Lipunan

Pagkain at inumin

Kalusugan

Kalusugan

Mga Sining at Libangan